在對大數(shù)據(jù)系統(tǒng)有了初步了解后,要知道大數(shù)據(jù)系統(tǒng)的架構(gòu)其實是不一樣的,要根據(jù)企業(yè)各自的需求來選擇合適的組件來構(gòu)建自己的系統(tǒng),那么常見的組件有哪些呢?它們各自的作用是什么?下面介紹了大數(shù)據(jù)系統(tǒng)中常用的組件。
1、Hadoop
Hadoop是大數(shù)據(jù)系統(tǒng)的基礎(chǔ)組件,許多其他分布式存儲和數(shù)據(jù)處理組件都建立在它的基礎(chǔ)上,它是Apache旗下的一個開源軟件平臺,還包括HDFS(分布式文件系統(tǒng))、YARN(運行調(diào)度系統(tǒng))和MapReduce(分布式編程運算框架)。
2、HDFS
HDFS是一個用于存儲文件的分布式文件系統(tǒng),由許多服務(wù)器組成,它們連接在一起,為各種分布式計算系統(tǒng)(MapReduce、Spark、tez)提供功能和數(shù)據(jù)存儲。
3、YARN(Yet Another Resource Negotiator),
一個負責作業(yè)調(diào)度和集群資源管理的資源協(xié)調(diào)者。
4、MapReduce
這是一個分布式計算編程組件,它將一個算法抽象成兩部分,少量的代碼可以實現(xiàn)大量數(shù)據(jù)的并行離線計算。
5、HIVE
這是一個基于大數(shù)據(jù)技術(shù)(文件系統(tǒng)+計算框架)的SQL數(shù)據(jù)倉庫工具,它將結(jié)構(gòu)化的數(shù)據(jù)文件映射到數(shù)據(jù)庫表中,實現(xiàn)了簡單的SQL查詢,并可以將SQL語句直接轉(zhuǎn)換為MapReduce任務(wù)來執(zhí)行。
6、Hbase
一個基于Hadoop的分布式海量數(shù)據(jù)庫,一個建立在HDFS上的分布式列數(shù)據(jù)庫。HBASE是Google Bigtable的一個開源實現(xiàn),但有許多不同之處。