要說大數(shù)據(jù)基礎(chǔ)學(xué)什么,內(nèi)容就多了,但其實很多內(nèi)容都是其他方向的技術(shù),在大數(shù)據(jù)的實際工作中運用的并不多,我們只需要作為了解就可以了,否則會浪費大量時間顧此失彼、得不償失。下面來詳細(xì)介紹:
大數(shù)據(jù)基礎(chǔ)學(xué)習(xí)內(nèi)容:
離線數(shù)倉:
Java、MySQL、Maven、Git、OpenResty、Linux、Shell、HDFS、YARN、Zookeeper、MapReduce、Scala、Python、SparkCore、Hive、SparkSQL、Presto、Sqoop、DataX、Flume、CDH、數(shù)倉架構(gòu)、維度建模、SuperSet、Azkaban、Airflow等。掌握企業(yè)級基建環(huán)境部署、Hive和Spark數(shù)據(jù)開發(fā)、數(shù)據(jù)倉庫搭建、數(shù)據(jù)抽取、數(shù)據(jù)清洗、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)加載、數(shù)據(jù)應(yīng)用
實時倉庫:
Kafka、Structured Streaming、Hudi、Canal、Flink、ClickHouse、HBase、Phoenix、Elasticsearch、Redis
Linux:
因為大數(shù)據(jù)相關(guān)軟件都是在Linux上運行的,所以Linux要學(xué)習(xí)的扎實一些,學(xué)好Linux對你快速掌握大數(shù)據(jù)相關(guān)技術(shù)會有很大的幫助,能讓你更好的理解hadoop、hive、hbase、spark等大數(shù)據(jù)軟件的運行環(huán)境和網(wǎng)絡(luò)環(huán)境配置,學(xué)會shell就能看懂腳本這樣能更容易理解和配置大數(shù)據(jù)集群。還能讓你對以后新出的大數(shù)據(jù)技術(shù)學(xué)習(xí)起來更快。
以上是大數(shù)據(jù)所需要掌握的技術(shù)點,最終的實踐項目還需要掌握數(shù)據(jù)采集與監(jiān)控平臺、準(zhǔn)實時數(shù)據(jù)倉庫、用戶畫像、推薦系統(tǒng)、基于Flink的實時數(shù)據(jù)倉庫、元數(shù)據(jù)管理與數(shù)據(jù)治理。以上暫且作為了解即可。
上述是大數(shù)據(jù)基礎(chǔ)所要了解的全部內(nèi)容,但學(xué)習(xí)大數(shù)據(jù),其實只需要學(xué)習(xí)Java的標(biāo)準(zhǔn)版JavaSE就可以了,像Servlet、JSP、Tomcat、Struts、Spring、Hibernate,Mybatis都是JavaEE方向的技術(shù)在大數(shù)據(jù)技術(shù)里用到的并不多,只需要了解就可以了,當(dāng)然Java怎么連接數(shù)據(jù)庫還是要知道的,像JDBC一定要掌握一下。Hibernate或Mybites也能連接數(shù)據(jù)庫,不是說學(xué)這些不好,而是說學(xué)這些可能會用掉很多時間,到最后實際工作中用到的比例也很少。
大數(shù)據(jù)基礎(chǔ)學(xué)什么?雖然看起來內(nèi)容很多,但有一些只是需要我們了解即可,如果選擇一家靠譜的培訓(xùn)機構(gòu),一步一步跟著老師的節(jié)奏學(xué)習(xí),多問多思考,學(xué)成大數(shù)據(jù)也是不難的。如果你對大數(shù)據(jù)培訓(xùn)有興趣,歡迎隨時咨詢千鋒教育!