千鋒教育-做有情懷、有良心、有品質(zhì)的職業(yè)教育機(jī)構(gòu)

手機(jī)站

千鋒學(xué)習(xí)站 | 隨時(shí)隨地免費(fèi)學(xué)

掃一掃進(jìn)入千鋒手機(jī)站

領(lǐng)取全套視頻

關(guān)注千鋒學(xué)習(xí)站小程序
隨時(shí)隨地免費(fèi)學(xué)習(xí)課程

在Hadoop框架中最著名的就是MapReduce組件，它的處理邏輯來(lái)源于谷歌的舊三駕馬車之一——MapReduce。

MapReduce是解決問(wèn)題并行任務(wù)的一種模型，將一個(gè)可拆解的任務(wù)分散到多個(gè)計(jì)算節(jié)點(diǎn)進(jìn)行計(jì)算，最后合并計(jì)算結(jié)果。

例如，現(xiàn)在需要解決一個(gè)問(wèn)題：盡可能以比較快的速度統(tǒng)計(jì)一個(gè)圖書館在書架上一共陳列了多少本書。

圖統(tǒng)計(jì)圖書館的書

一種方法是，找一個(gè)在數(shù)數(shù)方面有超高本領(lǐng)的人，由他一個(gè)人來(lái)完成;另一種方法是，雇用一大批資質(zhì)平庸的負(fù)責(zé)統(tǒng)計(jì)圖書數(shù)量的人和一個(gè)負(fù)責(zé)分配任務(wù)的人，由分配任務(wù)的人負(fù)責(zé)劃分區(qū)域，確保每個(gè)人都分到一部分要統(tǒng)計(jì)的書架，不重不漏。然后對(duì)所有的人下發(fā)開始統(tǒng)計(jì)的指令，統(tǒng)計(jì)圖書的人將自己負(fù)責(zé)的區(qū)域統(tǒng)計(jì)完成記錄到紙上，所有統(tǒng)計(jì)圖書的人上交統(tǒng)計(jì)結(jié)果后，負(fù)責(zé)分配任務(wù)的人將所有人的統(tǒng)計(jì)結(jié)果進(jìn)行累加，得到圖書統(tǒng)計(jì)的結(jié)果。如果中途有人因?yàn)橐恍┮馔庠虬l(fā)生計(jì)數(shù)終止，那么就再派一個(gè)人前去重新完成他未完成的工作任務(wù)。

不難想象，如果方法得當(dāng)，后一種方法要比前一種方法靠譜一些。

這個(gè)有超高本領(lǐng)的人是不是容易被找到，他一個(gè)人會(huì)不會(huì)有失誤，他的薪水要求是不是太高，這些問(wèn)題的可控性會(huì)變得非常不好。而資質(zhì)平庸的人通常在市場(chǎng)供應(yīng)方面不會(huì)讓我們那么擔(dān)心，只要統(tǒng)計(jì)的方法論和調(diào)度方式?jīng)]有問(wèn)題，不僅這種方式的風(fēng)險(xiǎn)更小，而且成本更低，速度更快，MapReduce就是這樣一種并行機(jī)制。

下面從辯證的角度來(lái)看這種機(jī)制的優(yōu)點(diǎn)和缺點(diǎn)。優(yōu)點(diǎn)如下：

(1)隱藏大量技術(shù)細(xì)節(jié)。開發(fā)人員不需要關(guān)注容災(zāi)管理、負(fù)載均衡和并行計(jì)算實(shí)現(xiàn)的代碼部分，只需要調(diào)用相關(guān)的API，設(shè)置參數(shù)即可。

(2)可伸縮性好。在Map階段，可以實(shí)現(xiàn)每增加一臺(tái)服務(wù)器就將計(jì)算能力接入到集群里，而且能實(shí)現(xiàn)在集群運(yùn)行時(shí)添加計(jì)算節(jié)點(diǎn)(一般用在線擴(kuò)容這個(gè)技術(shù)名詞來(lái)描述這一特點(diǎn))。缺點(diǎn)如下

(1)實(shí)時(shí)性差。和磁盤交互頻繁，中間要多次將計(jì)算結(jié)果保存到磁盤，使實(shí)時(shí)計(jì)算能力大打折扣。

(2)編程習(xí)慣需要適應(yīng)。需要將在學(xué)習(xí)《數(shù)據(jù)結(jié)構(gòu)》或者算法理論中學(xué)習(xí)到的算法實(shí)現(xiàn)方式轉(zhuǎn)換成為MapReduce方式，編程時(shí)需要特意構(gòu)建這種程序邏輯。而且這種方式的局限性導(dǎo)致并非所有的問(wèn)題都適合用MapReduce方式進(jìn)行解決。

雖然有不少缺點(diǎn)，但是Hadoop仍然是目前離線計(jì)算的利器。