所謂海量數(shù)據(jù)處理,無非就是基于海量數(shù)據(jù)上的存儲、處理、操作。何謂海量,就是數(shù)據(jù)量太大,所以導(dǎo)致要么是無法在較短時間內(nèi)迅速解決,要么是數(shù)據(jù)太大,導(dǎo)致無法一次性裝入內(nèi)存。
那解決辦法呢?
針對時間: 我們可以采用巧妙的算法搭配合適的數(shù)據(jù)結(jié)構(gòu),如Bloom filter/Hash/bit-map/堆/數(shù)據(jù)庫或倒排索引/trie樹;
針對空間: 無非就一個辦法: 大而化小,分而治之(hash映射);
集群|分布式: 通俗點來講,單機就是處理裝載數(shù)據(jù)的機器有限(只要考慮cpu,內(nèi)存,硬盤的數(shù)據(jù)交互); 而集群適合分布式處理,并行計算(更多考慮節(jié)點和節(jié)點間的數(shù)據(jù)交互)。