一区二区久久-一区二区三区www-一区二区三区久久-一区二区三区久久精品-麻豆国产一区二区在线观看-麻豆国产视频

大數(shù)據(jù)量,海量數(shù)據(jù) 處理方法總結

  下面的方法是我對海量數(shù)據(jù)的處理方法進行了一個一般性的總結,當然這些方法可能并不能完全覆蓋所有的問題,但是這樣的一些方法也基本可以處理絕大多數(shù)遇到的問題。下面的一些問題基本直接來源于公司的面試筆試題目,方法不一定最優(yōu),如果你有更好的處理方法,歡迎與我討論。

  1.Bloom filter

  適用范圍:可以用來實現(xiàn)數(shù)據(jù)字典,進行數(shù)據(jù)的判重,或者集合求交集

  基本原理及要點:
  對于原理來說很簡單,位數(shù)組+k個獨立hash函數(shù)。將hash函數(shù)對應的值的位數(shù)組置1,查找時如果發(fā)現(xiàn)所有hash函數(shù)對應位都是1說明存在,很明顯這個過程并不保證查找的結果是100%正確的。同時也不支持刪除一個已經(jīng)插入的關鍵字,因為該關鍵字對應的位會牽動到其他的關鍵字。所以一個簡單的改進就是 counting Bloom filter,用一個counter數(shù)組代替位數(shù)組,就可以支持刪除了。

  還有一個比較重要的問題,如何根據(jù)輸入元素個數(shù)n,確定位數(shù)組m的大小及hash函數(shù)個數(shù)。當hash函數(shù)個數(shù)k=(ln2)*(m/n)時錯誤率最小。在錯誤率不大于E的情況下,m至少要等于n*lg(1/E)才能表示任意n個元素的集合。但m還應該更大些,因為還要保證bit數(shù)組里至少一半為0,則m應該>=nlg(1/E)*lge 大概就是nlg(1/E)1.44倍(lg表示以2為底的對數(shù))。

  舉個例子我們假設錯誤率為0.01,則此時m應大概是n的13倍。這樣k大概是8個。

  注意這里m與n的單位不同,m是bit為單位,而n則是以元素個數(shù)為單位(準確的說是不同元素的個數(shù))。通常單個元素的長度都是有很多bit的。所以使用bloom filter內(nèi)存上通常都是節(jié)省的。

  擴展:
  Bloom filter將集合中的元素映射到位數(shù)組中,用k(k為哈希函數(shù)個數(shù))個映射位是否全1表示元素在不在這個集合中。Counting bloom filter(CBF)將位數(shù)組中的每一位擴展為一個counter,從而支持了元素的刪除操作。Spectral Bloom Filter(SBF)將其與集合元素的出現(xiàn)次數(shù)關聯(lián)。SBF采用counter中的最小值來近似表示元素的出現(xiàn)頻率。

  問題實例:給你A,B兩個文件,各存放50億條URL,每條URL占用64字節(jié),內(nèi)存限制是4G,讓你找出A,B文件共同的URL。如果是三個乃至n個文件呢?

  根據(jù)這個問題我們來計算下內(nèi)存的占用,4G=2^32大概是40億*8大概是340億,n=50億,如果按出錯率0.01算需要的大概是650億個bit。現(xiàn)在可用的是340億,相差并不多,這樣可能會使出錯率上升些。另外如果這些urlip是一一對應的,就可以轉換成ip,則大大簡單了。

  2.Hashing

  適用范圍:快速查找,刪除的基本數(shù)據(jù)結構,通常需要總數(shù)據(jù)量可以放入內(nèi)存

  基本原理及要點:
  hash函數(shù)選擇,針對字符串,整數(shù),排列,具體相應的hash方法。
  碰撞處理,一種是open hashing,也稱為拉鏈法;另一種就是closed hashing,也稱開地址法,opened addressing。

擴展:
  d-left hashing中的d是多個的意思,我們先簡化這個問題,看一看2-left hashing。2-left hashing指的是將一個哈希表分成長度相等的兩半,分別叫做T1和T2,給T1和T2分別配備一個哈希函數(shù),h1和h2。在存儲一個新的key時,同時用兩個哈希函數(shù)進行計算,得出兩個地址h1[key]和h2[key]。這時需要檢查T1中的h1[key]位置和T2中的h2[key]位置,哪一個位置已經(jīng)存儲的(有碰撞的)key比較多,然后將新key存儲在負載少的位置。如果兩邊一樣多,比如兩個位置都為空或者都存儲了一個key,就把新key存儲在左邊的T1子表中,2-left也由此而來。在查找一個key時,必須進行兩次hash,同時查找兩個位置。

  問題實例:
  1).海量日志數(shù)據(jù),提取出某日訪問百度次數(shù)最多的那個IP。

  IP的數(shù)目還是有限的,最多2^32個,所以可以考慮使用hash將ip直接存入內(nèi)存,然后進行統(tǒng)計。

  3.bit-map

  適用范圍:可進行數(shù)據(jù)的快速查找,判重,刪除,一般來說數(shù)據(jù)范圍是int的10倍以下

  基本原理及要點:使用bit數(shù)組來表示某些元素是否存在,比如8位電話號碼

  擴展:bloom filter可以看做是對bit-map的擴展

  問題實例:

  1)已知某個文件內(nèi)包含一些電話號碼,每個號碼為8位數(shù)字,統(tǒng)計不同號碼的個數(shù)。

  8位最多99 999 999,大概需要99m個bit,大概10幾m字節(jié)的內(nèi)存即可。

  2)2.5億個整數(shù)中找出不重復的整數(shù)的個數(shù),內(nèi)存空間不足以容納這2.5億個整數(shù)。

  將bit-map擴展一下,用2bit表示一個數(shù)即可,0表示未出現(xiàn),1表示出現(xiàn)一次,2表示出現(xiàn)2次及以上。或者我們不用2bit來進行表示,我們用兩個bit-map即可模擬實現(xiàn)這個2bit-map。

  4.堆

  適用范圍:海量數(shù)據(jù)前n大,并且n比較小,堆可以放入內(nèi)存

  基本原理及要點:最大堆求前n小,最小堆求前n大。方法,比如求前n小,我們比較當前元素與最大堆里的最大元素,如果它小于最大元素,則應該替換那個最大元素。這樣最后得到的n個元素就是最小的n個。適合大數(shù)據(jù)量,求前n小,n的大小比較小的情況,這樣可以掃描一遍即可得到所有的前n元素,效率很高。

  擴展:雙堆,一個最大堆與一個最小堆結合,可以用來維護中位數(shù)。

  問題實例:
  1)100w個數(shù)中找最大的前100個數(shù)。

  用一個100個元素大小的最小堆即可。

  5.雙層桶劃分----其實本質(zhì)上就是【分而治之】的思想,重在“分”的技巧上!

  適用范圍:第k大,中位數(shù),不重復或重復的數(shù)字

  基本原理及要點:因為元素范圍很大,不能利用直接尋址表,所以通過多次劃分,逐步確定范圍,然后最后在一個可以接受的范圍內(nèi)進行。可以通過多次縮小,雙層只是一個例子。

  擴展:

  問題實例:
  1).2.5億個整數(shù)中找出不重復的整數(shù)的個數(shù),內(nèi)存空間不足以容納這2.5億個整數(shù)。

  有點像鴿巢原理,整數(shù)個數(shù)為2^32,也就是,我們可以將這2^32個數(shù),劃分為2^8個區(qū)域(比如用單個文件代表一個區(qū)域),然后將數(shù)據(jù)分離到不同的區(qū)域,然后不同的區(qū)域在利用bitmap就可以直接解決了。也就是說只要有足夠的磁盤空間,就可以很方便的解決。

  2).5億個int找它們的中位數(shù)。

  這個例子比上面那個更明顯。首先我們將int劃分為2^16個區(qū)域,然后讀取數(shù)據(jù)統(tǒng)計落到各個區(qū)域里的數(shù)的個數(shù),之后我們根據(jù)統(tǒng)計結果就可以判斷中位數(shù)落到那個區(qū)域,同時知道這個區(qū)域中的第幾大數(shù)剛好是中位數(shù)。然后第二次掃描我們只統(tǒng)計落在這個區(qū)域中的那些數(shù)就可以了。

  實際上,如果不是int是int64,我們可以經(jīng)過3次這樣的劃分即可降低到可以接受的程度。即可以先將int64分成2^24個區(qū)域,然后確定區(qū)域的第幾大數(shù),在將該區(qū)域分成2^20個子區(qū)域,然后確定是子區(qū)域的第幾大數(shù),然后子區(qū)域里的數(shù)的個數(shù)只有2^20,就可以直接利用direct addr table進行統(tǒng)計了。

  6.數(shù)據(jù)庫索引

  適用范圍:大數(shù)據(jù)量的增刪改查

  基本原理及要點:利用數(shù)據(jù)的設計實現(xiàn)方法,對海量數(shù)據(jù)的增刪改查進行處理。
擴展:
  問題實例:


  7.倒排索引(Inverted index)

  適用范圍:搜索引擎,關鍵字查詢

  基本原理及要點:為何叫倒排索引?一種索引方法,被用來存儲在全文搜索下某個單詞在一個文檔或者一組文檔中的存儲位置的映射。

  以英文為例,下面是要被索引的文本:

T0 = "it is what it is"T1 = "what is it"T2 = "it is a banana"

it知識庫大數(shù)據(jù)量,海量數(shù)據(jù) 處理方法總結,轉載需保留來源!

鄭重聲明:本文版權歸原作者所有,轉載文章僅為傳播更多信息之目的,如作者信息標記有誤,請第一時間聯(lián)系我們修改或刪除,多謝。

主站蜘蛛池模板: 国产日韩欧美一区二区三区综合 | 亚洲国产香蕉视频欧美 | 久热99这里只有精品视频6 | 亚洲精品久中文字幕 | 国产成人亚洲综合无 | 久久riav二区三区 | 国产精品亚洲专一区二区三区 | 亚洲欧美日韩国产一区二区三区精品 | 国产成人一区二区三区影院免费 | 牛牛本精品99久久精品88m | 欧美日本一区亚洲欧美一区 | 激情在线视频 | 欧美中文小说在线观看 | 亚洲性久久| 看片中文字幕 | 九九九免费视频 | 亚洲香蕉伊综合在人在线 | 精品伊人久久久香线蕉 | 久久久国产麻豆 | 狠狠久久亚洲欧美专区 | 99久久精品免费看国产四区 | 久久人| 99久久精品国产免看国产一区 | 伊人国产精品 | 国产乱理论片在线观看理论 | 色5月婷婷| 国产亚洲漂亮白嫩美女在线 | 国产一区二区三区高清视频 | 久久精品乱子伦观看 | 亚洲午夜在线视频 | 欧美成人亚洲国产精品 | 欧美午夜性刺激在线观看免费 | 超人碰碰碰人人成碰人 | 91久久精品日日躁夜夜躁欧美 | 国内精品哆啪啪 | 婷婷久久综合网 | 免费午夜视频 | 美女扒开内衣看个够网站 | 免费国产怡红院在线观看 | 五月婷婷激情四射 | 中文字幕一区视频一线 |