Mysql為什么只能支持2000w左右的數(shù)據(jù)量?

來源：千鋒教育

發(fā)布人：xqq

時間： 2023-10-11 22:19:01 1697033941

一、Mysql為什么只能支持2000w左右的數(shù)據(jù)量

簡而言之，是B+樹的層數(shù)問題。

假設表中一行記錄的數(shù)據(jù)大小為1k(實際上現(xiàn)在很多互聯(lián)網(wǎng)業(yè)務數(shù)據(jù)記錄大小通常就是1K左右)

所以(主鍵索引中)葉子節(jié)點的一個節(jié)點(即一個page,且為數(shù)據(jù)頁),在這里認為可以放16行記錄.

假設主鍵ID為bigint類型(長度為8字節(jié))，而指針大小在InnoDB源碼中是6字節(jié)，這樣一共14字節(jié)，我們一個頁(Page,在此為目錄頁)中能存放多少這樣的(索引)單元，其實就代表有多少指針，即16384/14=1170。即一個目錄Page,能存大概1170個(索引)單元.

那么可以算出一棵高度為2的B+樹，能存放1170*16=18720條這樣的數(shù)據(jù)記錄。

根據(jù)同樣原理, 可以算出一個高度為3的B+樹可以存放：1170*1170*16=21902400條這樣的記錄。

所以在InnoDB中B+樹高度一般為1-3層，就能滿足千萬級的數(shù)據(jù)存儲。在查找數(shù)據(jù)時一次頁的查找代表一次磁盤IO，所以通過主鍵索引查詢通常只需要1-3次IO操作即可查找到數(shù)據(jù)。

所以如果表A的數(shù)據(jù)行數(shù)為600多萬，B+樹高度為3；表B的數(shù)據(jù)行數(shù)只有15萬，B+樹高度也為3?？梢钥闯霰M管數(shù)據(jù)量差異較大，這兩個表樹的高度都是3，換句話說這兩個表通過索引查詢效率并沒有太大差異，因為都只需要做3次IO。如果有一張表行數(shù)是一千萬，那么其B+樹高度依舊是3，查詢效率仍然不會相差太大。

當然如果一張表只有5行數(shù)據(jù)，那么它的B+樹高度為1。

即當數(shù)據(jù)量在18720到21902400行之間時,B+樹的高度都是3,查詢的速度幾乎相同.

因為二分查找是在內存里邊進行的,速度很快.和磁盤IO差幾個數(shù)量級,可以忽略. 那么即從2萬行記錄到2200萬行記錄,主體的查詢性能差不多。

延伸閱讀：

二、數(shù)據(jù)庫的查詢功能實現(xiàn)原理

數(shù)據(jù)庫查詢是數(shù)據(jù)庫的最主要功能之一。我們都希望查詢數(shù)據(jù)的速度能盡可能的快，因此數(shù)據(jù)庫系統(tǒng)的設計者會從查詢算法的角度進行優(yōu)化。最基本的查詢算法當然是順序查找（linear search），這種復雜度為O(n)的算法在數(shù)據(jù)量很大時顯然是糟糕的，好在計算機科學的發(fā)展提供了很多更優(yōu)異的查找算法，例如二分查找（binary search）、二叉樹查找（binary tree search）等。如果稍微分析一下會發(fā)現(xiàn)，每種查找算法都只能應用于特定的數(shù)據(jù)結構之上，例如二分查找要求被檢索數(shù)據(jù)有序，而二叉樹查找只能應用于二叉查找樹上，但是數(shù)據(jù)本身的組織結構不可能完全滿足各種數(shù)據(jù)結構（例如，理論上不可能同時將兩列都按順序進行組織），所以，在數(shù)據(jù)之外，數(shù)據(jù)庫系統(tǒng)還維護著滿足特定查找算法的數(shù)據(jù)結構，這些數(shù)據(jù)結構以某種方式引用（指向）數(shù)據(jù)，這樣就可以在這些數(shù)據(jù)結構上實現(xiàn)高級查找算法。這種數(shù)據(jù)結構，就是索引。

tags: it技術干貨