當前位置:首頁 » 數據倉庫 » 什麼是資料庫分片
擴展閱讀
pm3軟體刪除了怎麼辦 2022-08-11 09:55:58
硬碟尋道錯誤 2022-08-11 09:54:39
大基金內存儲器公司 2022-08-11 09:54:25

什麼是資料庫分片

發布時間: 2022-07-05 18:32:59

資料庫為什麼要分庫分表

1 基本思想之什麼是分庫分表?
從字面上簡單理解,就是把原本存儲於一個庫的數據分塊存儲到多個庫上,把原本存儲於一個表的數據分塊存儲到多個表上。
2 基本思想之為什麼要分庫分表?


據庫中的數據量不一定是可控的,在未進行分庫分表的情況下,隨著時間和業務的發展,庫中的表會越來越多,表中的數據量也會越來越大,相應地,數據操作,增
刪改查的開銷也會越來越大;另外,由於無法進行分布式式部署,而一台伺服器的資源(CPU、磁碟、內存、IO等)是有限的,最終資料庫所能承載的數據量、
數據處理能力都將遭遇瓶頸。
3 分庫分表的實施策略。

分庫分表有垂直切分和水平切分兩種。
3.1
何謂垂直切分,即將表按照功能模塊、關系密切程度劃分出來,部署到不同的庫上。例如,我們會建立定義資料庫workDB、商品資料庫payDB、用戶數據
庫userDB、日誌資料庫logDB等,分別用於存儲項目數據定義表、商品定義表、用戶數據表、日誌數據表等。
3.2
何謂水平切分,當一個表中的數據量過大時,我們可以把該表的數據按照某種規則,例如userID散列,進行劃分,然後存儲到多個結構相同的表,和不同的庫
上。例如,我們的userDB中的用戶數據表中,每一個表的數據量都很大,就可以把userDB切分為結構相同的多個userDB:part0DB、
part1DB等,再將userDB上的用戶數據表userTable,切分為很多userTable:userTable0、userTable1等,
然後將這些表按照一定的規則存儲到多個userDB上。
3.3 應該使用哪一種方式來實施資料庫分庫分表,這要看資料庫中數據量的瓶頸所在,並綜合項目的業務類型進行考慮。
如果資料庫是因為表太多而造成海量數據,並且項目的各項業務邏輯劃分清晰、低耦合,那麼規則簡單明了、容易實施的垂直切分必是首選。

如果資料庫中的表並不多,但單表的數據量很大、或數據熱度很高,這種情況之下就應該選擇水平切分,水平切分比垂直切分要復雜一些,它將原本邏輯上屬於一體
的數據進行了物理分割,除了在分割時要對分割的粒度做好評估,考慮數據平均和負載平均,後期也將對項目人員及應用程序產生額外的數據管理負擔。
在現實項目中,往往是這兩種情況兼而有之,這就需要做出權衡,甚至既需要垂直切分,又需要水平切分。我們的游戲項目便綜合使用了垂直與水平切分,我們首先對資料庫進行垂直切分,然後,再針對一部分表,通常是用戶數據表,進行水平切分。
4 分庫分表存在的問題。

4.1 事務問題。
在執行分庫分表之後,由於數據存儲到了不同的庫上,資料庫事務管理出現了困難。如果依賴資料庫本身的分布式事務管理功能去執行事務,將付出高昂的性能代價;如果由應用程序去協助控制,形成程序邏輯上的事務,又會造成編程方面的負擔。
4.2 跨庫跨表的join問題。
在執行了分庫分表之後,難以避免會將原本邏輯關聯性很強的數據劃分到不同的表、不同的庫上,這時,表的關聯操作將受到限制,我們無法join位於不同分庫的表,也無法join分表粒度不同的表,結果原本一次查詢能夠完成的業務,可能需要多次查詢才能完成。
4.3 額外的數據管理負擔和數據運算壓力。

外的數據管理負擔,最顯而易見的就是數據的定位問題和數據的增刪改查的重復執行問題,這些都可以通過應用程序解決,但必然引起額外的邏輯運算,例如,對於
一個記錄用戶成績的用戶數據表userTable,業務要求查出成績最好的100位,在進行分表之前,只需一個order
by語句就可以搞定,但是在進行分表之後,將需要n個order
by語句,分別查出每一個分表的前100名用戶數據,然後再對這些數據進行合並計算,才能得出結果。

❷ 什麼叫分布式資料庫,有什麼優點和缺點

1.分布式資料庫是資料庫的一種,是資料庫技術和網路技術的結合產物。

2.各有優點和缺點.分布式資料庫分為邏輯上分部物理上分布及邏輯上分布物理上集中兩種。

是的,分布式數據文件便於資料庫的管理維護。

❸ 什麼叫分布式資料庫

1.分布式資料庫是資料庫的一種,是資料庫技術和網路技術的結合產物。

2.各有優點和缺點.分布式資料庫分為邏輯上分部物理上分布及邏輯上分布物理上集中兩種。

是的,分布式數據文件便於資料庫的管理維護。

❹ 分布式資料庫的數據分片類型

(1)水平分片:按一定的條件把全局關系的所有元組劃分成若干不相交的子集,每個子集為關系的一個片段。
(2)垂直分片:把一個全局關系的屬性集分成若乾子集,並在這些子集上作投影運算,每個投影稱為垂直分片。
(3)導出分片:又稱為導出水平分片,即水平分片的條件不是本關系屬性的條件,而是其他關系屬性的條件。
(4)混合分片:以上三種方法的混合。可以先水平分片再垂直分片,或先垂直分片再水平分片,或其他形式,但他們的結果是不相同的。
條件:
(1)完備性條件:必須把全局關系的所有數據映射到片段中,決不允許有屬於全局關系的數據卻不屬於它的某一個片段。
(2)可重構條件:必須保證能夠由同一個全局關系的各個片段來重建該全局關系。對於水平分片可用並操作重構全局關系;對於垂直分片可用聯接操作重構全局關系。
(3)不相交條件:要求一個全局關系被分割後所得的各個數據片段互不重疊(對垂直分片的主鍵除外)。

❺ GBase 8a MPP Cluster資料庫的數據分片是什麼概念如何理解

這種概念上的含混不清之所以還在流傳,主要是因為不懂技術的人而喜歡這些概念的大有人在,所以也並不在意要去澄清概念。「既然分布式資料庫是MPP架構,那麼MPP架構就等於分布式資料庫應該也沒什麼問題吧。」於是大家就都不在意了。
比如,ShardingSphere轉向可插拔架構後,其核心流程里已經沒有分片功能了,分片會作為可插拔能力的一部分接入到服務中。對於資料庫中間件來說,幾乎屬於產品重定義。與許多人對資料庫中間件的固有認知相悖,因為在許多人的理解中,資料庫中間件不就是為了分庫分表而存在的嗎?
理解關系資料庫中的相關概念、關系模型及其三要素;理解關系的性質及類型;理解完整性規則在關系資料庫中的作用;理解關系代數運算,掌握傳統的集合運算與專門的關系運算;理解並掌握關系演算。
很多人在對比兩者時,其實並不知道MPP的含義究竟是什麼、兩者的可比性到底在哪裡。實際上,當人們在對比兩者時,與其說是對比架構,不如說是對比產品。雖然MPP的原意是「大規模並行處理」,但由於一些歷史原因,現在當人們說到MPP架構時,它們實際上指代的是「分布式資料庫」,而Hadoop架構指的則是以Hadoop項目為基礎的一系列分布式計算和存儲框架。不過由於MPP的字面意思,現實中還是經常有人糾結兩者到底有什麼聯系和區別,兩者到底是不是同一個層面的概念。