分表是分散資料庫壓力的好方法。
分表,最直白的意思,就是將一個表結構分為多個表,然後,可以再同一個庫里,也可以放到不同的庫。
當然,首先要知道什麼情況下,才需要分表。個人覺得單表記錄條數達到百萬到千萬級別時就要使用分表了。
分表的分類
**1、縱向分表**
將本來可以在同一個表的內容,人為劃分為多個表。(所謂的本來,是指按照關系型資料庫的第三範式要求,是應該在同一個表的。)
分表理由:根據數據的活躍度進行分離,(因為不同活躍的數據,處理方式是不同的)
案例:
對於一個博客系統,文章標題,作者,分類,創建時間等,是變化頻率慢,查詢次數多,而且最好有很好的實時性的數據,我們把它叫做冷數據。而博客的瀏覽量,回復數等,類似的統計信息,或者別的變化頻率比較高的數據,我們把它叫做活躍數據。所以,在進行資料庫結構設計的時候,就應該考慮分表,首先是縱向分表的處理。
這樣縱向分表後:
首先存儲引擎的使用不同,冷數據使用MyIsam 可以有更好的查詢數據。活躍數據,可以使用Innodb ,可以有更好的更新速度。
其次,對冷數據進行更多的從庫配置,因為更多的操作時查詢,這樣來加快查詢速度。對熱數據,可以相對有更多的主庫的橫向分表處理。
其實,對於一些特殊的活躍數據,也可以考慮使用memcache ,redis之類的緩存,等累計到一定量再去更新資料庫。或者mongodb 一類的nosql 資料庫,這里只是舉例,就先不說這個。
**2、橫向分表**
字面意思,就可以看出來,是把大的表結構,橫向切割為同樣結構的不同表,如,用戶信息表,user_1,user_2等。表結構是完全一樣,但是,根據某些特定的規則來劃分的表,如根據用戶ID來取模劃分。
分表理由:根據數據量的規模來劃分,保證單表的容量不會太大,從而來保證單表的查詢等處理能力。
案例:同上面的例子,博客系統。當博客的量達到很大時候,就應該採取橫向分割來降低每個單表的壓力,來提升性能。例如博客的冷數據表,假如分為100個表,當同時有100萬個用戶在瀏覽時,如果是單表的話,會進行100萬次請求,而現在分表後,就可能是每個表進行1萬個數據的請求(因為,不可能絕對的平均,只是假設),這樣壓力就降低了很多很多。
延伸:為什麼要分表和分區?
日常開發中我們經常會遇到大表的情況,所謂的大表是指存儲了百萬級乃至千萬級條記錄的表。這樣的表過於龐大,導致資料庫在查詢和插入的時候耗時太長,性能低下,如果涉及聯合查詢的情況,性能會更加糟糕。分表和表分區的目的就是減少資料庫的負擔,提高資料庫的效率,通常點來講就是提高表的增刪改查效率。
什麼是分表?
分表是將一個大表按照一定的規則分解成多張具有獨立存儲空間的實體表,我們可以稱為子表,每個表都對應三個文件,MYD數據文件,.MYI索引文件,.frm表結構文件。這些子表可以分布在同一塊磁碟上,也可以在不同的機器上。app讀寫的時候根據事先定義好的規則得到對應的子表名,然後去操作它。
什麼是分區?
分區和分表相似,都是按照規則分解表。不同在於分表將大表分解為若干個獨立的實體表,而分區是將數據分段劃分在多個位置存放,可以是同一塊磁碟也可以在不同的機器。分區後,表面上還是一張表,但數據散列到多個位置了。app讀寫的時候操作的還是大表名字,db自動去組織分區的數據。
**MySQL分表和分區有什麼聯系呢?**
1、都能提高mysql的性高,在高並發狀態下都有一個良好的表現。
2、分表和分區不矛盾,可以相互配合的,對於那些大訪問量,並且表數據比較多的表,我們可以採取分表和分區結合的方式(如果merge這種分表方式,不能和分區配合的話,可以用其他的分表試),訪問量不大,但是表數據很多的表,我們可以採取分區的方式等。
3、分表技術是比較麻煩的,需要手動去創建子表,app服務端讀寫時候需要計運算元表名。採用merge好一些,但也要創建子表和配置子表間的union關系。
4、表分區相對於分表,操作方便,不需要創建子表。
我們知道對於大型的互聯網應用,資料庫單表的數據量可能達到千萬甚至上億級別,同時面臨這高並發的壓力。Master-Slave結構只能對資料庫的讀能力進行擴展,寫操作還是集中在Master中,Master並不能無限制的掛接Slave庫,如果需要對資料庫的吞吐能力進行進一步的擴展,可以考慮採用分庫分表的策略。
**1、分表**
在分表之前,首先要選中合適的分表策略(以哪個字典為分表欄位,需要將數據分為多少張表),使數據能夠均衡的分布在多張表中,並且不影響正常的查詢。在企業級應用中,往往使用org_id(組織主鍵)做為分表欄位,在互聯網應用中往往是userid。在確定分表策略後,當數據進行存儲及查詢時,需要確定到哪張表裡去查找數據,
數據存放的數據表 = 分表欄位的內容 % 分表數量
**2、分庫**
分表能夠解決單表數據量過大帶來的查詢效率下降的問題,但是不能給資料庫的並發訪問帶來質的提升,面對高並發的寫訪問,當Master無法承擔高並發的寫入請求時,不管如何擴展Slave伺服器,都沒有意義了。我們通過對資料庫進行拆分,來提高資料庫的寫入能力,即所謂的分庫。分庫採用對關鍵字取模的方式,對資料庫進行路由。
數據存放的資料庫=分庫欄位的內容%資料庫的數量
**3、即分表又分庫**
資料庫分表可以解決單表海量數據的查詢性能問題,分庫可以解決單台資料庫的並發訪問壓力問題。
當資料庫同時面臨海量數據存儲和高並發訪問的時候,需要同時採取分表和分庫策略。一般分表分庫策略如下:
中間變數 = 關鍵字%(資料庫數量*單庫數據表數量)
庫 = 取整(中間變數/單庫數據表數量)
表 = (中間變數%單庫數據表數量)
實例:
1、分庫分表
很明顯,一個主表(也就是很重要的表,例如用戶表)無限制的增長勢必嚴重影響性能,分庫與分表是一個很不錯的解決途徑,也就是性能優化途徑,現在的案例是我們有一個1000多萬條記錄的用戶表members,查詢起來非常之慢,同事的做法是將其散列到100個表中,分別從members0到members99,然後根據mid分發記錄到這些表中,牛逼的代碼大概是這樣子:
復制代碼 代碼如下:
<?php
for($i=0;$i< 100; $i++ ){
//echo "CREATE TABLE db2.members{$i} LIKE db1.members
";
echo "INSERT INTO members{$i} SELECT * FROM members WHERE mid%100={$i}
";
}
?>
2、不停機修改mysql表結構
同樣還是members表,前期設計的表結構不盡合理,隨著資料庫不斷運行,其冗餘數據也是增長巨大,同事使用了下面的方法來處理:
先創建一個臨時表:
/*創建臨時表*/
CREATE TABLE members_tmp LIKE members
然後修改members_tmp的表結構為新結構,接著使用上面那個for循環來導出數據,因為1000萬的數據一次性導出是不對的,mid是主鍵,一個區間一個區間的導,基本是一次導出5萬條吧,這里略去了
接著重命名將新表替換上去:
/*這是個頗為經典的語句哈*/
RENAME TABLE members TO members_bak,members_tmp TO members;
就是這樣,基本可以做到無損失,無需停機更新表結構,但實際上RENAME期間表是被鎖死的,所以選擇在線少的時候操作是一個技巧。經過這個操作,使得原先8G多的表,一下子變成了2G多。
⑵ 如何用ACCESS資料庫拆分數據
方法一
1、通過Sql語句,然後使用Docmd.runsql 或Currentdb.Execute 執行Sql語句批量拆分
2、通過DAO或ADO 使用Recordset記錄集來循環插入,這個需要懂VBA代碼及Do while循環
希望可幫到你
⑶ Oracle資料庫欄位拆分
SELECTREGEXP_SUBSTR(t.PATH_IDS||',','[^,]+',1,1),
REGEXP_SUBSTR(t.PATH_IDS||',','[^,]+',1,2),
REGEXP_SUBSTR(t.PATH_IDS||',','[^,]+',1,3),
DECODE(REGEXP_SUBSTR(t.PATH_IDS||',','[^,]+',1,5),NULL,NULL,REGEXP_SUBSTR(t.PATH_IDS||',','[^,]+',1,4)),
DECODE(REGEXP_SUBSTR(t.PATH_IDS||',','[^,]+',1,5),NULL,REGEXP_SUBSTR(t.PATH_IDS||',','[^,]+',1,4),REGEXP_SUBSTR(t.PATH_IDS||',','[^,]+',1,5))
FROM機構層級關系表t
前三列根據正則匹配,獲取對應的分割後的值,沒有啥講的,
第四列要判斷是否存在第五列,如果不存在,則第四列要空,存在則用第四列的值
第五列要判斷是否存在第五列,如果不存在,則給第四列的值,存在則用第五列的值
⑷ 資料庫關系分解為BCNF範式
標准答案是:AC,BC,CD。
分析如下:R(A,B,C,D)函數依賴於AB^100c,C^D和D^A,找到違反BCNF的依賴項(不需要找到右側多個屬性的度數)並將其分解為BCNF關系的聚合。
關系:C→A,版本C→D,D→A,AB→D,AB→C,AC→D,BC→D,BC→A,BC→D,BD→A,BD→C,CD→A,ABC→D,ABD→C,權值BCD→A。
違反BCNF:C到A,C到D,D到A,AC到D,CD到A。
(4)資料庫拆分方案擴展閱讀:
BCNF範式在3NF的基礎上消除了對主代碼子集的依賴。
以倉庫管理關系表為例:倉庫編號、存儲項編號、管理員編號和數量。首先,該表滿足第三種標准形式,這意味著管理員只在一個倉庫中工作,而一個倉庫可以存儲多個項目。表中有以下依賴項:
(倉庫編號、存儲項目編號)——>(管理員編號、數量)
(管理員編號、存儲項目編號)——>(倉庫編號、數量)
從上面的依賴關系中,我們可以知道(倉庫號、存儲項號)和(管理員號、存儲項號)是表關系中的候選代碼。
表中唯一的非鍵欄位是number,它符合第三種範式。但由於存在以下決定關系:
(倉庫號)——>(管理員號)
(管理員編號)——>(倉庫編號)
也就是說,有一個關鍵欄位來確定關鍵欄位,所以它不符合BCNF。
解決方案:將倉庫管理關系表拆分成兩個關系倉庫管理表(倉庫號、管理員號)和倉庫表(倉庫號、存儲項號、數量)使資料庫表符合BCNF,消除刪除異常、插入異常和更新異常。
⑸ 試說明拆分資料庫在資料庫管理中的好處
資料庫做拆分的幾種方式:
按功能劃分(垂直
切分
)
將不同功能相關的表放到不同的資料庫中,這樣做的好處是非常直觀。但當某一部分的功能其數據量或性能要求超出了可控的范圍,就需要繼續對其進行深入的再切分。
⑹ sql資料庫表的拆分
參考語句:
select code,
sum(case when play_id=1 then cnt else 0 end ) play_id01,
sum(case when play_id=2 then cnt else 0 end ) play_id02,
sum(case when play_id=3 then cnt else 0 end ) play_id03
form 表
group by code
⑺ 給小白演示 分庫分表案例
受群里小夥伴之邀,搞一個分庫分表案例,這樣讓很多沒用過分庫分表的心裡也有個底,不然永遠看到的都是網上的各種概念和解決方案性的文章。
由於用戶表過於龐大,採取相關SQL優化,還是不能滿足,所以現對其進行做分庫分表。
資料庫: my-sharding
資料庫表: t_user
建表語句如下:
關於資料庫分庫分表通常有兩種方案:
下面我們來演示水平拆分,大致思路:
加入有2000萬條數據,那麼為了方便演示,我們就暫定分為五個庫,每個資料庫對應五個表。
五個資料庫:
每個資料庫有五張表:
建表語句如下:
使用技術棧: JDK8 + MySQL + Spring Boot + Mybatis + Shardingsphere + Druid
maven 相關依賴:
配置文件相關配置如下:
分庫分表的兩個分片類:
下面是業務部分代碼,先看 UserMapper.xml 內容:
UserMapper 介面:
為了更好地演示,我這里加入了 controller 層和 service 層,這也是大家平常開發套路。
service 層代碼如下:
controller層代碼如下:
最後是項目的啟動類:
啟動項目,啟動成功:
下面我們來演示一下新增數據和查詢。
先來添加數據到資料庫中,這里使用的是IDEA中restful工具:
後台日誌:
再查看資料庫表中:
到此,我們的數據依舊落庫,下面我們來演示一下數據查詢。
瀏覽器里輸入:
返回數據:
後台日誌:
從日誌和返回結果可以看出,已經為我們正確的選擇到對應的資料庫和表了,這樣,一個分庫分表的查詢就成功了。
本文沒有太多的概念,直接使用案例演示。相關概念性的文章,還有分庫分表解決方案的文章,網上一堆堆的,感興趣可以自行查閱。
⑻ oracle資料庫按照一定條件把表拆分為多個表
其實不需要拆分表,分區就可以,還是原來的表名,只是將原來的表分成了若乾的分區,這樣能起到分表的效果,還不用分成很多的表。
比如你原來的表的名字是A,那麼將該表改為A1,然後從新建立一個分區表A,分區的依據是班級,也就是list分區,也就是一般意義上的列表分區表。
然後再將A1的數據插入新A表就可以了。
至於分區表的建立方式,往上很多,可以自行查找。
這樣操作查詢的語句不需要變,只是在不跨分區查詢的情況下,相當於分成了若干張表去查詢。比如查詢1班的成績,那麼就是在1班的分區內,不會有2班的問題,就相當於你用一個指頭就能解決問題,不會動用這個手一樣。
如果分表的話,那麼假設有12個班,那麼就要建立12張表,這樣的話,語句就要寫12次,冗餘太大了。
⑼ 淺談mysql資料庫分庫分表那些事-億級數據存儲方案
mysql分庫分表一般有如下場景
其中1,2相對較容易實現,本文重點講講水平拆表和水平拆庫,以及基於mybatis插件方式實現水平拆分方案落地。
在 《聊一聊擴展欄位設計》 一文中有講解到基於KV水平存儲擴展欄位方案,這就是非常典型的可以水平分表的場景。主表和kv表是一對N關系,隨著主表數據量增長,KV表最大N倍線性增長。
這里我們以分KV表水平拆分為場景
對於kv擴展欄位查詢,只會根據id + key 或者 id 為條件的方式查詢,所以這里我們可以按照id 分片即可
分512張表(實際場景具體分多少表還得根據欄位增加的頻次而定)
分表後表名為kv_000 ~ kv_511
id % 512 = 1 .... 分到 kv_001,
id % 512 = 2 .... 分到 kv_002
依次類推!
水平分表相對比較容易,後面會講到基於mybatis插件實現方案
場景:以下我們基於博客文章表分庫場景來分析
目標:
表結構如下(節選部分欄位):
按照user_id sharding
假如分1024個庫,按照user_id % 1024 hash
user_id % 1024 = 1 分到db_001庫
user_id % 1024 = 2 分到db_002庫
依次類推
目前是2個節點,假如後期達到瓶頸,我們可以增加至4個節點
最多可以增加只1024個節點,性能線性增長
對於水平分表/分庫後,非shardingKey查詢首先得考慮到
基於mybatis分庫分表,一般常用的一種是基於spring AOP方式, 另外一種基於mybatis插件。其實兩種方式思路差不多。
為了比較直觀解決這個問題,我分別在Executor 和StatementHandler階段2個攔截器
實現動態數據源獲取介面
測試結果如下
由此可知,我們需要在Executor階段 切換數據源
對於分庫:
原始sql:
目標sql:
其中定義了三個註解
@useMaster 是否強制讀主
@shardingBy 分片標識
@DB 定義邏輯表名 庫名以及分片策略
1)編寫entity
Insert
select
以上順利實現mysql分庫,同樣的道理實現同時分庫分表也很容易實現。
此插件具體實現方案已開源: https://github.com/bytearch/mybatis-sharding
目錄如下:
mysql分庫分表,首先得找到瓶頸在哪裡(IO or CPU),是分庫還是分表,分多少?不能為了分庫分表而拆分。
原則上是盡量先垂直拆分 後 水平拆分。
以上基於mybatis插件分庫分表是一種實現思路,還有很多不完善的地方,
例如: