你這個的前提是
水果個數基本固定
不超過10個,人的個數是不定的,無窮多個
1、不合理
效率很低,用了字元串匹配和全表掃描
都是耗時的操作
2、形成了兩個百萬級的大表,關聯查詢效率會很低
我建議三種方案,你自己試驗一下哪種效率最高,因為設計和語句本身沒有效率高低只說,和使用方式和數據量級別有很大的關系,幾萬和百萬優化的策略是完全不同的
建議1:在你的第2種方案的基礎上改進一下,建一個水果字典表C,給每個水果定義一個類似人員的ID號,然後表B存儲變成存兩個ID關聯,並且這兩個欄位都是索引,表A的人員ID要是主鍵並且是唯一索引,然後語句如下:
select
*
from
表A
t
where
exists
(select
*
from
表B
where
水果ID
in
(1,3,4)
and
人員ID
=
t.人員ID)
建議2:用空間換效率,union在百萬級的效率應該比or要高,所以作為第二種建議,類似於表A的表結構,每類水果都建一個表,然後喜歡這個水果的人就存入這個表,例如表-蘋果,表-西瓜,裡面存的是喜歡這類水果的人員ID和名稱,這種方式是避免了查詢,語句如下:
select
*
from
表-蘋果
union
select
*
from
表-西瓜
union
select
*
from
表-香蕉
……
建議3:也是用空間換效率,不過用到了or,我估計在百萬級效率會最低,在表A(不要存水果的字元串欄位了)的基礎上擴展10個欄位,integer類型,分別對應10種水果,每個欄位存0和1兩個值,這10個欄位都建上索引,語句如下:
select
*
from
表A
where
蘋果=1
or
香蕉=1
or
……
② php+mysql優化,百萬至千萬級快速分頁mysql性能到底能有多高
php+Mysql 優化,百萬至千萬級快速分頁
MySql 性能到底能有多高?用了php半年多,真正如此深入的去思考這個問題還是從前天開始。有過痛苦有過絕望,到現在充滿信心!MySql 這個資料庫絕對是適合dba級的高手去玩的,一般做一點1萬篇新聞的小型系統怎麼寫都可以,用xx框架可以實現快速開發。可是數據量到了10萬,百萬至千萬,他的性能還能那麼高嗎?一點小小的失誤,可能造成整個系統的改寫,甚至更本系統無法正常運行!好了,不那麼多廢話了。用事實說話,看例子:
數據表 collect ( id, title ,info ,vtype) 就這4個欄位,其中 title 用定長,info 用text, id 是逐漸,vtype是tinyint,vtype是索引。這是一個基本的新聞系統的簡單模型。現在往裡面填充數據,填充10萬篇新聞。
最後collect 為 10萬條記錄,資料庫表佔用硬碟1.6G。OK ,看下面這條sql語句:
select id,title from collect limit 1000,10; 很快;基本上0.01秒就OK,再看下面的
select id,title from collect limit 90000,10; 從9萬條開始分頁,結果?
8-9秒完成,my god 哪出問題了????其實要優化這條數據,網上找得到答案。看下面一條語句:
select id from collect order by id limit 90000,10; 很快,0.04秒就OK。為什麼?因為用了id主鍵做索引當然快。網上的改法是:
select id,title from collect where id>=(select id from collect order by id limit 90000,1) limit 10;
這就是用了id做索引的結果。可是問題復雜那麼一點點,就完了。看下面的語句
select id from collect where vtype=1 order by id limit 90000,10; 很慢,用了8-9秒!
到了這里我相信很多人會和我一樣,有崩潰感覺!vtype 做了索引了啊?怎麼會慢呢?vtype做了索引是不錯,你直接 select id from collect where vtype=1 limit 1000,10; 是很快的,基本上0.05秒,可是提高90倍,從9萬開始,那就是0.05*90=4.5秒的速度了。和測試結果8-9秒到了一個數量級。從這里開始有人提出了分表的思路,這個和discuz 論壇是一樣的思路。思路如下:
建一個索引表: t (id,title,vtype) 並設置成定長,然後做分頁,分頁出結果再到 collect 裡面去找info 。 是否可行呢?實驗下就知道了。
10萬條記錄到 t(id,title,vtype) 里,數據表大小20M左右。用
select id from t where vtype=1 order by id limit 90000,10; 很快了。基本上0.1-0.2秒可以跑完。為什麼會這樣呢?我猜想是因為collect 數據太多,所以分頁要跑很長的路。limit 完全和數據表的大小有關的。其實這樣做還是全表掃描,只是因為數據量小,只有10萬才快。OK,來個瘋狂的實驗,加到100萬條,測試性能。
加了10倍的數據,馬上t表就到了200多M,而且是定長。還是剛才的查詢語句,時間是0.1-0.2秒完成!分表性能沒問題?錯!因為我們的limit還是9萬,所以快。給個大的,90萬開始
select id from t where vtype=1 order by id limit 900000,10; 看看結果,時間是1-2秒!
why 分表了時間還是這么長,非常之郁悶!有人說定長會提高limit的性能,開始我也以為,因為一條記錄的長度是固定的,mysql 應該可以算出90萬的位置才對啊? 可是我們高估了mysql 的智能,他不是商務資料庫,事實證明定長和非定長對limit影響不大?怪不得有人說 discuz到了100萬條記錄就會很慢,我相信這是真的,這個和資料庫設計有關!
難道MySQL 無法突破100萬的限制嗎???到了100萬的分頁就真的到了極限???
答案是: NO !!!! 為什麼突破不了100萬是因為不會設計mysql造成的。下面介紹非分表法,來個瘋狂的測試!一張表搞定100萬記錄,並且10G 資料庫,如何快速分頁!
好了,我們的測試又回到 collect表,開始測試結論是: 30萬數據,用分表法可行,超過30萬他的速度會慢道你無法忍受!當然如果用分表+我這種方法,那是絕對完美的。但是用了我這種方法後,不用分表也可以完美解決!
答案就是:復合索引!有一次設計mysql索引的時候,無意中發現索引名字可以任取,可以選擇幾個欄位進來,這有什麼用呢?開始的select id from collect order by id limit 90000,10; 這么快就是因為走了索引,可是如果加了where 就不走索引了。抱著試試看的想法加了 search(vtype,id) 這樣的索引。然後測試
select id from collect where vtype=1 limit 90000,10; 非常快!0.04秒完成!
再測試: select id ,title from collect where vtype=1 limit 90000,10; 非常遺憾,8-9秒,沒走search索引!
再測試:search(id,vtype),還是select id 這個語句,也非常遺憾,0.5秒。
綜上:如果對於有where 條件,又想走索引用limit的,必須設計一個索引,將where 放第一位,limit用到的主鍵放第2位,而且只能select 主鍵!
完美解決了分頁問題了。可以快速返回id就有希望優化limit , 按這樣的邏輯,百萬級的limit 應該在0.0x秒就可以分完。看來mysql 語句的優化和索引時非常重要的!
好了,回到原題,如何將上面的研究成功快速應用於開發呢?如果用復合查詢,我的輕量級框架就沒的用了。分頁字元串還得自己寫,那多麻煩?這里再看一個例子,思路就出來了:
select * from collect where id in (9000,12,50,7000); 竟然 0秒就可以查完!
mygod ,mysql 的索引竟然對於in語句同樣有效!看來網上說in無法用索引是錯誤的!
有了這個結論,就可以很簡單的應用於輕量級框架了:
代碼如下:
$db=dblink();
$db->pagesize=20;
$sql="select id from collect where vtype=$vtype";
$db->execute($sql);
$strpage=$db->strpage(); //將分頁字元串保存在臨時變數,方便輸出
while($rs=$db->fetch_array()){
$strid.=$rs['id'].',';
}
$strid=substr($strid,0,strlen($strid)-1); //構造出id字元串
$db->pagesize=0; //很關鍵,在不注銷類的情況下,將分頁清空,這樣只需要用一次資料庫連接,不需要再開;
$db->execute("select id,title,url,sTime,gTime,vtype,tag from collect where id in ($strid)");
< php while($rs=$db->fetch_array()): >
<tr>
<td$amp;>amp;$amp;nbsp;< php echo $rs['id']; $amp;>amp;$lt;/td>
<td$amp;>amp;$amp;nbsp;< php echo $rs['url']; $amp;>amp;$lt;/td>
<td$amp;>amp;$amp;nbsp;< php echo $rs['sTime']; $amp;>amp;$lt;/td>
<td$amp;>amp;$amp;nbsp;< php echo $rs['gTime']; $amp;>amp;$lt;/td>
<td$amp;>amp;$amp;nbsp;< php echo $rs['vtype']; $amp;>amp;$lt;/td>
<td$amp;>amp;$amp;nbsp;<a act=show&id=< php echo $rs['id']; $amp;>quot;$ target="_blank"$amp;>amp;$lt; php echo $rs['title']; $amp;>amp;$lt;/a$amp;>amp;$lt;/td>
<td$amp;>amp;$amp;nbsp;< php echo $rs['tag']; $amp;>amp;$lt;/td>
</tr>
< php endwhile; >
</table>
< php
echo $strpage;
通過簡單的變換,其實思路很簡單:1)通過優化索引,找出id,並拼成 "123,90000,12000" 這樣的字元串。2)第2次查詢找出結果。
小小的索引+一點點的改動就使mysql 可以支持百萬甚至千萬級的高效分頁!
通過這里的例子,我反思了一點:對於大型系統,PHP千萬不能用框架,尤其是那種連sql語句都看不到的框架!因為開始對於我的輕量級框架都差點崩潰!只適合小型應用的快速開發,對於ERP,OA,大型網站,數據層包括邏輯層的東西都不能用框架。如果程序員失去了對sql語句的把控,那項目的風險將會成幾何級數增加!尤其是用mysql 的時候,mysql 一定需要專業的dba 才可以發揮他的最佳性能。一個索引所造成的性能差別可能是上千倍!
PS: 經過實際測試,到了100萬的數據,160萬數據,15G表,190M索引,就算走索引,limit都得0.49秒。所以分頁最好別讓別人看到10萬條以後的數據,要不然會很慢!就算用索引。經過這樣的優化,mysql到了百萬級分頁是個極限!但有這樣的成績已經很不錯,如果你是用sqlserver肯定卡死!而 160萬的數據用 id in (str) 很快,基本還是0秒。如果這樣,千萬級的數據,mysql應該也很容易應付。
③ sql 多表鏈接,數據量都百萬級別,如何效率優化
用好索引
用更好的查找引擎(/資料庫)
做好表設計
實在不行,就用隊列查詢
④ 面試軟體運維SQL資料庫一般問什麼
Mirror+Replication 自動切換
在線CPU調整
備份與還原
核心數據多層保障
架構設計擴充系統讀能力
SSB + Replication
在線擴充資料庫讀能力
群集在線添加節點
其實說白了就是安全與性能
⑤ 搭建一個日點擊量百萬以上的 電子商務網站,它的硬體設備投資大概會是多少
百萬級訪問量網站的技術准備工作
當今從純網站技術上來說,因為開源模式的發展,現在建一個小網站已經很簡單也很便宜,所以很多人都把創業方向定位在互聯網應用。這些人里大多數不是很懂技術,或者不是那麼精通,而網站開發維護方面的知識又很分散,學習成本太高,所以這篇文章將這些知識點結合起來,系統的來說,一個從日幾千訪問的小小網站,到日訪問一兩百萬的小網站,中間可能會產生什麼問題,以及怎麼才能在一開始做足工作盡量避免這些問題。
你的網站因為努力經營,訪問量逐漸升高,在升高的過程中,問題也可能開始顯現了。因為帶寬的增加、硬體的擴展、人員的擴張所帶來的成本提高是顯而易見的,而還有相當大的一部分成本是因為代碼重構、架構重構,甚至底層開發語言更換引起的,最壞的情況就是數據丟失,所有努力付之一炬。這類成本支出大多數在一開始就可以避免,先打好基礎,往後可以省很多精力,少操很多心。
對於不同的初期投資成本,技術路線的選擇是不同的。這里假設網站剛剛只是一個構想,計劃第一年伺服器硬體帶寬投入5萬左右。對於這個資金額度,有很多種方案可選擇,例如租用虛擬主機、租用單獨伺服器,或者流行的私有雲,或者託管伺服器。前兩種選擇,網站發展到一定規模時需遷移,那時再重做規劃顯然影響更大。伺服器託管因為配置自主、能完全掌握控制權,所以有一定規模的網站基本都是這種模式。採用自己託管伺服器的網站,一開始要注意以下幾點——
一、開發語言
一般來說,技術人員(程序員)都是根據自己技術背景選擇自己最熟悉的語言,不過不可能永遠是一個人寫程序,所以在語言的選擇上還要是要費些心思。首先明確一點,無論用什麼語言,最終代碼質量是看管理,因此我們從前期開發成本分析。現在國內流行的適用於網站的語言,大概有java、php、.net、 python、ruby這五大陣營。python和ruby因為在國內流行的比較晚,現在人員還是相對難招一些。.net平台的人相對多,但是到後期需要解決性能問題時,對人員技能的要求比較高。剩餘的java、php用人可以說是最多的。java和php無法從語言層面做比較,但對於初期,應用幾乎都是靠前端支撐的網站來說,php入門簡單、編寫快速,優勢相對大一點。至於後端例如行為分析、銀行介面、非同步消息處理等,等真正需要時,就要根據不同業務需求來選擇不同語言了。
二、代碼版本管理
稍微有點規模的網站就需要使用代碼版本管理了。代碼版本管理兩點最大的好處,一是方便協同工作,二是有歷史記錄可查詢比較。代碼版本管理軟體有很多,vss/cvs/svn/hg等,目前國內都比較流行,其中svn的普及度還是很高的。
假設選了svn,那麼有幾點考慮。一是採用什麼樹結構。初期可能只有一條主幹,往後就需要建立分支,例如一條開發分支,一條上線分支,再往後,可能要每個小組一個分支。建議一開始人少時選擇兩條分支,開發和線上,每個功能本地測試無誤後提交到開發分支,最後統一測試,可以上線時合並到上線分支。如果每人都建自己的分支,合並時會浪費很大精力,對於幾乎每天都要修改幾次的WEB應用來說,所費時間太多。
向伺服器部署代碼,可以手工部署也可以自動部署。手工部署相對簡單,一般可直接在伺服器上svn update,或者找個新目錄svn checkout,再把web root給ln -s過去。應用越復雜,部署越復雜,沒有什麼統一標准,只是別再用ftp上傳那種形式,一是上傳時文件引用不一致錯誤率增加,二是很容易出現開發人員的版本跟線上版本不一致,導致本來想改個錯字結果變成回滾。如果有多台伺服器還是建議自動部署,更換代碼的機器從當前服務池中臨時撤出,更新完畢後再重新加入。
三、伺服器硬體
在各個機房裡,靠一台伺服器孤獨支撐的網站數不清,但如果資金稍微充足,建議至少三台的標准配置,分別用作web處理、資料庫、備份。web伺服器至少要8G內存,雙sata raid1,如果經濟稍微寬松,或靜態文件或圖片多,則15k sas raid10。資料庫至少16G內存,15k sas raid 10。備份伺服器最好跟資料庫伺服器同等配置。硬體可以上整套品牌,也可以兼容機,也可以半品牌半組裝,取決於經濟能力。當然,這是典型的搭配,有些類型應用的性能瓶頸首先出現在web上,那種情況就要單獨分析了。
web伺服器可以既跑程序又當內存緩存,資料庫伺服器則只跑主資料庫(假如是MySQL的話),備份伺服器所承擔就相對多一些,web配置、緩存配置、資料庫配置都要跟前兩台一致,這樣WEB和資料庫任意一台出問題,很容易就可以將備份伺服器切換過去臨時頂替,直到解決完問題。要注意,硬體是隨時可能壞掉的,特別是硬碟,所以寧可WEB伺服器跟資料庫伺服器放在一起,也一定不能省掉備份,備份一定要異機,並且有非同步,電力故障、誤操作都可能導致一台機器上的所有數據丟失。很多的開源備份方案可選擇,最簡單的就是rsync,寫crontab里,定時同步。備份和切換,建議多做測試,選最安全最適合業務的,並且盡可能異地備份。
四、機房
三種機房盡量不要選:聯通訪問特別慢的電信機房、電信訪問特別慢的聯通機房、電信聯通訪問特別慢的移動或鐵通機房。機房要盡可能多的實地參觀,多測試,找個網路質量好,管理嚴格的機房。機房可以說是非常重要,直接關繫到網站訪問速度,網站訪問速度直接關繫到用戶體驗,訪問速度很慢的網站,很難獲得用戶青睞。
五、架構
在大方向上,被熟知的架構是web負載均衡+資料庫主從+緩存+分布式存儲+隊列。在一開始,按照可擴展的原則設計和編程就可以。只是要多考慮緩存失效時的雪崩效應、主從同步的數據一致性和時間差、隊列的穩定性和失敗後的重試策略、文件存儲的效率和備份方式等等意外情況。緩存失效、資料庫復制中斷、隊列寫入錯誤、電源損壞,在實際運維中經常發生,如果不注意這些,出現問題時恢復期可能會超出預期很長時間。
六、伺服器軟體
操作系統Linux很流行。在沒有專業運維人員的情況下,應傾向於擇使用的人多、社區活躍、配置方便、升級方便的發行版,例如RH系列、 debian、ubuntu server等,硬體和操作系統要一起選擇,看是否有適合的驅動,如果確定用某種商業軟體或解決方案,也要提前知曉其對哪種操作系統支持最佳。web伺服器方面,apache、nginx、lighttpd三大系列中,apache佔有量還是最大,但是想把性能調教好還是需要很專業的,nginx和 lighttpd在不需要太多調整的情況下可以達到一個比較不錯的性能。無論選擇什麼軟體,除非改過這些軟體或你的程序真的不兼容新版本,否則盡量版本越新越好,版本新,意味著新特性增多、BUG減少、性能增加。一個典型的php網站,基本上大多數人都沒改過任何伺服器軟體源代碼,絕大多數情況是能平穩的升級到新版本的。類似於jdk5到 jdk6,python2到python3這類變動比較大的升級還是比較少見的。看看ChangeLog,看看升級說明,結合自己情況評估測試一下,越早升級越好,升級的越晚,所花費的成本越高。對於軟體包,盡量使用發行版內置的包管理工具,沒有特殊要求時不建議自己編譯,那樣對將來運維不利。
七、資料庫
幾乎所有操作最後都要落到資料庫身上,它又最難擴展(存儲也挺難)。資料庫常見的擴展方法有復制、分片,設計時要考慮到每種應用的數據如何復制、分片,當然這種考慮一般會推遲到技術設計時期。在初期進行資料庫結構設計時,要根據不同的業務類型和增長量預期來考慮是否要分庫、分區,並且盡量不要使用聯合查詢、不使用自增ID以方便分片。復制延時問題、主從資料庫數據一致性問題,可以自己寫或者用已有的運維工具進行檢測。
用存儲過程是比較難擴展的,這種情形多發生於傳統C/S,特別是OA系統轉換過來的開發人員。低成本網站不是一兩台小型機跑一個資料庫處理所有業務的模式,是機海作戰。方便水平擴展比那點預分析時間和網路傳輸流量要重要的多的多。
另外,現在流行一種概念叫NoSQL,可以理解為非傳統關系型資料庫。實際應用中,網站有著越來越多的密集寫操作、上億的簡單關系數據讀取、熱備等,這都不是傳統關系資料庫所擅長的,於是就產生了很多非關系型資料庫,比如Redis/TC&TT/MongoDB/Memcachedb等,在測試中,這些幾乎都達到了每秒至少一萬次的寫操作,內存型的甚至5萬以上。在設計時,可根據業務特點和性能要求來選擇是否使用這類資料庫。例如 MongoDB,幾句配置就可以組建一個復制+自動分片+failover的環境,文檔化的存儲也簡化了傳統設計庫結構再開發的模式。但是當你決定採用一項技術時,一定要真正了解其優劣,例如可能你所選擇的技術並不能支持你所需要的事務和數據一致性要求。
八、文件存儲
存儲的分布幾乎跟資料庫擴展一樣困難,不過只有百萬的PV的情況下,磁碟IO方面一般不會成大問題,一兩台採用SATA做條帶RAID的機器可以應付,反而是自己做非同步備份比較復雜,因為小文件多。如果只有一台機器做存儲,可以做簡單的優化,例如放最小縮略圖的分區和放中等縮略圖的分區,根據平均大小調整一下塊大小。存儲要規劃好目錄結構,否則文件增多後維護起來復雜,也不利於擴展。同時還要考慮將來擴容,例如採用LVM,或者把文件根據不同規則散列到不同機器。磁碟IO繁重的情況下更容易出現故障,所以要做好備份,若發現有盤壞掉,要馬上行動更換,很多人的硬碟都是壞了一塊之後,接二連三的壞下去。
為了將來圖片走cdn做准備,一開始最好就將圖片的域名分開,且不用主域名。因為很多網站都將cookie設置到了.domain.ltd,如果圖片也在這個域名下,很可能因為cookie而造成緩存失效,並且佔多餘流量,還可能因為瀏覽器並發線程限製造成訪問緩慢。
九、程序
一定硬體條件下,應用能承載多少訪問量,很大一部分也取決於程序如何寫。程序寫的不好,可能一萬的訪問都承載不了,寫的好,可能一兩台機器就能承擔幾百萬PV。越是復雜、數據實時性要求越高的應用,優化起來越難,但對普通網站有一個統一的思路,就是盡量向前端優化、減少資料庫操作、減少磁碟IO。向前端優化指的是,在不影響功能和體驗的情況下,能在瀏覽器執行的不要在服務端執行,能在緩存伺服器上直接返回的不要到應用伺服器,程序能直接取得的結果不要到外部取得,本機內能取得的數據不要到遠程取,內存能取到的不要到磁碟取,緩存中有的不要去資料庫查詢。減少資料庫操作指減少更新次數、緩存結果減少查詢次數、將資料庫執行的操作盡可能的讓你的程序完成(例如join查詢),減少磁碟IO指盡量不使用文件系統作為緩存、減少讀寫文件次數等。程序優化永遠要優化慢的部分,換語法是無法「優化」的。
然而編程時不應該把重點放在優化上,應該關注擴展性。當今的WEB應用,需求變化非常之快,適應多種需求的架構是不存在的,我們的擴展性就要把要點放在跟底層交互的架構上,例如持久化數據的存取規則、緩存的存取規則等,還有一些共用服務,例如用戶信息等。先把不變的部分做完善,剩下的部分就很容易將精力放在業務邏輯上面了。
⑥ sql server百萬級的數據,如何提高查詢效率
百萬級的數據對sqlserver來說並不算大,只要資料庫結構設計合理、sql指令合理,效率不會太差。
1.充分利用索引
2.盡量減少運算
3.盡量減小執行初期的數據量
4.減小循環
......