庫里集合存儲效率_影響數據檢索效率的幾個因素

㈠作為歷史級頂尖控衛，庫里的表現究竟有多出彩

雖然今年沒有庫里的中國行計劃，但前幾天庫里亞洲行來到武漢站，和武漢粉絲有了密切的互動。旅途中，庫里調皮地繞過保鏢，去粉絲那裡和粉絲擊掌，可以說是很友好了。不得不說，科比退役後，庫里已經成為中國出道最多的NBA籃球巨星，也是中國乃至世界最受歡迎的球星之一。

庫里的名氣可以說是曲折，但也可以說是意料之中。出生在籃球之家的父親戴爾庫里曾經是NBA頂級射手，職業生涯命中1245個三分球以上。到目前為止，戴爾庫里是鵜鶘隊歷史上的得分王，所以庫里從小就在良好的籃球氛圍中長大。在庫里的童年環境里，我每天都在卡特大叔這樣的籃球巨星身邊打球長大。因為戴爾庫里是NBA球星，庫里從小就接受正統的籃球訓練。

庫里與大多數恆星的起源不同。也許大部分球迷都知道，大部分NBA球星從小家庭環境都不好，比如詹姆斯、艾弗森等。，而且他們從小就感受到了生活的尷尬。他們從小都是在野球場打籃球，能進聯盟更多是因為他們無與倫比的身體天賦。他們從小都在為自己的人生奮斗。

2010年2月11日，庫里對陣快船拿下36分13助攻10籃板，職業生涯第一個三雙，上個新秀賽季拿下三雙的球員叫凱文·約翰遜；2月21日，面對老鷹，他拿下32分，帶領球隊逆轉20分獲勝；5天後的26日，面對掘金30分13助攻；3月1日，他再次以31分11助攻面對老鷹；3月14日，面對猛龍35分10助攻；3月25日對陣灰熊，他拿下30分11助攻。然後進入聯盟後，庫里復制了大學的奇跡，再次上演了瘋狂進行曲。

接下來4月庫里獲得的數據是：對陣猛龍29分12助攻，4月7日27分14籃板8籃板7搶斷，賽季最後一場42分9籃板8助攻的准三雙數據。也是在執教庫里的時候，老尼爾森完成了執教生涯1335勝的歷史第一。雖然父親在執教生涯中沒有王冠，但感謝瘋狂科學家父親挖掘庫里，成功培養庫里。當然，你不能做任何假設。不能假設庫里。如果你有無限的權利炒掉那個賽季會怎麼樣？然而，像庫里這樣的球員最終會成為超級巨星。現在庫里帶動了籃球技術的創新，逐漸從傳統籃球向小球技術轉變。可以說庫里現在是繼喬丹之後劃時代的籃球巨星，這不僅僅是因為他的個人能力，更是因為他對籃球文化的貢獻，對籃球技術創新的推動。

㈡西紅柿在保鮮庫里能儲存多長時間呢怎樣才能儲存較長時間高手們幫個忙

成熟的西紅柿在2～4℃之間冷藏比較好，10天之內可保持新鮮和營養。溫度太低，西紅柿會失去鮮味，並且很快因凍傷而腐爛。西紅柿在冷藏時會散發出一種叫做乙烯的氣體，催熟和它擺放在一起的蔬菜水果，縮短它們的保鮮期，故西紅柿冷藏時最好單獨擺放或用保鮮袋包裝好。

㈢影響數據檢索效率的幾個因素

影響數據檢索效率的幾個因素
數據檢索有兩種主要形態。第一種是純資料庫型的。典型的結構是一個關系型數據，比如 mysql。用戶通過 SQL 表達出所需要的數據，mysql 把 SQL 翻譯成物理的數據檢索動作返回結果。第二種形態是現在越來越流行的大數據玩家的玩法。典型的結構是有一個分區的數據存儲，最初這種存儲就是原始的 HDFS，後來開逐步有人在 HDFS 上加上索引的支持，或者乾脆用 Elasticsearc 這樣的數據存儲。然後在存儲之上有一個分布式的實時計算層，比如 Hive 或者 Spark SQL。用戶用 Hive SQL 提交給計算層，計算層從存儲里拉取出數據，進行計算之後返回給用戶。這種大數據的玩法起初是因為 SQL 有很多 ad-hoc 查詢是滿足不了的，乾脆讓用戶自己寫 map/rece 想怎麼算都可以了。但是後來玩大了之後，越來越多的人覺得這些 Hive 之類的方案查詢效率怎麼那麼低下啊。於是一個又一個項目開始去優化這些大數據計算框架的查詢性能。這些優化手段和經典的資料庫優化到今天的手段是沒有什麼兩樣的，很多公司打著搞計算引擎的旗號干著重新發明資料庫的活。所以，回歸本質，影響數據檢索效率的就那麼幾個因素。我們不妨來看一看。
數據檢索乾的是什麼事情
定位 => 載入 => 變換
找到所需要的數據，把數據從遠程或者磁碟載入到內存中。按照規則進行變換，比如按某個欄位group by，取另外一個欄位的sum之類的計算。
影響效率的四個因素
讀取更少的數據
數據本地化，充分遵循底層硬體的限制設計架構
更多的機器
更高效率的計算和計算的物理實現
原則上的四點描述是非常抽象的。我們具體來看這些點映射到實際的資料庫中都是一些什麼樣的優化措施。
讀取更少的數據
數據越少，檢索需要的時間當然越少了。在考慮所有技術手段之前，最有效果的恐怕是從業務的角度審視一下我們是否需要從那麼多的數據中檢索出結果來。有沒有可能用更少的數據達到同樣的效果。減少的數據量的兩個手段，聚合和抽樣。如果在入庫之前把數據就做了聚合或者抽樣，是不是可以極大地減少查詢所需要的時間，同時效果上並無多少差異呢？極端情況下，如果需要的是一天的總訪問量，比如有1個億。查詢的時候去數1億行肯定快不了。但是如果統計好了一天的總訪問量，查詢的時候只需要取得一條記錄就可以知道今天有1個億的人訪問了。
索引是一種非常常見的減少數據讀取量的策略了。一般的按行存儲的關系型資料庫都會有一個主鍵。用這個主鍵可以非常快速的查找到對應的行。KV存儲也是這樣，按照Key可以快速地找到對應的Value。可以理解為一個Hashmap。但是一旦查詢的時候不是用主鍵，而是另外一個欄位。那麼最糟糕的情況就是進行一次全表的掃描了，也就是把所有的數據都讀取出來，然後看要的數據到底在哪裡，這就不可能快了。減少數據讀取量的最佳方案就是，建立一個類似字典一樣的查找表，當我們找 username=wentao 的時候，可以列舉出所有有 wentao 作為用戶名的行的主鍵。然後拿這些主鍵去行存儲（就是那個hashmap）里撈數據，就一撈一個准了。
談到索引就不得不談一下一個查詢使用了兩個欄位，如何使用兩個索引的問題。mysql的行為可以代表大部分主流資料庫的處理方式：
基本上來說，經驗表明有多個單欄位的索引，最後資料庫會選一最優的來使用。其餘欄位的過濾仍然是通過數據讀取到內存之後，用predicate去判斷的。也就是無法減少數據的讀取量。
在這個方面基於inverted index的數據就非常有特點。一個是Elasticsearch為代表的lucene系的資料庫。另外一個是新銳的druid資料庫。
效果就是，這些資料庫可以把單欄位的filter結果緩存起來。多個欄位的查詢可以把之前緩存的結果直接拿過來做 AND 或者 OR 操作。
索引存在的必要是因為主存儲沒有提供直接的快速定位的能力。如果訪問的就是資料庫的主鍵，那麼需要讀取的數據也就非常少了。另外一個變種就是支持遍歷的主鍵，比如hbase的rowkey。如果查詢的是一個基於rowkey的范圍，那麼像hbase這樣的資料庫就可以支持只讀取到這個范圍內的數據，而不用讀取不再這個范圍內的額外數據，從而提高速度。這種加速的方式就是利用了主存儲自身的物理分布的特性。另外一個更常見的場景就是 partition。比如 mysql 或者 postgresql 都支持分區表的概念。當我們建立了分區表之後，查找的條件如果可以過濾出分區，那麼可以大幅減少需要讀取的數據量。比 partition 更細粒度一些的是 clustered index。它其實不是一個索引（二級索引），它是改變了數據在主存儲內的排列方式，讓相同clustered key的數據彼此緊挨著放在一起，從而在查詢的時候避免掃描到無關的數據。比 partition 更粗一些的是分庫分表分文件。比如我們可以一天建立一張表，查詢的時候先定位到表，再執行 SQL。比如 graphite 給每個 metric 創建一個文件存放採集來的 data point，查詢的時候給定metric 就可以定位到一個文件，然後只讀取這個文件的數據。
另外還有一點就是按行存儲和按列存儲的區別。按列存儲的時候，每個列是一個獨立的文件。查詢用到了哪幾個列就打開哪幾個列的文件，沒有用到的列的數據碰都不會碰到。反觀按行存儲，一張中的所有欄位是彼此緊挨在磁碟上的。一個表如果有100個欄位，哪怕只選取其中的一個欄位，在掃描磁碟的時候其餘99個欄位的數據仍然會被掃描到的。
考慮一個具體的案例，時間序列數據。如何使用讀取更少的數據的策略來提高檢索的效率呢？首先，我們可以保證入庫的時間粒度，維度粒度是正好是查詢所需要的。如果查詢需要的是5分鍾數據，但是入庫的是1分鍾的，那麼就可以先聚合成5分鍾的再存入資料庫。對於主存儲的物理布局選擇，如果查詢總是針對一個時間范圍的。那麼把 timestamp 做為 hbase 的 rowkey，或者 mysql 的 clustered index 是合適。這樣我們按時間過濾的時候，選擇到的是一堆連續的數據，不用讀取之後再過濾掉不符合條件的數據。但是如果在一個時間范圍內有很多中數據，比如1萬個IP，那麼即便是查1個IP的數據也需要把1萬個IP的數據都讀取出來。所以可以把 IP 維度也編碼到 rowkey 或者 clustered index 中。但是假如另外還有一個維度是 OS，那麼查詢的時候 IP 維度的 rowkey 是沒有幫助的，仍然是要把所有的數據都查出來。這就是僅依靠主存儲是無法滿足各種查詢條件下都能夠讀取更少的數據的原因。所以，二級索引是必要的。我們可以把時間序列中的所有維度都拿出來建立索引，然後查詢的時候如果指定了維度，就可以用二級索引把真正需要讀取的數據過濾出來。但是實踐中，很多資料庫並不因為使用了索引使得查詢變快了，有的時候反而變得更慢了。對於 mysql 來說，存儲時間序列的最佳方式是按時間做 partition，不對維度建立任何索引。查詢的時候只過濾出對應的 partition，然後進行全 partition 掃描，這樣會快過於使用二級索引定位到行之後再去讀取主存儲的查詢方式。究其原因，就是數據本地化的問題了。
[page]
數據本地化
數據本地化的實質是軟體工程師們要充分尊重和理解底層硬體的限制，並且用各種手段規避問題最大化利用手裡的硬體資源。本地化有很多種形態
最常見的最好理解的本地化問題是網路問題。我們都知道網路帶寬不是無限的，比本地磁碟慢多了。如果可能盡量不要通過網路去訪問數據。即便要訪問，也應該一次抓取多一些數據，而不是一次搞一點，然後搞很多次。因為網路連接和來回的開銷是非常高的。這就是 data locality 的問題。我們要把計算盡可能的靠近數據，減少網路上傳輸的數據量。
這種帶寬引起的本地化問題，還有很多。網路比硬碟慢，硬碟比內存慢，內存比L2緩存慢。做到極致的資料庫可以讓計算完全發生在 L2 緩存內，盡可能地避免頻繁地在內存和L2之間倒騰數據。
另外一種形態的問題化問題是磁碟的順序讀和隨機讀的問題。當數據彼此靠近地物理存放在磁碟上的時候，順序讀取一批是非常快的。如果需要隨機讀取多個不連續的硬碟位置，磁頭就要來回移動從而使得讀取速度快速下降。即便是 SSD 硬碟，順序讀也是要比隨機讀快的。
基於盡可能讓數據讀取本地化的原則，檢索應該盡可能地使用順序讀而不是隨機讀。如果可以的話，把主存儲的row key或者clustered index設計為和查詢提交一樣的。時間序列如果都是按時間查，那麼按時間做的row key可以非常高效地以順序讀的方式把數據拉取出來。類似地，按列存儲的數據如果要把一個列的數據都取出來加和的話，可以非常快地用順序讀的方式載入出來。
二級索引的訪問方式典型的隨機讀。當查詢條件經過了二級索引查找之後得到一堆的主存儲的 key，那麼就需要對每個 key 進行一次隨機讀。即便彼此僅靠的key可以用順序讀做一些優化，總體上來說仍然是隨機讀的模式。這也就是為什麼時間序列數據在 mysql 里建立了索引反而比沒有建索引還要慢的原因。
為了盡可能的利用順序讀，人們就開始想各種辦法了。前面提到了 mysql 里的一行數據的多個列是彼此緊靠地物理存放的。那麼如果我們把所需要的數據建成多個列，那麼一次查詢就可以批量獲得更多的數據，減少隨機讀取的次數。也就是把之前的一些行變為列的方式來存放，減少行的數量。這種做法的經典案例就是時間序列數據，比如可以一分鍾存一行數據，每一秒的值變成一個列。那麼行的數量可以變成之前的1/60。
但是這種行變列的做法在按列存儲的資料庫里就不能直接照搬了，有些列式資料庫有column family的概念，不同的設置在物理上存放可能是在一起的也可能是分開的。對於 Elasticsearch 來說，要想減少行的數量，讓一行多pack一些數據進去，一種做法就是利用 nested document。內部 Elasticsearch 可以保證一個 document 下的所有的 nested document是物理上靠在一起放在同一個 lucene 的 segment 內。
網路的data locality就比較為人熟知了。map rece的大數據計算模式就是利用map在數據節點的本地把數據先做一次計算，往往計算的結果可以比原數據小很多。然後再通過網路傳輸匯總後做 rece 計算。這樣就節省了大量網路傳輸數據的時間浪費和資源消耗。現在 Elasticsearch 就支持在每個 data node 上部署 spark。由 spark 在每個 data node 上做計算。而不用把數據都查詢出來，用網路傳輸到 spark 集群里再去計算。這種資料庫和計算集群的混合部署是高性能的關鍵。類似的還有 storm 和 kafka 之間的關系。
網路的data locality還有一個老大難問題就是分布式大數據下的多表join問題。如果只是查詢一個分布式表，那麼把計算用 map rece 表達就沒有多大問題了。但是如果需要同時查詢兩個表，就意味著兩個表可能不是在物理上同樣均勻分布的。一種最簡單的策略就是找出兩張表中最小的那張，然後把表的內容廣播到每個節點上，再做join。復雜一些的是對兩個單表做 map rece，然後按照相同的 key 把部分計算的結果匯集在一起。第三種策略是保證數據分布的方式，讓兩張表查詢的時候需要用到的數據總在一起。沒有完美的方案，也不大可能有完美的方案。除非有一天網路帶寬可以大到忽略不計的地步。
更多的機器
這個就沒有什麼好說的了。多一倍的機器就多一倍的 CPU，可以同時計算更多的數據。多一倍的機器就多一倍的磁頭，可以同時掃描更多的位元組數。很多大數據框架的故事就是講如何如何通過 scale out解決無限大的問題。但是值得注意的是，集群可以無限大，數據可以無限多，但是口袋裡的銀子不會無限多的。堆機器解決問題比升級大型機是要便宜，但是機器堆多了也是非常昂貴的。特別是 Hive 這些從一開始就是分布式多機的檢索方案，剛開始的時候效率並不高。堆機器是一個乘數，當資料庫本來單機性能不高的時候，乘數大並不能起到決定性的作用。
更高效的計算和計算實現
檢索的過程不僅僅是磁碟掃描，它還包括一個可簡單可復雜的變換過程。使用 hyperloglog，count min-sketch等有損演算法可以極大地提高統計計算的性能。資料庫的join也是一個經常有演算法創新的地方。
計算實現就是演算法是用C++實現的還是用java，還是python實現的。用java是用大Integer實現的，還是小int實現的。不同的語言的實現方式會有一些固定的開銷。不是說快就一定要C++，但是 python 寫 for 循環是顯然沒有指望的。任何數據檢索的環節只要包含 python/ruby 這些語言的逐條 for 循環就一定快不起來了。
結論
希望這四點可以被記住，成為一種指導性的優化數據檢索效率的思維框架。無論你是設計一個mysql表結構，還是優化一個spark sql的應用。從這四個角度想想，都有哪些環節是在拖後腿的，手上的工具有什麼樣的參數可以調整，讓隨機讀變成順序讀，表結構怎麼樣設計可以最小化數據讀取的量。要做到這一點，你必須非常非常了解工具的底層實現。而不是盲目的相信，xx資料庫是最好的資料庫，所以它一定很快之類的。如果你不了解你手上的資料庫或者計算引擎，當它快的時候你不知道為何快，當它慢的時候你就更加無從優化了。

㈣全面對比巔峰庫里和科比能力，庫里效率遠勝科比

當今NBA最炙手可熱的球員之一是庫里，他的出現改變了整個聯盟，庫里的巔峰賽季是2015-16賽季，場均拿下30.1分成為賽季的得分王，率領勇士隊取得了歷史最佳的73勝9負的偉大戰績。

出場時間科比為41分鍾，庫里為34.2分鍾，綜上所述可以看出來，雖然表面上看起來科比的得分比庫里高了5.4分，但是科比的出場時間比起庫里多了差不多7分鍾，命中率比起科比高了5個百分點，場均出手少了7次，如果庫里多了7次出手加上他的得分命中率和三分命中率可以最少拿到7分，這樣庫里的場均分可以高達37分，通過各樣數據對比，庫里的效率完勝科比，故庫里和科比的巔峰狀態相比，庫里更加強大。

聊聊籃球的那點事

㈤庫里最厲害的能力是什麼

對於庫里的印象，大部分人都停留在三分球上，甚至很多人都會說庫里是一個只會投三分的球員。對於這樣的說法，夜侃君只想說有時間多看看球，別張嘴就來！如果你認為庫里最厲害的是他的三分球的話，那就真的是大錯特錯了！

所以夜侃君才說，庫里最厲害的地方在於他的核心力量，否則他投籃再准也都是浮雲。所以大家也不要整天張嘴就說庫里只會三分了，他的成功源自於他的努力。更何況，就算庫里只會投三分，現在全聯盟不還是拿他無可奈何么？

㈥庫里這個賽季效率值是多少

庫里這個賽季的效率值是31.5，逼近了喬丹單季最高的31.7。在控衛位置上，庫里31.5的PER是歷史最高。
本賽季，庫里場均砍下30.1分，場均搶斷2.14次，均位列全聯盟第一，這是他職業生涯首次當選單賽季得分王和搶斷王。庫里還進入「90+50+40」180俱樂部，：180俱樂部，是指球員整季的投籃命中率至少為50%，三分命中率至少為40%，以及罰球命中率至少為90%。50+40+90俱樂部表明了一個全方位的投射能力，且是所有射手的終極目標。本賽季，庫里場均投籃命中率為50.2%，三分球命中率為45.2%，罰球命中率為90.6%。

㈦從資料庫里導出數據時，它的性能速度怎麼就提升了

會有影響的，機器性能對數據的導出速度有很大的影響。
exp和expdp這兩個都是資料庫冷備份的方法，備份的目的是防止資料庫異常導致數據丟失，但是冷備份只能講數據還原到指定時間點的數據。
一周一次備份，頻率還是太低了。就一般生產庫而已，基本上都是一天一備份的。exp對資料庫沒啥影響，只要是在業務相對少的情況下進行就好。
建議使用expdp數據泵方式備份，可以添加parallel參數，很快的。

㈧為什麼本賽季說庫里還是能入選最佳一陣呢

那最近也是聽到一些外界的聲音，包括對最佳一陣的一個排名，包括一些所謂的媒體人在社交軟體上在視頻上，大多數人把這個庫里沒有排進本賽季的一陣，我其實並不是非常贊同這種說法，我還是堅持認為庫里是一陣。這不涉及到個人喜好，而是一種價值觀的選擇。我為什麼說庫里還是一陣呢？

第三點，庫里就是個人效率，高階數據、比賽影響力還是控制後衛里最好的運動員。那為什麼不值得一個一陣呢？有人說是出勤的問題，但是你們去看一下東契奇和莫蘭特本賽季至今的出勤的場數和總時間，哪怕他們後面全都打了這個餘下的比賽，也就是和庫里出場時間差不太多出場次數也差不太多，所以出勤這塊的話也不是一個所謂的別人的優勢。所以綜上來看的話，我覺得庫里還是一位一陣的球員。

㈨為什麼庫里的得分效率為什麼十分的恐怖呢他為什麼可以成為超級巨星呢

高中畢業後，庫里希望加入杜克大學這所籃球名校但是當時杜克大學的老K教練和他的教練團隊認為庫里太過瘦弱矮小，不會適應NCAA的強度，因而放棄將其招致麾下，庫里最終選擇進入戴維森學院。進入大學後庫里的三分統治力便開始初現，大二賽季在對陣堪薩斯大學時，庫里投中了賽季第159記三分球，創造了NCAA單季三分球的紀錄。

從出手三分的方式來看，以往的三分投手都是通過重重掩護，最後跑出空位再出手；但是庫里卻不同，他能夠自己持球後出手三分，甚至是通過連續的晃動自己為自己創造一個投籃空間——根據NBA官網的數據統計，18-19賽季庫里場均4.6次自主創造三分投籃出手，命中率為頂尖的41.2%。正是在庫里的帶動之下，如今的歐文和哈登等球員也都開發出了「持球投三分」的技能。

庫里的成功證明:即便憑借這樣一個接近普通人的身體素質，通過不懈的努力，也能成為NBA的星中之星。有一個前NBA的父親，就這樣的身份帶著兒子走遍全美各大籃球名校，都被拒之門外，最後只能去了NCAA一級聯賽中規模最小的戴維森學院，在這里他開始展現他的籃球天賦，還打破了NCAA三分歷史記錄！沒有勁爆的速度和彈跳，但在嚴厲的父親調教下，練就了幾乎沒有準備動作，出手極快，准得變態的投籃，就這樣在父親的調教下，通過無數的努力終於達到今天的高度！值得我們所有人學習！

㈩美媒曬庫里和利拉德的6項數據對比，對此你怎麼看

威少被交易到東部之後，西部最優秀的控球後衛，毫無疑問就是利拉德和庫里了。兩人年紀相仿，球風也很接近，都是突破犀利，三分神准，並且有不俗組織能力的控衛。作為實力強大的雙能衛，庫里和利拉德不僅得分能力出眾，帶隊表現也很亮眼，他們都是季後賽常客。不過季後賽舞台上，他們的對決卻呈現一邊倒的趨勢。美媒曬出庫里利拉德6項數據對比，庫里6項數據全碾壓，堪稱利拉德剋星。

值得一提的是，16年、17年和19年，勇士都跨過了開拓者隊，最終打進了總決賽。季後賽對決里，庫里在戰績、得分、籃板、助攻、命中率和三分命中率方面都碾壓利拉德，說他徹底打爆了利拉德也毫不為過。利拉德絕對擁有巨星實力，不過他的最高榮譽是一陣，最好帶隊成績是西部決賽。對比手握2MVP+3總冠軍的庫里來說，差距還是比較大的。在西部舞台上，庫里就像是一座大山，尤其對於哈登和利拉德來說，是難以翻越的，至今他們仍未在季後賽擊敗過剋星庫里。

庫里集合存儲效率

與庫里集合存儲效率相關的內容