库里集合存储效率_影响数据检索效率的几个因素

㈠作为历史级顶尖控卫，库里的表现究竟有多出彩

虽然今年没有库里的中国行计划，但前几天库里亚洲行来到武汉站，和武汉粉丝有了密切的互动。旅途中，库里调皮地绕过保镖，去粉丝那里和粉丝击掌，可以说是很友好了。不得不说，科比退役后，库里已经成为中国出道最多的NBA篮球巨星，也是中国乃至世界最受欢迎的球星之一。

库里的名气可以说是曲折，但也可以说是意料之中。出生在篮球之家的父亲戴尔库里曾经是NBA顶级射手，职业生涯命中1245个三分球以上。到目前为止，戴尔库里是鹈鹕队历史上的得分王，所以库里从小就在良好的篮球氛围中长大。在库里的童年环境里，我每天都在卡特大叔这样的篮球巨星身边打球长大。因为戴尔库里是NBA球星，库里从小就接受正统的篮球训练。

库里与大多数恒星的起源不同。也许大部分球迷都知道，大部分NBA球星从小家庭环境都不好，比如詹姆斯、艾弗森等。，而且他们从小就感受到了生活的尴尬。他们从小都是在野球场打篮球，能进联盟更多是因为他们无与伦比的身体天赋。他们从小都在为自己的人生奋斗。

2010年2月11日，库里对阵快船拿下36分13助攻10篮板，职业生涯第一个三双，上个新秀赛季拿下三双的球员叫凯文·约翰逊；2月21日，面对老鹰，他拿下32分，带领球队逆转20分获胜；5天后的26日，面对掘金30分13助攻；3月1日，他再次以31分11助攻面对老鹰；3月14日，面对猛龙35分10助攻；3月25日对阵灰熊，他拿下30分11助攻。然后进入联盟后，库里复制了大学的奇迹，再次上演了疯狂进行曲。

接下来4月库里获得的数据是：对阵猛龙29分12助攻，4月7日27分14篮板8篮板7抢断，赛季最后一场42分9篮板8助攻的准三双数据。也是在执教库里的时候，老尼尔森完成了执教生涯1335胜的历史第一。虽然父亲在执教生涯中没有王冠，但感谢疯狂科学家父亲挖掘库里，成功培养库里。当然，你不能做任何假设。不能假设库里。如果你有无限的权利炒掉那个赛季会怎么样？然而，像库里这样的球员最终会成为超级巨星。现在库里带动了篮球技术的创新，逐渐从传统篮球向小球技术转变。可以说库里现在是继乔丹之后划时代的篮球巨星，这不仅仅是因为他的个人能力，更是因为他对篮球文化的贡献，对篮球技术创新的推动。

㈡西红柿在保鲜库里能储存多长时间呢怎样才能储存较长时间高手们帮个忙

成熟的西红柿在2～4℃之间冷藏比较好，10天之内可保持新鲜和营养。温度太低，西红柿会失去鲜味，并且很快因冻伤而腐烂。西红柿在冷藏时会散发出一种叫做乙烯的气体，催熟和它摆放在一起的蔬菜水果，缩短它们的保鲜期，故西红柿冷藏时最好单独摆放或用保鲜袋包装好。

㈢影响数据检索效率的几个因素

影响数据检索效率的几个因素
数据检索有两种主要形态。第一种是纯数据库型的。典型的结构是一个关系型数据，比如 mysql。用户通过 SQL 表达出所需要的数据，mysql 把 SQL 翻译成物理的数据检索动作返回结果。第二种形态是现在越来越流行的大数据玩家的玩法。典型的结构是有一个分区的数据存储，最初这种存储就是原始的 HDFS，后来开逐步有人在 HDFS 上加上索引的支持，或者干脆用 Elasticsearc 这样的数据存储。然后在存储之上有一个分布式的实时计算层，比如 Hive 或者 Spark SQL。用户用 Hive SQL 提交给计算层，计算层从存储里拉取出数据，进行计算之后返回给用户。这种大数据的玩法起初是因为 SQL 有很多 ad-hoc 查询是满足不了的，干脆让用户自己写 map/rece 想怎么算都可以了。但是后来玩大了之后，越来越多的人觉得这些 Hive 之类的方案查询效率怎么那么低下啊。于是一个又一个项目开始去优化这些大数据计算框架的查询性能。这些优化手段和经典的数据库优化到今天的手段是没有什么两样的，很多公司打着搞计算引擎的旗号干着重新发明数据库的活。所以，回归本质，影响数据检索效率的就那么几个因素。我们不妨来看一看。
数据检索干的是什么事情
定位 => 加载 => 变换
找到所需要的数据，把数据从远程或者磁盘加载到内存中。按照规则进行变换，比如按某个字段group by，取另外一个字段的sum之类的计算。
影响效率的四个因素
读取更少的数据
数据本地化，充分遵循底层硬件的限制设计架构
更多的机器
更高效率的计算和计算的物理实现
原则上的四点描述是非常抽象的。我们具体来看这些点映射到实际的数据库中都是一些什么样的优化措施。
读取更少的数据
数据越少，检索需要的时间当然越少了。在考虑所有技术手段之前，最有效果的恐怕是从业务的角度审视一下我们是否需要从那么多的数据中检索出结果来。有没有可能用更少的数据达到同样的效果。减少的数据量的两个手段，聚合和抽样。如果在入库之前把数据就做了聚合或者抽样，是不是可以极大地减少查询所需要的时间，同时效果上并无多少差异呢？极端情况下，如果需要的是一天的总访问量，比如有1个亿。查询的时候去数1亿行肯定快不了。但是如果统计好了一天的总访问量，查询的时候只需要取得一条记录就可以知道今天有1个亿的人访问了。
索引是一种非常常见的减少数据读取量的策略了。一般的按行存储的关系型数据库都会有一个主键。用这个主键可以非常快速的查找到对应的行。KV存储也是这样，按照Key可以快速地找到对应的Value。可以理解为一个Hashmap。但是一旦查询的时候不是用主键，而是另外一个字段。那么最糟糕的情况就是进行一次全表的扫描了，也就是把所有的数据都读取出来，然后看要的数据到底在哪里，这就不可能快了。减少数据读取量的最佳方案就是，建立一个类似字典一样的查找表，当我们找 username=wentao 的时候，可以列举出所有有 wentao 作为用户名的行的主键。然后拿这些主键去行存储（就是那个hashmap）里捞数据，就一捞一个准了。
谈到索引就不得不谈一下一个查询使用了两个字段，如何使用两个索引的问题。mysql的行为可以代表大部分主流数据库的处理方式：
基本上来说，经验表明有多个单字段的索引，最后数据库会选一最优的来使用。其余字段的过滤仍然是通过数据读取到内存之后，用predicate去判断的。也就是无法减少数据的读取量。
在这个方面基于inverted index的数据就非常有特点。一个是Elasticsearch为代表的lucene系的数据库。另外一个是新锐的druid数据库。
效果就是，这些数据库可以把单字段的filter结果缓存起来。多个字段的查询可以把之前缓存的结果直接拿过来做 AND 或者 OR 操作。
索引存在的必要是因为主存储没有提供直接的快速定位的能力。如果访问的就是数据库的主键，那么需要读取的数据也就非常少了。另外一个变种就是支持遍历的主键，比如hbase的rowkey。如果查询的是一个基于rowkey的范围，那么像hbase这样的数据库就可以支持只读取到这个范围内的数据，而不用读取不再这个范围内的额外数据，从而提高速度。这种加速的方式就是利用了主存储自身的物理分布的特性。另外一个更常见的场景就是 partition。比如 mysql 或者 postgresql 都支持分区表的概念。当我们建立了分区表之后，查找的条件如果可以过滤出分区，那么可以大幅减少需要读取的数据量。比 partition 更细粒度一些的是 clustered index。它其实不是一个索引（二级索引），它是改变了数据在主存储内的排列方式，让相同clustered key的数据彼此紧挨着放在一起，从而在查询的时候避免扫描到无关的数据。比 partition 更粗一些的是分库分表分文件。比如我们可以一天建立一张表，查询的时候先定位到表，再执行 SQL。比如 graphite 给每个 metric 创建一个文件存放采集来的 data point，查询的时候给定metric 就可以定位到一个文件，然后只读取这个文件的数据。
另外还有一点就是按行存储和按列存储的区别。按列存储的时候，每个列是一个独立的文件。查询用到了哪几个列就打开哪几个列的文件，没有用到的列的数据碰都不会碰到。反观按行存储，一张中的所有字段是彼此紧挨在磁盘上的。一个表如果有100个字段，哪怕只选取其中的一个字段，在扫描磁盘的时候其余99个字段的数据仍然会被扫描到的。
考虑一个具体的案例，时间序列数据。如何使用读取更少的数据的策略来提高检索的效率呢？首先，我们可以保证入库的时间粒度，维度粒度是正好是查询所需要的。如果查询需要的是5分钟数据，但是入库的是1分钟的，那么就可以先聚合成5分钟的再存入数据库。对于主存储的物理布局选择，如果查询总是针对一个时间范围的。那么把 timestamp 做为 hbase 的 rowkey，或者 mysql 的 clustered index 是合适。这样我们按时间过滤的时候，选择到的是一堆连续的数据，不用读取之后再过滤掉不符合条件的数据。但是如果在一个时间范围内有很多中数据，比如1万个IP，那么即便是查1个IP的数据也需要把1万个IP的数据都读取出来。所以可以把 IP 维度也编码到 rowkey 或者 clustered index 中。但是假如另外还有一个维度是 OS，那么查询的时候 IP 维度的 rowkey 是没有帮助的，仍然是要把所有的数据都查出来。这就是仅依靠主存储是无法满足各种查询条件下都能够读取更少的数据的原因。所以，二级索引是必要的。我们可以把时间序列中的所有维度都拿出来建立索引，然后查询的时候如果指定了维度，就可以用二级索引把真正需要读取的数据过滤出来。但是实践中，很多数据库并不因为使用了索引使得查询变快了，有的时候反而变得更慢了。对于 mysql 来说，存储时间序列的最佳方式是按时间做 partition，不对维度建立任何索引。查询的时候只过滤出对应的 partition，然后进行全 partition 扫描，这样会快过于使用二级索引定位到行之后再去读取主存储的查询方式。究其原因，就是数据本地化的问题了。
[page]
数据本地化
数据本地化的实质是软件工程师们要充分尊重和理解底层硬件的限制，并且用各种手段规避问题最大化利用手里的硬件资源。本地化有很多种形态
最常见的最好理解的本地化问题是网络问题。我们都知道网络带宽不是无限的，比本地磁盘慢多了。如果可能尽量不要通过网络去访问数据。即便要访问，也应该一次抓取多一些数据，而不是一次搞一点，然后搞很多次。因为网络连接和来回的开销是非常高的。这就是 data locality 的问题。我们要把计算尽可能的靠近数据，减少网络上传输的数据量。
这种带宽引起的本地化问题，还有很多。网络比硬盘慢，硬盘比内存慢，内存比L2缓存慢。做到极致的数据库可以让计算完全发生在 L2 缓存内，尽可能地避免频繁地在内存和L2之间倒腾数据。
另外一种形态的问题化问题是磁盘的顺序读和随机读的问题。当数据彼此靠近地物理存放在磁盘上的时候，顺序读取一批是非常快的。如果需要随机读取多个不连续的硬盘位置，磁头就要来回移动从而使得读取速度快速下降。即便是 SSD 硬盘，顺序读也是要比随机读快的。
基于尽可能让数据读取本地化的原则，检索应该尽可能地使用顺序读而不是随机读。如果可以的话，把主存储的row key或者clustered index设计为和查询提交一样的。时间序列如果都是按时间查，那么按时间做的row key可以非常高效地以顺序读的方式把数据拉取出来。类似地，按列存储的数据如果要把一个列的数据都取出来加和的话，可以非常快地用顺序读的方式加载出来。
二级索引的访问方式典型的随机读。当查询条件经过了二级索引查找之后得到一堆的主存储的 key，那么就需要对每个 key 进行一次随机读。即便彼此仅靠的key可以用顺序读做一些优化，总体上来说仍然是随机读的模式。这也就是为什么时间序列数据在 mysql 里建立了索引反而比没有建索引还要慢的原因。
为了尽可能的利用顺序读，人们就开始想各种办法了。前面提到了 mysql 里的一行数据的多个列是彼此紧靠地物理存放的。那么如果我们把所需要的数据建成多个列，那么一次查询就可以批量获得更多的数据，减少随机读取的次数。也就是把之前的一些行变为列的方式来存放，减少行的数量。这种做法的经典案例就是时间序列数据，比如可以一分钟存一行数据，每一秒的值变成一个列。那么行的数量可以变成之前的1/60。
但是这种行变列的做法在按列存储的数据库里就不能直接照搬了，有些列式数据库有column family的概念，不同的设置在物理上存放可能是在一起的也可能是分开的。对于 Elasticsearch 来说，要想减少行的数量，让一行多pack一些数据进去，一种做法就是利用 nested document。内部 Elasticsearch 可以保证一个 document 下的所有的 nested document是物理上靠在一起放在同一个 lucene 的 segment 内。
网络的data locality就比较为人熟知了。map rece的大数据计算模式就是利用map在数据节点的本地把数据先做一次计算，往往计算的结果可以比原数据小很多。然后再通过网络传输汇总后做 rece 计算。这样就节省了大量网络传输数据的时间浪费和资源消耗。现在 Elasticsearch 就支持在每个 data node 上部署 spark。由 spark 在每个 data node 上做计算。而不用把数据都查询出来，用网络传输到 spark 集群里再去计算。这种数据库和计算集群的混合部署是高性能的关键。类似的还有 storm 和 kafka 之间的关系。
网络的data locality还有一个老大难问题就是分布式大数据下的多表join问题。如果只是查询一个分布式表，那么把计算用 map rece 表达就没有多大问题了。但是如果需要同时查询两个表，就意味着两个表可能不是在物理上同样均匀分布的。一种最简单的策略就是找出两张表中最小的那张，然后把表的内容广播到每个节点上，再做join。复杂一些的是对两个单表做 map rece，然后按照相同的 key 把部分计算的结果汇集在一起。第三种策略是保证数据分布的方式，让两张表查询的时候需要用到的数据总在一起。没有完美的方案，也不大可能有完美的方案。除非有一天网络带宽可以大到忽略不计的地步。
更多的机器
这个就没有什么好说的了。多一倍的机器就多一倍的 CPU，可以同时计算更多的数据。多一倍的机器就多一倍的磁头，可以同时扫描更多的字节数。很多大数据框架的故事就是讲如何如何通过 scale out解决无限大的问题。但是值得注意的是，集群可以无限大，数据可以无限多，但是口袋里的银子不会无限多的。堆机器解决问题比升级大型机是要便宜，但是机器堆多了也是非常昂贵的。特别是 Hive 这些从一开始就是分布式多机的检索方案，刚开始的时候效率并不高。堆机器是一个乘数，当数据库本来单机性能不高的时候，乘数大并不能起到决定性的作用。
更高效的计算和计算实现
检索的过程不仅仅是磁盘扫描，它还包括一个可简单可复杂的变换过程。使用 hyperloglog，count min-sketch等有损算法可以极大地提高统计计算的性能。数据库的join也是一个经常有算法创新的地方。
计算实现就是算法是用C++实现的还是用java，还是python实现的。用java是用大Integer实现的，还是小int实现的。不同的语言的实现方式会有一些固定的开销。不是说快就一定要C++，但是 python 写 for 循环是显然没有指望的。任何数据检索的环节只要包含 python/ruby 这些语言的逐条 for 循环就一定快不起来了。
结论
希望这四点可以被记住，成为一种指导性的优化数据检索效率的思维框架。无论你是设计一个mysql表结构，还是优化一个spark sql的应用。从这四个角度想想，都有哪些环节是在拖后腿的，手上的工具有什么样的参数可以调整，让随机读变成顺序读，表结构怎么样设计可以最小化数据读取的量。要做到这一点，你必须非常非常了解工具的底层实现。而不是盲目的相信，xx数据库是最好的数据库，所以它一定很快之类的。如果你不了解你手上的数据库或者计算引擎，当它快的时候你不知道为何快，当它慢的时候你就更加无从优化了。

㈣全面对比巅峰库里和科比能力，库里效率远胜科比

当今NBA最炙手可热的球员之一是库里，他的出现改变了整个联盟，库里的巅峰赛季是2015-16赛季，场均拿下30.1分成为赛季的得分王，率领勇士队取得了历史最佳的73胜9负的伟大战绩。

出场时间科比为41分钟，库里为34.2分钟，综上所述可以看出来，虽然表面上看起来科比的得分比库里高了5.4分，但是科比的出场时间比起库里多了差不多7分钟，命中率比起科比高了5个百分点，场均出手少了7次，如果库里多了7次出手加上他的得分命中率和三分命中率可以最少拿到7分，这样库里的场均分可以高达37分，通过各样数据对比，库里的效率完胜科比，故库里和科比的巅峰状态相比，库里更加强大。

聊聊篮球的那点事

㈤库里最厉害的能力是什么

对于库里的印象，大部分人都停留在三分球上，甚至很多人都会说库里是一个只会投三分的球员。对于这样的说法，夜侃君只想说有时间多看看球，别张嘴就来！如果你认为库里最厉害的是他的三分球的话，那就真的是大错特错了！

所以夜侃君才说，库里最厉害的地方在于他的核心力量，否则他投篮再准也都是浮云。所以大家也不要整天张嘴就说库里只会三分了，他的成功源自于他的努力。更何况，就算库里只会投三分，现在全联盟不还是拿他无可奈何么？

㈥库里这个赛季效率值是多少

库里这个赛季的效率值是31.5，逼近了乔丹单季最高的31.7。在控卫位置上，库里31.5的PER是历史最高。
本赛季，库里场均砍下30.1分，场均抢断2.14次，均位列全联盟第一，这是他职业生涯首次当选单赛季得分王和抢断王。库里还进入“90+50+40”180俱乐部，：180俱乐部，是指球员整季的投篮命中率至少为50%，三分命中率至少为40%，以及罚球命中率至少为90%。50+40+90俱乐部表明了一个全方位的投射能力，且是所有射手的终极目标。本赛季，库里场均投篮命中率为50.2%，三分球命中率为45.2%，罚球命中率为90.6%。

㈦从数据库里导出数据时，它的性能速度怎么就提升了

会有影响的，机器性能对数据的导出速度有很大的影响。
exp和expdp这两个都是数据库冷备份的方法，备份的目的是防止数据库异常导致数据丢失，但是冷备份只能讲数据还原到指定时间点的数据。
一周一次备份，频率还是太低了。就一般生产库而已，基本上都是一天一备份的。exp对数据库没啥影响，只要是在业务相对少的情况下进行就好。
建议使用expdp数据泵方式备份，可以添加parallel参数，很快的。

㈧为什么本赛季说库里还是能入选最佳一阵呢

那最近也是听到一些外界的声音，包括对最佳一阵的一个排名，包括一些所谓的媒体人在社交软件上在视频上，大多数人把这个库里没有排进本赛季的一阵，我其实并不是非常赞同这种说法，我还是坚持认为库里是一阵。这不涉及到个人喜好，而是一种价值观的选择。我为什么说库里还是一阵呢？

第三点，库里就是个人效率，高阶数据、比赛影响力还是控制后卫里最好的运动员。那为什么不值得一个一阵呢？有人说是出勤的问题，但是你们去看一下东契奇和莫兰特本赛季至今的出勤的场数和总时间，哪怕他们后面全都打了这个余下的比赛，也就是和库里出场时间差不太多出场次数也差不太多，所以出勤这块的话也不是一个所谓的别人的优势。所以综上来看的话，我觉得库里还是一位一阵的球员。

㈨为什么库里的得分效率为什么十分的恐怖呢他为什么可以成为超级巨星呢

高中毕业后，库里希望加入杜克大学这所篮球名校但是当时杜克大学的老K教练和他的教练团队认为库里太过瘦弱矮小，不会适应NCAA的强度，因而放弃将其招致麾下，库里最终选择进入戴维森学院。进入大学后库里的三分统治力便开始初现，大二赛季在对阵堪萨斯大学时，库里投中了赛季第159记三分球，创造了NCAA单季三分球的纪录。

从出手三分的方式来看，以往的三分投手都是通过重重掩护，最后跑出空位再出手；但是库里却不同，他能够自己持球后出手三分，甚至是通过连续的晃动自己为自己创造一个投篮空间——根据NBA官网的数据统计，18-19赛季库里场均4.6次自主创造三分投篮出手，命中率为顶尖的41.2%。正是在库里的带动之下，如今的欧文和哈登等球员也都开发出了“持球投三分”的技能。

库里的成功证明:即便凭借这样一个接近普通人的身体素质，通过不懈的努力，也能成为NBA的星中之星。有一个前NBA的父亲，就这样的身份带着儿子走遍全美各大篮球名校，都被拒之门外，最后只能去了NCAA一级联赛中规模最小的戴维森学院，在这里他开始展现他的篮球天赋，还打破了NCAA三分历史记录！没有劲爆的速度和弹跳，但在严厉的父亲调教下，练就了几乎没有准备动作，出手极快，准得变态的投篮，就这样在父亲的调教下，通过无数的努力终于达到今天的高度！值得我们所有人学习！

㈩美媒晒库里和利拉德的6项数据对比，对此你怎么看

威少被交易到东部之后，西部最优秀的控球后卫，毫无疑问就是利拉德和库里了。两人年纪相仿，球风也很接近，都是突破犀利，三分神准，并且有不俗组织能力的控卫。作为实力强大的双能卫，库里和利拉德不仅得分能力出众，带队表现也很亮眼，他们都是季后赛常客。不过季后赛舞台上，他们的对决却呈现一边倒的趋势。美媒晒出库里利拉德6项数据对比，库里6项数据全碾压，堪称利拉德克星。

值得一提的是，16年、17年和19年，勇士都跨过了开拓者队，最终打进了总决赛。季后赛对决里，库里在战绩、得分、篮板、助攻、命中率和三分命中率方面都碾压利拉德，说他彻底打爆了利拉德也毫不为过。利拉德绝对拥有巨星实力，不过他的最高荣誉是一阵，最好带队成绩是西部决赛。对比手握2MVP+3总冠军的库里来说，差距还是比较大的。在西部舞台上，库里就像是一座大山，尤其对于哈登和利拉德来说，是难以翻越的，至今他们仍未在季后赛击败过克星库里。

库里集合存储效率

与库里集合存储效率相关的内容