双十一数据缓存架构_淘宝的数据库怎么搭建

㈠淘宝的数据库怎么搭建

我们也了解到，现在淘宝的整个的数据库团队在逐渐的把一些数据库从Oracle迁移到Mysql，然后呢，把一些服务器由小型机转到PC server，那你们整个转变的动机是什么？
主要是因为业务压力给了我们最大的动力。07年我来到淘宝的时候，当时只有三个主要的数据库，全部在小型机和存储上面。以当时的压力来看，它跑起来是非常顺利的，而且大家也知道小型机它从Unix操作系统到硬件，稳定性都会比PC server其实要高很多，当时的情况下淘宝用小型机是一个非常自然的选择。
从07年开始淘宝的业务量保持每年自然翻一番的增长，数据库质量感觉到非常大的压力。那么前端业务量增长一倍，在数据库上有可能增长是好几倍，它有一个放大效应在里边。当时我们第一步能够想到很自然的架构，就是把三个数据库拆成更多的数据库，或每一个数据库支持一个比较单一的业务。比如用户、商品和交易，都会分成独立的数据库，然后放到独立的小型计算中去，这是我们08年做的很大的事情就是垂直拆分，然后08年的业务我们就顶住了。
当时我们就预估09年、10年会有更大的压力增长，这个时候我们应该怎么办？当时我们从业界能看到很多的经验分享，包括eBay、亚马逊这些国外的大公司，他们的经验分享里面，水平拆分是我们数据库涨到一定程度后的架构选择。我们从Oracle到MySQL转移，主要是用水平拆分，这是我们未来的一个弱点，那水平拆分后机器、数据库的数量都会多很多，那Oracle它本身的成本也是我们考虑的一个重要因素，所以当时从成本考虑的话，那个时候我们自然会选择用MySQL数据库。
给我们再简单总结一下这几年，淘宝整个数据库的演变过程？
刚才说到08年我们做完垂直拆分以后，09年到今年我们主要做的工作其实就是水平拆分。今年在十月份之前我们全部完成了淘宝最核心的三个系统：交易数据库、商品数据库和用户数据库的水平拆分。所以到“双十一”之前，在我们内部采访中，我一直跟采访人员说，当时数据库情绪稳定。基本上我们没有做什么事情，只是在不停的看报表，看数据，然后很开心的看到交易曲线以超过45度的趋势往上涨。
那前期还是做了非常完善的准备。据我们了解在整个从小型机到PC server的迁移，包括从Oracle到MySQL数据库的迁移，你们在做这个事情的时候，都做过好几个月的压力测试。你讲讲这个背景和故事。
是这样的，今年我们年初决定，我们商品库从小型机迁到PC server上面去，这是淘宝压力最大的一个数据库，当时是用四台小型机加两个高端存储来支撑的。要把这么大一个数据库进行迁移，我们心里面也是没有底的，因为不知道要多少台PC server能够支撑，需要什么样的配置来支撑这个压力？当时我们能够想到一个很直观的想法就是模拟线上完全一样的压力，甚至加上几倍的压力来测它的极限值。
我们和开发团队、我们的性能测试团队，加上DBA团队和ops团队，成立了一个非常大的项目组，然后做了接近两个月的性能测试，在整个测试过程中发现了非常多的问题，包括我们给Oracle、MySQL等厂商都提交了很多Bug，有些Bug也得到厂商回应，进行修复。
那整体的转变的过程到现在进行到了什么样的程度？包括你在整个转变的过程中遇到哪些问题？
我们现在最核心的用户数据库今年已经彻底完成了从小型机、存储和Oracle切入到PC server加MySQL的架构。
我们内部有一个提法叫做去O、去I、去E，其实就是我们要从高端硬件Scale up模式到低端硬件的Scal out水平扩展的模式，这是淘宝内部最大最核心的系统，今年已经顺利完成了全部区的水平扩展。其他几个系统，比如说交易和商品已经完成了一部分，完成了水平拆分的一部分，但是没有达到我们希望的进度，这可能是明年我们需要做的事情。
在转型过程中主要遇到哪些问题？
让我们觉得比较大的问题就是我们从可靠的小型机迁移到大规模，大数据量的PC server上来，从架构上就对我们就是一个非常大的挑战。大家都知道，每一个PC server的稳定性肯定和单台小型机会有一定的差距，再加上我们一个机群有可能是32台或者64台PC server。每一台PC server即使有四个9的可用性，但如果我们整个系统合在一起，可能它最后的两个9的可用性都达不到。这就需要我们从软件层、架构层要做非常多的改进，能够要让单点的一些失效对整体的系统不造成任何影响，因为我们和架构部门、开发部门一起做了很多事情，才能保证我们的集群稳定上线。
其实“双十一”这个时间应该说是对过去的技术转变的检验，现在回头来看，这个检验的结果怎么样？
当时是有点提心吊胆的，之后又觉得相对来说今年我们做的很多事情还是非常成功的。但是现在再回头仔细想想还是有点后怕，“双十一”那天的凌晨零点不是有一次Ipad的秒杀吗，当天晚上我们都在线上观察数据，在零点的一瞬间，就看到所有数据库指标已经达到了以前正常时候最高峰的指标，有些甚至还超过了。
当天晚上睡觉的时候心里就有点在打鼓：才零点就这个样子了，明天下午明天晚上最高峰的时候我们应该怎么渡过？所以第二天早上八点多的时候我们一进到指挥部里面就看到所有的指标，包括CDN的指标、各个业务线的指标、数据库的指标都是噌噌的往上涨，这时心里面其实是很忐忑不安的。
但是我们比较放心的是这三大核心系统，商品、用户和交易，在我们今年所有的水平扩展项目做完了以后，比如说商品功能做完了以后，从我们的机械压测里面它是有十倍的流量的，所以当天百分之一百，百分之两百的流量基本上对数据库没有造成太大的影响，所以当时还是很开心的看到这个指标快速的往上涨，希望交易能够通过10个亿、20个亿，我觉得都是能够承受的。
那对于整个数据库架构的演进下一步有什么打算？
下一步其实就是刚刚说的我们有几个核心系统还没有完全的做到这个水平扩展，加上“双十一”那天我们还是有一个小惊险：我们有一个数据库，跟交易核心有一点点联系的，但它还是放在小型机上面，当时已经提前为它准备了百分之一百的余量，就是说它可以承担平时最高压力的两倍。
但是那天已经达到平时最高压力的1.8倍左右的时候，把我们吓出了一身冷汗。如果当时淘宝的交易最高峰的流量再增长20%的话，有可能数据库就会到瓶颈了。所以我们明年是要把更多这种Scale up能够看到天花板的数据库全部要拆分成水平库存这种数据库。
那你刚才所提到的去Oracle，去小型机，去高端存储，这个“三去”的整体思路给淘宝网带来了哪些经济上的效应？
当时我们知道小型机和存储的价格是非常昂贵的，还是拿我们刚才说压力最大的商品数据库举个例子，当初我们数据库是用了四台高端的小型机，两套高端的存储，成本加起来起码都是三千万以上。那目前我们用的是32台PC server来搭建的一个机群，价格也就是300万~500万的级别。相对来说我们做完这个事情以后，解决了两三千万的硬件成本。
这样来讲，整体的经济效益还是非常不错的。但是其实刚才我们在前期沟通的时候也提到，你要从Oracle转到MySQL，包括从小型机转到PC server，其实里面还是会遇到蛮多问题的，包括它的不稳定性等等，那对于这一方面你有没有什么经验可谈？
在这一方面，我觉得有两个很重要的因素。第一个是我们需要和我们的开发前端应用架构部门能够紧密的合作，能够让我们的应用融入刚才说的整个机群的单点失效和容灾的问题。都需要我们和架构部门一起来考虑的；第二个比较大的经验就是目前我们在做的，深入研究MySQL的源代码。我们从研究和压力测试的过程中，发现MySQL它本身代码的一些缺陷，可能在高并发大压力下会有很多隐藏的Bug。
在我们最近的这次测试当中，我们还发现了Facebook发布的FlashCache二级缓存的软件，当时我们是测出它一个非常大的Bug：并发压力非常大的情况下，它会导致MySQL成为一个僵尸进程。我们发现了以后，很快反馈给Face book，然后Face book很快就修复了这个问题，这也是我们对使用开源软件带来更大的一个信心，就是开源能够在全球得到更多的支持，大家都能够从原代码层面来解决更深层次的一个问题。
我想这也可能是淘宝技术团队现在那么开放，那么注重开源的动力之一。那如果说想对MySQL的一些核心代码做编译，就需要对人才的储备，包括各方面资源整合的要求还是蛮大的，那你在这方面有没有什么感触？
说到人才这个话题，08年的时候，淘宝当时准备大规模的往MySQL方向上转，我们内部也是有一些置疑的声音。他们说淘宝DDA团队以前都是在Oracle方面比较专精，在业界来说，淘宝的DDA团队在Oracle方面更加有名气一些。所以我们内部有置疑的声音。就是说你们有MySQL专家吗，MySQL出问题了以后能很快的解决吗？所以从08年到现在，我们慢慢的一路走过来，内部培养了很多的MySQL的人才，包括这几年我们的应届生的成长，再加上我们从外部招到一些专家，我们对MySQL的理解已经越来越深。
刚才说到，我们已经能够给MySQL打Patch，已经能够给MySQL report这些Bug。到现在为止，我觉得MySQL的成长已经达到了非常高的一个程度，我们对MySQL已经越来越有信心，但是未来淘宝的MySQL肯定是要做得越来越大的，淘宝还有很多小型机上面扩展不太容易的系统需要迁移到可扩展的机群上面来，但我们也希望业界能够有更多的MySQL伙伴加入我们，和我们一起来做这么一件非常有意义的事情。
我想能够加入到淘宝的技术团队，去经历那么多有大交易量的技术实践还是非常宝贵的。另外一个问题就是虽然说现在我们用的越来越多的是MySQL，但是现在大家也知道MySQL已经被Oracle收购了，那对像淘宝这样的团队有什么影响呢？
大家都知道MySQL其实是基于GPL的协议来开源的软件，那淘宝在使用过程中，前期是已经考虑到一些风险。所以我们所有的MySQL都是自己来做编译做优化的，而且我想MySQL被Oracle收购了以后，现在看起来Oracle应该是给MySQL在开发这方面是提供了更大的帮助，像之前在Sun的时候，MySQL的版本相对来说是比较混乱的，包括我们现在在用的5.0和5.1的正式版本，最近还有包括开发方面就还有两个，一个6.0，一个5.4，这些特性会互相交织在一起，让我们选择的时候也有点不知道到底选哪个版本会更好一点。但现在Oracle收购MySQL以后，他把5.4跟6.0这些版本已经合成了一个比较规范的5.5的版本，并且为它制订了很好的一个milestone15：31，未来要怎么发展这个里程碑，M1、M2、M3、M4这种发展方向，而到现在为止这个5.5已经发展到5.6、5.7的版本，而且已经是IC版本了，很快就要GA了，那我想这对于MySQL来说应该是一个好消息。我们可以用到更多更稳定的新特性， 5.5版本里有几个新的特性是我们非常关注的，比如Google已经达到英文15：57这个pach，所以我们觉得对我们未来的这个MySQL这个系统非常有用的一个功能。那我们也等着Oracle的5.5这个版本能够尽快的GA出来。

㈡ 2021年双11成交额会有多少亿从这份数据中你看出了什么

从天猫获悉，从11月1日0点到11日0点45分，已有382个品牌在天猫双11的成交额超过1亿元。其中不仅有华为、鸿星尔克等一大批人气国货品牌，也有苹果、欧莱雅等国际品牌。百雀羚、回力这样的老字号，蕉内、添可等新品牌，也跻身成交额过亿之列。另外，已有411个去年成交额过百万的中小品牌，今年销售额突破千万；更有40个去年双11成交额千万级的品牌，在今年双11成交额突破了1亿元大关。虽然今年的数据还没有完全出来，但是预计，今年不会比去年差，去年双十一成交额在4982亿元，今年预计会达到5600亿，这是和今年的经济分不开的，今年的经济形势，虽然还是受到疫情的影响，但是明显优于去年。虽然这两年全球经济形势整体不好，但是谷市两年还是很不错的，从2600点涨到现在的3500点。

㈢如何统计分析双十一天猫数据

首先说一个众所周知的数据：2017年双十一天猫成交额1682亿。

数据来源：网络整理

涉及工具：BDP个人版、微舆情、微指数、wordart

㈣天猫双11订单峰值每秒50多万笔，此数据可以看到什么

2020年双十一购物狂欢节是指2020年11月11日网络商品促销日，这天的东西大多都很便宜，在双十一这天有许多折扣或者优惠券之类的优惠活动，今年天猫双十一订单峰值每秒达到了50万多笔。

天猫双十一订单峰值每秒50多万笔，从中我们可以看出网购在现代社会越来越受欢迎，互联网在人们生活中越来越重要，人们日常离不开互联网和网购。双十一是一个购物促销节，今年热词出现“尾款人”、“打工人”，社会发展越来越具有年轻化，潮流话。

双十一合理消费，理性购买，适量购买，适量消费。社会在进步，互联网所占地位提升。

㈤天猫双十一是怎么保证高并发，分布式系统中，数据一致性的

VPLEX的技术核心是“分布式缓存一致性”，下图则是“分布式缓存一致性”技术的工作机制示意：正是因为这项核心技术优势，使得VPLEX方案和目前所有厂商的虚拟化方案截然不同，并能够实现异地的数据中心整合。对跨数据中心的所有负载实现跨引擎的平摊或者实时迁移，来自任何一个主机的I/O请求可以通过任何一个引擎得到响应。缓存一致性的记录目录使用少量的元数据，记录下哪个数据块属于哪个引擎更新的，以及在何时更新过，并通过4K大小的数据块告诉在集群中的所有其他的引擎。在整个过程中实际发生的沟通过程，远远比实际上正在更新数据块少很多。分布式缓存一致性数据流示意图：上方是一个目录，记录下左侧的主机读取缓存A的操作，并分发给所有引擎，右侧主机需要读取该数据块时，会先通过目录查询，确定该数据块所属的引擎位置，读取请求会直接发送给引擎，并直接从数据块所在的缓存上读取。当一个读请求进入时，VPLEX会自动检查目录，查找该数据块所属的引擎，一旦确定该数据块所属的引擎位置，读的请求会直接发送给该引擎。一旦一个写入动作完成，并且目录表被修改，这时另一个读请求从另一个引擎过来，VPLEX会检查目录，并且直接从该引擎的缓存上读取。如果该数据仍然在缓存上，则完全没必要去磁盘上读取。如上图，来自图中左侧主机的操作，由CacheA服务，会记录一个更新状态，并分发给所有所有引擎知道。如果读取的需求来自最右侧的服务器，首先通过目录查询。通过这种技术可以实现所有引擎一致性工作，而且这个技术不仅可以跨引擎还可以跨VPLEX集群，而VPLEX集群可以跨区域，因此缓存一致性也可以跨区域部署。分布式缓存一致性技术使VPLEX相比传统的虚拟化方案拥有更高的性能和可靠性，并实现异地数据中心的虚拟化整合对传统的虚拟化架构来说，如果虚拟化的I/O集群中有一个节点坏了，那么性能就会降低一半，而且实际情况降低不止一半。因为坏了一个节点，这个节点缓存一般会被写进去。因为没有缓存，操作会直接写到硬盘里。如果图中中心这个节点坏掉，那主机所有的可用性都没有了。而VPLEX如果有一个引擎或者一个控制器坏掉了，那这个引擎的负载会均摊到其他活动引擎上。这样总体来讲用户可以维持可预知性能，性能降低也不那么明显。

㈥双11是当下最大的网购活动之一，一天之内如此庞大的数据交互，淘宝是靠什么解决的

有自己的ai技术，淘宝天猫每年都会举办618年中大促和双十一大促，两个活动淘宝商城都很重视，同样也会举办活动去迎接这些日子，那么这两个的优惠上面有何区别?淘宝618和双11哪个便宜呢?

参加双十一的商品可同时参加同期的聚划算，但正式活动的商品售价与聚划算价必须保持一致，否则将被同时强制修改为报名的最低价格。但参加聚划算秒杀活动的商品，无法同时报名参加双11活动，即使同时报名参加双十一，也会被系统自动请退出招商名单。
天猫表示，不会强制商家设置活动商品价格，但商家应确保所有价格真实有效，所有售价真实有效，不可在双十一期间擅自提价、擅自提前结束活动。和往年不同的是，今年天猫将为消费者提供“11.11购物券”，天猫表示，这是专为天猫消费者开发的产品。报名参加“天猫双十一全球狂欢节”的商家，店铺全店商品均须支持使用“11.11购物券”。

㈦天猫双十一是怎么保证高并发，分布式系统中，数据一致性的

VPLEX的技术核心是“分布式缓存一致性”，下图则是“分布式缓存一致性”技术的工作机制示意：正是因为这项核心技术优势，使得VPLEX方案和目前所有厂商的虚拟化方案截然不同，并能够实现异地的数据中心整合。对跨数据中心的所有负载实现跨引擎的平摊或者实时迁移，来自任何一个主机的I/O请求可以通过任何一个引擎得到响应。
缓存一致性的记录目录使用少量的元数据，记录下哪个数据块属于哪个引擎更新的，以及在何时更新过，并通过4K大小的数据块告诉在集群中的所有其他的引擎。在整个过程中实际发生的沟通过程，远远比实际上正在更新数据块少很多。

分布式缓存一致性数据流示意图：上方是一个目录，记录下左侧的主机读取缓存A的操作，并分发给所有引擎，右侧主机需要读取该数据块时，会先通过目录查询，确定该数据块所属的引擎位置，读取请求会直接发送给引擎，并直接从数据块所在的缓存上读取。
当一个读请求进入时，VPLEX会自动检查目录，查找该数据块所属的引擎，一旦确定该数据块所属的引擎位置，读的请求会直接发送给该引擎。一旦一个写入动作完成，并且目录表被修改，这时另一个读请求从另一个引擎过来，VPLEX会检查目录，并且直接从该引擎的缓存上读取。如果该数据仍然在缓存上，则完全没必要去磁盘上读取。
如上图，来自图中左侧主机的操作，由Cache A服务，会记录一个更新状态，并分发给所有所有引擎知道。如果读取的需求来自最右侧的服务器，首先通过目录查询。通过这种技术可以实现所有引擎一致性工作，而且这个技术不仅可以跨引擎还可以跨VPLEX集群，而VPLEX集群可以跨区域，因此缓存一致性也可以跨区域部署。

分布式缓存一致性技术使VPLEX相比传统的虚拟化方案拥有更高的性能和可靠性，并实现异地数据中心的虚拟化整合
对传统的虚拟化架构来说，如果虚拟化的I/O集群中有一个节点坏了，那么性能就会降低一半，而且实际情况降低不止一半。因为坏了一个节点，这个节点缓存一般会被写进去。因为没有缓存，操作会直接写到硬盘里。如果图中中心这个节点坏掉，那主机所有的可用性都没有了。而VPLEX如果有一个引擎或者一个控制器坏掉了，那这个引擎的负载会均摊到其他活动引擎上。这样总体来讲用户可以维持可预知性能，性能降低也不那么明显。

㈧天猫双十一是怎么保证高并发、分布式系统中，数据一致性的

今年交易库应该使用的还是全程参与过的Oceanbase0.5版，还可以回答一下 1.
数据一致性的保证，这是个分布式问题，解决方法就是就是Paxos协议。Oceanbase的updateserver节点由一个master和两个slave组成，每条redolog都要保证写master本地成功，并且任意一个slave确认持久化成功才算成功，否则不应答客户端。工程实现上经过了简化，比较类似raft，slave只能应答ID连续的日志同步，而不是megastore里那样，来一条就持久化一条(OB1.0是完美的Multi-Paxos，以后我单独分享blog)。相对与mysql/oracle主备同步要在Maximum
Protection和的Maximum
availability之间取舍设计，Paxos最大的优势在于，3台机器任意宕掉一台(或者说N台机器任意宕掉N/2台)，剩下的机器可以继续提供服务，而不必担心丢失日志。
2.
分库分表事务怎么办，OB的事务都在单点updateserver上执行没有分布式事务问题，由于交易库压力巨大，OB也部署了多个集群，但是交易库的特性是没有跨域交易的事务，因此尽管有一笔交易内的跨表事务，但是业务可以按照交易ID来分库，库与库之间没有事务操作。至于其他业务跨库事务，是靠业务逻辑处理实现事务的。
3.
库存加锁是个好问题，OB和mysql优化方式不太一样，本质是都是批处理，之前是听说mysql通过将多条扣减库存的sql合并为一条sql来优化的，优化逻辑需要处理sql解析，个人感觉比较定制化，后续优化成什么样就不太清楚了;而OB使用了多个优化设计：(1)对于并发扣减库存的语句，引入了一种叫做“early
lock release”的机制来优化，在事务提交前释放行锁，使得对同一行的修改有可能能够在一次group
commit提交;(2)扩充了sql语法增，类似存储过程，使得insert,update能够在一次auto
commit中完成，避免了持锁与客户端交互;(3)支持hint提示，让客户端能够提示可能的冲突，使得我们可以将可能冲突的请求在一个线程中排队处理。如上几个优化效果很显着，但是比较遗憾是，由于某些原因，OB当年没有拿下库存中心，后续才转而主攻更核心的交易库。

㈨如何搭建亿级并发的系统架构

想设计亿万级高并发架构，你要先知道高并发是什么？

面对流量高峰，不同的企业是如何通过技术手段解决高并发难题的呢?

0、引言

软件系统有三个追求：高性能、高并发、高可用，俗称三高。三者既有区别也有联系，门门道道很多，全面讨论需要三天三夜，本篇讨论高并发。

高并发（High Concurrency）。并发是操作系统领域的一个概念，指的是一段时间内多任务流交替执行的现象，后来这个概念被泛化，高并发用来指大流量、高请求的业务情景，比如春运抢票，电商双十一，秒杀大促等场景。

很多程序员每天忙着搬砖，平时接触不到高并发，哪天受不了跑去面试，还常常会被面试官犀利的高并发问题直接KO，其实吧，高并发系统也不高深，我保证任何一个智商在线的看过这篇文章后，都能战胜恐惧，重拾生活的信心。

本文先介绍高并发系统的度量指标，然后讲述高并发系统的设计思路，再梳理高并发的关键技术，最后结合作者的经验做一些延伸探讨。

1、高并发的度量指标

既然是高并发系统，那并发一定要高，不然就名不副实。并发的指标一般有QPS、TPS、IOPS，这几个指标都是可归为系统吞吐率，QPS越高系统能hold住的请求数越多，但光关注这几个指标不够，我们还需要关注RT，即响应时间，也就是从发出request到收到response的时延，这个指标跟吞吐往往是此消彼长的，我们追求的是一定时延下的高吞吐。

比如有100万次请求，99万次请求都在10毫秒内响应，其他次数10秒才响应，平均时延不高，但时延高的用户受不了，所以，就有了TP90/TP99指标，这个指标不是求平均，而是把时延从小到大排序，取排名90%/99%的时延，这个指标越大，对慢请求越敏感。

除此之外，有时候，我们也会关注可用性指标，这可归到稳定性。

一般而言，用户感知友好的高并发系统，时延应该控制在250毫秒以内。

什么样的系统才能称为高并发？这个不好回答，因为它取决于系统或者业务的类型。不过我可以告诉你一些众所周知的指标，这样能帮助你下次在跟人扯淡的时候稍微靠点儿谱，不至于贻笑大方。

通常，数据库单机每秒也就能抗住几千这个量级，而做逻辑处理的服务单台每秒抗几万、甚至几十万都有可能，而消息队列等中间件单机每秒处理个几万没问题，所以我们经常听到每秒处理数百万、数千万的消息中间件集群，而像阿某的API网关，每日百亿请求也有可能。

2、高并发的设计思路

高并发的设计思路有两个方向：

垂直方向扩展，也叫竖向扩展
水平方向扩展，也叫横向扩展

垂直方向：提升单机能力

提升单机处理能力又可分为硬件和软件两个方面：

硬件方向，很好理解，花钱升级机器，更多核更高主频更大存储空间更多带宽
软件方向，包括用各快的数据结构，改进架构，应用多线程、协程，以及上性能优化各种手段，但这玩意儿天花板低，就像提升个人产出一样，996、007、最多24 X 7。

水平方向：分布式集群

为了解决分布式系统的复杂性问题，一般会用到架构分层和服务拆分，通过分层做隔离，通过微服务解耦。

这个理论上没有上限，只要做好层次和服务划分，加机器扩容就能满足需求，但实际上并非如此，一方面分布式会增加系统复杂性，另一方面集群规模上去之后，也会引入一堆AIOps、服务发现、服务治理的新问题。

因为垂直向的限制，所以，我们通常更关注水平扩展，高并发系统的实施也主要围绕水平方向展开。

3、高并发的关键技术

玩具式的网络服务程序，用户可以直连服务器，甚至不需要数据库，直接写磁盘文件。但春运购票系统显然不能这么做，它肯定扛不住这个压力，那一般的高并发系统是怎么做呢？比如某宝这样的正经系统是怎么处理高并发的呢？

其实大的思路都差不多，层次划分 + 功能划分。可以把层次划分理解为水平方向的划分，而功能划分理解为垂直方向的划分。

首先，用户不能直连服务器，要做分布式就要解决“分”的问题，有多个服务实例就需要做负载均衡，有不同服务类型就需要服务发现。

集群化：负载均衡

负载均衡就是把负载（request）均衡分配到不同的服务实例，利用集群的能力去对抗高并发，负载均衡是服务集群化的实施要素，它分3种：

DNS负载均衡，客户端通过URL发起网络服务请求的时候，会去DNS服务器做域名解释，DNS会按一定的策略（比如就近策略）把URL转换成IP地址，同一个URL会被解释成不同的IP地址，这便是DNS负载均衡，它是一种粗粒度的负载均衡，它只用URL前半部分，因为DNS负载均衡一般采用就近原则，所以通常能降低时延，但DNS有cache，所以也会更新不及时的问题。
硬件负载均衡，通过布置特殊的负载均衡设备到机房做负载均衡，比如F5，这种设备贵，性能高，可以支撑每秒百万并发，还能做一些安全防护，比如防火墙。
软件负载均衡，根据工作在ISO 7层网络模型的层次，可分为四层负载均衡（比如章文嵩博士的LVS）和七层负载均衡（NGINX），软件负载均衡配置灵活，扩展性强，阿某云的SLB作为服务对外售卖，Nginx可以对URL的后半部做解释承担API网关的职责。

所以，完整的负载均衡链路是 client <-> DNS负载均衡 -> F5 -> LVS/SLB -> NGINX

不管选择哪种LB策略，或者组合LB策略，逻辑上，我们都可以视为负载均衡层，通过添加负载均衡层，我们将负载均匀分散到了后面的服务集群，具备基础的高并发能力，但这只是万里长征第一步。

数据库层面：分库分表+读写分离

前面通过负载均衡解决了无状态服务的水平扩展问题，但我们的系统不全是无状态的，后面通常还有有状态的数据库，所以解决了前面的问题，存储有可能成为系统的瓶颈，我们需要对有状态存储做分片路由。

数据库的单机QPS一般不高，也就几千，显然满足不了高并发的要求。

所以，我们需要做分库分表 + 读写分离。

就是把一个库分成多个库，部署在多个数据库服务上，主库承载写请求，从库承载读请求。从库可以挂载多个，因为很多场景写的请求远少于读的请求，这样就把对单个库的压力降下来了。

如果写的请求上升就继续分库分表，如果读的请求上升就挂更多的从库，但数据库天生不是很适合高并发，而且数据库对机器配置的要求一般很高，导致单位服务成本高，所以，这样加机器抗压力成本太高，还得另外想招。

读多写少：缓存

缓存的理论依据是局部性原理。

一般系统的写入请求远少于读请求，针对写少读多的场景，很适合引入缓存集群。

在写数据库的时候同时写一份数据到缓存集群里，然后用缓存集群来承载大部分的读请求，因为缓存集群很容易做到高性能，所以，这样的话，通过缓存集群，就可以用更少的机器资源承载更高的并发。

缓存的命中率一般能做到很高，而且速度很快，处理能力也强（单机很容易做到几万并发），是理想的解决方案。

CDN本质上就是缓存，被用户大量访问的静态资源缓存在CDN中是目前的通用做法。

缓存也有很多需要谨慎处理的问题：

一致性问题：(a)更新db成功+更新cache失败 -> 不一致 (b)更新db失败+更新cache成功 -> 不一致 ©更新db成功+淘汰缓存失败 -> 不一致
缓存穿透：查询一定不存在的数据，会穿透缓存直接压到数据库，从而导致缓存失去作用，如果有人利用这个漏洞，大量查询一定不存在的数据，会对数据库造成压力，甚至打挂数据库。解决方案：布隆过滤器或者简单的方案，查询不存在的key，也把空结果写入缓存（设置较短的过期淘汰时间），从而降低命失
缓存雪崩：如果大量缓存在一个时刻同时失效，则请求会转到DB，则对DB形成压迫，导致雪崩。简单的解决方案是为缓存失效时间添加随机值，降低同一时间点失效淘汰缓存数，避免集体失效事件发生

但缓存是针对读，如果写的压力很大，怎么办？

高写入：消息中间件

同理，通过跟主库加机器，耗费的机器资源是很大的，这个就是数据库系统的特点所决定的。

相同的资源下，数据库系统太重太复杂，所以并发承载能力就在几千/s的量级，所以此时你需要引入别的一些技术。

比如说消息中间件技术，也就是MQ集群，它是非常好的做写请求异步化处理，实现削峰填谷的效果。

消息队列能做解耦，在只需要最终一致性的场景下，很适合用来配合做流控。

假如说，每秒是1万次写请求，其中比如5千次请求是必须请求过来立马写入数据库中的，但是另外5千次写请求是可以允许异步化等待个几十秒，甚至几分钟后才落入数据库内的。

那么此时完全可以引入消息中间件集群，把允许异步化的每秒5千次请求写入MQ，然后基于MQ做一个削峰填谷。比如就以平稳的1000/s的速度消费出来然后落入数据库中即可，此时就会大幅度降低数据库的写入压力。

业界有很多着名的消息中间件，比如ZeroMQ，rabbitMQ，kafka等。

消息队列本身也跟缓存系统一样，可以用很少的资源支撑很高的并发请求，用它来支撑部分允许异步化的高并发写入是很合适的，比使用数据库直接支撑那部分高并发请求要减少很多的机器使用量。

避免挤兑：流控

再强大的系统，也怕流量短事件内集中爆发，就像银行怕挤兑一样，所以，高并发另一个必不可少的模块就是流控。

流控的关键是流控算法，有4种常见的流控算法。

计数器算法（固定窗口）：计数器算法是使用计数器在周期内累加访问次数，当达到设定的限流值时，触发限流策略，下一个周期开始时，进行清零，重新计数，实现简单。计数器算法方式限流对于周期比较长的限流，存在很大的弊端，有严重的临界问题。
滑动窗口算法：将时间周期分为N个小周期，分别记录每个小周期内访问次数，并且根据时间滑动删除过期的小周期，当滑动窗口的格子划分的越多，那么滑动窗口的滚动就越平滑，限流的统计就会越精确。此算法可以很好的解决固定窗口算法的临界问题。
漏桶算法：访问请求到达时直接放入漏桶，如当前容量已达到上限（限流值），则进行丢弃（触发限流策略）。漏桶以固定的速率进行释放访问请求（即请求通过），直到漏桶为空。分布式环境下实施难度高。
令牌桶算法：程序以r（r=时间周期/限流值）的速度向令牌桶中增加令牌，直到令牌桶满，请求到达时向令牌桶请求令牌，如获取到令牌则通过请求，否则触发限流策略。分布式环境下实施难度高。

4、高并发的实践经验

接入-逻辑-存储是经典的互联网后端分层，但随着业务规模的提高，逻辑层的复杂度也上升了，所以，针对逻辑层的架构设计也出现很多新的技术和思路，常见的做法包括系统拆分，微服务。

除此之外，也有很多业界的优秀实践，包括某信服务器通过协程（无侵入，已开源libco）改造，极大的提高了系统的并发度和稳定性，另外，缓存预热，预计算，批量读写（减少IO），池技术等也广泛应用在实践中，有效的提升了系统并发能力。

为了提升并发能力，逻辑后端对请求的处理，一般会用到生产者-消费者多线程模型，即I/O线程负责网络IO，协议编解码，网络字节流被解码后产生的协议对象，会被包装成task投入到task queue，然后worker线程会从该队列取出task执行，有些系统会用多进程而非多线程，通过共享存储，维护2个方向的shm queue，一个input q，一个output q，为了提高并发度，有时候会引入协程，协程是用户线程态的多执行流，它的切换成本更低，通常有更好的调度效率。

另外，构建漏斗型业务或者系统，从客户端请求到接入层，到逻辑层，到DB层，层层递减，过滤掉请求，Fail Fast（尽早发现尽早过滤），嘴大屁眼小，哈哈。

漏斗型系统不仅仅是一个技术模型，它也可以是一个产品思维，配合产品的用户分流，逻辑分离，可以构建全方位的立体模型。

5、小结

莫让浮云遮望眼，除去繁华识真颜。我们不能掌握了大方案，吹完了牛皮，而忽视了编程最本质的东西，掌握最基本最核心的编程能力，比如数据架构和算法，设计，惯用法，培养技术的审美，也是很重要的，既要致高远，又要尽精微。

㈩双十一实时显示销售额使用哪些大数据技术

主要用的的大数据技术包括：大数据采集、大数据预处理、大数据存储及管理、大数据分析及挖掘、大数据展现和应用（大数据检索、大数据可视化、大数据应用、大数据安全等）。

十年来，阿里电商天猫淘宝，双11的全天销售额也是呈几何数字增长：

2009年：0.52亿

2010年：9亿

2011年：52亿

2012年：191亿

2013年：350亿

2014年：571亿

2015年：912亿

2016年：1207亿

2017年：1682亿

2018年：2135亿

你使用观向数据，是很不错的一款电商数据采集软件，这款软件可以快速部署，并且可以采集到全网多平台、多维度数据，根据商品类目等要求，形成可视化报表，希望能帮到你。

双十一数据缓存架构

与双十一数据缓存架构相关的内容