1. 哪个网站的访问量最高
下面是全球访问量最大的十个网站,看他们是如何做到访问量达到全球之最的。
NO1、Facebook
Facebook于2004年2月4日上线如同国内的人人网类似,一个照片分享的社交网站,截至2012年5月,Facebook注册用户约9亿。其中Facebook之所以能够得到全球访问量网站最高的原因不仅是Facebook创建的时间较早。而是在Facebook上你能够看到世界的另一面。这也就是在国内无法打开Facebook的重点原因。据爆料Facebook的每个月的流量高达8.367亿访问量,其中Facebook年收入高达10-11亿美元。
NO2、Google
虽然谷歌退出了中国,即使谷歌经常打不开,但是还是得到了国人对谷歌的支持,当然还有太多人放弃进入谷歌,因为对于用户来说网站打不开是极其不利于用户体验的。好了废话不多说,谷歌是全球最大的搜索引擎,成立于1998年9月份。同时谷歌还提高多样产品如:Gmail、 Google Maps、Google+、安卓等。虽然不知道谷歌现在年收入是多少,在2013年1月份谷歌的年收入已经超过了500亿美元。其中谷歌月访问量高达7.828亿。
NO3、YouTube
YouTube要全球最大的视频分享网站,公司注册于2005年2月份,2006年11月,Google以16.5亿美元收购了YouTube,大大提高了YouTube的知名度的同时,也带动了YouTube的访问量,个人认为发展到如此地步的原因为Google的带动。在2013年12月份腾讯爆料YouTube年收入高达56亿美元。其中网站月访问量为7.219亿。
NO4、Yahoo
自从2013年马云放弃雅虎,可能对雅虎的流量有所影响,但是个人认为仅中国的流量可能对雅虎营销不是很大,从2013年的数据可以看到Yahoo访问量在全球排名第四位。雅虎主要包括搜索引擎、电邮、新闻等。业务普遍24个国家。全球注册用户达到5亿。虽然没有统计出来雅虎的年收入情况,从雅虎月访问量(4.699亿)可以看出雅虎的年收入不会低于10亿美元。
NO5、维基网络
国内外如果你有不懂的词,如果你有不懂的产品,基维网络是绝对可以替你找到答案的。基维网络类似于网络,也被称作“人民的网络全书”。基维网络的主要流量来源于Google,因为基维网络的答案大部分都能够满足Google的需求,可谓是谷歌的好基友。在网络我无法查阅出来基维网络的年收入情况,但是在国内一个二级域名的权重9告诉我们,基维网络的年收入绝对不低。其中基维网络的月访问量为4.696亿。
NO6、Live
Live是微软创建的电子邮件服务,相当于我们国内的126邮箱,其中包括MSN,Space,邮箱,由微软MSN推出的提供网页、图片搜索服务。可能在国内使用的电子邮箱相对较少,但是国外一般的情况下交流均通过电子邮箱,所以在国外电子邮件营销是一个非常不错的办法,而国内的情况就不同了。Live的月访问量3.895亿。
NO7、腾讯网
不丢国人的脸,腾讯网在流量方面排名在世界的第七位,腾讯主要是提高门户同时腾讯还提高搜索、QQ空间、微博等多项产品。QQ客户端拥有7亿多活跃用户,所以在流量方面得到了国人的支持。腾讯在官方网站发出2013年全年业绩看出,2013年腾讯总收入为99.13亿美元。流量高达2.841亿。
NO8、微软网站
借助Windows的力量,微软的网站流量也不甘落后,我不知道那些用户访问微软官网的目的是什么,微软的官方仅提供用户购买微软产品、下载微软软件及更新的网站。难道微软的生意这么好?但是实际却告诉我们,微软官网的流量确实惊人。其中微软的月访问量达到2.717亿。
NO9、网络
1999年李彦宏看到了中国的搜索引擎具有强大的发展空间,在2000年建立的网络。从最初的不足10人发展至今,员工人数超过18000人。这里的员工仅为他们公司上班的员工,其实还有太多的SEOER在帮网络忙碌着,比如说我。2013年网络官方得出数据显示,网络年收入94.62亿元人民币。其网站月访问量为2.687亿。
NO10、MSN
MSN类似于腾讯QQ,但是个人在使用MSN的时候还是有少许的不方便,毕竟外国人口味相对较重,MSN同时提供各类资讯,购物,游戏方面的内容,以及电子邮件、即时通讯、博客门户服务。我查不到MSN的年收入,仅知道四年的时间MSN仅广告收入达到了190亿美元,同时月访问量为2.541亿。
2. 搭建一个日点击量百万以上的 电子商务网站,它的硬件设备投资大概会是多少
百万级访问量网站的技术准备工作
当今从纯网站技术上来说,因为开源模式的发展,现在建一个小网站已经很简单也很便宜,所以很多人都把创业方向定位在互联网应用。这些人里大多数不是很懂技术,或者不是那么精通,而网站开发维护方面的知识又很分散,学习成本太高,所以这篇文章将这些知识点结合起来,系统的来说,一个从日几千访问的小小网站,到日访问一两百万的小网站,中间可能会产生什么问题,以及怎么才能在一开始做足工作尽量避免这些问题。
你的网站因为努力经营,访问量逐渐升高,在升高的过程中,问题也可能开始显现了。因为带宽的增加、硬件的扩展、人员的扩张所带来的成本提高是显而易见的,而还有相当大的一部分成本是因为代码重构、架构重构,甚至底层开发语言更换引起的,最坏的情况就是数据丢失,所有努力付之一炬。这类成本支出大多数在一开始就可以避免,先打好基础,往后可以省很多精力,少操很多心。
对于不同的初期投资成本,技术路线的选择是不同的。这里假设网站刚刚只是一个构想,计划第一年服务器硬件带宽投入5万左右。对于这个资金额度,有很多种方案可选择,例如租用虚拟主机、租用单独服务器,或者流行的私有云,或者托管服务器。前两种选择,网站发展到一定规模时需迁移,那时再重做规划显然影响更大。服务器托管因为配置自主、能完全掌握控制权,所以有一定规模的网站基本都是这种模式。采用自己托管服务器的网站,一开始要注意以下几点——
一、开发语言
一般来说,技术人员(程序员)都是根据自己技术背景选择自己最熟悉的语言,不过不可能永远是一个人写程序,所以在语言的选择上还要是要费些心思。首先明确一点,无论用什么语言,最终代码质量是看管理,因此我们从前期开发成本分析。现在国内流行的适用于网站的语言,大概有java、php、.net、 python、ruby这五大阵营。python和ruby因为在国内流行的比较晚,现在人员还是相对难招一些。.net平台的人相对多,但是到后期需要解决性能问题时,对人员技能的要求比较高。剩余的java、php用人可以说是最多的。java和php无法从语言层面做比较,但对于初期,应用几乎都是靠前端支撑的网站来说,php入门简单、编写快速,优势相对大一点。至于后端例如行为分析、银行接口、异步消息处理等,等真正需要时,就要根据不同业务需求来选择不同语言了。
二、代码版本管理
稍微有点规模的网站就需要使用代码版本管理了。代码版本管理两点最大的好处,一是方便协同工作,二是有历史记录可查询比较。代码版本管理软件有很多,vss/cvs/svn/hg等,目前国内都比较流行,其中svn的普及度还是很高的。
假设选了svn,那么有几点考虑。一是采用什么树结构。初期可能只有一条主干,往后就需要建立分支,例如一条开发分支,一条上线分支,再往后,可能要每个小组一个分支。建议一开始人少时选择两条分支,开发和线上,每个功能本地测试无误后提交到开发分支,最后统一测试,可以上线时合并到上线分支。如果每人都建自己的分支,合并时会浪费很大精力,对于几乎每天都要修改几次的WEB应用来说,所费时间太多。
向服务器部署代码,可以手工部署也可以自动部署。手工部署相对简单,一般可直接在服务器上svn update,或者找个新目录svn checkout,再把web root给ln -s过去。应用越复杂,部署越复杂,没有什么统一标准,只是别再用ftp上传那种形式,一是上传时文件引用不一致错误率增加,二是很容易出现开发人员的版本跟线上版本不一致,导致本来想改个错字结果变成回滚。如果有多台服务器还是建议自动部署,更换代码的机器从当前服务池中临时撤出,更新完毕后再重新加入。
三、服务器硬件
在各个机房里,靠一台服务器孤独支撑的网站数不清,但如果资金稍微充足,建议至少三台的标准配置,分别用作web处理、数据库、备份。web服务器至少要8G内存,双sata raid1,如果经济稍微宽松,或静态文件或图片多,则15k sas raid10。数据库至少16G内存,15k sas raid 10。备份服务器最好跟数据库服务器同等配置。硬件可以上整套品牌,也可以兼容机,也可以半品牌半组装,取决于经济能力。当然,这是典型的搭配,有些类型应用的性能瓶颈首先出现在web上,那种情况就要单独分析了。
web服务器可以既跑程序又当内存缓存,数据库服务器则只跑主数据库(假如是Mysql的话),备份服务器所承担就相对多一些,web配置、缓存配置、数据库配置都要跟前两台一致,这样WEB和数据库任意一台出问题,很容易就可以将备份服务器切换过去临时顶替,直到解决完问题。要注意,硬件是随时可能坏掉的,特别是硬盘,所以宁可WEB服务器跟数据库服务器放在一起,也一定不能省掉备份,备份一定要异机,并且有异步,电力故障、误操作都可能导致一台机器上的所有数据丢失。很多的开源备份方案可选择,最简单的就是rsync,写crontab里,定时同步。备份和切换,建议多做测试,选最安全最适合业务的,并且尽可能异地备份。
四、机房
三种机房尽量不要选:联通访问特别慢的电信机房、电信访问特别慢的联通机房、电信联通访问特别慢的移动或铁通机房。机房要尽可能多的实地参观,多测试,找个网络质量好,管理严格的机房。机房可以说是非常重要,直接关系到网站访问速度,网站访问速度直接关系到用户体验,访问速度很慢的网站,很难获得用户青睐。
五、架构
在大方向上,被熟知的架构是web负载均衡+数据库主从+缓存+分布式存储+队列。在一开始,按照可扩展的原则设计和编程就可以。只是要多考虑缓存失效时的雪崩效应、主从同步的数据一致性和时间差、队列的稳定性和失败后的重试策略、文件存储的效率和备份方式等等意外情况。缓存失效、数据库复制中断、队列写入错误、电源损坏,在实际运维中经常发生,如果不注意这些,出现问题时恢复期可能会超出预期很长时间。
六、服务器软件
操作系统Linux很流行。在没有专业运维人员的情况下,应倾向于择使用的人多、社区活跃、配置方便、升级方便的发行版,例如RH系列、 debian、ubuntu server等,硬件和操作系统要一起选择,看是否有适合的驱动,如果确定用某种商业软件或解决方案,也要提前知晓其对哪种操作系统支持最佳。web服务器方面,apache、nginx、lighttpd三大系列中,apache占有量还是最大,但是想把性能调教好还是需要很专业的,nginx和 lighttpd在不需要太多调整的情况下可以达到一个比较不错的性能。无论选择什么软件,除非改过这些软件或你的程序真的不兼容新版本,否则尽量版本越新越好,版本新,意味着新特性增多、BUG减少、性能增加。一个典型的php网站,基本上大多数人都没改过任何服务器软件源代码,绝大多数情况是能平稳的升级到新版本的。类似于jdk5到 jdk6,python2到python3这类变动比较大的升级还是比较少见的。看看ChangeLog,看看升级说明,结合自己情况评估测试一下,越早升级越好,升级的越晚,所花费的成本越高。对于软件包,尽量使用发行版内置的包管理工具,没有特殊要求时不建议自己编译,那样对将来运维不利。
七、数据库
几乎所有操作最后都要落到数据库身上,它又最难扩展(存储也挺难)。数据库常见的扩展方法有复制、分片,设计时要考虑到每种应用的数据如何复制、分片,当然这种考虑一般会推迟到技术设计时期。在初期进行数据库结构设计时,要根据不同的业务类型和增长量预期来考虑是否要分库、分区,并且尽量不要使用联合查询、不使用自增ID以方便分片。复制延时问题、主从数据库数据一致性问题,可以自己写或者用已有的运维工具进行检测。
用存储过程是比较难扩展的,这种情形多发生于传统C/S,特别是OA系统转换过来的开发人员。低成本网站不是一两台小型机跑一个数据库处理所有业务的模式,是机海作战。方便水平扩展比那点预分析时间和网络传输流量要重要的多的多。
另外,现在流行一种概念叫NoSQL,可以理解为非传统关系型数据库。实际应用中,网站有着越来越多的密集写操作、上亿的简单关系数据读取、热备等,这都不是传统关系数据库所擅长的,于是就产生了很多非关系型数据库,比如Redis/TC&TT/MongoDB/Memcachedb等,在测试中,这些几乎都达到了每秒至少一万次的写操作,内存型的甚至5万以上。在设计时,可根据业务特点和性能要求来选择是否使用这类数据库。例如 MongoDB,几句配置就可以组建一个复制+自动分片+failover的环境,文档化的存储也简化了传统设计库结构再开发的模式。但是当你决定采用一项技术时,一定要真正了解其优劣,例如可能你所选择的技术并不能支持你所需要的事务和数据一致性要求。
八、文件存储
存储的分布几乎跟数据库扩展一样困难,不过只有百万的PV的情况下,磁盘IO方面一般不会成大问题,一两台采用SATA做条带RAID的机器可以应付,反而是自己做异步备份比较复杂,因为小文件多。如果只有一台机器做存储,可以做简单的优化,例如放最小缩略图的分区和放中等缩略图的分区,根据平均大小调整一下块大小。存储要规划好目录结构,否则文件增多后维护起来复杂,也不利于扩展。同时还要考虑将来扩容,例如采用LVM,或者把文件根据不同规则散列到不同机器。磁盘IO繁重的情况下更容易出现故障,所以要做好备份,若发现有盘坏掉,要马上行动更换,很多人的硬盘都是坏了一块之后,接二连三的坏下去。
为了将来图片走cdn做准备,一开始最好就将图片的域名分开,且不用主域名。因为很多网站都将cookie设置到了.domain.ltd,如果图片也在这个域名下,很可能因为cookie而造成缓存失效,并且占多余流量,还可能因为浏览器并发线程限制造成访问缓慢。
九、程序
一定硬件条件下,应用能承载多少访问量,很大一部分也取决于程序如何写。程序写的不好,可能一万的访问都承载不了,写的好,可能一两台机器就能承担几百万PV。越是复杂、数据实时性要求越高的应用,优化起来越难,但对普通网站有一个统一的思路,就是尽量向前端优化、减少数据库操作、减少磁盘IO。向前端优化指的是,在不影响功能和体验的情况下,能在浏览器执行的不要在服务端执行,能在缓存服务器上直接返回的不要到应用服务器,程序能直接取得的结果不要到外部取得,本机内能取得的数据不要到远程取,内存能取到的不要到磁盘取,缓存中有的不要去数据库查询。减少数据库操作指减少更新次数、缓存结果减少查询次数、将数据库执行的操作尽可能的让你的程序完成(例如join查询),减少磁盘IO指尽量不使用文件系统作为缓存、减少读写文件次数等。程序优化永远要优化慢的部分,换语法是无法“优化”的。
然而编程时不应该把重点放在优化上,应该关注扩展性。当今的WEB应用,需求变化非常之快,适应多种需求的架构是不存在的,我们的扩展性就要把要点放在跟底层交互的架构上,例如持久化数据的存取规则、缓存的存取规则等,还有一些共用服务,例如用户信息等。先把不变的部分做完善,剩下的部分就很容易将精力放在业务逻辑上面了。
3. 电子商务的应用现状与发展前景的探讨,怎么写
据中国物品编码中心抽样调查,2002年,全国62.7%的零售企业建成了局域网,38.8%的零售企业在网上公布商品信息;17.9%的零售企业提供网上购物方式;只有3%的零售企业实施了供应商管理库存(VMI)。我国农业网站发展很快。不仅各省市普遍建立了《农业信息网》,还涌现了类似《中华十亿农副产品网》《福州亚峰》《南京白云亭》这样一些大型网上市场。网上经营的品种一改去年以粮食,化肥为主的局面。副料、家禽、农药、土特产、花卉、园林、水产品、茶叶、鲜果等全部上网。江苏目前已有九大类,三十个农产品市场实现了连网。沛县率先在全国实现全县28个乡镇连网。网上销售菜粮等农产品23亿公斤。《环球农商网》、《中青农网》、《中国农村星火数据广播网》让农民用电视机即可走进网络时空。成为面向九亿农民的数字化信息网络。农业监测预警系统已开始按月提供小麦、玉米、大豆、棉花、糖料的监测报告,年底可建立几个品种的数据平台。农村供求信息服务系统,农村供求信息全国联播系统(农村供求一站通),一年来已有注册会员18000家,每月颁布信息6000条,内容详查13万条,已成为中国最全面、权威的农业信息网络,每月点击已达到1000万次,农产品价格供求信息还通过中国联通的寻呼机向全国用户发送,2002年改进了对网站信息管理,建立了三层结构内容管理系统,推进县、乡信息服务点建设,年底预计完成60%县级、20%乡镇农村经济信息服务站建设任务
网上农产品超市开通,位于北京市大兴县的北京万福喜食品公司的员工在其配送中心内为网上订货的顾客准备农产品。该公司从2002年5月起利用互联网销售农副产品,就可以看到图文并貌的大兴蔬菜、瓜果、肉食等农副产品的介绍,公司设立配送站点的小区居民通过网络订货后,该公司针对顾客的要求进行清洗、加工和配送,市民不出小区就可购买到新鲜、便宜的优质农副产品。目前,已有6万户北京市民成为该公司会员。自1997年至今,南通市农民通过上网销售的农产品累计达到200多个品种,实现销售额近1亿元,通过信息搭桥,农民走上了致富快车道。
2.5.省市地区电子商务取得不少进展
北京、上海、湖南、徐州、海南等地电子商务已取得不少进展。
北京首都电子商务工程取得较大进展,首都电子商城作为首都电子商务主要基础设施,已开始为国内外企业、商户开展全国性和全球性电子商务发挥作用,每月访问者达数百万人次,每月网上经营额已达数百万元人民币。2002年北京电子商务逐步建立和形成了具有首都特色的电子商务体系,电子商务服务平台-首都电子商城的功能进一步完善,四级社区电子商务服务信息网络系统全面开通。在2002年1至9月,BtoB、BtoC电子商务交易额分别为360.1亿元和3.83亿元,分别比去年同期增长121.87%和164.14%,电子商务市场前景看好。西单商场于2001年底投资900万元成立了电子商务公司(igo5.com)。到2002年6月,igo5.com月销售额已超过400万元。2002年9月,实华开以单笔跨国网上采购额超过千万人民币而刷新亚洲网上开放式纯电子商务采购新纪录,此次交易开设四个竞价市场,对四种不同的特制塑料进行拍卖。总成交额超过千万,为采购方节省金额百万余人民币,节省比例达到10.72%.至此,实华开已成功地为包括美国最大的办公文具连锁店以及德国最大的零售商,举行了十几场中国出口商品网上竞价订货会。网易2001年初易趣合作网上拍卖,2002年7月5日,合同期满,双方拍卖合作正式到期。2002年7月9日网易的主页上出现了网易拍卖推出了自己的拍卖服务。2002年3月18日美国eBay公司为易趣注资3000万美元易趣与美国eBay公司合作eBay获得了易趣的33%股权,使易趣成为国内最大的CtoC网上拍卖网站。2002年,中国互联网上的手机销量增长了近150%,目前国内外各种品牌的手机型号有264种,都可以通过互联网来销售;同样一部手机网上销售价格比传统的专卖店销售价格要低1%至2%,手机配件的网上销售能比传统专卖店便宜到40%至50%。北京社区电子商务工程一年来取得显着成果:依托首都公用信息平台将18个区县、149个街道连接成一个整体,实现互联互通、在169个社区服务中心建立169个网站,形成覆盖全市社区服务信息网站群,安装了149套街道热线呼叫系统,在1200个社区安装了管理软件,开发社区电子商务支撑平台,在2400个社区实现了网络接入,采用96156热线电话和信息亭三种接入方式。上海社保卡工程几年来取得成效,累计发卡800万张,600万人用于医保结算。
济南市电子商务及现代物流应用示范工程一年来,以三联集团为龙头与22家家电生产厂家和20多个销售商建立家电电子商务联盟,对34家连锁店进行改造,24家实施紧密分销商管理系统,10家实施核心分销商管理系统(即由ERP统一管理)。总部与连销店分销效率大为提高,订单处理由来1.5天缩短到5分钟,实现了商流、信息流、物流全面集成,资源共享。海南在旅游业电子商务、农产品网上营销,重庆在网上农,贸超市、网上轻工市场,徐州淮海食品商城,天津在物流配送方面进行了试点,积累了有益的经验,中国电信湖南电子商务中心建立了179门户网站,开展在线安全交易、安全支付、证券、银行、购物与CA论证等安全服务。
2.6我国B2B、B2C市场的发展现状
根据CCID的研究分析资料:2002年12月,我国电子商务网站3804家,比2001年3391家增长12%,能有效运行的1533家,比2001年1326家增长16%;消费类电子商务网站2277家,其中综合类网站285家,专业类网站1992家,能有效运行的737家;B2B网站1527家,其中综合类网站189家,专业类网站1338家,能有效运行的796家;电子商务市场规模,电子商务交易额2002年1809亿元,比2001年1088亿元增长66.2%;B2C交易额2001年为13.15亿元,2002年25亿元,年增长率90%;B2B交易额2001年为1075亿元,2002年1784亿元,年增长率65.9%.
4. 日本访问量第一的网站是什么
雅虎
5. 中药材起源于中国,为什么被日本卖向全世界
近年来,几乎每隔一段时间,网络媒体和微信朋友圈都会被“日本的中药侵略战”、“神奇的日本汉方药XXX”等网文刷屏。这些文章往往盛赞日本的汉方药风行世界,技术如何先进,质量如何优异;此外,文中还指出“日本汉方药出口量占世界中药市场的80%以上”,“日本改造中药‘六神丸’,开发为汉方药‘救心丹’,年销售额上亿美元”……这样的报道令许多国内中医药界人士感到不安和忧虑。事实果真如此吗?多位专家对此持不同意见,认为这种过分夸大日本汉方药影响的做法,有哗众取宠之嫌。
数说现实中的汉方药
汉方医学是日本化了的中国传统医学,汉方药是在汉方医学理论指导下应用的药物,与我国的中药同源异流,同根异枝。
在很多报道中,汉方药占据国际市场的主流。如今国人出国出境渐多,经常出国的人都有这样的体会,在日本以外,从美国、欧洲到日本周边的韩国、东南亚、香港、台湾,包括中国大陆都很难见到汉方药的影子。那么,传说中占据国际市场主流的汉方药到底出口到了哪里?
其实,根据日本厚生劳动省《药事工业生产动态统计年报》显示,1992年汉方药的产值达到17亿美元,为历史最高峰,后因“小柴胡汤”事件影响而陡然下降,2000年以来基本维持在每年10亿美元。汉方药生产企业中,津村制药一家独大,长期占据75%以上的市场份额,其他如钟纺、小太郎、帝国等规模都不大。因此,了解津村制药的现状,基本就能掌握汉方药的大体情况。
其次,中医药界夸大甚至神化美日欧等发达国家对中国的科技领先优势,几十年来一直是中国知识界、媒体界的传统。在过去,这样的观念有其合理之处,毕竟中国跟发达国家的技术差距确实很大,而且几乎是全方位的。如今,此消彼长,天翻地覆,中国在产业链的很多领域、环节都取得了非常大的成绩,有很多方面已经开始在世界领先。但很多人对这一变化却缺乏足够的认识和感知,观念还停留在过去,神话汉方药,如同夸大日本电饭煲、马桶盖的神奇一样,成为另外一种“日吹”。
如果不能正视自己的弱点,那么就不能取得进步。但如果我们不能看清楚自己的优点,那么我们前进的方向就会出现错误。过分夸大汉方药,反映出对中医药缺少自信和自觉,发展理念和发展决心不坚定。客观分析、理性看待汉方药的不足,摒弃夸诞虚饰之词,是应该甚至必须的。
6. 日本境内用的最多的网络聊天工具是什么
日本境内用的最多的网络聊天工具是msn,MSN MESSENGER是微软发布一款即时通讯软件,可以与亲人、朋友、工作伙伴进行文字聊天、语音对话、视频会议等即时交流。
(6)日本访问量百亿级的应用扩展阅读:
2003年12月3日,MSN宣布MSN服务创造了新的里程碑,世界范围内每个月有1亿4500万用户访问MSN Hotmail,1亿1000万用户登陆MSN Messenger即时通讯软件。
MSN同时宣布,MSN Hotmail将在报告和防止垃圾邮件,联系人列表和日程安排等方面做出改进。这些改进包括一个更加人性化的outlook式界面的邮件编辑器,和MSN Messenger的高度整合,新的‘今日’页面和新的联系人管理功能。
在2013年11月24日微软正式接手之前,很难获知关于微软如何运营Skype业务的细节,更难了解未来的Skype在华是否继续保有VoIP业务,但有一点可以确定,中国这个唯一的“MSN特区”即将消亡,MSN终将成为历史。
7. 大数据在电子商务中应用体现在哪些方面
1、通过大数据进行市场营销
通过大数据进行市场营销能够有效的节约企业或是电子商务平台的营销成本,还能够通过大数据来实现营销的精准化,达成精准营销。
通过分析大数据对消费者的消费偏好进行分析,在消费者输入关键词之后,提供与消费者消费偏好匹配程度较高的产品,节约了消费者的寻找商品的时间成本,使交易双方实现快速的对接。实现电子商务平台或是企业营销的高效化。在数据化时代,针对消费者进行针对性的营销能够实现精准营销,提升产品的下单率,提升电子商务 的营销效率。
2、实现导购服务的个性化
对于电子商务的平台来讲,往往都会针对用户提供一些推荐和导购服务。通过大数据的分析和挖掘能够实现导购服务的个性化。针对消费者的年龄、性别、职业、购买历史、购买商品种类、查询历史等信息,对消费者的消费意向、消费习惯、消费特点进行系统性的分析,根据大数据的分析针对消费者个人制定个性化的推荐和导购服务。
大数据的运用能够抵消电子商务虚拟性所带来的影响,提升竞争力,挖掘更多的潜在消费者。针对消费者的消费偏好,进行适宜的广告推广,提升产品的广告转化率,同时提供个性化的导购服务。
对于一些大型的电子商务平台来讲,产品种类繁多,想要提升消费者的消费量,提升消费者的下单率就要通过分析消费者的消费偏好,主动进行商品的推送。这种通过大数据进行分析的方式不仅仅能提升产品的浏览量,还能针对消费者的消费需求提供商品的推送,提升消费者的用户体验,进而提升消费者的忠诚度。
3、为商家提供数据服务
大数据的分析不仅仅能够帮助电子商务平台提升下单率和销售额,还能将大数据的分析作为产品和服务向中小型的电子商务商家进行销售。这样不仅仅能够提升平台的收益,还能帮助商家了解消费者的消费偏好、消费者对于该类 产品的喜好等信息,来帮助商家及时针对大部分消费者的消费偏好以及市场的动态,针对产品的性能等进行研发和调整。
(7)日本访问量百亿级的应用扩展阅读:
大数据的应用:
1、洛杉矶警察局和加利福尼亚大学合作利用大数据预测犯罪的发生。
2、google流感趋势(Google Flu Trends)利用搜索关键词预测禽流感的散布。
3、统计学家内特.西尔弗(Nate Silver)利用大数据预测2012美国选举结果。
4、麻省理工学院利用手机定位数据和交通数据建立城市规划。
5、梅西百货的实时定价机制。根据需求和库存的情况,该公司基于SAS的系统对多达7300万种货品进行实时调价。
6、医疗行业早就遇到了海量数据和非结构化数据的挑战,而近年来很多国家都在积极推进医疗信息化发展,这使得很多医疗机构有资金来做大数据分析。
8. php怎么处理高并发
以下内容转载自徐汉彬大牛的博客亿级Web系统搭建——单机到分布式集群
当一个Web系统从日访问量10万逐步增长到1000万,甚至超过1亿的过程中,Web系统承受的压力会越来越大,在这个过程中,我们会遇到很多的问题。为了解决这些性能压力带来问题,我们需要在Web系统架构层面搭建多个层次的缓存机制。在不同的压力阶段,我们会遇到不同的问题,通过搭建不同的服务和架构来解决。
Web负载均衡
Web负载均衡(Load Balancing),简单地说就是给我们的服务器集群分配“工作任务”,而采用恰当的分配方式,对于保护处于后端的Web服务器来说,非常重要。
负载均衡的策略有很多,我们从简单的讲起哈。
1.HTTP重定向
当用户发来请求的时候,Web服务器通过修改HTTP响应头中的Location标记来返回一个新的url,然后浏览器再继续请求这个新url,实际上就是页面重定向。通过重定向,来达到“负载均衡”的目标。例如,我们在下载PHP源码包的时候,点击下载链接时,为了解决不同国家和地域下载速度的问题,它会返回一个离我们近的下载地址。重定向的HTTP返回码是302
这个重定向非常容易实现,并且可以自定义各种策略。但是,它在大规模访问量下,性能不佳。而且,给用户的体验也不好,实际请求发生重定向,增加了网络延时。
2. 反向代理负载均衡
反向代理服务的核心工作主要是转发HTTP请求,扮演了浏览器端和后台Web服务器中转的角色。因为它工作在HTTP层(应用层),也就是网络七层结构中的第七层,因此也被称为“七层负载均衡”。可以做反向代理的软件很多,比较常见的一种是Nginx。
Nginx是一种非常灵活的反向代理软件,可以自由定制化转发策略,分配服务器流量的权重等。反向代理中,常见的一个问题,就是Web服务器存储的session数据,因为一般负载均衡的策略都是随机分配请求的。同一个登录用户的请求,无法保证一定分配到相同的Web机器上,会导致无法找到session的问题。
解决方案主要有两种:
1.配置反向代理的转发规则,让同一个用户的请求一定落到同一台机器上(通过分析cookie),复杂的转发规则将会消耗更多的CPU,也增加了代理服务器的负担。
2.将session这类的信息,专门用某个独立服务来存储,例如redis/memchache,这个方案是比较推荐的。
反向代理服务,也是可以开启缓存的,如果开启了,会增加反向代理的负担,需要谨慎使用。这种负载均衡策略实现和部署非常简单,而且性能表现也比较好。但是,它有“单点故障”的问题,如果挂了,会带来很多的麻烦。而且,到了后期Web服务器继续增加,它本身可能成为系统的瓶颈。
3. IP负载均衡
IP负载均衡服务是工作在网络层(修改IP)和传输层(修改端口,第四层),比起工作在应用层(第七层)性能要高出非常多。原理是,他是对IP层的数据包的IP地址和端口信息进行修改,达到负载均衡的目的。这种方式,也被称为“四层负载均衡”。常见的负载均衡方式,是LVS(Linux Virtual Server,Linux虚拟服务),通过IPVS(IP Virtual Server,IP虚拟服务)来实现。
在负载均衡服务器收到客户端的IP包的时候,会修改IP包的目标IP地址或端口,然后原封不动地投递到内部网络中,数据包会流入到实际Web服务器。实际服务器处理完成后,又会将数据包投递回给负载均衡服务器,它再修改目标IP地址为用户IP地址,最终回到客户端。
上述的方式叫LVS-NAT,除此之外,还有LVS-RD(直接路由),LVS-TUN(IP隧道),三者之间都属于LVS的方式,但是有一定的区别,篇幅问题,不赘叙。
IP负载均衡的性能要高出Nginx的反向代理很多,它只处理到传输层为止的数据包,并不做进一步的组包,然后直接转发给实际服务器。不过,它的配置和搭建比较复杂。
4. DNS负载均衡
DNS(Domain Name System)负责域名解析的服务,域名url实际上是服务器的别名,实际映射是一个IP地址,解析过程,就是DNS完成域名到IP的映射。而一个域名是可以配置成对应多个IP的。因此,DNS也就可以作为负载均衡服务。
这种负载均衡策略,配置简单,性能极佳。但是,不能自由定义规则,而且,变更被映射的IP或者机器故障时很麻烦,还存在DNS生效延迟的问题。
5. DNS/GSLB负载均衡
我们常用的CDN(Content Delivery Network,内容分发网络)实现方式,其实就是在同一个域名映射为多IP的基础上更进一步,通过GSLB(Global Server Load Balance,全局负载均衡)按照指定规则映射域名的IP。一般情况下都是按照地理位置,将离用户近的IP返回给用户,减少网络传输中的路由节点之间的跳跃消耗。
“向上寻找”,实际过程是LDNS(Local DNS)先向根域名服务(Root Name Server)获取到顶级根的Name Server(例如.com的),然后得到指定域名的授权DNS,然后再获得实际服务器IP。
CDN在Web系统中,一般情况下是用来解决大小较大的静态资源(html/Js/Css/图片等)的加载问题,让这些比较依赖网络下载的内容,尽可能离用户更近,提升用户体验。
例如,我访问了一张imgcache.gtimg.cn上的图片(腾讯的自建CDN,不使用qq.com域名的原因是防止http请求的时候,带上了多余的cookie信息),我获得的IP是183.60.217.90。
这种方式,和前面的DNS负载均衡一样,不仅性能极佳,而且支持配置多种策略。但是,搭建和维护成本非常高。互联网一线公司,会自建CDN服务,中小型公司一般使用第三方提供的CDN。
Web系统的缓存机制的建立和优化
刚刚我们讲完了Web系统的外部网络环境,现在我们开始关注我们Web系统自身的性能问题。我们的Web站点随着访问量的上升,会遇到很多的挑战,解决这些问题不仅仅是扩容机器这么简单,建立和使用合适的缓存机制才是根本。
最开始,我们的Web系统架构可能是这样的,每个环节,都可能只有1台机器。
我们从最根本的数据存储开始看哈。
一、 MySQL数据库内部缓存使用
MySQL的缓存机制,就从先从MySQL内部开始,下面的内容将以最常见的InnoDB存储引擎为主。
1. 建立恰当的索引
最简单的是建立索引,索引在表数据比较大的时候,起到快速检索数据的作用,但是成本也是有的。首先,占用了一定的磁盘空间,其中组合索引最突出,使用需要谨慎,它产生的索引甚至会比源数据更大。其次,建立索引之后的数据insert/update/delete等操作,因为需要更新原来的索引,耗时会增加。当然,实际上我们的系统从总体来说,是以select查询操作居多,因此,索引的使用仍然对系统性能有大幅提升的作用。
2. 数据库连接线程池缓存
如果,每一个数据库操作请求都需要创建和销毁连接的话,对数据库来说,无疑也是一种巨大的开销。为了减少这类型的开销,可以在MySQL中配置thread_cache_size来表示保留多少线程用于复用。线程不够的时候,再创建,空闲过多的时候,则销毁。
其实,还有更为激进一点的做法,使用pconnect(数据库长连接),线程一旦创建在很长时间内都保持着。但是,在访问量比较大,机器比较多的情况下,这种用法很可能会导致“数据库连接数耗尽”,因为建立连接并不回收,最终达到数据库的max_connections(最大连接数)。因此,长连接的用法通常需要在CGI和MySQL之间实现一个“连接池”服务,控制CGI机器“盲目”创建连接数。
建立数据库连接池服务,有很多实现的方式,PHP的话,我推荐使用swoole(PHP的一个网络通讯拓展)来实现。
3. Innodb缓存设置(innodb_buffer_pool_size)
innodb_buffer_pool_size这是个用来保存索引和数据的内存缓存区,如果机器是MySQL独占的机器,一般推荐为机器物理内存的80%。在取表数据的场景中,它可以减少磁盘IO。一般来说,这个值设置越大,cache命中率会越高。
4. 分库/分表/分区。
MySQL数据库表一般承受数据量在百万级别,再往上增长,各项性能将会出现大幅度下降,因此,当我们预见数据量会超过这个量级的时候,建议进行分库/分表/分区等操作。最好的做法,是服务在搭建之初就设计为分库分表的存储模式,从根本上杜绝中后期的风险。不过,会牺牲一些便利性,例如列表式的查询,同时,也增加了维护的复杂度。不过,到了数据量千万级别或者以上的时候,我们会发现,它们都是值得的。
二、 MySQL数据库多台服务搭建
1台MySQL机器,实际上是高风险的单点,因为如果它挂了,我们Web服务就不可用了。而且,随着Web系统访问量继续增加,终于有一天,我们发现1台MySQL服务器无法支撑下去,我们开始需要使用更多的MySQL机器。当引入多台MySQL机器的时候,很多新的问题又将产生。
1. 建立MySQL主从,从库作为备份
这种做法纯粹为了解决“单点故障”的问题,在主库出故障的时候,切换到从库。不过,这种做法实际上有点浪费资源,因为从库实际上被闲着了。
2. MySQL读写分离,主库写,从库读。
两台数据库做读写分离,主库负责写入类的操作,从库负责读的操作。并且,如果主库发生故障,仍然不影响读的操作,同时也可以将全部读写都临时切换到从库中(需要注意流量,可能会因为流量过大,把从库也拖垮)。
3. 主主互备。
两台MySQL之间互为彼此的从库,同时又是主库。这种方案,既做到了访问量的压力分流,同时也解决了“单点故障”问题。任何一台故障,都还有另外一套可供使用的服务。
不过,这种方案,只能用在两台机器的场景。如果业务拓展还是很快的话,可以选择将业务分离,建立多个主主互备。
三、 MySQL数据库机器之间的数据同步
每当我们解决一个问题,新的问题必然诞生在旧的解决方案上。当我们有多台MySQL,在业务高峰期,很可能出现两个库之间的数据有延迟的场景。并且,网络和机器负载等,也会影响数据同步的延迟。我们曾经遇到过,在日访问量接近1亿的特殊场景下,出现,从库数据需要很多天才能同步追上主库的数据。这种场景下,从库基本失去效用了。
于是,解决同步问题,就是我们下一步需要关注的点。
1. MySQL自带多线程同步
MySQL5.6开始支持主库和从库数据同步,走多线程。但是,限制也是比较明显的,只能以库为单位。MySQL数据同步是通过binlog日志,主库写入到binlog日志的操作,是具有顺序的,尤其当SQL操作中含有对于表结构的修改等操作,对于后续的SQL语句操作是有影响的。因此,从库同步数据,必须走单进程。
2. 自己实现解析binlog,多线程写入。
以数据库的表为单位,解析binlog多张表同时做数据同步。这样做的话,的确能够加快数据同步的效率,但是,如果表和表之间存在结构关系或者数据依赖的话,则同样存在写入顺序的问题。这种方式,可用于一些比较稳定并且相对独立的数据表。
国内一线互联网公司,大部分都是通过这种方式,来加快数据同步效率。还有更为激进的做法,是直接解析binlog,忽略以表为单位,直接写入。但是这种做法,实现复杂,使用范围就更受到限制,只能用于一些场景特殊的数据库中(没有表结构变更,表和表之间没有数据依赖等特殊表)。
四、 在Web服务器和数据库之间建立缓存
实际上,解决大访问量的问题,不能仅仅着眼于数据库层面。根据“二八定律”,80%的请求只关注在20%的热点数据上。因此,我们应该建立Web服务器和数据库之间的缓存机制。这种机制,可以用磁盘作为缓存,也可以用内存缓存的方式。通过它们,将大部分的热点数据查询,阻挡在数据库之前。
1. 页面静态化
用户访问网站的某个页面,页面上的大部分内容在很长一段时间内,可能都是没有变化的。例如一篇新闻报道,一旦发布几乎是不会修改内容的。这样的话,通过CGI生成的静态html页面缓存到Web服务器的磁盘本地。除了第一次,是通过动态CGI查询数据库获取之外,之后都直接将本地磁盘文件返回给用户。
在Web系统规模比较小的时候,这种做法看似完美。但是,一旦Web系统规模变大,例如当我有100台的Web服务器的时候。那样这些磁盘文件,将会有100份,这个是资源浪费,也不好维护。这个时候有人会想,可以集中一台服务器存起来,呵呵,不如看看下面一种缓存方式吧,它就是这样做的。
2. 单台内存缓存
通过页面静态化的例子中,我们可以知道将“缓存”搭建在Web机器本机是不好维护的,会带来更多问题(实际上,通过PHP的apc拓展,可通过Key/value操作Web服务器的本机内存)。因此,我们选择搭建的内存缓存服务,也必须是一个独立的服务。
内存缓存的选择,主要有redis/memcache。从性能上说,两者差别不大,从功能丰富程度上说,Redis更胜一筹。
3. 内存缓存集群
当我们搭建单台内存缓存完毕,我们又会面临单点故障的问题,因此,我们必须将它变成一个集群。简单的做法,是给他增加一个slave作为备份机器。但是,如果请求量真的很多,我们发现cache命中率不高,需要更多的机器内存呢?因此,我们更建议将它配置成一个集群。例如,类似redis cluster。
Redis cluster集群内的Redis互为多组主从,同时每个节点都可以接受请求,在拓展集群的时候比较方便。客户端可以向任意一个节点发送请求,如果是它的“负责”的内容,则直接返回内容。否则,查找实际负责Redis节点,然后将地址告知客户端,客户端重新请求。
对于使用缓存服务的客户端来说,这一切是透明的。
内存缓存服务在切换的时候,是有一定风险的。从A集群切换到B集群的过程中,必须保证B集群提前做好“预热”(B集群的内存中的热点数据,应该尽量与A集群相同,否则,切换的一瞬间大量请求内容,在B集群的内存缓存中查找不到,流量直接冲击后端的数据库服务,很可能导致数据库宕机)。
4. 减少数据库“写”
上面的机制,都实现减少数据库的“读”的操作,但是,写的操作也是一个大的压力。写的操作,虽然无法减少,但是可以通过合并请求,来起到减轻压力的效果。这个时候,我们就需要在内存缓存集群和数据库集群之间,建立一个修改同步机制。
先将修改请求生效在cache中,让外界查询显示正常,然后将这些sql修改放入到一个队列中存储起来,队列满或者每隔一段时间,合并为一个请求到数据库中更新数据库。
除了上述通过改变系统架构的方式提升写的性能外,MySQL本身也可以通过配置参数innodb_flush_log_at_trx_commit来调整写入磁盘的策略。如果机器成本允许,从硬件层面解决问题,可以选择老一点的RAID(Rendant Arrays of independent Disks,磁盘列阵)或者比较新的SSD(Solid State Drives,固态硬盘)。
5. NoSQL存储
不管数据库的读还是写,当流量再进一步上涨,终会达到“人力有穷时”的场景。继续加机器的成本比较高,并且不一定可以真正解决问题的时候。这个时候,部分核心数据,就可以考虑使用NoSQL的数据库。NoSQL存储,大部分都是采用key-value的方式,这里比较推荐使用上面介绍过Redis,Redis本身是一个内存cache,同时也可以当做一个存储来使用,让它直接将数据落地到磁盘。
这样的话,我们就将数据库中某些被频繁读写的数据,分离出来,放在我们新搭建的Redis存储集群中,又进一步减轻原来MySQL数据库的压力,同时因为Redis本身是个内存级别的Cache,读写的性能都会大幅度提升。
国内一线互联网公司,架构上采用的解决方案很多是类似于上述方案,不过,使用的cache服务却不一定是Redis,他们会有更丰富的其他选择,甚至根据自身业务特点开发出自己的NoSQL服务。
6. 空节点查询问题
当我们搭建完前面所说的全部服务,认为Web系统已经很强的时候。我们还是那句话,新的问题还是会来的。空节点查询,是指那些数据库中根本不存在的数据请求。例如,我请求查询一个不存在人员信息,系统会从各级缓存逐级查找,最后查到到数据库本身,然后才得出查找不到的结论,返回给前端。因为各级cache对它无效,这个请求是非常消耗系统资源的,而如果大量的空节点查询,是可以冲击到系统服务的。
在我曾经的工作经历中,曾深受其害。因此,为了维护Web系统的稳定性,设计适当的空节点过滤机制,非常有必要。
我们当时采用的方式,就是设计一张简单的记录映射表。将存在的记录存储起来,放入到一台内存cache中,这样的话,如果还有空节点查询,则在缓存这一层就被阻挡了。
异地部署(地理分布式)
完成了上述架构建设之后,我们的系统是否就已经足够强大了呢?答案当然是否定的哈,优化是无极限的。Web系统虽然表面上看,似乎比较强大了,但是给予用户的体验却不一定是最好的。因为东北的同学,访问深圳的一个网站服务,他还是会感到一些网络距离上的慢。这个时候,我们就需要做异地部署,让Web系统离用户更近。
一、 核心集中与节点分散
有玩过大型网游的同学都会知道,网游是有很多个区的,一般都是按照地域来分,例如广东专区,北京专区。如果一个在广东的玩家,去北京专区玩,那么他会感觉明显比在广东专区卡。实际上,这些大区的名称就已经说明了,它的服务器所在地,所以,广东的玩家去连接地处北京的服务器,网络当然会比较慢。
当一个系统和服务足够大的时候,就必须开始考虑异地部署的问题了。让你的服务,尽可能离用户更近。我们前面已经提到了Web的静态资源,可以存放在CDN上,然后通过DNS/GSLB的方式,让静态资源的分散“全国各地”。但是,CDN只解决的静态资源的问题,没有解决后端庞大的系统服务还只集中在某个固定城市的问题。
这个时候,异地部署就开始了。异地部署一般遵循:核心集中,节点分散。
·核心集中:实际部署过程中,总有一部分的数据和服务存在不可部署多套,或者部署多套成本巨大。而对于这些服务和数据,就仍然维持一套,而部署地点选择一个地域比较中心的地方,通过网络内部专线来和各个节点通讯。
·节点分散:将一些服务部署为多套,分布在各个城市节点,让用户请求尽可能选择近的节点访问服务。
例如,我们选择在上海部署为核心节点,北京,深圳,武汉,上海为分散节点(上海自己本身也是一个分散节点)。我们的服务架构如图:
需要补充一下的是,上图中上海节点和核心节点是同处于一个机房的,其他分散节点各自独立机房。
国内有很多大型网游,都是大致遵循上述架构。它们会把数据量不大的用户核心账号等放在核心节点,而大部分的网游数据,例如装备、任务等数据和服务放在地区节点里。当然,核心节点和地域节点之间,也有缓存机制。
二、 节点容灾和过载保护
节点容灾是指,某个节点如果发生故障时,我们需要建立一个机制去保证服务仍然可用。毫无疑问,这里比较常见的容灾方式,是切换到附近城市节点。假如系统的天津节点发生故障,那么我们就将网络流量切换到附近的北京节点上。考虑到负载均衡,可能需要同时将流量切换到附近的几个地域节点。另一方面,核心节点自身也是需要自己做好容灾和备份的,核心节点一旦故障,就会影响全国服务。
过载保护,指的是一个节点已经达到最大容量,无法继续接接受更多请求了,系统必须有一个保护的机制。一个服务已经满负载,还继续接受新的请求,结果很可能就是宕机,影响整个节点的服务,为了至少保障大部分用户的正常使用,过载保护是必要的。
解决过载保护,一般2个方向:
·拒绝服务,检测到满负载之后,就不再接受新的连接请求。例如网游登入中的排队。
·分流到其他节点。这种的话,系统实现更为复杂,又涉及到负载均衡的问题。
小结
Web系统会随着访问规模的增长,渐渐地从1台服务器可以满足需求,一直成长为“庞然大物”的大集群。而这个Web系统变大的过程,实际上就是我们解决问题的过程。在不同的阶段,解决不同的问题,而新的问题又诞生在旧的解决方案之上。
系统的优化是没有极限的,软件和系统架构也一直在快速发展,新的方案解决了老的问题,同时也带来新的挑战。
9. 一个web服务器能承受多少访问量
没有固定,需要看服务器配置高低。
不仅仅是访问量问题,主要是数据,如果站点数据量不是太大。没有太多的查询。一台P4的普通电脑可以承受成千上万的上网用户。(还有带宽问题,比如共享的100兆位。高带宽。在线人数更多)
如果您有一个几百兆字节或几十亿字节的数据库。这是另一回事。服务器的内存必须至少是数据库的3倍才能运行。
无论如何。常见的企业网站。几百米的股票。P4的平台。网上几千个就足够了(没有下载,没有视频)。
(9)日本访问量百亿级的应用扩展阅读:
WEB服务器类型:
1,IIS
IIS服务器称为:Internet信息服务。它是微软公司拥有的web服务器,是目前最流行的web服务器产品之一。
2、康乐
Kanglewebserver(Kangle)是一款跨平台、功能强大、安全稳定、易于操作的高性能web服务器和反向代理服务器软件。
3,WebSphere
WebSphereApplicationServer是一个功能齐全的开放Web应用程序服务器,它是IBM电子商务计划的核心部分。它是一个基于java的应用程序环境,用于构建、部署和管理Internet和IntranetWeb应用程序。
4,WebLogic
BEAWebLogicServer是一个多功能的、基于标准的web应用程序服务器,为企业构建自己的应用程序提供了坚实的基础。
5,Apache
Apache是世界上使用最多的Web服务器,占有大约60%的市场份额。
6,Tomcat
Tomcat是一个开源的基于java的Web应用程序容器,它运行servlet和JSPWeb应用程序。
7,Jboss
它是一个基于J2EE的开源应用服务器。JBoss代码是在LGPL下授权的,可以在任何商业应用程序中免费使用,而不需要支付任何费用。
10. 大数据时代,我国数据量究竟有多大
从2013年初开始,对于大数据爆发的焦虑感,紧迫感,不由自主地被卷入的甚至无力的感觉,驱动众多行业、企业和团体去关注和开始接触和了解大 数据,自觉或不自觉的,主动或不得已地去融入这波洪流。但是,真的说到大数据,我们中国到底有多少数据量,它们都分布在哪些行业,哪些数据是目 前可用的,哪些行业已经在使用数据,进入产业互联网和数据引导的变革了?
可能看到的版图依旧模糊。因此,我们怀抱很好的希望,以第一个吃螃蟹并期待来自行业的矫正和拍砖的态度,首先尝试对于国内各个领域,行业以 及机构的数据拥有情况,使用情况以及未来路径做一个粗犷地调研、梳理和判断,对大数据时代我国各个领域数据资产的拥有和使用情况,也就是我们数 据资产的家底做个盘点,也对各个行业、系统进军大数据,以及拥抱产业互联网的进度和未来做个简单判断。事实上,大数据之题无疑繁若星辰,然而只 有在相对完整的视图下,繁星若尘,我们才可得以一窥天机。
从我们手头掌握的数据来看,2013年度,中国存储市场出货容量超过1个EB(1EB=多少),存储总量而IDC曾经发布的预测表明在未来的3-4年,中国存储总 容量可能达到18个EB。从数据存储市场的需求来看,互联网、医疗健康、通信、公共安全以及军工等行业的需求是主要的,且上升态势明显。
鉴于存储和服务器的紧密相关,我们从已经获得的资料可以知道,目前全球运行的服务器总量超过5000万台,美国国内运行的服务器总体容量接近 1000万台。从各种市场公开数据来看,2013年中国内地服务器销售总数接近为100万台。大体估算,截止到2013年底,中国内地整体在运行的服务器总数 量在300万台以上。
从现有存储容量看,中国目前可存储数据容量大约在8EB-10EB左右,现有的可以保存下来的数据容量大约在5EB左右,且每两年左右会翻上一倍。这些 被存储数据的大体分布为:媒体/互联网占据现有容量的1/3,政府部门/电信企业占据1/3,其他的金融、教育、制造、服务业各部分占据剩余1/3数据量 。
公开数据显示,互联网搜索巨头网络2013年拥有数据量接近EB级别、阿里、腾讯声明自己存储的数据总量都达到了百PB以上。此外,电信、医疗、金 融、公共安全、交通、气象等各个方面保存的数据量也都达到数十或者上百PB级别。
在目前被广泛引用的IDC和EMC联合发布的“2020年的数字宇宙”报告 预测到2020年,全球数字宇宙将会膨胀到40ZB,均摊每个人身上是5200GB以上,这个量将会如何被有效存储和应用,我们眼下还很难想象。然而我们 看到该报告指出,从现在起到2020年,全球数字宇宙的膨胀率大约为每两年翻一番。事实上,根据上述调查结论和服务器容量调查,我们也能做出个相对 合理的推断:目前,全球产生的数据量中仅有1%左右的数据能够被保存下来,也就是说今天全球能够被保存下来的数据也就是在50EB左右,而其中被标记 并用于分析的数据更是不到10%。
作为全球人口和计算设备保有量的大国,我国每年所能产生的数据量也极为庞大,有数据说2014年甚至可能达到ZB级别,但是真正被有效存储下来的 数据仅仅是其中极微少部分,中国保存下来数据占全球数据的比例大约在10%左右,也就是上面说的5EB。这些数据中,目前已被标记并用于分析的数据仅 达到500PB左右,也是接近10%的一个比例。
伴随着云计算迅速普及和各行业,各企业和部门对于数据资产保存和利用意识的增强,以及通过互联网、大数据对产业进行变革的意愿,未来2-3年一 定会有越来越多的行业、大企业步入到PB、百PB、甚至EB级别数据俱乐部,未来3-3年中国的数据总量也将呈翻倍上升态势,我们预测2015年中国就可能 突破10EB数据保有量,被标签和分析利用数据量也将上升到EB级别,这些数据增长中互联网、政务、医疗、教育、安全等行业和领域所做贡献最大,而相 对传统的物流、生产制造、甚至农业等领域数据拥有量的增长将更加明显。