当前位置:首页 » 服务存储 » 连云港大规模分布式存储解决方案
扩展阅读
webinf下怎么引入js 2023-08-31 21:54:13
堡垒机怎么打开web 2023-08-31 21:54:11

连云港大规模分布式存储解决方案

发布时间: 2022-06-17 15:20:00

① 分布式存储技术有哪些

中央存储技术现已发展非常成熟。但是同时,新的问题也出现了,中心化的网络很容易拥挤,数据很容易被滥用。传统的数据传输方式是由客户端向云服务器传输,由服务器向客户端下载。而分布式存储系统QKFile是从客户端传送到 N个节点,然后从这些节点就近下载到客户端内部,因此传输速度非常快。对比中心协议的特点是上传、下载速度快,能够有效地聚集空闲存储资源,并能大大降低存储成本。

在节点数量不断增加的情况下,QKFile市场趋势开始突出,未来用户数量将呈指数增长。分布式存储在未来会有很多应用场景,如数据存储,文件传输,网络视频,社会媒体和去中心化交易等。因特网的控制权越来越集中在少数几个大型技术公司的手中,它的网络被去中心化,就像分布式存储一样,总是以社区为中心,面向用户,而分布式存储就是实现信息技术和未来因特网功能的远景。有了分布式存储,我们可以创造出更加自由、创新和民主的网络体验。是时候把因特网推向新阶段了。

作为今年非常受欢迎的明星项目,关于QKFile的未来发展会推动互联网的进步,给整个市场带来巨大好处。分布式存储是基于因特网的基础结构产生的,区块链分布式存储与人工智能、大数据等有叠加作用。对今天的中心存储是一个巨大的补充,分布式时代的到来并不是要取代现在的中心互联网,而是要使未来的数据存储发展得更好,给整个市场生态带来不可想象的活力。先看共识,后看应用,QKFile创建了一个基础设施平台,就像阿里云,阿里云上面是做游戏的做电商的视频网站,这就叫应用层,现阶段,在性能上,坦白说,与传统的云存储相比,没有什么竞争力。不过另一方面来说,一个新型的去中心化存储的信任环境式非常重要的,在此环境下,自然可以衍生出许多相关应用,市场潜力非常大。

虽然QKFile离真正的商用还有很大的距离,首先QKFile的经济模型还没有定论,其次QKFile需要集中精力发展分布式存储、商业逻辑和 web3.0,只有打通分布式存储赛道,才有实力引领整个行业发展,人们认识到了中心化存储的弊端,还有许多企业开始接受分布式存储模式,即分布式存储 DAPP应用触达用户。所以QKFile将来肯定会有更多的商业应用。创建超本地高效存储方式的能力。当用户希望将数据存储在QKFile网络上时,他们就可以摆脱巨大的集中存储和地理位置的限制,用户可以看到在线存储的矿工及其市场价格,矿工之间相互竞争以赢得存储合约。使用者挑选有竞争力的矿工,交易完成,用户发送数据,然后矿工存储数据,矿工必须证明数据的正确存储才能得到QKFile奖励。在网络中,通过密码证明来验证数据的存储安全性。采矿者通过新区块链向网络提交其储存证明。通过网络发布的新区块链验证,只有正确的区块链才能被接受,经过一段时间,矿工们就可以获得交易存储费用,并有机会得到区块链奖励。数据就在更需要它的地方传播了,旋转数据就在地球范围内流动了,数据的获取就不断优化了,从小的矿机到大的数据中心,所有人都可以通过共同努力,为人类信息社会的建设奠定新的基础,并从中获益。

② 如何实现企业数据 大数据平台 分布式存放

Hadoop在可伸缩性、健壮性、计算性能和成本上具有无可替代的优势,事实上已成为当前互联网企业主流的大数据分析平台。本文主要介绍一种基于Hadoop平台的多维分析和数据挖掘平台架构。作为一家互联网数据分析公司,我们在海量数据的分析领域那真是被“逼上梁山”。多年来在严苛的业务需求和数据压力下,我们几乎尝试了所有可能的大数据分析方法,最终落地于Hadoop平台之上。
1. 大数据分析大分类
Hadoop平台对业务的针对性较强,为了让你明确它是否符合你的业务,现粗略地从几个角度将大数据分析的业务需求分类,针对不同的具体需求,应采用不同的数据分析架构。
按照数据分析的实时性,分为实时数据分析和离线数据分析两种。
实时数据分析一般用于金融、移动和互联网B2C等产品,往往要求在数秒内返回上亿行数据的分析,从而达到不影响用户体验的目的。要满足这样的需求,可以采用精心设计的传统关系型数据库组成并行处理集群,或者采用一些内存计算平台,或者采用HDD的架构,这些无疑都需要比较高的软硬件成本。目前比较新的海量数据实时分析工具有EMC的Greenplum、SAP的HANA等。
对于大多数反馈时间要求不是那么严苛的应用,比如离线统计分析、机器学习、搜索引擎的反向索引计算、推荐引擎的计算等,应采用离线分析的方式,通过数据采集工具将日志数据导入专用的分析平台。但面对海量数据,传统的ETL工具往往彻底失效,主要原因是数据格式转换的开销太大,在性能上无法满足海量数据的采集需求。互联网企业的海量数据采集工具,有Facebook开源的Scribe、LinkedIn开源的Kafka、淘宝开源的Timetunnel、Hadoop的Chukwa等,均可以满足每秒数百MB的日志数据采集和传输需求,并将这些数据上载到Hadoop中央系统上。
按照大数据的数据量,分为内存级别、BI级别、海量级别三种。
这里的内存级别指的是数据量不超过集群的内存最大值。不要小看今天内存的容量,Facebook缓存在内存的Memcached中的数据高达320TB,而目前的PC服务器,内存也可以超过百GB。因此可以采用一些内存数据库,将热点数据常驻内存之中,从而取得非常快速的分析能力,非常适合实时分析业务。图1是一种实际可行的MongoDB分析架构。

图1 用于实时分析的MongoDB架构
MongoDB大集群目前存在一些稳定性问题,会发生周期性的写堵塞和主从同步失效,但仍不失为一种潜力十足的可以用于高速数据分析的NoSQL。
此外,目前大多数服务厂商都已经推出了带4GB以上SSD的解决方案,利用内存+SSD,也可以轻易达到内存分析的性能。随着SSD的发展,内存数据分析必然能得到更加广泛的应用。
BI级别指的是那些对于内存来说太大的数据量,但一般可以将其放入传统的BI产品和专门设计的BI数据库之中进行分析。目前主流的BI产品都有支持TB级以上的数据分析方案。种类繁多,就不具体列举了。
海量级别指的是对于数据库和BI产品已经完全失效或者成本过高的数据量。海量数据级别的优秀企业级产品也有很多,但基于软硬件的成本原因,目前大多数互联网企业采用Hadoop的HDFS分布式文件系统来存储数据,并使用MapRece进行分析。本文稍后将主要介绍Hadoop上基于MapRece的一个多维数据分析平台。
数据分析的算法复杂度
根据不同的业务需求,数据分析的算法也差异巨大,而数据分析的算法复杂度和架构是紧密关联的。举个例子,Redis是一个性能非常高的内存Key-Value NoSQL,它支持List和Set、SortedSet等简单集合,如果你的数据分析需求简单地通过排序,链表就可以解决,同时总的数据量不大于内存(准确地说是内存加上虚拟内存再除以2),那么无疑使用Redis会达到非常惊人的分析性能。
还有很多易并行问题(Embarrassingly Parallel),计算可以分解成完全独立的部分,或者很简单地就能改造出分布式算法,比如大规模脸部识别、图形渲染等,这样的问题自然是使用并行处理集群比较适合。
而大多数统计分析,机器学习问题可以用MapRece算法改写。MapRece目前最擅长的计算领域有流量统计、推荐引擎、趋势分析、用户行为分析、数据挖掘分类器、分布式索引等。
2. 面对大数据OLAP大一些问题

OLAP分析需要进行大量的数据分组和表间关联,而这些显然不是NoSQL和传统数据库的强项,往往必须使用特定的针对BI优化的数据库。比如绝大多数针对BI优化的数据库采用了列存储或混合存储、压缩、延迟加载、对存储数据块的预统计、分片索引等技术。

Hadoop平台上的OLAP分析,同样存在这个问题,Facebook针对Hive开发的RCFile数据格式,就是采用了上述的一些优化技术,从而达到了较好的数据分析性能。如图2所示。
然而,对于Hadoop平台来说,单单通过使用Hive模仿出SQL,对于数据分析来说远远不够,首先Hive虽然将HiveQL翻译MapRece的时候进行了优化,但依然效率低下。多维分析时依然要做事实表和维度表的关联,维度一多性能必然大幅下降。其次,RCFile的行列混合存储模式,事实上限制死了数据格式,也就是说数据格式是针对特定分析预先设计好的,一旦分析的业务模型有所改动,海量数据转换格式的代价是极其巨大的。最后,HiveQL对OLAP业务分析人员依然是非常不友善的,维度和度量才是直接针对业务人员的分析语言。
而且目前OLAP存在的最大问题是:业务灵活多变,必然导致业务模型随之经常发生变化,而业务维度和度量一旦发生变化,技术人员需要把整个Cube(多维立方体)重新定义并重新生成,业务人员只能在此Cube上进行多维分析,这样就限制了业务人员快速改变问题分析的角度,从而使所谓的BI系统成为死板的日常报表系统。
使用Hadoop进行多维分析,首先能解决上述维度难以改变的问题,利用Hadoop中数据非结构化的特征,采集来的数据本身就是包含大量冗余信息的。同时也可以将大量冗余的维度信息整合到事实表中,这样可以在冗余维度下灵活地改变问题分析的角度。其次利用Hadoop MapRece强大的并行化处理能力,无论OLAP分析中的维度增加多少,开销并不显着增长。换言之,Hadoop可以支持一个巨大无比的Cube,包含了无数你想到或者想不到的维度,而且每次多维分析,都可以支持成千上百个维度,并不会显着影响分析的性能。


而且目前OLAP存在的最大问题是:业务灵活多变,必然导致业务模型随之经常发生变化,而业务维度和度量一旦发生变化,技术人员需要把整个Cube(多维立方体)重新定义并重新生成,业务人员只能在此Cube上进行多维分析,这样就限制了业务人员快速改变问题分析的角度,从而使所谓的BI系统成为死板的日常报表系统。
3. 一种Hadoop多维分析平台的架构
整个架构由四大部分组成:数据采集模块、数据冗余模块、维度定义模块、并行分 析模块。

数据采集模块采用了Cloudera的Flume,将海量的小日志文件进行高速传输和合并,并能够确保数据的传输安全性。单个collector宕机之后,数据也不会丢失,并能将agent数据自动转移到其他的colllecter处理,不会影响整个采集系统的运行。如图5所示。

数据冗余模块不是必须的,但如果日志数据中没有足够的维度信息,或者需要比较频繁地增加维度,则需要定义数据冗余模块。通过冗余维度定义器定义需要冗余的维度信息和来源(数据库、文件、内存等),并指定扩展方式,将信息写入数据日志中。在海量数据下,数据冗余模块往往成为整个系统的瓶颈,建议使用一些比较快的内存NoSQL来冗余原始数据,并采用尽可能多的节点进行并行冗余;或者也完全可以在Hadoop中执行批量Map,进行数据格式的转化。

维度定义模块是面向业务用户的前端模块,用户通过可视化的定义器从数据日志中定义维度和度量,并能自动生成一种多维分析语言,同时可以使用可视化的分析器通过GUI执行刚刚定义好的多维分析命令。
并行分析模块接受用户提交的多维分析命令,并将通过核心模块将该命令解析为Map-Rece,提交给Hadoop集群之后,生成报表供报表中心展示。
核心模块是将多维分析语言转化为MapRece的解析器,读取用户定义的维度和度量,将用户的多维分析命令翻译成MapRece程序。核心模块的具体逻辑如图6所示。

图6中根据JobConf参数进行Map和Rece类的拼装并不复杂,难点是很多实际问题很难通过一个MapRece Job解决,必须通过多个MapRece Job组成工作流(WorkFlow),这里是最需要根据业务进行定制的部分。图7是一个简单的MapRece工作流的例子。

MapRece的输出一般是统计分析的结果,数据量相较于输入的海量数据会小很多,这样就可以导入传统的数据报表产品中进行展现。

③ 什么是分布式存储

分布式存储系统,是将数据分散存储在多台独立的设备上。传统的网络存储系统采用集中的存储服务器存放所有数据,存储服务器成为系统性能的瓶颈,也是可靠性和安全性的焦点,不能满足大规模存储应用的需要。分布式网络存储系统采用可扩展的系统结构,利用多台存储服务器分担存储负荷,利用位置服务器定位存储信息,它不但提高了系统的可靠性、可用性和存取效率,还易于扩展。


(3)连云港大规模分布式存储解决方案扩展阅读:

分布式存储,集中管理,在这个方案中,共有三级:

1、上级监控中心:上级监控中心通常只有一个,主要由数字矩阵、认证服务器和VSTARClerk软件等。

2、本地监控中心:本地监控中心可以有多个,可依据地理位置设置,或者依据行政隶属关系设立,主要由数字矩阵、流媒体网关、iSCSI存储设备、VSTARRecorder软件等组成;音视频的数据均主要保存在本地监控中心,这就是分布式存储的概念。

3、监控前端:主要由摄像头、网络视频服务器组成,其中VE4000系列的网络视频服务器可以带硬盘,该硬盘主要是用于网络不畅时,暂时对音视频数据进行保存,或者需要在前端保存一些重要数据的情况。

④ 分布式存储一般提供哪些存储服务区块链的分布式存储是什么意思

摘要 区块链本质是一个去中心化的数据库 ,区块链技术的数据共享是一个分布式的记账薄, 它的本质上是一个按照时间顺序串联起来的链,创世块开始的所有交易都记录在区块中。交易记录等账目信息会被打包成一个个的区块并进行加密,同时盖上时间戳,所有区块按时间戳顺序连接成一个总账本。区块链由多个独立,地位等同的节点按照块链式结构存储完整的数据,通过共识机制保证存储的一致性,一旦数据被记录下来,在一个区块中的数据将不可逆。

⑤ 分布式存储有什么大规模的应用吗

现在很多公司都已经在进行大规模的分布式存储应用了,之前看到好多国内的大型企业都在使用元核云,华为的存储产品。

⑥ 分布式存储是什么选择什么样的分布式存储更好

分布式存储系统,是将数据分散存储在多台独立的设备上。传统的网络存储系统采用集中的存储服务器存放所有数据,存储服务器成为系统性能的瓶颈,也是可靠性和安全性的焦点,不能满足大规模存储应用的需要。分布式网络存储系统采用可扩展的系统结构,利用多台存储服务器分担存储负荷,利用位置服务器定位存储信息,它不但提高了系统的可靠性、可用性和存取效率,还易于扩展。
联想超融合ThinkCloud AIO超融合云一体机是联想针对企业级用户推出的核心产品。ThinkCloud AIO超融合云一体机实现了对云管理平台、计算、网络和存储系统的无缝集成,构建了云计算基础设施即服务的一站式解决方案,为用户提供了一个高度简化的一站式基础设施云平台。这不仅使得业务部署上线从周缩短到天,而且与企业应用软件、中间件及数据库软件完全解耦,能够有效提升企业IT基础设施运维管理的效率和关键应用的性能

⑦ 四块科技分布式存储主要是做什么的呀

四块科技分布式存储主要是专注于网络存储,还有数据管理,另外包括相关产品的研发,还有销售等业务的。

⑧ 什么是分布式存储系统

分布式存储系统,是将数据分散存储在多台独立的设备上。传统的网络存储系统采用集中的存储服务器存放所有数据,存储服务器成为系统性能的瓶颈,也是可靠性和安全性的焦点,不能满足大规模存储应用的需要。分布式网络存储系统采用可扩展的系统结构,利用多台存储服务器分担存储负荷,利用位置服务器定位存储信息,它不但提高了系统的可靠性、可用性和存取效率,还易于扩展。


(8)连云港大规模分布式存储解决方案扩展阅读:

分布式存储,集中管理,在这个方案中,共有三级:

1、上级监控中心:上级监控中心通常只有一个,主要由数字矩阵、认证服务器和VSTARClerk软件等。

2、本地监控中心:本地监控中心可以有多个,可依据地理位置设置,或者依据行政隶属关系设立,主要由数字矩阵、流媒体网关、iSCSI存储设备、VSTARRecorder软件等组成;音视频的数据均主要保存在本地监控中心,这就是分布式存储的概念。

3、监控前端:主要由摄像头、网络视频服务器组成,其中VE4000系列的网络视频服务器可以带硬盘,该硬盘主要是用于网络不畅时,暂时对音视频数据进行保存,或者需要在前端保存一些重要数据的情况。

⑨ 求帮助写一篇分布式计算云计算论文

首先介绍下云计算,的发展历史,他的前身,现在的应用,然后在介绍现在计算机的应用,在应用之中的不足,然后,着重阐述云计算的优势,我这里有一份关于这方面的对比及心得,发给你,希望能帮到你。
云计算简史
着名的美国计算机科学家、 图灵奖 (Turing Award) 得主麦卡锡 (John McCarthy,1927-) 在半个世纪前就曾思考过这个问题。 1961 年, 他在麻省理工学院 (MIT) 的百年纪念活动中做了一个演讲。 在那次演讲中, 他提出了象使用其它资源一样使用计算资源的想法,这就是时下 IT 界的时髦术语 “云计算” (Cloud Computing) 的核心想法。云计算中的这个 “云” 字虽然是后人所用的词汇, 但却颇有历史渊源。 早年的电信技术人员在画电话网络的示意图时, 一涉及到不必交待细节的部分, 就会画一团 “云” 来搪塞。 计算机网络的技术人员将这一偷懒的传统发扬光大, 就成为了云计算中的这个 “云” 字, 它泛指互联网上的某些 “云深不知处” 的部分, 是云计算中 “计算” 的实现场所。 而云计算中的这个 “计算” 也是泛指, 它几乎涵盖了计算机所能提供的一切资源。麦卡锡的这种想法在提出之初曾经风靡过一阵, 但真正的实现却是在互联网日益普及的上世纪末。 这其中一家具有先驱意义的公司是甲骨文 (Oracle) 前执行官贝尼奥夫 (Marc Benioff, 1964-) 创立的 Salesforce 公司。 1999 年, 这家公司开始将一种客户关系管理软件作为服务提供给用户, 很多用户在使用这项服务后提出了购买软件的意向, 该公司却死活不干, 坚持只作为服务提供, 这是云计算的一种典型模式, 叫做 “软件即服务” (Software as a Service, 简称 SaaS)。 这种模式的另一个例子, 是我们熟悉的网络电子邮箱 (因此读者哪怕是第一次听到 “云计算” 这个术语, 也不必有陌生感, 因为您多半已是它的老客户了)。 除了 “软件即服务” 外, 云计算还有其它几种典型模式, 比如向用户提供开发平台的 “平台即服务” (Platform as a Service, 简称 PaaS), 其典型例子是谷歌公司 (Google) 的应用程序引擎 (Google App Engine), 它能让用户创建自己的网络程序。 还有一种模式更彻底, 干脆向用户提供虚拟硬件, 叫做 “基础设施即服务” (Infrastructure as a Service, 简称 IaaS), 其典型例子是亚马逊公司 (Amazon) 的弹性计算云 (Amazon Elastic Compute Cloud, 简称 EC2), 它向用户提供虚拟主机, 用户具有管理员权限, 爱干啥就干啥, 跟使用自家机器一样。

1.2云计算的概念

狭义云计算是指计算机基础设施的交付和使用模式,指通过网络以按需、易扩展的方式获得所需的资源(硬件、平台、软件)。提供资源的网络被称为“云”。“云”中的资源在使用者看来是可以无限扩展的,并且可以随时获取,按需使用,随时扩展,按使用付费。

广义云计算是指服务的交付和使用模式,指通过网络以按需、易扩展的方式获得所需的服务。这种服务可以是计算机和软件、互联网相关的,也可以是其他的服务。云计算是并行计算(Parallel Computing)、分布式计算(Distributed Computing)和网格计算(Grid Computing)的发展,或者说是这些计算机科学概念的商业实现。云计算是虚拟化(Virtualization)、效用计算(Utility Computing)、IaaS(基础设施即服务)、PaaS(平台即服务)、SaaS(软件即服务)等概念混合演进并跃升的结果。

1.3云计算的特点和优势
(一)超大规模性。“云”具有相当的规模,Google云计算已经拥有100多万台服务器,Amazon、IBM、微软、Yahoo等的“云”均拥有几十万台服务器。企业私有云一般拥有数百上千台服务器。“云”能赋予用户前所未有的计算能力。
(二)虚拟化。云计算支持用户在任意位置、使用各种终端获取应用服务。所请求的资源来自“云”,而不是固定的有形的实体。应用在“云”中某处运行,但实际上用户无需了解、也不用担心应用运行的具体位置。只需要一台笔记本或者一个手机,就可以通过网络服务来实现用户需要的一切,甚至包括超级计算这样的任务。[2]
(三)高可靠性。“云”使用了数据多副本容错、计算节点同构可互换等措施来保障服务的高可靠性,使用云计算比使用本地计算机可靠。
(四)通用性。云计算不针对特定的应用,在“云”的支撑下可以构造出千变万化的应用,同一个“云”可以同时支撑不同的应用运行。
(五)高可扩展性。“云”的规模可以动态伸缩,满足应用和用户规模增长的需要。
(六)价格合适。由于“云”的特殊容错措施可以采用具有经济性的节点来构成“云”,“云”的自动化集中式管理使大量企业无需负担日益高昂的数据中心管理成本,“云”的通用性使资源的利用率较之传统系统大幅提升,因此用户可以充分享受“云”的低成本优势,经常只要花费几百美元、几天时间就能完成以前需要数万美元、数月时间才能完成的任务。
云计算作为一种技术,与其它一些依赖互联网的技术——比如网格计算 (Grid Computing)——有一定的相似之处,但不可混为一谈。拿网格计算来说, 科学爱好者比较熟悉的例子是 SETI@Home,那是一个利用互联网上计算机的冗余计算能力搜索地外文明的计算项目,目前约有来自两百多个国家和地区的两百多万台计算机参与。它在 2009 年底的运算能力相当于当时全世界最快的超级计算机运算能力的三分之一。有些读者可能还知道另外一个例子:ZetaGrid,那是一个研究黎曼 ζ 函数零点分布的计算项目, 曾有过一万多台计算机参与 (但现在已经终止了,原因可参阅拙作 超越 ZetaGrid)。从这两个着名例子中我们可以看到网格计算的特点,那就是计算性质单一,但运算量巨大 (甚至永无尽头,比如 ZetaGrid)。而云计算的特点恰好相反,是计算性质五花八门,但运算量不大[注三],这是它们的本质区别,也是云计算能够面向大众成为服务的根本原因。云计算能够流行,它到底有什么优点呢? 我们举个例子来说明,设想你要开一家网络公司。按传统方法,你得有一大笔启动资金, 因为你要购买计算机和软件,你要租用机房,你还要雇专人来管理和维护计算机。 当你的公司运作起来时,业务总难免会时好时坏,为了在业务好的时候也能正常运转, 你的人力和硬件都要有一定的超前配置, 这也要花钱。 更要命的是, 无论硬件还是软件厂商都会频繁推出新版本, 你若不想被技术前沿抛弃, 就得花钱费力不断更新 (当然, 也别怪人家, 你的公司运作起来后没准也得这么赚别人的钱)。如果用云计算, 情况就不一样了: 计算机和软件都可以用云计算, 业务好的时候多用一点, 业务坏的时候少用一点, 费用就跟结算煤气费一样按实际用量来算, 无需任何超前配置[注四]。 一台虚拟服务器只需鼠标轻点几下就能到位, 不象实体机器, 从下定单, 到进货, 再到调试, 忙得四脚朝天不说, 起码得好几天的时间。虚拟服务器一旦不需要了, 鼠标一点就可以让它从你眼前 (以及账单里)消失。至于软硬件的升级换代,服务器的维护管理等,那都是云计算服务商的事,跟你没半毛钱的关系。更重要的是,开公司总是有风险的, 如果你试了一两个月后发现行不通,在关门大吉的时候,假如你用的是云计算,那你只需支付实际使用过的资源。假如你走的是传统路子,买了硬件、软件,雇了专人,那很多投资可就打水漂了。

1.4浅谈云计算的一个核心理念
大规模消息通信:云计算的一个核心理念就是资源和软件功能都是以服务的形式进行发布的,不同服务之间经常需要通过消息通信进行协助。由于同步消息通信的低效率,我们只考虑异步通信。如Java Message Service是J2EE平台上的一个消息通信标准,J2EE应用程序可以通过JMS来创建,发送,接收,阅读消息。异步消息通信已经成为面向服务架构中组件解耦合及业务集成的重要技术。
大规模分布式存储:分布式存储的目标是利用多台服务器的存储资源来满足单台服务器所不能满足的存储需求。分布式存储要求存储资源能够被抽象表示和统一管理,并且能够保证数据读写操作的安全性,可靠性,性能等各方面要求。下面是几个典型的分布式文件系统:
◆Frangipani是一个可伸缩性很好的高兴能分布式文件系统,采用两层的服务体系架构:底层是一个分布式存储服务,该服务能够自动管理可伸缩,高可用的虚拟磁盘;上层运行着Frangipani分布式文件系统。
◆JetFile是一个基于P2P的主播技术,支持在Internet这样的异构环境中分享文件的分布式文件系统。
◆Ceph是一个高性能并且可靠地分布式文件系统,它通过把数据和对数据的管理在最大程度上分开来获取极佳的I/O性能。
◆Google File System(GFS)是Google公司设计的可伸缩的分布式文件系统。GFS能够很好的支持大规模海量数据处理应用程序。
在云计算环境中,数据的存储和操作都是以服务的形式提供的;数据的类型多种多样;必须满足数据操作对性能,可靠性,安全性和简单性的要求。在云计算环境下的大规模分布式存储方向,BigTable是Google公司设计的用来存储海量结构化数据的分布式存储系统;Dynamo是Amazon公司设计的一种基于键值对的分布式存储系统,它能提供非常高的可用性;Amazon公司的Simple Storage Service(S3)是一个支持大规模存储多媒体这样的二进制文件的云计算存储服务;Amazon公司的SimpleDB是建立在S3和Amazon EC2之上的用来存储结构化数据的云计算服务。
许可证管理与计费:目前比较成熟的云环境计费模型是Amazon公司提供的Elastic Compute Cloud(EC2)和Simple Storage Service(S3)的按量计费模型,用户按占用的虚拟机单元,IP地址,带宽和存储空间付费。

1.5云计算的现状
云计算是个热度很高的新名词。由于它是多种技术混合演进的结果,其成熟度较高,又有大公司推动,发展极为迅速。Amazon、Google、IBM、微软和Yahoo等大公司是云计算的先行者。云计算领域的众多成功公司还包括Salesforce、Facebook、Youtube、Myspace等。Amazon使用弹性计算云(EC2)和简单存储服务(S3)为企业提供计算和存储服务。收费的服务项目包括存储服务器、带宽、CPU资源以及月租费。月租费与电话月租费类似,存储服务器、带宽按容量收费,CPU根据时长(小时)运算量收费。Amazon把云计算做成一个大生意没有花太长的时间:不到两年时间,Amazon上的注册开发人员达44万人,还有为数众多的企业级用户。有第三方统计机构提供的数据显示,Amazon与云计算相关的业务收入已达1亿美元。云计算是Amazon增长最快的业务之一。Google当数最大的云计算的使用者。Google搜索引擎就建立在分布在200多个地点、超过100万台服务器的支撑之上,这些设施的数量正在迅猛增长。Google地球、地图、Gmail、Docs等也同样使用了这些基础设施。采用Google Docs之类的应用,用户数据会保存在互联网上的某个位置,可以通过任何一个与互联网相连的系统十分便利地访问这些数据。目前,Google已经允许第三方在Google的云计算中通过Google App Engine运行大型并行应用程序。Google值得称颂的是它不保守。它早已以发表学术论文的形式公开其云计算三大法宝:GFS、MapRece和BigTable,并在美国、中国等高校开设如何进行云计算编程的课程。IBM在2007年11月推出了“改变游戏规则”的“蓝云”计算平台,为客户带来即买即用的云计算平台。它包括一系列的自动化、自我管理和自我修复的虚拟化云计算软件,使来自全球的应用可以访问分布式的大型服务器池。使得数据中心在类似于互联网的环境下运行计算。IBM正在与17个欧洲组织合作开展云计算项目。欧盟提供了1.7亿欧元做为部分资金。该计划名为RESERVOIR,以“无障碍的资源和服务虚拟化”为口号。2008年8月, IBM宣布将投资约4亿美元用于其设在北卡罗来纳州和日本东京的云计算数据中心改造。IBM计划在2009年在10个国家投资3亿美元建13个云计算中心。
微软紧跟云计算步伐,于2008年10月推出了Windows Azure操作系统。Azure(译为“蓝天”)是继Windows取代DOS之后,微软的又一次颠覆性转型——通过在互联网架构上打造新云计算平台,让Windows真正由PC延伸到“蓝天”上。微软拥有全世界数以亿计的Windows用户桌面和浏览器,现在它将它们连接到“蓝天”上。Azure的底层是微软全球基础服务系统,由遍布全球的第四代数据中心构成。
云计算的新颖之处在于它几乎可以提供无限的廉价存储和计算能力。纽约一家名为Animoto的创业企业已证明云计算的强大能力(此案例引自和讯网维维编译《纽约时报》2008年5月25日报道)。Animoto允许用户上传图片和音乐,自动生成基于网络的视频演讲稿,并且能够与好友分享。该网站目前向注册用户提供免费服务。2008年年初,网站每天用户数约为5000人。4月中旬,由于Facebook用户开始使用Animoto服务,该网站在三天内的用户数大幅上升至75万人。Animoto联合创始人Stevie Clifton表示,为了满足用户需求的上升,该公司需要将服务器能力提高100倍,但是该网站既没有资金,也没有能力建立规模如此巨大的计算能力。因此,该网站与云计算服务公司RightScale合作,设计能够在亚马逊的网云中使用的应用程序。通过这一举措,该网站大大提高了计算能力,而费用只有每服务器每小时10美分。这样的方式也加强创业企业的灵活性。当需求下降时,Animoto只需减少所使用的服务器数量就可以降低服务器支出。
在我国,云计算发展也非常迅猛。2008年5月10日,IBM在中国无锡太湖新城科教产业园建立的中国第一个云计算中心投入运营。2008年6月24日,IBM在北京IBM中国创新中心成立了第二家中国的云计算中心——IBM大中华区云计算中心;2008年11月28日,广东电子工业研究院与东莞松山湖科技产业园管委会签约,广东电子工业研究院将在东莞松山湖投资2亿元建立云计算平台;2008年12月30日,阿里巴巴集团旗下子公司阿里软件与江苏省南京市政府正式签订了2009年战略合作框架协议,计划于2009年初在南京建立国内首个“电子商务云计算中心”,首期投资额将达上亿元人民币;世纪互联推出了CloudEx产品线,包括完整的互联网主机服务"CloudEx Computing Service", 基于在线存储虚拟化的"CloudEx Storage Service",供个人及企业进行互联网云端备份的数据保全服务等等系列互联网云计算服务;中国移动研究院做云计算的探索起步较早,已经完成了云计算中心试验。中移动董事长兼CEO王建宙认为云计算和互联网的移动化是未来发展方向。
我国企业创造的“云安全”概念,在国际云计算领域独树一帜。云安全通过网状的大量客户端对网络中软件行为的异常监测,获取互联网中木马、恶意程序的最新信息,推送到服务端进行自动分析和处理,再把病毒和木马的解决方案分发到每一个客户端。云安全的策略构想是:使用者越多,每个使用者就越安全,因为如此庞大的用户群,足以覆盖互联网的每个角落,只要某个网站被挂马或某个新木马病毒出现,就会立刻被截获。云安全的发展像一阵风,瑞星、趋势、卡巴斯基、MCAFEE、SYMANTEC、江民科技、PANDA、金山、360安全卫士、卡卡上网安全助手等都推出了云安全解决方案。瑞星基于云安全策略开发的2009新品,每天拦截数百万次木马攻击,其中1月8日更是达到了765万余次。势科技云安全已经在全球建立了5大数据中心,几万部在线服务器。据悉,云安全可以支持平均每天55亿条点击查询,每天收集分析2.5亿个样本,资料库第一次命中率就可以达到99%。借助云安全,趋势科技现在每天阻断的病毒感染最高达1000万次。
值得一提的是,云安全的核心思想,与刘鹏早在2003年就提出的反垃圾邮件网格非常接近[1][2]。刘鹏当时认为,垃圾邮件泛滥而无法用技术手段很好地自动过滤,是因为所依赖的人工智能方法不是成熟技术。垃圾邮件的最大的特征是:它会将相同的内容发送给数以百万计的接收者。为此,可以建立一个分布式统计和学习平台,以大规模用户的协同计算来过滤垃圾邮件:首先,用户安装客户端,为收到的每一封邮件计算出一个唯一的“指纹”,通过比对“指纹”可以统计相似邮件的副本数,当副本数达到一定数量,就可以判定邮件是垃圾邮件;其次,由于互联网上多台计算机比一台计算机掌握的信息更多,因而可以采用分布式贝叶斯学习算法,在成百上千的客户端机器上实现协同学习过程,收集、分析并共享最新的信息。反垃圾邮件网格体现了真正的网格思想,每个加入系统的用户既是服务的对象,也是完成分布式统计功能的一个信息节点,随着系统规模的不断扩大,系统过滤垃圾邮件的准确性也会随之提高。用大规模统计方法来过滤垃圾邮件的做法比用人工智能的方法更成熟,不容易出现误判假阳性的情况,实用性很强。反垃圾邮件网格就是利用分布互联网里的千百万台主机的协同工作,来构建一道拦截垃圾邮件的“天网”。反垃圾邮件网格思想提出后,被IEEE Cluster 2003国际会议选为杰出网格项目在香港作了现场演示,在2004年网格计算国际研讨会上作了专题报告和现场演示,引起较为广泛的关注,受到了中国最大邮件服务提供商网易公司创办人丁磊等的重视。既然垃圾邮件可以如此处理,病毒、木马等亦然,这与云安全的思想就相去不远了。

http://wenku..com/view/6ea1435d3b3567ec102d8ae8.html
2008年11月25日,中国电子学会专门成立了云计算专家委员会,聘任中国工程院院士李德毅为主任委员,聘任IBM大中华区首席技术总裁叶天正、中国电子科技集团公司第十五研究所所长刘爱民、中国工程院院士张尧学、Google全球副总裁/中国区总裁李开复、中国工程院院士倪光南、中国移动通信研究院院长黄晓庆六位专家为副主任委员,聘任国内外30多位知名专家学者为专家委员会委员。2009年5月22日,中国电子学会将于在北京中国大饭店隆重举办首届中国云计算大会。