⑴ 的云存储系统,问下现在有什么比较常用的开源分布式
书生云于宣布将基于SAS架构的新一代开源分布式存储技术——SurFS开源。SurFS是书生云公司自主研发的分布式存储系统,是云平台的核心部件,在性能和成本两方面具有一定实力。书生云将具有自身知识产权的商业软件开源,对软件行业将带来哪些影响? 书生云董事长王东临 众所周知,开源软件技术领域较为知名的除了Android(安卓)、Linux、Mysql、OpenOffice、OpenStack等开源社区外,企业级领域软件开源的并不算多,但也能看到其中一些卓越领导者,比如知名开源软件企业 RedHat, RedHat的年收入甚至超过了20亿美元。 因此,书生云董事长王东临认为:“虽然在视核心技术商业机密的传统思维里,软件企业将自身拥有知识产权的软件的开源显得另类,但随着开源系统在全球的广泛普及,未来开源与商业也会得到完美结合,形成了“先奉献后收益”、“贡献越大收益越大”的格局。” 存储系统是云平台的核心部件,对云平台的整体性能和成本都有极大的影响。SurFS通过对存储网络的颠覆式创新,第一个采用SAS做存储网络构建分布式存储系统,将带宽提升了几十倍延时降低了几十倍,而且从架构体系上完全打破了传统存储体系的桎梏,将存储控制节点与存储介质分离,存储控制节点与计算节点聚合,从而将数据I/O路径压缩到了极致,将扩容成本也压缩到了极致,大幅提升了整个云平台的性能,同时还显着降低了成本,同时实现高性能、低成本、高可靠、高可用和可扩展性。对于正在向私有云迁移的广大企业级用户来说,SurFS的确有着很大的优越性。 笔者小结 书生云基于SAS存储网络构建的新一代开源分布式存储SurFS 开源后将成为OpenStack等主流云平台的存储后端之一,对于广大IT工程师和终端用户来说,更无异是一针强心剂,开源社区在得到完善管理的前提下,对于未来的存储技术及应用会有更加加速的发展。SurFS 开源将为全球企业级用户搭建高性价比的云平台,并为广大IT企业提供一个切磋、改善行业价值链的机遇的开源,基于SurFS技术的云平台有望成为全球云产业的主流部署模式之一。 当然,书生云的SurFS 开源仍然只是国内软件业的起步!无论是业务模式的探索还是开源后社区的维护,还需要时间及智慧来推进。
⑵ 放着公有云不用,为什么要用OpenStack
OpenStack和云密切相关,对于用户来说,构建私有云要么使用VMware、Hyper V等商用化产品;要么使用OpenStack开源二者必居其一。有意思的是,现有公有云服务商中,少有采用OpenStack,更多是采用自有的封闭系统。OpenStack与公有云似乎没有交集。
OpenStack只能用于私有云吗?为什么放着公有云不用,用户要自建私有云呢?中小企业用户能够驾驭OpenStack吗?其中,又要关注哪些问题。为此,记者采访了OpenStack专业服务提供商——海云捷迅(AWcloud)技术总监李华先生。
为什么要用OpenStack
首先对于用户来说,Amazon、Google,他们的系统是不公开,用户无从借鉴其系统架构,只能使用它们所提供的服务。这些公有云虽然能够带来敏捷性和资源弹性,但对企业用户来说,数据存在公有云上,总是感觉不踏实。这种信任感并没有建立起来。
李华表示:“一些小规模的用户,如不涉及到数据保密的情况下,会选择公有云服务。但对中大型用户,数据比较敏感,类似财务数据、人力资源等,不愿意放到公有云,同时需要敏捷性和资源弹性的效率,为此用户会考虑自建私有云。” 李华说
在私有云的问题上,OpenStack优势明显。作为一种开源软件,较之OpenNebula、Eucalyptus、CloudStack等,OpenStack得到更多企业和开发者的认可,业已经成为事实上的标准。
需要注意的是,OpenStack与VMware等商用软件也不是完全竞争关系。
“它们是一种竞合关系,OpenStack底层Hypervisor可以是VMware、Hyper V、KVM,没有关系。用户可以用OpenStack替代相对昂贵的vCloud等,构建云服务平台。OpenStack能够和ESX server、vCenter对接。”李华说。
寸有所长,OpenStack小厂优势
如果用户没有专业技术人员能够驾驭OpenStack,选择适合的合作伙伴就迫在眉睫。选择大品牌厂商合作,还是选择专业品牌,这是一个问题。
“从本质上来说,不论品牌大小,大家都围绕着社区开源版本提供服务,拿到的原材料都是一样的。所做的是在这个基础上烹制一道道菜肴,不同的厨师烹制出来的味道,一定会有所不同。”李华说。
“对于OpenStack开源社区的理解最重要的有两点:一个是充分利用社区资源,集中全球工程师智慧,为用户提供一个稳定可靠的产品平台服务。这一点上,厂商之间的区别不大。区别大的在于第二点,是否坚持回馈开源社区。”李华说。
李华指出,一些闭源出身的公司,做着做着就会与开源社区脱节,技术并不反馈给开源社区。短期内看不出问题,开源社区发展很快,每半年就会有一个新的版本,那么产品与新版本合不上,就为后续发展带来一系列问题。对于这些企业来说,支持OpenStack目的,还是为了销服务器售网络、服务器、存储等硬件,OpenStack不过是附属。在这样的思路指导下,大品牌也会变现出很多的不适应,给用户应用带来隐患。
与大品牌相比,AWcloud虽然是一家相对小的企业,但却是一家OpenStack的专业企业。公司管理层10多年开源市场的从业经验,让他们对于开源的理解和规律把握更加深刻。他们会比大品牌更加专注,也更能够遵循开源的精神,而这种专业性,更能够确保用户的利益。与大品牌相比,专业性让AWcloud等专业性厂商更容易摆脱硬件因素的干扰,也更符合和体现OpenStack的未来趋势和变化。
“对开源社区的理解,是选择OpenStack合作伙伴的依据,是否坚持技术回馈社区,这是进行判别的关键点。”李华说。
版本兼容性的难题
OpenStacK不同版本之间的兼容性,也是困扰用户应用的难题,也是经常遭受诟病的地方。
李华表示,从2010年第一个版本开始,OpenStack只有4家公司,后来慢慢发展到几十家、几百家,到现在有几千家,所以OpenStack发展。造成A、B、C、D、E,5个版本的OpenStack是一个架构,升级没有太大问题。但从E、F版本,随着很多新厂商加入,原有架构进行了拆分,架构不一样了,导致兼容性问题。最近几个版本,架构没有大的改动,版本升级可以保持平滑。这是一个基本的现状。
针对兼容性, AWcloud给出建议是:如果用户生产环境在OpenStack某版本运行良好,不建议进行大规模的升级,只做小版本升级。如果出现资源的确不够用,或者需要引入新的功能,最好的做法是另建一个集群,新集群采用新的OpenStack版本。
“这样的做法较稳妥。”李华说。
DevOps和运维
随着规模的扩大,用户会遇到各种各样的问题,例如运维的难题。李华表示,OpenStack属调度资源管理平台软件,没有完善的监控报警功能。
如果没有技术实力作为保障,哪个物理服务器或者虚拟机出现故障,这些故障如何定位,所谓日志分析、安全等,这些都不是OpenStack平台的固有内容,这些问题借助开源或者大数据分析工具,所谓DevOps,自动化运维管理的理念。
现在看来,DevOps是专业OpenStack服务商的价值点。
OpenStack服务商要具备DevOps的能力,以物理机高可用性支持为例,OpenStack社区认为,应该从上层应用解决问题。但在现实应用中,用户往往需要这样的功能。做还是不做,要不要提供支持,厂商之间就会出现分歧。
对此,AWcloud的态度是,基于对用户理解,应该为用户提供技术支持和服务。
经验塑造优势
AWcloud是李华和合伙人张征宇在2010年创办的公司,在此之前,李华在RedHat工作大概6年多时间,张征宇在IBM工作4多,在RedHat工作4年,两个人在开源领域摸爬滚打了10多年,积累了大量丰富的经验。
“我们希望利用开源开放技术平台积累的经验,帮助企业客户构建一个稳定可靠的IaaS服务平台。”李华说
在过去两年中,AWcloud做了很多成功的案例。包括北京计算中心、中科院网络中心、武汉大学三星中国研究院、宁夏信通、国家电网等很多客户在内,很多都是虚拟机数量超过了1万台的用户。
“我们拥有大规模开源平台的建设经验,我们把这些经验回馈到开源社区,同时我们也把取得经验用来帮助企业构建企业内部企业规模的云平台,可以帮他们节省大量的时间,保证他们平台的稳定性和可靠性。”李华说。
AWcloud专业实力不仅得到了用户认可,也得到了英特尔的青睐。在美国,英特尔投资了最大的OpenStack公司之一——Mirantis。当英特尔投资在中国寻找项目时选择注资伙伴时,毫不犹豫地“相中”选择了AWcloud。
有英特尔品牌的背书,AWcloud更能够赢得用户的青睐和信任!
“这是我们的机会!”李华自豪地说。
⑶ spark和hadoop的区别
Spark已经取代Hadoop成为最活跃的开源大数据项目,但是,在选择大数据框架时,企业不能因此就厚此薄彼
近日,着名大数据专家Bernard Marr在一篇文章中分析了Spark和 Hadoop 的异同
Hadoop和Spark均是大数据框架,都提供了一些执行常见大数据任务的工具,但确切地说,它们所执行的任务并不相同,彼此也并不排斥
虽然在特定的情况下,Spark据称要比Hadoop快100倍,但它本身没有一个分布式存储系统
而分布式存储是如今许多大数据项目的基础,它可以将 PB 级的数据集存储在几乎无限数量的普通计算机的硬盘上,并提供了良好的可扩展性,只需要随着数据集的增大增加硬盘
因此,Spark需要一个第三方的分布式存储,也正是因为这个原因,许多大数据项目都将Spark安装在Hadoop之上,这样,Spark的高级分析应用程序就可以使用存储在HDFS中的数据了
与Hadoop相比,Spark真正的优势在于速度,Spark的大部分操作都是在内存中,而Hadoop的MapRece系统会在每次操作之后将所有数据写回到物理存储介质上,这是为了确保在出现问题时能够完全恢复,但Spark的弹性分布式数据存储也能实现这一点
另外,在高级数据处理(如实时流处理、机器学习)方面,Spark的功能要胜过Hadoop
在Bernard看来,这一点连同其速度优势是Spark越来越受欢迎的真正原因
实时处理意味着可以在数据捕获的瞬间将其提交给分析型应用程序,并立即获得反馈
在各种各样的大数据应用程序中,这种处理的用途越来越多,比如,零售商使用的推荐引擎、制造业中的工业机械性能监控
Spark平台的速度和流数据处理能力也非常适合机器学习算法,这类算法可以自我学习和改进,直到找到问题的理想解决方案
这种技术是最先进制造系统(如预测零件何时损坏)和无人驾驶汽车的核心
Spark有自己的机器学习库MLib,而Hadoop系统则需要借助第三方机器学习库,如Apache Mahout
实际上,虽然Spark和Hadoop存在一些功能上的重叠,但它们都不是商业产品,并不存在真正的竞争关系,而通过为这类免费系统提供技术支持赢利的公司往往同时提供两种服务
例如,Cloudera 就既提供 Spark服务也提供 Hadoop服务,并会根据客户的需要提供最合适的建议
Bernard认为,虽然Spark发展迅速,但它尚处于起步阶段,安全和技术支持基础设施方还不发达,在他看来,Spark在开源社区活跃度的上升,表明企业用户正在寻找已存储数据的创新用法
⑷ 有没有用Java写的轻量级开源的分布式存储系统
一个轻量级分布式KV存储系统。
如果用K记录文件路径和文件名,用V记录文件内容,就是一个轻量级分布式小文件系统。
至于大文件,几乎一定是HDFS这种有元数据服务中心(NameNode)架构的。
⑸ 基于linux的开源分布式存储有哪些
开源这两个字很好解释,开放源代码。 这个开放有很多不同的方法,针对不同的开源社区、习惯、法律责任等等。 比如微软有自己的开源协议,好像叫微软互惠许可(Microsoft Reciprocal License)和微软公共许可(Microsoft Public License)
⑹ 目前云存储平台有哪些开源的项目,那个比较适合二次开发
一整套完整的所谓的云平台是一个非常庞大的系统。但是你都可以找到对应的开源程序,组合成你想要的平台。
开源的分布式文件存诸系统有GlusterFS、Hadoop 、FastDFS 等等非常多
开源的分布式计算框架,你要自己搜索一下,我目前还不需要,主要用把繁重的计算任务拆分到不同的服务器上运算,或者说是把业务拆分成多个子业务多个服务器运行。
分布式的内存缓存之类的东东。自己搜
具体的web服务器和数据库服务器组分布式的方法自己去搜索。
⑺ 有哪些基于IPFS的网站或者应用值得推荐
有以下基于IPFS的网站或者应用值得推荐:
IPFS音乐播放器:Ujomusic,对标虾米和咪咕音乐的一个IPFS上的音乐家的区块链市场DIFFUSE,在线音乐播放器Spotify,致力于分享数百万歌曲dTube。
IPFS视频播放器:dTube,对标youdTube的视频网站IPFS视频在线播放器,IPFS视频在线播放器,国内第一个IPFS应用。
IPFS社交网络应用:Orbit,QQ在IPFS上的替代者,Akasha,对标facebook,微信等社交工具。
相关拓展
星际文件系统是一个旨在创建持久且分布式存储和共享文件的网络传输协议。它是一种内容可寻址的对等超媒体分发协议。在IPFS网络中的节点将构成一个分布式文件系统。
它是一个开放源代码项目,自2014年开始由Protocol Labs在开源社区的帮助下发展。其最初由Juan Benet设计。
以上内容参考 网络-IPFS
⑻ 哪哥们可以提供开源数据仓库产品的名称
Infobright是一款基于独特的专利知识网格技术的列式数据库。Infobright是开源的MySQL数据仓库解决方案,引入了列存储方案,高强度的数据压缩,优化的统计计算(类似sum/avg/group by之类),infobright 是基于mysql的,但不装mysql亦可,因为它本身就自带了一个。mysql可以粗分为逻辑层和物理存储引擎,infobright主要实现的就是一个存储引擎,但因为它自身存储逻辑跟关系型数据库根本不同,所以,它不能像InnoDB那样直接作为插件挂接到mysql,它的逻辑层是mysql的逻辑层加上它自身的优化器。
Infobright特征
优点:
大数据量查询性能强劲、稳定:百万、千万、亿级记录数条件下,同等的SELECT查询语句,速度比MyISAM、InnoDB等普通的MySQL存储引擎快5~60倍。高效查询主要依赖特殊设计的存储结构对查询的优化,但这里优化的效果还取决于数据库结构和查询语句的设计。
存储数据量大:TB级数据大小,几十亿条记录。数据量存储主要依赖自己提供的高速数据加载工具(百G/小时)和高数据压缩比(>10:1)
高数据压缩比:号称平均能够达到 10:1 以上的数据压缩率。甚至可以达到40:1,极大地节省了数据存储空间。高数据压缩比主要依赖列式存储和 patent-pending 的灵活压缩算法.
基于列存储:无需建索引,无需分区。即使数据量十分巨大,查询速度也很快。用于数据仓库,处理海量数据没一套可不行。不需要建索引,就避免了维护索引及索引随着数据膨胀的问题。把每列数据分块压缩存放,每块有知识网格节点记录块内的统计信息,代替索引,加速搜 索。
快速响应复杂的聚合类查询:适合复杂的分析性SQL查询,如SUM, COUNT, AVG, GROUP BY
⑼ 哪个开源分布式存储适合搭建nas
OpenStack是一个旨在为公共及私有云的建设与管理提供软件的开源项目。它的社区拥有超过130家企业及1350位开发者,这些机构与个人都将OpenStack作为基础设施即服务(简称IaaS)资源的通用前端。OpenStack项目的首要任务是简化云的部署过程