1. 有没有用Java写的轻量级开源的分布式存储系统
以下内容源于分布式内存文件系统:Tachyon 14年9月的文章
Tachyon是一个分布式内存文件系统,可以在集群里以访问内存的速度来访问存在tachyon里的文件。把Tachyon是架构在最底层的分布式文件存储和上层的各种计算框架之间的一种中间件。主要职责是将那些不需要落地到DFS里的文件,落地到分布式内存文件系统中,来达到共享内存,从而提高效率。同时可以减少内存冗余,GC时间等。
<img src="https://pic3.mg.com/_b.png" data-rawwidth="810" data-rawheight="311" class="origin_image zh-lightbox-thumb" width="810" data-original="https://pic3.mg.com/_r.png">
Tachyon架构
Tachyon的架构是传统的Master—slave架构,这里和Hadoop类似,TachyonMaster里WorkflowManager是 Master进程,因为是为了防止单点问题,通过Zookeeper做了HA,可以部署多台Standby Master。Slave是由Worker Daemon和Ramdisk构成。这里个人理解只有Worker Daemon是基于JVM的,Ramdisk是一个off heap memory。Master和Worker直接的通讯协议是Thrift。
下图来自Tachyon的作者Haoyuan Li:
<img src="https://pic4.mg.com/_b.png" data-rawwidth="854" data-rawheight="571" class="origin_image zh-lightbox-thumb" width="854" data-original="https://pic4.mg.com/_r.png">
三、Fault Tolerant
Tachyon是一个分布式文件存储系统,但是如果Tachyon里的容错机制是怎么样的呢?
Tachyon使用血统这个我们在Spark里的RDD里已经很熟悉了,这里也有血统这一概念。会使用血统,通过异步的向Tachyon的底层文件系统做Checkpoint。
当我们向Tachyon里面写入文件的时候,Tachyon会在后台异步的把这个文件给checkpoint到它的底层存储,比如HDFS,S3.. etc...
这里用到了一个Edge的算法,来决定checkpoint的顺序。
比较好的策略是每次当前一个checkpoint完成之后,就会checkpoint一个最新生成的文件。当然想Hadoop,Hive这样的中间文件,需要删除的,是不需要checkpoint的。
下图来自Tachyon的作者Haoyuan Li:
<img src="https://pic1.mg.com/_b.png" data-rawwidth="822" data-rawheight="609" class="origin_image zh-lightbox-thumb" width="822" data-original="https://pic1.mg.com/_r.png">
关于重新计算时,资源的分配策略:
目前Tachyon支持2种资源分配策略:
1、优先级的资源分配策略
2、公平调度的分配策略
<img src="https://pic2.mg.com/_b.png" data-rawwidth="940" data-rawheight="621" class="origin_image zh-lightbox-thumb" width="940" data-original="https://pic2.mg.com/_r.png">
四、总结
Tachyon是一个基于内存的分布式文件系统,通常位于分布式存储系统和计算框架直接,可以在不同框架内共享内存,同时可以减少内存冗余和基于Jvm内存计算框架的GC时间。
Tachyon也有类似RDD的血统概念,input文件和output文件都是会有血统关系,这样来达到容错。并且Tachyon也利用血统关系,异步的做checkpoint,文件丢失情况下,也能利用两种资源分配策略来优先计算丢失掉的资源。
2. 目前云存储平台有哪些开源的项目,那个比较适合二次开发
一整套完整的所谓的云平台是一个非常庞大的系统。但是你都可以找到对应的开源程序,组合成你想要的平台。
开源的分布式文件存诸系统有GlusterFS、Hadoop 、FastDFS 等等非常多
开源的分布式计算框架,你要自己搜索一下,我目前还不需要,主要用把繁重的计算任务拆分到不同的服务器上运算,或者说是把业务拆分成多个子业务多个服务器运行。
分布式的内存缓存之类的东东。自己搜
具体的web服务器和数据库服务器组分布式的方法自己去搜索。
3. 目前国内有公司在使用开源的ceph分布式存储系统吗
有,我知道的使用ceph的公司主要有元核云、XSky、杉岩数据等,其他的华为云、深信服等公司也有分布式存储,不过不知道是不是基于ceph的。
4. 基于linux的开源分布式存储有哪些
开源这两个字很好解释,开放源代码。 这个开放有很多不同的方法,针对不同的开源社区、习惯、法律责任等等。 比如微软有自己的开源协议,好像叫微软互惠许可(Microsoft Reciprocal License)和微软公共许可(Microsoft Public License)
5. 列举一些开源的云计算技术
云计算是个IT界火热的词汇,开源云计算更是被认为是IT的趋势。我们熟知的几个IT巨头的云计算平台,如亚马逊EC 2、IBM的蓝云、微软的Azure、Sun
Cloud等,那么开源云计算的平台又有哪些呢?以下列举了开源中国社区收录的5款知名的开源云计算平台。
1、AbiCloud企业级开源云计算平台
Abiquo公司推出的一款开源的云计算平台——“abiCloud”,使公司能够以快速、简单和可扩展的方式创建和管理大型、复杂的IT基础设施(包括虚拟服务器,网络,应用,存储设备等等)。AbiCloud较之同类其他产品的一个主要的区别在于其强大的Web界面管理。你可以通过拖拽一个虚拟机来部署一个新的服务。这个版本允许通过VirtualBox部署实例,它还支持VMware,KVM和Xen。
abiCloud架构如下图所示:
2、Eucalyptus 开源云计算平台
Eucalyptus 项目(Elastic Utility Computing Architecture for LinkingYour
Programs To Useful Systems)是 Amazon EC2 的一个开源实现,它与商业服务接口兼容。和 EC2一样,Eucalyptus
依赖于 Linux 和 Xen 进行操作系统虚拟化。Eucalyptus
是加利福尼亚大学(SantaBarbara)为进行云计算研究而开发的。您可以从该大学的网站上下载它,或者通过 Eucalyptus Public
Cloud体验它,不过后者有一些限制。
3、10gen MongoDB 开源高性能存储平台
10gen 既是一个云平台,又是一个可下载的开放源代码包,可用于创建您自己的私有云。10gen 是类似于 App Engine的一个软件栈,它提供与
App Engine 类似的功能 — 但有一些不同之处。通过 10gen,可以使用 Python 以及JavaScript 和
Ruby编程语言开发应用程序。该平台还使用沙盒概念隔离应用程序,并且使用它们自己的应用服务器的许多计算机(当然,是在
Linux上构建)提供一个可靠的环境。
4、Enomalism 弹性计算平台
Enomaly's Elastic Computing Platform
(ECP)是一个可编程的虚拟云架构,ECP平台可以简化在云架构中发布应用的操作。
云计算平台是一个 EC2 风格的 IaaS 。Enomalism 是一个开放源代码项目,它提供了一个功能类似于 EC2的云计算框架。Enomalism
基于 Linux,同时支持 Xen 和 Kernel Virtual Machine(KVM)。与其他纯IaaS 解决方案不同的是,Enomalism
提供了一个基于 TurboGears Web 应用程序框架和 Python 的软件栈。
5、云计算平台 Nimbus
Nimbus由网格中间件Globus提供,Virtual Workspace演化而来,与Eucalyptus 一样,提供EC2的类似功能和接口。
6. 哪个开源分布式存储适合搭建nas
OpenStack是一个旨在为公共及私有云的建设与管理提供软件的开源项目。它的社区拥有超过130家企业及1350位开发者,这些机构与个人都将OpenStack作为基础设施即服务(简称IaaS)资源的通用前端。OpenStack项目的首要任务是简化云的部署过程
7. 想搭建一个小型云存储平台,求帮忙评估难度大吗
不难的,如果你有些基础的话。
开源的系统就有不少。
比如OpenStack里面有Swift,是一个对象存储,适合于存放比较小的,以对象为单位的文件。
SeaFile开源云存储系统平台是由国人开发的新一代的开源云存储系统软件,SeaFile提供丰富的文件同步和管理功能,搭个网盘是比较方便的。
还有GlusterFS,是一个集群的文件系统,支持 PB 级的数据量。
按照教程来,搭建起来不难。当然,要深入使用,解决生产运行中的各种坑,还是需要一定时间的积累的。
8. 开源大数据平台ladoop体系。哪一组件可以实现列式存储和NOSg1
没有。
为了克服MapRece的性能缺点,Google提出了新型交互式计算引擎Dremel,它构建于Google的GFS等系统之上,支撑了Google的数据分析服务BigQuery等诸多服务。Dremel的技术两点主要有两个,一是采用了MPP架构,使用了多层查询树,使得任务可以在数千个节点上并行执行和聚合结果,二是实现了嵌套型数据的列存储,避免了读取不必要的数据,大大减少网络和磁盘IO。
Impala最初由Cloudera公司开发,设计的动机是充分结合传统数据库与大数据系统Hadoop的有事,构造一个全新的、支持sql与多租户、并具备良好的灵活性和扩展性的高性能查询引擎。
9. 的云存储系统,问下现在有什么比较常用的开源分布式
书生云于宣布将基于SAS架构的新一代开源分布式存储技术——SurFS开源。SurFS是书生云公司自主研发的分布式存储系统,是云平台的核心部件,在性能和成本两方面具有一定实力。书生云将具有自身知识产权的商业软件开源,对软件行业将带来哪些影响? 书生云董事长王东临 众所周知,开源软件技术领域较为知名的除了Android(安卓)、Linux、MySQL、OpenOffice、OpenStack等开源社区外,企业级领域软件开源的并不算多,但也能看到其中一些卓越领导者,比如知名开源软件企业 RedHat, RedHat的年收入甚至超过了20亿美元。 因此,书生云董事长王东临认为:“虽然在视核心技术商业机密的传统思维里,软件企业将自身拥有知识产权的软件的开源显得另类,但随着开源系统在全球的广泛普及,未来开源与商业也会得到完美结合,形成了“先奉献后收益”、“贡献越大收益越大”的格局。” 存储系统是云平台的核心部件,对云平台的整体性能和成本都有极大的影响。SurFS通过对存储网络的颠覆式创新,第一个采用SAS做存储网络构建分布式存储系统,将带宽提升了几十倍延时降低了几十倍,而且从架构体系上完全打破了传统存储体系的桎梏,将存储控制节点与存储介质分离,存储控制节点与计算节点聚合,从而将数据I/O路径压缩到了极致,将扩容成本也压缩到了极致,大幅提升了整个云平台的性能,同时还显着降低了成本,同时实现高性能、低成本、高可靠、高可用和可扩展性。对于正在向私有云迁移的广大企业级用户来说,SurFS的确有着很大的优越性。 笔者小结 书生云基于SAS存储网络构建的新一代开源分布式存储SurFS 开源后将成为OpenStack等主流云平台的存储后端之一,对于广大IT工程师和终端用户来说,更无异是一针强心剂,开源社区在得到完善管理的前提下,对于未来的存储技术及应用会有更加加速的发展。SurFS 开源将为全球企业级用户搭建高性价比的云平台,并为广大IT企业提供一个切磋、改善行业价值链的机遇的开源,基于SurFS技术的云平台有望成为全球云产业的主流部署模式之一。 当然,书生云的SurFS 开源仍然只是国内软件业的起步!无论是业务模式的探索还是开源后社区的维护,还需要时间及智慧来推进。
10. 全球四个最大的四个开源库
开源数据库MySQLMySQL是一个开放源码的小型关联式数据库管理系统,开发者为瑞典MySQL AB公司。目前MySQL被广泛地应用在Internet上的中小型网站中。由于其体积小、速度快、总体拥有成本低,尤其是开放源...开源数据库MySQLMySQL是一个开放源码的小型关联式数据库管理系统,开发者为瑞典MySQL AB公司。目前MySQL被广泛地应用在Internet上的中小型网站中。由于其体积小、速度快、总体拥有成本低,尤其是开放源码这一特点,许多中小型网站为了降低网站总体拥有成本而选择了MySQL作为网站数据库。盘点:开源社区那些免费的数据库软件MySQL为多种编程语言提供了API,包括C、C++、C#、Delphi、Eiffel、Java、Perl、PHP、Python、Ruby和Tcl等。而其自身是采用C和C++编写的,使用了多种编译器进行测试,所以,MySQL能够保证源代码具有很强的可移植性。这样的一款数据库,自然能够支持几乎所有的操作系统,从Unix、Linux到Windows,具体包括AIX、BSDi、FreeBSD、HP-UX、Linux、Mac OS、Novell Netware、NetBSD、OpenBSD、OS/2 Wrap、Solaris、SunOS、Windows等多种操作系统。最重要的是,它是一个可以处理拥有上千万条记录的大型数据库。与此同时,MySQL也产生了很多分支版本的数据库也非常值得推荐。首先是MariaDB,它是一个采用Maria存储引擎的MySQL分支版本,是由原来MySQL的作者 Michael Widenius创办的公司所开发的免费开源的数据库服务器。与MySQL相比较,MariaDB更强的地方在于它拥有更多的引擎,包括Maria存储引擎、PBXT存储引擎、XtraDB存储引擎、FederatedX存储引擎,它能够更快的复制查询处理、运行的速度更快、更好的功能测试以及支持对Unicode的排序等。其次是rcona,它为MySQL数据库服务器进行了改进,在功能和性能上较MySQL有着很显着的提升。该版本提升了在高负载情况下的InnoDB的性能,同时,它还为DBA提供一些非常有用的性能诊断工具,并且提供很多参数和命令来控制服务器行为。第三是Percona Server,它使用了诸如google-mysql-tools、Proven Scaling和 Open Query对MySQL进行改造。并且,它只包含MySQL的服务器版,并没有提供相应对 MySQL的Connector和GUI工具进行改进。非关系型数据库NoSQL从NoSQL的字面上理解,NoSQL就是Not Only SQL,被业界认为是一项全新的数据库革命性运动,早期就有人提出,发展至2009年趋势越发高涨。NoSQL的拥护者们提倡运用非关系型的数据存储,相对于目前铺天盖地的关系型数据库运用,这一概念无疑是一种全新的思维的注入。盘点:开源社区那些免费的数据库软件当然,NoSQL也是随着互联网Web2.0网站的兴起才能取得长足的进步。关键的需求在于,传统的关系数据库在应付Web2.0网站,特别是超大规模和高并发的SNS类型的web2.0纯动态网站显得力不从心,暴露了很多难以克服的问题,而非关系型的数据库则由于其本身的特点得到了非常迅速的发展。首先推荐的是Oracle NoSQL Database,这是一个社区版。Oracle的这个NoSQL Database, 是在10月4号的甲骨文全球大全上发布的Big Data Appliance的其中一个组件,Big Data Appliance是一个集成了Hadoop、NoSQL Database、Oracle数据库Hadoop适配器、Oracle数据库Hadoop装载器及R语言的系统。其次推荐的是Membase。Membase是NoSQL家族的一个新的重量级的成员。Membase是开源项目,源代码采用了Apache2.0的使用许可。该项目托管在GitHub.Source tarballs上,目前可以下载beta版本的Linux二进制包。该产品主要是由North Scale的memcached核心团队成员开发完成,其中还包括Zynga和NHN这两个主要贡献者的工程师,这两个组织都是很大的在线游戏和社区网络空间的供应商。并且,Membase容易安装、操作,可以从单节点方便的扩展到集群,而且为memcached(有线协议的兼容性)实现了即插即用功能,在应用方面为开 发者和经营者提供了一个比较低的门槛。做为缓存解决方案,Memcached已经在不同类型的领域(特别是大容量的Web应用)有了广泛的使用,其中 Memcached的部分基础代码被直接应用到了Membase服务器的前端。通过兼容多种编程语言和框架,Membase具备了很好的复用性。在安装和配置方面,Membase提供了有效的图形化界面和编程接口,包括可配置 的告警信息。Membase的目标是提供对外的线性扩展能力,包括为了增加集群容量,可以针对统一的节点进行复制。 另外,对存储的数据进行再分配仍然是必要的。第三推荐的是Hibari。Hibari在日语中意思为“云雀”,它是一个专为高可靠性和大数据存储的数据库引擎,可用于云计算环境中,例如 webmail、SNS和其他要求T/P级数据存储的环境中。同时,Hibari也支持Java,C/C++,Python,Ruby和Erlang语言的客户端。第四推荐的是memcachedb。这是一个由新浪网的开发人员开放出来的开源项目,给memcached分布式缓存服务器添加了Berkeley DB的持久化存储机制和异步主辅复制机制,让memcached具备了事务恢复能力、持久化能力和分布式复制能力,非常适合于需要超高性能读写速度,但是 不需要严格事务约束,能够被持久化保存的应用场景,例如memcachedb被应用在新浪博客上面。第五推荐的是Leveldb。这是一个Google实现的非常高效的kv数据库,目前的版本1.2能够支持billion级别的数据量了。 在这个数量级别下还有着非常高的性能,主要归功于它的良好的设计,特别是LSM算法。LevelDB是单进程的服务,性能非常之高,在一台4个Q6600的CPU机器上,每秒钟写数据超过40w,而随机读的性能每秒钟超过10w。XML数据库的优势XML数据库是一种支持对XML格式文档进行存储和查询等操作的数据管理系统。在系统中,开发人员可以对数据库中的XML文档进行查询、导出和指定格式的序列化。目前XML数据库有三种类型:XMLEnabledDatabase(XEDB),即能处理XML的数据库;NativeXMLDatabase(NXD),即纯XML数据库;HybridXMLDatabase(HXD),即混合XML数据库。关系数据库中的第一代XML支持是切分(或分解)文档,以适应关系表格或将文档原封不动地存储为字符或二进制大对象(CLOB 或 BLOB)。这两个方法中的任一种都尝试将XML模型强制转换成关系模型。然而,这两种方法在功能和性能上都有很大的局限性。混合型模型将XML存储在类似于DOM的模型中。XML数据被格式化为缓冲数据页,以便快速导航和执行查询以及简化索引编制。在这里,首要要推荐的XML数据库是Sedna。它号称是一款原生态的XML数据库,提供了全功能的核心数据库服务,包括持久化存储、ACID事务、索引、安全、热备、UTF8等。实现了 W3C XQuery 规范,支持全文搜索以及节点级别的更新操作。第二款XML数据库是BaseX。这款数据库用来存储紧缩的XML数据,提供了高效的 XPath和XQuery的实现,同时,它还提供一个前端操作界面。盘点:开源社区那些免费的数据库软件第三款推荐的是XMLDB。这款数据库使用了关系型数据库来存储任意的XML文档,因为所采用的存储机制,所以文档的搜索速度特别快,同时执行XSL转换也相当快。XMLDB同时还提供了一个PHP的模块,可以应用在Web应用中。第四块推荐的是X-Hive/DB。它是一个为需要高级XML数据处理和存储功能的软件开发者设计的强大的专属XML数据库。X-Hive/DB Java API包含存储、查询、检索、转换和发表XML数据的方法。与传统关系型数据库相比,XML数据库具有以下优势:第一,XML数据库能够对半结构化数据进行有效的存取和管理。如网页内容就是一种半结构化数据,而传统的关系数据库对于类似网页内容这类半结构化数据无法进行有效的管理。第二,提供对标签和路径的操作。传统数据库语言允许对数据元素的值进行操作,不能对元素名称操作,半结构化数据库提供了对标签名称的操作,还包括了对路径的操作。第三,当数据本身具有层次特征时,由于XML数据格式能够清晰表达数据的层次特征,因此XML数据库便于对层次化的数据进行操作。XML数据库适合管理复杂数据结构的数据集,如果己经以XML格式存储信息,则XML数据库利于文档存储和检索;可以用方便实用的方式检索文档,并能够提供高质量的全文搜索引擎。另外XML数据库能够存储和查询异种的文档结构,提供对异种信息存取的支持。