1. 谁来关注下一代Linux文件系统发展趋势
GNU/Linux在支持文件系统创新方面已经取得了极大的成功,目前已支持超过50种文件系统,毫无疑问,这一成功与Linux一向的开源策略是密不可分的。随着数据的爆炸式增长,存储行业已经发生了翻天覆地的变化,文件系统如何才能紧跟时代步伐,满足越来越高要求的存储需要呢?
硬盘的成本/容量曲线趋势继续遵守着名的摩尔定律,与此同时,我们也看到固态硬盘增长势头喜人,它因消除了机械硬盘固有的性能限制得到了厂商和消费者的重视,虚拟化也在改变存储架构设计,应用程序也开始向基于FC的HTTP存储协议转移。
存储容量几乎每年以40%的速度递增,现在市场上已经可以看到容量为2TB的机械硬盘,但它们的性能却没有按比例提高,固态硬盘的出现解决了传统机械硬盘的许多弊病,因此未来几年势必会引发一场存储革命,文件系统也需要为存储革命做好准备,未来的文件系统必需解决扩展,并行处理和满足新工作负载类型方面的问题。
POSIX API标准制约了创新
IDE和SCSI已经逐渐被SAS取代,终于超越了6Gbps的门槛,Infiniband和10GbE通过远程直接内容访问(Remote Direct Memory Access ,RDMA)和TCP卸载引擎提高了网络I/O,iSCSI大有取代FC SAN的趋势,和传统的使用NFS和CIFS协议应用程序不同,基于Internet的程序通常是使用HTTP/HTTPS访问地理分散的存储。
我们已经使用POSIX API访问文件系统的历史已经长达30年,它是一个标准,但它也是弱点,是它遏制了创新,应用程序开发人员需要新的API标准执行对象存储和key-value存储。
诸如卷管理,全局命名空间,压缩,加密,克隆/快照,重复数据删除,RAID和远程站点复制技术都应该由文件系统实现,由于历史原因,这些功能都是在文件系统之外实现的,因此效率低下,复杂程度较高。
文件系统不应局限于在内核空间实现
关于内核空间和用户空间性能问题的争论应该歇歇了,上下文切换不再是什么大问题,因为堆栈和网络中的其它部分造成的延迟才是真正的限制因素。在用户空间中实现的新兴文件系统应该受到重视。原来大家都认为底层组件,如磁盘设备驱动和磁盘文件系统应该驻留在内核中,但现在是时候让大部分代码在用户空间中实现了。例如,Hadoop和GlusterFS就是完全在用户空间中实现的。有关Hadoop的使用可参考51CTO之前发布的使用Linux 和Hadoop进行分布式计算一文。
变革和创新
1、适合于直接附加存储(Direct Attached Storag,DAS)的文件系统
Linux文件系统Ext3是迄今为止最稳定的Linux文件系统,但现在是时候考虑Ext4(内核2.6.31或更高才支持)了,因为它解决了诸如文件和目录大小限制的局限性,基于延伸区(extent)分配机制能够有效地存储大文件,更快地执行fsck(文件系统检查)和日志校验和检查,但Ext4只是一个暂时的解决方案。
Linux社区希望Linux支持ZFS和Btrfs(B-tree文件系统),Btrfs将类似ZFS的功能引入到Linux内核中,Btrfs不仅仅是一个磁盘文件系统,它还具有软RAID管理,卷管理,克隆/快照和压缩功能,它支持跨多块磁盘动态增大或收缩卷。
Btrfs RAID可以从一个故障阵列快速重构,其速度比硬件RAID控制器还快,因为它只重新条带化使用了的数据块,执行快照需要的空间和时间也更少,Btrfs的目标是取代Linux默认文件系统Ext4,来自Oracle的Chris Mason是该项目的主要贡献者。
2、网络文件系统(NFS)
NFS于1995年推出,NFS v3是目前应用最广泛的NAS协议,所有服务器操作系统(除微软Windows外)和存储厂商都支持它,2000年发布的NFS v4在许多方面都做了改进,但没有取得广泛应用。NFS v4.1(pNFS)应该会出现转机,因为它带来了人们迫切需要的并行I/O架构,并为低延迟高带宽I/O增加了RDMA支持。
这是NFS的一个重大进步,允许用户转移到可横向扩展的架构,但它的设计是基于一个统一的元数据服务器,这可能会限制扩展能力,并且存在一个潜在的单点故障,因此要想成为主流应用尚需时日,这期间需要解决NFS v3/4的扩展性问题,通过在集群文件系统上集成NFS,利用虚拟IP和循环DNS技术,可以构建一个可扩展的NAS解决方案。
3、集群/分布式文件系统
集群或分布式文件系统允许跨多个存储服务器使用一个全局命名空间,并实现了智能分散I/O和数据,以克服NFS(和CIFS)的扩展性限制,每个厂商都有他们自己的内部协议,但对于应用程序是透明的,因为共享存储是通过标准的POSIX接口访问的。
这样的文件系统有Oracle Lustre,IBM GPFS和GlusterFS,它们之间的主要区别是处理元数据的方式有所不同,Lustre使用的是中央控制元数据服务器,GPFS使用的是分布式元数据服务器模型,GlusterFS使用的是无元数据模型。在选择集群文件系统时,关键就是要了解元数据的处理方式。
另一个不同点是Lustre和GPFS是在内核中实现的,GlusterFS是在用户空间实现的,这些集群文件系统都实现了前面谈到的关键存储堆栈功能,它们都可以扩展到PB级存储容量。
4、分布式对象存储/key-value存储
许多现代应用程序需要简单对象API访问诸如get/put,get/put属性和lock/unlock这样成对出现的数据,对象访问允许将内存和磁盘看作是通过序列化的信息持久化块。
大多数数据处理功能(如XML解析,哈希表,全文检索等)都开始转向更高级的应用程序库,对象存储API也适合构建NoSQL规模的数据库。很多Web 2.0应用正在逐渐转向Cassendra等NoSQL式存储,比如前日的Digg和Twitter。
目前对象存储还没有标准化,虽然WebDAV,Hadoop,Apache Cassandra和Amazon S3都遵循这个模型,如果是构建一个新应用程序,它们也是很好的选择,但在未标准化之前,POSIX API将是必需的。(参考阅读:详解NoSQL数据库Apache Cassandra的配置)
小结
2. 区块链技术的分布式存储是什么
区块链技术的分布式存储就是数据不放在同一台主机上,它分散放在不同的主机上,而且这个数据不可更改。
3. 分布式存储网络Filecoin是什么
Filecoion项目可以理解为是运行在IPFS网络里的激励制度。FIL是Filecoin项目基于Filecoin公链发行的Token,全称是Filecoin,中文名叫文件币,符号是FIL。
打开网络APP看高清图片
Filecoin是由美国协议实验室及其首席执行官胡安.贝奈特发起的一个项目,面向大众的加密货币和数字支付系统,是基于IPFS系统开发的去中心化存储项目。IPFS是什么?
Filecoin由区块链,检索节点,存储节点和本机令牌(filecoin)组成。存储节点是矿工,所有储存矿工必须通过承诺存储,提交抵押品并遵守时空证明(PoSt)来参与Filecoin采矿协议。PoST允许网络的任何成员验证存储提供商是否履行其职责:在约定的时间段内存储外包数据。 为了防止不良行为者试图存储的数据副本少于存储的数据副本,filecoin还具有复制证明(PoRep)机制,要求矿工证明他们正在存储他们所说的数据。
系统设计允许用户使用网络的本机加密货币Filcoin在可用设备上租用存储。客户花费文件币来共享和检索数据,反之,矿工通过存储和提供数据来获得Filecoin。为了激励矿工投资存储而不是计算能力,网络选择矿工创建新块的概率与当前使用的与网络其余部分相关的存储成比例。
Filecoin 可以为 IPFS 在全球范围内提供大量节点,同时自身还拥有一个巨大的分布式存储空间,解决了 IPFS 的存储问题。
Filecoin通过预售和初始硬币发行(ICO)销售的2亿个Filecion获得资金,分别为5200万美元和2.058亿美元。
在2017年8月的初始硬币发行(ICO)期间,该项目通过CoinList销售SAFT(未来令牌的简单协议),作为项目上线后未来对filecoin令牌的要求。ICO持续了一个月,当时是迄今为止最大的募集资金ICO,投资额为2.57亿美元,约20亿人民币。
4. 现阶段的区块链技术中的分布式储存与传统的相比的差异是什么
一是区块链每个节点都按照块链式结构存储完整的数据,传统分布式存储一般是将数据按照一定的规则分成多份进行存储。
二是区块链每个节点存储都是独立的、地位等同的,依靠共识机制保证存储的一致性,而传统分布式存储一般是通过中心节点往其他备份节点同步数据。
数据节点可以是不同的物理机器,也可以是云端不同的实例。
以上就是金窝窝网络分析的区块链技术中与传统的分布式储存的差异化,可供参考。
5. IPFS和Filecoin是什么关系
尽管IPFS被热炒了三四年,却依旧有很多人没有理清楚IPFS和Filecoin的概念以及互相之间的关系,很多人把IPFS和Filecoin混为一谈,“IPFS挖矿”、“IPFS矿机”就是典型的错误说法。
Protoco Lbas,又叫做协议实验室,成立于 2014 年 5 月的美国旧金山湾区,由斯坦福大学毕业的胡安·贝内特 Juan Benet 创立。胡安·贝内特 Juan Benet,美国加州人,毕业于世界名校斯坦福大学计算机专业,硕士学位。他曾和合伙人联合创立了一家手机 AR 游戏公司(Loki Studios),后来被雅虎收购。随后他入驻 StartX,这是斯坦福大学的一个非营利性的创业公司加速器,从这里开启创业生涯。在 2014 年,他创立 IPFS 项目,并获得母校投资。2015 年 1 月,IPFS 项目正式版发布。
IPFS和Filecoin都是由协议实验室打造的项目。IPFS是一种点对点、版本化、内容寻址的超媒体传输协议,对标的是传统互联网协议HTTP,其所要构建的是一个分布式的web 3.0。但IPFS只是一个开源的互联网底层通信协议,大家都可以免费的使用它。目前所有IPFS节点都提供存储空间同时也需要其他节点帮助自己存储资源。
从本质上来说IPFS将原来P2P软件的按需下载转变为资源的长期存储,长期存储就需要有服务质量保证,否则没有用户愿意将自己有价值数据或者需要服务质量保证的资源内容存储到IPFS中。那么对于一个松散的IPFS网络,用户的随意退出、网络质量的不确定性、存储地理位置的不确定性、硬件资源性能参差不齐,硬件资源的性能抖动,这些问题都使得IPFS没有办法去存储对服务质量有强需求的资源存储,换句话说就是,没有办法在商业领域中使用。
所以,IPFS使用Filecoin的激励机制来吸引一批专业的存储服务商来提供更专业、安全和稳定的存储服务。Filecoin是一个基于IPFS的去中心化存储网络,是IPFS上唯一的激励层,是一个基于区块链技术发行的通证。在FIlecoin网络中的矿工可以通过为客户提供存储和检索服务来获取FIL,相反,客户可以通过花费FIL雇佣矿工来存储或分发数据。Filecoin通过经济激励的机制来促进IPFS的发展,同时Filecoin网络也需要IPFS为其市场的发展提供生态支持。IPFS网络使用的越多,对Filecoin的需求就越大;Filecoin的矿工越多,对IPFS网络的也就支持越大。所以IPFS和Filecoin形成了共生关系。Filecoin的诞生是为了支持IPFS的发展,IPFS也需要Filecoin为其丰富生态。IPFS使用的越多,Filecoin的需求更大;Filecoin的矿工越多,对IPFS的支持越大。
链乔教育在线旗下学硕创新区块链技术工作站是中国教育部学校规划建设发展中心开展的“智慧学习工场2020-学硕创新工作站 ”唯一获准的“区块链技术专业”试点工作站。专业站立足为学生提供多样化成长路径,推进专业学位研究生产学研结合培养模式改革,构建应用型、复合型人才培养体系。
6. linux下常用的分布式文件系统有哪些
Lustre是HP,Intel,Cluster File System公司联合美国能源部开发的Linux集群并行文件系统,名称来源于Linux和Clusters。同时Lustre也是一个遵循GPL许可协议的开源软件,Lustre也被称为平行分布式文件系统,常用于大型计算机集群和超级电脑中。
Lustre的主要组建包括:元数据服务器(Metadataservers, MDSs)、对象存储服务器(objectstorage servers, OSSs)和客户端。其中MDSs提供元数据服务,MGS管理服务器提供Lustre文件系统配置信息,OSS对象存储服务器expose块设备提供数据。
Lustre文件系统针对大文件读写进行了优化,能够提高性能的IO能力;在源数据独立存储、服务和网络失效的快速恢复、基于意图的分布式锁管理和系统可快速配置方面优异。
分布式存储的关键技术主要包括:全局名字空间、缓存一致性、安全性、可用性和可扩展性。从数据形态来划分,主要有:结构化数据、非机构化数据和半结构化数据。
Linux是一套免费使用和自由传播的类Unix操作系统,是一个基于POSIX和UNIX的多用户、多任务、支持多线程和多CPU的操作系统。它能运行主要的UNIX工具软件、应用程序和网络协议。它支持32位和64位硬件。Linux继承了Unix以网络为核心的设计思想,是一个性能稳定的多用户网络操作系统。
Linux操作系统诞生于1991 年10 月5 日(这是第一次正式向外公布时间)。Linux存在着许多不同的Linux版本,但它们都使用了Linux内核。Linux可安装在各种计算机硬件设备中,比如手机、平板电脑、路由器、视频游戏控制台、台式计算机、大型机和超级计算机。
7. 软件定义存储和分布式存储是什么关系
什么是分布式存储
关于分布式存储实际上并没有一个明确的定义,甚至名称上也没有一个统一的说法,大多数情况下称作 Distributed Data Store 或者 Distributed Storage System。
其中维基网络中给 Distributed data store 的定义是:分布式存储是一种计算机网络,它通常以数据复制的方式将信息存储在多个节点中。
在网络中给出的定义是:分布式存储系统,是将数据分散存储在多台独立的设备上。分布式网络存储系统采用可扩展的系统结构,利用多台存储服务器分担存储负荷,利用位置服务器定位存储信息,它不但提高了系统的可靠性、可用性和存取效率,还易于扩展。
尽管各方对分布式存储的定义并不完全相同,但有一点是统一的,就是分布式存储将数据分散放置在多个节点中,节点通过网络互连提供存储服务。这一点与传统集中式存储将数据集中放置的方式有着明显的区分。
什么是软件定义存储
SDS 的全称是 Software Defined Storage ,字面意思直译就是软件定义存储。关于 SDS 的定义可以参考全球网络存储工业协会(Storage Networking Instry Association,SNIA),SINA 在 2013 正式把 软件定义存储(SDS) 列入研究对象。
SINA 对软件定义存储(SDS) 的定义是:一种具备服务管理接口的虚拟化存储。 SDS 包括存储池化的功能,并可通过服务管理接口定义存储池的数据服务特征。另外 SINA 还提出 软件定义存储(SDS) 应该具备以下特性:
自动化程度高 – 通过简化管理,降低存储基础架构的运维开销
标准接口 – 支持 API 管理、发布和运维存储设备和服务
虚拟化数据路径 – 支持多种标准协议,允许应用通过块存储,文件存储或者对象存储接口写入数据
扩展性 – 存储架构具备无缝扩展规模的能力,扩展过程不影响可用性以及不会导致性能下降
透明度 – 存储应为用户提供管理和监控存储的可用资源与开销
分布式存储与软件定义存储的区别与联系
软件定义存储(SDS) 的着重点在于存储资源虚拟化和软件定义,首先在形态上,软件定义存储(SDS)区别于传统的“硬件定义”存储,它不依赖专属的硬件,可以让存储软件运行在通用服务器上,可避免硬件绑定以及有效降低硬件采购成本;拥有标准 API 接口和自动化工具,有效降低运维难度。存储资源虚拟化,支持多种存储协议,可整合企业存储资源,提升存储资源利用率。但从定义上来说,但 软件定义存储(SDS) 从部署形式上来看,并不一定是分布式或者是集中式的,也就是说 SDS 不一定是分布式存储(虽然常见的 软件定义存储(SDS) 更多的是分布式的),SDS 存储内部有可能是单机运行的,不通过网络分散存放数据的,这种形式的软件定义存储(SDS) 的扩展性就可能有比较大的局限。
分布式存储,它的最大特点是多节点部署, 数据通过网络分散放置。分布式存储的特点是扩展性强,通过多节点平衡负载,提高存储系统的可靠性与可用性。与 软件定义存储(SDS)相反,分布式存储不一定是软件定义的,有可能是绑定硬件的,例如 IBM XIV 存储,它本质上是一个分布式存储,但实际是通过专用硬件进行交付的。那么就依然存在硬件绑定,拥有成本较高的问题。
8. IPFS是分布式存储吗,2019国内有哪些好的分布式存储项目
IPFS的其中一个特点包含分布式存储,通过网络使用企业中的每台机器上的磁盘空间,并将这些分散的存储资源构成一个虚拟的存储设备,数据分散的存储在企业的各个角落。除了IPFS,还有一个项目叫飓风生态还不错。
9. 分布式存储是什么
中央存储技术现已发展非常成熟。但是同时,新的问题也出现了,中心化的网络很容易拥挤,数据很容易被滥用。传统的数据传输方式是由客户端向云服务器传输,由服务器向客户端下载。而分布式存储系统QKFile是从客户端传送到 N个节点,然后从这些节点就近下载到客户端内部,因此传输速度非常快。对比中心协议的特点是上传、下载速度快,能够有效地聚集空闲存储资源,并能大大降低存储成本。
在节点数量不断增加的情况下,QKFile市场趋势开始突出,未来用户数量将呈指数增长。分布式存储在未来会有很多应用场景,如数据存储,文件传输,网络视频,社会媒体和去中心化交易等。因特网的控制权越来越集中在少数几个大型技术公司的手中,它的网络被去中心化,就像分布式存储一样,总是以社区为中心,面向用户,而分布式存储就是实现信息技术和未来因特网功能的远景。有了分布式存储,我们可以创造出更加自由、创新和民主的网络体验。是时候把因特网推向新阶段了。
作为今年非常受欢迎的明星项目,关于QKFile的未来发展会推动互联网的进步,给整个市场带来巨大好处。分布式存储是基于因特网的基础结构产生的,区块链分布式存储与人工智能、大数据等有叠加作用。对今天的中心存储是一个巨大的补充,分布式时代的到来并不是要取代现在的中心互联网,而是要使未来的数据存储发展得更好,给整个市场生态带来不可想象的活力。先看共识,后看应用,QKFile创建了一个基础设施平台,就像阿里云,阿里云上面是做游戏的做电商的视频网站,这就叫应用层,现阶段,在性能上,坦白说,与传统的云存储相比,没有什么竞争力。不过另一方面来说,一个新型的去中心化存储的信任环境式非常重要的,在此环境下,自然可以衍生出许多相关应用,市场潜力非常大。
虽然QKFile离真正的商用还有很大的距离,首先QKFile的经济模型还没有定论,其次QKFile需要集中精力发展分布式存储、商业逻辑和 web3.0,只有打通分布式存储赛道,才有实力引领整个行业发展,人们认识到了中心化存储的弊端,还有许多企业开始接受分布式存储模式,即分布式存储 DAPP应用触达用户。所以QKFile将来肯定会有更多的商业应用。创建超本地高效存储方式的能力。当用户希望将数据存储在QKFile网络上时,他们就可以摆脱巨大的集中存储和地理位置的限制,用户可以看到在线存储的矿工及其市场价格,矿工之间相互竞争以赢得存储合约。使用者挑选有竞争力的矿工,交易完成,用户发送数据,然后矿工存储数据,矿工必须证明数据的正确存储才能得到QKFile奖励。在网络中,通过密码证明来验证数据的存储安全性。采矿者通过新区块链向网络提交其储存证明。通过网络发布的新区块链验证,只有正确的区块链才能被接受,经过一段时间,矿工们就可以获得交易存储费用,并有机会得到区块链奖励。数据就在更需要它的地方传播了,旋转数据就在地球范围内流动了,数据的获取就不断优化了,从小的矿机到大的数据中心,所有人都可以通过共同努力,为人类信息社会的建设奠定新的基础,并从中获益。
10. 分布式存储一般提供哪些存储服务区块链的分布式存储是什么意思
摘要 区块链本质是一个去中心化的数据库 ,区块链技术的数据共享是一个分布式的记账薄, 它的本质上是一个按照时间顺序串联起来的链,创世块开始的所有交易都记录在区块中。交易记录等账目信息会被打包成一个个的区块并进行加密,同时盖上时间戳,所有区块按时间戳顺序连接成一个总账本。区块链由多个独立,地位等同的节点按照块链式结构存储完整的数据,通过共识机制保证存储的一致性,一旦数据被记录下来,在一个区块中的数据将不可逆。