⑴ 的雲存儲系統,問下現在有什麼比較常用的開源分布式
書生雲於宣布將基於SAS架構的新一代開源分布式存儲技術——SurFS開源。SurFS是書生雲公司自主研發的分布式存儲系統,是雲平台的核心部件,在性能和成本兩方面具有一定實力。書生雲將具有自身知識產權的商業軟體開源,對軟體行業將帶來哪些影響? 書生雲董事長王東臨 眾所周知,開源軟體技術領域較為知名的除了Android(安卓)、Linux、Mysql、OpenOffice、OpenStack等開源社區外,企業級領域軟體開源的並不算多,但也能看到其中一些卓越領導者,比如知名開源軟體企業 RedHat, RedHat的年收入甚至超過了20億美元。 因此,書生雲董事長王東臨認為:「雖然在視核心技術商業機密的傳統思維里,軟體企業將自身擁有知識產權的軟體的開源顯得另類,但隨著開源系統在全球的廣泛普及,未來開源與商業也會得到完美結合,形成了「先奉獻後收益」、「貢獻越大收益越大」的格局。」 存儲系統是雲平台的核心部件,對雲平台的整體性能和成本都有極大的影響。SurFS通過對存儲網路的顛覆式創新,第一個採用SAS做存儲網路構建分布式存儲系統,將帶寬提升了幾十倍延時降低了幾十倍,而且從架構體繫上完全打破了傳統存儲體系的桎梏,將存儲控制節點與存儲介質分離,存儲控制節點與計算節點聚合,從而將數據I/O路徑壓縮到了極致,將擴容成本也壓縮到了極致,大幅提升了整個雲平台的性能,同時還顯著降低了成本,同時實現高性能、低成本、高可靠、高可用和可擴展性。對於正在向私有雲遷移的廣大企業級用戶來說,SurFS的確有著很大的優越性。 筆者小結 書生雲基於SAS存儲網路構建的新一代開源分布式存儲SurFS 開源後將成為OpenStack等主流雲平台的存儲後端之一,對於廣大IT工程師和終端用戶來說,更無異是一針強心劑,開源社區在得到完善管理的前提下,對於未來的存儲技術及應用會有更加加速的發展。SurFS 開源將為全球企業級用戶搭建高性價比的雲平台,並為廣大IT企業提供一個切磋、改善行業價值鏈的機遇的開源,基於SurFS技術的雲平台有望成為全球雲產業的主流部署模式之一。 當然,書生雲的SurFS 開源仍然只是國內軟體業的起步!無論是業務模式的探索還是開源後社區的維護,還需要時間及智慧來推進。
⑵ 放著公有雲不用,為什麼要用OpenStack
OpenStack和雲密切相關,對於用戶來說,構建私有雲要麼使用VMware、Hyper V等商用化產品;要麼使用OpenStack開源二者必居其一。有意思的是,現有公有雲服務商中,少有採用OpenStack,更多是採用自有的封閉系統。OpenStack與公有雲似乎沒有交集。
OpenStack只能用於私有雲嗎?為什麼放著公有雲不用,用戶要自建私有雲呢?中小企業用戶能夠駕馭OpenStack嗎?其中,又要關注哪些問題。為此,記者采訪了OpenStack專業服務提供商——海雲捷迅(AWcloud)技術總監李華先生。
為什麼要用OpenStack
首先對於用戶來說,Amazon、Google,他們的系統是不公開,用戶無從借鑒其系統架構,只能使用它們所提供的服務。這些公有雲雖然能夠帶來敏捷性和資源彈性,但對企業用戶來說,數據存在公有雲上,總是感覺不踏實。這種信任感並沒有建立起來。
李華表示:「一些小規模的用戶,如不涉及到數據保密的情況下,會選擇公有雲服務。但對中大型用戶,數據比較敏感,類似財務數據、人力資源等,不願意放到公有雲,同時需要敏捷性和資源彈性的效率,為此用戶會考慮自建私有雲。」 李華說
在私有雲的問題上,OpenStack優勢明顯。作為一種開源軟體,較之OpenNebula、Eucalyptus、CloudStack等,OpenStack得到更多企業和開發者的認可,業已經成為事實上的標准。
需要注意的是,OpenStack與VMware等商用軟體也不是完全競爭關系。
「它們是一種競合關系,OpenStack底層Hypervisor可以是VMware、Hyper V、KVM,沒有關系。用戶可以用OpenStack替代相對昂貴的vCloud等,構建雲服務平台。OpenStack能夠和ESX server、vCenter對接。」李華說。
寸有所長,OpenStack小廠優勢
如果用戶沒有專業技術人員能夠駕馭OpenStack,選擇適合的合作夥伴就迫在眉睫。選擇大品牌廠商合作,還是選擇專業品牌,這是一個問題。
「從本質上來說,不論品牌大小,大家都圍繞著社區開源版本提供服務,拿到的原材料都是一樣的。所做的是在這個基礎上烹制一道道菜餚,不同的廚師烹制出來的味道,一定會有所不同。」李華說。
「對於OpenStack開源社區的理解最重要的有兩點:一個是充分利用社區資源,集中全球工程師智慧,為用戶提供一個穩定可靠的產品平台服務。這一點上,廠商之間的區別不大。區別大的在於第二點,是否堅持回饋開源社區。」李華說。
李華指出,一些閉源出身的公司,做著做著就會與開源社區脫節,技術並不反饋給開源社區。短期內看不出問題,開源社區發展很快,每半年就會有一個新的版本,那麼產品與新版本合不上,就為後續發展帶來一系列問題。對於這些企業來說,支持OpenStack目的,還是為了銷伺服器售網路、伺服器、存儲等硬體,OpenStack不過是附屬。在這樣的思路指導下,大品牌也會變現出很多的不適應,給用戶應用帶來隱患。
與大品牌相比,AWcloud雖然是一家相對小的企業,但卻是一家OpenStack的專業企業。公司管理層10多年開源市場的從業經驗,讓他們對於開源的理解和規律把握更加深刻。他們會比大品牌更加專注,也更能夠遵循開源的精神,而這種專業性,更能夠確保用戶的利益。與大品牌相比,專業性讓AWcloud等專業性廠商更容易擺脫硬體因素的干擾,也更符合和體現OpenStack的未來趨勢和變化。
「對開源社區的理解,是選擇OpenStack合作夥伴的依據,是否堅持技術回饋社區,這是進行判別的關鍵點。」李華說。
版本兼容性的難題
OpenStacK不同版本之間的兼容性,也是困擾用戶應用的難題,也是經常遭受詬病的地方。
李華表示,從2010年第一個版本開始,OpenStack只有4家公司,後來慢慢發展到幾十家、幾百家,到現在有幾千家,所以OpenStack發展。造成A、B、C、D、E,5個版本的OpenStack是一個架構,升級沒有太大問題。但從E、F版本,隨著很多新廠商加入,原有架構進行了拆分,架構不一樣了,導致兼容性問題。最近幾個版本,架構沒有大的改動,版本升級可以保持平滑。這是一個基本的現狀。
針對兼容性, AWcloud給出建議是:如果用戶生產環境在OpenStack某版本運行良好,不建議進行大規模的升級,只做小版本升級。如果出現資源的確不夠用,或者需要引入新的功能,最好的做法是另建一個集群,新集群採用新的OpenStack版本。
「這樣的做法較穩妥。」李華說。
DevOps和運維
隨著規模的擴大,用戶會遇到各種各樣的問題,例如運維的難題。李華表示,OpenStack屬調度資源管理平台軟體,沒有完善的監控報警功能。
如果沒有技術實力作為保障,哪個物理伺服器或者虛擬機出現故障,這些故障如何定位,所謂日誌分析、安全等,這些都不是OpenStack平台的固有內容,這些問題藉助開源或者大數據分析工具,所謂DevOps,自動化運維管理的理念。
現在看來,DevOps是專業OpenStack服務商的價值點。
OpenStack服務商要具備DevOps的能力,以物理機高可用性支持為例,OpenStack社區認為,應該從上層應用解決問題。但在現實應用中,用戶往往需要這樣的功能。做還是不做,要不要提供支持,廠商之間就會出現分歧。
對此,AWcloud的態度是,基於對用戶理解,應該為用戶提供技術支持和服務。
經驗塑造優勢
AWcloud是李華和合夥人張征宇在2010年創辦的公司,在此之前,李華在RedHat工作大概6年多時間,張征宇在IBM工作4多,在RedHat工作4年,兩個人在開源領域摸爬滾打了10多年,積累了大量豐富的經驗。
「我們希望利用開源開放技術平台積累的經驗,幫助企業客戶構建一個穩定可靠的IaaS服務平台。」李華說
在過去兩年中,AWcloud做了很多成功的案例。包括北京計算中心、中科院網路中心、武漢大學三星中國研究院、寧夏信通、國家電網等很多客戶在內,很多都是虛擬機數量超過了1萬台的用戶。
「我們擁有大規模開源平台的建設經驗,我們把這些經驗回饋到開源社區,同時我們也把取得經驗用來幫助企業構建企業內部企業規模的雲平台,可以幫他們節省大量的時間,保證他們平台的穩定性和可靠性。」李華說。
AWcloud專業實力不僅得到了用戶認可,也得到了英特爾的青睞。在美國,英特爾投資了最大的OpenStack公司之一——Mirantis。當英特爾投資在中國尋找項目時選擇注資夥伴時,毫不猶豫地「相中」選擇了AWcloud。
有英特爾品牌的背書,AWcloud更能夠贏得用戶的青睞和信任!
「這是我們的機會!」李華自豪地說。
⑶ spark和hadoop的區別
Spark已經取代Hadoop成為最活躍的開源大數據項目,但是,在選擇大數據框架時,企業不能因此就厚此薄彼
近日,著名大數據專家Bernard Marr在一篇文章中分析了Spark和 Hadoop 的異同
Hadoop和Spark均是大數據框架,都提供了一些執行常見大數據任務的工具,但確切地說,它們所執行的任務並不相同,彼此也並不排斥
雖然在特定的情況下,Spark據稱要比Hadoop快100倍,但它本身沒有一個分布式存儲系統
而分布式存儲是如今許多大數據項目的基礎,它可以將 PB 級的數據集存儲在幾乎無限數量的普通計算機的硬碟上,並提供了良好的可擴展性,只需要隨著數據集的增大增加硬碟
因此,Spark需要一個第三方的分布式存儲,也正是因為這個原因,許多大數據項目都將Spark安裝在Hadoop之上,這樣,Spark的高級分析應用程序就可以使用存儲在HDFS中的數據了
與Hadoop相比,Spark真正的優勢在於速度,Spark的大部分操作都是在內存中,而Hadoop的MapRece系統會在每次操作之後將所有數據寫回到物理存儲介質上,這是為了確保在出現問題時能夠完全恢復,但Spark的彈性分布式數據存儲也能實現這一點
另外,在高級數據處理(如實時流處理、機器學習)方面,Spark的功能要勝過Hadoop
在Bernard看來,這一點連同其速度優勢是Spark越來越受歡迎的真正原因
實時處理意味著可以在數據捕獲的瞬間將其提交給分析型應用程序,並立即獲得反饋
在各種各樣的大數據應用程序中,這種處理的用途越來越多,比如,零售商使用的推薦引擎、製造業中的工業機械性能監控
Spark平台的速度和流數據處理能力也非常適合機器學習演算法,這類演算法可以自我學習和改進,直到找到問題的理想解決方案
這種技術是最先進製造系統(如預測零件何時損壞)和無人駕駛汽車的核心
Spark有自己的機器學習庫MLib,而Hadoop系統則需要藉助第三方機器學習庫,如Apache Mahout
實際上,雖然Spark和Hadoop存在一些功能上的重疊,但它們都不是商業產品,並不存在真正的競爭關系,而通過為這類免費系統提供技術支持贏利的公司往往同時提供兩種服務
例如,Cloudera 就既提供 Spark服務也提供 Hadoop服務,並會根據客戶的需要提供最合適的建議
Bernard認為,雖然Spark發展迅速,但它尚處於起步階段,安全和技術支持基礎設施方還不發達,在他看來,Spark在開源社區活躍度的上升,表明企業用戶正在尋找已存儲數據的創新用法
⑷ 有沒有用Java寫的輕量級開源的分布式存儲系統
一個輕量級分布式KV存儲系統。
如果用K記錄文件路徑和文件名,用V記錄文件內容,就是一個輕量級分布式小文件系統。
至於大文件,幾乎一定是HDFS這種有元數據服務中心(NameNode)架構的。
⑸ 基於linux的開源分布式存儲有哪些
開源這兩個字很好解釋,開放源代碼。 這個開放有很多不同的方法,針對不同的開源社區、習慣、法律責任等等。 比如微軟有自己的開源協議,好像叫微軟互惠許可(Microsoft Reciprocal License)和微軟公共許可(Microsoft Public License)
⑹ 目前雲存儲平台有哪些開源的項目,那個比較適合二次開發
一整套完整的所謂的雲平台是一個非常龐大的系統。但是你都可以找到對應的開源程序,組合成你想要的平台。
開源的分布式文件存諸系統有GlusterFS、Hadoop 、FastDFS 等等非常多
開源的分布式計算框架,你要自己搜索一下,我目前還不需要,主要用把繁重的計算任務拆分到不同的伺服器上運算,或者說是把業務拆分成多個子業務多個伺服器運行。
分布式的內存緩存之類的東東。自己搜
具體的web伺服器和資料庫伺服器組分布式的方法自己去搜索。
⑺ 有哪些基於IPFS的網站或者應用值得推薦
有以下基於IPFS的網站或者應用值得推薦:
IPFS音樂播放器:Ujomusic,對標蝦米和咪咕音樂的一個IPFS上的音樂家的區塊鏈市場DIFFUSE,在線音樂播放器Spotify,致力於分享數百萬歌曲dTube。
IPFS視頻播放器:dTube,對標youdTube的視頻網站IPFS視頻在線播放器,IPFS視頻在線播放器,國內第一個IPFS應用。
IPFS社交網路應用:Orbit,QQ在IPFS上的替代者,Akasha,對標facebook,微信等社交工具。
相關拓展
星際文件系統是一個旨在創建持久且分布式存儲和共享文件的網路傳輸協議。它是一種內容可定址的對等超媒體分發協議。在IPFS網路中的節點將構成一個分布式文件系統。
它是一個開放源代碼項目,自2014年開始由Protocol Labs在開源社區的幫助下發展。其最初由Juan Benet設計。
以上內容參考 網路-IPFS
⑻ 哪哥們可以提供開源數據倉庫產品的名稱
Infobright是一款基於獨特的專利知識網格技術的列式資料庫。Infobright是開源的MySQL數據倉庫解決方案,引入了列存儲方案,高強度的數據壓縮,優化的統計計算(類似sum/avg/group by之類),infobright 是基於mysql的,但不裝mysql亦可,因為它本身就自帶了一個。mysql可以粗分為邏輯層和物理存儲引擎,infobright主要實現的就是一個存儲引擎,但因為它自身存儲邏輯跟關系型資料庫根本不同,所以,它不能像InnoDB那樣直接作為插件掛接到mysql,它的邏輯層是mysql的邏輯層加上它自身的優化器。
Infobright特徵
優點:
大數據量查詢性能強勁、穩定:百萬、千萬、億級記錄數條件下,同等的SELECT查詢語句,速度比MyISAM、InnoDB等普通的MySQL存儲引擎快5~60倍。高效查詢主要依賴特殊設計的存儲結構對查詢的優化,但這里優化的效果還取決於資料庫結構和查詢語句的設計。
存儲數據量大:TB級數據大小,幾十億條記錄。數據量存儲主要依賴自己提供的高速數據載入工具(百G/小時)和高數據壓縮比(>10:1)
高數據壓縮比:號稱平均能夠達到 10:1 以上的數據壓縮率。甚至可以達到40:1,極大地節省了數據存儲空間。高數據壓縮比主要依賴列式存儲和 patent-pending 的靈活壓縮演算法.
基於列存儲:無需建索引,無需分區。即使數據量十分巨大,查詢速度也很快。用於數據倉庫,處理海量數據沒一套可不行。不需要建索引,就避免了維護索引及索引隨著數據膨脹的問題。把每列數據分塊壓縮存放,每塊有知識網格節點記錄塊內的統計信息,代替索引,加速搜 索。
快速響應復雜的聚合類查詢:適合復雜的分析性SQL查詢,如SUM, COUNT, AVG, GROUP BY
⑼ 哪個開源分布式存儲適合搭建nas
OpenStack是一個旨在為公共及私有雲的建設與管理提供軟體的開源項目。它的社區擁有超過130家企業及1350位開發者,這些機構與個人都將OpenStack作為基礎設施即服務(簡稱IaaS)資源的通用前端。OpenStack項目的首要任務是簡化雲的部署過程