連雲港大規模分布式存儲解決方案_什麼是分布式存儲系統

① 分布式存儲技術有哪些

中央存儲技術現已發展非常成熟。但是同時，新的問題也出現了，中心化的網路很容易擁擠，數據很容易被濫用。傳統的數據傳輸方式是由客戶端向雲伺服器傳輸，由伺服器向客戶端下載。而分布式存儲系統QKFile是從客戶端傳送到 N個節點，然後從這些節點就近下載到客戶端內部，因此傳輸速度非常快。對比中心協議的特點是上傳、下載速度快，能夠有效地聚集空閑存儲資源，並能大大降低存儲成本。

在節點數量不斷增加的情況下，QKFile市場趨勢開始突出，未來用戶數量將呈指數增長。分布式存儲在未來會有很多應用場景，如數據存儲，文件傳輸，網路視頻，社會媒體和去中心化交易等。網際網路的控制權越來越集中在少數幾個大型技術公司的手中，它的網路被去中心化，就像分布式存儲一樣，總是以社區為中心，面向用戶，而分布式存儲就是實現信息技術和未來網際網路功能的遠景。有了分布式存儲，我們可以創造出更加自由、創新和民主的網路體驗。是時候把網際網路推向新階段了。

作為今年非常受歡迎的明星項目，關於QKFile的未來發展會推動互聯網的進步，給整個市場帶來巨大好處。分布式存儲是基於網際網路的基礎結構產生的，區塊鏈分布式存儲與人工智慧、大數據等有疊加作用。對今天的中心存儲是一個巨大的補充，分布式時代的到來並不是要取代現在的中心互聯網，而是要使未來的數據存儲發展得更好，給整個市場生態帶來不可想像的活力。先看共識，後看應用，QKFile創建了一個基礎設施平台，就像阿里雲，阿里雲上面是做游戲的做電商的視頻網站，這就叫應用層，現階段，在性能上，坦白說，與傳統的雲存儲相比，沒有什麼競爭力。不過另一方面來說，一個新型的去中心化存儲的信任環境式非常重要的，在此環境下，自然可以衍生出許多相關應用，市場潛力非常大。

雖然QKFile離真正的商用還有很大的距離，首先QKFile的經濟模型還沒有定論，其次QKFile需要集中精力發展分布式存儲、商業邏輯和 web3.0，只有打通分布式存儲賽道，才有實力引領整個行業發展，人們認識到了中心化存儲的弊端，還有許多企業開始接受分布式存儲模式，即分布式存儲 DAPP應用觸達用戶。所以QKFile將來肯定會有更多的商業應用。創建超本地高效存儲方式的能力。當用戶希望將數據存儲在QKFile網路上時，他們就可以擺脫巨大的集中存儲和地理位置的限制，用戶可以看到在線存儲的礦工及其市場價格，礦工之間相互競爭以贏得存儲合約。使用者挑選有競爭力的礦工，交易完成，用戶發送數據，然後礦工存儲數據，礦工必須證明數據的正確存儲才能得到QKFile獎勵。在網路中，通過密碼證明來驗證數據的存儲安全性。采礦者通過新區塊鏈向網路提交其儲存證明。通過網路發布的新區塊鏈驗證，只有正確的區塊鏈才能被接受，經過一段時間，礦工們就可以獲得交易存儲費用，並有機會得到區塊鏈獎勵。數據就在更需要它的地方傳播了，旋轉數據就在地球范圍內流動了，數據的獲取就不斷優化了，從小的礦機到大的數據中心，所有人都可以通過共同努力，為人類信息社會的建設奠定新的基礎，並從中獲益。

② 如何實現企業數據大數據平台分布式存放

Hadoop在可伸縮性、健壯性、計算性能和成本上具有無可替代的優勢，事實上已成為當前互聯網企業主流的大數據分析平台。本文主要介紹一種基於Hadoop平台的多維分析和數據挖掘平台架構。作為一家互聯網數據分析公司，我們在海量數據的分析領域那真是被「逼上樑山」。多年來在嚴苛的業務需求和數據壓力下，我們幾乎嘗試了所有可能的大數據分析方法，最終落地於Hadoop平台之上。
1. 大數據分析大分類
Hadoop平台對業務的針對性較強，為了讓你明確它是否符合你的業務，現粗略地從幾個角度將大數據分析的業務需求分類，針對不同的具體需求，應採用不同的數據分析架構。
按照數據分析的實時性，分為實時數據分析和離線數據分析兩種。
實時數據分析一般用於金融、移動和互聯網B2C等產品，往往要求在數秒內返回上億行數據的分析，從而達到不影響用戶體驗的目的。要滿足這樣的需求，可以採用精心設計的傳統關系型資料庫組成並行處理集群，或者採用一些內存計算平台，或者採用HDD的架構，這些無疑都需要比較高的軟硬體成本。目前比較新的海量數據實時分析工具有EMC的Greenplum、SAP的HANA等。
對於大多數反饋時間要求不是那麼嚴苛的應用，比如離線統計分析、機器學習、搜索引擎的反向索引計算、推薦引擎的計算等，應採用離線分析的方式，通過數據採集工具將日誌數據導入專用的分析平台。但面對海量數據，傳統的ETL工具往往徹底失效，主要原因是數據格式轉換的開銷太大，在性能上無法滿足海量數據的採集需求。互聯網企業的海量數據採集工具，有Facebook開源的Scribe、LinkedIn開源的Kafka、淘寶開源的Timetunnel、Hadoop的Chukwa等，均可以滿足每秒數百MB的日誌數據採集和傳輸需求，並將這些數據上載到Hadoop中央系統上。
按照大數據的數據量，分為內存級別、BI級別、海量級別三種。
這里的內存級別指的是數據量不超過集群的內存最大值。不要小看今天內存的容量，Facebook緩存在內存的Memcached中的數據高達320TB，而目前的PC伺服器，內存也可以超過百GB。因此可以採用一些內存資料庫，將熱點數據常駐內存之中，從而取得非常快速的分析能力，非常適合實時分析業務。圖1是一種實際可行的MongoDB分析架構。

圖1 用於實時分析的MongoDB架構
MongoDB大集群目前存在一些穩定性問題，會發生周期性的寫堵塞和主從同步失效，但仍不失為一種潛力十足的可以用於高速數據分析的NoSQL。
此外，目前大多數服務廠商都已經推出了帶4GB以上SSD的解決方案，利用內存+SSD，也可以輕易達到內存分析的性能。隨著SSD的發展，內存數據分析必然能得到更加廣泛的應用。
BI級別指的是那些對於內存來說太大的數據量，但一般可以將其放入傳統的BI產品和專門設計的BI資料庫之中進行分析。目前主流的BI產品都有支持TB級以上的數據分析方案。種類繁多，就不具體列舉了。
海量級別指的是對於資料庫和BI產品已經完全失效或者成本過高的數據量。海量數據級別的優秀企業級產品也有很多，但基於軟硬體的成本原因，目前大多數互聯網企業採用Hadoop的HDFS分布式文件系統來存儲數據，並使用MapRece進行分析。本文稍後將主要介紹Hadoop上基於MapRece的一個多維數據分析平台。
數據分析的演算法復雜度
根據不同的業務需求，數據分析的演算法也差異巨大，而數據分析的演算法復雜度和架構是緊密關聯的。舉個例子，Redis是一個性能非常高的內存Key-Value NoSQL，它支持List和Set、SortedSet等簡單集合，如果你的數據分析需求簡單地通過排序，鏈表就可以解決，同時總的數據量不大於內存（准確地說是內存加上虛擬內存再除以2），那麼無疑使用Redis會達到非常驚人的分析性能。
還有很多易並行問題（Embarrassingly Parallel），計算可以分解成完全獨立的部分，或者很簡單地就能改造出分布式演算法，比如大規模臉部識別、圖形渲染等，這樣的問題自然是使用並行處理集群比較適合。
而大多數統計分析，機器學習問題可以用MapRece演算法改寫。MapRece目前最擅長的計算領域有流量統計、推薦引擎、趨勢分析、用戶行為分析、數據挖掘分類器、分布式索引等。
2. 面對大數據OLAP大一些問題

OLAP分析需要進行大量的數據分組和表間關聯，而這些顯然不是NoSQL和傳統資料庫的強項，往往必須使用特定的針對BI優化的資料庫。比如絕大多數針對BI優化的資料庫採用了列存儲或混合存儲、壓縮、延遲載入、對存儲數據塊的預統計、分片索引等技術。

Hadoop平台上的OLAP分析，同樣存在這個問題，Facebook針對Hive開發的RCFile數據格式，就是採用了上述的一些優化技術，從而達到了較好的數據分析性能。如圖2所示。
然而，對於Hadoop平台來說，單單通過使用Hive模仿出SQL，對於數據分析來說遠遠不夠，首先Hive雖然將HiveQL翻譯MapRece的時候進行了優化，但依然效率低下。多維分析時依然要做事實表和維度表的關聯，維度一多性能必然大幅下降。其次，RCFile的行列混合存儲模式，事實上限制死了數據格式，也就是說數據格式是針對特定分析預先設計好的，一旦分析的業務模型有所改動，海量數據轉換格式的代價是極其巨大的。最後，HiveQL對OLAP業務分析人員依然是非常不友善的，維度和度量才是直接針對業務人員的分析語言。
而且目前OLAP存在的最大問題是：業務靈活多變，必然導致業務模型隨之經常發生變化，而業務維度和度量一旦發生變化，技術人員需要把整個Cube（多維立方體）重新定義並重新生成，業務人員只能在此Cube上進行多維分析，這樣就限制了業務人員快速改變問題分析的角度，從而使所謂的BI系統成為死板的日常報表系統。
使用Hadoop進行多維分析，首先能解決上述維度難以改變的問題，利用Hadoop中數據非結構化的特徵，採集來的數據本身就是包含大量冗餘信息的。同時也可以將大量冗餘的維度信息整合到事實表中，這樣可以在冗餘維度下靈活地改變問題分析的角度。其次利用Hadoop MapRece強大的並行化處理能力，無論OLAP分析中的維度增加多少，開銷並不顯著增長。換言之，Hadoop可以支持一個巨大無比的Cube，包含了無數你想到或者想不到的維度，而且每次多維分析，都可以支持成千上百個維度，並不會顯著影響分析的性能。

而且目前OLAP存在的最大問題是：業務靈活多變，必然導致業務模型隨之經常發生變化，而業務維度和度量一旦發生變化，技術人員需要把整個Cube（多維立方體）重新定義並重新生成，業務人員只能在此Cube上進行多維分析，這樣就限制了業務人員快速改變問題分析的角度，從而使所謂的BI系統成為死板的日常報表系統。
3. 一種Hadoop多維分析平台的架構
整個架構由四大部分組成：數據採集模塊、數據冗餘模塊、維度定義模塊、並行分析模塊。

數據採集模塊採用了Cloudera的Flume，將海量的小日誌文件進行高速傳輸和合並，並能夠確保數據的傳輸安全性。單個collector宕機之後，數據也不會丟失，並能將agent數據自動轉移到其他的colllecter處理，不會影響整個採集系統的運行。如圖5所示。

數據冗餘模塊不是必須的，但如果日誌數據中沒有足夠的維度信息，或者需要比較頻繁地增加維度，則需要定義數據冗餘模塊。通過冗餘維度定義器定義需要冗餘的維度信息和來源（資料庫、文件、內存等），並指定擴展方式，將信息寫入數據日誌中。在海量數據下，數據冗餘模塊往往成為整個系統的瓶頸，建議使用一些比較快的內存NoSQL來冗餘原始數據，並採用盡可能多的節點進行並行冗餘；或者也完全可以在Hadoop中執行批量Map，進行數據格式的轉化。

維度定義模塊是面向業務用戶的前端模塊，用戶通過可視化的定義器從數據日誌中定義維度和度量，並能自動生成一種多維分析語言，同時可以使用可視化的分析器通過GUI執行剛剛定義好的多維分析命令。
並行分析模塊接受用戶提交的多維分析命令，並將通過核心模塊將該命令解析為Map-Rece，提交給Hadoop集群之後，生成報表供報表中心展示。
核心模塊是將多維分析語言轉化為MapRece的解析器，讀取用戶定義的維度和度量，將用戶的多維分析命令翻譯成MapRece程序。核心模塊的具體邏輯如圖6所示。

圖6中根據JobConf參數進行Map和Rece類的拼裝並不復雜，難點是很多實際問題很難通過一個MapRece Job解決，必須通過多個MapRece Job組成工作流（WorkFlow），這里是最需要根據業務進行定製的部分。圖7是一個簡單的MapRece工作流的例子。

MapRece的輸出一般是統計分析的結果，數據量相較於輸入的海量數據會小很多，這樣就可以導入傳統的數據報表產品中進行展現。

③ 什麼是分布式存儲

(3)連雲港大規模分布式存儲解決方案擴展閱讀：

分布式存儲，集中管理，在這個方案中，共有三級：

1、上級監控中心：上級監控中心通常只有一個，主要由數字矩陣、認證伺服器和VSTARClerk軟體等。

2、本地監控中心：本地監控中心可以有多個，可依據地理位置設置，或者依據行政隸屬關系設立，主要由數字矩陣、流媒體網關、iSCSI存儲設備、VSTARRecorder軟體等組成；音視頻的數據均主要保存在本地監控中心，這就是分布式存儲的概念。

3、監控前端：主要由攝像頭、網路視頻伺服器組成，其中VE4000系列的網路視頻伺服器可以帶硬碟，該硬碟主要是用於網路不暢時，暫時對音視頻數據進行保存，或者需要在前端保存一些重要數據的情況。

④ 分布式存儲一般提供哪些存儲服務區塊鏈的分布式存儲是什麼意思

摘要區塊鏈本質是一個去中心化的資料庫，區塊鏈技術的數據共享是一個分布式的記賬薄，它的本質上是一個按照時間順序串聯起來的鏈，創世塊開始的所有交易都記錄在區塊中。交易記錄等賬目信息會被打包成一個個的區塊並進行加密，同時蓋上時間戳，所有區塊按時間戳順序連接成一個總賬本。區塊鏈由多個獨立，地位等同的節點按照塊鏈式結構存儲完整的數據，通過共識機制保證存儲的一致性，一旦數據被記錄下來，在一個區塊中的數據將不可逆。

⑤ 分布式存儲有什麼大規模的應用嗎

現在很多公司都已經在進行大規模的分布式存儲應用了，之前看到好多國內的大型企業都在使用元核雲，華為的存儲產品。

⑥ 分布式存儲是什麼選擇什麼樣的分布式存儲更好

分布式存儲系統，是將數據分散存儲在多台獨立的設備上。傳統的網路存儲系統採用集中的存儲伺服器存放所有數據，存儲伺服器成為系統性能的瓶頸，也是可靠性和安全性的焦點，不能滿足大規模存儲應用的需要。分布式網路存儲系統採用可擴展的系統結構，利用多台存儲伺服器分擔存儲負荷，利用位置伺服器定位存儲信息，它不但提高了系統的可靠性、可用性和存取效率，還易於擴展。
聯想超融合ThinkCloud AIO超融合雲一體機是聯想針對企業級用戶推出的核心產品。ThinkCloud AIO超融合雲一體機實現了對雲管理平台、計算、網路和存儲系統的無縫集成，構建了雲計算基礎設施即服務的一站式解決方案，為用戶提供了一個高度簡化的一站式基礎設施雲平台。這不僅使得業務部署上線從周縮短到天，而且與企業應用軟體、中間件及資料庫軟體完全解耦，能夠有效提升企業IT基礎設施運維管理的效率和關鍵應用的性能

⑦ 四塊科技分布式存儲主要是做什麼的呀

四塊科技分布式存儲主要是專注於網路存儲，還有數據管理，另外包括相關產品的研發，還有銷售等業務的。

⑧ 什麼是分布式存儲系統

(8)連雲港大規模分布式存儲解決方案擴展閱讀：

分布式存儲，集中管理，在這個方案中，共有三級：

1、上級監控中心：上級監控中心通常只有一個，主要由數字矩陣、認證伺服器和VSTARClerk軟體等。

⑨ 求幫助寫一篇分布式計算雲計算論文

首先介紹下雲計算，的發展歷史，他的前身，現在的應用，然後在介紹現在計算機的應用，在應用之中的不足，然後，著重闡述雲計算的優勢，我這里有一份關於這方面的對比及心得，發給你，希望能幫到你。
雲計算簡史
著名的美國計算機科學家、圖靈獎 (Turing Award) 得主麥卡錫 (John McCarthy,1927-) 在半個世紀前就曾思考過這個問題。 1961 年，他在麻省理工學院 (MIT) 的百年紀念活動中做了一個演講。在那次演講中，他提出了象使用其它資源一樣使用計算資源的想法，這就是時下 IT 界的時髦術語「雲計算」 (Cloud Computing) 的核心想法。雲計算中的這個「雲」字雖然是後人所用的詞彙，但卻頗有歷史淵源。早年的電信技術人員在畫電話網路的示意圖時，一涉及到不必交待細節的部分，就會畫一團「雲」來搪塞。計算機網路的技術人員將這一偷懶的傳統發揚光大，就成為了雲計算中的這個「雲」字，它泛指互聯網上的某些「雲深不知處」的部分，是雲計算中「計算」的實現場所。而雲計算中的這個「計算」也是泛指，它幾乎涵蓋了計算機所能提供的一切資源。麥卡錫的這種想法在提出之初曾經風靡過一陣，但真正的實現卻是在互聯網日益普及的上世紀末。這其中一傢具有先驅意義的公司是甲骨文 (Oracle) 前執行官貝尼奧夫 (Marc Benioff, 1964-) 創立的 Salesforce 公司。 1999 年，這家公司開始將一種客戶關系管理軟體作為服務提供給用戶，很多用戶在使用這項服務後提出了購買軟體的意向，該公司卻死活不幹，堅持只作為服務提供，這是雲計算的一種典型模式，叫做「軟體即服務」 (Software as a Service，簡稱 SaaS)。這種模式的另一個例子，是我們熟悉的網路電子郵箱 (因此讀者哪怕是第一次聽到「雲計算」這個術語，也不必有陌生感，因為您多半已是它的老客戶了)。除了「軟體即服務」外，雲計算還有其它幾種典型模式，比如向用戶提供開發平台的「平台即服務」 (Platform as a Service，簡稱 PaaS)，其典型例子是谷歌公司 (Google) 的應用程序引擎 (Google App Engine)，它能讓用戶創建自己的網路程序。還有一種模式更徹底，乾脆向用戶提供虛擬硬體，叫做「基礎設施即服務」 (Infrastructure as a Service，簡稱 IaaS)，其典型例子是亞馬遜公司 (Amazon) 的彈性計算雲 (Amazon Elastic Compute Cloud，簡稱 EC2)，它向用戶提供虛擬主機，用戶具有管理員許可權，愛幹啥就幹啥，跟使用自家機器一樣。

1．2雲計算的概念

狹義雲計算是指計算機基礎設施的交付和使用模式，指通過網路以按需、易擴展的方式獲得所需的資源（硬體、平台、軟體）。提供資源的網路被稱為「雲」。「雲」中的資源在使用者看來是可以無限擴展的，並且可以隨時獲取，按需使用，隨時擴展，按使用付費。

廣義雲計算是指服務的交付和使用模式，指通過網路以按需、易擴展的方式獲得所需的服務。這種服務可以是計算機和軟體、互聯網相關的，也可以是其他的服務。雲計算是並行計算(Parallel Computing)、分布式計算(Distributed Computing)和網格計算(Grid Computing)的發展，或者說是這些計算機科學概念的商業實現。雲計算是虛擬化(Virtualization)、效用計算(Utility Computing)、IaaS(基礎設施即服務)、PaaS(平台即服務)、SaaS(軟體即服務)等概念混合演進並躍升的結果。

1.3雲計算的特點和優勢
（一）超大規模性。「雲」具有相當的規模，Google雲計算已經擁有100多萬台伺服器，Amazon、IBM、微軟、Yahoo等的「雲」均擁有幾十萬台伺服器。企業私有雲一般擁有數百上千台伺服器。「雲」能賦予用戶前所未有的計算能力。
（二）虛擬化。雲計算支持用戶在任意位置、使用各種終端獲取應用服務。所請求的資源來自「雲」，而不是固定的有形的實體。應用在「雲」中某處運行，但實際上用戶無需了解、也不用擔心應用運行的具體位置。只需要一台筆記本或者一個手機，就可以通過網路服務來實現用戶需要的一切，甚至包括超級計算這樣的任務。[2]
（三）高可靠性。「雲」使用了數據多副本容錯、計算節點同構可互換等措施來保障服務的高可靠性，使用雲計算比使用本地計算機可靠。
（四）通用性。雲計算不針對特定的應用，在「雲」的支撐下可以構造出千變萬化的應用，同一個「雲」可以同時支撐不同的應用運行。
（五）高可擴展性。「雲」的規模可以動態伸縮，滿足應用和用戶規模增長的需要。
（六）價格合適。由於「雲」的特殊容錯措施可以採用具有經濟性的節點來構成「雲」，「雲」的自動化集中式管理使大量企業無需負擔日益高昂的數據中心管理成本，「雲」的通用性使資源的利用率較之傳統系統大幅提升，因此用戶可以充分享受「雲」的低成本優勢，經常只要花費幾百美元、幾天時間就能完成以前需要數萬美元、數月時間才能完成的任務。
雲計算作為一種技術，與其它一些依賴互聯網的技術——比如網格計算 (Grid Computing)——有一定的相似之處，但不可混為一談。拿網格計算來說，科學愛好者比較熟悉的例子是 SETI@Home，那是一個利用互聯網上計算機的冗餘計算能力搜索地外文明的計算項目，目前約有來自兩百多個國家和地區的兩百多萬台計算機參與。它在 2009 年底的運算能力相當於當時全世界最快的超級計算機運算能力的三分之一。有些讀者可能還知道另外一個例子：ZetaGrid，那是一個研究黎曼 ζ 函數零點分布的計算項目，曾有過一萬多台計算機參與 (但現在已經終止了，原因可參閱拙作超越 ZetaGrid)。從這兩個著名例子中我們可以看到網格計算的特點，那就是計算性質單一，但運算量巨大 (甚至永無盡頭,比如 ZetaGrid)。而雲計算的特點恰好相反，是計算性質五花八門，但運算量不大[注三]，這是它們的本質區別，也是雲計算能夠面向大眾成為服務的根本原因。雲計算能夠流行，它到底有什麼優點呢？我們舉個例子來說明，設想你要開一家網路公司。按傳統方法，你得有一大筆啟動資金，因為你要購買計算機和軟體，你要租用機房，你還要雇專人來管理和維護計算機。當你的公司運作起來時，業務總難免會時好時壞，為了在業務好的時候也能正常運轉，你的人力和硬體都要有一定的超前配置，這也要花錢。更要命的是，無論硬體還是軟體廠商都會頻繁推出新版本，你若不想被技術前沿拋棄，就得花錢費力不斷更新 (當然，也別怪人家，你的公司運作起來後沒准也得這么賺別人的錢)。如果用雲計算，情況就不一樣了：計算機和軟體都可以用雲計算，業務好的時候多用一點，業務壞的時候少用一點，費用就跟結算煤氣費一樣按實際用量來算，無需任何超前配置[注四]。一台虛擬伺服器只需滑鼠輕點幾下就能到位，不象實體機器，從下定單，到進貨，再到調試，忙得四腳朝天不說，起碼得好幾天的時間。虛擬伺服器一旦不需要了，滑鼠一點就可以讓它從你眼前 (以及賬單里)消失。至於軟硬體的升級換代，伺服器的維護管理等，那都是雲計算服務商的事，跟你沒半毛錢的關系。更重要的是，開公司總是有風險的，如果你試了一兩個月後發現行不通，在關門大吉的時候，假如你用的是雲計算，那你只需支付實際使用過的資源。假如你走的是傳統路子，買了硬體、軟體，雇了專人，那很多投資可就打水漂了。

1.4淺談雲計算的一個核心理念
大規模消息通信：雲計算的一個核心理念就是資源和軟體功能都是以服務的形式進行發布的，不同服務之間經常需要通過消息通信進行協助。由於同步消息通信的低效率，我們只考慮非同步通信。如Java Message Service是J2EE平台上的一個消息通信標准，J2EE應用程序可以通過JMS來創建，發送，接收，閱讀消息。非同步消息通信已經成為面向服務架構中組件解耦合及業務集成的重要技術。
大規模分布式存儲：分布式存儲的目標是利用多台伺服器的存儲資源來滿足單台伺服器所不能滿足的存儲需求。分布式存儲要求存儲資源能夠被抽象表示和統一管理，並且能夠保證數據讀寫操作的安全性，可靠性，性能等各方面要求。下面是幾個典型的分布式文件系統：
◆Frangipani是一個可伸縮性很好的高興能分布式文件系統，採用兩層的服務體系架構：底層是一個分布式存儲服務，該服務能夠自動管理可伸縮，高可用的虛擬磁碟；上層運行著Frangipani分布式文件系統。
◆JetFile是一個基於P2P的主播技術，支持在Internet這樣的異構環境中分享文件的分布式文件系統。
◆Ceph是一個高性能並且可靠地分布式文件系統，它通過把數據和對數據的管理在最大程度上分開來獲取極佳的I/O性能。
◆Google File System（GFS）是Google公司設計的可伸縮的分布式文件系統。GFS能夠很好的支持大規模海量數據處理應用程序。
在雲計算環境中，數據的存儲和操作都是以服務的形式提供的；數據的類型多種多樣；必須滿足數據操作對性能，可靠性，安全性和簡單性的要求。在雲計算環境下的大規模分布式存儲方向，BigTable是Google公司設計的用來存儲海量結構化數據的分布式存儲系統；Dynamo是Amazon公司設計的一種基於鍵值對的分布式存儲系統，它能提供非常高的可用性；Amazon公司的Simple Storage Service（S3）是一個支持大規模存儲多媒體這樣的二進制文件的雲計算存儲服務；Amazon公司的SimpleDB是建立在S3和Amazon EC2之上的用來存儲結構化數據的雲計算服務。
許可證管理與計費：目前比較成熟的雲環境計費模型是Amazon公司提供的Elastic Compute Cloud（EC2）和Simple Storage Service（S3）的按量計費模型，用戶按佔用的虛擬機單元，IP地址，帶寬和存儲空間付費。

1.5雲計算的現狀
雲計算是個熱度很高的新名詞。由於它是多種技術混合演進的結果，其成熟度較高，又有大公司推動，發展極為迅速。Amazon、Google、IBM、微軟和Yahoo等大公司是雲計算的先行者。雲計算領域的眾多成功公司還包括Salesforce、Facebook、Youtube、Myspace等。Amazon使用彈性計算雲（EC2）和簡單存儲服務（S3）為企業提供計算和存儲服務。收費的服務項目包括存儲伺服器、帶寬、CPU資源以及月租費。月租費與電話月租費類似，存儲伺服器、帶寬按容量收費，CPU根據時長(小時)運算量收費。Amazon把雲計算做成一個大生意沒有花太長的時間：不到兩年時間，Amazon上的注冊開發人員達44萬人，還有為數眾多的企業級用戶。有第三方統計機構提供的數據顯示，Amazon與雲計算相關的業務收入已達1億美元。雲計算是Amazon增長最快的業務之一。Google當數最大的雲計算的使用者。Google搜索引擎就建立在分布在200多個地點、超過100萬台伺服器的支撐之上，這些設施的數量正在迅猛增長。Google地球、地圖、Gmail、Docs等也同樣使用了這些基礎設施。採用Google Docs之類的應用，用戶數據會保存在互聯網上的某個位置，可以通過任何一個與互聯網相連的系統十分便利地訪問這些數據。目前，Google已經允許第三方在Google的雲計算中通過Google App Engine運行大型並行應用程序。Google值得稱頌的是它不保守。它早已以發表學術論文的形式公開其雲計算三大法寶：GFS、MapRece和BigTable，並在美國、中國等高校開設如何進行雲計算編程的課程。IBM在2007年11月推出了「改變游戲規則」的「藍雲」計算平台，為客戶帶來即買即用的雲計算平台。它包括一系列的自動化、自我管理和自我修復的虛擬化雲計算軟體，使來自全球的應用可以訪問分布式的大型伺服器池。使得數據中心在類似於互聯網的環境下運行計算。IBM正在與17個歐洲組織合作開展雲計算項目。歐盟提供了1.7億歐元做為部分資金。該計劃名為RESERVOIR，以「無障礙的資源和服務虛擬化」為口號。2008年8月， IBM宣布將投資約4億美元用於其設在北卡羅來納州和日本東京的雲計算數據中心改造。IBM計劃在2009年在10個國家投資3億美元建13個雲計算中心。
微軟緊跟雲計算步伐，於2008年10月推出了Windows Azure操作系統。Azure(譯為「藍天」)是繼Windows取代DOS之後，微軟的又一次顛覆性轉型——通過在互聯網架構上打造新雲計算平台，讓Windows真正由PC延伸到「藍天」上。微軟擁有全世界數以億計的Windows用戶桌面和瀏覽器，現在它將它們連接到「藍天」上。Azure的底層是微軟全球基礎服務系統，由遍布全球的第四代數據中心構成。
雲計算的新穎之處在於它幾乎可以提供無限的廉價存儲和計算能力。紐約一家名為Animoto的創業企業已證明雲計算的強大能力（此案例引自和訊網維維編譯《紐約時報》2008年5月25日報道）。Animoto允許用戶上傳圖片和音樂，自動生成基於網路的視頻演講稿，並且能夠與好友分享。該網站目前向注冊用戶提供免費服務。2008年年初，網站每天用戶數約為5000人。4月中旬，由於Facebook用戶開始使用Animoto服務，該網站在三天內的用戶數大幅上升至75萬人。Animoto聯合創始人Stevie Clifton表示，為了滿足用戶需求的上升，該公司需要將伺服器能力提高100倍，但是該網站既沒有資金，也沒有能力建立規模如此巨大的計算能力。因此，該網站與雲計算服務公司RightScale合作，設計能夠在亞馬遜的網雲中使用的應用程序。通過這一舉措，該網站大大提高了計算能力，而費用只有每伺服器每小時10美分。這樣的方式也加強創業企業的靈活性。當需求下降時，Animoto只需減少所使用的伺服器數量就可以降低伺服器支出。
在我國，雲計算發展也非常迅猛。2008年5月10日，IBM在中國無錫太湖新城科教產業園建立的中國第一個雲計算中心投入運營。2008年6月24日，IBM在北京IBM中國創新中心成立了第二家中國的雲計算中心——IBM大中華區雲計算中心；2008年11月28日，廣東電子工業研究院與東莞松山湖科技產業園管委會簽約，廣東電子工業研究院將在東莞松山湖投資2億元建立雲計算平台；2008年12月30日，阿里巴巴集團旗下子公司阿里軟體與江蘇省南京市政府正式簽訂了2009年戰略合作框架協議，計劃於2009年初在南京建立國內首個「電子商務雲計算中心」，首期投資額將達上億元人民幣；世紀互聯推出了CloudEx產品線，包括完整的互聯網主機服務"CloudEx Computing Service", 基於在線存儲虛擬化的"CloudEx Storage Service"，供個人及企業進行互聯網雲端備份的數據保全服務等等系列互聯網雲計算服務；中國移動研究院做雲計算的探索起步較早，已經完成了雲計算中心試驗。中移動董事長兼CEO王建宙認為雲計算和互聯網的移動化是未來發展方向。
我國企業創造的「雲安全」概念，在國際雲計算領域獨樹一幟。雲安全通過網狀的大量客戶端對網路中軟體行為的異常監測，獲取互聯網中木馬、惡意程序的最新信息，推送到服務端進行自動分析和處理，再把病毒和木馬的解決方案分發到每一個客戶端。雲安全的策略構想是：使用者越多，每個使用者就越安全，因為如此龐大的用戶群，足以覆蓋互聯網的每個角落，只要某個網站被掛馬或某個新木馬病毒出現，就會立刻被截獲。雲安全的發展像一陣風，瑞星、趨勢、卡巴斯基、MCAFEE、SYMANTEC、江民科技、PANDA、金山、360安全衛士、卡卡上網安全助手等都推出了雲安全解決方案。瑞星基於雲安全策略開發的2009新品，每天攔截數百萬次木馬攻擊，其中1月8日更是達到了765萬余次。勢科技雲安全已經在全球建立了5大數據中心，幾萬部在線伺服器。據悉，雲安全可以支持平均每天55億條點擊查詢，每天收集分析2.5億個樣本，資料庫第一次命中率就可以達到99%。藉助雲安全，趨勢科技現在每天阻斷的病毒感染最高達1000萬次。
值得一提的是，雲安全的核心思想，與劉鵬早在2003年就提出的反垃圾郵件網格非常接近[1][2]。劉鵬當時認為，垃圾郵件泛濫而無法用技術手段很好地自動過濾，是因為所依賴的人工智慧方法不是成熟技術。垃圾郵件的最大的特徵是：它會將相同的內容發送給數以百萬計的接收者。為此，可以建立一個分布式統計和學習平台，以大規模用戶的協同計算來過濾垃圾郵件：首先，用戶安裝客戶端，為收到的每一封郵件計算出一個唯一的「指紋」，通過比對「指紋」可以統計相似郵件的副本數，當副本數達到一定數量，就可以判定郵件是垃圾郵件；其次，由於互聯網上多台計算機比一台計算機掌握的信息更多，因而可以採用分布式貝葉斯學習演算法，在成百上千的客戶端機器上實現協同學習過程，收集、分析並共享最新的信息。反垃圾郵件網格體現了真正的網格思想，每個加入系統的用戶既是服務的對象，也是完成分布式統計功能的一個信息節點，隨著系統規模的不斷擴大，系統過濾垃圾郵件的准確性也會隨之提高。用大規模統計方法來過濾垃圾郵件的做法比用人工智慧的方法更成熟，不容易出現誤判假陽性的情況，實用性很強。反垃圾郵件網格就是利用分布互聯網里的千百萬台主機的協同工作，來構建一道攔截垃圾郵件的「天網」。反垃圾郵件網格思想提出後，被IEEE Cluster 2003國際會議選為傑出網格項目在香港作了現場演示，在2004年網格計算國際研討會上作了專題報告和現場演示，引起較為廣泛的關注，受到了中國最大郵件服務提供商網易公司創辦人丁磊等的重視。既然垃圾郵件可以如此處理，病毒、木馬等亦然，這與雲安全的思想就相去不遠了。

http://wenku..com/view/6ea1435d3b3567ec102d8ae8.html
2008年11月25日，中國電子學會專門成立了雲計算專家委員會，聘任中國工程院院士李德毅為主任委員，聘任IBM大中華區首席技術總裁葉天正、中國電子科技集團公司第十五研究所所長劉愛民、中國工程院院士張堯學、Google全球副總裁/中國區總裁李開復、中國工程院院士倪光南、中國移動通信研究院院長黃曉慶六位專家為副主任委員，聘任國內外30多位知名專家學者為專家委員會委員。2009年5月22日，中國電子學會將於在北京中國大飯店隆重舉辦首屆中國雲計算大會。

連雲港大規模分布式存儲解決方案

與連雲港大規模分布式存儲解決方案相關的內容