A. 當前主流分布式文件系統有哪些各有什麼優缺點
目前幾個主流的分布式文件系統除GPFS外,還有PVFS、Lustre、PanFS、GoogleFS等。
1.PVFS(Parallel Virtual File System)項目是Clemson大學為了運行Linux集群而創建的一個開源項目,目前PVFS還存在以下不足:
1)單一管理節點:只有一個管理節點來管理元數據,當集群系統達到一定的規模之後,管理節點將可能出現過度繁忙的情況,這時管理節點將成為系統瓶頸;
2)對數據的存儲缺乏容錯機制:當某一I/O節點無法工作時,數據將出現不可用的情況;
3)靜態配置:對PVFS的配置只能在啟動前進行,一旦系統運行則不可再更改原先的配置。
2.Lustre文件系統是一個基於對象存儲的分布式文件系統,此項目於1999年在Carnegie Mellon University啟動,Lustre也是一個開源項目。它只有兩個元數據管理節點,同PVFS類似,當系統達到一定的規模之後,管理節點會成為Lustre系統中的瓶頸。
3.PanFS(Panasas File System)是Panasas公司用於管理自己的集群存儲系統的分布式文件系統。
4.GoogleFS(Google File System)是Google公司為了滿足公司內部的數據處理需要而設計的一套分布式文件系統。
5.相對其它的文件系統,GPFS的主要優點有以下三點:
1)使用分布式鎖管理和大數據塊策略支持更大規模的集群系統,文件系統的令牌管理器為塊、inode、屬性和目錄項建立細粒度的鎖,第一個獲得鎖的客戶將負責維護相應共享對象的一致性管理,這減少了元數據伺服器的負擔;
2)擁有多個元數據伺服器,元數據也是分布式,使得元數據的管理不再是系統瓶頸;
3)令牌管理以位元組作為鎖的最小單位,也就是說除非兩個請求訪問的是同一文件的同一位元組數據,對於數據的訪問請求永遠不會沖突.
B. 各位使用的分布式文件存儲,有哪些產品使用體驗更好一些
我覺得XSKY星辰天合的XGFS文件存儲軟體不錯,這個軟體只需要三個全快閃記憶體元數據高可用節點,就可以高效保存和處理 100 億文件規模的數據。可以靈活擴展,滿足公司不斷增長的業務對性能和容量的需求。
C. 分布式文件/對象存儲系統
分布式存儲系統面向海量數據的存儲訪問與共享需求,提供基於多存儲節點的高性能,高可靠和可伸縮性的數據存儲和訪問能力,實現分布式存儲節點上多用戶的訪問共享。 目前業界比較流行的分布式存儲系統如下:HDFS、OpenStack Swift、Ceph、GlusterFS、Lustre、AFS、OSS。
D. 什麼是分布式存儲系統
分布式存儲系統
定義
分布式存儲系統是大量普通PC伺服器通過Internet互聯,對外作為一個整體提供存儲服務
特性
可擴展
低成本
高性能
易用
挑戰
分布式存儲系統的挑戰主要在於數據、狀態信息的持久化,要求在自動遷移、自動容錯、並發讀寫的過程中保證數據的一致性。分布式存儲涉及的技術主要來自兩個領域:分布式系統以及資料庫。
數據分布
一致性
容錯
負載均衡
事務與並發控制
易用性
壓縮/解壓縮
分類
非結構化數據,一般的文檔
結構化數據, 存儲在關系資料庫中
半結構化數據,HTML文檔
不同的分布式存儲系統適合處理不同類型的數據:
分布式文件系統
非結構化數據,這類數據以對象的形式組織,不同對象之間沒有關聯,這樣的數據一般稱為Blob(二進制大對象)數據
典型的有Facebook Haystack 以及 Taobao File System
另外,分布式文件系統也常作為分布式表格系統以及分布式資料庫的底層存儲,如谷歌的GFS可以作為分布式表格系統Google Bigtable 的底層存儲,Amazon的EBS(彈性存儲塊)系統可以作為分布式資料庫(Amazon RDS)的底層存儲
總體上看,分布式文件系統存儲三種類型的數據:Blob對象、定長塊以及大文件
分布式鍵值系統
較簡單的半結構化數據,只提供主鍵的CRUD(創建、讀取、更新、刪除)
典型的有Amazon Dynamo 以及 Taobao Tair
分布式表格系統
較復雜的半結構化數據,不僅支持CRUD,而且支持掃描某個主鍵范圍
以表格為單位組織數據,每個表格包括很多行,通過主鍵標識一行,支持根據主鍵的CRUD功能以及范圍查找功能
典型的有Google Bigtable 以及 Megastore,Microsoft Azure Table Storage,Amazon DynamoDB等
分布式資料庫
存儲結構化數據,一般是由單機關系資料庫擴展而來
典型的包括MySQL資料庫分片集群、Amazon RDS以及Microsoft SQL Azure
E. HDFS分布式文件系統具有哪些優點
HDFS分布式文件系統具有以下優點:
支持超大文件
支持超大文件。超大文件在這里指的是幾百M,幾百GB,甚至幾TB大小的文件。一般來說hadoop的文件系統會存儲TB級別或者PB級別的數據。所以在企業的應用中,數據節點有可能有上千個。
檢測和快速應對硬體故障
在集群的環境中,硬體故障是常見的問題。因為有上千台伺服器連接在一起,這樣會導致高故障率。因此故障檢測和自動恢復是hdfs文件系統的一個設計目標。
流式數據訪問
Hdfs的數據處理規模比較大,應用一次需要訪問大量的數據,同時這些應用一般都是批量處理,而不是用戶互動式處理。應用程序能以流的形式訪問數據集。主要的是數據的吞吐量,而不是訪問速度。
簡化的一致性模型
大部分hdfs操作文件時,需要一次寫入,多次讀取。在hdfs中,一個文件一旦經過創建、寫入、關閉後,一般就不需要修改了。這樣簡單的一致性模型,有利於提高吞吐量。
缺點
低延遲數據訪問
低延遲數據。如和用戶進行交互的應用,需要數據在毫秒或秒的范圍內得到響應。由於hadoop針對高數據吞吐量做了優化,犧牲了獲取數據的延遲,所以對於低延遲來說,不適合用hadoop來做。
大量的小文件
Hdfs支持超大的文件,是通過數據分布在數據節點,數據的元數據保存在名位元組點上。名位元組點的內存大小,決定了hdfs文件系統可保存的文件數量。雖然現在的系統內存都比較大,但大量的小文件還是會影響名位元組點的性能。
多用戶寫入文件、修改文件
Hdfs的文件只能有一次寫入,不支持寫入,也不支持修改。只有這樣數據的吞吐量才能大。
不支持超強的事務
沒有像關系型資料庫那樣,對事務有強有力的支持。
F. 什麼是DFS(分布式文件系統)以及DFS的優點
通過 DFS(分布式文件系統),一台伺服器上的某個共享點能夠作為駐留在其他伺服器上的共享資源的宿主。DFS 以透明方式鏈接文件伺服器和共享文件夾,然後將其映射到單個層次結構,以便可以從一個位置對其進行訪問,而實際上數據卻分布在不同的位置。用戶不必再轉至網路上的多個位置以查找所需的信息,而只需連接到:
\\DfsServer\Dfsroot
用戶在訪問此共享中的文件夾時將被重定向到包含共享資源的網路位置。這樣,用戶只需知道 DFS 根目錄共享即可訪問整個企業的共享資源。
DFS 拓撲從 DFS 樹的根目錄開始。位於邏輯層次結構頂部的 DFS 根目錄映射到一個物理共享。DFS 鏈接將域名系統 (DNS) 名稱映射到目標共享文件夾或目標 DFS 根目錄的 UNC 名稱。當 DFS 客戶端訪問 DFS 共享文件夾時,DFS 伺服器將 DNS 名稱映射到 UNC 名稱並將引用返回給該客戶端,以使它能夠找到共享文件夾。將 DNS 名稱映射到 UNC 名稱使數據的物理位置對用戶是透明的,這樣用戶便無須記住存儲文件夾的伺服器。當 DFS 客戶端請求 DFS 共享的引用時,DFS 伺服器將使用分區情況表 (PKT) 將 DFS 客戶端定向到物理共享。對於基於域的 DFS,PKT 存儲在 Active Directory 中;對於獨立的 DFS,PKT 存儲在注冊表中。在網路環境中,PKT 維護有關 DFS 拓撲的所有信息,包括其到基礎物理共享的映射。DFS 伺服器將 DFS 客戶端定向到與請求的 DFS 鏈接相對應的副本共享列表後,DFS 客戶端使用 Active Directory 站點拓撲連接到同一站點中的一個副本,如果該站點中沒有提供副本,則連接到該站點以外的一個副本。
分布式軟體系統(Distributed Software Systems)是支持分布式處理的軟體系統,是在由通信網路互聯的多處理機體系結構上執行任務的系統。它包括分布式操作系統、分布式程序設計語言及其編譯(解釋)系統、分布式文件系統和分布式資料庫系統等。
分布式操作系統負責管理分布式處理系統資源和控
分布式系統的類型,大致可以歸為三類:
1、分布式數據,但只有一個總? 據庫,沒有局部資料庫。
2、分層式處理,每一層都有自己的資料庫。
3、充分分散的分布式網路,沒有中央控制部分,各節點之間的聯接方式又可以有多種,如鬆散的聯接,緊密的聯接,動態的聯接,廣播通知式聯接等。
G. 當前主流的分布式文件系統有哪些
目前幾個主流的分布式文件系統除gpfs外,還有pvfs、lustre、panfs、googlefs等。
1.pvfs(parallel
virtual
file
system)項目是clemson大學為了運行linux集群而創建的一個開源項目,目前pvfs還存在以下不足:
1)單一管理節點:只有一個管理節點來管理元數據,當集群系統達到一定的規模之後,管理節點將可能出現過度繁忙的情況,這時管理節點將成為系統瓶頸;
2)對數據的存儲缺乏容錯機制:當某一i/o節點無法工作時,數據將出現不可用的情況;
3)靜態配置:對pvfs的配置只能在啟動前進行,一旦系統運行則不可再更改原先的配置。
2.lustre文件系統是一個基於對象存儲的分布式文件系統,此項目於1999年在carnegie
mellon
university啟動,lustre也是一個開源項目。它只有兩個元數據管理節點,同pvfs類似,當系統達到一定的規模之後,管理節點會成為lustre系統中的瓶頸。
3.panfs(panasas
file
system)是panasas公司用於管理自己的集群存儲系統的分布式文件系統。
4.googlefs(google
file
system)是google公司為了滿足公司內部的數據處理需要而設計的一套分布式文件系統。
5.相對其它的文件系統,gpfs的主要優點有以下三點:
1)使用分布式鎖管理和大數據塊策略支持更大規模的集群系統,文件系統的令牌管理器為塊、inode、屬性和目錄項建立細粒度的鎖,第一個獲得鎖的客戶將負責維護相應共享對象的一致性管理,這減少了元數據伺服器的負擔;
2)擁有多個元數據伺服器,元數據也是分布式,使得元數據的管理不再是系統瓶頸;
3)令牌管理以位元組作為鎖的最小單位,也就是說除非兩個請求訪問的是同一文件的同一位元組數據,對於數據的訪問請求永遠不會沖突.
H. XFS分布式存儲系統的特性有那些
主要特性包括以下幾點:
1、數據完全性
採用XFS文件系統,當意想不到的宕機發生後,首先,由於文件系統開啟了日誌功能,所以你磁碟上的文件不再會意外宕機而遭到破壞了。不論目前文件系統上存儲的文件與數據有多少,文件系統都可以根據所記錄的日誌在很短的時間內迅速恢復磁碟文件內容。
2、傳輸特性
XFS文件系統採用優化演算法,日誌記錄對整體文件操作影響非常小。XFS查詢與分配存儲空間非常快。xfs文件系統能連續提供快速的反應時間。
3、可擴展性
XFS 是一個全64-bit的文件系統,它可以支持上百萬T位元組的存儲空間。對特大文件及小尺寸文件的支持都表現出眾,支持特大數量的目錄。最大可支持的文件大小為263 = 9 x 1018 = 9 exabytes,最大文件系統尺寸為18 exabytes。
4、數據結構
XFS使用高效的表結構(B+樹),保證了文件系統可以快速搜索與快速空間分配。XFS能夠持續提供高速操作,文件系統的性能不受目錄中目錄及文件數量的限制。
5、傳輸帶寬
XFS 能以接近裸設備I/O的性能存儲數據。在單個文件系統的測試中,其吞吐量最高可達7GB每秒,對單個文件的讀寫操作,其吞吐量可達4GB每秒。
I. 分布式文件系統是什麼啊
分布式文件系統(Distributed File System,DFS)
如果區域網中有多台伺服器,並且共享文件夾也分布在不同的伺服器上,這就不利於管理員的管理和用戶的訪問。而使用分布式文件系統,系統管理員就可以把不同伺服器上的共享文件夾組織在一起,構建成一個目錄樹。這在用戶看來,所有共享文件僅存儲在一個地點,只需訪問一個共享的DFS根目錄,就能夠訪問分布在網路上的文件或文件夾,而不必知道這些文件的實際物理位置。
J. 當前主流分布式文件系統有哪些
目前幾個主流的分布式文件系統除GPFS外,還有PVFS、Lustre、PanFS、GoogleFS等。
1.PVFS(Parallel Virtual File System)項目是Clemson大學為了運行Linux集群而創建的一個開源項目,目前PVFS還存在以下不足:
1)單一管理節點:只有一個管理節點來管理元數據,當集群系統達到一定的規模之後,管理節點將可能出現過度繁忙的情況,這時管理節點將成為系統瓶頸;
2)對數據的存儲缺乏容錯機制:當某一I/O節點無法工作時,數據將出現不可用的情況;
3)靜態配置:對PVFS的配置只能在啟動前進行,一旦系統運行則不可再更改原先的配置。
2.Lustre文件系統是一個基於對象存儲的分布式文件系統,此項目於1999年在Carnegie Mellon University啟動,Lustre也是一個開源項目。它只有兩個元數據管理節點,同PVFS類似,當系統達到一定的規模之後,管理節點會成為Lustre系統中的瓶頸。
3.PanFS(Panasas File System)是Panasas公司用於管理自己的集群存儲系統的分布式文件系統。
4.GoogleFS(Google File System)是Google公司為了滿足公司內部的數據處理需要而設計的一套分布式文件系統。
5.相對其它的文件系統,GPFS的主要優點有以下三點:
1)使用分布式鎖管理和大數據塊策略支持更大規模的集群系統,文件系統的令牌管理器為塊、inode、屬性和目錄項建立細粒度的鎖,第一個獲得鎖的客戶將負責維護相應共享對象的一致性管理,這減少了元數據伺服器的負擔;
2)擁有多個元數據伺服器,元數據也是分布式,使得元數據的管理不再是系統瓶頸;
3)令牌管理以位元組作為鎖的最小單位,也就是說除非兩個請求訪問的是同一文件的同一位元組數據,對於數據的訪問請求永遠不會沖突.