分布式存儲標識_什麼是分布式存儲系統

⑴ 什麼是HDFS硬碟分布式存儲

Namenode 是一個中心伺服器，單一節點（簡化系統的設計和實現），負責管理文件系統的名字空間(namespace)以及客戶端對文件的訪問。
文件操作，NameNode 負責文件元數據的操作，DataNode負責處理文件內容的讀寫請求，跟文件內容相關的數據流不經過NameNode，只會詢問它跟哪個DataNode聯系，否則NameNode會成為系統的瓶頸。
副本存放在哪些DataNode上由 NameNode來控制，根據全局情況做出塊放置決定，讀取文件時NameNode盡量讓用戶先讀取最近的副本，降低帶塊消耗和讀取時延
Namenode 全權管理數據塊的復制，它周期性地從集群中的每個Datanode接收心跳信號和塊狀態報告(Blockreport)。接收到心跳信號意味著該Datanode節點工作正常。塊狀態報告包含了一個該Datanode上所有數據塊的列表。

NameNode支持對HDFS中的目錄、文件和塊做類似文件系統的創建、修改、刪除、列表文件和目錄等基本操作。塊存儲管理，在整個HDFS集群中有且只有唯一一個處於active狀態NameNode節點，該節點負責對這個命名空間（HDFS）進行管理。

1、Name啟動的時候首先將fsimage（鏡像）載入內存，並執行（replay）編輯日誌editlog的的各項操作；
2、一旦在內存中建立文件系統元數據映射，則創建一個新的fsimage文件（這個過程不需SecondaryNameNode）和一個空的editlog；
3、在安全模式下，各個datanode會向namenode發送塊列表的最新情況；
4、此刻namenode運行在安全模式。即NameNode的文件系統對於客服端來說是只讀的。(顯示目錄，顯示文件內容等。寫、刪除、重命名都會失敗)；
5、NameNode開始監聽RPC和HTTP請求
解釋RPC:RPC（Remote Procere Call Protocol）——遠程過程通過協議，它是一種通過網路從遠程計算機程序上請求服務，而不需要了解底層網路技術的協議；
6、系統中數據塊的位置並不是由namenode維護的，而是以塊列表形式存儲在datanode中；
7、在系統的正常操作期間，namenode會在內存中保留所有塊信息的映射信息。
存儲文件，文件被分成block存儲在磁碟上，為保證數據安全，文件會有多個副本 namenode和client的指令進行存儲或者檢索block，並且周期性的向namenode節點報告它存了哪些文件的blo
文件切分成塊（默認大小128M），以塊為單位，每個塊有多個副本存儲在不同的機器上，副本數可在文件生成時指定（默認3）
NameNode 是主節點，存儲文件的元數據如文件名，文件目錄結構，文件屬性（生成時間,副本數,文件許可權），以及每個文件的塊列表以及塊所在的DataNode等等
DataNode 在本地文件系統存儲文件塊數據，以及塊數據的校驗和。
可以創建、刪除、移動或重命名文件，當文件創建、寫入和關閉之後不能修改文件內容。

NameNode啟動流程
1、Name啟動的時候首先將fsimage（鏡像）載入內存，並執行（replay）編輯日誌editlog的的各項操作；
2、一旦在內存中建立文件系統元數據映射，則創建一個新的fsimage文件（這個過程不需SecondaryNameNode）和一個空的editlog；
3、在安全模式下，各個datanode會向namenode發送塊列表的最新情況；
4、此刻namenode運行在安全模式。即NameNode的文件系統對於客服端來說是只讀的。(顯示目錄，顯示文件內容等。寫、刪除、重命名都會失敗)；
5、NameNode開始監聽RPC和HTTP請求
解釋RPC:RPC（Remote Procere Call Protocol）——遠程過程通過協議，它是一種通過網路從遠程計算機程序上請求服務，而不需要了解底層網路技術的協議；
6、系統中數據塊的位置並不是由namenode維護的，而是以塊列表形式存儲在datanode中；
7、在系統的正常操作期間，namenode會在內存中保留所有塊信息的映射信息。
HDFS的特點

優點：
1）處理超大文件
這里的超大文件通常是指百MB、數百TB大小的文件。目前在實際應用中，HDFS已經能用來存儲管理PB級的數據了。

2）流式的訪問數據
HDFS的設計建立在更多地響應"一次寫入、多次讀取"任務的基礎上。這意味著一個數據集一旦由數據源生成，就會被復制分發到不同的存儲節點中，然後響應各種各樣的數據分析任務請求。在多數情況下，分析任務都會涉及數據集中的大部分數據，也就是說，對HDFS來說，請求讀取整個數據集要比讀取一條記錄更加高效。

3）運行於廉價的商用機器集群上
Hadoop設計對硬體需求比較低，只須運行在低廉的商用硬體集群上，而無需昂貴的高可用性機器上。廉價的商用機也就意味著大型集群中出現節點故障情況的概率非常高。這就要求設計HDFS時要充分考慮數據的可靠性，安全性及高可用性。

缺點：
1）不適合低延遲數據訪問
如果要處理一些用戶要求時間比較短的低延遲應用請求，則HDFS不適合。HDFS是為了處理大型數據集分析任務的，主要是為達到高的數據吞吐量而設計的，這就可能要求以高延遲作為代價。

2）無法高效存儲大量小文件
因為Namenode把文件系統的元數據放置在內存中，所以文件系統所能容納的文件數目是由Namenode的內存大小來決定。一般來說，每一個文件、文件夾和Block需要佔據150位元組左右的空間，所以，如果你有100萬個文件，每一個占據一個Block，你就至少需要300MB內存。當前來說，數百萬的文件還是可行的，當擴展到數十億時，對於當前的硬體水平來說就沒法實現了。還有一個問題就是，因為Map task的數量是由splits來決定的，所以用MR處理大量的小文件時，就會產生過多的Maptask，線程管理開銷將會增加作業時間。舉個例子，處理10000M的文件，若每個split為1M，那就會有10000個Maptasks，會有很大的線程開銷；若每個split為100M，則只有100個Maptasks，每個Maptask將會有更多的事情做，而線程的管理開銷也將減小很多。

1280M 1個文件 10block*150位元組 = 1500 位元組 =1.5KB
1280M 12.8M 100個 100個block*150位元組 = 15000位元組 = 15KB

3）不支持多用戶寫入及任意修改文件
在HDFS的一個文件中只有一個寫入者，而且寫操作只能在文件末尾完成，即只能執行追加操作。目前HDFS還不支持多個用戶對同一文件的寫操作，以及在文件任意位置進行修改。

四、HDFS文件讀寫流程
4.1 讀文件流程

（1）打開分布式文件
調用分布式文件 DistributedFileSystem.open()方法。
（2）從 NameNode 獲得 DataNode 地址
DistributedFileSystem 使用 RPC 調用 NameNode， NameNode返回存有該副本的 DataNode 地址， DistributedFileSystem 返回一個輸入流 FSDataInputStream對象，該對象封存了輸入流DFSInputStream。
（3）連接到DataNode
調用輸入流 FSDataInputStream 的 read() 方法，從而輸入流DFSInputStream 連接 DataNodes。
（4）讀取DataNode
反復調用 read()方法，從而將數據從 DataNode 傳輸到客戶端。
（5）讀取另外的DataNode直到完成
到達塊的末端時候，輸入流 DFSInputStream 關閉與DataNode 連接，尋找下一個 DataNode。
（6）完成讀取，關閉連接
即調用輸入流 FSDataInputStream.close() 。

4.2 寫文件流程

（1）發送創建文件請求：調用分布式文件系統DistributedFileSystem.create()方法；
（2） NameNode中創建文件記錄：分布式文件系統DistributedFileSystem 發送 RPC 請求給namenode， namenode 檢查許可權後創建一條記錄，返回輸出流 FSDataOutputStream，封裝了輸出流 DFSOutputDtream；
（3）客戶端寫入數據：輸出流 DFSOutputDtream 將數據分成一個個的數據包，並寫入內部隊列。 DataStreamer 根據 DataNode 列表來要求 namenode 分配適合的新塊來存儲數據備份。一組DataNode 構成管線(管線的 DataNode 之間使用 Socket 流式通信)
（4）使用管線傳輸數據： DataStreamer 將數據包流式傳輸到管線第一個DataNode，第一個DataNode 再傳到第二個DataNode ,直到完成。
（5）確認隊列： DataNode 收到數據後發送確認，管線的DataNode所有的確認組成一個確認隊列。所有DataNode 都確認，管線數據包刪除。
（6）關閉：客戶端對數據量調用close（）方法。將剩餘所有數據寫入DataNode管線，並聯系NameNode且發送文件寫入完成信息之前等待確認。
（7） NameNode確認
（8）故障處理：若過程中發生故障，則先關閉管線，把隊列中所有數據包添加回去隊列，確保數據包不漏。為另一個正常DataNode的當前數據塊指定一個新的標識，並將該標識傳送給NameNode, 一遍故障DataNode在恢復後刪除上面的不完整數據塊. 從管線中刪除故障DataNode 並把餘下的數據塊寫入餘下正常的DataNode。 NameNode發現復本兩不足時，會在另一個節點創建一個新的復本

⑵ session可以存儲的方式有幾種，如果程序採取分布式，怎麼樣實現session共享

一。分布式Session的幾種實現方式

1.基於資料庫的Session共享
2.基於NFS共享文件系統
3.基於memcached 的session，如何保證 memcached 本身的高可用性？
4. 基於resin/tomcat web容器本身的session復制機制
5. 基於TT/Redis 或 jbosscache 進行 session 共享。

6. 基於cookie 進行session共享

或者是：

一、Session Replication 方式管理 (即session復制)

簡介：將一台機器上的Session數據廣播復制到集群中其餘機器上

使用場景：機器較少，網路流量較小

優點：實現簡單、配置較少、當網路中有機器Down掉時不影響用戶訪問

缺點：廣播式復制到其餘機器有一定廷時，帶來一定網路開銷

二、Session Sticky 方式管理

簡介：即粘性Session、當用戶訪問集群中某台機器後，強制指定後續所有請求均落到此機器上

使用場景：機器數適中、對穩定性要求不是非常苛刻

優點：實現簡單、配置方便、沒有額外網路開銷

缺點：網路中有機器Down掉時、用戶Session會丟失、容易造成單點故障

三、緩存集中式管理

簡介：將Session存入分布式緩存集群中的某台機器上，當用戶訪問不同節點時先從緩存中拿Session信息

使用場景：集群中機器數多、網路環境復雜

優點：可靠性好

缺點：實現復雜、穩定性依賴於緩存的穩定性、Session信息放入緩存時要有合理的策略寫入

二。Session和Cookie的區別和聯系以及Session的實現原理

1、session保存在伺服器，客戶端不知道其中的信息；cookie保存在客戶端，伺服器能夠知道其中的信息。

2、session中保存的是對象，cookie中保存的是字元串。

3、session不能區分路徑，同一個用戶在訪問一個網站期間，所有的session在任何一個地方都可以訪問到。而cookie中如果設置了路徑參數，那麼同一個網站中不同路徑下的cookie互相是訪問不到的。

4、session需要藉助cookie才能正常<nobr oncontextmenu="return false;"
onmousemove="kwM(3);" id="key3" onmouseover="kwE(event,3, this);"
style="COLOR: #6600ff; BORDER-BOTTOM: 0px dotted; BACKGROUND-COLOR:
transparent; TEXT-DECORATION: underline" onclick="return kwC();"
onmouseout="kwL(event, this);"
target="_blank">工作</nobr>。如果客戶端完全禁止cookie，session將失效。

http是無狀態的協議，客戶每次讀取web頁面時，伺服器都打開新的會話，而且伺服器也不會自動維護客戶的上下文信息，那麼要怎麼才能實現網上商店中的
購物車呢，session就是一種保存上下文信息的機制，它是針對每一個用戶的，變數的值保存在伺服器端，通過SessionID來區分不同的客
戶,session是以cookie或URL重寫為基礎的，默認使用cookie來實現，系統會創造一個名為JSESSIONID的輸出cookie，我
們叫做session cookie,以區別persistent
cookies,也就是我們通常所說的cookie,注意session
cookie是存儲於瀏覽器內存中的，並不是寫到硬碟上的，這也就是我們剛才看到的JSESSIONID，我們通常情是看不到JSESSIONID的，但
是當我們把瀏覽器的cookie禁止後，web伺服器會採用URL重寫的方式傳遞Sessionid，我們就可以在地址欄看到
sessionid=KWJHUG6JJM65HS2K6之類的字元串。
明白了原理，我們就可以很容易的分辨出persistent cookies和session
cookie的區別了，網上那些關於兩者安全性的討論也就一目瞭然了，session cookie針對某一次會話而言，會話結束session
cookie也就隨著消失了，而persistent
cookie只是存在於客戶端硬碟上的一段文本（通常是加密的），而且可能會遭到cookie欺騙以及針對cookie的跨站腳本攻擊，自然不如
session cookie安全了。
通常session
cookie是不能跨窗口使用的，當你新開了一個瀏覽器窗口進入相同頁面時，系統會賦予你一個新的sessionid，這樣我們信息共享的目的就達不到
了，此時我們可以先把sessionid保存在persistent
cookie中，然後在新窗口中讀出來，就可以得到上一個窗口SessionID了，這樣通過session cookie和persistent
cookie的結合我們就實現了跨窗口的session tracking（會話跟蹤）。
在一些web開發的書中，往往只是簡單的把Session和cookie作為兩種並列的http傳送信息的方式，session
cookies位於伺服器端，persistent
cookie位於客戶端，可是session又是以cookie為基礎的，明白的兩者之間的聯系和區別，我們就不難選擇合適的技術來開發web
service了。
總之：

一、cookie機制和session機制的區別
具體來說cookie機制採用的是在客戶端保持狀態的方案，而session機制採用的是在伺服器端保持狀態的方案。
同時我們也看到，由於在伺服器端保持狀態的方案在客戶端也需要保存一個標識，所以session機制可能需要藉助於cookie機制來達到保存標識的目的，但實際上還有其他選擇。
二、會話cookie和持久cookie的區別
如果不設置過期時間，則表示這個cookie生命周期為瀏覽器會話期間，只要關閉瀏覽器窗口，cookie就消失了。這種生命期為瀏覽會話期的cookie被稱為會話cookie。會話cookie一般不保存在硬碟上而是保存在內存里。
如果設置了過期時間，瀏覽器就會把cookie保存到硬碟上，關閉後再次打開瀏覽器，這些cookie依然有效直到超過設定的過期時間。
存儲在硬碟上的cookie可以在不同的瀏覽器進程間共享，比如兩個IE窗口。而對於保存在內存的cookie，不同的瀏覽器有不同的處理方式。
三、如何利用實現自動登錄
當用戶在某個網站注冊後，就會收到一個惟一用戶ID的cookie。客戶後來重新連接時，這個用戶ID會自動返回，伺服器對它進行檢查，確定它是否為注冊用戶且選擇了自動登錄，從而使用戶無需給出明確的用戶名和密碼，就可以訪問伺服器上的資源。
四、如何根據用戶的愛好定製站點
網站可以使用cookie記錄用戶的意願。對於簡單的設置，網站可以直接將頁面的設置存儲在cookie中完成定製。然而對於更復雜的定製，網站只需僅將一個惟一的標識符發送給用戶，由伺服器端的資料庫存儲每個標識符對應的頁面設置。
五、cookie的發送
1.創建Cookie對象
2.設置最大時效
3.將Cookie放入到HTTP響應報頭

如果你創建了一個cookie，並將他發送到瀏覽器，默認情況下它是一個會話級別的cookie:存儲在瀏覽器的內存中，用戶退出瀏覽器之後被刪除。如
果你希望瀏覽器將該cookie存儲在磁碟上，則需要使用maxAge，並給出一個以秒為單位的時間。將最大時效設為0則是命令瀏覽器刪除該
cookie。

發送cookie需要使用HttpServletResponse的addCookie方法，將cookie插入到一個 Set-Cookie
HTTP請求報頭中。由於這個方法並不修改任何之前指定的Set-Cookie報頭，而是創建新的報頭，因此我們將這個方法稱為是addCookie，而
非setCookie。同樣要記住響應報頭必須在任何文檔內容發送到客戶端之前設置。
六、cookie的讀取
1.調用request.getCookie
要獲取有瀏覽器發送來的cookie，需要調用HttpServletRequest的getCookies方法，這個調用返回Cookie對象的數組，對應由HTTP請求中Cookie報頭輸入的值。
2.對數組進行循環，調用每個cookie的getName方法，直到找到感興趣的cookie為止
cookie與你的主機(域)相關，而非你的servlet或JSP頁面。因而，盡管你的servlet可能只發送了單個cookie，你也可能會得到許多不相關的cookie。
例如：
String cookieName = 「userID」;
Cookie cookies［］ = request.getCookies();
if (cookies!=null){
for(int i=0;i
Cookie
cookie = cookies［i］;
if (cookieName.equals(cookie.getName())){
doSomethingWith(cookie.getValue());
}
}
}
七、如何使用cookie檢測初訪者
A.調用HttpServletRequest.getCookies()獲取Cookie數組
B.在循環中檢索指定名字的cookie是否存在以及對應的值是否正確
C.如果是則退出循環並設置區別標識
D.根據區別標識判斷用戶是否為初訪者從而進行不同的操作
八、使用cookie檢測初訪者的常見錯誤
不能僅僅因為cookie數組中不存在在特定的數據項就認為用戶是個初訪者。如果cookie數組為null，客戶可能是一個初訪者，也可能是由於用戶將cookie刪除或禁用造成的結果。

但是，如果數組非null,也不過是顯示客戶曾經到過你的網站或域，並不能說明他們曾經訪問過你的servlet。其它servlet、JSP頁面以及
非Java Web應用都可以設置cookie，依據路徑的設置，其中的任何cookie都有可能返回給用戶的瀏覽器。
正確的做法是判斷cookie數組是否為空且是否存在指定的Cookie對象且值正確。
九、使用cookie屬性的注意問題
屬性是從伺服器發送到瀏覽器的報頭的一部分；但它們不屬於由瀏覽器返回給伺服器的報頭。
因此除了名稱和值之外，cookie屬性只適用於從伺服器輸出到客戶端的cookie；伺服器端來自於瀏覽器的cookie並沒有設置這些屬性。

因而不要期望通過request.getCookies得到的cookie中可以使用這個屬性。這意味著，你不能僅僅通過設置cookie的最大時效，
發出它，在隨後的輸入數組中查找適當的cookie,讀取它的值，修改它並將它存回Cookie，從而實現不斷改變的cookie值。
十、如何使用cookie記錄各個用戶的訪問計數
1.獲取cookie數組中專門用於統計用戶訪問次數的cookie的值
2.將值轉換成int型
3.將值加1並用原來的名稱重新創建一個Cookie對象
4.重新設置最大時效
5.將新的cookie輸出
十一、session在不同環境下的不同含義
session，中文經常翻譯為會話，其本來的含義是指有始有終的一系列動作/消息，比如打電話是從拿起電話撥號到掛斷電話這中間的一系列過程可以稱之為一個session。
然而當session一詞與網路協議相關聯時，它又往往隱含了「面向連接」和/或「保持狀態」這樣兩個含義。
session在Web開發環境下的語義又有了新的擴展，它的含義是指一類用來在客戶端與伺服器端之間保持狀態的解決方案。有時候Session也用來指這種解決方案的存儲結構。
十二、session的機制
session機制是一種伺服器端的機制，伺服器使用一種類似於散列表的結構(也可能就是使用散列表)來保存信息。

但程序需要為某個客戶端的請求創建一個session的時候，伺服器首先檢查這個客戶端的請求里是否包含了一個session標識－稱為session
id,如果已經包含一個session id則說明以前已經為此客戶創建過session，伺服器就按照session
id把這個session檢索出來使用(如果檢索不到，可能會新建一個，這種情況可能出現在服務端已經刪除了該用戶對應的session對象，但用戶人為
地在請求的URL後面附加上一個JSESSION的參數)。
如果客戶請求不包含session id，則為此客戶創建一個session並且生成一個與此session相關聯的session id，這個session id將在本次響應中返回給客戶端保存。
十三、保存session id的幾種方式
A．保存session id的方式可以採用cookie，這樣在交互過程中瀏覽器可以自動的按照規則把這個標識發送給伺服器。
B．
由於cookie可以被人為的禁止，必須有其它的機制以便在cookie被禁止時仍然能夠把session
id傳遞回伺服器，經常採用的一種技術叫做URL重寫，就是把session
id附加在URL路徑的後面，附加的方式也有兩種，一種是作為URL路徑的附加信息，另一種是作為查詢字元串附加在URL後面。網路在整個交互過程中始終
保持狀態，就必須在每個客戶端可能請求的路徑後面都包含這個session
id。
C．另一種技術叫做表單隱藏欄位。就是伺服器會自動修改表單，添加一個隱藏欄位，以便在表單提交時能夠把session id傳遞回伺服器。
十四、session什麼時候被創建
一個常見的錯誤是以為session在有客戶端訪問時就被創建，然而事實是直到某server端程序(如Servlet)調用HttpServletRequest.getSession(true)這樣的語句時才會被創建。
十五、session何時被刪除
session在下列情況下被刪除：
A．程序調用HttpSession.invalidate()
B．距離上一次收到客戶端發送的session id時間間隔超過了session的最大有效時間
C．伺服器進程被停止
再次注意關閉瀏覽器只會使存儲在客戶端瀏覽器內存中的session cookie失效，不會使伺服器端的session對象失效。

⑶ 分布式存儲中，怎樣使用paxos演算法保證數據的一致性

在分布式系統中，我們經常遇到多數據副本保持一致的問題，在我們所能找到的資料中該問題講的很籠統，模模糊糊的，把多個問題或分類糅合在一起，難以理解。在思考和翻閱資料後，通俗地把一致性的問題可分解為2個問題：
1、任何一次修改保證數據一致性。
2、多次數據修改的一致性。
在弱一致性的演算法，不要求每次修改的內容在修改後多副本的內容是一致的，對問題1的解決比較寬松，更多解決問題2，該類演算法追求每次修改的高度並發性，減少多副本之間修改的關聯性，以獲得更好的並發性能。例如最終一致性，無所謂每次用戶修改後的多副本的一致性及格過，只要求在單調的時間方向上，數據最終保持一致，如此獲得了修改極大的並發性能。
在強一致性的演算法中，強調單次修改後結果的一致，需要保證了對問題1和問題2要求的實現，犧牲了並發性能。本文是討論對解決問題1實現演算法，這些演算法往往在強一致性要求的應用中使用。
解決問題1的方法，通常有兩階段提交演算法、採用分布式鎖服務和採用樂觀鎖原理實現的同步方式,下面分別介紹這幾種演算法的實現原理。

兩階段提交演算法

在兩階段提交協議中，系統一般包含兩類機器（或節點）：一類為協調者（coordinator），通常一個系統中只有一個；另一類為事務參與者（participants，cohorts或workers），一般包含多個，在數據存儲系統中可以理解為數據副本的個數。兩階段提交協議由兩個階段組成，在正常的執行下，這兩個階段的執行過程如下所述：
階段1：請求階段（commit-request phase，或稱表決階段，voting phase）。
在請求階段，協調者將通知事務參與者准備提交或取消事務，然後進入表決過程。在表決過程中，參與者將告知協調者自己的決策：同意（事務參與者本地作業執行成功）或取消（本地作業執行故障）。
階段2：提交階段（commit phase）。
在該階段，協調者將基於第一個階段的投票結果進行決策：提交或取消。當且僅當所有的參與者同意提交事務協調者才通知所有的參與者提交事務，否則協調者將通知所有的參與者取消事務。參與者在接收到協調者發來的消息後將執行響應的操作。
舉個例子：A組織B、C和D三個人去爬長城：如果所有人都同意去爬長城，那麼活動將舉行；如果有一人不同意去爬長城，那麼活動將取消。用2PC演算法解決該問題的過程如下：
首先A將成為該活動的協調者，B、C和D將成為該活動的參與者。
階段1：A發郵件給B、C和D，提出下周三去爬山，問是否同意。那麼此時A需要等待B、C和D的郵件。B、C和D分別查看自己的日程安排表。B、C發現自己在當日沒有活動安排，則發郵件告訴A它們同意下周三去爬長城。由於某種原因，D白天沒有查看郵件。那麼此時A、B和C均需要等待。到晚上的時候，D發現了A的郵件，然後查看日程安排，發現周三當天已經有別的安排，那麼D回復A說活動取消吧。
階段2：此時A收到了所有活動參與者的郵件，並且A發現D下周三不能去爬山。那麼A將發郵件通知B、C和D，下周三爬長城活動取消。此時B、C回復A「太可惜了」，D回復A「不好意思」。至此該事務終止。
兩階段提交演算法在分布式系統結合，可實現單用戶對文件（對象）多個副本的修改，多副本數據的同步。其結合的原理如下：
1、客戶端（協調者）向所有的數據副本的存儲主機（參與者）發送：修改具體的文件名、偏移量、數據和長度信息，請求修改數據，該消息是1階段的請求消息。
2、存儲主機接收到請求後，備份修改前的數據以備回滾，修改文件數據後，向客戶端回應修改成功的消息。如果存儲主機由於某些原因（磁碟損壞、空間不足等）不能修改數據，回應修改失敗的消息。
3、客戶端接收發送出去的每一個消息回應，如果存儲主機全部回應都修改成功，向每存儲主機發送確認修改的提交消息；如果存在存儲主機回應修改失敗，或者超時未回應，客戶端向所有存儲主機發送取消修改的提交消息。該消息是2階段的提交消息。
4、存儲主機接收到客戶端的提交消息，如果是確認修改，則直接回應該提交OK消息；如果是取消修改，則將修改數據還原為修改前，然後回應取消修改OK的消息。
5、客戶端接收全部存儲主機的回應，整個操作成功。
在該過程中可能存在通信失敗，例如網路中斷、主機宕機等諸多的原因，對於未在演算法中定義的其它異常，都認為是提交失敗，都需要回滾，這是該演算法基於確定的通信回復實現的，在參與者的確定回復（無論是回復失敗還是回復成功）之上執行邏輯處理，符合確定性的條件當然能夠獲得確定性的結果哲學原理。

分布式鎖服務

分布式鎖是對數據被外界修改持保守態度，在整個數據處理過程中將數據處於鎖定狀態，在用戶修改數據的同時，其它用戶不允許修改。
採用分布式鎖服務實現數據一致性，是在操作目標之前先獲取操作許可，然後再執行操作，如果其他用戶同時嘗試操作該目標將被阻止，直到前一個用戶釋放許可後，其他用戶才能夠操作目標。分析這個過程，如果只有一個用戶操作目標，沒有多個用戶並發沖突，也申請了操作許可，造成了由於申請操作許可所帶來的資源使用消耗，浪費網路通信和增加了延時。
採用分布式鎖實現多副本內容修改的一致性問題，選擇控制內容顆粒度實現申請鎖服務。例如我們要保證一個文件的多個副本修改一致，可以對整個文件修改設置一把鎖，修改時申請鎖，修改這個文件的多個副本，確保多個副本修改的一致，修改完成後釋放鎖；也可以對文件分段，或者是文件中的單個位元組設置鎖，實現更細顆粒度的鎖操作，減少沖突。
常用的鎖實現演算法有Lamport bakery algorithm （俗稱麵包店演算法），還有Paxos演算法。下面對其原理做簡單概述。

Lamport麵包店演算法

是解決多個線程並發訪問一個共享的單用戶資源的互斥問題的演算法。由Leslie Lamport（英語：Leslie Lamport）發明。
Lamport把這個並發控制演算法可以非常直觀地類比為顧客去麵包店采購。麵包店只能接待一位顧客的采購。已知有n位顧客要進入麵包店采購，安排他們按照次序在前台登記一個簽到號碼。該簽到號碼逐次加1。根據簽到號碼的由小到大的順序依次入店購貨。完成購買的顧客在前台把其簽到號碼歸0. 如果完成購買的顧客要再次進店購買，就必須重新排隊。
這個類比中的顧客就相當於線程，而入店購貨就是進入臨界區獨占訪問該共享資源。由於計算機實現的特點，存在兩個線程獲得相同的簽到號碼的情況，這是因為兩個線程幾乎同時申請排隊的簽到號碼，讀取已經發出去的簽到號碼情況，這兩個線程讀到的數據是完全一樣的，然後各自在讀到的數據上找到最大值，再加1作為自己的排隊簽到號碼。為此，該演算法規定如果兩個線程的排隊簽到號碼相等，則線程id號較小的具有優先權。
把該演算法原理與分布式系統相結合，即可實現分步鎖。

Paxos演算法

該演算法比較熱門，參見WIKI，http://zh.wikipedia.org/wiki/Paxos%E7%AE%97%E6%B3%95
Paxos演算法解決的問題是一個分布式系統如何就某個值(決議)達成一致。一個典型的場景是，在一個分布式資料庫系統中，如果各節點的初始狀態一致，每個節點都執行相同的操作序列，那麼他們最後能得到一個一致的狀態。為保證每個節點執行相同的命令序列，需要在每一條指令上執行一個「一致性演算法」以保證每個節點看到的指令一致。一個通用的一致性演算法可以應用在許多場景中，是分布式計算中的重要問題。節點通信存在兩種模型：共享內存(Shared memory)和消息傳遞(Messages passing)。Paxos演算法就是一種基於消息傳遞模型的一致性演算法。BigTable使用一個分布式數據鎖服務Chubby，而Chubby使用Paxos演算法來保證備份的一致性。

採用樂觀鎖原理實現的同步

我們舉個例子說明該演算法的實現原理。如一個金融系統，當某個操作員讀取用戶的數據，並在讀出的用戶數據的基礎上進行修改時（如更改用戶帳戶余額），如果採用前面的分布式鎖服務機制，也就意味著整個操作過程中（從操作員讀出數據、開始修改直至提交修改結果的全過程，甚至還包括操作員中途去煮咖啡的時間），資料庫記錄始終處於加鎖狀態，可以想見，如果面對幾百上千個並發，這樣的情況將導致怎樣的後果。
樂觀鎖機制在一定程度上解決了這個問題。樂觀鎖，大多是基於數據版本（ Version）記錄機制實現。何謂數據版本？即為數據增加一個版本標識，在基於資料庫表的版本解決方案中，一般是通過為資料庫表增加一個「version」欄位來實現。讀取出數據時，將此版本號一同讀出，之後更新時，對此版本號加一。此時，將提交數據的版本數據與資料庫表對應記錄的當前版本信息進行比對，如果提交的數據版本號大於資料庫表當前版本號，則予以更新，否則認為是過期數據。
對於上面修改用戶帳戶信息的例子而言，假設資料庫中帳戶信息表中有一個 version 欄位，當前值為 1 ；而當前帳戶余額欄位（ balance ）為 $100 。
操作員 A 此時將其讀出（version=1 ），並從其帳戶余額中扣除 $50（$100-$50 ）。
在操作員 A 操作的過程中，操作員B也讀入此用戶信息（ version=1 ），並從其帳戶余額中扣除 $20 （ $100-$20 ）。
操作員 A 完成了修改工作，將數據版本號加一（ version=2 ），連同帳戶扣除後余額（ balance=$50 ），提交至資料庫更新，此時由於提交數據版本大於資料庫記錄當前版本，數據被更新，資料庫記錄 version 更新為 2 。
操作員 B 完成了操作，也將版本號加一（ version=2 ）試圖向資料庫提交數據（ balance=$80 ），但此時比對資料庫記錄版本時發現，操作員 B 提交的數據版本號為 2 ，資料庫記錄當前版本也為 2 ，不滿足「提交版本必須大於記錄當前版本才能執行更新「的樂觀鎖策略，因此，操作員 B 的提交被駁回。這樣，就避免了操作員 B 用基於 version=1 的舊數據修改的結果覆蓋操作員A 的操作結果的可能。
樂觀鎖機制與分布式系統相結合上，我整理了偽代碼如下：
obj 操作的目標
vlaue 修改的值
atom_update_ver 每個目標上的版本，每次修改該值遞增
set( obj, value)
{
//從每個節點上取出修改前的對象版本
get original_ver = obj.atom_update_ver from each node;
//將值賦到每個節點的obj目標
set obj = value from each node;
//條件修改每個節點的obj版本，目標版本加一
//比較和修改操作是原子操作
result = (set obj.atom_update_ver = original_ver + 1
where original_ver + 1 > obj.atom_update_ver
for each node);
if(result == ok)
return set_ok;
else
return set(obj, value);//不成功遞歸修改

該演算法未考慮節點下線、失效等問題，在後續我將分析採用樂觀鎖原理實現一致性演算法，解決問題2、節點失效、通信失敗等問題。

⑷ 塊存儲、文件存儲、對象存儲這三者的本質差別是什麼

一、概念及區別

針對不同的應用場景，選擇的分布式存儲方案也會不同，因此有了對象存儲、塊存儲、文件系統存儲。這三者的主要區別在於它們的存儲介面：

1. 對象存儲:

也就是通常意義的鍵值存儲，其介面就是簡單的GET,PUT,DEL和其他擴展，

2. 塊存儲:

這種介面通常以QEMU Driver或者Kernel Mole的方式存在，這種介面需要實現Linux的BlockDevice的介面或者QEMU提供的BlockDriver介面，如Sheepdog，AWS的EBS，青雲的雲硬碟和阿里雲的盤古系統，還有Ceph的RBD(RBD是Ceph面向塊存儲的介面)

3. 文件存儲:

通常意義是支持POSIX介面，它跟傳統的文件系統如Ext4是一個類型的，但區別在於分布式存儲提供了並行化的能力，如Ceph的CephFS(CephFS是Ceph面向文件存儲的介面)，但是有時候又會把GFS，HDFS這種非POSIX介面的類文件存儲介面歸入此類。

二、IO特點

按照這三種介面和其應用場景，很容易了解這三種類型的IO特點，括弧里代表了它在非分布式情況下的對應:1. 對象存儲(鍵值資料庫):

介面簡單，一個對象我們可以看成一個文件，只能全寫全讀，通常以大文件為主，要求足夠的IO帶寬。

2. 塊存儲(硬碟):

它的IO特點與傳統的硬碟是一致的，一個硬碟應該是能面向通用需求的，即能應付大文件讀寫，也能處理好小文件讀寫。但是硬碟的特點是容量大，熱點明顯。因此塊存儲主要可以應付熱點問題。另外，塊存儲要求的延遲是最低的。

3. 文件存儲(文件系統):

支持文件存儲的介面的系統設計跟傳統本地文件系統如Ext4這種的特點和難點是一致的，它比塊存儲具有更豐富的介面，需要考慮目錄、文件屬性等支持，實現一個支持並行化的文件存儲應該是最困難的。但像HDFS、GFS這種自己定義標準的系統，可以通過根據實現來定義介面，會容易一點。

因此，這三種介面分別以非分布式情況下的鍵值資料庫、硬碟和文件系統的IO特點來對應即可。至於冷熱、快慢、大小文件而言更接近於業務。但是因為存儲系統是通用化實現，通常來說，需要盡量滿足各種需求，而介面定義已經一定意義上就砍去了一些需求，如對象存儲會以冷存儲更多，大文件為主。

⑸ 什麼是分布式存儲系統

分布式存儲系統

定義

分布式存儲系統是大量普通PC伺服器通過Internet互聯，對外作為一個整體提供存儲服務

特性

可擴展
低成本
高性能
易用

挑戰

分布式存儲系統的挑戰主要在於數據、狀態信息的持久化，要求在自動遷移、自動容錯、並發讀寫的過程中保證數據的一致性。分布式存儲涉及的技術主要來自兩個領域：分布式系統以及資料庫。

數據分布
一致性
容錯
負載均衡
事務與並發控制
易用性
壓縮/解壓縮

分類

非結構化數據，一般的文檔

結構化數據，存儲在關系資料庫中

半結構化數據，HTML文檔

不同的分布式存儲系統適合處理不同類型的數據：

分布式文件系統

非結構化數據，這類數據以對象的形式組織，不同對象之間沒有關聯，這樣的數據一般稱為Blob（二進制大對象）數據

典型的有Facebook Haystack 以及 Taobao File System

另外，分布式文件系統也常作為分布式表格系統以及分布式資料庫的底層存儲，如谷歌的GFS可以作為分布式表格系統Google Bigtable 的底層存儲，Amazon的EBS（彈性存儲塊）系統可以作為分布式資料庫（Amazon RDS）的底層存儲

總體上看，分布式文件系統存儲三種類型的數據：Blob對象、定長塊以及大文件

分布式鍵值系統

較簡單的半結構化數據，只提供主鍵的CRUD（創建、讀取、更新、刪除）

典型的有Amazon Dynamo 以及 Taobao Tair

分布式表格系統

較復雜的半結構化數據，不僅支持CRUD，而且支持掃描某個主鍵范圍

以表格為單位組織數據，每個表格包括很多行，通過主鍵標識一行，支持根據主鍵的CRUD功能以及范圍查找功能

典型的有Google Bigtable 以及 Megastore，Microsoft Azure Table Storage，Amazon DynamoDB等

分布式資料庫

存儲結構化數據，一般是由單機關系資料庫擴展而來

典型的包括MySQL資料庫分片集群、Amazon RDS以及Microsoft SQL Azure

⑹ 分布式文件存儲系統採用什麼方式來提升可用性和可靠性

一。分布式Session的幾種實現方式 1.基於資料庫的Session共享 2.基於NFS共享文件系統 3.基於memcached 的session，如何保證 memcached 本身的高可用性？ 4. 基於resin/tomcat web容器本身的session復制機制 5. 基於TT/Redis 或 jbosscache 進行 session 共享。 6. 基於cookie 進行session共享或者是：一、Session Replication 方式管理 (即session復制) 簡介：將一台機器上的Session數據廣播復制到集群中其餘機器上使用場景：機器較少，網路流量較小優點：實現簡單、配置較少、當網路中有機器Down掉時不影響用戶訪問缺點：廣播式復制到其餘機器有一定廷時，帶來一定網路開銷二、Session Sticky 方式管理簡介：即粘性Session、當用戶訪問集群中某台機器後，強制指定後續所有請求均落到此機器上使用場景：機器數適中、對穩定性要求不是非常苛刻優點：實現簡單、配置方便、沒有額外網路開銷缺點：網路中有機器Down掉時、用戶Session會丟失、容易造成單點故障三、緩存集中式管理簡介：將Session存入分布式緩存集群中的某台機器上，當用戶訪問不同節點時先從緩存中拿Session信息使用場景：集群中機器數多、網路環境復雜優點：可靠性好缺點：實現復雜、穩定性依賴於緩存的穩定性、Session信息放入緩存時要有合理的策略寫入二。Session和Cookie的區別和聯系以及Session的實現原理 1、session保存在伺服器，客戶端不知道其中的信息；cookie保存在客戶端，伺服器能夠知道其中的信息。 2、session中保存的是對象，cookie中保存的是字元串。 3、session不能區分路徑，同一個用戶在訪問一個網站期間，所有的session在任何一個地方都可以訪問到。而cookie中如果設置了路徑參數，那麼同一個網站中不同路徑下的cookie互相是訪問不到的。 4、session需要藉助cookie才能正常<nobr oncontextmenu="return false;" onmousemove="kwM(3);" id="key3" onmouseover="kwE(event,3, this);" style="COLOR: #6600ff; BORDER-BOTTOM: 0px dotted; BACKGROUND-COLOR: transparent; TEXT-DECORATION: underline" onclick="return kwC();" onmouseout="kwL(event, this);" target="_blank">工作</nobr>。如果客戶端完全禁止cookie，session將失效。 http是無狀態的協議，客戶每次讀取web頁面時，伺服器都打開新的會話，而且伺服器也不會自動維護客戶的上下文信息，那麼要怎麼才能實現網上商店中的購物車呢，session就是一種保存上下文信息的機制，它是針對每一個用戶的，變數的值保存在伺服器端，通過SessionID來區分不同的客戶,session是以cookie或URL重寫為基礎的，默認使用cookie來實現，系統會創造一個名為JSESSIONID的輸出cookie，我們叫做session cookie,以區別persistent cookies,也就是我們通常所說的cookie,注意session cookie是存儲於瀏覽器內存中的，並不是寫到硬碟上的，這也就是我們剛才看到的JSESSIONID，我們通常情是看不到JSESSIONID的，但是當我們把瀏覽器的cookie禁止後，web伺服器會採用URL重寫的方式傳遞Sessionid，我們就可以在地址欄看到 sessionid=KWJHUG6JJM65HS2K6之類的字元串。明白了原理，我們就可以很容易的分辨出persistent cookies和session cookie的區別了，網上那些關於兩者安全性的討論也就一目瞭然了，session cookie針對某一次會話而言，會話結束session cookie也就隨著消失了，而persistent cookie只是存在於客戶端硬碟上的一段文本（通常是加密的），而且可能會遭到cookie欺騙以及針對cookie的跨站腳本攻擊，自然不如 session cookie安全了。通常session cookie是不能跨窗口使用的，當你新開了一個瀏覽器窗口進入相同頁面時，系統會賦予你一個新的sessionid，這樣我們信息共享的目的就達不到了，此時我們可以先把sessionid保存在persistent cookie中，然後在新窗口中讀出來，就可以得到上一個窗口SessionID了，這樣通過session cookie和persistent cookie的結合我們就實現了跨窗口的session tracking（會話跟蹤）。在一些web開發的書中，往往只是簡單的把Session和cookie作為兩種並列的http傳送信息的方式，session cookies位於伺服器端，persistent cookie位於客戶端，可是session又是以cookie為基礎的，明白的兩者之間的聯系和區別，我們就不難選擇合適的技術來開發web service了。總之：一、cookie機制和session機制的區別具體來說cookie機制採用的是在客戶端保持狀態的方案，而session機制採用的是在伺服器端保持狀態的方案。同時我們也看到，由於在伺服器端保持狀態的方案在客戶端也需要保存一個標識，所以session機制可能需要藉助於cookie機制來達到保存標識的目的，但實際上還有其他選擇。二、會話cookie和持久cookie的區別如果不設置過期時間，則表示這個cookie生命周期為瀏覽器會話期間，只要關閉瀏覽器窗口，cookie就消失了。這種生命期為瀏覽會話期的cookie被稱為會話cookie。會話cookie一般不保存在硬碟上而是保存在內存里。如果設置了過期時間，瀏覽器就會把cookie保存到硬碟上，關閉後再次打開瀏覽器，這些cookie依然有效直到超過設定的過期時間。存儲在硬碟上的cookie可以在不同的瀏覽器進程間共享，比如兩個IE窗口。而對於保存在內存的cookie，不同的瀏覽器有不同的處理方式。三、如何利用實現自動登錄當用戶在某個網站注冊後，就會收到一個惟一用戶ID的cookie。客戶後來重新連接時，這個用戶ID會自動返回，伺服器對它進行檢查，確定它是否為注冊用戶且選擇了自動登錄，從而使用戶無需給出明確的用戶名和密碼，就可以訪問伺服器上的資源。四、如何根據用戶的愛好定製站點網站可以使用cookie記錄用戶的意願。對於簡單的設置，網站可以直接將頁面的設置存儲在cookie中完成定製。然而對於更復雜的定製，網站只需僅將一個惟一的標識符發送給用戶，由伺服器端的資料庫存儲每個標識符對應的頁面設置。五、cookie的發送 1.創建Cookie對象 2.設置最大時效 3.將Cookie放入到HTTP響應報頭如果你創建了一個cookie，並將他發送到瀏覽器，默認情況下它是一個會話級別的cookie:存儲在瀏覽器的內存中，用戶退出瀏覽器之後被刪除。如果你希望瀏覽器將該cookie存儲在磁碟上，則需要使用maxAge，並給出一個以秒為單位的時間。將最大時效設為0則是命令瀏覽器刪除該 cookie。發送cookie需要使用HttpServletResponse的addCookie方法，將cookie插入到一個 Set-Cookie HTTP請求報頭中。由於這個方法並不修改任何之前指定的Set-Cookie報頭，而是創建新的報頭，因此我們將這個方法稱為是addCookie，而非setCookie。同樣要記住響應報頭必須在任何文檔內容發送到客戶端之前設置。六、cookie的讀取 1.調用request.getCookie 要獲取有瀏覽器發送來的cookie，需要調用HttpServletRequest的getCookies方法，這個調用返回Cookie對象的數組，對應由HTTP請求中Cookie報頭輸入的值。 2.對數組進行循環，調用每個cookie的getName方法，直到找到感興趣的cookie為止 cookie與你的主機(域)相關，而非你的servlet或JSP頁面。因而，盡管你的servlet可能只發送了單個cookie，你也可能會得到許多不相關的cookie。例如： String cookieName = 「userID」; Cookie cookies［］ = request.getCookies(); if (cookies!=null){ for(int i=0;i Cookie cookie = cookies［i］; if (cookieName.equals(cookie.getName())){ doSomethingWith(cookie.getValue()); } } } 七、如何使用cookie檢測初訪者 A.調用HttpServletRequest.getCookies()獲取Cookie數組 B.在循環中檢索指定名字的cookie是否存在以及對應的值是否正確 C.如果是則退出循環並設置區別標識 D.根據區別標識判斷用戶是否為初訪者從而進行不同的操作八、使用cookie檢測初訪者的常見錯誤不能僅僅因為cookie數組中不存在在特定的數據項就認為用戶是個初訪者。如果cookie數組為null，客戶可能是一個初訪者，也可能是由於用戶將cookie刪除或禁用造成的結果。但是，如果數組非null,也不過是顯示客戶曾經到過你的網站或域，並不能說明他們曾經訪問過你的servlet。其它servlet、JSP頁面以及非Java Web應用都可以設置cookie，依據路徑的設置，其中的任何cookie都有可能返回給用戶的瀏覽器。正確的做法是判斷cookie數組是否為空且是否存在指定的Cookie對象且值正確。九、使用cookie屬性的注意問題屬性是從伺服器發送到瀏覽器的報頭的一部分；但它們不屬於由瀏覽器返回給伺服器的報頭。因此除了名稱和值之外，cookie屬性只適用於從伺服器輸出到客戶端的cookie；伺服器端來自於瀏覽器的cookie並沒有設置這些屬性。因而不要期望通過request.getCookies得到的cookie中可以使用這個屬性。這意味著，你不能僅僅通過設置cookie的最大時效，發出它，在隨後的輸入數組中查找適當的cookie,讀取它的值，修改它並將它存回Cookie，從而實現不斷改變的cookie值。十、如何使用cookie記錄各個用戶的訪問計數 1.獲取cookie數組中專門用於統計用戶訪問次數的cookie的值 2.將值轉換成int型 3.將值加1並用原來的名稱重新創建一個Cookie對象 4.重新設置最大時效 5.將新的cookie輸出十一、session在不同環境下的不同含義 session，中文經常翻譯為會話，其本來的含義是指有始有終的一系列動作/消息，比如打電話是從拿起電話撥號到掛斷電話這中間的一系列過程可以稱之為一個session。然而當session一詞與網路協議相關聯時，它又往往隱含了「面向連接」和/或「保持狀態」這樣兩個含義。 session在Web開發環境下的語義又有了新的擴展，它的含義是指一類用來在客戶端與伺服器端之間保持狀態的解決方案。有時候Session也用來指這種解決方案的存儲結構。十二、session的機制 session機制是一種伺服器端的機制，伺服器使用一種類似於散列表的結構(也可能就是使用散列表)來保存信息。但程序需要為某個客戶端的請求創建一個session的時候，伺服器首先檢查這個客戶端的請求里是否包含了一個session標識－稱為session id,如果已經包含一個session id則說明以前已經為此客戶創建過session，伺服器就按照session id把這個session檢索出來使用(如果檢索不到，可能會新建一個，這種情況可能出現在服務端已經刪除了該用戶對應的session對象，但用戶人為地在請求的URL後面附加上一個JSESSION的參數)。如果客戶請求不包含session id，則為此客戶創建一個session並且生成一個與此session相關聯的session id，這個session id將在本次響應中返回給客戶端保存。十三、保存session id的幾種方式 A．保存session id的方式可以採用cookie，這樣在交互過程中瀏覽器可以自動的按照規則把這個標識發送給伺服器。 B．由於cookie可以被人為的禁止，必須有其它的機制以便在cookie被禁止時仍然能夠把session id傳遞回伺服器，經常採用的一種技術叫做URL重寫，就是把session id附加在URL路徑的後面，附加的方式也有兩種，一種是作為URL路徑的附加信息，另一種是作為查詢字元串附加在URL後面。網路在整個交互過程中始終保持狀態，就必須在每個客戶端可能請求的路徑後面都包含這個session id。 C．另一種技術叫做表單隱藏欄位。就是伺服器會自動修改表單，添加一個隱藏欄位，以便在表單提交時能夠把session id傳遞回伺服器。十四、session什麼時候被創建一個常見的錯誤是以為session在有客戶端訪問時就被創建，然而事實是直到某server端程序(如Servlet)調用HttpServletRequest.getSession(true)這樣的語句時才會被創建。十五、session何時被刪除 session在下列情況下被刪除： A．程序調用HttpSession.invalidate() B．距離上一次收到客戶端發送的session id時間間隔超過了session的最大有效時間 C．伺服器進程被停止再次注意關閉瀏覽器只會使存儲在客戶端瀏覽器內存中的session cookie失效，不會使伺服器端的session對象失效。

⑺ 分布式系統為什麼要同步，同步所需要的構件有哪些

在Zookeeper的官網上有這么一句話：ZooKeeper is a centralized service for maintaining configuration information, naming, providing distributed synchronization, and providing group services. 這大概描述了Zookeeper主要可以干哪些事情：配置管理，名字服務，提供分布式同步以及集群管理。那這些服務又到底是什麼呢？我們為什麼需要這樣的服務？我們又為什麼要使用Zookeeper來實現呢，使用Zookeeper有什麼優勢？接下來我會挨個介紹這些到底是什麼，以及有哪些開源系統中使用了。配置管理在我們的應用中除了代碼外，還有一些就是各種配置。比如資料庫連接等。一般我們都是使用配置文件的方式，在代碼中引入這些配置文件。但是當我們只有一種配置，只有一台伺服器，並且不經常修改的時候，使用配置文件是一個很好的做法，但是如果我們配置非常多，有很多伺服器都需要這個配置，而且還可能是動態的話使用配置文件就不是個好主意了。這個時候往往需要尋找一種集中管理配置的方法，我們在這個集中的地方修改了配置，所有對這個配置感興趣的都可以獲得變更。比如我們可以把配置放在資料庫里，然後所有需要配置的服務都去這個資料庫讀取配置。但是，因為很多服務的正常運行都非常依賴這個配置，所以需要這個集中提供配置服務的服務具備很高的可靠性。一般我們可以用一個集群來提供這個配置服務，但是用集群提升可靠性，那如何保證配置在集群中的一致性呢？這個時候就需要使用一種實現了一致性協議的服務了。Zookeeper就是這種服務，它使用Zab這種一致性協議來提供一致性。現在有很多開源項目使用Zookeeper來維護配置，比如在HBase中，客戶端就是連接一個Zookeeper，獲得必要的HBase集群的配置信息，然後才可以進一步操作。還有在開源的消息隊列Kafka中，也使用Zookeeper來維護broker的信息。在Alibaba開源的SOA框架Dubbo中也廣泛的使用Zookeeper管理一些配置來實現服務治理。名字服務名字服務這個就很好理解了。比如為了通過網路訪問一個系統，我們得知道對方的IP地址，但是IP地址對人非常不友好，這個時候我們就需要使用域名來訪問。但是計算機是不能是別域名的。怎麼辦呢？如果我們每台機器里都備有一份域名到IP地址的映射，這個倒是能解決一部分問題，但是如果域名對應的IP發生變化了又該怎麼辦呢？於是我們有了DNS這個東西。我們只需要訪問一個大家熟知的(known)的點，它就會告訴你這個域名對應的IP是什麼。在我們的應用中也會存在很多這類問題，特別是在我們的服務特別多的時候，如果我們在本地保存服務的地址的時候將非常不方便，但是如果我們只需要訪問一個大家都熟知的訪問點，這里提供統一的入口，那麼維護起來將方便得多了。分布式鎖其實在第一篇文章中已經介紹了Zookeeper是一個分布式協調服務。這樣我們就可以利用Zookeeper來協調多個分布式進程之間的活動。比如在一個分布式環境中，為了提高可靠性，我們的集群的每台伺服器上都部署著同樣的服務。但是，一件事情如果集群中的每個伺服器都進行的話，那相互之間就要協調，編程起來將非常復雜。而如果我們只讓一個服務進行操作，那又存在單點。通常還有一種做法就是使用分布式鎖，在某個時刻只讓一個服務去幹活，當這台服務出問題的時候鎖釋放，立即fail over到另外的服務。這在很多分布式系統中都是這么做，這種設計有一個更好聽的名字叫Leader Election(leader選舉)。比如HBase的Master就是採用這種機制。但要注意的是分布式鎖跟同一個進程的鎖還是有區別的，所以使用的時候要比同一個進程里的鎖更謹慎的使用。集群管理在分布式的集群中，經常會由於各種原因，比如硬體故障，軟體故障，網路問題，有些節點會進進出出。有新的節點加入進來，也有老的節點退出集群。這個時候，集群中其他機器需要感知到這種變化，然後根據這種變化做出對應的決策。比如我們是一個分布式存儲系統，有一個中央控制節點負責存儲的分配，當有新的存儲進來的時候我們要根據現在集群目前的狀態來分配存儲節點。這個時候我們就需要動態感知到集群目前的狀態。還有，比如一個分布式的SOA架構中，服務是一個集群提供的，當消費者訪問某個服務時，就需要採用某種機制發現現在有哪些節點可以提供該服務(這也稱之為服務發現，比如Alibaba開源的SOA框架Dubbo就採用了Zookeeper作為服務發現的底層機制)。還有開源的Kafka隊列就採用了Zookeeper作為Cosnumer的上下線管理。後記在這篇文章中，列出了一些Zookeeper可以提供的服務，並給出了一些開源系統裡面的實例。後面我們從Zookeeper的安裝配置開始，並用示例進一步介紹Zookeeper如何使用。 (轉載）

⑻ IPFS是什麼

星際文件系統。

IPFS是一種內容可定址的對等超媒體分發協議。IPFS將現有的成功系統分布式哈希表、BitTorrent、版本控制系統Git、自認證文件系統與區塊鏈相結合的文件存儲和內容分發網路協議。IPFS同時也是一個開放源代碼項目。

IPFS屬性：

1、永久的、去中心化保存和共享文件；

2、點對點超媒體：P2P 保存各種各樣類型的數據；

3、版本化：可追溯文件修改歷史。

(8)分布式存儲標識擴展閱讀

IPFS優點：

1、內容定址：所有內容（包括鏈接）都由其多哈希校驗和進行唯一標識。

2、防篡改：所有內容都使用其校驗和進行驗證。如果數據被篡改或損壞，則IPFS會檢測到該數據。

3、去冗餘：所有內容完全相同的對象，只存儲一次。

4、PFS並不會要求每一個節點都存儲所有的內容，節點的所有者可以自由選擇想要維持的數據，在備份了自己的數據之外，自願的為其他的關注的內容提供服務。

參考資料來源：網路-星際文件系統

⑼ 解析：怎樣理解分布處理和分布式資料庫

一個分布式資料庫在用戶面前為單個邏輯資料庫，但實際上是由存儲在多台計算機上的一組資料庫組成。在幾台計算機上的資料庫通過網路可同時修改和存取，每一資料庫受它的局部的DBMS控制。分布式資料庫中每一個資料庫伺服器合作地維護全局資料庫的一致性。在系統中的每一台計算機稱為結點。如果一結點具有管理資料庫軟體，該結點稱為資料庫伺服器。如果一個結點為請求伺服器的信息的一應用，該結點稱為客戶。在ORACLE客戶，執行資料庫應用，可存取數據信息和與用戶交互。在伺服器，執行ORACLE軟體，處理對ORACLE資料庫並發、共享數據存取。ORACLE允許上述兩部分在同一台計算機上，但當客戶部分和伺服器部分是由網連接的不同計算機上時，更有效。分布處理是由多台處理機分擔單個任務的處理。在ORACLE資料庫系統中分布處理的例子如：客戶和伺服器是位於網路連接的不同計算機上。單台計算機上有多個處理器，不同處理器分別執行客戶應用。 SQL*NET是ORACLE網路介面，允許運行在網路工作站的ORACLE工具和伺服器上，可存取、修改、共享和存儲在其它伺服器上的數據。SAQL*NET可被認為是網路通信的程序介面。SQL*NET利用通信協議和應用程序介面（API）為OARCLE提供一個分布式資料庫和分布處理。 SQL*NET驅動器為在資料庫伺服器上運行的ORACLE進程與ORACLE工具的用戶進程之間提供一個介面。參與分布式資料庫的每一伺服器是分別地獨立地管理資料庫，好像每一資料庫不是網路化的資料庫。每一個資料庫獨立地被管理，稱為場地自治性。場地自治性有下列好處： ◆系統的結點可反映公司的邏輯組織。 ◆由局部資料庫管理員控制局部數據，這樣每一個資料庫管理員責任域要小一些，可更好管理。 ◆只要一個資料庫和網路是可用，那麼全局資料庫可部分可用。不會因一個資料庫的故障而停止全部操作或引起性能瓶頸。 ◆故障恢復通常在單個結點上進行。 ◆每個局部資料庫存在一個數據字典。 ◆結點可獨立地升級軟體。可從分布式資料庫的所有結點存取模式對象，因此正像非分布的局部的DBMS，必須提供一種機制，可在局部資料庫中引用一個對象。分布式DBMS必須提供一種命名模式，以致分布式資料庫中一個對象可在應用中唯一標識和引用。一般彩在層次結構的每一層實施唯一性。分布式DVMS簡單地擴充層次命名模型，實施在網路上唯一資料庫命名。因此一個對象的全局對象名保證在分布式資料庫內是唯一。 ORACLE允許在SQL語句中使用佤對象名引用分布式資料庫中的模式對象（表、視圖和過程）。在ORACLE中，一個模式對象的全局名由三部分組成：包含對象的模式名、對象名、資料庫名、其形式如： [email protected] 其中SCOTT為模式名,EMP為表名,@符號之後為資料庫名. 一個遠程查詢為一查詢,是從一個或多個遠程表中選擇信息,這些表駐留在同一個遠程結點. 一個分布式查詢可從兩個或多個結點檢索數據.一個分布式更新可修改兩個或兩個以上結點的數據. 一個遠程事務為一個事務,包含一人或多個遠程語句,它所引用的全部是在同一個遠程結點上.一個分布式事務中一個事務,包含一個或多個語句修改分布式資料庫的兩個或多個不同結點的數據. 在分布式資料庫中,事務控制必須在網路上直轄市,保證數據一致性.兩階段提交機制保證參與分布式事務的全部資料庫伺服器是全部提交或全部回滾事務中的語句. ORACLE分布式資料庫系統結構可由ORACLE資料庫管理員為終端用戶和應用提供位置透明性,利用視圖、同義詞、過程可提供ORACLE分布式資料庫系統中的位置透明性. ORACLE允許在SELECT(查詢)、INSERT、UPDATE、DELETE、SELECT…FOR UPDATE和LOCK TABLE語句中引用遠程數據。對於查詢，包含有連接、聚合、子查詢和SELECT …FOR UPDATE，可引用本地的、遠程的表和視圖。對於UPDATE、INSERT、DELETE和LOCK TABLE語句可引用本地的和遠程的表。注意在引用LONG和LONG RAW列、序列、修改表和封鎖表時，必須位於同一個結點。ORACLE不允許作遠程DDL語句。在單場地或分布式資料庫中，所有事務都是用COMMIT或ROLLBACK語句中止。ORACLE提供兩種機制實現分布式資料庫中表重復的透明性：錶快照提供非同步的表重復；觸發器實現同步的表的重復。在兩種情況下，都實現了對表重復的透明性。

⑽ 對象存儲、文件存儲和塊存儲有什麼區別

對象存儲、文件存儲和塊存儲區別為：存儲設備不同、特點不同、缺點不同。

一、存儲設備不同

1、對象存儲：對象存儲的對應存儲設備為swift，鍵值存儲。

2、文件存儲：文件存儲的對應存儲設備為FTP、NFS伺服器。

3、塊存儲：塊存儲的對應存儲設備為cinder，硬碟。

二、特點不同

1、對象存儲：對象存儲的特點是具備塊存儲的高速以及文件存儲的共享等特性。

2、文件存儲：文件存儲的特點是一個大文件夾，大家都可以獲取文件。

3、塊存儲：塊存儲的特點是分區、格式化後，可以使用，與平常主機內置硬碟的方式完全無異。

三、缺點不同

1、對象存儲：對象存儲的缺點是不兼容多種模式並行。

2、文件存儲：文件存儲的缺點是傳輸速率低。

3、塊存儲：塊存儲的缺點是不能共享數據。

分布式存儲標識

與分布式存儲標識相關的內容