開源存儲系統優缺點_的雲存儲系統問下現在有什麼比較常用的開源分布式

1. Redis 和 Memcached 各有什麼優缺點，主要的應用場景是什麼樣的

Redis 和 Memcache 都是基於內存的數據存儲系統。Memcached是高性能分布式內存緩存服務；Redis是一個開源的key-value存儲系統。與Memcached類似，Redis將大部分數據存儲在內存中，支持的數據類型包括：字元串、哈希表、鏈表、等數據類型的相關操作。下面我們來進行來看一下redis和memcached的區別。權威比較
Redis的作者Salvatore Sanfilippo曾經對這兩種基於內存的數據存儲系統進行過比較：
Redis支持伺服器端的數據操作：Redis相比Memcached來說，擁有更多的數據結構和並支持更豐富的數據操作，通常在Memcached里，你需要將數據拿到客戶端來進行類似的修改再set回去。這大大增加了網路IO的次數和數據體積。在Redis中，這些復雜的操作通常和一般的GET/SET一樣高效。所以，如果需要緩存能夠支持更復雜的結構和操作，那麼Redis會是不錯的選擇。
內存使用效率對比：使用簡單的key-value存儲的話，Memcached的內存利用率更高，而如果Redis採用hash結構來做key-value存儲，由於其組合式的壓縮，其內存利用率會高於Memcached。
性能對比：由於Redis只使用單核，而Memcached可以使用多核，所以平均每一個核上Redis在存儲小數據時比Memcached性能更高。而在100k以上的數據中，Memcached性能要高於Redis，雖然Redis最近也在存儲大數據的性能上進行優化，但是比起Memcached，還是稍有遜色。
具體為什麼會出現上面的結論，以下為收集到的資料：
1、數據類型支持不同
與Memcached僅支持簡單的key-value結構的數據記錄不同，Redis支持的數據類型要豐富得多。最為常用的數據類型主要由五種：String、Hash、List、Set和Sorted Set。Redis內部使用一個redisObject對象來表示所有的key和value。redisObject最主要的信息如圖所示：
type代表一個value對象具體是何種數據類型，encoding是不同數據類型在redis內部的存儲方式，比如：type=string代表value存儲的是一個普通字元串，那麼對應的encoding可以是raw或者是int，如果是int則代表實際redis內部是按數值型類存儲和表示這個字元串的，當然前提是這個字元串本身可以用數值表示，比如:」123″ 「456」這樣的字元串。只有打開了Redis的虛擬內存功能，vm欄位欄位才會真正的分配內存，該功能默認是關閉狀態的。
1）String
常用命令：set/get/decr/incr/mget等；
應用場景：String是最常用的一種數據類型，普通的key/value存儲都可以歸為此類；
實現方式：String在redis內部存儲默認就是一個字元串，被redisObject所引用，當遇到incr、decr等操作時會轉成數值型進行計算，此時redisObject的encoding欄位為int。
2）Hash
常用命令：hget/hset/hgetall等
應用場景：我們要存儲一個用戶信息對象數據，其中包括用戶ID、用戶姓名、年齡和生日，通過用戶ID我們希望獲取該用戶的姓名或者年齡或者生日；
實現方式：Redis的Hash實際是內部存儲的Value為一個HashMap，並提供了直接存取這個Map成員的介面。如圖所示，Key是用戶ID, value是一個Map。這個Map的key是成員的屬性名，value是屬性值。這樣對數據的修改和存取都可以直接通過其內部Map的Key(Redis里稱內部Map的key為field), 也就是通過 key(用戶ID) + field(屬性標簽) 就可以操作對應屬性數據。當前HashMap的實現有兩種方式：當HashMap的成員比較少時Redis為了節省內存會採用類似一維數組的方式來緊湊存儲，而不會採用真正的HashMap結構，這時對應的value的redisObject的encoding為zipmap，當成員數量增大時會自動轉成真正的HashMap,此時encoding為ht。
3）List
常用命令：lpush/rpush/lpop/rpop/lrange等；
應用場景：Redis list的應用場景非常多，也是Redis最重要的數據結構之一，比如twitter的關注列表，粉絲列表等都可以用Redis的list結構來實現；
實現方式：Redis list的實現為一個雙向鏈表，即可以支持反向查找和遍歷，更方便操作，不過帶來了部分額外的內存開銷，Redis內部的很多實現，包括發送緩沖隊列等也都是用的這個數據結構。
4）Set
常用命令：sadd/spop/smembers/sunion等；
應用場景：Redis set對外提供的功能與list類似是一個列表的功能，特殊之處在於set是可以自動排重的，當你需要存儲一個列表數據，又不希望出現重復數據時，set是一個很好的選擇，並且set提供了判斷某個成員是否在一個set集合內的重要介面，這個也是list所不能提供的；
實現方式：set 的內部實現是一個 value永遠為null的HashMap，實際就是通過計算hash的方式來快速排重的，這也是set能提供判斷一個成員是否在集合內的原因。
5）Sorted Set
常用命令：zadd/zrange/zrem/zcard等；
應用場景：Redis sorted set的使用場景與set類似，區別是set不是自動有序的，而sorted set可以通過用戶額外提供一個優先順序(score)的參數來為成員排序，並且是插入有序的，即自動排序。當你需要一個有序的並且不重復的集合列表，那麼可以選擇sorted set數據結構，比如twitter 的public timeline可以以發表時間作為score來存儲，這樣獲取時就是自動按時間排好序的。
實現方式：Redis sorted set的內部使用HashMap和跳躍表(SkipList)來保證數據的存儲和有序，HashMap里放的是成員到score的映射，而跳躍表裡存放的是所有的成員，排序依據是HashMap里存的score,使用跳躍表的結構可以獲得比較高的查找效率，並且在實現上比較簡單。
2、內存管理機制不同
在Redis中，並不是所有的數據都一直存儲在內存中的。這是和Memcached相比一個最大的區別。當物理內存用完時，Redis可以將一些很久沒用到的value交換到磁碟。Redis只會緩存所有的key的信息，如果Redis發現內存的使用量超過了某一個閥值，將觸發swap的操作，Redis根據「swappability = age*log(size_in_memory)」計算出哪些key對應的value需要swap到磁碟。然後再將這些key對應的value持久化到磁碟中，同時在內存中清除。這種特性使得Redis可以保持超過其機器本身內存大小的數據。當然，機器本身的內存必須要能夠保持所有的key，畢竟這些數據是不會進行swap操作的。同時由於Redis將內存中的數據swap到磁碟中的時候，提供服務的主線程和進行swap操作的子線程會共享這部分內存，所以如果更新需要swap的數據，Redis將阻塞這個操作，直到子線程完成swap操作後才可以進行修改。當從Redis中讀取數據的時候，如果讀取的key對應的value不在內存中，那麼Redis就需要從swap文件中載入相應數據，然後再返回給請求方。這里就存在一個I/O線程池的問題。在默認的情況下，Redis會出現阻塞，即完成所有的swap文件載入後才會相應。這種策略在客戶端的數量較小，進行批量操作的時候比較合適。但是如果將Redis應用在一個大型的網站應用程序中，這顯然是無法滿足大並發的情況的。所以Redis運行我們設置I/O線程池的大小，對需要從swap文件中載入相應數據的讀取請求進行並發操作，減少阻塞的時間。
對於像Redis和Memcached這種基於內存的資料庫系統來說，內存管理的效率高低是影響系統性能的關鍵因素。傳統C語言中的malloc/free函數是最常用的分配和釋放內存的方法，但是這種方法存在著很大的缺陷：首先，對於開發人員來說不匹配的malloc和free容易造成內存泄露；其次頻繁調用會造成大量內存碎片無法回收重新利用，降低內存利用率；最後作為系統調用，其系統開銷遠遠大於一般函數調用。所以，為了提高內存的管理效率，高效的內存管理方案都不會直接使用malloc/free調用。Redis和Memcached均使用了自身設計的內存管理機制，但是實現方法存在很大的差異，下面將會對兩者的內存管理機制分別進行介紹。
Memcached默認使用Slab Allocation機制管理內存，其主要思想是按照預先規定的大小，將分配的內存分割成特定長度的塊以存儲相應長度的key-value數據記錄，以完全解決內存碎片問題。Slab Allocation機制只為存儲外部數據而設計，也就是說所有的key-value數據都存儲在Slab Allocation系統里，而Memcached的其它內存請求則通過普通的malloc/free來申請，因為這些請求的數量和頻率決定了它們不會對整個系統的性能造成影響Slab Allocation的原理相當簡單。如圖所示，它首先從操作系統申請一大塊內存，並將其分割成各種尺寸的塊Chunk，並把尺寸相同的塊分成組Slab Class。其中，Chunk就是用來存儲key-value數據的最小單位。每個Slab Class的大小，可以在Memcached啟動的時候通過制定Growth Factor來控制。假定圖中Growth Factor的取值為1.25，如果第一組Chunk的大小為88個位元組，第二組Chunk的大小就為112個位元組，依此類推。
當Memcached接收到客戶端發送過來的數據時首先會根據收到數據的大小選擇一個最合適的Slab Class，然後通過查詢Memcached保存著的該Slab Class內空閑Chunk的列表就可以找到一個可用於存儲數據的Chunk。當一條資料庫過期或者丟棄時，該記錄所佔用的Chunk就可以回收，重新添加到空閑列表中。
從以上過程我們可以看出Memcached的內存管理制效率高，而且不會造成內存碎片，但是它最大的缺點就是會導致空間浪費。因為每個Chunk都分配了特定長度的內存空間，所以變長數據無法充分利用這些空間。如圖所示，將100個位元組的數據緩存到128個位元組的Chunk中，剩餘的28個位元組就浪費掉了。
Redis的內存管理主要通過源碼中zmalloc.h和zmalloc.c兩個文件來實現的。Redis為了方便內存的管理，在分配一塊內存之後，會將這塊內存的大小存入內存塊的頭部。如圖所示，real_ptr是redis調用malloc後返回的指針。redis將內存塊的大小size存入頭部，size所佔據的內存大小是已知的，為size_t類型的長度，然後返回ret_ptr。當需要釋放內存的時候，ret_ptr被傳給內存管理程序。通過ret_ptr，程序可以很容易的算出real_ptr的值，然後將real_ptr傳給free釋放內存。
Redis通過定義一個數組來記錄所有的內存分配情況，這個數組的長度為ZMALLOC_MAX_ALLOC_STAT。數組的每一個元素代表當前程序所分配的內存塊的個數，且內存塊的大小為該元素的下標。在源碼中，這個數組為zmalloc_allocations。zmalloc_allocations[16]代表已經分配的長度為16bytes的內存塊的個數。zmalloc.c中有一個靜態變數used_memory用來記錄當前分配的內存總大小。所以，總的來看，Redis採用的是包裝的mallc/free，相較於Memcached的內存管理方法來說，要簡單很多。
3、數據持久化支持
Redis雖然是基於內存的存儲系統，但是它本身是支持內存數據的持久化的，而且提供兩種主要的持久化策略：RDB快照和AOF日誌。而memcached是不支持數據持久化操作的。
1）RDB快照
Redis支持將當前數據的快照存成一個數據文件的持久化機制，即RDB快照。但是一個持續寫入的資料庫如何生成快照呢？Redis藉助了fork命令的 on write機制。在生成快照時，將當前進程fork出一個子進程，然後在子進程中循環所有的數據，將數據寫成為RDB文件。我們可以通過Redis的save指令來配置RDB快照生成的時機，比如配置10分鍾就生成快照，也可以配置有1000次寫入就生成快照，也可以多個規則一起實施。這些規則的定義就在Redis的配置文件中，你也可以通過Redis的CONFIG SET命令在Redis運行時設置規則，不需要重啟Redis。
Redis的RDB文件不會壞掉，因為其寫操作是在一個新進程中進行的，當生成一個新的RDB文件時，Redis生成的子進程會先將數據寫到一個臨時文件中，然後通過原子性rename系統調用將臨時文件重命名為RDB文件，這樣在任何時候出現故障，Redis的RDB文件都總是可用的。同時，Redis的RDB文件也是Redis主從同步內部實現中的一環。RDB有他的不足，就是一旦資料庫出現問題，那麼我們的RDB文件中保存的數據並不是全新的，從上次RDB文件生成到Redis停機這段時間的數據全部丟掉了。在某些業務下，這是可以忍受的。
2）AOF日誌
AOF日誌的全稱是append only file，它是一個追加寫入的日誌文件。與一般資料庫的binlog不同的是，AOF文件是可識別的純文本，它的內容就是一個個的Redis標准命令。只有那些會導致數據發生修改的命令才會追加到AOF文件。每一條修改數據的命令都生成一條日誌，AOF文件會越來越大，所以Redis又提供了一個功能，叫做AOF rewrite。其功能就是重新生成一份AOF文件，新的AOF文件中一條記錄的操作只會有一次，而不像一份老文件那樣，可能記錄了對同一個值的多次操作。其生成過程和RDB類似，也是fork一個進程，直接遍歷數據，寫入新的AOF臨時文件。在寫入新文件的過程中，所有的寫操作日誌還是會寫到原來老的AOF文件中，同時還會記錄在內存緩沖區中。當重完操作完成後，會將所有緩沖區中的日誌一次性寫入到臨時文件中。然後調用原子性的rename命令用新的AOF文件取代老的AOF文件。
AOF是一個寫文件操作，其目的是將操作日誌寫到磁碟上，所以它也同樣會遇到我們上面說的寫操作的流程。在Redis中對AOF調用write寫入後，通過appendfsync選項來控制調用fsync將其寫到磁碟上的時間，下面appendfsync的三個設置項，安全強度逐漸變強。
appendfsync no 當設置appendfsync為no的時候，Redis不會主動調用fsync去將AOF日誌內容同步到磁碟，所以這一切就完全依賴於操作系統的調試了。對大多數Linux操作系統，是每30秒進行一次fsync，將緩沖區中的數據寫到磁碟上。
appendfsync everysec 當設置appendfsync為everysec的時候，Redis會默認每隔一秒進行一次fsync調用，將緩沖區中的數據寫到磁碟。但是當這一次的fsync調用時長超過1秒時。Redis會採取延遲fsync的策略，再等一秒鍾。也就是在兩秒後再進行fsync，這一次的fsync就不管會執行多長時間都會進行。這時候由於在fsync時文件描述符會被阻塞，所以當前的寫操作就會阻塞。所以結論就是，在絕大多數情況下，Redis會每隔一秒進行一次fsync。在最壞的情況下，兩秒鍾會進行一次fsync操作。這一操作在大多數資料庫系統中被稱為group commit，就是組合多次寫操作的數據，一次性將日誌寫到磁碟。
appednfsync always 當設置appendfsync為always時，每一次寫操作都會調用一次fsync，這時數據是最安全的，當然，由於每次都會執行fsync，所以其性能也會受到影響。
對於一般性的業務需求，建議使用RDB的方式進行持久化，原因是RDB的開銷並相比AOF日誌要低很多，對於那些無法忍數據丟失的應用，建議使用AOF日誌。
4、集群管理的不同
Memcached是全內存的數據緩沖系統，Redis雖然支持數據的持久化，但是全內存畢竟才是其高性能的本質。作為基於內存的存儲系統來說，機器物理內存的大小就是系統能夠容納的最大數據量。如果需要處理的數據量超過了單台機器的物理內存大小，就需要構建分布式集群來擴展存儲能力。
Memcached本身並不支持分布式，因此只能在客戶端通過像一致性哈希這樣的分布式演算法來實現Memcached的分布式存儲。下圖給出了Memcached的分布式存儲實現架構。當客戶端向Memcached集群發送數據之前，首先會通過內置的分布式演算法計算出該條數據的目標節點，然後數據會直接發送到該節點上存儲。但客戶端查詢數據時，同樣要計算出查詢數據所在的節點，然後直接向該節點發送查詢請求以獲取數據。
相較於Memcached只能採用客戶端實現分布式存儲，Redis更偏向於在伺服器端構建分布式存儲。最新版本的Redis已經支持了分布式存儲功能。Redis Cluster是一個實現了分布式且允許單點故障的Redis高級版本，它沒有中心節點，具有線性可伸縮的功能。下圖給出Redis Cluster的分布式存儲架構，其中節點與節點之間通過二進制協議進行通信，節點與客戶端之間通過ascii協議進行通信。在數據的放置策略上，Redis Cluster將整個key的數值域分成4096個哈希槽，每個節點上可以存儲一個或多個哈希槽，也就是說當前Redis Cluster支持的最大節點數就是4096。Redis Cluster使用的分布式演算法也很簡單：crc16( key ) % HASH_SLOTS_NUMBER。
為了保證單點故障下的數據可用性，Redis Cluster引入了Master節點和Slave節點。在Redis Cluster中，每個Master節點都會有對應的兩個用於冗餘的Slave節點。這樣在整個集群中，任意兩個節點的宕機都不會導致數據的不可用。當Master節點退出後，集群會自動選擇一個Slave節點成為新的Master節點。

發布於 2017-02-09
241 條評論
分享
收藏感謝收起

張光宇

none
10 人贊同了該回答
先說Redis的特點

Redis 有各種豐富的數據結構，如果和業務對口，用起來會非常方便（比如Timeline, JobQueue等場合）。
Redis支持數據持久化，雖然無法像資料庫那樣完善，但對於互聯網這種場景，完全夠用了。

Memcached的特點
純粹的cache，意思是一般只會expire cache而不會修改(或append)cache。區別就在於，你fetch的時候總會考慮cache missing的情況。
作為cache時，關於性能比較
兩者都經過了良好的設計，在0～300個client的並發GET/SET下，throughput 都在保持在10萬/秒以上。
memcached的性能比redis要好很多(數倍)，這也比較容易理解。但往往瓶頸會在client或者網路等地方。

這里是benchmark

2. 手機的系統主要有哪幾種各個系統的優缺點是什麼

目前應用在手機上的操作系統主要有PalmOS、Symbian、WindowsCE、Linux和Android、iPhoneOS六種，其中採用Symbian、WindowsCE和Android的手機較多，Linux和Palm對應的軟體非常少見。在國內，安裝有Symbian操作系統的手機多為諾基亞生產，酷派、多普達則是WindowsMobile的主要支持者，代表產品有酷派N900+（WindowsCE6.0操作系統）、酷派F800（WindowsCE6.0操作系統）、等。
Symbian系統

Symbian是一個實時性、多任務的純32位操作系統，具有功耗低、內存佔用少等特點，非常適合手機等移動設備使用，經過不斷完善，可以支持GPRS、藍牙、SyncML、以及3G技術。最重要的是它是一個標准化的開放式平台，任何人都可以為支持Symbian的設備開發軟體。與微軟產品不同的是，Symbian將移動設備的通用技術，也就是操作系統的內核，與圖形用戶界面技術分開，能很好的適應不同方式輸入的平台，也可以使廠商可以為自己的產品製作更加友好的操作界面，符合個性化的潮流，這也是用戶能見到不同樣子的Symbian系統的主要原因。現在為這個平台開發的java程序已經開始在互聯網上盛行。用戶可以通過安裝這些軟體，擴展手機功能。

在Symbian發展階段，出現了三個分支：分別是Crystal、Pearl和Quarz。前兩個主要針對通訊器市場，也是出現在手機上最多的，是今後智能手機操作系統的主力軍。第一款基於Symabian系統的手機是2000年上市的愛立信R380手機。而真正較為成熟的同時引起人們注意的則是2001年上市的諾基亞9210，它採用了Crystal分支的系統。而2002年推出的諾基亞7650與3650則是SymbianPearl分系的機型，其中7650是第一款基於2.5G網的智能手機產品，他們都屬於Symbian的6.0版本。索尼愛立信推出的一款機型也使用了Symbian的Pearl分支，版本已經發展到7.0，是專為3G網路而開發的，而目前的諾基亞已經達到8.0的6630、6681等，可以說代表了當今最強大的手機操作系統。此外，Symbian從6.0版本就開始支持外接存儲設備，如MMC卡，這讓它強大的擴展能力得以充分發揮，使存放更多的軟體以及各種大容量的多媒體文件成為了可能。

Windows Mobile系統

WindowsMobile系統包括PocketPC和Smartphone以及MediaCenters，PocketPC針對無線PDA，Smartphone專為手機，已有多個來自IT業的新手機廠商使用，增長率較快。

按照微軟官方的說法：「WindowsMobile將熟悉的Windows體驗擴展到了移動環境中，所以您可以立即使用它投入工作。」

事實上，WindowsMobile是微軟進軍移動設備領域的重大品牌調整，它包括PocketPC、Smartphone以及MediaCenters三大平台體系，面向個人移動電子消費市場。由於大多數機型支持彩色顯示，因此耗電量極大，並且由於WindowsCE本身對於資源的巨大吞噬作用。在功能擴展方面微軟比較傾向於集成使用，大多具有標準的CF卡插槽，用戶可以根據自己的需要增加內存、加裝攝像頭、數據機等設備。

微軟為手機而專門開發的WindowsMobile提供的功能非常多，在不同的平台上實現的功能互有重疊也各有側重。這三個平台都支持和台式機的數據同步。Smartphone提供的功能側重點在聯系方面，它主要支持的功能有：電話、電子郵件、聯系人、即時消息。PocketPC的功能側重個人事務處理和簡單的娛樂，主要支持的功能有：日程安排、移動版Office，簡單多媒體播放功能。

Linux系統

Linux系統是一個源代碼開放的操作系統，目前已經有很多版本流行。但尚未得到較廣泛的支持。

Linux進入到移動終端操作系統近一年多時間，就以其開放源代碼的優勢吸引了越來越多的終端廠商和運營商對它的關注，包括摩托羅拉和NTTDoCoMo等知名的廠商。已經開發出的基於Linux的手機有摩托羅拉的A760、A768、CEC的e2800、三星的i519等。2004年6月在日本東京BIGSIGHT展覽館舉辦的「LinuxWorldExpo/Tokyo2004」博覽會上，日本手機大廠商NEC則展示了其採用Linux操作系統的手機。我國的大唐電信也於7月宣布將Linux作為其TD-SCDMA3G手機操作系統。

Linux與其它操作系統相比是個後來者，但Linux具有二個其它操作系統無法比擬的優勢。其一，Linux具有開放的源代碼，能夠大大降低成本。其二，既滿足了手機製造商根據實際情況有針對性地開發自己的Linux手機操作系統的要求，又吸引了眾多軟體開發商對內容應用軟體的開發，豐富了第三方應用。

然而Linux操作系統有其先天的不足：入門難度高、熟悉其開發環境的工程師少、集成開發環境較差；由於微軟PC操作系統源代碼的不公開，基於Linux的產品與PC的連接性較差；盡管目前從事Linux操作系統開發的公司數量較多，但真正具有很強開發實力的公司卻很少，而且這些公司之間是相互獨立的開發，很難實現更大的技術突破。

盡管Linux在技術和市場方面有獨到的優勢，但是目前來說還無法與Symbian抗衡，想在競爭日益激烈的手機市場中站穩腳跟、搶奪市場份額也決非易事。

Palm OS

這是一種32位的嵌入式操作系統，主要運用於移動終端上。此系統最初由3Com公司的PalmComputing部開發，目前PalmComputing已經獨立成一家公司。PalmOS與同步軟體HotSync結合可以使移動終端與電腦上的信息實現同步，把台式機的功能擴展到了移動設備上。

PalmOS操作系統由Palm公司自行開發的，並授權給Handspring、索尼和高通等設備廠家，這種操作系統更傾向於PDA的操作系統。

PalmOS在PDA市場佔有主導地位。Palm的產品線本身就包括智能手機，又宣布與最早的智能手機開發者Handspring購並，同時將軟體部門獨立。

Android系統

這是Google開發的基於Linux平台的開源手機操作系統。它包括操作系統、用戶界面和應用程序——行動電話工作所需的全部軟體，而且不存在任何以往阻礙移動產業創新的專有權障礙。Google與開放手機聯盟合作開發了Android，這個聯盟由包括中國移動、摩托羅拉、高通、宏達電和T-Mobile在內的30多家技術和無線應用的領軍企業組成。Google通過與運營商、設備製造商、開發商和其他有關各方結成深層次的合作夥伴關系，希望藉助建立標准化、開放式的行動電話軟體平台，在移動產業內形成一個開放式的生態系統。

Android作為谷歌企業戰略的重要組成部分，將進一步推進"隨時隨地為每個人提供信息"這一企業目標的實現。我們發現，全球為數眾多的行動電話用戶從未使用過任何基於Android的電話。谷歌的目標是讓（移動通訊）不依賴於設備甚至平台。出於這個目的，Android將補充，而不會替代谷歌長期以來奉行的移動發展戰略：通過與全球各地的手機製造商和移動運營商結成合作夥伴，開發既有用又有吸引力的移動服務，並推廣這些產品。

3. 有沒有用Java寫的輕量級開源的分布式存儲系統

以下內容源於分布式內存文件系統：Tachyon 14年9月的文章
Tachyon是一個分布式內存文件系統，可以在集群里以訪問內存的速度來訪問存在tachyon里的文件。把Tachyon是架構在最底層的分布式文件存儲和上層的各種計算框架之間的一種中間件。主要職責是將那些不需要落地到DFS里的文件，落地到分布式內存文件系統中，來達到共享內存，從而提高效率。同時可以減少內存冗餘，GC時間等。
<img src="https://pic3.mg.com/_b.png" data-rawwidth="810" data-rawheight="311" class="origin_image zh-lightbox-thumb" width="810" data-original="https://pic3.mg.com/_r.png">
Tachyon架構
Tachyon的架構是傳統的Master—slave架構，這里和Hadoop類似，TachyonMaster里WorkflowManager是 Master進程，因為是為了防止單點問題，通過Zookeeper做了HA，可以部署多台Standby Master。Slave是由Worker Daemon和Ramdisk構成。這里個人理解只有Worker Daemon是基於JVM的，Ramdisk是一個off heap memory。Master和Worker直接的通訊協議是Thrift。
下圖來自Tachyon的作者Haoyuan Li：
<img src="https://pic4.mg.com/_b.png" data-rawwidth="854" data-rawheight="571" class="origin_image zh-lightbox-thumb" width="854" data-original="https://pic4.mg.com/_r.png">
三、Fault Tolerant
Tachyon是一個分布式文件存儲系統，但是如果Tachyon里的容錯機制是怎麼樣的呢？
Tachyon使用血統這個我們在Spark里的RDD里已經很熟悉了，這里也有血統這一概念。會使用血統，通過非同步的向Tachyon的底層文件系統做Checkpoint。
當我們向Tachyon裡面寫入文件的時候，Tachyon會在後台非同步的把這個文件給checkpoint到它的底層存儲，比如HDFS，S3.. etc...
這里用到了一個Edge的演算法，來決定checkpoint的順序。
比較好的策略是每次當前一個checkpoint完成之後，就會checkpoint一個最新生成的文件。當然想Hadoop，Hive這樣的中間文件，需要刪除的，是不需要checkpoint的。
下圖來自Tachyon的作者Haoyuan Li：
<img src="https://pic1.mg.com/_b.png" data-rawwidth="822" data-rawheight="609" class="origin_image zh-lightbox-thumb" width="822" data-original="https://pic1.mg.com/_r.png">

關於重新計算時，資源的分配策略：
目前Tachyon支持2種資源分配策略：
1、優先順序的資源分配策略
2、公平調度的分配策略
<img src="https://pic2.mg.com/_b.png" data-rawwidth="940" data-rawheight="621" class="origin_image zh-lightbox-thumb" width="940" data-original="https://pic2.mg.com/_r.png">

四、總結
Tachyon是一個基於內存的分布式文件系統，通常位於分布式存儲系統和計算框架直接，可以在不同框架內共享內存，同時可以減少內存冗餘和基於Jvm內存計算框架的GC時間。
Tachyon也有類似RDD的血統概念，input文件和output文件都是會有血統關系，這樣來達到容錯。並且Tachyon也利用血統關系，非同步的做checkpoint，文件丟失情況下，也能利用兩種資源分配策略來優先計算丟失掉的資源。

4. Ceph為什麼越來越火國內使用ceph較為成功的存儲廠商有哪些

Ceph是當前非常流行的開源分布式存儲系統，具有高擴展性、高性能、高可靠性等優點，同時提供塊存儲服務(rbd)、對象存儲服務(rgw)以及文件系統存儲服務(cephfs)。目前也是OpenStack的主流後端存儲，隨著OpenStack在雲計算領域的廣泛使用，ceph也變得更加炙手可熱。國內目前使用ceph搭建分布式存儲系統較為成功的企業有x-sky,深圳元核雲，上海UCloud等三家企業。

5. 的雲存儲系統，問下現在有什麼比較常用的開源分布式

書生雲於宣布將基於SAS架構的新一代開源分布式存儲技術——SurFS開源。SurFS是書生雲公司自主研發的分布式存儲系統，是雲平台的核心部件，在性能和成本兩方面具有一定實力。書生雲將具有自身知識產權的商業軟體開源，對軟體行業將帶來哪些影響? 書生雲董事長王東臨眾所周知，開源軟體技術領域較為知名的除了Android(安卓)、Linux、MySQL、OpenOffice、OpenStack等開源社區外，企業級領域軟體開源的並不算多，但也能看到其中一些卓越領導者，比如知名開源軟體企業 RedHat， RedHat的年收入甚至超過了20億美元。因此，書生雲董事長王東臨認為：「雖然在視核心技術商業機密的傳統思維里，軟體企業將自身擁有知識產權的軟體的開源顯得另類，但隨著開源系統在全球的廣泛普及，未來開源與商業也會得到完美結合，形成了「先奉獻後收益」、「貢獻越大收益越大」的格局。」存儲系統是雲平台的核心部件，對雲平台的整體性能和成本都有極大的影響。SurFS通過對存儲網路的顛覆式創新，第一個採用SAS做存儲網路構建分布式存儲系統，將帶寬提升了幾十倍延時降低了幾十倍，而且從架構體繫上完全打破了傳統存儲體系的桎梏，將存儲控制節點與存儲介質分離，存儲控制節點與計算節點聚合，從而將數據I/O路徑壓縮到了極致，將擴容成本也壓縮到了極致，大幅提升了整個雲平台的性能，同時還顯著降低了成本，同時實現高性能、低成本、高可靠、高可用和可擴展性。對於正在向私有雲遷移的廣大企業級用戶來說，SurFS的確有著很大的優越性。筆者小結書生雲基於SAS存儲網路構建的新一代開源分布式存儲SurFS 開源後將成為OpenStack等主流雲平台的存儲後端之一，對於廣大IT工程師和終端用戶來說，更無異是一針強心劑，開源社區在得到完善管理的前提下，對於未來的存儲技術及應用會有更加加速的發展。SurFS 開源將為全球企業級用戶搭建高性價比的雲平台，並為廣大IT企業提供一個切磋、改善行業價值鏈的機遇的開源，基於SurFS技術的雲平台有望成為全球雲產業的主流部署模式之一。當然，書生雲的SurFS 開源仍然只是國內軟體業的起步!無論是業務模式的探索還是開源後社區的維護，還需要時間及智慧來推進。

6. 目前國內有公司在使用開源的ceph分布式存儲系統嗎

有，我知道的使用ceph的公司主要有元核雲、XSky、杉岩數據等，其他的華為雲、深信服等公司也有分布式存儲，不過不知道是不是基於ceph的。

7. 如何搭建私有雲存儲

虛擬化技術在企業私有雲IT基礎架構中仍然占據重要地位，同時，為了進一步提升應用效率，越來越多的生產環境也正在逐步變革，從以虛擬機為中心的架構向以容器和微服務為中心的雲原生架構過渡，在這個過程中，存儲如何有效支撐各種雲主機應用與微服務應用，對於企業的私有雲數據中心提出了新的挑戰。

企業面臨的問題

存儲設施七國八制，硬體鎖定缺少彈性

多種雲平台對於存儲的要求各不相同，塊/文件/對象存儲對應不同類型的應用，對外提供不同的服務介面，一種存儲設備無法滿足多種類型的雲平台存儲需求，而且傳統存儲在擴展性方面不能滿足雲時代大規模雲平台對存儲在線彈性擴容的需求，在可維護性方面則面臨硬體架構綁定、運維復雜、難以維保等問題，而且這些問題會隨著存儲設備種類和數量的增多進一步放大。

業務調度變更頻繁，資源不能共享

隨著開發測試虛擬機以及容器、微服務平台在企業私有雲平台的上線，大型企業的應用快速迭代、頻繁發布對存儲系統的支撐提出了嚴峻挑戰，不同業務的數據保存在不同廠商的存儲設備中，數據流動性差，不僅導致存儲空間及性能資源浪費嚴重，數據災備方案也很難統一化。

開源產品難以維護，不能實現企業級產品化

基於開源虛擬化技術的雲平台如OpenStack為眾多客戶提供了快速構建私有雲基礎設施的能力，但是存儲部分卻不一樣，開源的存儲系統如Ceph雖然可以小規模部署試用，但在大規模商用時會遇到很多問題：與硬體和企業級應用生態融合程度不高，嚴重依賴人工開發運維，在性能和服務質量方面不能滿足核心業務的需求

杉岩私有雲存儲解決方案

杉岩私有雲存儲解決方案充分發揮了杉岩統一存儲平台（USP）的雲適配、開放等優勢，支持各種復雜的應用負載，可靈活支撐私有雲的虛擬化平台，如VMware、Citrix、OpenStack等虛擬化和雲平台，以及通過Kubernetes軟體一致性認證的所有容器雲平台，如：Rancher、Openshift、Kubernetes等。

通過杉岩統一存儲平台，用戶可快速構建能夠兼容所有主流虛擬化平台與容器微服務平台的統一存儲資源池，面對各種虛擬機和微服務需求，池化的存儲平台為大規模雲環境提供了可靠的存儲基礎架構支撐，幫助用戶從紛繁復雜的基礎架構運維工作中解放出來，更關注於私有雲上運行的業務本身。

客戶價值

資源整合，鏈接企業信息孤島

單資源池提供塊、文件、對象多種存儲服務，支持虛擬化平台和資料庫應用；強大的存儲資源生命周期管理能力，跨雲平台在線遷移數據，實現數據共享和提高資源利用率；存儲卷QoS等級和性能優先順序在線調整，可根據企業資源和業務需求合理配置資源。

開放兼容，適配多種私有雲平台

通過VMware VAAI和Citrix Ready認證，針對主流虛擬化平台優化I/O性能，大幅提升虛擬機訪問的性能。通過OpenStack Cinder認證，可提供塊和對象存儲基礎架構支撐支持容器平台CSI介面認證，為Kubernetes生態的容器應用提供塊和文件存儲服務。

智能管理，解決規模化運維難題

向導式安裝部署和自助擴容配置，極大提升易用性和可維護性，管理自動化降低運維成本；針對大規模集群優化的可靠性管理，檢測和修復硬碟軟錯誤的專利技術，節約用戶硬體投資。存儲視角的管理功能，可視化展示主機、容器與存儲的映射關系和性能監控協助管理員快速定位和解決問題。

8. 國內較好的分布式雲存儲產品有哪些

阿里雲的分布式存儲系統盤古是自主研發的代表，支撐了大多數阿里雲的存儲和計算產品。
網路，github上有個開源的分布式文件系統，但是感覺跟工業級差別比較大。
騰訊，PaxosStore應該算一個。
華為，好多做存儲的團隊，有使用開源的，有自研的。
雲科數據，YK4000及YK6000的兩款超融合一體機的市場前景頗為看好，這與其行業領先、與世界同步的技術優勢不無關系，採用了核心分布式存儲軟體EMC ScaleIO，搭建起與谷歌、Facebook、亞馬遜等 Web大規模的公有雲相同的基礎架構。
大公司應該都有能力和資源自己寫分布式存儲系統，就看如何打磨得更適合自己的業務特點了。

開源存儲系統優缺點

與開源存儲系統優缺點相關的內容