海量數據存儲新思路_在大數量級的數據存儲上比較靠譜的分布式文件存儲有哪些

① 海量數據存儲

存儲技術經歷了單個磁碟、磁帶、RAID到網路存儲系統的發展歷程。網路存儲技術就是將網路技術和I/O技術集成起來，利用網路的定址能力、即插即用的連接性、靈活性，存儲的高性能和高效率，提供基於網路的數據存儲和共享服務。在超大數據量的存儲管理、擴展性方面具有明顯的優勢。

典型的網路存儲技術有網路附加存儲NAS（Network Attached Storage）和存儲區域網SAN（Storage Area Networks）兩種。

1）NAS技術是網路技術在存儲領域的延伸和發展。它直接將存儲設備掛在網上，有良好的共享性、開放性。缺點是與LAN共同用物理網路，易形成擁塞，而影響性能。特別是在數據備份時，性能較低，影響在企業存儲應用中的地位。

2）SAN技術是以數據存儲為中心，使用光纖通道連接高速網路存儲的體系結構。即將數據存儲作為網路上的一個區域獨立出來。在高度的設備和數據共享基礎上，減輕網路和伺服器的負擔。因光纖通道的存儲網和LAN分開，使性能得到很大的提高，而且還提供了很高的可靠性和強大的連續業務處理能力。在SAN中系統的擴展、數據遷移、數據本地備份、遠程數據容災數據備份和數據管理等都比較方便，整個SAN成為一個統一管理的存儲池（Storage Pool）。SAN存儲設備之間通過專用通道進行通信，不佔用伺服器的資源。因此非常適合超大量數據的存儲，成為網路存儲的主流。

3）存儲虛擬化技術是將系統中各種異構的存儲設備映射為一個單一的存儲資源，對用戶完全透明，達到互操作性的目的和利用已有的硬體資源，把SAN內部的各種異構的存儲資源統一成一個單一視圖的存儲池，可根據用戶的需要方便地切割、分配。從而保持已有的投資，減少總體成本，提高存儲效率。

存儲虛擬化包括3個層次結構：基於伺服器的虛擬化存儲、基於存儲設備的虛擬化存儲和基於網路的虛擬化存儲。

1）基於伺服器的虛擬化存儲由邏輯管理軟體在主機/伺服器上完成。經過虛擬化的存儲空間可跨越多個異構的磁碟陣列，具有高度的穩定性和開放性，實現容易、簡便。但對異構環境和分散管理不太適應。

2）基於存儲設備的虛擬化存儲，因一些高端磁碟陣列本身具有智能化管理，可以實現同一陣列，供不同主機分享。其結構性能可達到最優。但實現起來價格昂貴，可操作性差。

3）基於網路的虛擬化存儲，通過使用專用的存儲管理伺服器和相應的虛擬化軟體，實現多個主機/伺服器對多個異構存儲設備之間進行訪問，達到不同主機和存儲之間真正的互連和共享，成為虛擬存儲的主要形式。根據不同結構可分為基於專用伺服器和基於存儲路由器兩種方式。①基於專用伺服器的虛擬化，是用一台伺服器專用於提供系統的虛擬化功能。根據網路拓撲結構和專用伺服器的具體功能，其虛擬化結構有對稱和非對稱兩種方式。在對稱結構中數據的傳輸與元數據訪問使用同一通路。實現簡單，對伺服器和存儲設備的影響小，對異構環境的適應性強。缺點是專用伺服器可能成為系統性能的瓶頸，影響SAN的擴展。在非對稱結構中，數據的傳輸與元數據訪問使用不同通路。應用伺服器的I/O命令先通過命令通路傳送到專用伺服器，獲取元數據和傳輸數據視圖後，再通過數據通路得到所需的數據。與對稱結構相比，提高了存儲系統的性能，增加了擴展能力。②基於存儲路由器的SAN虛擬化，存儲路由器是一種智能化設備，既具有路由器的功能，又針對I/O進行專門優化。它部署在存儲路由器上，多個存儲路由器保存著整個存儲系統中的元數據多個副本，並通過一定的更新策略保持一致性。這種結構中，因存儲路由器具有強大的協議功能，所以具有更多的優勢。能充分利用存儲資源，保護投資。能實現軟硬體隔離，並輔有大量的自動化工具，提高了虛擬伺服器的安全性，降低對技術人員的需求和成本。

② 海量空間數據存儲

(一)空間數據存儲技術

隨著地理信息系統的發展，空間資料庫技術也得到了很大的發展，並出現了很多新的空間資料庫技術(黃釗等，2003)，其中應用最廣的就是用關系資料庫管理系統(RDBMS)來管理空間數據。

用關系資料庫管理系統來管理空間數據，主要解決存儲在關系資料庫中的空間數據與應用程序之間的數據介面問題，即空間資料庫引擎(SpatialDatabase Engine)(熊麗華等，2004)。更確切地說，空間資料庫技術是解決空間數據對象中幾何屬性在關系資料庫中的存取問題，其主要任務是:

(1)用關系資料庫存儲管理空間數據;

(2)從資料庫中讀取空間數據，並轉換為GIS應用程序能夠接收和使用的格式;

(3)將GIS應用程序中的空間數據導入資料庫，交給關系資料庫管理。

空間資料庫中數據存儲主要有三種模式:拓撲關系數據存儲模式、Oracle Spatial模式和ArcSDE模式。拓撲關系數據存儲模式將空間數據存在文件中，而將屬性數據存在資料庫系統中，二者以一個關鍵字相連。這樣分離存儲的方式由於存在數據的管理和維護困難、數據訪問速度慢、多用戶數據並發共享沖突等問題而不適用於大型空間資料庫的建設。而OracleSpatial實際上只是在原來的資料庫模型上進行了空間數據模型的擴展，實現的是「點、線、面」等簡單要素的存儲和檢索，所以它並不能存儲數據之間復雜的拓撲關系，也不能建立一個空間幾何網路。ArcSDE解決了這些問題，並利用空間索引機制來提高查詢速度，利用長事務和版本機制來實現多用戶同時操縱同一類型數據，利用特殊的表結構來實現空間數據和屬性數據的無縫集成等(熊麗華等，2004)。

ArcSDE是ESRI公司開發的一個中間件產品，所謂中間件是一個軟體，它允許應用元素通過網路連接進行互操作，屏蔽其下的通訊協議、系統結構、操作系統、資料庫和其他應用服務。中間件位於客戶機/伺服器的操作系統之上，管理計算資源和網路通訊，並營造出一個相對穩定的高層應用環境，使開發人員可以集中精力於系統的上層開發，而不用過多考慮系統分布式環境下的移植性和通訊能力。因此，中間件能無縫地連入應用開發環境中，應用程序可以很容易地定位和共享中間件提供的應用邏輯和數據，易於系統集成。在分布式的網路環境下，客戶端的應用程序如果要訪問網路上某個伺服器的信息，而伺服器可能運行在不同於客戶端的操作系統和資料庫系統中。此時，客戶機的應用程序中負責尋找數據的部分只需要訪問一個數據訪問中間件，由該中間件完成網路中數據或服務的查找，然後將查找的信息返回給客戶端(萬定生等，2003)。因此，本系統實現空間資料庫存儲的基本思想就是利用ArcSDE實現各類空間數據的存儲。

目前，空間數據存儲技術已比較成熟，出現了許多類似ArcSDE功能的中間件產品，這些軟體基本上都能實現空間數據的資料庫存儲與管理，但對於海量空間數據的存儲，各種軟體性能差別較大。隨著數據量的增長，計算機在分析處理上會產生很多問題，比如數據不可能一次完全被讀入計算機的內存中進行處理。單純依賴於硬體技術，並不能滿足持續增長的數據的處理要求。因此需要在軟體上找到處理海量數據的策略，並最終通過軟硬體的結合完成對海量數據的處理。在海量數據存儲問題上，許多專家從不同側面進行過研究，Lindstrom在地形簡化中使用了外存模型(Out-of-core)技術;鍾正採用了基於數據分塊、動態調用的策略;汪國平等人在研究使用高速網路進行三維海量地形數據的實時交互瀏覽中，採用了分塊、多解析度模板建立模型等方法。這些技術、方法已經在各自系統上進行了研究和實現。本系統採用的ArcSDE軟體基本上也是採用分塊模型的方法，具體存儲和操作不需要用戶過多了解，已經由ArcSDE軟體實現。因此，對海量數據的存儲管理，更需要從數據的組織方式等方面進行設計。塔里木河流域生態環境動態監測系統採集了大量的遙感影像、正射影像等柵格結構的數據，這些數據具有很大的數據量，為適應流域空間基礎設施的管理需要，採取一種新的方式來管理、分發這些海量數據以適應各部門的快速瀏覽和管理需要。

(二)影像金字塔結構

影像資料庫的組織是影像資料庫效率的關鍵，為了獲得高效率的存取速度，在數據的組織上使用了金字塔數據結構和網格分塊數據結構。該技術主導思想如下:

(1)將資料庫中使用到的紋理處理成為大小一致的紋理塊;

(2)為每塊紋理生成5個細節等級的紋理，分別為0、1、2、3、4，其中1級紋理通過0級紋理1/4壓縮得到，2級紋理通過1級紋理1/4壓縮得到，…，以此類推;

(3)在顯示每個塊數據之前，根據顯示比例的大小，並以此決定該使用那一級的紋理;

(4)在內存中建立紋理緩沖池，使用LRU演算法進行紋理塊的調度，確保使用頻率高的紋理調度次數盡可能少。

(三)影像數據壓縮

影像數據壓縮有無損壓縮和有損壓縮兩個方法，具體採取哪種壓縮方法需根據具體情況確定。對於像元值很重要的數據，如分類數據、分析數據等採用無損壓縮(即LZ77演算法)，否則採用有損壓縮(即JPEG演算法)。通過對影像數據的壓縮，一方面可以節約存儲空間，另一方面可以加快影像的讀取和顯示速度。影像數據的壓縮一般與構建金字塔同時進行，在構建影像金字塔過程中自動完成數據的壓縮。

③ 銀行海量交易數據是怎麼存儲的

海量數據時代正在來臨。數據信息量如潮水般迅猛增長，根據分析機構IDC最新研究結果，2011年全球數據量突破了1.8ZB，在5年時間年迅速增長9倍，受管理的數據量更是增加50倍之多。英特爾的IO加速解決方案中的一個關鍵特性——存儲I/O加速採用了基於硬體的加速功能，讓來自於以及傳輸到應用的數據速度更快。這包括增加RAID 6技術在數據傳輸過程中進行糾錯。不僅確保了更快速的數據傳輸，同時避免數據在磁碟和磁碟存儲系統中傳輸時發生丟失或者篡改。位元組奇偶校驗被用來保證數據通過存儲子系統時的完整性。數據的奇偶校驗被寫入到磁碟驅動器，防止在多個硬碟發生故障時丟失數據，或者重建過程中有壞數據塊。這增加了系統的可用性和可靠性，縮短了備份窗口，加快磁碟重建以及數據的保護。

④ 互聯網如何海量存儲數據

目前存儲海量數據的技術主要包括NoSQL、分布式文件系統、和傳統關系型資料庫。隨著互聯網行業不斷的發展，產生的數據量越來越多，並且這些數據的特點是半結構化和非結構化，數據很可能是不精確的，易變的。這樣傳統關系型資料庫就無法發揮它的優勢。因此，目前互聯網行業偏向於使用NoSQL和分布式文件系統來存儲海量數據。

下面介紹下常用的NoSQL和分布式文件系統。
NoSQL
互聯網行業常用的NoSQL有：HBase、MongoDB、Couchbase、LevelDB。

HBase是Apache Hadoop的子項目,理論依據為Google論文 Bigtable: A Distributed Storage System for Structured Data開發的。HBase適合存儲半結構化或非結構化的數據。HBase的數據模型是稀疏的、分布式的、持久穩固的多維map。HBase也有行和列的概念，這是與RDBMS相同的地方，但卻又不同。HBase底層採用HDFS作為文件系統，具有高可靠性、高性能。

MongoDB是一種支持高性能數據存儲的開源文檔型資料庫。支持嵌入式數據模型以減少對資料庫系統的I/O、利用索引實現快速查詢，並且嵌入式文檔和集合也支持索引，它復制能力被稱作復制集（replica set），提供了自動的故障遷移和數據冗餘。MongoDB的分片策略將數據分布在伺服器集群上。

Couchbase這種NoSQL有三個重要的組件：Couchbase伺服器、Couchbase Gateway、Couchbase Lite。Couchbase伺服器，支持橫向擴展，面向文檔的資料庫，支持鍵值操作，類似於SQL查詢和內置的全文搜索;Couchbase Gateway提供了用於RESTful和流式訪問數據的應用層API。Couchbase Lite是一款面向移動設備和「邊緣」系統的嵌入式資料庫。Couchbase支持千萬級海量數據存儲
分布式文件系統
如果針對單個大文件，譬如超過100MB的文件，使用NoSQL存儲就不適當了。使用分布式文件系統的優勢在於，分布式文件系統隔離底層數據存儲和分布的細節，展示給用戶的是一個統一的邏輯視圖。常用的分布式文件系統有Google File System、HDFS、MooseFS、Ceph、GlusterFS、Lustre等。

相比過去打電話、發簡訊、用彩鈴的「老三樣」，移動互聯網的發展使得人們可以隨時隨地通過刷微博、看視頻、微信聊天、瀏覽網頁、地圖導航、網上購物、外賣訂餐等，這些業務的海量數據都構建在大規模網路雲資源池之上。當14億中國人把衣食住行搬上移動互聯網的同時，也給網路雲資源池帶來巨大業務挑戰。

首先，用戶需求動態變化，傳統業務流量主要是端到端模式，較為穩定；而互聯網流量易受熱點內容牽引，數據流量流向復雜和規模多變：比如雙十一購物狂潮，電商平台訂單創建峰值達到58.3萬筆，要求通信網路提供高並發支持；又如優酷春節期間有超過23億人次上網刷劇、抖音拜年短視頻增長超10倍，需要通信網路能夠靈活擴充帶寬。面對用戶動態多變的需求，通信網路需要具備快速洞察和響應用戶需求的能力，提供高效、彈性、智能的數據服務。

「隨著通信網路管道十倍百倍加粗、節點數從千萬級逐漸躍升至百億千億級，如何『接得住、存得下』海量數據，成為網路雲資源池建設面臨的巨大考驗」，李輝表示。一直以來，作為新數據存儲首倡者和引領者，浪潮存儲攜手通信行業用戶，不斷探索提速通信網路雲基礎設施的各種姿勢。

早在2018年，浪潮存儲就參與了通信行業基礎設施建設，四年內累計交付約5000套存儲產品，涵蓋全快閃記憶體儲、高端存儲、分布式存儲等明星產品。其中在網路雲建設中，浪潮存儲已連續兩年兩次中標全球最大的NFV網路雲項目，其中在網路雲二期建設中，浪潮存儲提供數千節點，為上層網元、應用提供高效數據服務。在最新的NFV三期項目中，浪潮存儲也已中標。

能夠與通信用戶在網路雲建設中多次握手，背後是浪潮存儲的持續技術投入與創新。浪潮存儲6年內投入超30億研發經費，開發了業界首個「多合一」極簡架構的浪潮並行融合存儲系統。此存儲系統能夠統籌管理數千個節點，實現性能、容量線性擴展；同時基於浪潮iTurbo智能加速引擎的智能IO均衡、智能資源調度、智能元數據管理等功能，與自研NVMe SSD快閃記憶體檔進行系統級別聯調優化，讓百萬級IO均衡落盤且路徑更短，將存儲系統性能發揮到極致。

「為了確保全球最大規模的網路雲正常上線運行，我們聯合用戶對存儲集群展開了長達數月的魔鬼測試」，浪潮存儲工程師表示。網路雲的IO以虛擬機數據和上層應用數據為主，浪潮按照每個存儲集群支持15000台虛機進行配置，分別對單卷隨機讀寫、順序寫、混合讀寫以及全系統隨機讀寫的IO、帶寬、時延等指標進行了360無死角測試，達到了通信用戶提出的單卷、系統性能不低於4萬和12萬IOPS、時延小於3ms的要求，產品成熟度得到了驗證。

以通信行業為例，2020年全國移動互聯網接入流量1656億GB，相當於中國14億人每人消耗118GB數據；其中春節期間，移動互聯網更是創下7天消耗36億GB數據流量的記錄，還「捎帶」打了548億分鍾電話、發送212億條簡訊……海量實時數據洪流，在網路雲資源池(NFV)支撐下收放自如，其中分布式存儲平台發揮了作用。如此樣板工程，其巨大示範及拉動作用不言而喻。

⑤ 如何處理海量數據

在實際的工作環境下，許多人會遇到海量數據這個復雜而艱巨的問題，它的主要難點有以下幾個方面：
一、數據量過大，數據中什麼情況都可能存在。
如果說有10條數據，那麼大不了每條去逐一檢查，人為處理，如果有上百條數據，也可以考慮，如果數據上到千萬級別，甚至過億，那不是手工能解決的了，必須通過工具或者程序進行處理，尤其海量的數據中，什麼情況都可能存在，例如，數據中某處格式出了問題，尤其在程序處理時，前面還能正常處理，突然到了某個地方問題出現了，程序終止了。
二、軟硬體要求高，系統資源佔用率高。
對海量的數據進行處理，除了好的方法，最重要的就是合理使用工具，合理分配系統資源。一般情況，如果處理的數據過TB級，小型機是要考慮的，普通的機子如果有好的方法可以考慮，不過也必須加大CPU和內存，就象面對著千軍萬馬，光有勇氣沒有一兵一卒是很難取勝的。
三、要求很高的處理方法和技巧。
這也是本文的寫作目的所在，好的處理方法是一位工程師長期工作經驗的積累，也是個人的經驗的總結。沒有通用的處理方法，但有通用的原理和規則。
下面我們來詳細介紹一下處理海量數據的經驗和技巧：
一、選用優秀的資料庫工具
現在的資料庫工具廠家比較多，對海量數據的處理對所使用的資料庫工具要求比較高，一般使用Oracle或者DB2，微軟公司最近發布的SQL Server 2005性能也不錯。另外在BI領域：資料庫，數據倉庫，多維資料庫，數據挖掘等相關工具也要進行選擇，象好的ETL工具和好的OLAP工具都十分必要，例如Informatic，Eassbase等。筆者在實際數據分析項目中，對每天6000萬條的日誌數據進行處理，使用SQL Server 2000需要花費6小時，而使用SQL Server 2005則只需要花費3小時。
二、編寫優良的程序代碼
處理數據離不開優秀的程序代碼，尤其在進行復雜數據處理時，必須使用程序。好的程序代碼對數據的處理至關重要，這不僅僅是數據處理准確度的問題，更是數據處理效率的問題。良好的程序代碼應該包含好的演算法，包含好的處理流程，包含好的效率，包含好的異常處理機制等。
三、對海量數據進行分區操作
對海量數據進行分區操作十分必要，例如針對按年份存取的數據，我們可以按年進行分區，不同的資料庫有不同的分區方式，不過處理機制大體相同。例如SQL Server的資料庫分區是將不同的數據存於不同的文件組下，而不同的文件組存於不同的磁碟分區下，這樣將數據分散開，減小磁碟I/O，減小了系統負荷，而且還可以將日誌，索引等放於不同的分區下。
四、建立廣泛的索引
對海量的數據處理，對大表建立索引是必行的，建立索引要考慮到具體情況，例如針對大表的分組、排序等欄位，都要建立相應索引，一般還可以建立復合索引，對經常插入的表則建立索引時要小心，筆者在處理數據時，曾經在一個ETL流程中，當插入表時，首先刪除索引，然後插入完畢，建立索引，並實施聚合操作，聚合完成後，再次插入前還是刪除索引，所以索引要用到好的時機，索引的填充因子和聚集、非聚集索引都要考慮。
五、建立緩存機制
當數據量增加時，一般的處理工具都要考慮到緩存問題。緩存大小設置的好差也關繫到數據處理的成敗，例如，筆者在處理2億條數據聚合操作時，緩存設置為100000條/Buffer，這對於這個級別的數據量是可行的。
六、加大虛擬內存
如果系統資源有限，內存提示不足，則可以靠增加虛擬內存來解決。筆者在實際項目中曾經遇到針對18億條的數據進行處理，內存為1GB，1個P42.4G的CPU，對這么大的數據量進行聚合操作是有問題的，提示內存不足，那麼採用了加大虛擬內存的方法來解決，在6塊磁碟分區上分別建立了6個4096M的磁碟分區，用於虛擬內存，這樣虛擬的內存則增加為 4096*6 + 1024 =25600 M，解決了數據處理中的內存不足問題。
七、分批處理
海量數據處理難因為數據量大，那麼解決海量數據處理難的問題其中一個技巧是減少數據量。可以對海量數據分批處理，然後處理後的數據再進行合並操作，這樣逐個擊破，有利於小數據量的處理，不至於面對大數據量帶來的問題，不過這種方法也要因時因勢進行，如果不允許拆分數據，還需要另想辦法。不過一般的數據按天、按月、按年等存儲的，都可以採用先分後合的方法，對數據進行分開處理。
八、使用臨時表和中間表
數據量增加時，處理中要考慮提前匯總。這樣做的目的是化整為零，大表變小表，分塊處理完成後，再利用一定的規則進行合並，處理過程中的臨時表的使用和中間結果的保存都非常重要，如果對於超海量的數據，大表處理不了，只能拆分為多個小表。如果處理過程中需要多步匯總操作，可按匯總步驟一步步來，不要一條語句完成，一口氣吃掉一個胖子。
九、優化查詢SQL語句
在對海量數據進行查詢處理過程中，查詢的SQL語句的性能對查詢效率的影響是非常大的，編寫高效優良的SQL腳本和存儲過程是資料庫工作人員的職責，也是檢驗資料庫工作人員水平的一個標准，在對SQL語句的編寫過程中，例如減少關聯，少用或不用游標，設計好高效的資料庫表結構等都十分必要。筆者在工作中試著對1億行的數據使用游標，運行3個小時沒有出結果，這是一定要改用程序處理了。
十、使用文本格式進行處理
對一般的數據處理可以使用資料庫，如果對復雜的數據處理，必須藉助程序，那麼在程序操作資料庫和程序操作文本之間選擇，是一定要選擇程序操作文本的，原因為：程序操作文本速度快；對文本進行處理不容易出錯；文本的存儲不受限制等。例如一般的海量的網路日誌都是文本格式或者 csv格式（文本格式），對它進行處理牽扯到數據清洗，是要利用程序進行處理的，而不建議導入資料庫再做清洗。
十一、定製強大的清洗規則和出錯處理機制
海量數據中存在著不一致性，極有可能出現某處的瑕疵。例如，同樣的數據中的時間欄位，有的可能為非標準的時間，出現的原因可能為應用程序的錯誤，系統的錯誤等，這是在進行數據處理時，必須制定強大的數據清洗規則和出錯處理機制。
十二、建立視圖或者物化視圖
視圖中的數據來源於基表，對海量數據的處理，可以將數據按一定的規則分散到各個基表中，查詢或處理過程中可以基於視圖進行，這樣分散了磁碟I/O，正如10根繩子吊著一根柱子和一根吊著一根柱子的區別。
十三、避免使用32位機子（極端情況）
目前的計算機很多都是32位的，那麼編寫的程序對內存的需要便受限制，而很多的海量數據處理是必須大量消耗內存的，這便要求更好性能的機子，其中對位數的限制也十分重要。
十四、考慮操作系統問題
海量數據處理過程中，除了對資料庫，處理程序等要求比較高以外，對操作系統的要求也放到了重要的位置，一般是必須使用伺服器的，而且對系統的安全性和穩定性等要求也比較高。尤其對操作系統自身的緩存機制，臨時空間的處理等問題都需要綜合考慮。
十五、使用數據倉庫和多維資料庫存儲
數據量加大是一定要考慮OLAP的，傳統的報表可能5、6個小時出來結果，而基於Cube的查詢可能只需要幾分鍾，因此處理海量數據的利器是OLAP多維分析，即建立數據倉庫，建立多維數據集，基於多維數據集進行報表展現和數據挖掘等。
十六、使用采樣數據，進行數據挖掘
基於海量數據的數據挖掘正在逐步興起，面對著超海量的數據，一般的挖掘軟體或演算法往往採用數據抽樣的方式進行處理，這樣的誤差不會很高，大大提高了處理效率和處理的成功率。一般采樣時要注意數據的完整性和，防止過大的偏差。筆者曾經對1億2千萬行的表數據進行采樣，抽取出 400萬行，經測試軟體測試處理的誤差為千分之五，客戶可以接受。
還有一些方法，需要在不同的情況和場合下運用，例如使用代理鍵等操作，這樣的好處是加快了聚合時間，因為對數值型的聚合比對字元型的聚合快得多。類似的情況需要針對不同的需求進行處理。
海量數據是發展趨勢，對數據分析和挖掘也越來越重要，從海量數據中提取有用信息重要而緊迫，這便要求處理要准確，精度要高，而且處理時間要短，得到有價值信息要快，所以，對海量數據的研究很有前途，也很值得進行廣泛深入的研究。

⑥ 區塊鏈分布式存儲：生態大數據的存儲新模式

區塊鏈，當之無愧的2019最靚的詞，在科技領域閃閃發亮，在實體行業星光熠熠。

2019年的1024講話，讓區塊鏈這個詞煥然一新，以前它總是和傳銷和詐騙聯系在一起，「區塊鏈」這個詞總是蒙上一層灰色。但是如今，區塊鏈則是和實體經濟融合緊密相連，成為國家的戰略技術， 這個詞瞬間閃耀著熱情的紅色和生意盎然的綠色 。

「產業區塊鏈」在這個時代背景下應運而生， 是繼「互聯網」後的又一大熱門詞彙，核心就是區塊鏈必須和實體產業融合，脫虛向實，讓區塊鏈技術找到更多業務場景才是正道。

區塊鏈的本質就是一個資料庫，而且是採用的分布式存儲的方式。作為一名區塊鏈從業者，今天就來講講 區塊鏈的分布式存儲和生態大數據 結合後，碰撞產生的火花。

當前的存儲大多為中心化存儲，存儲在傳統的中心化伺服器。如果伺服器出現宕機或者故障，或者伺服器停止運營，則很多數據就會丟失。

比如我們在微信朋友圈發的圖片，在抖音上傳的視頻等等，都是中心化存儲。很多朋友會把東西存儲在網上，但是某天打開後，網頁呈現404，則表示存儲的東西已經不見了。

區塊鏈，作為一個分布式的資料庫，則能很好解決這方面的問題。這是由區塊鏈的技術特徵決定了的。區塊鏈上的數字記錄，不可篡改、不可偽造，智能合約讓大家更高效地協同起來，從而建立可信的數字經濟秩序，能夠提高數據流轉效率，打破數據孤島，打造全新的存儲模式。

生態大數據，其實和我們每天的生活息息相關，比如每天的天氣預報，所吃的農產品的溯源數據等等，都是生態大數據的一部分。要來談這個結合，首先咱們來看看生態大數據存儲的特點。

伴隨著互聯網的發展，當前，生態大數據在存儲方面有具有如下特點：

從數據規模來看，生態數據體量很大，數據已經從TB級躍升到了PB級別。

隨著各類感測器技術、衛星遙感、雷達和視頻感知等技術的發展，數據不僅來源於傳統人工監測數據，還包括航空、航天和地面數據，他們一起產生了海量生態環境數據。近10年以來，生態數據以每年數百個TB的數據在增長。

生態環境大數據需要動態新數據和歷史數據相結合來處理，實時連續觀測尤為重要。只有實時處理分析這些動態新數據，並與已有歷史數據結合起來分析，才能挖掘出有用信息，為解決有關生態環境問題提供科學決策。

比如在當前城市建設中，提倡的生態環境修復、生態模型建設中，需要大量調用生態大數據進行分析、建模和制定方案。但是目前很多歷史數據因為存儲不當而消失，造成了數據的價值的流失。

既然生態大數據有這些特點，那麼它有哪些存儲需求呢？

當前，生態大數據面臨嚴重安全隱患，強安全的存儲對於生態大數據而言勢在必行。

大數據的安全主要包括大數據自身安全和大數據技術安全，比如在大數據的數據存儲中，由於黑客外部網路攻擊和人為操作不當造成數據信息泄露。外部攻擊包括對靜態數據和動態數據的數據傳輸攻擊、數據內容攻擊、數據管理和網路物理攻擊等。

例如，很多野外生態環境監測的海量數據需要網路傳輸，這就加大了網路攻擊的風險。如果涉及到軍用的一些生態環境數據，如果被黑客獲得這些數據，就可能推測到我國軍方的一些信息，或者獲取敏感的生態環境數據，後果不堪設想。

生態大數據的商業化應用需要整合集成政府、企業、科研院所等社會多來源的數據。只有不同類型的生態環境大數據相互連接、碰撞和共享，才能釋放生態環境大數據的價值。

以當前的智慧城市建設為例，很多城市都在全方位、多維度建立知識產權、種質資源、農資、農產品、病蟲害疫情等農業信息大數據中心，為農業產供銷提供全程信息服務。建設此類大數據中心，離不開各部門生態大數據的共享。

但是，生態大數據共享面臨著巨大挑戰。首先，我國生態環境大數據包括氣象、水利、生態、國土、農業、林業、交通、社會經濟等其他部門的大數據，涉及多領域多部門和多源數據。雖然目前這些部門已經建立了自己的數據平台，但這些平台之間互不連通，只是一個個的數據孤島。

其次，相關部門因為無法追蹤數據的軌跡，擔心數據的利益歸屬問題，便無法實現數據的共享。因此，要想挖掘隱藏在生態大數據背後的潛在價值，實現安全的數據共享是關鍵，也是生態大數據產生價值的前提和基礎。

生態大數據來之不易，是研究院所、企業、個人等社會來源的集體智慧。

其中，很多生態大數據涉及到了知識產權的保護。但是目前的中心化存儲無法保證知識產權的保護，無法對數據的使用進行溯源管理，容易造成知識產權的侵犯和隱私數據的泄露。

這些就是生態大數據在存儲方面的需求。在當前產業區塊鏈快速發展的今天，區塊鏈的分布式存儲是可以為生態大數據存儲提供全新的存儲方式的。 這個核心前提就是區塊鏈的分布式存儲、不可篡改和數據追蹤特性 。

把區塊鏈作為底層技術，搭建此類平台，專門存儲生態大數據，可以設置節點管理、存儲管理、用戶管理、許可管理、業務通道管理等。針對上層業務應用提供高可用和動態擴展的區塊鏈網路底層服務的實現。在這個平台的應用層，可以搭建API介面，讓整個平台的使用靈活可擴展。區塊鏈分布式存儲有如下特點：

利用區塊鏈的分布式存儲，能夠實現真正的生態大數據安全存儲。

首先，數據永不丟失。這點對於生態大數據的歷史數據特別友好，方便新老數據的調用和對比。

其次，數據不易被泄露或者攻擊。因為數據採取的是分布式存儲，如果遭遇攻擊，也只能得到存儲在部分節點里的數據碎片，無法完全獲得完整的數據信息或者數據段。

區塊鏈能夠實現生態數據的存儲即確權，這樣就能夠避免知識產權被侵害，實現安全共享。畢竟生態大數據的獲取，是需要生態工作者常年在野外駐守，提取數據的。

生態大數據來之不易，是很多生態工作者的工作心血和結晶，需要得到產權的保護，讓數據體現出應用價值和商業價值，保護生態工作者的工作動力，讓他們能夠深入一線，採集出更多優質的大數據。

同時，利用區塊鏈的數據安全共享機制，也能夠打破氣象、林業、濕地等部門的數據壁壘，構建安全可靠的數據共享機制，讓數據流轉更具價值。

現在有部分生態工作者，為了牟取私利，會將生態數據篡改。如果利用區塊鏈技術，則沒有那麼容易了。

利用加密技術，把存儲的數據放在分布式存儲平台進行加密處理。如果生態大數據發生變更，平台就可以記錄其不同版本，便於事後追溯和核查。

這個保護機制主要是利用了數據的不可篡改，滿足在使用生態大數據的各類業務過程中對數據的安全性的要求。

區塊鏈能夠對數據提供安全監控，記錄應用系統的操作日誌、資料庫的操作日誌數據，並加密存儲在系統上，提供日誌預警功能，對於異常情況通過區塊鏈瀏覽器展示出來，便於及時發現違規的操作和提供證據。

以上就是區塊鏈的分布式存儲能夠在生態大數據方面所起的作用。未來，肯定會出現很多針對生態大數據存儲的平台誕生。

生態大數據是智慧城市建設的重要基礎資料 ，引用區塊鏈技術，打造相關的生態大數據存儲和管理平台，能夠保證生態大數據的安全存儲和有效共享，為智慧城市建設添磚加瓦，推動產業區塊鏈的發展。

作者：Justina，微信公眾號：妙譯生花，從事於區塊鏈運營，擅長內容運營、海外媒體運營。

題圖來自Unsplash, 基於CC0協議。

⑦ 自動駕駛下的海量數據，業界如何安全高效存儲

近幾年來，各行業紛紛跨界加入造車行列，不說傳了多年要造車的國外手機巨頭、出資純電動汽車的科技互聯網大廠，國內的科技企業也在躍躍欲試，比如阿里巴巴、華為、網路、小米和滴滴出行。

除了這些高科技企業，還有小馬智行、文遠知行、AutoX、贏徹科技和主線科技等新興的自動駕駛初創企業；超星未來、奧特貝睿、宏景智駕等專注於私家車高階自動駕駛研發的新型一級供應商；以及純電動車起家的蔚來，小鵬，理想等造車新勢力，都紛紛加入汽車產業鏈，推動了汽車電動化和智能化的進程。

西部數據資深產品市場經理額日特

也正是這些新玩家的加入，使得傳統汽車產業鏈受到了前所未有的壓力，同時也推動了傳統汽車廠商加速新技術和新應用的落地。在西部數據資深產品市場經理額日特看來，隨著汽車智能網聯的不斷推進，汽車的電子電氣架構（E/E）也隨之變化，從最初的分布式架構向域融合和中央控制單元過渡。

輪子上的智能手機，對存儲架構提出更多要求

如今，不少人業內人士都認可汽車在向“輪子上的智能手機”演變，這個轉變，讓廠商開始將越來越多的攝像頭、雷達、激光雷達等感測器、電動機，甚至乙太網、人工智慧等技術都引入汽車。

額日特認為，更多感測器的引入，網聯技術、人工智慧技術的增加，以及汽車電子電氣架構的改變，對汽車內存儲產品的要求發生了很大的變化。

“在汽車存儲領域，單車存儲的數量將會顯著降低，容量則會顯著提升。”額日特在不久前廣州舉辦的Auto Tech 2021上演講時指出。

Counterpoint的報告也印證了這一點，該分析機構預計，未來十年內，汽車單車的存儲容量將會達到2TB左右。“目前車內存儲主要用在智能座艙和中控系統，且燃油車以32GB為主，電動汽車一般使用64GB，或128GB，相對於2TB來說，還有一個巨大的提升空間。”額日特表示。

他分析稱，為了應對汽車電動化、智能化、網聯化，及自動化方向的發展，存儲產品也面臨這很多挑戰，主要有四個比較重大的挑戰：

一是數據的可靠性和安全性，這是存儲廠商所面臨最基本和最嚴苛的挑戰，也是相關法規及保險責任靠量的關鍵因素。因為對於自動駕駛來說，數據的可靠性和安全性意味著生命的安全。

存儲廠商在數據可靠性和安全性方面也做了不少工作，額日特拿e.MMC、UFS和SSD來說，存儲單元是由兩個部分組成的，一部分是存儲介質Raw NAND，另一部分是控制器和固件。

為了保證更好的TBW（Total Bytes Written），即產品生命周期里能承受的總寫入數據量，存儲廠商一般都會通過控制器和固件對底層做一個讀寫均衡。“TBW通俗地講就是耐擦寫，意思是NAND Flash是有壽命的，如果數據手冊里規定了NAND Flash的擦寫次數是3,000次，客戶就需要考量該TBW是否滿足自己的應用需求。”

還有一個是主機鎖定，即在汽車主機上焊上一個內存，加了主機鎖的內存放到另外一個主機上是沒有用的，因為它已經與原來的主機做了鎖定，這樣也可以確保數據的安全。

另外，防寫也是一個很重要的功能，比如汽車如果出事故了，有的用戶擔心數據會被汽車廠商篡改，“我們存儲廠商在與主機廠商、Tier 1企業一起共同努力，協商一個有效的協同保護機制，確保車輛在發生事故後，在警察沒有查看數據之前，沒有任何一家，包括內存廠商都無法篡改存儲器內的數據，以確保司法監管在調查的時候的公正性和嚴肅性。”額日特表示。

二是復雜的應用場景，隨著電子電氣架構向域及中央控制單元轉變，應用的融合對存儲的要求也變得更加復雜，不再是單一的讀或寫。比如導航是一個讀密集型操作，行車記錄儀是一個寫密集型操作。

特別是隨著電子電氣架構的改變，融合中央控制單元的使用，使得內存需要承受更加復雜的操作系統環境。比如高通的8155平台把智能座艙、數字儀表和中控融合到了一起，此時就需要使用Hypervisor，以允許多個操作系統和應用共享同一個硬體。但實際上，現在的內存結構，只能做到邏輯分區，不能做到物理分區。

“舉一個簡單的例子，我們現在所使用的電腦有C盤、D盤、或者E盤，實際上C、D、E盤只是邏輯分區，底層的內存是沒有做到物理分區的，這些盤存儲的數據都是打散存儲在一塊內存里，不論是哪個盤壞掉，代表的就是整個內存檔都壞了。”額日特指出。

因此，這就會帶來一個問題，比如行車記錄儀是一個需要高擦寫支持的應用，如果把行車記錄儀也融合到智能座艙內的話，做起來很容易。但要是不做物理分區，由於行車記錄儀的高擦寫，可能整個內存很快就會壞掉。

為了適應這個改變，也為了數據的更加安全，“西部數據現在可以提供一種解決方案，那就是在底層做讀寫均衡的隔離，比如一塊內存裡面，可以分別使用 TLC 和S LC 兩種N AND F lash ，由於SLC可以支持高擦寫，因此，SLC部分就可以作為行車記錄儀的存儲。”額日特表示。

三是海量數據存儲，為了適應自動駕駛的需求，越來越多的雷達和攝像頭被部署在汽車上，行車過程中會產生大量的數據。

特別是自動駕駛計程車的企業對數據的存儲容量需求是很大的，現在單車一天生成的數據量在8GB左右，但實際上，現在主流汽車的存儲容量在2GB到4GB之間。

額日特以西部數據與Waymo的合作為例，西部數據在Waymo自動駕駛計程車上安裝了10塊2TB的工業級SSD，也就是說Waymo的單車存儲容量要求是20TB。其實這也是大部分自動駕駛汽車的存儲需求。

四是高性能，雷達和攝像頭會在行車過程中產生大量的數據，為了防止數據丟失，必然需要高性能、大帶寬存儲的支持。

其實存儲產品也在通過不停地創新來獲得更高的傳輸速率。在嵌入式存儲器方面，目前汽車領域使用的主流存儲產品是e.MMC，比e.MMC更快的是UFS產品，目前汽車領域主要採用的還是UFS2.1。實際上，消費類電子已經在大規模採用UFS3.0的產品了。額日特預計汽車級UFS3.1的產品，應該會在兩年內面市。

另外，在SSD方面，目前汽車領域的SSD主要還是採用SATA介面，未來帶寬更高、速度更快的NVMe介面的SSD產品也可能會在汽車上得到應用。使用SSD的好處就是容量可以做得更大，比如UFS介面能做到的最大容量可能是512GB，但SSD可以輕松做到4TB、8TB，甚至更大。

滿足汽車需求的解決方案

據額日特介紹，西部數據可以提供從端到雲的完整解決方案，以支持當前和未來的車輛系統要求，它為多樣的應用場景和數據中心，提供了小尺寸嵌入式終端存儲和可移動存儲，用於獲取和分析從車輛收集的大量數據。他特意強調，西部數據的汽車級快閃記憶體產品通過了IATF16949認證，符合AEC-Q100標准。

產品方面，有iNAND汽車級嵌入式存快閃記憶體檔（EFD），支持UFS和e.MMC介面，具有多種容量，採用11.5×13mm的小包裝，可為汽車OEM和一級供應商提供符合其需求的選擇。比如iNAND AT EU312 是一款基於 3D NAND 技術的汽車級UFS（通用快閃記憶體存儲），具有高數據傳輸速度的UFS 2.1介面和額外的UFS 3.0汽車功能，可提供最高256GB的容量，性能是前代基於e.MMC的產品的2.5倍。AT EU312利用第5代SmartSLC 技術，可提供高性能和可靠的寫入。

其e.MMC 嵌入式快閃記憶體檔基於e.MMC 5.1 標准，採用2D或3D NAND技術。具體產品有EM122已經獲得許多汽車設計的認證並投入生產，EM132在汽車市場中容量達到了256GB。

在PCIe SSD方面，有CL SN720和CL SN520等產品，採用了PCIe Gen3 NVMe介面，容量高達2TB，耐久性高達1600 TBW。

與合作夥伴的成功案例

在本次Auto Tech 2021展會上，西部數據不僅展示了自己家的汽車存儲解決方案，也帶來了合作夥伴的一些成功案例。

有為信息展示的“主動安全智能防控車載視頻終端K5-P”解決方案。

在車載監控方面，其合作夥伴有為信息展示了“主動安全只能防控車載視頻終端K5-P”解決方案，該解決方案支持ADAS、DSM只能監控，採用了記錄儀、視頻功能、主動安全功能一體化設計。同時支持硬碟（2.5” HDD）+ SD卡（西部數據WD Purple micro SD存儲卡），雙重存儲保證數據安全；且具有硬碟防震保護機制；此外，有為信息的專利的存儲介質保護裝置，可防止任意拆卸硬碟及插拔存儲卡。加上其獨特流媒體文件系統存儲方式，保證了數據安全不被篡改。

車載信息娛樂系統方面，其合作夥伴掌銳展示了“前裝車規模組”解決方案------CS199 MT8666AV模組，該模組基於聯發科 MT8666AV晶元封裝的前裝車規級帶4G通信模組，具有功能豐富，集成度高、尺寸小、低功耗、性能優、品質穩定的特點，可滿足汽車智能化、連網化的前裝需求，幫助客戶縮短項目開發周期，減少研發投入並降低品控風險。存儲方面，採用的是西部數據iNAND AT EM132產品，是汽車市場首個基於3D TLC NAND e.MMC介面產品，採用了標准BGA封裝，容量涵蓋了從32GB到256GB，具有快速啟動、自動刷新、增強型運行健康狀態監測，支持固件在線升級和100%預燒錄，有AEC-Q100溫度2級（-40°C 至105°C）和3級（-40°C至85°C）兩種選擇。

銥斯電子展示的智能駕駛輔助系統解決方案。

此外，西部數據現場還展示了採用iNAND AT EM122的智能駕艙、智能駕駛、以及車聯網等豐富的解決方案。

西部數據公司中國區嵌入式產品銷售部門銷售總監文芳女士

西部數據公司中國區嵌入式產品銷售部門銷售總監文芳表示：“車聯網、自動駕駛等新技術的商業化落地，對汽車新四化的發展起到了巨大的推動作用，同時也對車載存儲解決方案的安全性、可靠性、大容量、高性能以及復雜的場景應用提出了更嚴苛的要求。西部數據作為數據基礎架構的領導者，提供覆蓋8GB-18TB容量，包括e.MMC/UFS/micro SD/SSD/HDD等不同規格的車規級及企業級存儲產品，支持端-邊-雲新型數據架構在汽車領域的應用，滿足當前和未來單車智能及車路協同的多樣化需求。”

未來，西部數據將不斷突破創新，以卓越的產品及解決方案賦能汽車領域的改革與發展，為人們帶來更安全、優質的駕駛體驗。

結語

近年來，汽車行業正在經歷前所未有的變革，自動駕駛不斷發展，高清3D地圖、高級輔助駕駛系統（ADAS）、自主計算機、AI、大數據、增強型信息娛樂系統、無線更新、以及V2X技術等等逐步在汽車上得到普及，而這些功能都需要板載數據存儲，未來汽車的存儲需求將會越來越大，如何滿足汽車市場的特殊需求，是存儲企業必須要考慮的，抓住汽車市場，就意味著抓住了未來。

轉載自電子發燒友 @2019

⑧ 在大數量級的數據存儲上，比較靠譜的分布式文件存儲有哪些

一、 Ceph

Ceph最早起源於Sage就讀博士期間的工作、成果於2004年發表，並隨後貢獻給開源社區。經過多年的發展之後，已得到眾多雲計算和存儲廠商的支持，成為應用最廣泛的開源分布式存儲平台。
二、 GFS

GFS是google的分布式文件存儲系統，是專為存儲海量搜索數據而設計的，2003年提出，是閉源的分布式文件系統。適用於大量的順序讀取和順序追加，如大文件的讀寫。注重大文件的持續穩定帶寬，而不是單次讀寫的延遲。
三、 HDFS

HDFS(Hadoop Distributed File System)，是一個適合運行在通用硬體(commodity hardware)上的分布式文件系統，是Hadoop的核心子項目，是基於流數據模式訪問和處理超大文件的需求而開發的。該系統仿效了谷歌文件系統(GFS)，是GFS的一個簡化和開源版本。

海量數據存儲新思路

與海量數據存儲新思路相關的內容