㈠ hdfs的特點有哪些
hdfs的特點
一、hdfs的優點
1.支持海量數據的存儲:一般來說,HDFS存儲的文件可以支持TB和PB級別的數據。
2.檢測和快速應對硬體故障:在集群環境中,硬體故障是常見性問題。因為有上千台伺服器連在一起,故障率很高,因此故障檢測和自動恢復hdfs文件系統的一個設計目標。假設某一個datanode掛掉之後,因為數據是有備份的,還可以從其他節點里找到。namenode通過心跳機制來檢測datanode是否還存活。
3.流式數據訪問:(HDFS不能做到低延遲的數據訪問,但是HDFS的吞吐量大)=》Hadoop適用於處理離線數據,不適合處理實時數據。HDFS的數據處理規模比較大,應用一次需要大量的數據,同時這些應用一般都是批量處理,而不是用戶互動式處理。應用程序能以流的形式訪問資料庫。主要的是數據的吞吐量,而不是訪問速度。訪問速度最終是要受制於網路和磁碟的速度,機器節點再多,也不能突破物理的局限。
4.簡化的一致性模型:對於外部使用用戶,不需要了解hadoop底層細節,比如文件的切塊,文件的存儲,節點的管理。一個文件存儲在HDFS上後,適合一次寫入,多次讀取的場景。因為存儲在HDFS上的文件都是超大文件,當上傳完這個文件到hadoop集群後,會進行文件切塊,分發,復制等操作。如果文件被修改,會導致重新觸發這個過程,而這個過程耗時是最長的。所以在hadoop里,2.0版本允許數據的追加,單不允許數據的修改。
5.高容錯性:數據自動保存多個副本,副本丟失後自動恢復。可構建在廉價的機器上,實現線性擴展。當集群增加新節點之後,namenode也可以感知,將數據分發和備份到相應的節點上。
6.商用硬體:Hadoop並不需要運行在昂貴且高可靠的硬體上。它是設計運行在商用硬體(在各種零售店都能買到的普通硬體)的集群上的,因此至少對於龐大的集群來說,節點故障的幾率還是非常高的。HDFS遇到上述故障時,被設計成能夠繼續運行且不讓用戶察覺到明顯的中斷。
二、HDFS缺點(局限性)
1、不能做到低延遲數據訪問:由於hadoop針對高數據吞吐量做了優化,犧牲了獲取數據的延遲,所以對於低延遲數據訪問,不適合hadoop。對於低延遲的訪問需求,HBase是更好的選擇。
2、不適合大量的小文件存儲 :由於namenode將文件系統的元數據存儲在內存中,因此該文件系統所能存儲的文件總數受限於namenode的內存容量。根據經驗,每個文件、目錄和數據塊的存儲信息大約佔150位元組。因此,如果有一百萬個小文件,每個小文件都會佔一個數據塊,那至少需要300MB內存。如果是上億級別的,就會超出當前硬體的能力。
3、修改文件:對於上傳到HDFS上的文件,不支持修改文件。Hadoop2.0雖然支持了文件的追加功能,但是還是不建議對HDFS上的文件進行修改。因為效率低下。HDFS適合一次寫入,然後多次讀取的場景。
4、不支持用戶的並行寫:同一時間內,只能有一個用戶執行寫操作。
㈡ 大量小文件存儲,如何選擇存儲方案
1、Raid0
2、固態硬碟
3、Fat32:拷貝大量小文件(如拷貝照片、文檔轉移等)速度很快,但不支持存儲單個大於4GB的文件。
NTFS:支持大文件存儲,管理性能比Fat32強很多,但是拷貝大量小文件時速度較慢。
㈢ 海量空間數據存儲
(一)空間數據存儲技術
隨著地理信息系統的發展,空間資料庫技術也得到了很大的發展,並出現了很多新的空間資料庫技術(黃釗等,2003),其中應用最廣的就是用關系資料庫管理系統(RDBMS)來管理空間數據。
用關系資料庫管理系統來管理空間數據,主要解決存儲在關系資料庫中的空間數據與應用程序之間的數據介面問題,即空間資料庫引擎(SpatialDatabase Engine)(熊麗華等,2004)。更確切地說,空間資料庫技術是解決空間數據對象中幾何屬性在關系資料庫中的存取問題,其主要任務是:
(1)用關系資料庫存儲管理空間數據;
(2)從資料庫中讀取空間數據,並轉換為GIS應用程序能夠接收和使用的格式;
(3)將GIS應用程序中的空間數據導入資料庫,交給關系資料庫管理。
空間資料庫中數據存儲主要有三種模式:拓撲關系數據存儲模式、Oracle Spatial模式和ArcSDE模式。拓撲關系數據存儲模式將空間數據存在文件中,而將屬性數據存在資料庫系統中,二者以一個關鍵字相連。這樣分離存儲的方式由於存在數據的管理和維護困難、數據訪問速度慢、多用戶數據並發共享沖突等問題而不適用於大型空間資料庫的建設。而OracleSpatial實際上只是在原來的資料庫模型上進行了空間數據模型的擴展,實現的是「點、線、面」等簡單要素的存儲和檢索,所以它並不能存儲數據之間復雜的拓撲關系,也不能建立一個空間幾何網路。ArcSDE解決了這些問題,並利用空間索引機制來提高查詢速度,利用長事務和版本機制來實現多用戶同時操縱同一類型數據,利用特殊的表結構來實現空間數據和屬性數據的無縫集成等(熊麗華等,2004)。
ArcSDE是ESRI公司開發的一個中間件產品,所謂中間件是一個軟體,它允許應用元素通過網路連接進行互操作,屏蔽其下的通訊協議、系統結構、操作系統、資料庫和其他應用服務。中間件位於客戶機/伺服器的操作系統之上,管理計算資源和網路通訊,並營造出一個相對穩定的高層應用環境,使開發人員可以集中精力於系統的上層開發,而不用過多考慮系統分布式環境下的移植性和通訊能力。因此,中間件能無縫地連入應用開發環境中,應用程序可以很容易地定位和共享中間件提供的應用邏輯和數據,易於系統集成。在分布式的網路環境下,客戶端的應用程序如果要訪問網路上某個伺服器的信息,而伺服器可能運行在不同於客戶端的操作系統和資料庫系統中。此時,客戶機的應用程序中負責尋找數據的部分只需要訪問一個數據訪問中間件,由該中間件完成網路中數據或服務的查找,然後將查找的信息返回給客戶端(萬定生等,2003)。因此,本系統實現空間資料庫存儲的基本思想就是利用ArcSDE實現各類空間數據的存儲。
目前,空間數據存儲技術已比較成熟,出現了許多類似ArcSDE功能的中間件產品,這些軟體基本上都能實現空間數據的資料庫存儲與管理,但對於海量空間數據的存儲,各種軟體性能差別較大。隨著數據量的增長,計算機在分析處理上會產生很多問題,比如數據不可能一次完全被讀入計算機的內存中進行處理。單純依賴於硬體技術,並不能滿足持續增長的數據的處理要求。因此需要在軟體上找到處理海量數據的策略,並最終通過軟硬體的結合完成對海量數據的處理。在海量數據存儲問題上,許多專家從不同側面進行過研究,Lindstrom在地形簡化中使用了外存模型(Out-of-core)技術;鍾正採用了基於數據分塊、動態調用的策略;汪國平等人在研究使用高速網路進行三維海量地形數據的實時交互瀏覽中,採用了分塊、多解析度模板建立模型等方法。這些技術、方法已經在各自系統上進行了研究和實現。本系統採用的ArcSDE軟體基本上也是採用分塊模型的方法,具體存儲和操作不需要用戶過多了解,已經由ArcSDE軟體實現。因此,對海量數據的存儲管理,更需要從數據的組織方式等方面進行設計。塔里木河流域生態環境動態監測系統採集了大量的遙感影像、正射影像等柵格結構的數據,這些數據具有很大的數據量,為適應流域空間基礎設施的管理需要,採取一種新的方式來管理、分發這些海量數據以適應各部門的快速瀏覽和管理需要。
(二)影像金字塔結構
影像資料庫的組織是影像資料庫效率的關鍵,為了獲得高效率的存取速度,在數據的組織上使用了金字塔數據結構和網格分塊數據結構。該技術主導思想如下:
(1)將資料庫中使用到的紋理處理成為大小一致的紋理塊;
(2)為每塊紋理生成5個細節等級的紋理,分別為0、1、2、3、4,其中1級紋理通過0級紋理1/4壓縮得到,2級紋理通過1級紋理1/4壓縮得到,…,以此類推;
(3)在顯示每個塊數據之前,根據顯示比例的大小,並以此決定該使用那一級的紋理;
(4)在內存中建立紋理緩沖池,使用LRU演算法進行紋理塊的調度,確保使用頻率高的紋理調度次數盡可能少。
(三)影像數據壓縮
影像數據壓縮有無損壓縮和有損壓縮兩個方法,具體採取哪種壓縮方法需根據具體情況確定。對於像元值很重要的數據,如分類數據、分析數據等採用無損壓縮(即LZ77演算法),否則採用有損壓縮(即JPEG演算法)。通過對影像數據的壓縮,一方面可以節約存儲空間,另一方面可以加快影像的讀取和顯示速度。影像數據的壓縮一般與構建金字塔同時進行,在構建影像金字塔過程中自動完成數據的壓縮。
㈣ 海量小文件用什麼存儲好
海量小文件優先選擇對象存儲,不用考慮元數據管理的問題,如果是老系統的話需要改造支持對象存儲。我們公司現在用的元核雲的YC-DOS分布式對象存儲,穩定性和性能都還不錯。
㈤ Bigtable---分布式的結構化數據存儲系統
sina
Bigtable 是一個分布式的結構化數據存儲系統,它被設計用來處理海量數據:通常是分布在數千台普通伺服器上的PB 級的數據。Google 的很多項目使用Bigtable 存儲數據,包括Web 索引、GoogleEarth、Google Finance。這些應用對Bigtable 提出的要求差異非常大,無論是在數據量上(從URL到網頁到衛星圖像)還是在響應速度上(從後端的批量處理到實時數據服務)。
Bigtable 已經實現了下面的幾個目標:適用性廣泛、可擴展、高性能和高可用性,Bigtable 是一個稀疏的、分布式的、持久化存儲的多維度排序Map。
圖一:一個存儲Web 網頁的例子的表的片斷。行名是一個反向URL。contents 列族存放的是網頁的內容,anchor 列族存放引用該網頁的錨鏈接文本(alex 註:如果不知道HTML 的Anchor,請Google一把)。CNN 的主頁被Sports Illustrater和MY-look 的主頁引用,因此該行包含了名為「anchor:cnnsi.com」和「anchhor:my.look.ca」的列。每個錨鏈接只有一個版本(alex 註:注意時間戳標識了列的版本,t9 和t8 分別標識了兩個錨鏈接的版本);而contents 列則有三個版本,分別由時間戳t3,t5,和t6 標識。
行
Bigtable 通過行關鍵字的字典順序來組織數據。表中的每個行都可以動態分區。每個分區叫做一個」Tablet」,Tablet 是數據分布和負載均衡調整的最小單位。
列族
Webtable 有個列族language,language 列族用來存放撰寫網頁的語言。
我們在language 列族中只使用一個列關鍵字,用來存放每個網頁的語言標識ID。Webtable 中另一個有用的列族是anchor;這個列族的每一個列關鍵字代表一個錨鏈接,如圖一所示。Anchor 列族的限定詞是引用該網頁的站點名;Anchor 列族每列的數據項存放的是鏈接文本。訪問控制、磁碟和內存的使用統計都是在列族層面進行的。
時間戳
不同版本的數據通過時間戳來索引。Bigtable 時間戳的類型是64 位整型。
Bigtable 可以給時間戳賦值,用來表示精確到毫秒的「實時」時間;用戶程序也可以給時間戳賦值。如果應用程序需要避免數據版本沖突,那麼它必須自己生成具有唯一性的時間戳。數據項中,不同版本的數據按照時間戳倒序排序,即最新的數據排在最前面。為了減輕多個版本數據的管理負擔,我們對每一個列族配有兩個設置參數, Bigtable 通過這兩個參數可以對廢棄版本的數據自動進行垃圾收集。用戶可以指定只保存最後n 個版本的數據,或者只保存「足夠新」的版本的數據(比如,只保存最近7 天的內容寫入的數據)。
Bigtable支持的其他特性
1、Bigtable 支持單行上的事務處理,利用這個功能,用戶可以對存儲在一個行關鍵字下的數據進行原子性的讀-更新-寫操作。
2、Bigtable 允許把數據項用做整數計數器。
3、Bigtable 允許用戶在伺服器的地址空間內執行腳本程序
4、Bigtable 可以和MapRece一起使用,MapRece 是Google 開發的大規模並行計算框架。我們已經開發了一些Wrapper 類,通過使用這些Wrapper 類,Bigtable 可以作為MapRece 框架的輸入和輸出。
Bigtable依賴於google的幾項技術。用GFS來存儲日誌和數據文件;按SSTable文件格式存儲數據;用Chubby管理元數據:
Bigtable是建立在其它的幾個Google基礎構件上的。BigTable 使用Google 的分布式文件系統(GFS)存儲日誌文件和數據文件。BigTable 集群通常運行在一個共享的機器池中,池中的機器還會運行其它的各種各樣的分布式應用程序,BigTable 的進程經常要和其它應用的進程共享機器。BigTable 依賴集群管理系統來調度任務、管理共享的機器上的資源、處理機器的故障、以及監視機器的狀態。
BigTable 內部存儲數據的文件是Google SSTable 格式的。SSTable 是一個持久化的、排序的、不可更改的Map 結構,而Map 是一個key-value 映射的數據結構,key 和value 的值都是任意的Byte串,從內部看,SSTable 是一系列的數據塊(通常每個塊的大小是64KB,這個大小是可以配置的)。。SSTable 使用塊索引(通常存儲在SSTable 的最後)來定位數據塊;在打開SSTable的時候,索引被載入到內存。每次查找都可以通過一次磁碟搜索完成:首先使用二分查找法在內存中的索引里找到數據塊的位置,然後再從硬碟讀取相應的數據塊。也可以選擇把整個SSTable 都放在內存中,這樣就不必訪問硬碟了。
BigTable 還依賴一個高可用的、序列化的分布式鎖服務組件,叫做Chubby。Chubby有五個活躍副本,同時只有一個主副本提供服務,副本之間用Paxos演算法維持一致性,Chubby提供了一個命名空間(包括一些目錄和文件),每個目錄和文件就是一個鎖,Chubby的客戶端必須和Chubby保持會話,客戶端的會話若過期則會丟失所有的鎖。
Bigtable 包括了三個主要的組件:鏈接到客戶程序中的庫、一個Master主伺服器和多個Tablet片 伺服器。
Bigtable會將表(table)進行分片,片(tablet)的大小維持在100-200MB范圍,一旦超出范圍就將分裂成更小的片,或者合並成更大的片。每個片伺服器負責一定量的片,處理對其片的讀寫請求,以及片的分裂或合並。片伺服器可以根據負載隨時添加和刪除。這里片伺服器並不真實存儲數據,而相當於一個連接Bigtable和GFS的代理,客戶端的一些數據操作都通過片伺服器代理間接訪問GFS。主伺服器負責將片分配給片伺服器,監控片伺服器的添加和刪除,平衡片伺服器的負載,處理表和列族的創建等。注意,主伺服器不存儲任何片,不提供任何數據服務,也不提供片的定位信息。
客戶端需要讀寫數據時,直接與片伺服器聯系。因為客戶端並不需要從主伺服器獲取片的位置信息,所以大多數客戶端從來不需要訪問主伺服器,主伺服器的負載一般很輕。
Master 伺服器主要負責以下工作:為Tablet 伺服器分配Tablets、檢測新加入的或者過期失效的Table 伺服器、對Tablet 伺服器進行負載均衡、以及對保存在GFS 上的文件進行垃圾收集。除此之外,它還處理對模式的相關修改操作,例如建立表和列族。
我們使用一個三層的、類似B+樹的結構存儲Tablet 的位置信息。
第一層是一個存儲在Chubby 中的文件,它包含了Root Tablet 的位置信息。這個Chubby文件屬於Chubby服務的一部分,一旦Chubby不可用,就意味著丟失了root tablet的位置,整個Bigtable也就不可用了。
第二層是root tablet。root tablet其實是元數據表(METADATA table)的第一個分片,它保存著元數據表其它片的位置。root tablet很特別,為了保證樹的深度不變,root tablet從不分裂。
第三層是其它的元數據片,它們和root tablet一起組成完整的元數據表。每個元數據片都包含了許多用戶片的位置信息。
片的數據最終還是寫到GFS里的,片在GFS里的物理形態就是若干個SSTable文件。下圖展示了讀寫操作基本情況。
BigTable和GFS的關系
集群包括主伺服器和片伺服器,主伺服器負責將片分配給片伺服器,而具體的數據服務則全權由片伺服器負責。但是不要誤以為片伺服器真的存儲了數據(除了內存中memtable的數據),數據的真實位置只有GFS才知道,主伺服器將片分配給片伺服器的意思應該是,片伺服器獲取了片的所有SSTable文件名,片伺服器通過一些索引機制可以知道所需要的數據在哪個SSTable文件,然後從GFS中讀取SSTable文件的數據,這個SSTable文件可能分布在好幾台chunkserver上。
一個簡化的Bigtable結構圖:
結構圖以Webtable表為例,表中存儲了網易、網路和豆瓣的幾個網頁。當我們想查找網路貼吧昨天的網頁內容,可以向Bigtable發出查詢Webtable表的(com..tieba, contents:, yesterday)。
假設客戶端沒有該緩存,那麼Bigtable訪問root tablet的片伺服器,希望得到該網頁所屬的片的位置信息在哪個元數據片中。使用 METADATA.Webtable.com..tieba 為行鍵在root tablet中查找,定位到最後一個比它大的是 METADATA.Webtable.com..www ,於是確定需要的就是元數據表的片A。訪問片A的片伺服器,繼續查找 Webtable.com..tieba ,定位到 Webtable.com..www 是比它大的,確定需要的是Webtable表的片B。訪問片B的片伺服器,獲得數據。
這里需要注意的是,每個片實際都由若干SSTable文件和memtable組成,而且這些SSTable和memtable都是已排序的。這就導致查找片B時,可能需要將所有SSTable和memtable都查找一遍;另外客戶端應該不會直接從元數據表獲得SSTable的文件名,而只是獲得片屬於片伺服器的信息,通過片伺服器為代理訪問SSTable。
㈥ NTFS 是目前最先進的文件系統嗎
文件分配表(FAT) 一種供MS-DOS及其它Windows操作系統對文件進行組織與管理的文件系統。文件分配表(FAT)是當您使用FAT或FAT32文件系統對特定卷進行格式化時,由Windows所創建的一種數據結構。Windows將與文件相關的信息存儲在FAT中,以供日後獲取文件時使用。 FAT32 一種從文件分配表(FAT)文件系統派生而來的文件系統。與FAT相比,FAT32能夠支持更小的簇以及更大的容量,從而能夠在FAT32卷上更為高效的分配磁碟空間。 NTFS文件系統 一種能夠提供各種FAT版本所不具備的性能、安全性、可靠性與先進特性的高級文件系統。舉例來說,NTFS通過標准事務日誌功能與恢復技術確保卷的一致性。如果系統出現故障,NTFS能夠使用日誌文件與檢查點信息來恢復文件系統的一致性。在Windows 2000和Windows XP中,NTFS還能提供諸如文件與文件夾許可權、加密、磁碟配額以及壓縮之類的高級特性。 在NTFS、FAT與FAT32間進行選擇 在運行Windows XP的計算機上,您可以在三種面向磁碟分區的不同文件系統--NTRS、FAT和FAT32--中加以選擇。其中,NTFS是強力推薦您使用的文件系統,與FAT或FAT32相比,它具有更為強大的功能,並且包含Active Directory及其它重要安全特性所需的各項功能。只有選擇NTFS作為文件系統,您才可以使用諸如Active Directory和基於域的安全性之類特性。 NTFS和FAT32的選擇 Win 2000可以同時支持FAT32和NTFS兩種文件系統,FAT32長於與Win 9X的兼容性,NTFS長於系統安全性。在滿足應用的前提下,怎樣設置文件系統才能充分發揮Win 2000的特性呢?在討論這個問題之前,我們先來看一下FAT32和NTFS兩種文件系統各有哪些特點。 FAT32文件系統 在推出FAT32文件系統之前,通常PC機使用的文件系統是FAT16。像基於MS-DOS,Win 95等系統都採用了FAT16文件系統。在Win 9X下,FAT16支持的分區最大為2GB。我們知道計算機將信息保存在硬碟上稱為「簇」的區域內。使用的簇越小,保存信息的效率就越高。在FAT16的情況下,分區越大簇就相應的要增大,存儲效率就越低,勢必造成存儲空間的浪費。並且隨著計算機硬體和應用的不斷提高,FAT16文件系統已不能很好地適應系統的要求。在這種情況下,推出了增強的文件系統FAT32。同FAT16相比,FAT32主要具有以下特點: 1. 同FAT16相比FAT32最大的優點是可以支持的磁碟大小達到2TB(2047GB),但是不能支持小於512MB的分區。基於FAT32的Win 2000可以支持分區最大為32GB;而基於 FAT16的Win 2000支持的分區最大為4GB。 2. 由於採用了更小的簇,FAT32文件系統可以更有效率地保存信息。如兩個分區大小都為2GB,一個分區採用了FAT16文件系統,另一個分區採用了FAT32文件系統。採用FAT16的分區的簇大小為32KB,而FAT32分區的簇只有4KB的大小。這樣FAT32就比FAT16的存儲效率要高很多,通常情況下可以提高15%。 3. FAT32文件系統可以重新定位根目錄和使用FAT的備份副本。另外FAT32分區的啟動記錄被包含在一個含有關鍵數據的結構中,減少了計算機系統崩潰的可能性。 NTFS文件系統 NTFS文件系統是一個基於安全性的文件系統,是Windows NT所採用的獨特的文件系統結構,它是建立在保護文件和目錄數據基礎上,同時照顧節省存儲資源、減少磁碟佔用量的一種先進的文件系統。使用非常廣泛的Windows NT 4.0採用的就是NTFS 4.0文件系統,相信它所帶來的強大的系統安全性一定給廣大用戶留下了深刻的印象。Win 2000採用了更新版本的NTFS文件系統——NTFS 5.0,它的推出使得用戶不但可以像Win 9X那樣方便快捷地操作和管理計算機,同時也可享受到NTFS所帶來的系統安全性。 NTFS 5.0的特點主要體現在以下幾個方面: 1. NTFS可以支持的分區(如果採用動態磁碟則稱為卷)大小可以達到2TB。而Win 2000中的FAT32支持分區的大小最大為32GB。 2. NTFS是一個可恢復的文件系統。在NTFS分區上用戶很少需要運行磁碟修復程序。NTFS通過使用標準的事物處理日誌和恢復技術來保證分區的一致性。發生系統失敗事件時,NTFS使用日誌文件和檢查點信息自動恢復文件系統的一致性。 3. NTFS支持對分區、文件夾和文件的壓縮。任何基於Windows的應用程序對NTFS分區上的壓縮文件進行讀寫時不需要事先由其他程序進行解壓縮,當對文件進行讀取時,文件將自動進行解壓縮;文件關閉或保存時會自動對文件進行壓縮。 4. NTFS採用了更小的簇,可以更有效率地管理磁碟空間。在Win 2000的FAT32文件系統的情況下,分區大小在2GB~8GB時簇的大小為4KB;分區大小在8GB~16GB時簇的大小為8KB;分區大小在16GB~32GB時,簇的大小則達到了16KB。而Win 2000的NTFS文件系統,當分區的大小在2GB以下時,簇的大小都比相應的FAT32簇小;當分區的大小在2GB以上時(2GB~2TB),簇的大小都為4KB。相比之下,NTFS可以比FAT32更有效地管理磁碟空間,最大限度地避免了磁碟空間的浪費。 5. 在NTFS分區上,可以為共享資源、文件夾以及文件設置訪問許可許可權。許可的設置包括兩方面的內容:一是允許哪些組或用戶對文件夾、文件和共享資源進行訪問;二是獲得訪問許可的組或用戶可以進行什麼級別的訪問。訪問許可許可權的設置不但適用於本地計算機的用戶,同樣也應用於通過網路的共享文件夾對文件進行訪問的網路用戶。與FAT32文件系統下對文件夾或文件進行訪問相比,安全性要高得多。另外,在採用NTFS格式的Win 2000中,應用審核策略可以對文件夾、文件以及活動目錄對象進行審核,審核結果記錄在安全日誌中,通過安全日誌就可以查看哪些組或用戶對文件夾、文件或活動目錄對象進行了什麼級別的操作,從而發現系統可能面臨的非法訪問,通過採取相應的措施,將這種安全隱患減到最低。這些在FAT32文件系統下,是不能實現的。 6. 在Win 2000的NTFS文件系統下可以進行磁碟配額管理。磁碟配額就是管理員可以為用戶所能使用的磁碟空間進行配額限制,每一用戶只能使用最大配額范圍內的磁碟空間。設置磁碟配額後,可以對每一個用戶的磁碟使用情況進行跟蹤和控制,通過監測可以標識出超過配額報警閾值和配額限制的用戶,從而採取相應的措施。磁碟配額管理功能的提供,使得管理員可以方便合理地為用戶分配存儲資源,避免由於磁碟空間使用的失控可能造成的系統崩潰,提高了系統的安全性。 7. NTFS使用一個「變更」日誌來跟蹤記錄文件所發生的變更。 小提示(選取FAT32和NTFS的建議) 在系統的安全性方面,NTFS文件系統具有很多FAT32文件系統所不具備的特點,而且基於NTFS的Win 2000運行要快於基於FAT32的Win 2000;而在與Win 9X的兼容性方面,FAT32優於NTFS。所以在決定Win 2000中採用什麼樣的文件系統時應從以下幾點出發: 1. 計算機是單一的Win 2000系統,還是採用多啟動的Win 2000系統; 2. 本地安裝的磁碟的個數和容量; 3. 是否有安全性方面的考慮等。 基於以上的考慮,如果要在Win 2000中使用大於32GB的分區的話,那麼只能選擇NTFS格式。如果計算機作為單機使用,不需要考慮安全性方面的問題,更多地注重與Win 9X的兼容性,那麼FAT32是最好的選擇。如果計算機作為網路工作站或更多的追求系統的安全性,而且可以在單一的Win 2000模式下運行,強烈建議所有的分區都採用NTFS格式;如果要兼容以前的應用,需要安裝Win 9X或其它的操作系統,建議做成多啟動系統,這就需要兩個以上的分區,一個分區採用NTFS格式,另外的分區採用FAT32格式,同時為了獲得最快的運行速度建議將Win 2000的系統文件放置在NTFS分區上,其它的個人文件則放置在FAT32分區中 NTFS適合你嗎? 在多操作系統中是否選擇將FAT32轉換為NTFS,應該根據自己的情況來決定。如果重在性能和安全方面,那麼可以將FAT32轉換為NTFS;如果重在可操作性和兼容性方面,應該保持FAT32,不進行轉換,因為支持FAT32的操作系統更多。而NTFS對Windows Me和以前的Windows版本並不兼容。建議除Windows XP/2003外的系統用FAT32。 將FAT32轉換為NTFS 在Windows 2000/XP中,可以在命令提示符狀態下鍵入「convert E:/FS NTFS」(假設E盤原來使用的是FAT32),回車後,在下次重啟時自動將E盤轉換為NTFS文件系統。轉換時最好整理一下磁碟碎片加快轉換速度,並且把數據備份到其他不轉換的分區中。 將NTFS轉換為FAT32 將NTFS轉換成FAT32相對比較復雜,在不需要舊的文件情況下,我們可以使用Windows 2000/XP的安裝光碟來完成轉換,在安裝時,選擇「用FAT文件系統格式化磁碟分區」。如果你需要保存原來的文件,可以用Partition Magic For DOS來轉換,不過這種轉換的速度比較慢,數據也容易丟失,因此強烈建議轉換前備份好數據。 轉換問題多 如果當前的磁碟分區已經採用了NTFS文件系統,而且已經保存了許多資料,包括加密的文件或文件夾,這時轉換為FAT32就會出現加密文件無法訪問的問題,而且因為兩種文件系統採用的文件命名方式不同,在轉換後文件名會出現問題 該不該選用NTFS文件系統? Windwos 9X 普及的時候已有Windows NT系統,由於Windows NT系統多用於商業平台,一般家用機都是安裝Windows 9X , 在Windows 2000 推出的時候,因為其龐大的體積與眾多用應用程序還有與Windows 9X 全然不同的一些操作方式,所以普通用戶都沒有接觸過Windows 2000 , 當然也就沒有用過NTFS文件系統。當然NT 3.X 與 NT 4.X系統是很早就出來的,但也是很少有人問津,因為它跟本不適合家用,這里也不多說了。 XP的推出讓人耳目一新,越來越多的人安裝了XP,但也就引發了他們必需面對的一個問題,那就是這個貼子的標題《該不該選用NTFS文件系統?》。 在運行Windows 2000/XP的計算機上,NTFS是系統推薦使用的文件系統,NTFS是最容易處理大容量硬碟的文件系統,NTFS文件系統能夠提供目錄的各種新功能和其他比較重要的安全功能。使用NTFS文件系統對分區進行格式化時分區中的碎片會更少,性能也會更高。 有一點要注意的是,早先的Windows 9.x 系統是無法直接訪問NTFS分區的,聽說有補丁,但也不是萬能的。所以,如果你還不願意放棄windows 9.X系統的話,這個文章可能對你沒有什麼用處。 NTFS分區方式的優點。 自從Windows2000開始,微軟開始推薦大家使用NTFS的磁碟格式,其後推出的XP更是要配合這種磁碟格式才能發揮其最大的性能優勢。不僅僅是微軟推廣的緣故,NTFS的磁碟格式由於其自身的技術優勢,配合目前硬體、網路發展的趨勢的作用,正逐漸被廣大用戶接受。 1、大硬碟帶來的影響。 現在的硬碟容量正以倍數在增長,每半年就增加一倍甚至更多,價格卻在降低。這樣基於傳統的FAT文件系統的分區方式,就將逐步體現出其先天不足之處了——我們先來看看FAT32,FAT32是FAT文件系統的增強版本,可用在容量為512MB到2TB的驅動器上,雖然如此,以FAT32的格式,如果劃分太大的分區空間,由於其磁碟的簇相對過大,在儲存多個小文件的時候,將造成空間利用上的極大浪費。 相對而言,NTFS的磁碟格式的簇相當地細,就能有效地利用磁碟空間,而且不容易產生碎片。另外,NTFS的磁碟格式在處理單個巨大的文件的時候如進行視頻捕捉、編輯的時候,也比FAT系統有優勢。隨著海量硬碟的發展,使用NTFS的分區格式將越來越必要——你總不希望把分區數劃分滿24個字母的盤符來遷就分區容量吧?所以,微軟推薦使用NTFS而不是FAT32文件系統格式化大於32GB的分區是有其道理的。 2、新一代Windows操作系統的影響 隨著時間的推移,新一代Windows的過渡,微軟很可能會採取放棄兼容DOS的安裝和維護操作系統的方式,即光碟啟動後直接採用全新的直接圖形化界面進行下幾代Windows的安裝,這樣可以避開DOS模式的內存配置環境對安裝Windows造成的負面影響,也可讓很多破解其激活設置的程序失效(DOS環境下內存配置對新手來說比較復雜,很多人安裝XP失敗除了硬體兼容問題外,是由於這個原因);同時對最終用戶來說,新的安裝模式可在安裝的時候更好地分析用戶的硬體系統,提供更多的友好提示和更強的故障解決功能。使用圖形界面直接管理安裝任務的話,基於第一點敘述的原因,Windows很可能會要求用戶用NTFS先格式化新一代海量硬碟超過32G的分區,才能繼續進行安裝。也可能通過在新的操作系統里去掉對FAT系統的支持,來強行推廣NTFS磁碟格式。 3、聯網和多PC連接導致的用戶安全和管理問題 以後的電腦進行在線工作和娛樂是不可逆轉的趨勢,隨著互聯網在世界各地進一步普及,在線的電腦的安全和管理問題日益突出,而且很多人家裡由於升級,已經有超過了一台的電腦。只有使用NTFS,Windows系統的安全性能和可管理性才能真正得到保障。無論是接入INTERNET還是用戶自己在家裡組建區域網,NTFS都將使用戶更靈活地配置和管理計算機資源。NTFS的磁碟配額、用戶許可權和個人文件加密等等功能、和網路應用方面的優勢,已經有很多資料介紹了,此處不再重復。 另外,NTFS支持基於UNIX服務的POSIX標准,可移植性也很強。這保證了它和其他網路平台的兼容性。 當然,這一切的前提是Windows還是占壟斷地位的操作系統。從目前情況看,微軟保持其軟體業龍頭的地位還是不成問題的。超過500G的海量硬碟在明年年底或是後年初就可能會出現了,這是推動NTFS磁碟格式成為主流分區格式的最強大動力之一。 由以上的幾點可看出,針對家用PC而言,使用NTFS的最大的好處是第一點,也就是NTFS對大硬碟有著更好的支持與利用,第三點主要是針對商業型用戶,這里我也想對那些入門級用戶說一聲,如果你使用了NTFS且對NTFS的磁碟配額、用戶許可權和個人文件加密等等功能不是很了解,最好不要隨意設置目錄的許可權,不然可能會有著意想不到的後果。 細數NTFS的四大優點 1.具備錯誤預警的文件系統 在NTFS分區中,最開始的16個扇區是分區引導扇區,其中保存著分區引導代碼,接著就是主文件表(Master File Table,以下簡稱MFT),但如果它所在的磁碟扇區恰好出現損壞,NTFS文件系統會比較智能地將MFT換到硬碟的其他扇區,保證了文件系統的正 常使用,也就是保證了Windows的正常運行。而以前的FAT16和FAT32的FAT(文件分配表)則只能固定在分區引導扇區的後面,一旦遇到扇區損 壞,那麼整個文件系統就要癱瘓。 但這種智能移動MFT的做法當然並非十全十美,如果分區引導代碼中指向MFT的部分出現錯誤,那麼NTFS文件系統便會不知道到哪裡尋找MFT ,從而會報告「磁碟沒有格式化」這樣的錯誤信息。為了避免這樣的問題發生,分區引導代碼中會包含一段校驗程序,專門負責偵錯。 2.文件讀取速度更高效! 恐怕很多人都聽說NTFS文件系統在安全性方面有很多新功能,但你可否知道:NTFS在文件處理速度上也比FAT32大有提升呢? 對DOS略知一二的讀者一定熟悉文件的各種屬性:只讀、隱藏、系統等。在NTFS文件系統中,這些屬性都還存在,但有了很大不同。在這里 ,一切東西都是一種屬性,就連文件內容也是一種屬性。這些屬性的列表不是固定的,可以隨時增加,這也就是為什麼你會在NTFS分區上看到 文件有更多的屬性。 NTFS文件系統中的文件屬性可以分成兩種:常駐屬性和非常駐屬性,常駐屬性直接保存在MFT中,像文件名和相關時間信息(例如創建時間 、修改時間等)永遠屬於常駐屬性,非常駐屬性則保存在MFT之外,但會使用一種復雜的索引方式來進行指示。如果文件或文件夾小於1500位元組 (其實我們的電腦中有相當多這樣大小的文件或文件夾),那麼它們的所有屬性,包括內容都會常駐在MFT中,而MFT是Windows一啟動就會載入 到內存中的,這樣當你查看這些文件或文件夾時,其實它們的內容早已在緩存中了,自然大大提高了文件和文件夾的訪問速度。 小提示 為什麼FAT的效率不如NTFS高 FAT文件系統的文件分配表只能列出了每個文件的名稱及起始簇,並沒有說明這個文件是否存在,而需要通過其所在文件夾的記錄來判斷, 而文件夾入口又包含在文件分配表的索引中。因此在訪問文件時,首先要讀取文件分配表來確定文件已經存在,然後再次讀取文件分配表找到 文件的首簇,接著通過鏈式的檢索找到文件所有的存放簇,最終確定後才可以訪問。 3.磁碟自我修復功能 NTFS利用一種「自我療傷」的系統,可以對硬碟上的邏輯錯誤和物理錯誤進行自動偵測和修復。在FAT16和FAT32時代,我們需要藉助 Scandisk這個程序來標記磁碟上的壞扇區,但當發現錯誤時,數據往往已經被寫在了壞的扇區上了,損失已經造成。 NTFS文件系統則不然,每次讀寫時,它都會檢查扇區正確與否。當讀取時發現錯誤,NTFS會報告這個錯誤;當向磁碟寫文件時發現錯誤, NTFS將會十分智能地換一個完好位置存儲數據,操作不會受到任何影響。在這兩種情況下,NTFS都會在壞扇區上作標記,以防今後被使用。這 種工作模式可以使磁碟錯誤可以較早地被發現,避免災難性的事故發生。 有些人發現當把磁碟轉換為NTFS文件系統後,用磁碟掃描程序就很難發現磁碟錯誤了。經過前面的介紹,你知道這是為什麼了嗎? 4.「防災賑災」的事件日誌功能 在NTFS文件系統中,任何操作都可以被看成是一個「事件」。比如將一個文件從C盤復制到D盤,整個復制過程就是一個事件。事件日誌一直 監督著整個操作,當它在目標地——D盤發現了完整文件,就會記錄下一個「已完成」的標記。假如復制中途斷電,事件日誌中就不會記錄「已 完成」,NTFS可以在來電後重新完成剛才的事件。事件日誌的作用不在於它能挽回損失,而在於它監督所有事件,從而讓系統永遠知道完成了 哪些任務,那些任務還沒有完成,保證系統不會因為斷電等突發事件發生紊亂,最大程度降低了破壞性。 5.我是否需要哪些附加的功能? 其實,NTFS還提供了磁碟壓縮、數據加密、磁碟配額(在「我的電腦」中右擊分區並並行「屬性」,進入「配額」選項卡即可設置)、動態 磁碟管理等功能,這些功能在很多報刊雜志上介紹的比較多了,這里不再詳細介紹。 NTFS提供了為不同用戶設置不同訪問控制、隱私和安全管理功能。如果你的系統處於一個單機環境,比如家用電腦,那麼這些功能對你意義 不是很大。 小提示 從FAT轉換過來的NTFS,性能有折扣 如果分區是從FAT32轉換為NTFS文件系統的(使用命令為「CONVERT 驅動器盤符 /FS:NTFS」),不僅MFT會很容易出現磁碟碎片,更糟糕的是,磁碟碎片整理工具往往不能整理這各分區中的MFT,嚴重影響系統性能。因此, 建議將分區直接格式化為NTFS文件系統。
㈦ 海量數據存儲有哪些方式與方法
杉岩海量對象存儲MOS,針對海量非結構化數據存儲的最優化解決方案,採用去中心化、分布式技術架構,支持百億級文件及EB級容量存儲,
具備高效的數據檢索、智能化標簽和分析能力,輕松應對大數據和雲時代的存儲挑戰,為企業發展提供智能決策。
1、容量可線性擴展,單名字空間達EB級
SandStone MOS可在單一名字空間下實現海量數據存儲,支持業務無感知的存儲伺服器橫向擴容,為爆炸式增長的視頻、音頻、圖片、文檔等不同類型的非結構化數據提供完美的存儲方案,規避傳統NAS存儲的單一目錄或文件系統存儲空間無法彈性擴展難題
2、海量小文件存儲,百億級文件高效訪問
SandStone MOS基於完全分布式的數據和元數據存儲架構,為海量小文件存儲而生,將企業級NAS存儲的千萬文件量級提升至互聯網規模的百億級別,幫助企業從容應對幾何級增長的海量小文件挑戰。
3、中心靈活部署,容災匯聚分發更便捷
SandStone MOS支持多數據中心靈活部署,為企業數據容災、容災自動切換、多分支機構、數據就近訪問等場景提供可自定義的靈活解決方案,幫助企業實現跨地域多活容災、數據流轉、就近讀寫等,助力業務高速發展。
4、支持大數據和AI,統一數據存儲和分析
SandStone MOS內置文件智能化處理引擎,實現包括語音識別、圖片OCR識別、文件格式轉換等批量處理功能,結合標簽檢索能力還可實現語音、證件照片檢索,從而幫助企業更好地管理非結構化數據。同時,SandStone MOS還支持與Hadoop、Spark等大數據分析平台對接,一套存儲即可滿足企業數據存儲、管理和挖掘的需求。
㈧ 大數據的預測功能是增值服務的核心
大數據的預測功能是增值服務的核心
從走在大數據發展前沿的互聯網新興行業,到與人類生活息息相關的醫療保健、電力、通信等傳統行業,大數據浪潮無時無刻不在改變著人們的生產和生活方式。大數據時代的到來,給國內外各行各業帶來諸多的變革動力和巨大價值。
最新發布的報告稱,全球大數據市場規模將在未來五年內迎來高達26%的年復合增長率——從今年的148.7億美元增長到2018年的463.4億美元。全球各大公司、企業和研究機構對大數據商業模式進行了廣泛地探索和嘗試,雖然仍舊有許多模式尚不明朗,但是也逐漸形成了一些成熟的商業模式。
兩種存儲模式為主
互聯網上的每一個網頁、每一張圖片、每一封郵件,通信行業每一條短消息、每一通電話,電力行業每一戶用電數據等等,這些足跡都以「數據」的形式被記錄下來,並以幾何量級的速度增長。這就是大數據時代帶給我們最直觀的沖擊。
正因為數據量之大,數據多為非結構化,現有的諸多存儲介質和系統極大地限制著大數據的挖掘和發展。為更好地解決大數據存儲問題,國內外各大企業和研究機構做了許許多多的嘗試和努力,並不斷摸索其商業化前景,目前形成了如下兩種比較成熟的商業模式:
可擴展的存儲解決方案。該存儲解決方案可幫助政府、企業對存儲的內容進行分類和確定優先順序,高效安全地存儲到適當存儲介質中。而以存儲區域網路(SAN)、統一存儲、文件整合/網路連接存儲(NAS)的傳統存儲解決方案,無法提供和擴展處理大數據所需要的靈活性。而以Intel、Oracle、華為、中興等為代表的新一代存儲解決方案提供商提供的適用於大、中小企業級的全系存儲解決方案,通過標准化IT基礎架構、自動化流程和高擴展性,來滿足大數據多種應用需求。
雲存儲。雲存儲是一個以數據存儲和管理為核心的雲計算系統,其結構模型一般由存儲層、基礎管理、應用介面和訪問層四層組成。通過易於使用的API,方便用戶將各種數據放到雲存儲裡面,然後像使用水電一樣按用量進行收費。用戶不用關心數據的存儲介質、網路狀況以及安全性的管理,只需按需向提供方購買空間。
源數據價值水漲船高
在紅紅火火的大數據時代,隨著數據的累積,數據本身的價值也在不斷升值,這種情況很好地反應了事物由量變到質變的規律。例如有一種罕見的疾病,得病率為十萬分之一,如果從小樣本數據來看非常罕見,但是擴大到全世界70億人,那麼數量就非常龐大。以前技術落後,不能將該病情數字化集中研究,所以很難攻克。但是,我們現在把各種各樣的數據案例搜集起來統一分析,我們很快就能攻克很多以前想像不到的科學難題。類似的例子,不勝枚舉。
正是由於可以通過大數據挖掘到很多看不見的價值,源數據本身的價值也水漲船高。一些掌握海量有效數據的公司和企業找到了一條行之有效的商業路徑:對源數據直接或者經過簡單封裝銷售。在互聯網領域,以Facebook、twitter、微博為代表的社交網站擁有大量的用戶和用戶關系數據,這些網站正嘗試以各種方式對該源數據進行商業化銷售,Google、Yahoo!、網路[微博]等搜索公司擁有大量的搜索軌跡數據以及網頁數據,他們可以通過簡單API提供給第三方並從中盈利;在傳統行業中,中國聯通[微博](3.44, 0.03, 0.88%)、中國電信[微博]等運營商擁有大量的底層用戶資料,可以通過簡單地去隱私化,然後進行銷售盈利。
各大公司或者企業通過提供海量數據服務來支撐公司發展,同時以免費的服務補償用戶,這種成熟的商業模式經受住了時間的考驗。但是對於任何用戶數據的買賣,還需處理好用戶隱私信息,通過去隱私化方式,來保護好用戶隱私。
預測是增值服務的核心
在大數據基礎上進行深度挖掘,所衍生出來的增值服務,是大數據領域最具想像空間的商業模式。大數據增值服務的核心是什麼?預測!大數據引發了商業分析模式轉變,從過去的樣本模式到現在的全數據模式,從過去的小概率到現在的大概率,從而能夠得到比以前更准確的預測。目前形成了如下幾種比較成熟的商業模式。
個性化的精準營銷。一提起「垃圾簡訊」,大家都很厭煩,這是因為本來在營銷方看來是有價值的、「對」的信息,發到了「錯」的用戶手裡。通過對用戶的大量的行為數據進行詳細分析,深度挖掘之後,能夠實現給「對」的用戶發送「對」的信息。比如大型商場可以對會員的購買記錄進行深度分析,發掘用戶和品牌之間的關聯。然後,當某個品牌的忠實用戶收到該品牌打折促銷的簡訊之後,一定不是厭煩,而是欣喜。如優捷信達、中科嘉速等擁有強大數據處理技術的公司在數據挖掘、精準廣告分析等方面擁有豐富的經驗。
企業經營的決策指導。針對大量的用戶數據,運用成熟的數據挖掘技術,分析得到企業運營的各種趨勢,從而給企業的決策提供強有力的指導。例如,汽車銷售公司,可以通過對網路上用戶的大量評論進行分析,得到用戶最關心和最不滿意的功能,然後對自己的下一代產品進行有針對性的改進,以提升消費者的滿意度。
總體來說,從宏觀層面來看,大數據是我們未來社會的新能源;從企業微觀層面來看,大數據分析和運用能力正成為企業的核心競爭力。深入研究和積極探索大數據的商業模式,對企業的未來發展有至關重要的意義。
㈨ 80T的海量資料,如何永久保存,移動硬碟成本高,且超過10年後,基本上就有毛病了,有沒其它辦法
對於海量圖片數據的存儲問題,杉岩海量對象存儲(SandStone MOS)解決方案採用去中心化分布式架構,同時利用軟體定義的方式實現了單一名字空間條件下數百PB級規模的容量擴展,業務可以隨時隨地訪問而不受數據存儲位置的限制。
在提升海量小文件訪問性能方面,SandStone MOS利用哈希計算實現了數億級文件的高效訪問。針對文件檢索困難,SandStone MOS支持標簽功能,文件存儲時會自動設置標簽,從而更好地與業務結合,滿足高效檢索。
此外,SandStone MOS在易用性與可維護性方面也超越了同級別產品,其採用「x86通用伺服器+存儲軟體」的分布式解耦架構,將底層存儲空間與上層業務邏輯空間進行分離,軟硬體的升級不會影響到整個系統的正常運行。
即使系統有再多應用更新,也不會影響存儲空間的使用。值得一提的是,SandStone MOS首創的分布式存儲數據盤漫遊功能,可以幫助企業用戶漸進式的進行老舊硬體設備更換,不影響業務的正常運行。
㈩ Redis適合存儲海量小文件嗎
最近學習下redis,作為一個高性能的k/v資料庫,如果數據不用swap的話,redis的性能是無以倫比的。最近在做一個系統附件的緩存,試著把附件放到redis試試,寫了個保存文件的方法。public class TestRedis{ Jedis redis = new Jedis("localhost");...