Ⅰ 油田地質檔案中非結構化數據管理模式探索
李燕
(中國石油化工股份有限公司西南油氣分公司信息中心檔案館)
摘要 本文針對非結構化數據管理中存在的問題,分析了西南油氣田地質檔案非結構化數據管理特點,提出了數據採集、數據存儲、數據管理與數據利用的技術架構,並對非結構化數據的管理、應用進行了深刻剖析,總結出了以技術解決方案、行政管理模式和數據服務三位一體的管理模式,為油田地質檔案中非結構化數據的管理與應用探索出了一個有效的模式。
關鍵詞 非結構化 數據存儲 地質檔案 應用 管理
0 引言
隨著我國經濟建設的不斷發展,信息資源越來越成為企業或者組織的核心和命脈。對於信息密集型的石油行業來說尤其如此。在多年的生產實踐中,國內的石油行業已經發展出了針對大部分信息的數據綜合管理、數據應用、企業標准和行業標准等技術和成果,極大地支撐了石油勘探開發的各個過程。然而,和國外的石油公司相比,在信息資源的協同、分析、挖掘、共享、決策支持、集群計算上還存在一定的差距,這其中的核心要點就是如何對非結構化數據進行有效的存儲和利用。
對於典型的石油工業企業來說,信息資源存在於各種載體中,例如紙質的書籍或者論文、PDF文檔、圖形圖像文件、掃描件、電子書、光碟等,這些信息最終都可以轉化為非結構化數據。而對非結構化信息的管理需要面對如下問題:
高容量:非結構化數據通常是一個或多個文檔、圖件、多媒體等,容量在百兆、千兆級的比比皆是。
異構化:非結構化數據的來源、格式、載體都各不相同,難以進行統一的管理和檢索。
復雜性:非結構化數據因其高容量、異構的特點,在存儲、檢索、過濾、提取、分析和挖掘方面非常復雜。
再處理:非結構化數據在定製、交換、加密方面存在大量的個性化需求,格式的差異和多樣性也導致了對這些數據的再處理非常困難。
本文即是對這些問題進行詳細的討論和研究,結合油氣田地質檔案非構化數據的存儲與利用,探討一種可行的方法和合理的解決方案。
1 非結構化數據管理的技術架構
非結構化數據與結構化數據相對,系指不方便用資料庫二維邏輯表來表現的數據即稱為非結構化數據,包括所有格式的辦公文檔、文本、圖片、XML、HTML、各類報表、圖像和音/視頻信息等。
西南油氣田通過配置和集成軟硬體產品,設計並實施了適合非結構化數據存儲與利用的技術架構,由低到高分別是數據採集(預處理)、數據存儲、數據管理、數據使用(圖1)。
圖1 非結構化數據存儲與利用的技術架構圖
數據採集是非結構化數據管理最基礎的過程,是把原始的或者第一手的資料轉化成可供處理的數字化信息的關鍵步驟。
非結構化數據存儲是把勘探科研、生產、管理中產生的文檔、圖件、專著存放在資料庫或者文件伺服器上。一般採用兩種方式:一是把非結構化數據轉換成二進制流,存放在關系型資料庫中,同時一並記錄相關的輔助信息(可自定義);二是把非結構化數據保存到目錄伺服器上,在關系資料庫中只記錄目錄伺服器上的索引信息和輔助信息(可自定義)。圖2示意了這兩種方式。
圖2 非結構化數據存儲示意圖
數據管理是對已經存儲成功並且經過了結構化的信息進行再處理,包括數據的分類、檢索、元數據化、標准化、統計和歸並。
數據使用是非結構化數據管理的最終目的,信息如果不能交流、共享,那麼一個組織產生的信息再多,也不免成為信息孤島。採用基於.net和Web Service體系架構,為信息的共享和協同提供了技術上的保障。
2 非結構化數據管理應用解析
西南油氣田按非結構化數據管理的技術架構開發並組建了西南油氣田地質資料管理平台體系,對非結構化數據的管理實現了6大功能:非結構化數據的整理、元數據、基於索引伺服器的全文檢索、索引編制、任務管理、知識管理(表1)。
表1 中石化西南油氣田非結構化數據管理功能統計表
2.1 非結構化數據管理的功能架構
西南油氣田地質資料管理平台是一個完全的B/S模式資料管理系統和信息發布系統,其中,地質資料管理系統包括用戶管理、機構管理、許可權管理、日誌管理、數據管理、資料上傳、資料整理、資料審核、元數據、資料檢索。信息發布系統包括資料借閱、資料上傳、在線瀏覽、資料檢索、下載。
除了能夠完成資料管理和信息發布的功能外,還依據自身的工作方式,在平台中加入了本企業元素,如:資料屬性的自定義、用戶功能選擇、借閱流程與歸檔著錄一體化流程的植入、上傳和下載的壓縮與加密、用戶與安全方案的自動綁定,新到資料的查詢、個性化報表的查詢和列印、催還信息的發布等。主要功能架構如圖3。
圖3 功能架構圖
2.2 西南油氣田地質資料非結構化數據管理的主要特點
2.2.1 地質資料及文檔的包裝和結構化
在數據存儲方面,採用了基於Web Service數據訪問層組件,通過修改設置可以分別連接Oracle 9 i資料庫、SQL Server 2000資料庫等多種資料庫,用戶可以根據需要選擇。地質資料及文檔的包裝和結構化是指在數據採集和存儲方面採用了「資料體-文件體」的二元封包方式。對所有類型的文件或者文件集合都可以定義為資料體,同時採用元數據對資料體進行描述;從邏輯上來說,資料體是一個或者多個文件實體的集合,通過這種方式,就統一了各類非結構化數據的表現形式、外觀和行為,有利於將來的數據交換和協同。圖4描述了這種二元關系。
圖4 非結構化數據的二元封包方式
2.2.2 任務管理
文檔資料被採集並提交,資料體和元數據信息就會被寫入關系資料庫中(目前支持Oracle),而文件體會通過任務自動上傳到專門的文件伺服器中,同時由索引服務自動為這個文件體創建索引。入庫文檔資料的默認存儲方式是通過磁碟文件來存放的,如果需要把入庫文檔資料以二進制流的形式保存到關系資料庫中,則需要部署和配置數據持久化服務。圖5對文檔資料採集和存儲的過程進行了直觀的描述。
圖5 文檔資料採集和存儲的任務管理流程
任務管理是對上傳下載過程的任務化。為了應對文檔資料的採集要求,使用上傳任務來管理上傳過程,整個過程可以通過服務在後台依次自動完成,對用戶的操作不造成任何影響,避免了傳統的文件採集過程中用戶需要耗費大量的時間來等待上傳;為了確保數據的完整性,上傳過程支持斷點續傳。直觀的上傳任務管理器把需要上傳的文檔存放在任務隊列中,用戶可以隨時停止或者啟動上傳任務,最大程度的減少因為網路狀況或者容量問題帶來的不便。
2.2.3 元數據的定義和描述
在數據採集的過程中可以對文件定義元數據,文件的元數據繼承自所屬的案卷屬性,這樣一旦將文件歸入某一個資料類別,那麼就可以設置這個文件的擴展信息;另一方面,分類的元數據格式能夠成為這一類文件的元數據模板,同類文件的元數據格式都是相同的,便於進行同類資料的數據交換。圖6說明了案卷(資料類型)、文件和元數據的關系。
元數據作為非結構化數據的標簽,其意義是非常重要的,系統的檢索功能的查全和查准率主要是基於元數據的定義是否合理和准確,因此系統必須要提供元數據信息的修改和動態擴展功能,只有提供了上述功能,系統的信息描述才可能准確和豐富,這也是很多類似的信息系統所缺乏的。
圖6 案卷、文件和元數據的關系
依據中石化企業標准《Q/SH0167—2008石油天然氣勘探與開發地質資料立卷歸檔規則》,根據地質資料管理的特點,結合西南油氣田的實際情況,需求分析,明確各種(系統管理、資料載入和在線瀏覽、資料查詢、資料借閱和下載、資料銷毀、資料壓縮加密、資料審核、資料接收和分發)功能,對地質資料的文件元數據、檔案元數據、企業擴展元數據進行了充分研究與定義,實現了不同類別的地質資料定義不同屬性,方便查詢與借閱。例如表2。
表2 地質資料元數據屬性表
2.2.4 基於文件索引伺服器的全文檢索
對非結構化數據的檢索採用了兩種方式:基於屬性、關鍵字的精確檢索和基於內容的全文檢索。全文檢索過程採取了提交—建索引—查找—組織結果—返回的過程來完成。非結構化數據被提交到了文件伺服器,索引服務程序就創建或者更新索引文件(自動過程),當用戶發出檢索請求時,通過搜索引擎,獲取包含請求內容的結果並返回給請求者。索引服務程序能夠從入庫的文檔資料中自動抽取文本內容(圖7)。
索引服務程序的工作包括:偵測文件目錄的變化,文件被上傳、移動、修改或者刪除,就更新對應的索引;定期對文件目錄的整個范圍進行索引優化,保障索引在全局上的有效性和效率,這個工作可以自動完成,也可以由用戶手動完成。
西南油氣田基於此提供多種邏輯查詢,如模糊查詢、全文查詢、精確查詢,以及目錄瀏覽和全文瀏覽。如圖8。
圖7 全文檢索工作過程
圖8 查詢檢索截圖
2.3 西南油氣田非結構化管理應用效果
西南油氣田從2005年開始全面啟動地質資料非結構化數據建設,經過多年的共同努力,全面完成了地質資料的非結構化目錄資料庫建設,共計入庫地質資料條目125萬條,完成了不同類別地質資料的元素據設計並進行了全面屬性提取,提取的內容包括了文件元數據、檔案元數據以及企業擴展元數據三大類,為地質資料網路化管理與利用提供了強有力的搜索引擎包。
同時,按照非結構化數據建設理論,西南油氣田積極開展了成果地質資料全文資料庫與地質圖形庫的建設,通過歷史文檔與圖形的掃描整理,共計入庫電子文檔24萬個,總容量2.9 T。與油田氣地質資料目錄資料庫相結合,通過地質資料管理系統,實現了地質資料非結構化數據網路完整發布與全面應用。
經統計分析,在實現非結構化數據的網路化管理與應用以後,西南油氣田近5年地質資料年平均利用率高達11萬件次/年,是建成前的4.5 倍,有效提高了地質檔案資料的管理、使用水平,節約了成本,取得了良好的經濟效益。
3 非結構化數據的管理模式探索
作為企業信息資源的表現形式,非結構化數據的管理不單單是一個技術體系或者一個系統,而應該是一個龐大的系統工程。筆者根據西南油氣田地質檔案多年的信息化建設經驗和非結構化數據管理經驗,認為「技術解決方案、行政管理模式和數據服務」三位一體的管理模式是油氣田非結構化數據管理的有效模式(如圖9 所示)。
圖9 非結構化數據管理模式圖
首先,行政管理模式是整個非結構化數據管理的組織保障,由穩定的管理團隊、完備的可行性研究、明確的管理需求、充分的風險評估以及務實的組織實施組成。良好的行政管理模式能夠確保一個組織上下一心,共同推進信息體系建設,可以說它決定整個體系建設的成敗。
數據服務是非結構化數據信息管理的基礎。是指對非結構化數據進行採集、創建、加工、傳遞、組織、整理與規范的過程。同時也是用戶和開發者之間的潤滑劑,首先它能夠按照用戶的需求為用戶處理大量枯燥的數據整理和規范工作,其次從用戶的角度,指出軟體的缺陷,並敦促開發者進行修改。通過數據服務,可以有效地保障用戶業務的高效運轉、技術體系的不斷完善,發揮信息體系建設的最大效能。
技術解決方案從產品層面為非結構化數據的管理提供了軟硬體平台,是從數據採集到應用的完整的技術體系。包括:基於多種大型關系資料庫的信息存儲體系、基於內容的非結構化數據的文件伺服器、提供全文檢索、關聯檢索的索引伺服器、基於元數據的靈活的文件交換格式和個性化定製、靈活的許可權策略和強大的安全策略;技術解決方案是非結構化數據存儲與利用的核心。
4 結束語
非結構化數據存儲和應用是各油田分公司勘探決策支持系統的重要組成部分,這一部分研發成功後,能夠為決策支持所需要的信息資源提供基礎的平台。同時,基於這個平台之上的非結構化數據的應用能夠直接為決策支持系統服務,通過信息協同、文件檢索、數據挖掘和知識管理等技術和概念的應用,能夠使油氣田信息化建設上縮短甚至達到國際先進水平,向著勘探數字化、數據資產化、工作協同化和決策科學化方向邁進一大步,從而帶來巨大的經濟效益和社會效益。
參考文獻
[1]張志剛,姚瑋.海量非結構化數據存儲問題初探[J].中國檔案,2009(8).
[2]吳廣君,王樹鵬,陳明,李超.海量構化數據存儲檢索系統[J].計算機研究與發展,2011(7).
Ⅱ 如何將非結構化數據轉化為結構化數據
隨著機器學習的發展,過去傳統的結構化數據分析方法已經不能滿足我們的需求了。如何在神經網路中利用非結構化數據是很重要的一點。所以很多研究者致力於將非結構化數據處理成結構化數據的工具開發。將非結構化數據轉化為結構化數據有以下幾個方法:
1. 傳統方法——樹
雖然絕大多數數據是非結構化格式的,但是結構化數據普遍存在於各類商業應用軟體和系統中,例如產品數據存儲,交易日誌,ERP和CRM 系統中都存在大量結構化數據,這些結構化數據仍應用著陳舊的數據技術處理,如基於規則的系統,決策樹等。這樣的方法需要人工進行特徵提取,操作繁瑣且需要耗費大量人力進行數據標簽。
非結構化數據,也就是通常使用的雜亂無章的文本數據。非結構化數據通常是不能用結構化數據的常規方法以傳統方式進行分析或處理的,所以這也成為AI領域一個常見的難題,要理解非結構化數據通常需要輸入整段文字,以識別其潛在的特徵,然後查看這些特徵是否出現在池中的其他文本中。因此,在處理此類任務時,深度學習以其出色的特徵提取能力一騎絕塵,於是所有人都開始想著把神經網路用在結構化數據上——建個全連接層,把每一列的內容作為輸入,再有一個確定好的標簽,就可以進行訓練和推理了。
2. 新型利器——深度學習
需要尋找結構化數據的語義,目前要解決的問題主要有:
①數據清洗。要在結構化數據 AI 應用上有所成果,首先需要解決人工數據清洗和准備的問題,找到極少或者沒有人為干預的自動化方法,才能使得這一應用可落地可拓展。
②異構數據。處理結構化數據的其中一大挑戰在於,結構化數據可能是異構的,同時組合了不同類型的數據結構,例如文本數據、定類數據、數字甚至圖像數據。其次,數據表有可能非常稀疏。想像一個 100 列的表格,每列都有 10 到 1000 個可能值(例如製造商的類型,大小,價格等),行則有幾百萬行。由於只有一小部分列值的組合有意義,可以想像,這個表格可能的組合空間有多麼「空」。
③語義理解。找到這些結構化數據的語義特徵。處理結構化數據並不僅僅依賴於數據本身的特徵 (稀疏,異構,豐富的語義和領域知識),數據表集合 (列名,欄位類型,域和各種完整性約束等)可以解碼各數據塊之間的語義和可能存在的交互的重要信息。也就是說,存儲在資料庫表中的信息具有強大的底層結構,而現有的語言模型(例如 BERT)僅受過訓練以編碼自由格式的文本。
3. 結構化數據清洗
除了某些特定的需求外,經過預處理之後的結構化數據,應該滿足以下特點:
①所有值都是數字–機器學習演算法取決於所有數據都是數字;
②非數字值(在類別或文本列中的內容)需要替換為數字標識符;
③標識並清除具有無效值的記錄;
④識別並消除了無關的類別;
⑤所有記錄都需要使用相同的一致類別。
Ⅲ 「數據倉庫之父」談如何處理非結構化數據
毫無疑問,這是一個信息爆炸的時代。你的伺服器上充滿了各種各樣的數據。問題就提出來了,你如何處理那些非結構化數據?在本文中,讓「數據倉庫之父」 W.H.Inmon談談他自己的獨到見解。
雖說非結構化數據很難處理,但是它已經存在很久了,肯定比計算機的歷史還要久遠。不信的話,想想聖經,埃及象形文字,和卡馬河佛經這些骨灰級的東西,它們都是非結構化數據,它們的歷史可想而知了。這些非結構化數據絕對比那些矽片的出現的要早。搜索引擎雖然出現了一段時間,但也絕沒有印刷時代歷史悠久。即便現在的搜索引擎已經很完善了,但想隨心所欲的處理包含非結構化數據信息的時代還沒有到來,至少目前是這樣的。這是什麼原因造成的呢?
1、無用輸入,無用輸出 :
只有實現非結構化數據到數據倉庫的抽取,搜索引擎才會釋放出非結構化數據的真正價值。實現非結構化數據的整合存在著困難,想想那些很早就提出來的信息技術難題:無用信息輸入,無用信息輸出(GIGO),就會知道即使功能再強大的搜索引擎,用來處理那些實質上未經提煉和整和的數據會得到什麼結果?搜索引擎的結果會告訴我們答案,返回給用戶的也將會是一些沒有提煉,無用的信息。
因此,在搜索之前,那些非結構化的文本數據需要被提煉整合。如果這個工作完成的話,就不會有無用信息的輸入,那麼將不會產生無用的輸出信息。
2、Internet數據和公司數據的差異 :
通過搜索Internet來提煉數據收效甚微。通過Internet提煉和整合數據是白費力氣。試圖在Internet整合數據好比愚公移山,大海撈針。
但是公司數據就是另外一回事了,有以下兩個原因。第一,當提到公司數據,它的總量和類型是有限的,而Internet上的數據正好相反,無窮無盡。第二,不像Internet數據,公司數據幾乎和公司的事務相關。我可以很肯定的說,Internet上的數據上只有小部分的數據和公司的事務相關。
因此,整合公司文本數據,或者為了研究或者分析的目的而去整合,是非常可行的。
3、什麼樣的公司數據需要整合:
因此什麼樣的公司數據需要被整合呢?很明顯,有這么些類型的公司數據應該被整合,包括:
1.客戶數據——那些與客戶信息相關的數據
2.安全性數據——如意外事件,審查,修理,特約條款等等這些重要的事件
3.合同數據——與公司合同相關的數據
4.發現數據(Discovery data)——訴訟過程中的數據
5.順應性數據(Compliance data)——針對公司敏感事件和事務的描述
由此看出,公司數據限制很少,或者從理論上說,是沒有限制的。
4、數據整合的優勢:
整合公司文本數據的重大優點之一,就是一旦整合,它們就可以輸入到數據倉庫中,並且能重用。也就是說,公司文本數據只需要整合一次。整合之後,只要你願意,你可以多次研究和分析這些數據,可謂一勞永逸。
值得一提的是,在這公司文本數據整合後,就可以放入到數據倉庫中。一旦進入了數據倉庫,這些數據就能與結構數據結合到一起。
5、客戶信息分析 :
舉個例子,如針對公司的客戶信息管理系統,就要分析客戶信息。通常會從客戶那裡收到e-mail。但是,一旦那些e-mail閱讀之後,通常就被放在一邊了。這些讀過的郵件將會存放到一個文件夾里,從此這些郵件就在那裡擱置著,與另外上千的e-mail堆放在一起。
問題是,當公司需要這些信息的時候,這些信息卻很難找到。當一些e-mail涉及到潛在的未來信息,就顯得更加重要了。
客戶瓊斯夫人案例分析
為了證明以上觀點,讓我們看看一個案例,這個案例的主角是一位叫瓊斯夫人的客戶。假設她上個月寫了一個e-mail來嚴厲批評公司的銷售人員,因為她的一個訂單被延誤了。而正好這個月,公司的另外銷售人員准備打電話給瓊斯夫人,請求下更多的訂單。這是時候,對於那個銷售人員來說,上個月的來自瓊斯夫人的e-mail重不重要呢?
答案當然是非常重要的。如果我們想給瓊斯夫人推銷更多的新產品,這個時候關於客戶最近的任何信息都是非常重要的,無論正面了解的信息,還是從瓊斯夫人那裡反饋的信息。因此,擺在我們公司面前的問題就是如何找到那些與客戶相關的e-mail?如何過濾掉那些不相關的e-mail?
這里說的例子,只是其中的一個,許多的例子都需要用到非結構文本數據,如果為公司文本數據設計一個專門的整合過程,將這些公司文本數據能存儲到一個數據倉庫里,查找、過濾信息就好辦多了。
註:數據無非包括結構化數據和非結構化數據。結構化數據可以很輕松的被導入到數據倉庫中,因為不管是3NF還是星型模型,它們在結構上都屬於結構化數據。而非結構化數據包括音頻、圖像、e-mail、電子表格、txt文本、文檔、報告等。
作者簡介
比爾•恩門(Bill Inmon),被稱為數據倉庫之父,最早的數據倉庫概念提出者,在資料庫技術管理與資料庫設計方面,擁有逾35年的經驗。他是「企業信息工廠」的合作創始人與「政府信息工廠」的創始人。
Ⅳ 非結構化數據怎麼結構化數據存儲
杉岩海量對象存儲MOS,專為提供海量非結構化數據存儲解決方案,採用去中心化、分布式技術架構,支持百億級文件及EB級容量存儲,具備高效的數據檢索、智能化標簽和分析能力,輕松應對大數據和雲時代的存儲挑戰,為企業發展提供智能決策。
Ⅳ 公司存儲的非結構化數據太多了,好多都是現階段不需要使用的了,應該如何管理呢
我們公司有70%的非結構化數據沒有被利用,存儲的成本也是很高。但是選擇安裝了XSKY星辰天合的XUDS平台。它是一站式非結構化數據管理平台,數據承載能力很高,而且內置數據備份功能,支持上千個恢復點,RPO 為小時級別,保證數據安全。
Ⅵ 請教:關於結構化和非結構化數據存儲
(1)結構化數據,簡單來說就是資料庫。結合到典型場景中更容易理解,比如企業ERP、財務系統;醫療HIS資料庫;政府行政審批;其他核心資料庫等。這些應用需要哪些存儲方案呢?基本包括高速存儲應用需求、數據備份需求、數據共享需求以及數據容災需求。
(2)非結構化資料庫是指其欄位長度可變,並且每個欄位的記錄又可以由可重復或不可重復的子欄位構成的資料庫,用它不僅可以處理結構化數據(如數字、符號等信息)而且更適合處理非結構化數據(全文文本、圖像、聲音、影視、超媒體等信息)。
面對海量非結構數據存儲,杉岩海量對象存儲MOS,提供完整解決方案,採用去中心化、分布式技術架構,支持百億級文件及EB級容量存儲,具備高效的數據檢索、智能化標簽和分析能力,輕松應對大數據和雲時代的存儲挑戰,為企業發展提供智能決策。
Ⅶ 非結構化數據大量存儲本地,無法擴展,怎麼辦
XSKY星辰天合的XUDS在非結構化數據處理上非常專業,他是採用的軟體定義的架構,支持多種協議,讓存儲擺脫硬體和平台的限制。
Ⅷ 半結構化數據的儲存方式
這種方法通常是對現有的簡歷中的信息進行粗略的統計整理,總結出簡歷中信息所有的類別同時考慮系統真正關心的信息。對每一類別建立一個子表,比如上例中我們可以建立教育情況子表、工作情況子表、黨籍情況子表等等,並在主表中加入一個備注欄位,將其它系統不關心的信息和一開始沒有考慮到的信息保存在備注中。
優點:查詢統計比較方便。
缺點:不能適應數據的擴展,不能對擴展的信息進行檢索,對項目設計階段沒有考慮到的同時又是系統關心的信息的存儲不能很好的處理。 XML可能是最適合存儲半結構化的數據了。將不同類別的信息保存在XML的不同的節點中就可以了。
優點:能夠靈活的進行擴展,信息進行擴展式只要更改對應的DTD或者XSD就可以了。
缺點:查詢效率比較低,要藉助XPATH來完成查詢統計,隨著資料庫對XML的支持的提升性能問題有望能夠很好的解決。
Ⅸ 解析如何超越RAID非結構化數據存儲
� 而RAID仍然是許多企業最喜愛的存儲架構,對象存儲初創公司Amplidata尋求以非傳統方式替代PB級規模非結構化數據的泛濫。 「RAID磁碟存儲仍然占企業IT部署的主導地位,但由於日益增長的磁碟密度,RAID不再能滿足現代存儲基礎設施的可靠性要求,Amplidata的聯盟和市場營銷總監Tom Leyden說:「為了解決RAID的這些缺點,用戶已經轉向管理文件的多個副本--但(他們)往往在存儲利用率和功耗方面支付一個過高的價格。」 Amplidata由一群歐洲高科技創業者成立於2008年,總部設在比利時Lochristi,Ghent附近,在美國加利福尼亞州紅木城設有辦事處。 Amplidata的旗艦產品是AmpliStor設備,該公司描述了面向PB級別的大文件基礎設施來優化的對象存儲系統。萊頓解釋Amplidata定位自己為一個大型方案的應用,如需要即時檢索媒體檔案的廣播電視用戶,或者也有類似的可用性期望的,支持社交遊戲網路的雲存儲系統。這些應用適合廣泛類別的非結構化媒體對象,如音頻、視頻和圖像文件,Amplidata的目標旨在以非常規方法替代傳統RAID部署。 Amplidata稱其AmpliStor產品可擴展到數百PB級的存儲,並且比傳統的解決方案節約50%到70%的容量、更小的空間佔用,轉換為節約成本和功耗。 AmpliStor背後的技術是由高密度,低功耗的存儲節點對搭配高性能的控制器節點,通過一個10GbE網路介面運行行業標準的HTTP/REST協議。 「這使得系統擴展吞吐量,以滿足任何應用要求,」萊頓解釋說。「後端存儲池散布到許多存儲節點滿足應用程序的容量要求,理論上系統支持無限數量的存儲節點」。 Amplidata通過調用其BitSpread技術,AmpliStor設備採用另一種方式將數據寫入到磁碟,萊頓介紹道,「在多TB驅動器上具備比RAID更好的可靠性。」BitSpread技術分割和編碼數據對象成為sub-blocks(子塊),然後散布在系統內最大數目的磁碟上。要恢復原始數據對象,BitSpread系統只需要這些子塊的一部分,提供了在多個磁碟或存儲節點出現故障時高級別的可靠性。 Amplidata的管理者認為圖像、視頻和其他富媒體形式的非結構化數據將成為驅動力,推動在未來十年大數據的增長,而對象存儲非常適合擴展到維護和訪問這些信息量。那麼,我們面臨的挑戰是說服潛在客戶,長期以來傳統的基於主機文件系統的企業存儲架構將被大數據打垮。 「對象存儲是一個很新的範例,」萊頓說。「幾十年來組織機構已經針對基於文件的存儲來解決提高RAID的限制,他們才剛剛開始得知有一個更好的辦法。」 Amplidata直接銷售給客戶,並正在擴大其渠道合作夥伴網路,並培養與OEM的聯盟。 在今年第一季度,該公司計劃把高密度的存儲模塊、更快的控制器和基於SSD的數據加速器推向市場,這將提高讀取性能。
Ⅹ GBase 8a對非結構化數據支持怎麼樣如何存儲和訪問
GBase 8a支持結構化數據和非結構化數據的統一管理,具體如下:
(1)支持將非結構化數據以BLOB數據類型的方式存儲在Hadoop上;
(2)支持通過MPP集群資料庫表中的URI欄位訪問Hadoop上的BLOB數據類型的數據。