當前位置:首頁 » 服務存儲 » 結構化數據存儲計算
擴展閱讀
webinf下怎麼引入js 2023-08-31 21:54:13
堡壘機怎麼打開web 2023-08-31 21:54:11

結構化數據存儲計算

發布時間: 2022-09-21 01:55:12

⑴ DolphinDB靠譜嗎

我個人認為比較靠譜,DolphinDB是由浙江智臾科技有限公司研發的一款高性能分布式時序資料庫,集成了功能強大的編程語言和高容量高速度的流數據分析系統,為海量結構化數據的快速存儲、檢索、分析及計算提供一站式解決方案,適用於量化金融及工業物聯網等領域。已被金融、物聯網及高校等領域數十家客戶所採用。根據各個行業反饋還是挺靠譜的。

⑵ 怎樣的架構設計才是真正的數據倉庫架構

一直想整理一下這塊內容,既然是漫談,就想起什麼說什麼吧。我一直是在互聯網行業,就以互聯網行業來說。
先大概列一下互聯網行業數據倉庫、數據平台的用途:

  • 整合公司所有業務數據,建立統一的數據中心;

  • 提供各種報表,有給高層的,有給各個業務的;

  • 為網站運營提供運營上的數據支持,就是通過數據,讓運營及時了解網站和產品的運營效果;

  • 為各個業務提供線上或線下的數據支持,成為公司統一的數據交換與提供平台;

  • 分析用戶行為數據,通過數據挖掘來降低投入成本,提高投入效果;比如廣告定向精準投放、用戶個性化推薦等;

  • 開發數據產品,直接或間接為公司盈利;

  • 建設開放數據平台,開放公司數據;

  • 。。。。。。


  • 上面列出的內容看上去和傳統行業數據倉庫用途差不多,並且都要求數據倉庫/數據平台有很好的穩定性、可靠性;但在互聯網行業,除了數據量大之外,越來越多的業務要求時效性,甚至很多是要求實時的 ,另外,互聯網行業的業務變化非常快,不可能像傳統行業一樣,可以使用自頂向下的方法建立數據倉庫,一勞永逸,它要求新的業務很快能融入數據倉庫中來,老的下線的業務,能很方便的從現有的數據倉庫中下線;

  • 其實,互聯網行業的數據倉庫就是所謂的敏捷數據倉庫,不但要求能快速的響應數據,也要求能快速的響應業務;

  • 建設敏捷數據倉庫,除了對架構技術上的要求之外,還有一個很重要的方面,就是數據建模,如果一上來就想著建立一套能兼容所有數據和業務的數據模型,那就又回到傳統數據倉庫的建設上了,很難滿足對業務變化的快速響應。應對這種情況,一般是先將核心的持久化的業務進行深度建模(比如:基於網站日誌建立的網站統計分析模型和用戶瀏覽軌跡模型;基於公司核心用戶數據建立的用戶模型),其它的業務一般都採用維度+寬表的方式來建立數據模型。這塊是後話。

  • 整體架構下面的圖是我們目前使用的數據平台架構圖,其實大多公司應該都差不多:

  • 邏輯上,一般都有數據採集層、數據存儲與分析層、數據共享層、數據應用層。可能叫法有所不同,本質上的角色都大同小異。

  • 我們從下往上看:

  • 數據採集數據採集層的任務就是把數據從各種數據源中採集和存儲到數據存儲上,期間有可能會做一些簡單的清洗。


  • 數據源的種類比較多:

  • 網站日誌:


  • 作為互聯網行業,網站日誌占的份額最大,網站日誌存儲在多台網站日誌伺服器上,

  • 一般是在每台網站日誌伺服器上部署flume agent,實時的收集網站日誌並存儲到HDFS上;

  • 業務資料庫:


  • 業務資料庫的種類也是多種多樣,有Mysql、Oracle、SqlServer等,這時候,我們迫切的需要一種能從各種資料庫中將數據同步到HDFS上的工具,Sqoop是一種,但是Sqoop太過繁重,而且不管數據量大小,都需要啟動MapRece來執行,而且需要Hadoop集群的每台機器都能訪問業務資料庫;應對此場景,淘寶開源的DataX,是一個很好的解決方案(可參考文章 《異構數據源海量數據交換工具-Taobao DataX 下載和使用》),有資源的話,可以基於DataX之上做二次開發,就能非常好的解決,我們目前使用的DataHub也是。

  • 當然,Flume通過配置與開發,也可以實時的從資料庫中同步數據到HDFS。

  • 來自於Ftp/Http的數據源:


  • 有可能一些合作夥伴提供的數據,需要通過Ftp/Http等定時獲取,DataX也可以滿足該需求;

  • 其他數據源:


  • 比如一些手工錄入的數據,只需要提供一個介面或小程序,即可完成;


  • 數據存儲與分析毋庸置疑,HDFS是大數據環境下數據倉庫/數據平台最完美的數據存儲解決方案。


  • 離線數據分析與計算,也就是對實時性要求不高的部分,在我看來,Hive還是首當其沖的選擇,豐富的數據類型、內置函數;壓縮比非常高的ORC文件存儲格式;非常方便的SQL支持,使得Hive在基於結構化數據上的統計分析遠遠比MapRece要高效的多,一句SQL可以完成的需求,開發MR可能需要上百行代碼;

  • 當然,使用Hadoop框架自然而然也提供了MapRece介面,如果真的很樂意開發Java,或者對SQL不熟,那麼也可以使用MapRece來做分析與計算;Spark是這兩年非常火的,經過實踐,它的性能的確比MapRece要好很多,而且和Hive、Yarn結合的越來越好,因此,必須支持使用Spark和SparkSQL來做分析和計算。因為已經有Hadoop Yarn,使用Spark其實是非常容易的,不用單獨部署Spark集群,關於Spark On Yarn的相關文章,可參考:《Spark On Yarn系列文章》

  • 實時計算部分,後面單獨說。

  • 數據共享這里的數據共享,其實指的是前面數據分析與計算後的結果存放的地方,其實就是關系型資料庫和NOSQL資料庫;


  • 前面使用Hive、MR、Spark、SparkSQL分析和計算的結果,還是在HDFS上,但大多業務和應用不可能直接從HDFS上獲取數據,那麼就需要一個數據共享的地方,使得各業務和產品能方便的獲取數據;和數據採集層到HDFS剛好相反,這里需要一個從HDFS將數據同步至其他目標數據源的工具,同樣,DataX也可以滿足。

  • 另外,一些實時計算的結果數據可能由實時計算模塊直接寫入數據共享。


  • 數據應用
  • 業務產品


  • 業務產品所使用的數據,已經存在於數據共享層,他們直接從數據共享層訪問即可;

  • 報表


  • 同業務產品,報表所使用的數據,一般也是已經統計匯總好的,存放於數據共享層;

  • 即席查詢


  • 即席查詢的用戶有很多,有可能是數據開發人員、網站和產品運營人員、數據分析人員、甚至是部門老大,他們都有即席查詢數據的需求;

  • 這種即席查詢通常是現有的報表和數據共享層的數據並不能滿足他們的需求,需要從數據存儲層直接查詢。

  • 即席查詢一般是通過SQL完成,最大的難度在於響應速度上,使用Hive有點慢,目前我的解決方案是SparkSQL,它的響應速度較Hive快很多,而且能很好的與Hive兼容。

  • 當然,你也可以使用Impala,如果不在乎平台中再多一個框架的話。

  • OLAP


  • 目前,很多的OLAP工具不能很好的支持從HDFS上直接獲取數據,都是通過將需要的數據同步到關系型資料庫中做OLAP,但如果數據量巨大的話,關系型資料庫顯然不行;

  • 這時候,需要做相應的開發,從HDFS或者HBase中獲取數據,完成OLAP的功能;

  • 比如:根據用戶在界面上選擇的不定的維度和指標,通過開發介面,從HBase中獲取數據來展示。

  • 其它數據介面


  • 這種介面有通用的,有定製的。比如:一個從Redis中獲取用戶屬性的介面是通用的,所有的業務都可以調用這個介面來獲取用戶屬性。


  • 實時計算現在業務對數據倉庫實時性的需求越來越多,比如:實時的了解網站的整體流量;實時的獲取一個廣告的曝光和點擊;在海量數據下,依靠傳統資料庫和傳統實現方法基本完成不了,需要的是一種分布式的、高吞吐量的、延時低的、高可靠的實時計算框架;Storm在這塊是比較成熟了,但我選擇Spark Streaming,原因很簡單,不想多引入一個框架到平台中,另外,Spark Streaming比Storm延時性高那麼一點點,那對於我們的需要可以忽略。

  • 我們目前使用Spark Streaming實現了實時的網站流量統計、實時的廣告效果統計兩塊功能。

  • 做法也很簡單,由Flume在前端日誌伺服器上收集網站日誌和廣告日誌,實時的發送給Spark Streaming,由Spark Streaming完成統計,將數據存儲至Redis,業務通過訪問Redis實時獲取。

  • 任務調度與監控在數據倉庫/數據平台中,有各種各樣非常多的程序和任務,比如:數據採集任務、數據同步任務、數據分析任務等;


  • 這些任務除了定時調度,還存在非常復雜的任務依賴關系,比如:數據分析任務必須等相應的數據採集任務完成後才能開始;數據同步任務需要等數據分析任務完成後才能開始;這就需要一個非常完善的任務調度與監控系統,它作為數據倉庫/數據平台的中樞,負責調度和監控所有任務的分配與運行。

  • 前面有寫過文章,《大數據平台中的任務調度與監控》,這里不再累贅。

  • 總結在我看來架構並不是技術越多越新越好,而是在可以滿足需求的情況下,越簡單越穩定越好。目前在我們的數據平台中,開發更多的是關注業務,而不是技術,他們把業務和需求搞清楚了,基本上只需要做簡單的SQL開發,然後配置到調度系統就可以了,如果任務異常,會收到告警。這樣,可以使更多的資源專注於業務之上。

⑶ 什麼是結構化數據

結構化數據(有時稱為關系數據)是遵循某種嚴格架構的數據,因此所有數據都具有相同的欄位或屬性。共享架構允許使用SQL(結構化查詢語言)等查詢語言輕松搜索此類數據。此功能使此數據樣式非常適合CRM系統、預留和庫存管理等應用程序。
結構化數據通常存儲在具有行和列的資料庫表中,其中鍵列指示表中的一行與另一個表的另一行中的數據之間的關系。
結構化數據很簡單,易於輸入,查詢和分析。所有數據都遵循相同的格式。但強制採用一致的結構也意味著數據演變會更加困難,因為必須更新每個記錄才能符合新的結構。
一個結構化數據的具體例子
業務分析師希望實現商業智能,以計算庫存管道和查看銷售數據,為了執行這些操作,需要將多個月的數據聚合在一起,然後進行查詢。由於需要聚合類似數據。因此必須對這些數據進行結構化處理,以便將一個月的數據與下個月的進行比較。

⑷ 結構化數據和非結構化數據什麼關系

除了存儲在關系資料庫和存儲非關系資料庫之外的明顯區別之外,最大的區別在於分析結構化數據與非結構化數據的便利性。針對結構化數據存在成熟的分析工具,但用於挖掘非結構化數據的分析工具正處於萌芽和發展階段。並且非結構化數據要比結構化數據多得多。非結構化數據占企業數據的80%以上,並且以每年55%~65%的速度增長。


以下為補充資料:

典型的結構化數據包括:

信用卡號碼、日期、財務金額、電話號碼、地址、產品名稱等。

典型的人為生成的非結構化數據包括:

  • 文本文件:文字處理、電子表格、演示文稿、電子郵件、日誌。

  • 電子郵件:電子郵件由於其元數據而具有一些內部結構,我們有時將其稱為半結構化。但是,消息欄位是非結構化的,傳統的分析工具無法解析它。

  • 社交媒體:來自新浪微博、微信、QQ、Facebook,Twitter,LinkedIn等平台的數據。

  • 網站: YouTube,Instagram,照片共享網站。

  • 移動數據:簡訊、位置等。

  • 通訊:聊天、即時消息、電話錄音、協作軟體等。

  • 媒體:MP3、數碼照片、音頻文件、視頻文件。

  • 業務應用程序:MS Office文檔、生產力應用程序。

典型的機器生成的非結構化數據包括:

  • 衛星圖像:天氣數據、地形、軍事活動。

  • 科學數據:石油和天然氣勘探、空間勘探、地震圖像、大氣數據。

  • 數字監控:監控照片和視頻。

  • 感測器數據:交通、天氣、海洋感測器。

⑸ 玉溪電腦培訓學校告訴你組成區塊鏈基礎運算功能的組織架構內容

隨著互聯網的都不發展,消費者對區塊鏈技術和數字虛擬貨幣的認知程度也在不斷的提高。今天,我們就一起來了解一下區塊鏈技術的基礎運算方法都有哪些結構構成的。下面java課程http://www.kmbdqn.cn/就一起來了解一下具體情況吧。



構成計算技術的基本元素是存儲、處理和通信。大型主機、PC、移動設備和雲服務都以各自的方式展現這些元素。各個元素之內還有專門的構件塊來分配資源。


本文聚焦於區塊鏈的大框架:介紹區塊鏈中各個計算元素的模塊以及各個模塊的一些實現案例,偏向概論而非詳解。


區塊鏈的組成模塊


以下是去中心化技術中各個計算元素的構件塊:


存儲:代幣存儲、資料庫、文件系統/blob


處理:有狀態的業務邏輯、無狀態的業務邏輯、高性能計算


通信:數據、價值和狀態的連接網路


存儲


作為基本計算元素,存儲部分包含了以下構件塊。


代幣存儲。代幣是價值的存儲媒介(例如資產、證券等),價值可以是比特幣、航空里程或是數字作品的版權。代幣存儲系統的主要作用是發放和傳輸代幣(有多種變體),同時防止多重支付之類的事件發生。


比特幣和Zcash是兩大「純凈」的、只關注代幣本身的系統。以太坊則開始將代幣用於各種服務,以實現其充當全球計算中心的理想。這些例子中代幣被用作運營整個網路架構的內部激勵。


還有些代幣不是網路用來推動自身運行的內部工具,而是用做更高級別網路的激勵,但它們的代幣實際上是存儲在底層架構中的。一個例子是像Golem這樣的ERC20代幣,運行在以太坊網路層上。另一個例子是Envoke的IP授權代幣,運行在IPDB網路層上。


資料庫。資料庫專門用來存儲結構化的元數據,例如數據表(關系型資料庫)、文檔存儲(例如JSON)、鍵值存儲、時間序列或圖資料庫。資料庫可以使用SQL這樣的查詢快速檢索數據。


傳統的分布式(但中心化)資料庫如MongoDB和Cassandra通常會存儲數百TB甚至PB級的數據,性能可達到每秒百萬次寫入。


SQL這樣的查詢語言是很強大的,因為它將實現與規范區分開來,這樣就不會綁定在某個具體的應用上。SQL已經作為標准應用了數十年,所以同一個資料庫系統可以用在很多不同的行業中。


換言之,要在比特幣之外討論一般性,不一定要拿圖靈完備性說事。你只需要一個資料庫就夠了,這樣既簡潔又方便擴展。有些時候圖靈完備也是很有用的,我們將在「去中心化處理」一節具體討論。


BigchainDB是去中心化的資料庫軟體,是專門的文檔存儲系統。它基於MongoDB(或RethinkDB),繼承了後者的查詢和擴展邏輯。但它也具備了區塊鏈的特徵,諸如去中心化控制、防篡改和代幣支持。IPDB是BigchainDB的一個受監管的公開實例。


在區塊鏈領域,也可以說IOTA是一個時間序列資料庫。


文件系統/blob數據存儲。這些系統以目錄和文件的層級結構來存儲大文件(電影、音樂、大數據集)。


IPFS和Tahoe-LAFS是去中心化的文件系統,包含去中心化或中心化的blob存儲。FileCoin、Storj、Sia和Tieron是去中心化的blob存儲系統,古老而出色的BitTorrent也是如此,雖然後者使用的是p2p體系而非代幣。以太坊Swarm、Dat、Swarm-JS基本上都支持上述兩種方式。


數據市場。這種系統將數據所有者(比如企業)與數據使用者(比如AI創業公司)連接在一起。它們位於資料庫與文件系統的上層,但依舊是核心架構,因為數不清的需要數據的應用(例如AI)都依賴這類服務。Ocean就是協議和網路的一個例子,可以基於它創建數據市場。還有一些特定應用的數據市場:EnigmaCatalyst用於加密市場,Datum用於私人數據,DataBrokerDAO則用於物聯網數據流。


處理


接下來討論處理這個基本計算元素。


「智能合約」系統,通常指的是以去中心化形式處理數據的系統[3]。它其實有兩個屬性完全不同的子集:無狀態(組合式)業務邏輯和有狀態(順序式)業務邏輯。無狀態和有狀態在復雜性、可驗證性等方面差異巨大。三種去中心化的處理模塊是高性能計算(HPC)。


無狀態(組合式)業務邏輯。這是一種任意邏輯,不在內部保留狀態。用電子工程術語來說,它可以理解為組合式數字邏輯電路。這一邏輯可以表現為真值表、邏輯示意圖、或者帶條件語句的代碼(if/then、and、or、not等判斷的組合)。因為它們沒有狀態,很容易驗證大型無狀態智能合約,從而創建大型可驗證的安全系統。N個輸入和一個輸出需要O(2^N)個計算來驗證。


跨賬本協議(ILP)包含crypto-conditions(CC)協議,以便清楚地標出組合電路。CC很好理解,因為它通過IETF成為了互聯網標准,而ILP則在各種中心和去中心化的支付網路(例如超過75家銀行使用的瑞波)中廣泛應用。CC有很多獨立實現的版本,包括JavaScript、Python、Java等。BigchainDB、瑞波等系統也用CC,用以支持組合式業務邏輯/智能合約。


⑹ 資料庫結構

新一輪油氣資源評價資料庫是建立在國家層面上的資料庫,資料庫設計首先立足於國家能源政策和戰略制定的宏觀要求,還要結合油氣資源評價的工作特徵和各個評價項目及資源的具體情況。使用當前最流行和最成熟的資料庫技術進行資料庫的總體結構設計。

資料庫的設計以《石油工業資料庫設計規范》為指導標准,以《石油勘探開發數據》為設計基礎,借鑒前人的優秀設計理念和思路,參考國內外優秀的資源評價資料庫和油氣資源資料庫的設計技術優勢,結合本輪資源評價的具體特點,按照面向對象的設計和面向過程的設計相結合的設計方法,進行資料庫的數據劃分設計。

油氣資源評價資料庫要滿足新一輪全國油氣資源評價工作的常規油氣資源評價、煤層氣資源評價、油砂資源評價、油頁岩資源評價四個油氣資源評價的數據需求。進行資料庫具體數據內容設計。

並且,資料庫的設計要為油氣資源評價的快速、動態評價和遠程評價工作的需求保留足夠數據擴展介面,資料庫具有良好開放性、兼容性和可擴充性。

(一)數據劃分

資料庫內存放的數據將支持資源評價的整個過程。為了能更好地管理庫中數據,需要對整個過程中將用到的數據進行分類管理。具體分類方式如下(圖4-11):

圖4-11 數據分類示意圖

1.按照應用類型劃分

按照數據在資源評價過程中的應用類型劃分,可以劃分為基礎數據、參數數據和評價結果數據。

基礎數據是指從勘探生產活動及認識中直接獲取的原始數據,這些數據一般沒有經過復雜的處理和計算過程。如分析化驗數據、鑽井地質數據、盆地基礎數據等。這些數據是整個評價工作的基礎。

參數數據是指在評價過程中各種評價方法和軟體直接使用的參數數據。

評價結果數據是指資源評價中產生的各種評價結果數據,如資源量結果數據、地質評價結果數據等。

2.按照評價對象劃分

本次評價共分為大區、評價單元、計算單元三個層次,在研究中又使用了盆地、一級構造單元,在評價對象總體考慮中按照評價對象將數據劃分為大區、評價單元、計算單元等類型。

3.按照獲取方式劃分

按照獲取方式可以將數據分為直接獲取、研究獲取、間接獲取幾類。

4.按照存儲類型劃分

按照存儲類型可以將數據劃分為結構化數據和非結構化數據。

結構化數據是指能夠用現有的關系資料庫系統直接管理的數據,進一步又可以分為定量數據和定性數據兩類。

非結構化數據是指不能用現有的關系資料庫系統直接管理和操作的數據,它必須藉助於另外的工具管理和操作。如圖件數據、文檔數據等。

庫中數據類型的劃分共分六個層次逐次劃分,包括:數據存儲類型→資源類型→評價對象→應用→獲取方式→數據特徵。

對於結構化存儲的數據在應用層分為三類:基礎數據、中間數據和結果數據,基礎數據中包含用於類比的基礎數據、用於統計分析的基礎數據和直接用於公式運算的基礎數據;結構化存儲的數據在獲取方式上可以繼續劃分,其中,用於公式運算的數據可以細化為專家直接錄入、由地質類比獲取、通過生產過程獲取、通過地質研究過程獲取及其他方式。中間數據可以從以下方式獲取:標准、統計、類比、參數的關聯。結果數據的獲取有兩種方式:公式運算結果和通過鑽井、地質、綜合研究等提交的文字報告。

對於非結構化存儲的數據在應用層分為兩類:圖形數據和文檔數據。

圖形數據在獲取方式上可以繼續劃分成四種方式:通過工程測量數據獲取(如地理圖件、井位坐標數據等)、通過地質研究過程獲取(如沉積相圖、構造區劃圖等)、由綜合研究獲取(如綜合評價圖等)、其他方式。

圖形數據在表現方式上又可以進一步分為有坐標意義的圖形(如構造單元劃分圖、地理圖、井點陣圖等)、數值圖(如產烴率曲線圖、酐洛根熱降解圖等)和無坐標含義圖(如剖面圖)等。

文檔數據是指評價過程中產生的各種報告、項目運行記錄等。

(二)資料庫結構

從業務需求上,根據數據用途、數據類型和數據來源,可將本次的油氣資源評價資料庫分為三級:基礎庫、參數庫、成果庫(圖4-12)。其結構如下:

圖4-12 資料庫結構示意圖

1.基礎庫

基礎庫是油氣資源評價工作的最基礎的原始數據,有實測數據(物探數據、測井數據、鑽井數據、開發數據等)、實驗數據和經驗數據等。

確定基礎數據實際上是一項涉及油田勘探、開發等領域的多學科的復雜工作,是油氣資源評價工作的研究過程和研究成果在資料庫中的具體表現方式。在設計資料庫的過程中,需要與參數研究專家經過多次反復,才能最終確定基礎資料庫,確保基礎資料庫能滿足目前所有評價工作中計算的需要。

2.參數庫

參數庫用於存儲油氣資源評價工作所用到的參數數據,評價軟體,直接從參數庫中提取參數數據,用於計算。參數數據由基礎數據匯總而來,也可以由專家根據經驗直接得到。

本次評價中所涉及的參數大致可以分為以下幾類:①直接應用的參數;②通過標准或類比借用的參數;③通過研究過程或復雜的預處理得到的參數。

3.成果庫

成果庫用於存儲資源評價結果,包括各種計算結果、各種文檔、電子表格、圖片、圖冊等數據。

資料庫的體系結構採用分布式多層資料庫結構,包括三個組成部分:應用服務層、應用邏輯層和數據服務層。

資料庫體系結構如圖4-13所示。

圖4-13 體系結構結構圖

(1)應用服務層:應用服務層包含復雜的事務處理邏輯,應用服務層主要由中間件組件構成。中間件是位於上層應用和下層服務之間的一個軟體層,提供更簡單、可靠和增值服務。並且能夠實現跨庫檢索的關鍵技術。它能夠使應用軟體相對獨立於計算機硬體和操作系統平台,把分散的資料庫系統有機地組合在一起,為應用軟體系統的集成提供技術基礎,中間件具有標准程序介面和協議,可以實現不同硬體和操作系統平台上的數據共享和應用互操作。而在具體實現上,中間件是一個用API定義的分布式軟體管理框架,具有潛在的通信能力和良好的可擴展性能。中間件包含系統功能處理邏輯,位於應用伺服器端。它的任務是接受用戶的請求,以特定的方式向應用伺服器提出數據處理申請,通過執行相應的擴展應用程序與應用服務層進行連接,當得到應用伺服器返回的處理結果後提交給應用伺服器,再由應用伺服器傳送回客戶端。根據國內各大石油公司具體的需求開發相應的地質、油藏、生產等應用軟體功能程序模塊和各種演算法模塊。

(2)應用邏輯層:邏輯數據層是擴展數據服務層邏輯處理層,針對當前的底層資料庫的數據結構,根據具體的需求,應用各種資料庫技術,包括臨時表、視圖、存儲過程、游標、復制和快照等技術手段從底層資料庫中提取相關的數據,構建面向具體應用的邏輯資料庫或者形成一個虛擬的資料庫平台。邏輯數據層包含底層資料庫的部分或全部數據處理邏輯,並處理來自應用服務層的數據請求和訪問,將處理結果返回給邏輯數據層。

形成一個虛擬的資料庫平台我們可以應用資料庫系統中的多個技術來實現。如果系統中的一個節點中的場地或分片數據能夠滿足當前虛擬資料庫,可以在應用服務層中使用大量的查詢,生成一個以數據集結果為主的虛擬資料庫平台,並且由數據集附帶部分資料庫的管理應用策略。或者對節點上的資料庫進行復制方法進行虛擬資料庫的建立。對與需要對多個節點上的資料庫進行綜合篩選,則要對各個節點上的資料庫進行復制,合並各個復制形成一個應用邏輯層,從而建立一個虛擬數據平台。

(3)數據服務層:即資料庫伺服器層,其中包含系統的數據處理邏輯,位於不同的操作系統平台上,不同資料庫平台(異構資料庫),具體完成數據的存儲、數據的完整性約束。也可以直接處理來自應用服務層的數據請求和訪問,將處理結果返回給邏輯數據層或根據邏輯數據層通過提交的請求,返回數據信息和數據處理邏輯方法。

(三)數據建設標准

1.評價數據標准

系統資料庫中的數據格式、大小、類型遵從國家及行業標准,參考的標准如表4-23。

表4-23 資料庫設計參考標准

續表

系統中數據的格式及單位參考《常規油氣資源評價實施方案》、《煤層氣資源評價實施方案》、《油砂資源評價實施方案》、《油頁岩資源評價實施方案》及數據字典。

2.圖形圖件標准

對於地質研究來說,地質類圖件是比較重要的。各種地質評價圖形遵循以下標准(表4-24)。

表4-24 系統圖形遵循的相關標准

系統對圖形的要求為必須為帶有地理坐標意義的、滿足上述標准體系要求的矢量圖形,且採用統一的地理底圖。圖形格式採用:MapGIS圖形交換格式、GeoInfo圖形格式、ArcInfo圖形交換格式、MapInfo圖形交換格式和GeoMap圖形交換格式。

圖件的比例尺要求:

全國性圖件:1∶400萬或1:600萬

大區圖件:1:200萬

盆地圖件:1:40萬或1:50萬

評價單元圖件:1:10萬或1:20萬

圖件的內容要求符合《常規油氣資源評價實施方案》、《煤層氣資源評價實施方案》、《油砂資源評價實施方案》和《油頁岩資源評價實施方案》的規定。

(四)數據內容

資料庫中存儲的數據包括常規油氣相關數據、煤層氣相關數據、油砂相關數據和油頁岩相關數據;還有可采系數研究涉及的數據,包括研究所需基礎數據和研究成果數據;以及趨勢預測相關數據。

⑺ Bigtable---分布式的結構化數據存儲系統

sina

Bigtable 是一個分布式的結構化數據存儲系統,它被設計用來處理海量數據:通常是分布在數千台普通伺服器上的PB 級的數據。Google 的很多項目使用Bigtable 存儲數據,包括Web 索引、GoogleEarth、Google Finance。這些應用對Bigtable 提出的要求差異非常大,無論是在數據量上(從URL到網頁到衛星圖像)還是在響應速度上(從後端的批量處理到實時數據服務)。
Bigtable 已經實現了下面的幾個目標:適用性廣泛、可擴展、高性能和高可用性,Bigtable 是一個稀疏的、分布式的、持久化存儲的多維度排序Map。

圖一:一個存儲Web 網頁的例子的表的片斷。行名是一個反向URL。contents 列族存放的是網頁的內容,anchor 列族存放引用該網頁的錨鏈接文本(alex 註:如果不知道HTML 的Anchor,請Google一把)。CNN 的主頁被Sports Illustrater和MY-look 的主頁引用,因此該行包含了名為「anchor:cnnsi.com」和「anchhor:my.look.ca」的列。每個錨鏈接只有一個版本(alex 註:注意時間戳標識了列的版本,t9 和t8 分別標識了兩個錨鏈接的版本);而contents 列則有三個版本,分別由時間戳t3,t5,和t6 標識。


Bigtable 通過行關鍵字的字典順序來組織數據。表中的每個行都可以動態分區。每個分區叫做一個」Tablet」,Tablet 是數據分布和負載均衡調整的最小單位。

列族
Webtable 有個列族language,language 列族用來存放撰寫網頁的語言。
我們在language 列族中只使用一個列關鍵字,用來存放每個網頁的語言標識ID。Webtable 中另一個有用的列族是anchor;這個列族的每一個列關鍵字代表一個錨鏈接,如圖一所示。Anchor 列族的限定詞是引用該網頁的站點名;Anchor 列族每列的數據項存放的是鏈接文本。訪問控制、磁碟和內存的使用統計都是在列族層面進行的。

時間戳
不同版本的數據通過時間戳來索引。Bigtable 時間戳的類型是64 位整型。
Bigtable 可以給時間戳賦值,用來表示精確到毫秒的「實時」時間;用戶程序也可以給時間戳賦值。如果應用程序需要避免數據版本沖突,那麼它必須自己生成具有唯一性的時間戳。數據項中,不同版本的數據按照時間戳倒序排序,即最新的數據排在最前面。為了減輕多個版本數據的管理負擔,我們對每一個列族配有兩個設置參數, Bigtable 通過這兩個參數可以對廢棄版本的數據自動進行垃圾收集。用戶可以指定只保存最後n 個版本的數據,或者只保存「足夠新」的版本的數據(比如,只保存最近7 天的內容寫入的數據)。

Bigtable支持的其他特性
1、Bigtable 支持單行上的事務處理,利用這個功能,用戶可以對存儲在一個行關鍵字下的數據進行原子性的讀-更新-寫操作。
2、Bigtable 允許把數據項用做整數計數器。
3、Bigtable 允許用戶在伺服器的地址空間內執行腳本程序
4、Bigtable 可以和MapRece一起使用,MapRece 是Google 開發的大規模並行計算框架。我們已經開發了一些Wrapper 類,通過使用這些Wrapper 類,Bigtable 可以作為MapRece 框架的輸入和輸出。

Bigtable依賴於google的幾項技術。用GFS來存儲日誌和數據文件;按SSTable文件格式存儲數據;用Chubby管理元數據:
Bigtable是建立在其它的幾個Google基礎構件上的。BigTable 使用Google 的分布式文件系統(GFS)存儲日誌文件和數據文件。BigTable 集群通常運行在一個共享的機器池中,池中的機器還會運行其它的各種各樣的分布式應用程序,BigTable 的進程經常要和其它應用的進程共享機器。BigTable 依賴集群管理系統來調度任務、管理共享的機器上的資源、處理機器的故障、以及監視機器的狀態。
BigTable 內部存儲數據的文件是Google SSTable 格式的。SSTable 是一個持久化的、排序的、不可更改的Map 結構,而Map 是一個key-value 映射的數據結構,key 和value 的值都是任意的Byte串,從內部看,SSTable 是一系列的數據塊(通常每個塊的大小是64KB,這個大小是可以配置的)。。SSTable 使用塊索引(通常存儲在SSTable 的最後)來定位數據塊;在打開SSTable的時候,索引被載入到內存。每次查找都可以通過一次磁碟搜索完成:首先使用二分查找法在內存中的索引里找到數據塊的位置,然後再從硬碟讀取相應的數據塊。也可以選擇把整個SSTable 都放在內存中,這樣就不必訪問硬碟了。

BigTable 還依賴一個高可用的、序列化的分布式鎖服務組件,叫做Chubby。Chubby有五個活躍副本,同時只有一個主副本提供服務,副本之間用Paxos演算法維持一致性,Chubby提供了一個命名空間(包括一些目錄和文件),每個目錄和文件就是一個鎖,Chubby的客戶端必須和Chubby保持會話,客戶端的會話若過期則會丟失所有的鎖。

Bigtable 包括了三個主要的組件:鏈接到客戶程序中的庫、一個Master主伺服器和多個Tablet片 伺服器。
Bigtable會將表(table)進行分片,片(tablet)的大小維持在100-200MB范圍,一旦超出范圍就將分裂成更小的片,或者合並成更大的片。每個片伺服器負責一定量的片,處理對其片的讀寫請求,以及片的分裂或合並。片伺服器可以根據負載隨時添加和刪除。這里片伺服器並不真實存儲數據,而相當於一個連接Bigtable和GFS的代理,客戶端的一些數據操作都通過片伺服器代理間接訪問GFS。主伺服器負責將片分配給片伺服器,監控片伺服器的添加和刪除,平衡片伺服器的負載,處理表和列族的創建等。注意,主伺服器不存儲任何片,不提供任何數據服務,也不提供片的定位信息。

客戶端需要讀寫數據時,直接與片伺服器聯系。因為客戶端並不需要從主伺服器獲取片的位置信息,所以大多數客戶端從來不需要訪問主伺服器,主伺服器的負載一般很輕。

Master 伺服器主要負責以下工作:為Tablet 伺服器分配Tablets、檢測新加入的或者過期失效的Table 伺服器、對Tablet 伺服器進行負載均衡、以及對保存在GFS 上的文件進行垃圾收集。除此之外,它還處理對模式的相關修改操作,例如建立表和列族。

我們使用一個三層的、類似B+樹的結構存儲Tablet 的位置信息。

第一層是一個存儲在Chubby 中的文件,它包含了Root Tablet 的位置信息。這個Chubby文件屬於Chubby服務的一部分,一旦Chubby不可用,就意味著丟失了root tablet的位置,整個Bigtable也就不可用了。
第二層是root tablet。root tablet其實是元數據表(METADATA table)的第一個分片,它保存著元數據表其它片的位置。root tablet很特別,為了保證樹的深度不變,root tablet從不分裂。
第三層是其它的元數據片,它們和root tablet一起組成完整的元數據表。每個元數據片都包含了許多用戶片的位置信息。

片的數據最終還是寫到GFS里的,片在GFS里的物理形態就是若干個SSTable文件。下圖展示了讀寫操作基本情況。

BigTable和GFS的關系
集群包括主伺服器和片伺服器,主伺服器負責將片分配給片伺服器,而具體的數據服務則全權由片伺服器負責。但是不要誤以為片伺服器真的存儲了數據(除了內存中memtable的數據),數據的真實位置只有GFS才知道,主伺服器將片分配給片伺服器的意思應該是,片伺服器獲取了片的所有SSTable文件名,片伺服器通過一些索引機制可以知道所需要的數據在哪個SSTable文件,然後從GFS中讀取SSTable文件的數據,這個SSTable文件可能分布在好幾台chunkserver上。
一個簡化的Bigtable結構圖:

結構圖以Webtable表為例,表中存儲了網易、網路和豆瓣的幾個網頁。當我們想查找網路貼吧昨天的網頁內容,可以向Bigtable發出查詢Webtable表的(com..tieba, contents:, yesterday)。

假設客戶端沒有該緩存,那麼Bigtable訪問root tablet的片伺服器,希望得到該網頁所屬的片的位置信息在哪個元數據片中。使用 METADATA.Webtable.com..tieba 為行鍵在root tablet中查找,定位到最後一個比它大的是 METADATA.Webtable.com..www ,於是確定需要的就是元數據表的片A。訪問片A的片伺服器,繼續查找 Webtable.com..tieba ,定位到 Webtable.com..www 是比它大的,確定需要的是Webtable表的片B。訪問片B的片伺服器,獲得數據。

這里需要注意的是,每個片實際都由若干SSTable文件和memtable組成,而且這些SSTable和memtable都是已排序的。這就導致查找片B時,可能需要將所有SSTable和memtable都查找一遍;另外客戶端應該不會直接從元數據表獲得SSTable的文件名,而只是獲得片屬於片伺服器的信息,通過片伺服器為代理訪問SSTable。

⑻ 什麼是大數據,看完這篇就明白了

什麼是大數據

如果從字面上解釋的話,大家很容易想到的可能就是大量的數據,海量的數據。這樣的解釋確實通俗易懂,但如果用專業知識來描述的話,就是指數據集的大小遠遠超過了現有普通資料庫軟體和工具的處理能力的數據。

大數據的特點

海量化

這里指的數據量是從TB到PB級別。在這里順帶給大家科普一下這是什麼概念。

MB,全稱MByte,計算機中的一種儲存單位,含義是「兆位元組」。

1MB可儲存1024×1024=1048576位元組(Byte)。

位元組(Byte)是存儲容量基本單位,1位元組(1Byte)由8個二進制位組成。

位(bit)是計算機存儲信息的最小單位,二進制的一個「0」或一個「1」叫一位。

通俗來講,1MB約等於一張網路通用圖片(非高清)的大小。

1GB=1024MB,約等於下載一部電影(非高清)的大小。

1TB=1024GB,約等於一個固態硬碟的容量大小,能存放一個不間斷的監控攝像頭錄像(200MB/個)長達半年左右。

1PB=1024TB,容量相當大,應用於大數據存儲設備,如伺服器等。

1EB=1024PB,目前還沒有單個存儲器達到這個容量。

多樣化

大數據含有的數據類型復雜,超過80%的數據是非結構化的。而數據類型又分成結構化數據,非結構化數據,半結構化數據。這里再對三種數據類型做一個分類科普。

①結構化數據

結構化的數據是指可以使用關系型資料庫(例如:MySQL,Oracle,DB2)表示和存儲,表現為二維形式的數據。一般特點是:數據以行為單位,一行數據表示一個實體的信息,每一行數據的屬性是相同的。所以,結構化的數據的存儲和排列是很有規律的,這對查詢和修改等操作很有幫助。

但是,它的擴展性不好。比如,如果欄位不固定,利用關系型資料庫也是比較困難的,有人會說,需要的時候加個欄位就可以了,這樣的方法也不是不可以,但在實際運用中每次都進行反復的表結構變更是非常痛苦的,這也容易導致後台介面從資料庫取數據出錯。你也可以預先設定大量的預備欄位,但這樣的話,時間一長很容易弄不清除欄位和數據的對應狀態,即哪個欄位保存有哪些數據。

②半結構化數據

半結構化數據是結構化數據的一種形式,它並不符合關系型資料庫或其他數據表的形式關聯起來的數據模型結構,但包含相關標記,用來分隔語義元素以及對記錄和欄位進行分層。因此,它也被稱為自描述的結構。半結構化數據,屬於同一類實體可以有不同的屬性,即使他們被組合在一起,這些屬性的順序並不重要。常見的半結構數據有XML和JSON。

③非結構化數據

非結構化數據是數據結構不規則或不完整,沒有預定義的數據模型,不方便用資料庫二維邏輯表來表現的數據。包括所有格式的辦公文檔、文本、圖片、各類報表、圖像和音頻/視頻信息等等。非結構化數據其格式非常多樣,標准也是多樣性的,而且在技術上非結構化信息比結構化信息更難標准化和理解。所以存儲、檢索、發布以及利用需要更加智能化的IT技術,比如海量存儲、智能檢索、知識挖掘、內容保護、信息的增值開發利用等。

快速化

隨著物聯網、電子商務、社會化網路的快速發展,全球大數據儲量迅猛增長,成為大數據產業發展的基礎。根據國際數據公司(IDC)的監測數據顯示,2013年全球大數據儲量為4.3ZB(相當於47.24億個1TB容量的移動硬碟),2014年和2015年全球大數據儲量分別為6.6ZB和8.6ZB。近幾年全球大數據儲量的增速每年都保持在40%,2016年甚至達到了87.21%的增長率。2016年和2017年全球大數據儲量分別為16.1ZB和21.6ZB,2018年全球大數據儲量達到33.0ZB。預測未來幾年,全球大數據儲量規模也都會保持40%左右的增長率。在數據儲量不斷增長和應用驅動創新的推動下,大數據產業將會不斷豐富商業模式,構建出多層多樣的市場格局,具有廣闊的發展空間。

核心價值

大數據的核心價值,從業務角度出發,主要有如下的3點:

a.數據輔助決策:為企業提供基礎的數據統計報表分析服務。分析師能夠輕易獲取數據產出分析報告指導產品和運營,產品經理能夠通過統計數據完善產品功能和改善用戶體驗,運營人員可以通過數據發現運營問題並確定運營的策略和方向,管理層可以通過數據掌握公司業務運營狀況,從而進行一些戰略決策;

b.數據驅動業務:通過數據產品、數據挖掘模型實現企業產品和運營的智能化,從而極大的提高企業的整體效能產出。最常見的應用領域有基於個性化推薦技術的精準營銷服務、廣告服務、基於模型演算法的風控反欺詐服務徵信服務,等等。

c.數據對外變現:通過對數據進行精心的包裝,對外提供數據服務,從而獲得現金收入。市面上比較常見有各大數據公司利用自己掌握的大數據,提供風控查詢、驗證、反欺詐服務,提供導客、導流、精準營銷服務,提供數據開放平台服務,等等。

大數據能做什麼?

1、海量數據快速查詢(離線)

能夠在海量數據的基礎上進行快速計算,這里的「快速」是與傳統計算方案對比。海量數據背景下,使用傳統方案計算可能需要一星期時間。使用大數據 技術計算只需要30分鍾。

2.海量數據實時計算(實時)

在海量數據的背景下,對於實時生成的最新數據,需要立刻、馬上傳遞到大數據環境,並立刻、馬上進行相關業務指標的分析,並把分析完的結果立刻、馬上展示給用戶或者領導。

3.海量數據的存儲(數據量大,單個大文件)

大數據能夠存儲海量數據,大數據時代數據量巨大,1TB=1024*1G 約26萬首歌(一首歌4M),1PB=1024 * 1024 * 1G約2.68億首歌(一首歌4M)

大數據能夠存儲單個大文件。目前市面上最大的單個硬碟大小約為10T左右。若有一個文件20T,將 無法存儲。大數據可以存儲單個20T文件,甚至更大。

4.數據挖掘(挖掘以前沒有發現的有價值的數據)

挖掘前所未有的新的價值點。原始企業內數據無法計算出的結果,使用大數據能夠計算出。

挖掘(演算法)有價值的數據。在海量數據背景下,使用數據挖掘演算法,挖掘有價值的指標(不使用這些演算法無法算出)

大數據行業的應用?

1.常見領域

2.智慧城市

3.電信大數據

4.電商大數據

大數據行業前景(國家政策)?

2014年7月23日,國務院常務會議審議通過《企業信息公示暫行條例(草案)》

2015年6月19日,國家主席、總理同時就「大數據」發表意見:《國務院辦公廳關於運用大數據加強對市場主體服務和監管的若干意見》

2015年8月31日,國務院印發《促進大數據發展行動綱要》。國發〔2015〕50號

2016年12月18日,工業和信息化部關於印發《大數據產業發展規劃》

2018年1月23日。中央全面深化改革領導小組會議審議通過了《科學數據管理辦法》

2018年7月1日,國務院辦公廳印發《關於運用大數據加強對市場主體服務和監管的若干意見》

2019年政府工作報告中總理指出「深化大數據、人工智慧等研發應用,培育新一代信息技術、高端裝備、生物醫葯、新能源汽車、新材料等新興產業集群,壯大數字經濟。」

總結

我國著名的電商之父,阿里巴巴創始人馬雲先生曾說過,未來10年,乃至20年,將是人工智慧的時代,大數據的時代。對於現在正在學習大數據的我們來說,未來對於我們更是充滿了各種機遇與挑戰。

python學習網,大量的免費python視頻教程,歡迎在線學習!

⑼ 數據劃分

評價資料庫內存放的數據將支持資源評價的整個過程。為了能更好地管理庫中數據,需要對整個過程中將用到的數據進行分類管理。具體分類方式如圖3-1所示。

1.按照應用類型劃分

按照數據在資源評價過程中的應用類型劃分,可以劃分為基礎數據、參數數據和評價結果數據。

基礎數據是指從勘探生產活動及認識中直接獲取的原始數據,這些數據一般沒有經過復雜的處理和計算過程。如分析化驗數據、鑽井地質數據、盆地基礎數據等。這些數據是整個評價工作的基礎。

圖3-1 數據分類示意圖

參數數據是指在評價過程中各種評價方法和軟體直接使用的參數數據。

評價結果數據是指資源評價中產生的各種評價結果數據,如資源量結果數據、地質評價結果數據等。

2.按照評價對象劃分

本次評價共分為大區、評價單元、計算單元三個層次,在研究中又使用了盆地、一級構造單元,在評價對象總體考慮中按照評價對象將數據劃分為大區、評價單元、計算單元等類型。

3.按照獲取方式劃分

按照獲取方式可以將數據分為直接獲取、研究獲取、間接獲取幾類。

4.按照存儲類型劃分

按照存儲類型可以將數據劃分為結構化數據和非結構化數據。

結構化數據是指能夠用現有的關系資料庫系統直接管理的數據,進一步又可以分為定量數據和定性數據兩類。

非結構化數據是指不能用現有的關系資料庫系統直接管理和操作的數據,它必須藉助於另外的工具管理和操作。如圖件數據、文檔數據等。

庫中數據類型的劃分共分六個層次逐次劃分,包括:數據存儲類型→資源類型—→評價對象→應用→獲取方式→數據特徵。

對於結構化存儲的數據在應用層分為三類:基礎數據、中間數據和結果數據,基礎數據中包含用於類比的基礎數據、用於統計分析的基礎數據和直接用於公式運算的基礎數據;

結構化存儲的數據在獲取方式上可以繼續劃分,其中,用於公式運算的數據可以細化為專家直接錄入、由地質類比獲取、通過生產過程獲取、通過地質研究過程獲取及其他方式。中間數據可以從以下方式獲取:標准、統計、類比、參數的關聯。結果數據的獲取有兩種方式:公式運算結果和通過鑽井、地質、綜合研究等提交的文字報告。

對於非結構化存儲的數據在應用層分為兩類:圖形數據和文檔數據;

圖形數據在獲取方式上可以繼續劃分成四種方式:通過工程測量數據獲取(如地理圖件、井位坐標數據等)、通過地質研究過程獲取(如沉積相圖、構造區劃圖等)、由綜合研究獲取(如綜合評價圖等)、其他方式獲取。

圖形數據在表現方式上又可以進一步分為有坐標意義的圖形(如構造單元劃分圖、地理圖、井點陣圖等)、數值圖(如產烴率曲線圖、酐洛根熱降解圖等)和無坐標含義圖(如剖面圖)等。

文檔數據是指評價過程中產生的各種報告、項目運行記錄等。

⑽ 大數據存儲與應用特點及技術路線分析

大數據存儲與應用特點及技術路線分析

大數據時代,數據呈爆炸式增長。從存儲服務的發展趨勢來看,一方面,對數據的存儲量的需求越來越大;另一方面,對數據的有效管理提出了更高的要求。大數據對存儲設備的容量、讀寫性能、可靠性、擴展性等都提出了更高的要求,需要充分考慮功能集成度、數據安全性、數據穩定性,系統可擴展性、性能及成本各方面因素。

大數據存儲與應用的特點分析

「大數據」是由數量巨大、結構復雜、類型眾多數據構成的數據集合,是基於雲計算的數據處理與應用模式,通過數據的整合共享,交叉復用形成的智力資源和知識服務能力。其常見特點可以概括為3V:Volume、Velocity、Variety(規模大、速度快、多樣性)。

大數據具有數據規模大(Volume)且增長速度快的特性,其數據規模已經從PB級別增長到EB級別,並且仍在不斷地根據實際應用的需求和企業的再發展繼續擴容,飛速向著ZB(ZETA-BYTE)的規模進軍。以國內最大的電子商務企業淘寶為例,根據淘寶網的數據顯示,至2011年底,淘寶網最高單日獨立用戶訪問量超過1.2億人,比2010年同期增長120%,注冊用戶數量超過4億,在線商品數量達到8億,頁面瀏覽量達到20億規模,淘寶網每天產生4億條產品信息,每天活躍數據量已經超過50TB.所以大數據的存儲或者處理系統不僅能夠滿足當前數據規模需求,更需要有很強的可擴展性以滿足快速增長的需求。

(1)大數據的存儲及處理不僅在於規模之大,更加要求其傳輸及處理的響應速度快(Velocity)。

相對於以往較小規模的數據處理,在數據中心處理大規模數據時,需要服務集群有很高的吞吐量才能夠讓巨量的數據在應用開發人員「可接受」的時間內完成任務。這不僅是對於各種應用層面的計算性能要求,更加是對大數據存儲管理系統的讀寫吞吐量的要求。例如個人用戶在網站選購自己感興趣的貨物,網站則根據用戶的購買或者瀏覽網頁行為實時進行相關廣告的推薦,這需要應用的實時反饋;又例如電子商務網站的數據分析師根據購物者在當季搜索較為熱門的關鍵詞,為商家提供推薦的貨物關鍵字,面對每日上億的訪問記錄要求機器學習演算法在幾天內給出較為准確的推薦,否則就丟失了其失效性;更或者是計程車行駛在城市的道路上,通過GPS反饋的信息及監控設備實時路況信息,大數據處理系統需要不斷地給出較為便捷路徑的選擇。這些都要求大數據的應用層可以最快的速度,最高的帶寬從存儲介質中獲得相關海量的數據。另外一方面,海量數據存儲管理系統與傳統的資料庫管理系統,或者基於磁帶的備份系統之間也在發生數據交換,雖然這種交換實時性不高可以離線完成,但是由於數據規模的龐大,較低的數據傳輸帶寬也會降低數據傳輸的效率,而造成數據遷移瓶頸。因此大數據的存儲與處理的速度或是帶寬是其性能上的重要指標。

(2)大數據由於其來源的不同,具有數據多樣性的特點。

所謂多樣性,一是指數據結構化程度,二是指存儲格式,三是存儲介質多樣性。對於傳統的資料庫,其存儲的數據都是結構化數據,格式規整,相反大數據來源於日誌、歷史數據、用戶行為記錄等等,有的是結構化數據,而更多的是半結構化或者非結構化數據,這也正是傳統資料庫存儲技術無法適應大數據存儲的重要原因之一。所謂存儲格式,也正是由於其數據來源不同,應用演算法繁多,數據結構化程度不同,其格式也多種多樣。例如有的是以文本文件格式存儲,有的則是網頁文件,有的是一些被序列化後的比特流文件等等。所謂存儲介質多樣性是指硬體的兼容,大數據應用需要滿足不同的響應速度需求,因此其數據管理提倡分層管理機制,例如較為實時或者流數據的響應可以直接從內存或者Flash(SSD)中存取,而離線的批處理可以建立在帶有多塊磁碟的存儲伺服器上,有的可以存放在傳統的SAN或者NAS網路存儲設備上,而備份數據甚至可以存放在磁帶機上。因而大數據的存儲或者處理系統必須對多種數據及軟硬體平台有較好的兼容性來適應各種應用演算法或者數據提取轉換與載入(ETL)。

大數據存儲技術路線最典型的共有三種:

第一種是採用MPP架構的新型資料庫集群,重點面向行業大數據,採用Shared Nothing架構,通過列存儲、粗粒度索引等多項大數據處理技術,再結合MPP架構高效的分布式計算模式,完成對分析類應用的支撐,運行環境多為低成本 PC Server,具有高性能和高擴展性的特點,在企業分析類應用領域獲得極其廣泛的應用。

這類MPP產品可以有效支撐PB級別的結構化數據分析,這是傳統資料庫技術無法勝任的。對於企業新一代的數據倉庫和結構化數據分析,目前最佳選擇是MPP資料庫。

第二種是基於Hadoop的技術擴展和封裝,圍繞Hadoop衍生出相關的大數據技術,應對傳統關系型資料庫較難處理的數據和場景,例如針對非結構化數據的存儲和計算等,充分利用Hadoop開源的優勢,伴隨相關技術的不斷進步,其應用場景也將逐步擴大,目前最為典型的應用場景就是通過擴展和封裝 Hadoop來實現對互聯網大數據存儲、分析的支撐。這裡面有幾十種NoSQL技術,也在進一步的細分。對於非結構、半結構化數據處理、復雜的ETL流程、復雜的數據挖掘和計算模型,Hadoop平台更擅長。

第三種是大數據一體機,這是一種專為大數據的分析處理而設計的軟、硬體結合的產品,由一組集成的伺服器、存儲設備、操作系統、資料庫管理系統以及為數據查詢、處理、分析用途而特別預先安裝及優化的軟體組成,高性能大數據一體機具有良好的穩定性和縱向擴展性。

以上是小編為大家分享的關於大數據存儲與應用特點及技術路線分析的相關內容,更多信息可以關注環球青藤分享更多干貨