當前位置:首頁 » 服務存儲 » 揚州數據分布式存儲資料庫
擴展閱讀
webinf下怎麼引入js 2023-08-31 21:54:13
堡壘機怎麼打開web 2023-08-31 21:54:11

揚州數據分布式存儲資料庫

發布時間: 2023-03-23 07:13:14

❶ 大數據的分布式資料庫技術的對比

大數據技術的實現離不開很多其他的技術,我們提到最多的就是Hadoop技術,其實就目前而言,Hadoop技術看似是自成一套體系,其實並不是這樣的,Hadoop和Spark以及分布式資料庫其實也是存在差異的,我們就在這篇文章中給大家介紹一下這些內容。
首先我們說一說大數據分析,現在的大數據分析體系以Hadoop生態為主,而近年來逐漸火熱的Spark技術也是主要的生態之一。可以這么說,Hadoop技術只能算是以HDFS+YARN作為基礎的分布式文件系統,而不是資料庫。我們提到的Hadoop的歷史可以向前追溯10年,當年穀歌為了在幾萬台PC伺服器上構建超大數據集合並提供極高性能的並發訪問能力,從而發明了一種新的技術,而這個技術,也是Hadoop誕生的理論基礎。如果我們從Hadoop的誕生背景可以看出,其主要解決的問題是超大規模集群下如何對非結構化數據進行批處理計算。實際上,在Hadoop架構中,一個分布式任務可以是類似傳統結構化數據的關聯、排序、聚集操作,也可以是針對非結構化數據的用戶自定義程序邏輯。
那麼Hadoop的發展道路是什麼樣的呢。最開始的Hadoop以Big、Hive和MapRece三種開發介面為代表,分別適用於腳本批處理、sql批處理以及用戶自定義邏輯類型的應用。而Spark的發展更是如此,最開始的SparkRDD幾乎完全沒有SQL能力,還是套用了Hive發展出的Shark才能對SQL有了一部分的支持。但是,隨著企業用戶對Hadoop的使用越發廣泛,SQL已經漸漸成為大數據平台在傳統行業的主要訪問方式之一。
下面我們就說一說分布式資料庫,分布式資料庫有著悠久的歷史,從以Oracle RAC為代表的聯機交易型分布式資料庫,到IBM DB2 DPF統計分析性分布式資料庫,分布式資料庫覆蓋了OLTP與OLAP幾乎全部的數據應用場景。而大部分分布式資料庫功能集中在結構化計算與在線增刪改查上。但是,這些傳統的分布式資料庫以數倉及分析類OLAP系統為主,其局限性在於,其底層的關系型資料庫存儲結構在效率上並不能滿足大量高並發的數據查詢以及大數據數據加工和分析的效率要求。因此,分布式資料庫在近幾年也有著極大的轉型,從單一的數據模型向多模的數據模型轉移,將OLTP、聯機高並發查詢以及支持大數據加工和分析結合起來,不再單獨以OLAP作為設計目標。同時,分布式資料庫在訪問模式上也出現了K/V、文檔、寬表、圖等分支,支持除了SQL查詢語言之外的其他訪問模式,大大豐富了傳統分布式資料庫單一的用途。一般來說,多模資料庫的主要目的是為了滿足具有高性能要求的操作型需求以及目標明確的數據倉庫功能,而不是類似大數據深度學習等數據挖掘場景。這就是分布式資料庫的實際情況。
我們在這篇文章中給大家介紹了大數據分析以及分布式資料庫的相關知識,通過這些內容相信大家已經理解了其中的具體區別了吧,如果這篇文章能夠幫助到大家這就是我們最大的心願。

❷ 分布式資料庫系統(DDBS)概述

一 什麼是分布式資料庫

分布式資料庫系統是在集中式資料庫系統的基礎上發展來的 是資料庫技術與網路技術結合的產物

分布式資料庫系統有兩種 一種是物理上分布的 但邏輯上卻是集中的 這種分布式資料庫只適宜用途比較單一的 不大的單位或部門 另一種分布式資料庫系統在物理上和邏輯上都是分布的 也就是所謂聯邦式分布資料庫系統 由於組成聯邦的各個子資料庫系統是相對 自治 的 這種系統可以容納多種不同用途的 差異較大的資料庫 比較適宜於大范圍內資料庫的集成

分布式資料庫系統(DDBS)包含分布式資料庫管理系統(DDBMS)和分布式資料庫(DDB)

在分布式資料庫系統中 一個應用程序可以對資料庫進行透明操作 資料庫中的數據分別在不同的局部資料庫中存儲 由不同的DBMS進行管理 在不同的機器上運行 由不同的操作系統支持 被不同的通信網路連接在一起

一個分布式資料庫在邏輯上是一個統一的整體 即在用戶面前為單個邏輯資料庫 在物理上則是分別存儲在不同的物理節點上 一個應用程序通過網路的連接可以訪問分布在不同地理位置的資料庫 它的分布性表現在資料庫中的數據不是存儲在同一場地 更確切地講 不存儲在同一計算機的存儲設備上 這就是與集中式資料庫的區別 從用戶的角度看 一個分布式資料庫系統在邏輯上和集中式資料庫系統一樣 用戶可以在任何一個場地執行全局應用 就好那些數據是存儲在同一台計算機上 有單個資料庫管理系統(DBMS)管理一樣 用戶並沒有什麼感覺不一樣

分布式資料庫中每一個資料庫伺服器合作地維護全局資料庫的一致性

分布式資料庫系統是一個客戶/伺服器體系結構

在系統中的每一台計算機稱為結點 如果一結點具有管理資料庫軟體 該結點稱為資料庫伺服器 如果一個結點為請求伺服器的信息的一應用 該結點稱為客戶 在ORACLE客戶 執行資料庫應用 可存取數據信息和與用戶交互 在伺服器 執行ORACLE軟體 處理對ORACLE資料庫並發 共享數據存取 ORACLE允許上述兩部分在同一台計算機上 但當客戶部分和伺服器部分是由網連接的不同計算機上時 更有效

分布處理是由多台處理機分擔單個任務的處理 在ORACLE資料庫系統中分布處理的例子如

客戶和伺服器是位於網路連接的不同計算機上

單台計算機上有多個處理器 不同處理器分別執行客戶應用

參與分布式資料庫的每一伺服器是分別地獨立地管理資料庫 好像每一資料庫不是網路化的資料庫 每一個資料庫獨立地被管理 稱為場地自治性 場地自治性有下列好處

◆系統的結點可反映公司的邏輯組織

◆由局部資料庫管理員控制局部數據 這樣每一個資料庫管理員責任域要小一些 可更好管理

◆只要一個資料庫和網路是可用 那麼全局資料庫可部分可用 不會因一個資料庫的故障而停止全部操作或引起性能瓶頸

◆故障恢復通常在單個結點上進行

◆每個局部資料庫存在一個數據字典

◆結點可獨立地升級軟體

可從分布式資料庫的所有結點存取模式對象 因此正像非分布的局部的DBMS 必須提供一種機制 可在局部資料庫中引用一個對象 分布式DBMS必須提供一種命名模式 以致分布式資料庫中一個對象可在應用中唯一標識和引用 一般在層次結構的每一層實施唯一性 分布式DBMS簡單地擴充層次命名模型 實施在網路上唯一資料庫命名 因此一個對象的全局對象名保證在分布式資料庫內是唯一

ORACLE允許在SQL語句中使用全局對象名引用分布式資料庫中的模式對象(表 視圖和過程) 在ORACLE中 一個模式對象的全局名由三部分組成 包含對象的模式名 對象名 資料庫名 其形式如

SCOTT EMP@SALES DIVISION ACME

一個遠程查詢為一查詢 是從一個或多個遠程表中選擇信息 這些表駐留在同一個遠程結點

一個分布式查詢可從兩個或多個結點檢索數據 一個分布式更新可修改兩個或兩個以上結點的數據

一個遠程事務為一個事務 包含一人或多個遠程語句 它所引用的全部是在同一個遠程結點上 一個分布式事務中一個事務 包含一個或多個語句修改分布式資料庫的兩個或多個不同結點的數據

在分布式資料庫中 事務控制必須在網路上直轄市 保證數據一致性 兩階段提交機制保證參與分布式事務的全部資料庫伺服器是全部提交或全部回滾事務中的語句

ORACLE分布式資料庫系統結構可由ORACLE資料庫管理員為終端用戶和應用提供位置透明性 利用視圖 同義詞 過程可提供ORACLE分布式資料庫系統中的位置透明性

ORACLE提供兩種機制實現分布式資料庫中表重復的透明性 錶快照提供非同步的表重復;觸發器實現同步的表的重復 在兩種情況下 都實現了對表重復的透明性

在單場地或分布式資料庫中 所有事務都是用MIT或ROLLBACK語句中止

二 分布式資料庫系統的分類

( ) 同構同質型DDBS 各個場地都採用同一類型的數據模型(譬如都是關系型) 並且是同一型號的DBMS

( )同構異質型DDBS 各個場地採用同一類型的數據模型 但是DBMS的型號不同 譬如DB ORACLE SYBASE SQL Server等

( )異構型DDBS 各個場地的數據模型的型號不同 甚至類型也不同 隨著計算機網路技術的發展 異種機聯網問題已經得到較好的解決 此時依靠異構型DDBS就能存取全網中各種異構局部庫中的數據

三 分布式資料庫系統主要特點

DDBS的基本特點

( )物理分布性 數據不是存儲在一個場地上 而是存儲在計算機網路的多個場地上

邏輯整體性 數據物理分布在各個場地 但邏輯上是一個整體 它們被所有用戶(全局用戶)共享 並由一個DDBMS統一管理

( )場地自治性 各場地上的數據由本地的DBMS管理 具有自治處理能力 完成本場地的應用(局部應用)

( )場地之間協作性 各場地雖然具有高度的自治性 但是又相互協作構成一個整體

DDBS的其他特點

( )數據獨立性

( )集中與自治相結合的控制機制

( )適當增加數據冗餘度

( )事務管理的分布性

四 分布式資料庫系統的優點

( )更適合分布式的管理與控制

分布式資料庫系統的結構更適合具有地理分布特性的組織或機構使用 允許分布在不同區域 不同級別的各個部門對其自身的數據實行局部控制 例如 實現全局數據在本地錄入 查詢 維護 這時由於計算機資源靠近用戶 可以降低通信代價 提高響應速度 而涉及其他場地資料庫中的數據只是少量的 從而可以大大減少網路上的信息傳輸量;同時 局部數據的安全性也可以做得更好

( )具有靈活的體系結構

集中式資料庫系統強調的是集中式控制 物理資料庫是存放在一個場地上的 由一個DBMS集中管理 多個用戶只可以通過近程或遠程終端在多用戶操作系統支持下運行該DBMS來共享集中是資料庫中的數據 而分布式資料庫系統的場地局部DBMS的自治性 使得大部分的局部事務管理和控制都能就地解決 只有在涉及其他場地的數據時才需要通過網路作為全局事務來管理 分布式DBMS可以設計成具有不同程度的自治性 從具有充分的場地自治到幾乎是完全集中式的控制

( )系統經濟 可靠性高 可用性好

與一個大型計算機支持一個大型的集中式資料庫在加一些進程和遠程終端相比 由超級微型計算機或超級小型計算機支持的分布式資料庫系統往往具有更高的性價比和實施靈活性 分布式系統比集中式系統具有更高的可靠性和更好的可用性 如由於數據分布在多個場地並有許多復制數據 在個別場地或個別通信鏈路發生故障時 不致於導致整個系統的崩潰 而且系統的局部故障不會引起全局失控

( )在一定條件下響應速度加快

如果存取的數據在本地資料庫中 那麼就可以由用戶所在的計算機來執行 速度就快

( )可擴展性好 易於集成現有系統 也易於擴充

對於一個企業或組織 可以採用分布式資料庫技術在以建立的若干資料庫的基礎上開發全局應用 對原有的局部資料庫系統作某些改動 形成一個分布式系統 這比重建一個大型資料庫系統要簡單 既省時間 又省財力 物力 也可以通過增加場地數的辦法 迅速擴充已有的分布式資料庫系統

五 分布式資料庫系統的劣勢

( )通信開銷較大 故障率高

例如 在網路通信傳輸速度不高時 系統的響應速度慢 與通信相關的因素往往導致系統故障 同時系統本身的復雜性也容易導致較高的故障率 當故障發生後系統恢復也比較復雜 可靠性有待提高

( )數據的存取結構復雜

一般來說 在分布時資料庫中存取數據 比在集中時資料庫中存取數據更復雜 開銷更大

( )數據的安全性和保密性較難控制

在具有高度場地自治的分布時資料庫中 不同場地的局部資料庫管理員可以採用不同的安全措施 但是無法保證全局數據都是安全的 安全性問題式分布式系統固有的問題 因為分布式系統式通過通信網路來實現分布控制的 而通信網路本身卻在保護數據的安全性和保密性方面存在弱點 數據很容易被竊取

分布式資料庫的設計 場地劃分及數據在不同場地的分配比較復雜 數據的劃分及分配對系統的性能 響應速度及可用性等具有極大的影響 不同場地的通信速度與局部資料庫系統的存取部件的存取速度相比 是非常慢的 通信系統有較高的延遲 在CPU上處理通信信息的代價很高 分布式資料庫系統中要注意解決分布式資料庫的設計 查詢處理和優化 事務管理及並發控制和目錄管理等問題

六 分布式資料庫系統 數據分片

類型

水平分片

按一定的條件把全局關系的所有元組劃分成若干不相交的子集 每個子集為關系的一個片段

垂直分片

把一個全局關系的屬性集分成若乾子集 並在這些子集上作投影運算 每個投影稱為垂直分片

導出分片

又稱為導出水平分片 即水平分片的條件不是本關系屬性的條件 而是其他關系屬性的條件

混合分片

以上三種方法的混合 可以先水平分片再垂直分片 或先垂直分片再水平分片 或其他形式 但他們的結果是不相同的

條件

( )完備性條件

必須把全局關系的所有數據映射到片段中 決不允許有屬於全局關系的數據卻不屬於它的任何一個片段

( )可重構條件

必須保證能夠由同一個全局關系的各個片段來重建該全局關系 對於水平分片可用並操作重構全局關系;對於垂直分片可用聯接操作重構全局關系

( )不相交條件

要求一個全局關系被分割後所得的各個數據片段互不重疊(對垂直分片的主鍵除外)

七 分布式資料庫系統 數據分配方式

( )集中式 所有數據片段都安排在同一個場地上

( )分割式

所有數據只有一份 它被分割成若干邏輯片段 每個邏輯片段被指派在一個特定的場地上

( )全復制式 數據在每個場地重復存儲 也就是每個場地上都有一個完整的數據副本

( )混合式 這是一種介乎於分割式和全復制式之間的分配方式

八 分布式資料庫系統 體系結構

數據分片和數據分配概念的分離 形成了 數據分布獨立型 概念

數據冗餘的顯式控制 數據在各個場地的分配情況在分配模式中一目瞭然 便於系統管理

局部DBMS的獨立性 這個特徵也稱為 局部映射透明性 此特徵允許我們在不考慮局部DBMS專用數據模型的情況下 研究DDB管理的有關問題

九 分布式資料庫管理系統

接受用戶請求 並判定把它送到哪裡 或必須訪問哪些計算機才能滿足該要求

訪問網路數據字典 了解如何請求和使用其中的信息

如果目標數據存儲於系統的多個計算機上 就必須進行分布式處理

通信介面功能 在用戶 局部DBMS和其他計算機的DBMS之間進行協調

在一個異構型分布式處理環境中 還需提供數據和進程移植的支持 這里的異構型是指各個場地的硬體 軟體之間存在著差別

分布式資料庫管理系統

lishixin/Article/program/Oracle/201311/16998

❸ 分布式資料庫的簡介

分布式資料庫是指利用高速計算機網路將物理上分散的多個數據存儲單元連接起來組成一個邏輯上統一的資料庫。分布式資料庫的基本思想是將原來集中式資料庫中的數據分散存儲到多個通過網路連接的數據存儲節點上,以獲取更大的存儲容量和更高的並發訪問量。近年來,隨著數據量的高速增長,分布式資料庫技術也得到了快速的發展,傳統的關系型資料庫開始從集中式模型向分布式架構發展,基於關系型的分布式資料庫在保留了傳統資料庫的數據模型和基本特徵下,從集中式存儲走向分布式存儲,從集中式計算走向分布式計算。
另一方面,隨著數據量越來越大,關系型資料庫開始暴露出一些難以克服的缺點,以NoSQL 為代表的非關系型資料庫,其高可擴展性、高並發性等優勢出現了快速發展,一時間市場上出現了大量的key-value 存儲系統、文檔型資料庫等NoSQL 資料庫產品。NoSQL 類型資料庫正日漸成為大數據時代下分布式資料庫領域的主力。
這種組織資料庫的方法克服了物理中心資料庫組織的弱點。 首先,降低了數據傳送代價,因為大多數的對資料庫的訪問操作都是針對局部資料庫的,而不是對其他位置的資料庫訪問; 其次,系統的可靠性提高了很多,因為當網路出現故障時,仍然允許對局部資料庫的操作,而且一個位置的故障不影響其他位置的處理工作,只有當訪問出現故障位置的數據時,在某種程度上才受影響; 第三,便於系統的擴充,增加一個新的局部資料庫,或在某個位置擴充一台適當的小型計算機,都很容易實現。然而有些功能要付出更高的代價。例如,為了調配在幾個位置上的活動,事務管理的性能比在中心資料庫時花費更高,而且甚至抵消許多其他的優點。 分布式軟體系統(Distributed Software Systems)是支持分布式處理的軟體系統,是在由通信網路互聯的多處理機體系結構上執行任務的系統。它包括分布式操作系統、分布式程序設計語言及其編譯(解釋)系統、分布式文件系統和分布式資料庫系統等。
分布式操作系統負責管理分布式處理系統資源和控制分布式程序運行。它和集中式操作系統的區別在於資源管理、進程通信和系統結構等方面。 分布式程序設計語言用於編寫運行於分布式計算機系統上的分布式程序。一個分布式程序由若干個可以獨立執行的程序模塊組成,它們分布於一個分布式處理系統的多台計算機上被同時執行。它與集中式的程序設計語言相比有三個特點:分布性、通信性和穩健性。 分布式文件系統具有執行遠程文件存取的能力,並以透明方式對分布在網路上的文件進行管理和存取。 分布式資料庫系統由分布於多個計算機結點上的若干個資料庫系統組成,它提供有效的存取手段來操縱這些結點上的子資料庫。分布式資料庫在使用上可視為一個完整的資料庫,而實際上它是分布在地理分散的各個結點上。當然,分布在各個結點上的子資料庫在邏輯上是相關的。
Hadoop的分布式文件系統HDFS,作為開源的分布式平台,為目前流行的很多分布式資料庫提供了支持,譬如HBase等。Yonghong的分布式文件系統ZFS,為分布式數據集市Z-DataMart提供了底層平台。

❹ 分布式資料庫的分布式資料庫相對傳統集中式資料庫的優點

大數據時代,面對日益增長的海量數據,傳統的集中式資料庫的弊端日益顯現,分布式資料庫相對傳統的集中式資料庫有如下優點。
● 更高的數據訪問速度:分布式資料庫為了保證數據的高可靠性,往往採用備份的策略實現容錯,所以,在讀取數據的時候,客戶端可以並發地從多個
備份伺服器同時讀取,從而提高了數據訪問速度。
● 更強的可擴展性:分布式資料庫可以通過增添存儲節點來實現存儲容量的線性擴展,而集中式資料庫的可擴展性十分有限。
● 更高的並發訪問量:分布式資料庫由於採用多台主機組成存儲集群,所以相對集中式資料庫,它可以提供更高的用戶並發訪問量。

❺ 分布式資料庫的特徵

分布式資料庫的特徵:

1、獨立透明性

數據獨立性是資料庫方法追求的主要目標之一,分布透明性指用戶不必關心數據的邏輯分區,不必關心數據物理位置分布的細節,也不必關心重復副本(冗餘數據)的一致性問題,同時也不必關心局部場地上資料庫支持哪種數據模型。

分布透明性的優點是很明顯的。有了分布透明性,用戶的應用程序書寫起來就如同數據沒有分布一樣。當數據從一個場地移到另一個場地時不必改寫應用程序。

當增加某些數據的重復副本時也不必改寫應用程序。數據分布的信息由系統存儲在數據字典中。用戶對非本地數據的訪問請求由系統根據數據字典予以解釋、轉換、傳送。

2、復制透明性

用戶不用關心資料庫在網路中各個節點的復制情況,被復制的數據的更新都由系統自動完成。在分布式資料庫系統中,可以把一個場地的數據復制到其他場地存放,應用程序可以使用復制到本地的數據在本地完成分布式操作,避免通過網路傳輸數據,提高了系統的運行和查詢效率。

但是對於復制數據的更新操作,就要涉及到對所有復制數據的更新。

3、易於擴展性

在大多數網路環境中,單個資料庫伺服器最終會不滿足使用。如果伺服器軟體支持透明的水平擴展,那麼就可以增加多個伺服器來進一步分布數據和分擔處理任務。

主要優點:

(1)具有靈活的體系結構。

(2)適應分布式的管理和控制機構。

(3)經濟性能優越。

(4)系統的可靠性高、可用性好。

(5)局部應用的響應速度快。

(6)可擴展性好,易於集成現有系統。

❻ php mysql分布式資料庫如何實現

當前做分布式的廠商有幾家,我知道比較出名的有「華為雲分布式資料庫DDM」和「阿里雲分布式資料庫」,感興趣可以自行搜素了解下。

分布式資料庫的幾點概念可以了解一下。

數據分庫:

以表為單位,把原有資料庫切分成多個資料庫。切分後不同的表存儲在不同的資料庫上。

以表中的數據行記錄為單位,把原有邏輯資料庫切分成多個物理資料庫分片,表數據記錄分布存儲在各個分片上。

路由分發:

在分布式資料庫中,路由的作用即將SQL語句進行解析,並轉發到正確的分片上,保證SQL執行後得到正確的結果,並且節約QPS資源。

讀寫分離:

資料庫中對計算和緩存資源消耗較多的往往是密集或復雜的SQL查詢。當系統資源被查詢語句消耗,反過來會影響數據寫入操作,進而導致資料庫整體性能下降,響應緩慢。因此,當資料庫CPU和內存資源佔用居高不下,且讀寫比例較高時,可以為資料庫添加只讀資料庫。

❼ 什麼是分布式資料庫

分布式計算機系統所支撐的分布式資料庫是資料庫技術與計算機網路技術相結合的產物。與常見的集中式資料庫相比,雖然分布式資料庫的數據分散存儲在網路上的各點,但它可以為網上所有的用戶所共享,任何地方的合法用戶都可以十分方便地獲取和處理所需的數據,就像數據在他們本地的計算機上一樣。

❽ 華為突破分布式資料庫和存儲技術,打通數字化轉型「雄關漫道」

2019年,我們將進入數字化轉型的攻關期。所謂「攻關期」即數字化轉型2.0階段,需要攻堅企業關鍵業務上雲和數字化轉型改造的課題。在一份市場調查公司IDC的報告中指出:IDC自2014年提出數字化轉型以來,看到企業在數字化轉型層面已經投入了大量人力物力,但是效果並不理想,有一些企業已經成功屹立在潮頭,有一些企業在向上游進發,還有一些企業只能在浪潮的挾裹中被動前行。

對於企業來說,數字化轉型是「雄關漫道」。IDC認為,目前階段來看,企業亟待解決的是數字化能力提升,包括:與業務的深入結合能力;數據處理和挖掘能力;以及IT技術運營和管理能力。特別是數據處理和挖掘能力,因為數字化轉型推進企業從以流程為核心向以數據為核心轉型,對海量、異構、多類型的數據處理和挖掘能力是釋放數據價值的前提,對數據全生命周期的管控治理是釋放數據價值的保障。而隨著數字化轉型引入大量新技術而導致IT復雜度變高,企業IT技術運營和管理能力是提升企業「IT生產力」的關鍵。

攻關數字化轉型的「雄關漫道」,需要一個具備融合、智能、可傳承三大特性的數字平台。這是2019年3月華為與IDC聯合推出的《擁抱變化,智勝未來—數字平台破局企業數字化轉型》白皮書所提出的觀點。融合主要指把傳統技術和創新技術相結合;智能主要指平台智能化和智能化能力輸出;可傳承主要指解耦、功能復用、可配置等理念打造的架構。而承載這三大觀點的,就是新一代分布式企業級技術。

2019年5月15日,華為發布了業界首款支持ARM架構的新一代智能分布式資料庫GaussDB以及分布式存儲FusionStorage 8.0,作為新一代數據基礎設施,詮釋了具備融合、智能、可傳承三大特性的數字平台。華為常務董事、ICT戰略與Marketing總裁汪濤在發布會上表示,千行百業正在加速智能化進程,越來越多的企業已經意識到數據基礎設施是智能化成功的關鍵。華為圍繞計算、存儲和數據處理三個領域重定義數據基礎設施,加速邁向智能時代。

今天所討論雲和工業互聯網等概念的背後是一個新時代的到來,這就是體系架構大遷徙。傳統企業級技術是在單體應用和單機環境中,保證數據存儲、調用等操作的高可靠、高可用、高穩定,特別是滿足金融級事物處理的ACID(原子性、一致性、隔離性和耐久性)要求,為企業關鍵業務提供數據管理支撐。隨著企業技術向雲架構遷移,資料庫技術也面臨轉型。

2018年,基於雲計算技術的分布式資料庫成為了業界的熱點。簡單理解,雲計算技術就是把「單機」環境替換為由X86伺服器機群所組成的分布式計算環境。原先由幾台小型機完成的計算任務,要分散到上百甚至上千台X86伺服器上,而且還可能跨數據中心操作,挑戰可想而之。特別是在線支付等金融級業務,不能在斷網或網路連接有問題時出錯,也不能因響應速度慢而影響用戶體驗。

2018年8月,中國支付清算協會與中國信息通信研究院聯合舉辦了「金融分布式事務資料庫研討會」,與業界廠商和用戶共商核心資料庫分布式轉型之路,同時發布了《金融分布式事務資料庫》白皮書。金融分布式事務資料庫的工作推進,為分布式資料庫進入企業關鍵業務系統,提供了產業化支撐。而華為作為企業ICT解決方案供應商,早在2012年就開始研發面向大數據分析的數據倉庫,在基於傳統關系型資料庫SQL引擎和事務強一致性等基礎上,進行了分布式、並行計算的改造,歷時6年打造了面向PB級海量數據分析的分布式資料庫。

在OLAP數據倉庫之外,華為與行業用戶合作了面向OLTP的分布式事務型資料庫研發。2017年,華為與招商銀行合作成立了分布式資料庫聯合創新實驗室,研發具有高性能企業級內核、完整支持分布式事物、滿足金融行業對數據強一致要求、單機事物處理能力要達到每分鍾百萬級別等的OLTP分布式資料庫。

本次發布的GaussDB資料庫新品包括:聯機事務處理OLTP資料庫、聯機分析處理OLAP資料庫、事務和分析混合處理HTAP資料庫。而華為GaussDB資料庫將AI技術融入資料庫設計、開發、驗證、調優、運維等環節,可實現基於AI的自調優、自診斷自愈、自運維,讓資料庫更高效、更智能,引領資料庫架構的發展。

更進一步,本次發布的GaussDB系列資料庫是業界首款支持ARM晶元的分布式資料庫。華為推動計算架構從以X86+GPU為主的單一計算架構到以X86+GPU+ARM64+NPU為主的異構計算架構快速發展。基於X86架構,華為引入AI管理和智能加速能力,率先推出了智能伺服器FusionServer Pro;基於ARM64打造了業界性能最強的TaiShan伺服器;基於Ascend晶元的Atlas智能計算,實現了業界首個端邊雲協同的人工智慧平台。而GaussDB可充分利用並融合ARM、X86、GPU、NPU等多種異構算力組合,大幅提升資料庫性能。

汪濤強調,作為全球首款AI-Native資料庫,GaussDB有兩大革命性突破:第一,首次將人工智慧技術引入資料庫的全生命周期流程,實現自運維、自管理、自調優和故障自診斷。在交易、分析和混合負載場景下,基於最優化理論,首創深度強化學習自調優演算法,把業界平均性能提升60%。第二,支持異構計算,充分發揮X86/ARM/GPU/NPU多樣性算力優勢,最大化資料庫性能,在權威標准測試集TPC-DS上,華為GaussDB排名第一。GaussDB還支持本地部署、私有雲、公有雲等多種場景。

在以雲計算為代表的分布式計算環境中,數據管理解決方案除了需要分布式資料庫外,為了更好的擴縮容以及滿足多樣化數據存儲需求,計算與存儲分離已經成為分布式資料庫設計的主要架構。分布式雲化架構,就是要支持計算、存儲分離和多租戶等架構設計要求。

GaussDB已經從資料庫層面實現了高可用、高可靠、高穩定的分布式資料庫,本次發布的FusionStorage 8.0則是分布式存儲架構,創新地實現一套系統同時支持塊、文件、對象、HDFS協議,1套存儲支持4類存儲能力,適用於全業務場景混合負載,最終讓「一個數據中心一套存儲」成為可能。

IDC發布的《中國軟體定義存儲(SDS)及超融合存儲(HCI)系統市場季度跟蹤報告,2018年第四季度》顯示,2018年,軟體定義存儲市場達到了54.9%的同比增長。軟體定義存儲在中國整體存儲市場的佔有率穩步上升,分別達到了22.1%的市場佔有率。華為憑借文件解決方案在政府、廣電和電信等行業得到認可,在2018年中國軟體定義存儲市場排名第一。

FusionStorage 8.0採用華為ARM-based處理器鯤鵬920加速,使IOPS提升 20%,結合華為AI Fabric無損網路,時延進一步降低15%。基於華為在計算、網路和存儲領域多年的晶元和演算法積累,FusionStorage 8.0在SPC-1的性能測試中,單節點性能達到了16.8萬IOPS以及1ms以內時延,成為承載企業關鍵應用的新選擇。

此外,通過華為雲的雲上訓練及本地AI晶元,FusionStorage 8.0將智能管理貫穿業務使用的全生命周期,如業務上線前對存儲資源的規劃,使用過程中的風險預判及故障定位,大幅提升存儲效率,幫助行業客戶應對智能時代的數據新挑戰。

汪濤在發布會上強調,新一代智能分布式存儲FusionStorage 8.0通過重定義存儲架構,從「Storage for AI」和「AI in Storage」兩個維度實現效率大幅提升,引領存儲智能化。首先,「Storage for AI」通過融合共享,讓AI分析更高效。其次,「AI in Storage」率先將AI融入存儲全生命周期管理,從資源規劃、業務發放、系統調優、風險預測、故障定位等方面實現智能運維。

遼寧移動就採用了華為FusionStorage。作為遼寧省內最大的移動通信運營商,遼寧移動一直在 探索 先進的存儲方案在自身IT系統的應用。由於5G的快速發展,遼寧移動關鍵資料庫的應用也向雲化方向發展,分布式存儲也要滿足其可靠性和高性能要求。華為在深入分析遼寧移動需求後,首先在邊緣開發測試業務小規模試點分布式存儲,進行了大量的實驗和測試後性能和可靠性都達到了預期,最終決定將全部業務遷移至FusionStorage。該方案通過採用雙活、可寫快照、端到端DIF等特性,順利完成Billing、經營分析、B2B等系統從老舊存儲至FusionStorage的搬遷工作,助力遼寧移動的存儲架構邁入新的 歷史 階段。

值得一提的是,華為分布式資料庫與華為分布式存儲深度結合,把資料庫的操作下沉到存儲節點,極大提升了分布式資料庫的性能。利用新的網路技術和人工智慧技術,華為幫助用戶提升數據中心的吞吐量,提升網路應用的可伸縮性,並且能自動調優。

除了推出新一代突破性的分布式資料庫和存儲技術外,華為也積極與客戶、夥伴在資料庫與存儲領域,從行業應用、平台工具、標准組織和社區等多個層面共建開放、合作、共贏的產業生態。在行業應用層面,華為與軟通智慧、神州信息、東華軟體、易華錄、用友政務、亞信國際等獨立軟體開發商長期合作;在平台和工具層面,華為與Tableau、帆軟、ARM、Veritas等合作夥伴聯合創新;在標准組織和社區層面,華為深度參與OpenSDS、中國人工智慧產業聯盟、OCP、OpenStack、CNCF基金會等組織和社區的建設。

總結來說,華為全線分布式資料庫和分布式存儲產品的發布,是華為具備融合、智能、可傳承三大特性數字平台的最新成果。華為分布式資料庫與分布式存儲結合,能消除企業各業務系統數據孤島,構建面向行業場景的數據建模、分析和價值挖掘能力,對多源異構的數據進行匯聚、整合和分析,形成統一的全量數據和數據底座,實現數據價值挖掘和共享。而基於AI的智能化,可對基礎設施進行高效的管理,為行業應用開發和迭代賦能,全面幫助企業突破關鍵應用上雲的「雄關漫道」。(文/寧川)