當前位置:首頁 » 數據倉庫 » gartner資料庫
擴展閱讀
webinf下怎麼引入js 2023-08-31 21:54:13
堡壘機怎麼打開web 2023-08-31 21:54:11

gartner資料庫

發布時間: 2022-11-17 01:21:23

資料庫的發展趨勢和發展前景

數據挖掘、海量存儲、數據倉庫、智能商務運算、高性能並發管理與控制

主流產品的發展現狀

資料庫管理系統經歷了30多年的發展演變,已經取得了輝煌的成就,發展成了一門內容豐富的學科,形成了總量達數百億美元的一個軟體產業。根據Gartner Dataquest公司的調查,2000年國際資料庫市場銷售總額達88億美元,比1999年增長10%。根據CCID的報告,2000年的中國資料庫管理系統市場銷售總額達24.8億元,比1999年增長了41.7%,占軟體市場總銷售額的10.8%。可見,資料庫已經發展成為一個規模巨大、增長迅速的市場。

目前,市場上具有代表性的資料庫產品包括Oracle公司的Oracle、IBM公司的DB2以及微軟的sql Server等。在一定意義上,這些產品的特徵反映了當前資料庫產業界的最高水平和發展趨勢。因此,分析這些主流產品的發展現狀,是我們了解資料庫技術發展的一個重要方面。

關系資料庫技術仍然是主流

關系資料庫技術出現在20世紀70年代、經過80年代的發展到90年代已經比較成熟,在90年代初期曾一度受到面向對象資料庫的巨大挑戰,但是市場最後還是選擇了關系資料庫。無論是Oracle公司的Oracle 9i、IBM公司的DB2、還是微軟的SQL Server等都是關系型資料庫。Gartner Dataquest的報告顯示關系資料庫管理系統(RDBMS)的市場份額最大, 2000年RDBMS的市場份額占整個資料庫市場的80%,這個比例比1999年增長了15%。這組數據充分說明RDBMS仍然是當今最為流行的資料庫軟體。當前,由於互聯網應用的興起,XML格式的數據的大量出現,學術界有一部分學者認為下一代資料庫將是支持XML模型的新型的資料庫。作者對此持否定態度,認為關系技術仍然是主流,無論是多媒體內容管理、XML數據支持、還是復雜對象支持等都將是在關系系統內核技術基礎上的擴展。

產品形成系列化

一方面,Web和數據倉庫等應用的興起,數據的絕對量在以驚人的速度迅速膨脹;另一方面,移動和嵌入式應用快速增長。針對市場的不同需求,資料庫正在朝系列化方向發展。例如IBM公司的DB2通用資料庫產品包括了從高端的企業級並行資料庫伺服器,到移動端產品DB2 Everywhere的一整套系列。從支持平台看,今天的DB2已經不再是大型機上的專有產品,它支持目前主流的各種平台,包括Linux和Windows NT。此外,它還有各種中間件產品,如DB2 Connect、DB2 Datajointer、DB2 Replication等,構成了一個龐大的資料庫家族。

支持各種互聯網應用

資料庫管理系統是網路經濟的重要基礎設施之一。支持Internet(甚至於Mobile Internet)資料庫應用已經成為資料庫系統的重要方面。例如,Oracle公司從8版起全面支持互聯網應用,是互聯網資料庫的代表。微軟公司更是將SQL Server作為其整個.NET計劃中的一個重要的成分。對於互聯網應用,由於用戶數量是無法事先預測的,這就要求資料庫相比以前擁有能處理更大量的數據以及為更多的用戶提供服務的能力,也就是要擁有良好的可伸縮性及高可用性。此外,互聯網提供大量以XML格式數據為特徵的半結構化數據,支持這種類型的數據的存儲、共享、管理、檢索等也是各資料庫廠商的發展方向。

向智能化集成化方向擴展

資料庫技術的廣泛使用為企業和組織收集並積累了大量的數據。數據豐富知識貧乏的現實直接導致了聯機分析處理(OLAP)、數據倉庫(Data Warehousing)和數據挖掘(Data Mining)等技術的出現,促使資料庫向智能化方向發展。同時企業應用越來越復雜,會涉及到應用伺服器、Web伺服器、其它資料庫、舊系統中的應用以及第三方軟體等,資料庫產品與這些軟體是否具有良好集成性往往關繫到整個系統的性能。Oracle公司的Oracle 9i 產品包括了OLAP、數據挖掘、ETL工具等一套完整的BI(商業智能)支持平台,中間件產品與其核心資料庫具有緊密集成的特性,Oracle Application Server 增加的一項關鍵功能是高速緩存特性,該特性可以將數據從資料庫卸載到應用伺服器,加速 Web用戶對數據的訪問速度。IBM 公司也把BI套件作為其資料庫的一個重點來發展。微軟認為商務智能將是其下一代主要的利潤點。

資料庫技術的發展趨勢

數據、計算機硬體和資料庫應用,這三者推動著資料庫技術與系統的發展。資料庫要管理的數據的復雜度和數據量都在迅速增長;計算機硬體平台的發展仍然實踐著摩爾定律;資料庫應用迅速向深度、廣度擴展。尤其是互聯網的出現,極大地改變了資料庫的應用環境,向資料庫領域提出了前所未有的技術挑戰。這些因素的變化推動著資料庫技術的進步,出現了一批新的資料庫技術,如Web資料庫技術、並行資料庫技術、數據倉庫與聯機分析技術、數據挖掘與商務智能技術、內容管理技術、海量數據管理技術等。限於篇幅,本文不可能逐一去展開來闡述這些方面的變化,只是從這些變化中歸納出資料庫技術發展呈現出的突出特點。

「四高」 即DBMS具有高可靠性、高性能、高可伸縮性和高安全性。資料庫是企業信息系統的核心和基礎,其可靠性和性能是企業領導人非常關心的問題。因為,一旦宕機會給企業造成巨大的經濟損失,甚至會引起法律的糾紛。最典型的例子就是證券交易系統,如果在一個行情來臨的時候,由於交易量的猛增,造成資料庫系統的處理能力不足,導致資料庫系統崩潰,將會給證券公司和股民造成巨大的損失。在我國計算機應用的早期,由於計算機系統還不是企業運營必要的成分,人們對資料庫的重要性認識不足,而且為了經費上的節約常常採用一些低層次的數據管理軟體,如dBASE等,或者盜版的軟體。但是,隨著信息化進程的深化,計算機系統越來越成為企業運營的不可缺少的部分,這時,資料庫系統的穩定和高效是必要的條件。在互聯網環境下還要考慮支持幾千或上萬個用戶同時存取和7x24小時不間斷運行的要求,提供聯機數據備份、容錯、容災以及信息安全措施等。

事實上,資料庫系統的穩定和高效也是技術上長久不衰的追求。此外,從企業信息系統發展的角度上看,一個系統的可擴展能力也是非常重要的。由於業務的擴大,原來的系統規模和能力已經不再適應新的要求的時候,不是重新更換更高檔次的機器,而是在原有的基礎上增加新的設備,如處理器、存儲器等,從而達到分散負載的目的。數據的安全性是另一個重要的課題,普通的基於授權的機制已經不能滿足許多應用的要求,新的基於角色的授權機制以及一些安全功能要素,如存儲隱通道分析、標記、加密、推理控制等,在一些應用中成為切切實實的需要。

「互聯」 指資料庫系統要支持互聯網環境下的應用, 要支持信息系統間「互聯互訪」,要實現不同資料庫間的數據交換和共享,要處理以XML類型的數據為代表的網上數據,甚至要考慮無線通訊發展帶來的革命性的變化。與傳統的資料庫相比,互聯網環境下的資料庫系統要具備處理更大量的數據以及為更多的用戶提供服務的能力,要提供對長事務的有效支持,要提供對XML類型數據的快速存取的有效支持。

「協同」 面向行業應用領域要求,在DBMS核心基礎上,開發豐富的資料庫套件及應用構件,通過與製造業信息化、電子政務等領域應用套件捆綁,形成以DBMS為核心的面向行業的應用軟體產品家族。滿足應用需求,協同發展資料庫套件與應用構件,已成為當今資料庫技術與產品發展的新趨勢。規劃中的Oracle 11i的主要擴展方面據稱主要也是各種面向應用套件的支持。

❷ 五大資料庫理念,讀懂亞馬遜雲科技的資料庫布局


1970 年,關系型資料庫之父 E.F.Codd 發表《用於大型共享資料庫的關系數據模型》論文,正式拉開資料庫技術發展序幕。以 Oracle、DB2、SQL Server 為代表的三大商業資料庫產品獨占鰲頭,隨後涌現出 MySQL、PostgreSQL 等為代表的開源資料庫 ,和以 Amazon RDS 等為代表的雲資料庫,拉開百花齊放的資料庫新序幕。

我們知道,雲計算十年為產業轉型升級提供了 歷史 性契機,但變革仍在進行,隨著雲計算的普及,資料庫市場發生根本性改變,雲廠商打破傳統商業資料庫的堡壘,成為資料庫領域全新力量。其中以連續六年入選 Gartner 領導者象限的亞馬遜雲 科技 為代表,我們一起探討:為什麼亞馬遜雲 科技 能始終保持其創新性?縱觀雲原生時代下,亞馬遜雲 科技 資料庫未來還有哪些更多的可能性?

01 面對四大資料庫發展趨勢,亞馬遜雲 科技 打造五大資料庫理念

後疫情時代下,加速了不少行業的業務在線化和數字化運營,企業對數據價值挖掘的需求越發強烈,亞馬遜雲 科技 大中華區產品部總經理顧凡詳細介紹其中四大趨勢:

一是伴隨互聯網、移動互聯網的發展,電商、視頻、社交、出行等新應用場景的興起,不僅數據量大,對數據實時性要求極高,傳統關系型資料庫無法滿足需求,因此驅動雲原生資料庫的出現。

二是開源資料庫的廣泛應用。

三是應用程序現代化對資料庫提出更高要求,期待資料庫擁有更高的性能、可擴展性、可用性以及降低成本,讓開發人員專注於核心業務的應用開發,不用關注和核心業務無關的代碼。

四是軟體架構歷經 PC、互聯網、移動互聯網,再到如今的萬物互聯時代,其中的迭代和轉型正在驅動資料庫選型的變化。

在此四大趨勢下,伴隨企業的業務量越來越大、越來越復雜,對資料庫的要求越來越高。亞馬遜雲 科技 洞察客戶需求,在打造雲上資料庫產品時提出五大理念:

一是專庫專用,極致性能;二是無伺服器,敏捷創新;第三是全球架構,一鍵部署;第四是平滑遷移,加速上雲;第五是 AI 賦能,深度集成。

02 歷經真實錘煉,五大資料庫理念,持續賦能企業數智轉型

顧凡表示,隨著數據爆炸式增長,微服務架構與 DevOps 愈發流行的今天,一個資料庫打天下的時代已然過去。我們需要在不同的應用場景下,針對不同的數據類型和不同的數據訪問特點,為開發者和企業提供專門構建的工具。

所以亞馬遜雲 科技 提出 第一個核心資料庫理念:專庫專用 。在此理念下,推出針對關系數據、鍵值數據、文檔數據、內存數據、圖數據、時許數據、分類賬數據、寬列等專門構建資料庫的產品家族。

這些資料庫產品均經歷過亞馬遜內部核心業務的真實錘煉,成績斐然:

亞馬遜電商當年是 Oracle 的客戶之一,隨著亞馬遜電商的應用重構和業務體量發展,亞馬遜電商決定將業務遷移到亞馬遜雲 科技 里。100 多個團隊參與這龐大的遷移工作中,將亞馬遜電商采購、目錄管理、訂單執行、廣告、財務系統、錢包、視頻流等關鍵系統全部從 Oracle 遷出來。2019 年,亞馬遜將存儲近 7500 個Oracle 資料庫中的 75 PB 內部數據遷移到多項亞馬遜雲 科技 的資料庫服務中,包括 Amazon DynamoDB、Amazon Aurora、Amazon ElastiCache,於是亞馬遜電商成為亞馬遜雲 科技 在全球的「第一大客戶」。

從 Oracle 切換到亞馬遜雲 科技 後,亞馬遜電商節省了 60% 成本,面向消費者端的應用程序延遲降低 40%,資料庫管理支出減少 70%。

以被譽為「亞馬遜雲 科技 歷史 上用戶數量增速最快的雲服務」Amazon Aurora 為例,其擁有科媲美高端商業資料庫的速度和可用性,還擁有開源資料庫的簡單性與成本效益,Amazon Aurora 讓客戶滿足「魚和熊掌兼得」需求。

據顧凡介紹,Amazon Aurora 可提供 5 倍於標准 MySQL 性能,3 倍於 PostgreSQL 吞吐量。同時提供高可用,可用區(AZ)+1的高可用,Global Databases 可完成跨區域災備。可擴展到 15 個只讀副本,成本只有商業資料庫的 1/10。

醫葯企業九州通為葯廠、供應商,搭建葯廠、供應商、消費者提供供應鏈鏈條。其 B2B 系統的業務特點是讀多寫少,受促銷活動、工作時間等影響,經常會出現波峰波谷落差較大的情況,讀寫比例在 7:2 或者 8:3。九州通採用 Amazon Aurora 後實現讀寫分離和按需擴展,整體資料庫性能提升 5 倍,TCO 降低 50%。實現了跨可用區部署、負載均衡、自動故障轉移、精細監控、按需自動伸縮等。

據權威機構預測,到 2022 年,75% 資料庫將被部署或遷移至雲平台。在這個過程中,亞馬遜雲 科技 是如何通過技術來幫助客戶加速應用上雲的?這離不開除了上述的「專庫專用」外,以下四大理念:

第二個理念是無伺服器、敏捷創新。 亞馬遜雲 科技 大中華區產品部數據類產品高級經理王曉野表示,企業業務總有波峰波谷之時,如何按照企業 80-90% 的業務峰值來規劃資料庫的存儲容量和計算資源的話,將給應用帶來一定的業務連續性的妥協和挑戰。因此大多數企業都是按照峰值留有餘地來選擇資料庫的計算資源,這將造成成本上的浪費。而 Serverless 資料庫服務可完成無差別的繁復工作和自動化擴展。

Amazon DynamoDB 是亞馬遜雲 科技 自研 Serverless 資料庫,其誕生最早可追溯到 2004 年,當時亞馬遜電商作為 Oracle 的客戶,盡管對於關系型資料庫在零售場景的需求並不頻繁,70% 均是鍵值類操作,此時倒逼亞馬遜電商思考:為什麼要把關系型資料庫這么重得使用?我們可以設計一款支持讀寫、可橫向擴展的分布式資料庫嗎?後來的故事大家都知道了,這款資料庫就是 Amazon DynamoDB,並在 2007 年發表論文,掀起業界 NoSQL 分布式資料庫技術創新大潮。

Amazon DynamoDB 可為大規模應用提供支持,支撐亞馬遜自身多個高流量網站和系統,如亞馬遜電商網站、亞馬遜全球 442 個物流中心等。在亞馬遜電商一年一度 Prime Day,光是針對DynamoDB API 的調用達到數萬億次,最高峰值請求達到每秒 8920 萬次。由此可見,DynamoDB 擁有高吞吐、擴展性、一致性、可預測響應延遲、高可用等優勢。

智能可穿戴設備廠商華米 科技 ,在全球 70 多個國家擁有近 1 億用戶。僅 2020 年上半年,其手錶出貨量超 174 萬台,截止到 2021 年 2 月,華米 科技 的可穿戴設備累計記錄步數是 151 萬步,累計記錄的睡眠時間是 128 億個夜晚,記錄心率總時長達 1208 億個小時。如此龐大的數據同時必須保證極高的安全性和低延遲相應,如何保證穩定性是巨大的挑戰。

DynamoDB 幫助華米 科技 在任何規模下都能提供延遲不超過 10 毫秒的一致響應時間。華米 科技 健康 雲的 P0 和 P1 級別故障減少了約 30%,總體服務可用性提升了 0.25%,系統可用性指標達到 99.99%,為華為 科技 全球化擴展提供了有力的支撐。

最新無服務資料庫產品是 Amazon Aurora Serverless V2 提供瞬間擴展能力,真正把擴展能力發揮到極致,在不到一秒的時間內,將幾百個事務擴展到數十萬的級別。同時在擴展時每一次調整的增量都是非常精細化的去管理,如果按照峰值來規劃資料庫資源,可實現大概90%的成本節省。目前 Amazon Aurora Serverless V2 在全球實現預覽。

第三個理念是全球架構、一鍵部署。 在全球化的今天,如何支撐全球客戶的業務擴展連續性、一致性、以最低延遲帶給到終端客戶上,對資料庫提出新的挑戰。

亞馬遜雲 科技 提供 Amazon Aurora 關系型資料庫Global Database、Amazon DynamoDB、Amazon ElastiCache 內存資料庫、Amazon DocumentDB 文檔資料庫都能利用亞馬遜雲 科技 的骨幹網路提供比互聯網更穩定的網路支撐,以一鍵部署的方式,幫助客戶實現幾千公里跨區域資料庫災備,故障恢復大概能在一分鍾之內完成,同時跨區域的數據復制延遲通常小於一秒。

第四個理念是平滑遷移、加速上雲。 目前,450000+ 資料庫通過亞馬遜雲 科技 資料庫遷移服務遷移到亞馬遜雲 科技 中,這個數字每年都在不斷增長。亞馬遜雲 科技 提供 Amazon DMS、Amazon Database Migration Service 等工具讓開發者和企業進行自助式雲遷移。另外,對於遷移過程中可能會需要的支持,可通過專業服務團隊和合作夥伴網路成員,為客戶提供專業支持,還通過 Database Freedom 項目幫助客戶降低他們的顧慮。

今年 11 月,最新產品 Babelfish for Amazon Aurora PostgreSQL 在全球和中國兩個區域正式可用,可加速企業上雲的遷移,實現讓企業可以利用原有的技術棧、原有的 SQL Server T-SQL的人員可以利用到雲資料庫進行創新。

第五個理念是 AI賦能,深度集成。 我們觀察到,ML 技術賦能資料庫開發者,開發者無需具備機器學習專業知識,就可進行機器學習操作。在此潮流下,亞馬遜雲 科技 推出 Amazon Neptune,藉由 Deep Graph Library 和 Amazon SageMaker 驅動圖神經網路。

今年 8 月,Neptune ML 在中國正式可用,允許數據工程師不需要掌握機器學習的技能直接從圖資料庫里導出數據、轉換格式、訓練模型並發布,用 gremlin 語句調用訓練成的模型在資料庫里實現推理,進行欺詐檢測,推薦物品。

目前,亞馬遜雲 科技 加速在中國區域服務落地,2021年至今新發布 60 多個資料庫服務與功能。亞馬遜雲 科技 正是通過上述五大資料庫理念,打造豐富的資料庫產品家族,在全球智能化發展趨勢下,為企業提供更快更好的數智服務,釋放數據價值,並連續六年入選 Gartner 領導者象限,得到業界和客戶的深度認可。

❸ 安華金和憑借什麼技術入圍Gartner的呢

貌似之前安華金和就已經入圍Gartner,憑借的技術還真不了解,不過我知道2020年是憑借DAP(資料庫審計與保護)相關技術能力,入選Gartner「數據安全、數據管理、隱私保護」三個領域的技術成熟度曲線研究報告,而且是該領域第一家中國數據安全企業,與IBM、Imperva、Datiphy、McAfee、Oracle、Trustwave等國際知名廠商一並進行推薦。真的是不錯,為此感到驕傲。

❹ 2019數據架構選型必讀:1月資料庫產品技術解析

本期目錄

DB-Engines資料庫排行榜

新聞快訊

一、RDBMS家族

二、NoSQL家族

三、NewSQL家族

四、時間序列

五、大數據生態圈

六、國產資料庫概覽

七、雲資料庫

八、推出dbaplus Newsletter的想法

九、感謝名單

為方便閱讀、重點呈現,本期Newsletter(2019年1月)將對各個板塊的內容進行精簡。需要閱讀全文的同學可點擊文末 【閱讀原文】 或登錄https://pan..com/s/13BgipbaHeMfvm0YPtiYviA

進行下載。

DB-Engines資料庫排行榜

以下取自2019年1月的數據,具體信息可以參考http://db-engines.com/en/ranking/,數據僅供參考。

DB-Engines排名的數據依據5個不同的因素:

新聞快訊

1、2018年9月24日,微軟公布了SQL Server2019預覽版,SQL Server 2019將結合Spark創建統一數據平台。

2、2018年10月5日,ElasticSearch在美國紐約證券交易所上市。

3、亞馬遜放棄甲骨文資料庫軟體,導致最大倉庫之一在黃金時段宕機。受此消息影響,亞馬遜盤前股價小幅跳水,跌超2%。

4、2018年10月31日,Percona發布了Percona Server 8.0 RC版本,發布對MongoDB 4.0的支持,發布對XtraBackup測試第二個版本。

5、2018年10月31日,Gartner陸續發布了2018年的資料庫系列報告,包括《資料庫魔力象限》、《資料庫核心能力》以及《資料庫推薦報告》。

今年的總上榜資料庫產品達到了5家,分別來自:阿里雲,華為,巨杉資料庫,騰訊雲,星環 科技 。其中阿里雲和巨杉資料庫已經連續兩年入選。

6、2018年11月初,Neo4j宣布完成E輪8000萬美元融資。11月15日,Neo4j宣布企業版徹底閉源:

7、2019年1月8日,阿里巴巴以1.033億美元(9000萬歐元)的價格收購了Apache Flink商業公司DataArtisans。

8、2019年1月11日早間消息,亞馬遜宣布推出雲資料庫軟體,亞馬遜和MongoDB將會直接競爭。

RDBMS家族

Oracle 發布18.3版本

2018年7月,Oracle Database 18.3通用版開始提供下載。我們可以將Oracle Database 18c視為採用之前發布模式的Oracle Database 12c第2版的第一個補丁集。未來,客戶將不再需要等待多年才能用上最新版Oracle資料庫,而是每年都可以期待新資料庫特性和增強。Database 19c將於2019年Q1率先在Oracle cloud上發布雲版本。

Oracle Database 18c及19c部分關鍵功能:

1、性能

2、多租戶,大量功能增強及改進,大幅節省成本和提高敏捷性

3、高可用

4、數據倉庫和大數據

MySQL發布8.0.13版本

1、賬戶管理

經過配置,修改密碼時,必須帶上原密碼。在之前的版本,用戶登錄之後,就可以修改自己的密碼。這種方式存在一定安全風險。比如用戶登錄上資料庫後,中途離開一段時間,那麼非法用戶可能會修改密碼。由參數password_require_current控制。

2、配置

Innodb表必須有主鍵。在用戶沒有指定主鍵時,系統會生成一個默認的主鍵。但是在主從復制的場景下,默認的主鍵,會對叢庫應用速度帶來致命的影響。如果設置sql_require_primary_key,那麼資料庫會強制用戶在創建表、修改表時,加上主鍵。

3、欄位默認值

BLOB、TEXT、GEOMETRY和JSON欄位可以指定默認值了。

4、優化器

1)Skip Scan

非前綴索引也可以用了。

之前的版本,任何沒有帶上f1欄位的查詢,都沒法使用索引。在新的版本中,它可以忽略前面的欄位,讓這個查詢使用到索引。其實現原理就是把(f1 = 1 AND f2 > 40) 和(f1 = 2 AND f2 > 40)的查詢結果合並。

2)函數索引

之前版本只能基於某個列或者多個列加索引,但是不允許在上面做計算,如今這個限制消除了。

5、SQL語法

GROUP BY ASC和GROUP BY DESC語法已經被廢棄,要想達到類似的效果,請使用GROUP BY ORDER BY ASC和GROUP BY ORDER BY DESC。

6、功能變化

1)設置用戶變數,請使用SET語句

如下類型語句將要被廢棄SELECT @var, @var:=@var+1。

2)新增innodb_fsync_threshold

該變數是控制文件刷新到磁碟的速率,防止磁碟在短時間內飽和。

3)新增會話級臨時表空間

在以往的版本中,當執行SQL時,產生的臨時表都在全局表空間ibtmp1中,及時執行結束,臨時表被釋放,空間不會被回收。新版本中,會為session從臨時表空間池中分配一個臨時表空間,當連接斷開時,臨時表空間的磁碟空間被回收。

4)在線切換Group Replication的狀態

5)新增了group_replication_member_expel_timeout

之前,如果某個節點被懷疑有問題,在5秒檢測期結束之後,那麼就直接被驅逐出這個集群。即使該節點恢復正常時,也不會再被加入集群。那麼,瞬時的故障,會把某些節點驅逐出集群。

group_replication_member_expel_timeout讓管理員能更好的依據自身的場景,做出最合適的配置(建議配置時間小於一個小時)。

MariaDB 10.3版本功能展示

1、MariaDB 10.3支持update多表ORDER BY and LIMIT

1)update連表更新,limit語句

update t1 join t2 on t1.id=t2.id set t1.name='hechunyang' limit 3;

MySQL 8.0直接報錯

MariaDB 10.3更新成功

2)update連表更新,ORDER BY and LIMIT語句

update t1 join t2 on t1.id=t2.id set t1.name='HEchunyang' order by t1.id DESC limit 3;

MySQL 8.0直接報錯

MariaDB 10.3更新成功

參考:

https://jira.mariadb.org/browse/MDEV-13911

2、MariaDB10.3增補AliSQL補丁——安全執行Online DDL

Online DDL從名字上看很容易誤導新手,以為不論什麼情況,修改表結構都不會鎖表,理想很豐滿,現實很骨感,注意這個坑!

有以下兩種情況執行DDL操作會鎖表的,Waiting for table metadata lock(元數據表鎖):

針對第二種情況,MariaDB10.3增補AliSQL補丁-DDL FAST FAIL,讓其DDL操作快速失敗。

例:

如果線上有某個慢SQL對該表進行操作,可以使用WAIT n(以秒為單位設置等待)或NOWAIT在語句中顯式設置鎖等待超時,在這種情況下,如果無法獲取鎖,語句將立即失敗。 WAIT 0相當於NOWAIT。

參考:

https://jira.mariadb.org/browse/MDEV-11388

3、MariaDB Window Functions窗口函數分組取TOP N記錄

窗口函數在MariaDB10.2版本里實現,其簡化了復雜SQL的撰寫,提高了可讀性。

參考:

https://mariadb.com/kb/en/library/window-functions-overview/

Percona Server發布8.0 GA版本

2018年12月21日,Percona發布了Percona Server 8.0 GA版本。

在支持MySQL8.0社區的基礎版上,Percona Server for MySQL 8.0版本中帶來了許多新功能:

1、安全性和合規性

2、性能和可擴展性

3、可觀察性和可用性

Percona Server for MySQL 8.0中將要被廢用功能:

Percona Server for MySQL 8.0中刪除的功能:

RocksDB發布V5.17.2版本

2018年10月24日,RocksDB發布V5.17.2版本。

RocksDB是Facebook在LevelDB基礎上用C++寫的高效內嵌式K/V存儲引擎。相比LevelDB,RocksDB提供了Column-Family,TTL,Transaction,Merge等方面的支持。目前MyRocks,TiKV等底層的存儲都是基於RocksDB來構建。

PostgreSQL發布11版本

2018年10月18日,PostgreSQL 11發布。

1、PostgreSQL 11的重大增強

2、PostgreSQL 插件動態

1)分布式插件citus發布 8.1

citus是PostgreSQL的一款sharding插件,目前國內蘇寧、鐵總、探探有較大量使用案例。

https://github.com/citusdata/citus

2)地理信息插件postgis發布2.5.1

PostGIS是專業的時空資料庫插件,在測繪、航天、氣象、地震、國土資源、地圖等時空專業領域應用廣泛。同時在互聯網行業也得到了對GIS有性能、功能深度要求的客戶青睞,比如共享出行、外賣等客戶。

http://postgis.net/

3)時序插件timescale發布1.1.1

timescale是PostgreSQL的一款時序資料庫插件,在IoT行業中有非常好的應用。github star數目前有5000多,是一個非常火爆的插件。

https://github.com/timescale/timescaledb

4)流計算插件 pipelinedb 正式插件化

Pipelinedb是PostgreSQL的一款流計算插件,使用這個創建可以對高速寫入的數據進行實時根據定義的聚合規則進行聚合(支持概率計算),實時根據定義的規則觸發事件(支持事件處理函數的自定義)。可用於IoT,監控,FEED實時計算等場景。

https://github.com/pipelinedb/pipelinedb

3、PostgreSQL衍生開源產品動態

1)agensgraph發布 2.0.0版本

agensgraph是兼容PostgreSQL、opencypher的專業圖資料庫,適合圖式關系的管理。

https://github.com/bitnine-oss/agensgraph

2)gpdb發布5.15

gpdb是兼容PostgreSQL的mpp資料庫,適合OLAP場景。近兩年,gpdb一直在追趕PostgreSQL的社區版本,預計很快會追上10的PostgreSQL,在TP方面的性能也會得到顯著提升。

https://github.com/greenplum-db/gpdb

3)antdb發布3.2

antdb是以Postgres-XC為基礎開發的一款PostgreSQL sharding資料庫,亞信主導開發,開源,目前主要服務於亞信自有客戶。

https://github.com/ADBSQL/AntDB

4)遷移工具MTK發布52版本

MTK是EDB提供的可以將Oracle、PostgreSQL、MySQL、MSSQL、Sybase資料庫遷移到PostgreSQL, PPAS的產品,遷移速度可以達到100萬行/s以上。

https://github.com/digoal/blog/blob/master/201812/20181226_01.md

DB2發布 11.1.4.4版本

DB2最新發布Mod Pack 4 and Fix Pack 4,包含以下幾方面的改動及增強:

1、性能

2、高可用

3、管理視圖

4、應用開發方面

5、聯邦功能

6、pureScale

NoSQL家族

Redis發布5.0.3版本

MongoDB升級更新MongoDB Mobile和MongoDB Stitch

2018年11月21日,MongoDB升級更新MongoDB Mobile和MongoDB Stitch,助力開發人員提升工作效率。

MongoDB 公司日前發布了多項新產品功能,旨在更好地幫助開發人員在世界各地管理數據。通過利用存儲在移動設備和後台資料庫的數據之間的實時、自動的同步特性,MongoDB Mobile通用版本助力開發人員構建更快捷、反應更迅速的應用程序。此前,這只能通過在移動應用內部安裝一個可供選擇或限定功能的資料庫來實現。

MongoDB Mobile在為客戶提供隨處運行的自由度方面更進了一步。用戶在iOS和安卓終端設備上可擁有MongoDB所有功能,將網路邊界擴展到其物聯網資產范疇。應用系統還可以使用MongoDB Stitch的軟體開發包訪問移動客戶端或後台數據,幫助開發人員通過他們希望的任意方式查詢移動終端數據和物聯網數據,包括本地讀寫、本地JSON存儲、索引和聚合。通過Stitch移動同步功能(現可提供beta版),用戶可以自動對保存在本地的數據以及後台資料庫的數據進行同步。

本期新秀:Cassandra發布3.11.3版本

2018年8月11日,Cassandra發布正式版3.11.3。

Apache Cassandra是一款開源分布式NoSQL資料庫系統,使用了基於Google BigTable的數據模型,與面向行(row)的傳統關系型資料庫或鍵值存儲key-value資料庫不同,Cassandra使用的是寬列存儲模型(Wide Column Stores)。與BigTable和其模仿者HBase不同,數據並不存儲在分布式文件系統如GFS或HDFS中,而是直接存於本地。

Cassandra的系統架構與Amazon DynamoDB類似,是基於一致性哈希的完全P2P架構,每行數據通過哈希來決定應該存在哪個或哪些節點中。集群沒有master的概念,所有節點都是同樣的角色,徹底避免了整個系統的單點問題導致的不穩定性,集群間的狀態同步通過Gossip協議來進行P2P的通信。

3.11.3版本的一些bug fix和改進:

NewSQL家族

TiDB 發布2.1.2版本

2018 年 12 月 22 日,TiDB 發布 2.1.2 版,TiDB-Ansible 相應發布 2.1.2 版本。該版本在 2.1.1 版的基礎上,對系統兼容性、穩定性做出了改進。

TiDB 是一款定位於在線事務處理/在線分析處理( HTAP: Hybrid Transactional/Analytical Processing)的融合型資料庫產品。除了底層的 RocksDB 存儲引擎之外,分布式SQL層、分布式KV存儲引擎(TiKV)完全自主設計和研發。

TiDB 完全開源,兼容MySQL協議和語法,可以簡單理解為一個可以無限水平擴展的MySQL,並且提供分布式事務、跨節點 JOIN、吞吐和存儲容量水平擴展、故障自恢復、高可用等優異的特性;對業務沒有任何侵入性,簡化開發,利於維護和平滑遷移。

TiDB:

PD:

TiKV:

Tools:

1)TiDB-Lightning

2)TiDB-Binlog

EsgynDB發布R2.5版本

2018年12月22日,EsgynDB R2.5版本正式發布。

作為企業級產品,EsgynDB 2.5向前邁進了一大步,它擁有以下功能和改進:

CockroachDB發布2.1版本

2018年10月30日,CockroachDB正式發布2.1版本,其新增特性如下:

新增企業級特性:

新增SQL特性:

新增內核特性:

Admin UI增強:

時間序列

本期新秀:TimescaleDB發布1.0版本

10月底,TimescaleDB 1.0宣布正式推出,官方表示該版本已可用於生產環境,支持完整SQL和擴展。

TimescaleDB是基於PostgreSQL資料庫開發的一款時序資料庫,以插件化的形式打包提供,隨著PostgreSQL的版本升級而升級,不會因為另立分支帶來麻煩。

TimescaleDB架構:

數據自動按時間和空間分片(chunk)

更新亮點:

https://github.com/timescale/timescaledb/releases/tag/1.0.0

大數據生態圈

Hadoop發布2.9.2版本

2018年11月中旬,Hadoop在2.9分支上發布了新的2.9.2版本,該版本進行了204個大大小小的變更,主要變更如下:

Greenplum 發布5.15版本

Greenplum最新的5.15版本中發布了流式數據載入工具。

該版本中的Greenplum Streem Server組件已經集成了Kafka流式載入功能,並通過了Confluent官方的集成認證,其支持的主要功能如下:

國產資料庫概覽

K-DB發布資料庫一體機版

2018年11月7日,K-DB發布了資料庫一體機版。該版本更新情況如下:

OceanBase遷移服務發布1.0版本

1月4日,OceanBase 正式發布OMS遷移服務1.0版本。

以下內容包含 OceanBase 遷移服務的重要特性和功能:

SequoiaDB發布3.0.1新版本

1、架構

1)完整計算存儲分離架構,兼容MySQL協議、語法

計算存儲分離體系以松耦合的方式將計算與存儲層分別部署,通過標准介面或插件對各個模塊和組件進行無縫替換,在計算層與存儲層均可實現自由的彈性伸縮。

SequoiaDB巨杉資料庫「計算-存儲分離」架構詳細示意

用戶可以根據自身業務特徵選擇面向交易的SQL解析器(例如MySQL或PGSQL)或面向統計分析的執行引擎(例如SparkSQL)。眾所周知,使用不同的SQL優化與執行方式,資料庫的訪問性能可能會存在上千上萬倍的差距。計算存儲分離的核心思想便是在數據存儲層面進行一體化存儲,在計算層面則利用每種執行引擎的特點針對不同業務場景進行選擇和優化,用戶可以在存儲層進行邏輯與物理的隔離,將面向高頻交易的前端業務與面向高吞吐量的統計分析使用不同的硬體進行存儲,確保在多類型數據訪問時互不幹擾,以真正達到生產環境可用的多租戶與HTAP能力。

2、其他更新信息

1)介面變更:

2)主要特性:

雲資料庫

本期新秀:騰訊發布資料庫CynosDB,開啟公測

1、News

1)騰訊雲資料庫MySQL2018年重大更新:

2)騰訊雲資料庫MongoDB2018年重大更新:

3)騰訊雲資料庫Redis/CKV+2018年重大更新:

4)騰訊雲資料庫CTSDB2018年重大更新:

2、Redis 4.0集群版商業化上線

2018年10月,騰訊雲資料庫Redis 4.0集群版完成邀測、公測、商業化三個迭代,在廣州、上海、北京正式全量商業化上線。

產品特性:

使用場景:

官網文檔:

https://cloud.tencent.com/document/proct/239/18336

3、騰訊自研資料庫CynosDB發布,開啟公測

2018年11月22日,騰訊雲召開新一代自研資料庫CynosDB發布會,業界第一款全面兼容市面上兩大最主流的開源資料庫MySQL和PostgreSQL的高性能企業級分布式雲資料庫。

本期新秀:京東雲DRDS發布1.0版本

12月24日,京東雲分布式關系型資料庫DRDS正式發布1.0版本。

DRDS是京東雲精心自研的資料庫中間件產品,獲得了2018年 」可信雲技術創新獎」。DRDS可實現海量數據下的自動分庫分表,具有高性能,分布式,彈性升級,兼容MySQL等優點,適用於高並發、大規模數據的在線交易, 歷史 數據查詢,自動數據分片等業務場景,歷經多次618,雙十一的考驗,已經在京東集團內大規模使用。

京東雲DRDS產品有以下主要特性

1)自動分庫分表

通過簡單的定義即可自動實現分庫分表,將數據實際存放在多個MySQL實例的資料庫中,但呈現給應用程序的依舊是一張表,對業務透明,應用程序幾乎無需改動,實現了對資料庫存儲和處理能力的水平擴展。

2)分布式架構

基於分布式架構的集群方案,多個對等節點同時對外提供服務,不但可有效規避服務的單點故障,而且更加容易擴展。

3)超強性能

具有極高的處理能力,雙節點即可支持數萬QPS,滿足用戶超大規模處理能力的需求。

4)兼容MySQL

兼容絕大部分MySQL語法,包括MySQL語法、數據類型、索引、常用函數、排序、關聯等DDL,DML語句,使用成本低。

參考鏈接:

https://www.jdcloud.com/cn/procts/drds

RadonDB發布1.0.3版本

2018年12月26日,MyNewSQL領域的RadonDB雲資料庫發布1.0.3版本。

推出dbaplus Newsletter的想法

dbaplus Newsletter旨在向廣大技術愛好者提供資料庫行業的最新技術發展趨勢,為社區的技術發展提供一個統一的發聲平台。為此,我們策劃了RDBMS、NoSQL、NewSQL、時間序列、大數據生態圈、國產資料庫、雲資料庫等幾個版塊。

我們不以商業宣傳為目的,不接受任何商業廣告宣傳,嚴格審查信息源的可信度和准確性,力爭為大家提供一個純凈的技術學習環境,歡迎大家監督指正。

至於Newsletter發布的周期,目前計劃是每三個月左右會做一次跟進, 下期計劃時間是2019年4月14日~4月25日, 如果有相關的信息提供請發送至郵箱:[email protected]

感謝名單

最後要感謝那些提供寶貴信息和建議的專家朋友,排名不分先後。

往期回顧:

↓↓別忘了點這里下載 2019年1月 完整版Newsletter 哦~

❺ 一場替換傳統資料庫的行動正在全球范圍悄然進行

隨著全球各大 科技 巨頭的競相加入,開源軟體技術已經活躍在各個信息技術領域當中。其中,大數據生態成為開源技術的直接受益者。開源技術適用於龐雜的數據管理系統,帶來敏捷、高效、可擴展以及可自控的管理能力,並幫助企業降低IT建設及維護成本。2018年雙11當天,阿里雲原生資料庫PolarDB輕松應對了0點0分0秒瞬時提升122倍的數據洪峰。Netflix也採用自研開源架構Metacat將海量數據集合成一個「單一」的數據倉庫,大幅提升管理能效。

當前,我國有越來越多的企業、人才加入到開源社區,貢獻力也「後來居上」,共同推進開源項目、開源生態的繁榮和可持續發展。

大數據生態成為開源技術重大「受益者」

近年來,在互聯網服務、多媒體以及科學研究等多個領域,都可見到大數據的身影。在大數據時代,不斷增長的數據量、快速處理數據的需求以及數據類型、結構和來源的多樣性給資料庫敏捷、高效、可擴展性以及個性化管理帶來了全新挑戰。

開源技術賦能了大數據生態的高質量發展。賽迪智庫信息化和軟體服務業所博士蒲松濤表示,經過了數十年的發展,開源軟體和開源工具已經應用到了大數據產業發展的各個環節,基於開源軟體,企業可以快速構建大數據應用平台,提供豐富的大數據開發和應用工具。

當前,幾乎各種規模的企業都在使用開源軟體和工具做大數據處理和基於數據的預測分析。開源界也涌現出了Hadoop、OpenStack、OpenShift、Maprece、docker等引領行業技術創新方向的重量級開源項目。

華泰人壽基於OpenShift架構打造易於管理的新IT系統,以提升企業競爭力,實現業務數字化轉型。在基礎設施上,引入紅帽OpenShift容器雲解決方案和紅帽Ceph分布式存儲。通過將保險業務上docker雲,實現華泰人壽業務的彈性伸縮和快速上線,加速其互聯網保險項目快速落地。

美國知名在線影片租賃提供商Netflix也採用了大數據發現服務的開源框架Metacat。由於Netflix的數據倉庫由許多大型的數據集組成,為了確保數據平台能夠橫跨這些數據集成為一個「單一」的數據倉庫,Netflix開發的元數據服務Metacat,能讓數據的發生、發現、處理和管理變得更加快捷高效、處理精度大幅提升;同時還可兼容Spark、Presto、Pig和Hive架構。Netflix軟體架構師Ajoy Majumdar指出,開放開源是身為技術公司的競爭戰略,既能夠將自己的解決方案建立為行業標准和最佳實踐,又能建立Netflix的技術品牌,還能從共享生態中獲得反饋輸入並受益。

事實上,推動大數據應用高質量發展的主流開源平台還有很多,例如Spark、Shark、Bagel等。蒲松濤表示,這些開源平台大幅降低應用門檻,有效幫助企業實現工業級應用,進而帶動各行業大規模部署。此外,大數據還涌現出了一批開源支線平台。其中,Storm完全擺脫了經典的MapRece架構,重新設計了一個適用於流式計算的架構,以數據流為驅動觸發計算,計算時效性高,適應有向無環圖計算拓撲的設計,計算方式較為靈活,在業界得到了一定的部署應用。

開源社區供需「雙贏」中國力量已崛起

開源社區的建立為推動開源軟體發展、構建行業競爭優勢做出突出貢獻,隊伍的壯大需要每一位使用者持續不斷的貢獻智慧,以實現真正的「共贏」。開源的發展歷程中,極客、大公司、商業顛覆者輪番登場,開源技術的訴求也從商業驅動向生態驅動發展。中國工程院院士廖湘科指出,開源是軟體創新技術的主要來源,是生態抓手,而非贏利的切入點。

開源軟體的「共享和貢獻」機制吸引了眾多開發者的參與,給了每一位開發者「顛覆 游戲 規則」的權利。有了這種生態的加持,信息技術將被快速推進,各個參與者將持續獲利。對此,李飛飛表示,開源生態的受益者是開源技術的需求側和供給側雙方。從供給側角度來看,參與的人越多,思維碰撞而引發的迭代演進就會越快;從需求側角度來看,各個企業不僅可以免除被閉源系統「技術綁定」,還可以在開源社區實現資料庫技術遷移,企業還可針對企業技術特徵進行資料庫的個性定製化,實現大量的應用和代碼的改造且系統間互相兼容。

中國開源軟體推進聯盟副 主席 兼秘書長劉澎在PostgreSQL .CN 2019上表示,當前國內越來越多的企業為開源做出重要貢獻,我國的開源實力已經崛起。以華為、阿里等為代表的開源軟體開發者已經逐漸與亞馬遜、微軟站到了同一高度,實現了從「使用者」到「引領者」的身份轉變。

目前,中國企業在Linux基金會中有1個白金會員(華為),1個金牌會員(阿里雲)和數十家銀牌會員(包括騰訊、中國移動、聯想等)。華為在多個開源社區貢獻排名前列。中國工程院院士倪光南認為,華為是開源軟體的優秀開發代表,通過引進、消化,實現創新發展,進而貢獻給整個開源社區。

阿里雲也成為 游戲 規則的重要改變者和全球雲資料庫領跑者之一。2018年,阿里雲資料庫成功進入Gartner資料庫魔力象限,這是該榜單首次出現中國公司。近日,Gartner發布的全球雲資料庫市場份額榜單中,阿里雲位居第三,超越了Oracle、IBM和谷歌。5月21日,阿里雲提供傳統資料庫一鍵遷移上雲能力,可以幫助企業將線下的MySQL、PostgreSQL和Oracle等資料庫輕松上雲,最快數小時內遷移完成。李飛飛表示,阿里雲自研的PolarDB雲原生資料庫的分布式存儲架構具有一寫多度、計算與存儲分離等優勢,幫助淘寶交易平台應對了雙11當天瞬時提升122倍的數據洪峰。

此外,國內還有包括網路、浪潮、瀚高等在內的眾多企業積極參與並貢獻到開源社區當中。人工智慧、自動駕駛等新興信息技術也成為開源項目的重要應用領域。

❻ 柏睿數據可以說是國內分析型資料庫的代表嗎

算是國內這類型廠商的代表,他們的核心產品分布式內存資料庫RapidsDB通過了信通院大數據產品能力評測,也入選Gartner的中國資料庫市場指南報告,可以說是國產自主研發的具有完整獨立知識產權的基於全內存架構的分布式關系性型資料庫代表了有幫助的話,可以給個大大的贊不。

❼ 新一代HTAP資料庫崛起,MySQL生態的最佳歸宿

俗話說,天下大勢,合久必分、分久必合。

資料庫領域同樣如此。過去五十餘年,資料庫經歷OLTP和OLAP兩種需求漫長的融合-分離-再融合的過程。究其原因,資料庫的發展始終與用戶場景需求變遷緊密相關。如今,隨著雲計算和大數據的興起,業務場景正在經歷前所未有的變革,資料庫領域也掀起了一股HTAP浪潮。

Gartner在多次報告中強調,HTAP是資料庫領域最重要的發展趨勢之一,也是用戶數字化轉型中重要的數據平台。業界甚至認為,HTAP的興起代表著資料庫大融合時代的開啟。

那麼,為什麼資料庫大廠和雲服務巨頭們均紛紛押寶HTAP?開源+多雲為何是HTAP普及的助推劑?面對新一代HTAP數據的崛起,多年積累形成的MySQL生態終於找到最佳歸宿?

放在幾年前,HTAP可能還會被認為是資料庫領域的小眾產品,是否成氣候還有待觀察。

而隨著數據資源、數據消費習慣和數據驅動型場景發生巨大變化,用戶需求與傳統資料庫之間的供需矛盾日漸突出,使得HTAP這種具備「同時支持OLTP和OLAP、創新計算存儲框架、去ETL」等特徵的新時代資料庫成為不可阻擋的趨勢。

如今,幾乎所有資料庫大廠和雲服務巨頭都在布局HTAP。例如,OceanBase去年推出的 3.0版本中就正式宣布向HTAP資料庫進軍;今年5月,Google Cloud發布HTAP雲端資料庫AlloyDB,為PG用戶提供了HTAP資料庫服務;再加上Oracle MySQL Heatwave,甚至連SnowFlake也發布Unistore來「蹭」HTAP的熱點。

如果細數近一年以來的HTAP新品,會發現幾乎全部都建立在雲端之上。新一代HTAP+雲正在成為資料庫市場重要的潮流。例如,PingCAP近日發布的TiDB 6.0,也是與雲端緊密聯系的新一代HTAP資料庫。

事實上,PingCAP是HTAP資料庫領域非常重要的一個引領者。早在TiDB 3.0起,PingCAP就正式轉向HTAP,從OLTP主引擎+OLAP輔助能力,到OLTP引擎+外接分析引擎,再到OLTP引擎+融合分析引擎,PingCAP在HTAP領域穩打穩扎,一個版本上一個台階。

如今,隨著TiDB 6.0的發布,針對HTAP進行了更多成熟性改進,TPC-C 性能也較 5.0 版本提升達到 76.32%,TiDB 6.0還增強了多個企業級特性,以更好適合雲時代用戶對於HTAP資料庫的需求。

固然,有人質疑當前HTAP是新瓶裝舊酒,並無太多新意。但業界普遍形成共識:新一代HTAP與過去完全不同,開源+雲孕育而出,很多都有AI加持,而且是為數據敏捷而生,擁有過去前所未有的創新活力與迭代速度,並逐漸形成資料庫技術變革的新潮流。

PingCAP CTO 黃東旭也直言:「TiDB近年來的快速進化與迭代,得益於開源和雲的助力。」

HTAP之所受到用戶青睞,某種程度是因為用戶對於數據敏捷性的極度渴求。

「在數字化時代,客戶最為在乎的是如何快速走向市場。這需要數據敏捷性,而HTAP恰恰是數據敏捷的核心能力。」黃東旭如是說。

最近幾年,「海量、實時、在線」的需求越來越廣泛,大量採用 MySQL 和 PostgreSQL 開源資料庫的新一代企業需要提升對於熱數據的實時在線分析能力,這類需求遍布幾乎所有的互聯網企業以及從事線上業務的數字化轉型企業。對於新鮮數據的實時分析能力直接決定了這些業務的生死存亡,傳統的 OLTP+OLAP+ETL 的數據架構已經嚴重阻礙了消費者體驗,這種訴求催生了 HTAP 的技術變革。

而真正幫助HTAP與用戶需求完成對接的則是開源+雲。眾所周知,開源近年來在資料庫領域的流行和影響力與日俱增,DB-Engines數據顯示,全球383款資料庫中開源資料庫占據51.7%,六款開源資料庫進入到前十,開源正在成為像HTAP這種新時代資料庫的創新源泉。

以PingCAP的TiDB為例,其產品研發體系建立在開源體系和開源社區的基礎上,實現了一年一個大版本、一個月一個小版本的迭代速度。黃東旭透露道:「開源是TiDB的第一個增長引擎,通過開源體系,開發者、貢獻者、佈道者和用戶能夠很好串聯起來,形成飛輪效應,讓產品能夠走向加速迭代和創新的正向循環。」

據悉,TiDB每年會有超過 40% 的代碼更新,而這些代碼有很大一部分由外部貢獻者所共享。TiDB開源項目一直在全球和中國開源項目活躍度中名列前茅。

如果說開源改變了HTAP產品的開發模式和迭代速度,那麼雲則能夠為HTAP產品提供用戶最為直接的需求反饋。眾所周知,雲資料庫一改以往傳統資料庫部署、運維、擴展等難題,以雲服務的方式讓資料庫使用更加簡單;更加關鍵的是,隨著雲計算的普及,雲上用戶群體持續增加,來自雲上用戶群體的需求反饋無時無刻都在發生,對於資料庫產品的進化與迭代至關重要。

「真正的產品迭代是如何縮短用戶問題/需求的反饋時間。雲無疑為資料庫等基礎軟體提供了這樣的價值,讓產品可以更好地迭代。」黃東旭如是說。以TiDB為例,自去年五月全託管的資料庫即服務(DBaaS)產品 TiDB Cloud 公測版發布以來,已經陸續登陸亞馬遜雲 科技 、谷歌雲等全球知名雲服務商的Marketplace,並在今年5月份正式全球商用;今年 6 月與阿里雲合作上線阿里雲雲市場,成為為數不多的跨全球三朵雲的資料庫服務。

在眾多資料庫產品之中,MySQL憑借著開源、免費、適合互聯網場景等優勢,常年位居全球最受歡迎資料庫的前三。根據Slintel網站的統計數據,在全球關系型資料庫市場中,MySQL市場份額最高,達到43.04%。

過去二十年裡,開源MySQL資料庫對於各行各業影響至深,捕獲了來自互聯網、金融、零售、交通等多個行業用戶的心,堪稱「萬人迷」。例如,在中國就有超過9成的金融機構都應用了MySQL資料庫。

但任何資料庫潮流都是「需求變化+技術變革+架構創新」融合的產物,MySQL是如此,HTAP亦不例外。如今,場景的數據規模、業務並發量、處理速度要求跟以往相比早已不是一個數量級。此時,MySQL資料庫的局限性愈發突出,擴展性很難滿足用戶需求,想繼續獲得增長的企業不得不使用分庫分表方案,但這又會造成數據架構的復雜性。

新一代HTAP資料庫無需分庫分表,且具備實時海量規模的OLTP和實時數據分析能力,還擁有極為出色的擴展性,與很多業務場景的海量交易實時數據展現、平穩運行的需求高度契合,HTAP憑借技術架構優勢崛起已成必然。

「用戶需求側最大的變化就是很多用戶需要藉助熱數據實現運營級別的實時分析,獲得實時洞察以支持決策,這極大推動了新一代HTAP資料庫的需求。」PingCAP副總裁劉松補充道。

雖然MySQL已經增加列存引擎Heatwave來獲得HTAP能力,但主要解決規模化查詢的問題,系統本身架構並未產生革命性變化,擴展能力、OLTP吞吐量依然有著很大局限。「智能新能源 汽車 跟傳統燃油車在外表看幾乎沒區別。資料庫也類似,像TiDB這種新一代HTAP資料庫,從架構設計、應對場景和使用體驗等角度,都與傳統資料庫有著極大的區別。」劉松形象比喻道。

事實上,與過去SAP HANA這種小眾、昂貴的HTAP不同,新一代HTAP擁有極強的兼容性,像Google Cloud、PingCAP這些資料庫廠商都藉助新一代HTAP架構為採用 MySQL或者PG開源資料庫的企業拓展 OLTP和OLAP的能力范圍。

例如,Google Cloud發布的HTAP雲端資料庫AlloyDB,為單機版PG生態用戶提供了最好選擇,TiDB則成為MySQL生態的最佳歸宿。PingCAP大量用戶中有很多TiDB與MySQL混合部署的成功案例;得益於 TiDB 的開放性,TiDB 也可通過和其他數據服務產品「混搭」形成新的數據服務解決方案, 如通過同樣是開源的大數據計算引擎 Flink 混搭形成實時數倉解決方案,擴展 HTAP 資料庫的能力邊界。

黃東旭則直言,HTAP資料庫除了產品、技術之外,尤為需要關心用戶體驗,「HTAP應該讓用戶覺得好用,屏蔽掉資料庫的復雜性。」據悉,PingCAP是2022 Gartner Peer Insights「Voice of the Customer」 雲資料庫領域唯一入選的中國資料庫公司,客戶總體評分達到 4.7 分(滿分 5 分),在所有入選企業中位列第一。在參與Gartner Peer Insights評分的PingCAP用戶中,像互聯網、金融等重點行業用戶均高度認可HTAP現代資料庫理念。

總體來看,今年是HTAP的大年,各大廠商紛紛在市場中上新。隨著新一代HTAP資料庫產品的增多,整個市場對於HTAP資料庫理念和產品的接受與採用將會提速。而隨著新一代HTAP資料庫持續完善,讓廣大MySQL生態用戶群真正看到了大數據時代一條絕佳的遷移路徑。

❽ 看到Gartner發的一篇關於CDM( data management)的報告,請問誰知道國內現在有相關產品或者技術嗎

CDM(Copy Data Management,復制數據管理)技術是一種創新型的備份技術。Gartner認為在兩個場景中可以提供非常高效的解決方案:一是備份恢復的現代化;二是開發測試環境的快速搭建。
CDM的核心技術是備份出來的數據格式是原始格式,即備份數據可以直接掛載給目標伺服器實現分鍾級恢復,和數據量的大小無關,這是和傳統備份軟體 最大的區別。由於備份數據是原始數據格式,並且存放在磁碟上,所以它可以根據新的增量數據和已有的全備數據,在備份系統內合成新的全量備份,從而實現永遠增量備份。
由於CDM本身是一種備份技術,所以它可以應對各種宕機場景,包括邏輯錯、人為錯等大概率小事故。增量備份和增量合成功能可以極大地降低備份窗口以及備份時系統資源的消耗。並且它還可以實現分鍾級的恢復時間,滿足業務對恢復的時間要求。
除此之外,CDM的即時掛載等技術可以對備份的副本分鍾級拉起,提供給開發、測試環境、以及數據報表輸出等非生產環境使用,讓備份的數據活起來,利用起來。
常見的CDM副本管理國內廠商有:愛數、豪聯、鼎甲、雲信達、 沃趣這幾個吧
國外廠商有:Rubrik、Actifio
簡單列下這些產品的優劣勢:
愛數AnyBackup CDM,目前只對Oracle資料庫具有CDM副本管理功能支持,對主流的SQL Server 、MySQL等都不具備CDM功能,屬於傳統備份技術,此外虛擬化備份和文件系統備份也都是傳統備份技術,擁有傳統備份的一系列問題:備份速度慢、佔用資源高、無法快速拉起等問題。
豪聯靈備CDM系統採用CDM架構,產品功能還是蠻強大的,支持ORACLE、SQL Server、MySQL、文件系統、VMware的副本管理功能,同時還具有一鍵DG以及容災監控,單單從CDM副本管理這方面來講是國內做的比較好的。劣勢就是品牌知名度相對較弱,目前暫未實現對國產資料庫的CDM副本管理支持。
沃趣聲稱有CDM產品,但是不能確定是不是真正的CDM,感覺更像是Oracle DG + 閃回技術,理論上可以回到歷史數據任意一秒,但這是一種緊耦合的技術。Oracle DG + 閃回技術的問題就是,DG是容災技術,一旦容災出了問題,那麼備份也沒有了,這是非常危險的,存在極大的數據丟失的風險。沃趣的CDM只能備Oracle資料庫,對其他的像SQL Server 、MySQL資料庫、文件系統、VMware虛擬化等全部無能為力。產品力很弱,功能單一。
鼎甲的產品不是很熟悉
雲信達的產品嘛,沒用過,但是從官網的介紹來看是CDM的名頭,他們的CDM產品叫eCloud Data Master,行業內通用的叫Copy Data Management。具體功能沒測試過,不發表意見。
Actifio是國外廠商,是最早做CDM產品的廠商之一,目前也是全球CDM技術的領導者,該公司產品性能比較厲害,但價格也是非常高的,目前在國內沒聽過有什麼案例,在國內貌似也沒有技術團隊,對項目進行有效支撐是個問題。

❾ 企業數據上雲必有一戰,華為雲12.12雲資料庫2折起

每年的Gartner全球資料庫魔力象限都會對未來三年的市場進行預測,而2020年的預測相比於2019年的預測出現一個顯著的變化,那就是全球75%資料庫將被部署或遷移到雲平台的時間表提前了一年——從2023年提前到了2022年。進入2020年底,我們將迎來資料庫行業的世紀之戰,企業數據上雲與治理面臨著重大抉擇:本地資料庫與雲資料庫的PK。特別是受2020全球疫情的影響,越來越多的企業正加速數字化轉型,雲資料庫以及雲上數據治理的時代將很快到來。

2020年12月12日雙十二之際,華為雲打出了雲資料庫2折起的大幅折扣,包括:MySQL等熱門雲資料庫 2折起、遷移上雲再加送6個月;GaussDB系列、數據管理服務DAS企業版等熱銷產品低至5折;數據加速與治理產品中也有Redis 4折的驚喜優惠。2020年又是華為雲推出全場景資料庫雲服務GaussDB的第一年,而在2020年底打出雲資料庫2折起的大力度促銷,彰顯了華為雲開打2021企業數據上雲之戰的決心。

2020年的一場疫情,讓很多企業都將數字化轉型提速,特別是讓本來需要幾年才能下的數字化轉型決心和決定縮短到幾個月;而新基建的推出,更刺激了基於數字技術的融合基礎設施的大規模建設。無論是加速的數字化轉型、急於上線的各種在線和互聯網業務,還是籌建中的融合基礎設施新基建,都為CIO們帶來了頭痛的問題:資料庫的選型。

那麼CIO怎麼解決雲資料庫的選型難題呢?華為雲資料庫業務總裁蘇光牛認為,CIO選型資料庫,最常見的其實沒有變化,就是穩定性和性能,以及雲技術出現之後的擴展性和灰度等能力。但對於很多企業,特別是有 歷史 遺留系統的,都涉及一個古老但無法迴避的問題就是:生態。也就是如果招聘的DBA多是搞PostgreSQL,那麼企業怎麼能選擇MySQL?反之亦然。或者當熟悉某個資料庫的DBA幹了幾十年,又怎麼轉向另外一種資料庫?

轉型是必然的。數字化智能化升級,必然要求資料庫跟上,蘇光牛認為生態必須是開放的,否則就從一個火坑跳入另外一個火坑。選型之後,CIO都普遍擔心,遷移的工作量有多大?CIO都需要有能自動化轉換或者評估的工具,能把非確定的工作量轉化為確定性的計劃。然後就需要考慮遷移是否會中斷或者中斷多久,業務切換需要多久,對於在線遷移來說還要可控制的切換時間;隨之,要考慮數據是否會丟失,因為從一個系統遷移到另一個系統,不可能100%覆蓋所有的功能測試,沒有覆蓋到數據是否就丟失了,當然還要考慮數據安全等問題。

最後,必然要考慮成本以及讓數據「活」起來。蘇光牛認為,控製成本的最好方式是存儲的融合,計算和存儲分離的架構;而讓數據活起來,就是要讓存儲的數據在不同系統之間流動起來,通過大的存儲資源池解決數據孤島問題,當然更好的數據遷移工具也能配合解決問題。

2020年11月,在Gartner發布的2020全球雲資料庫魔力象限中,華為雲憑借GaussDB系列產品首次晉級全球頂級雲資料庫行列。Gartner對華為雲的評價是:華為雲專注於提供全面的混合堆棧,構建了全面、穩健的產品組合,能夠滿足跨雲和本地環境的全方位數據管理用例,其許多產品與雲基礎架構緊密集成,以提供增強的性能和可靠性。Gartner還認為,華為在全球電信和網路行業有很強的影響力,很多為管理華為全球行業業務而構建的數據管理能力,面向政企行業普遍可用。

2020年下半年,華為雲宣布GaussDB資料庫戰略升級為華為雲資料庫全場景服務,以及發布GaussDB雲資料庫服務GaussDB(for MySQL)、GaussDB(openGauss)以及GaussDB NoSQL,而GaussDB NoSQL非關系型資料庫則支持MongoDB、Cassandra、時序InfluxDB、KV資料庫Redis等,具有多模式數據管理能力。

就GaussDB來說,通過計算和存儲分離實現分布式處理,在一套架構下,可以對接MySQL、PostgreSQL、MongoDB、Cassandra等多種開源資料庫引擎,實現這些開源資料庫的良好商用性能。GaussDB以華為雲為底座,保證了良好可擴展性、彈性、安全可靠等性能要求,特別是通過底層統一的智能化DFV分布式存儲架構,滿足企業上雲對於雲資料庫的各種需求。

在數據遷移方面,華為雲推出的資料庫和應用遷移 UGO,是一款專注於異構資料庫對象遷移和應用遷移的專業化工具,而華為雲數據復制服務DRS,支持更大數據量、更長時間等多種復雜遷移場景,支持資料庫上雲和雲上業務數據實時回傳至雲外的混合雲架構。UGO+DRS形成了完整的遷移產品形態。

GaussDB是為政企打造的資料庫一站式上雲解決方案,提供全場景數據管理業務、全開放生態和安全可信,徹底解決政企以及互聯網行業在資料庫選型方面的痛點,真正做到資料庫選型安心、遷移放心、管理省心。

蘇光牛表示:「華為將持續戰略投入資料庫,布局全球7大區域囊括1000+資料庫專家與人才。此次戰略升級是華為雲資料庫積極構建高安全、高可靠、高性能的全場景雲服務,擁抱開源生態的具體舉措,華為雲GaussDB資料庫會持續打造多元生態服務,全方位滿足客戶的需求,加速政企客戶數字化創新發展。」

正如Gartner所觀察到的,如今華為雲資料庫業務在亞太地區,尤其是中國市場實現規模化部署,其中超過一半的客戶來自公共管理、電信、金融保險等行業。華為雲資料庫,特別是GaussDB能夠被廣大政企用戶認可,這首先來自於經歷了華為內部的千錘百煉。從2007年開始,就因為華為的無線、網路、交換機等產品而發展起來了GaussDB,從2009年開始基於存算分離的架構而考慮分布式資料庫的設計,2015年起基於廣泛認知的生態如MySQL或者PostgreSQL等以及NoSQL資料庫,逐步推出了分布式的資料庫,同時還打造華為自己的openGauss生態。

2020年,華為雲資料庫品牌更加清晰,GaussDB是華為自有資料庫品牌,既兼容MySQL、PostgreSQL等廣泛認知的生態,又有自有的生態openGauss,openGauss於2020年6月正式對外開源。蘇光牛強調,華為公司將長期投入GaussDB的開發,基於混合雲和公有雲的方式,聯合ISV等夥伴一起,全方位服務好客戶。

總結下來,GaussDB有四大特色:第一,開放的生態,擁抱開源生態的同時,打造華為自有生態。華為雲認為未來一定是開放的生態,開放的生態才能保護客戶投資,避免從一個封閉體系走向另外一個封閉體系。

第二,存算分離的架構,資料庫的穩定性是第一位的,特別是交易型資料庫,華為雲資料庫最核心的特色是存儲的穩定性。華為雲GaussDB基於與企業存儲相同的分布式存儲架構,經過千行百業的磨煉而不僅僅是單一的某種交易流量,另外各種存儲能力如重刪、壓縮、跨AZ等特性讓快速備份恢復、性價比都具備非常好的優勢。

第三,安全合規,GaussDB經過了ICSL的安全認證,以及很多白盒的代碼層面的認證。特別是隨著歐洲GDPR等標準的實施,以及政企對數據安全性要求的增加,華為雲GaussDB的代碼級、架構級別安全設計,以及多年來在電信級高標准行業的錘煉,經歷了很多實際客戶的嚴苛考驗,讓政企在使用資料庫的時候更加放心。

第四,軟硬體全棧協同。華為雲具備軟硬體全棧研發的實力,無論存儲底座和RDMA高速網路,還是虛擬化和容器之上的性能調優,以及GuestOS上的協議棧優化,特別是基於雲技術之後的全棧優化和雲服務能力,更加是華為雲的優勢。

當然,更為重要的是,雲資料庫採用雲的模式實現了資料庫運維管理的集中化,極大簡化了資料庫的安裝、部署、配置、遷移和優化,大幅提升運維管理效率,讓政企可以投入更多精力聚焦在核心業務創新上。

總結而言: 企業數據上雲和雲上數據治理將成為2021年政企數字化轉型的重中之重,各大技術廠商都在爭奪雲資料庫市場份額。以華為雲全場景資料庫GaussDB為代表的新一代雲資料庫,將滿足政企數字化轉型的全面需求。特別是以華為雲和華為雲Stack為底座,GaussDB可以跨公有雲以及企業本地部署,其技術符合雲及企業本地的要求,同時具有華為雲的高性能、高可用、高安全等保證,可以說政企數字化轉型的全場景保障!(文/寧川)

❿ 滴普科技:為什麼越來越多的企業會選擇「湖倉一體」

資料庫行業正走向分水嶺。

過去幾年,全球資料庫行業發展迅猛。2020年,Gartner首次把資料庫領域的魔力象限重新定義為Cloud DBMS,把雲資料庫作為唯一的評價方向;2021年,Gartner魔力象限又發生了兩個關鍵的變化: 1、Snowflake和Databricks兩個雲端數據倉庫進入領導者象限;2、放開了魔力象限的收入門檻限制,SingleStore、Exasol、MariaDB、Couchbase等資料庫新勢力首次進入榜單

某種程度上,這種變化的背後,暗示著全球資料庫已經進入發展的黃金時代,也是一眾新興勢力的加速崛起之年。其中,最為典型的例子是Snowflake和Databricks經常隔空喊話,前者是雲端數倉的代表玩家,去年繼續保持了1倍以上的業務增長;後者因推出「湖倉一體」,估值一路飆升至360億美金,兩者之爭,其實是資料庫新舊架構之爭。

隨著企業數字化駛入深水區,對於數據使用場景也呈現多元化的趨勢,過去容易被企業忽略的數據,開始從幕後走到台前,如何為眾多場景選擇一款合適的資料庫產品,已經成了很多CIO和管理者的一道必答題。 但有一點可以確定的是,過去的資料庫已難以匹配眼下日益增長的數據復雜度需求,基於擴展性和可用性劃分,分布式架構突破單機、共享、集群架構下的資料庫局限,近些年發展態勢迅猛。 為此,這篇文章我們將主要分析:

1、數據倉、數據湖、湖倉一體究竟是什麼?

2、架構演進,為什麼說湖倉一體代表了未來?

3、現在是布局湖倉一體的好時機嗎?

01:數據湖+數據倉 湖倉一體

在湖倉一體出現之前,數據倉庫和數據湖是被人們討論最多的話題。

正式切入主題前,先跟大家科普一個概念,即大數據的工作流程是怎樣的?這里就要涉及到兩個相對陌生的名詞: 數據的結構化程度 數據的信息密度 。前者描述的是數據本身的規范性,後者描述的是單位存儲體積內、包含信息量的大小。

一般來說,人們獲取到的原始數據大多是非結構化的,且信息密度比較低,通過對數據進行清洗、分析、挖掘等操作,可以排除無用數據、找到數據中的關聯性,在這個過程中,數據的結構化程度、信息密度也隨之提升,最後一步,就是把優化過後的數據加以利用,變成真正的生產資料。

簡而言之,大數據處理的過程其實是一個提升數據結構化程度和信息密度的過程。 在這個過程中,數據的特徵一直在發生變化,不同的數據,適合的存儲介質也有所不同,所以才有了一度火熱的數據倉庫和數據湖之爭。

我們先來聊聊數據倉庫,它誕生於1990年,是一個面向主題的、集成的、相對穩定的、反映 歷史 變化的數據集合,主要用於支持管理決策和信息的全局共享。 簡單點說,數據倉庫就像是一個大型圖書館,裡面的數據需要按照規范放好,你可以按照類別找到想要的信息

就目前來說,對數據倉庫的主流定義是位於多個資料庫上的大容量存儲庫,它的作用在於存儲大量的結構化數據,為管理分析和業務決策提供統一的數據支持,雖然存取過程相對比較繁瑣,對於數據類型有一定限制,但在那個年代,數據倉庫的功能性已經夠用了,所以在2011年前後,市場還是數據倉庫的天下。

到了互聯網時代,數據量呈現「井噴式」爆發,數據類型也變得異構化。受數據規模和數據類型的限制,傳統數據倉庫無法支撐起互聯網時代的商業智能,隨著Hadoop與對象存儲的技術成熟,數據湖的概念應用而生,在2011年由James Dixon提出。

相比於數據倉庫,數據湖是一種不斷演進中、可擴展的大數據存儲、處理、分析的基礎設施。 它就像一個大型倉庫,可以存儲任何形式(包括結構化和非結構化)和任何格式(包括文本、音頻、視頻和圖像)的原始數據,數據湖通常更大,存儲成本也更為廉價 。但它的問題也很明顯,數據湖缺乏結構性,一旦沒有被治理好,就會變成數據沼澤。

從產品形態上來說,數據倉庫一般是獨立標准化產品,數據湖更像是一種架構指導,需要配合著系列周邊工具,來實現業務需要。換句話說,數據湖的靈活性,對於前期開發和前期部署是友好的;數據倉庫的規范性,對於大數據後期運行和公司長期發展是友好的,那麼,有沒有那麼一種可能,有沒有一種新架構,能兼具數據倉庫和數據湖的優點呢?

於是,湖倉一體誕生了。 依據DataBricks公司對Lakehouse 的定義,湖倉一體是一種結合了數據湖和數據倉庫優勢的新範式,在用於數據湖的低成本存儲上,實現與數據倉庫中類似的數據結構和數據管理功能。湖倉一體是一種更開放的新型架構,有人把它做了一個比喻,就類似於在湖邊搭建了很多小房子,有的負責數據分析,有的運轉機器學習,有的來檢索音視頻等,至於那些數據源流,都可以從數據湖裡輕松獲取。

就湖倉一體發展軌跡來看,早期的湖倉一體,更多是一種處理思想,處理上將數據湖和數據倉庫互相打通,現在的湖倉一體,雖然仍處於發展的初期階段,但它已經不只是一個純粹的技術概念,而是被賦予了更多與廠商產品層面相關的含義和價值。

這里需要注意的是,「湖倉一體」並不等同於「數據湖」+「數據倉」,這是一個極大的誤區,現在很多公司經常會同時搭建數倉、數據湖兩種存儲架構,一個大的數倉拖著多個小的數據湖,這並不意味著這家公司擁有了湖倉一體的能力,湖倉一體絕不等同於數據湖和數據倉簡單打通,反而數據在這兩種存儲中會有極大冗餘度。

02:為什麼說湖倉一體是未來?

回歸開篇的核心問題:湖倉一體憑什麼能代表未來?

關於這個問題,我們其實可以換一個問法,即 在數據智能時代,湖倉一體會不會成為企業構建大數據棧的必選項? 就技術維度和應用趨勢來看,這個問題的答案幾乎是肯定的,對於高速增長的企業來說,選擇湖倉一體架構來替代傳統的獨立倉和獨立湖,已經成為不可逆轉的趨勢。

一個具有說服力的例證是,現階段,國內外各大雲廠商均陸續推出了自己的「湖倉一體」技術方案,比如亞馬遜雲 科技 的Redshift Spectrum、微軟的Azure Databricks、華為雲的Fusion Insight、滴普 科技 的FastData等,這些玩家有雲計算的老牌龍頭,也有數據智能領域的新勢力。

事實上,架構的演進是由業務直接驅動的,如果業務側提出了更高的性能要求,那麼在大數據架構建設的過程中,就需要資料庫架構建設上進行技術升級。 以國內數字化企業服務領域成長最快的獨角獸滴普 科技 為例,依託新一代湖倉一體、流批一體的數據分析基礎平台FastData,基於對先進製造、生物醫葯、消費流通等行業的深度洞察,滴普 科技 從實際場景切入,為客戶提供了一站式的數字化解決方案。

滴普方面認為,「 在數據分析領域,湖倉一體是未來。它 可以更好地應對AI時代數據分析的需求,在存儲形態、計算引擎、數據處理和分析、開放性以及面向AI的演進等方面,要領先於過去的分析型資料庫。」以AI應用層面為例,湖倉一體架構天然適合AI類的分析(包括音視頻非結構化數據存儲,兼容AI計算框架,具有模型開發和機器學習全生命周期的平台化能力),也更適合大規模機器學習時代。

這一點,和趨勢不謀而合。

就在前不久,Gartner發布了湖倉一體的未來應用場景預測:湖倉一體架構需要支持三類實時場景,第一類是實時持續智能;第二類是實時按需智能;第三類是離線按需智能,這三類場景將可以通過快照視圖、實時視圖以及實時批視圖提供給數據消費者,這同樣是未來湖倉一體架構需要持續演進的方向。

03:現在是布局湖倉一體的好時機嗎?

從市場發展走向來看,「湖倉一體」架構是基於技術發展進程的必經之路。

但由於這個新型開放架構仍處於發展早期,國內外企業數字化水平和市場認知的不同,造成了解決方案也存在著較大的差異。在業內投資人看來,「 雖然美國的企業服務市場比我們成熟的多,也有很多路徑可以參考,但中國市場卻有著很多中國特色。以對標Databricks的滴普 科技 為例,美國企業服務市場往往賣產品就可以了,但中國大客戶群體需要更與客戶資深場景深度融合的解決方案,解決方案需要兼顧通用性和定製化。

在此前與滴普 科技 的合作中,百麗國際就已經完成了統一數倉的搭建,實現了多個業務線的數據採集和各個業務域的數據建設。在保證前端數據正常運行、「熱切換」底層應用的前提下,滴普 科技 和百麗國際緊密協作,在短短幾個月時間里將多個數倉整合為統一數倉,有效統一了業務口徑,大幅縮減了開發運維工作量,整個業務價值鏈也形成了閉環。

這也是「湖倉一體」的能力價值所在:隨著數據結構的逐漸多樣性,3D圖紙、直播視頻、會議視頻、音頻等數據資料越來越多,為深度挖掘數據價值,依託於領先的湖倉一體技術架構,百麗國際可先將海量的多模數據存儲入湖,在未來算力允許時,及挖掘深度的業務分析場景後,從數據湖中抓取數據分析。

舉個簡單的例子,某個設計師想要設計一款鞋子,一般會從 歷史 數據中找有效信息參考,設計師也許只需要一張貨品照片,就能像瀏覽電影般,了解到該商品多年來全生命周期的銷售業績、品牌故事、競品分析等數據,賦能生產及業務決策,實現數據價值的最大化。

一般來說,大體量的企業想要保持持續增長,往往需要依靠大量、有效的數據輸出,進而實現智慧決策。很多企業出於 IT 建設能力的限制,導致很多事情沒法做,但通過湖倉一體架構,讓之前被限制的數據價值得以充分發揮,如果企業能夠在注重數據價值的同時,並有意識地把它保存下來,企業就完成了數字化轉型的重要命題之一。

我們也有理由相信,隨著企業數字化轉型加速,湖倉一體架構也會有更為廣闊的發展空間。