gartner数据库_数据库的发展趋势和发展前景

❶ 数据库的发展趋势和发展前景

数据挖掘、海量存储、数据仓库、智能商务运算、高性能并发管理与控制

主流产品的发展现状

数据库管理系统经历了30多年的发展演变，已经取得了辉煌的成就，发展成了一门内容丰富的学科，形成了总量达数百亿美元的一个软件产业。根据Gartner Dataquest公司的调查，2000年国际数据库市场销售总额达88亿美元，比1999年增长10%。根据CCID的报告，2000年的中国数据库管理系统市场销售总额达24.8亿元，比1999年增长了41.7%，占软件市场总销售额的10.8%。可见，数据库已经发展成为一个规模巨大、增长迅速的市场。

目前，市场上具有代表性的数据库产品包括Oracle公司的Oracle、IBM公司的DB2以及微软的sql Server等。在一定意义上，这些产品的特征反映了当前数据库产业界的最高水平和发展趋势。因此，分析这些主流产品的发展现状，是我们了解数据库技术发展的一个重要方面。

关系数据库技术仍然是主流

关系数据库技术出现在20世纪70年代、经过80年代的发展到90年代已经比较成熟，在90年代初期曾一度受到面向对象数据库的巨大挑战，但是市场最后还是选择了关系数据库。无论是Oracle公司的Oracle 9i、IBM公司的DB2、还是微软的SQL Server等都是关系型数据库。Gartner Dataquest的报告显示关系数据库管理系统(RDBMS)的市场份额最大， 2000年RDBMS的市场份额占整个数据库市场的80%，这个比例比1999年增长了15%。这组数据充分说明RDBMS仍然是当今最为流行的数据库软件。当前，由于互联网应用的兴起，XML格式的数据的大量出现，学术界有一部分学者认为下一代数据库将是支持XML模型的新型的数据库。作者对此持否定态度，认为关系技术仍然是主流，无论是多媒体内容管理、XML数据支持、还是复杂对象支持等都将是在关系系统内核技术基础上的扩展。

产品形成系列化

一方面，Web和数据仓库等应用的兴起，数据的绝对量在以惊人的速度迅速膨胀；另一方面，移动和嵌入式应用快速增长。针对市场的不同需求，数据库正在朝系列化方向发展。例如IBM公司的DB2通用数据库产品包括了从高端的企业级并行数据库服务器，到移动端产品DB2 Everywhere的一整套系列。从支持平台看，今天的DB2已经不再是大型机上的专有产品，它支持目前主流的各种平台，包括Linux和Windows NT。此外，它还有各种中间件产品，如DB2 Connect、DB2 Datajointer、DB2 Replication等，构成了一个庞大的数据库家族。

支持各种互联网应用

数据库管理系统是网络经济的重要基础设施之一。支持Internet（甚至于Mobile Internet）数据库应用已经成为数据库系统的重要方面。例如，Oracle公司从8版起全面支持互联网应用，是互联网数据库的代表。微软公司更是将SQL Server作为其整个.NET计划中的一个重要的成分。对于互联网应用，由于用户数量是无法事先预测的，这就要求数据库相比以前拥有能处理更大量的数据以及为更多的用户提供服务的能力，也就是要拥有良好的可伸缩性及高可用性。此外，互联网提供大量以XML格式数据为特征的半结构化数据，支持这种类型的数据的存储、共享、管理、检索等也是各数据库厂商的发展方向。

向智能化集成化方向扩展

数据库技术的广泛使用为企业和组织收集并积累了大量的数据。数据丰富知识贫乏的现实直接导致了联机分析处理（OLAP）、数据仓库（Data Warehousing）和数据挖掘(Data Mining)等技术的出现，促使数据库向智能化方向发展。同时企业应用越来越复杂，会涉及到应用服务器、Web服务器、其它数据库、旧系统中的应用以及第三方软件等，数据库产品与这些软件是否具有良好集成性往往关系到整个系统的性能。Oracle公司的Oracle 9i 产品包括了OLAP、数据挖掘、ETL工具等一套完整的BI（商业智能）支持平台，中间件产品与其核心数据库具有紧密集成的特性，Oracle Application Server 增加的一项关键功能是高速缓存特性，该特性可以将数据从数据库卸载到应用服务器，加速 Web用户对数据的访问速度。IBM 公司也把BI套件作为其数据库的一个重点来发展。微软认为商务智能将是其下一代主要的利润点。

数据库技术的发展趋势

数据、计算机硬件和数据库应用，这三者推动着数据库技术与系统的发展。数据库要管理的数据的复杂度和数据量都在迅速增长；计算机硬件平台的发展仍然实践着摩尔定律；数据库应用迅速向深度、广度扩展。尤其是互联网的出现，极大地改变了数据库的应用环境，向数据库领域提出了前所未有的技术挑战。这些因素的变化推动着数据库技术的进步,出现了一批新的数据库技术，如Web数据库技术、并行数据库技术、数据仓库与联机分析技术、数据挖掘与商务智能技术、内容管理技术、海量数据管理技术等。限于篇幅，本文不可能逐一去展开来阐述这些方面的变化，只是从这些变化中归纳出数据库技术发展呈现出的突出特点。

“四高” 即DBMS具有高可靠性、高性能、高可伸缩性和高安全性。数据库是企业信息系统的核心和基础，其可靠性和性能是企业领导人非常关心的问题。因为，一旦宕机会给企业造成巨大的经济损失，甚至会引起法律的纠纷。最典型的例子就是证券交易系统，如果在一个行情来临的时候，由于交易量的猛增，造成数据库系统的处理能力不足，导致数据库系统崩溃，将会给证券公司和股民造成巨大的损失。在我国计算机应用的早期，由于计算机系统还不是企业运营必要的成分，人们对数据库的重要性认识不足，而且为了经费上的节约常常采用一些低层次的数据管理软件，如dBASE等，或者盗版的软件。但是，随着信息化进程的深化，计算机系统越来越成为企业运营的不可缺少的部分，这时，数据库系统的稳定和高效是必要的条件。在互联网环境下还要考虑支持几千或上万个用户同时存取和7x24小时不间断运行的要求，提供联机数据备份、容错、容灾以及信息安全措施等。

事实上，数据库系统的稳定和高效也是技术上长久不衰的追求。此外，从企业信息系统发展的角度上看，一个系统的可扩展能力也是非常重要的。由于业务的扩大，原来的系统规模和能力已经不再适应新的要求的时候，不是重新更换更高档次的机器，而是在原有的基础上增加新的设备，如处理器、存储器等，从而达到分散负载的目的。数据的安全性是另一个重要的课题，普通的基于授权的机制已经不能满足许多应用的要求，新的基于角色的授权机制以及一些安全功能要素，如存储隐通道分析、标记、加密、推理控制等，在一些应用中成为切切实实的需要。

“互联” 指数据库系统要支持互联网环境下的应用, 要支持信息系统间“互联互访”，要实现不同数据库间的数据交换和共享，要处理以XML类型的数据为代表的网上数据，甚至要考虑无线通讯发展带来的革命性的变化。与传统的数据库相比，互联网环境下的数据库系统要具备处理更大量的数据以及为更多的用户提供服务的能力，要提供对长事务的有效支持，要提供对XML类型数据的快速存取的有效支持。

“协同” 面向行业应用领域要求，在DBMS核心基础上，开发丰富的数据库套件及应用构件，通过与制造业信息化、电子政务等领域应用套件捆绑，形成以DBMS为核心的面向行业的应用软件产品家族。满足应用需求，协同发展数据库套件与应用构件，已成为当今数据库技术与产品发展的新趋势。规划中的Oracle 11i的主要扩展方面据称主要也是各种面向应用套件的支持。

❷ 五大数据库理念，读懂亚马逊云科技的数据库布局

1970 年，关系型数据库之父 E.F.Codd 发表《用于大型共享数据库的关系数据模型》论文，正式拉开数据库技术发展序幕。以 Oracle、DB2、SQL Server 为代表的三大商业数据库产品独占鳌头，随后涌现出 MySQL、PostgreSQL 等为代表的开源数据库，和以 Amazon RDS 等为代表的云数据库，拉开百花齐放的数据库新序幕。

我们知道，云计算十年为产业转型升级提供了历史性契机，但变革仍在进行，随着云计算的普及，数据库市场发生根本性改变，云厂商打破传统商业数据库的堡垒，成为数据库领域全新力量。其中以连续六年入选 Gartner 领导者象限的亚马逊云科技为代表，我们一起探讨：为什么亚马逊云科技能始终保持其创新性？纵观云原生时代下，亚马逊云科技数据库未来还有哪些更多的可能性？

01 面对四大数据库发展趋势，亚马逊云科技打造五大数据库理念

后疫情时代下，加速了不少行业的业务在线化和数字化运营，企业对数据价值挖掘的需求越发强烈，亚马逊云科技大中华区产品部总经理顾凡详细介绍其中四大趋势：

一是伴随互联网、移动互联网的发展，电商、视频、社交、出行等新应用场景的兴起，不仅数据量大，对数据实时性要求极高，传统关系型数据库无法满足需求，因此驱动云原生数据库的出现。

二是开源数据库的广泛应用。

三是应用程序现代化对数据库提出更高要求，期待数据库拥有更高的性能、可扩展性、可用性以及降低成本，让开发人员专注于核心业务的应用开发，不用关注和核心业务无关的代码。

四是软件架构历经 PC、互联网、移动互联网，再到如今的万物互联时代，其中的迭代和转型正在驱动数据库选型的变化。

在此四大趋势下，伴随企业的业务量越来越大、越来越复杂，对数据库的要求越来越高。亚马逊云科技洞察客户需求，在打造云上数据库产品时提出五大理念：

一是专库专用，极致性能；二是无服务器，敏捷创新；第三是全球架构，一键部署；第四是平滑迁移，加速上云；第五是 AI 赋能，深度集成。

02 历经真实锤炼，五大数据库理念，持续赋能企业数智转型

顾凡表示，随着数据爆炸式增长，微服务架构与 DevOps 愈发流行的今天，一个数据库打天下的时代已然过去。我们需要在不同的应用场景下，针对不同的数据类型和不同的数据访问特点，为开发者和企业提供专门构建的工具。

所以亚马逊云科技提出 第一个核心数据库理念：专库专用 。在此理念下，推出针对关系数据、键值数据、文档数据、内存数据、图数据、时许数据、分类账数据、宽列等专门构建数据库的产品家族。

这些数据库产品均经历过亚马逊内部核心业务的真实锤炼，成绩斐然：

亚马逊电商当年是 Oracle 的客户之一，随着亚马逊电商的应用重构和业务体量发展，亚马逊电商决定将业务迁移到亚马逊云科技里。100 多个团队参与这庞大的迁移工作中，将亚马逊电商采购、目录管理、订单执行、广告、财务系统、钱包、视频流等关键系统全部从 Oracle 迁出来。2019 年，亚马逊将存储近 7500 个Oracle 数据库中的 75 PB 内部数据迁移到多项亚马逊云科技的数据库服务中，包括 Amazon DynamoDB、Amazon Aurora、Amazon ElastiCache，于是亚马逊电商成为亚马逊云科技在全球的“第一大客户”。

从 Oracle 切换到亚马逊云科技后，亚马逊电商节省了 60% 成本，面向消费者端的应用程序延迟降低 40%，数据库管理支出减少 70%。

以被誉为“亚马逊云科技历史上用户数量增速最快的云服务”Amazon Aurora 为例，其拥有科媲美高端商业数据库的速度和可用性，还拥有开源数据库的简单性与成本效益，Amazon Aurora 让客户满足“鱼和熊掌兼得”需求。

据顾凡介绍，Amazon Aurora 可提供 5 倍于标准 MySQL 性能，3 倍于 PostgreSQL 吞吐量。同时提供高可用，可用区（AZ）+1的高可用，Global Databases 可完成跨区域灾备。可扩展到 15 个只读副本，成本只有商业数据库的 1/10。

医药企业九州通为药厂、供应商，搭建药厂、供应商、消费者提供供应链链条。其 B2B 系统的业务特点是读多写少，受促销活动、工作时间等影响，经常会出现波峰波谷落差较大的情况，读写比例在 7：2 或者 8：3。九州通采用 Amazon Aurora 后实现读写分离和按需扩展，整体数据库性能提升 5 倍，TCO 降低 50%。实现了跨可用区部署、负载均衡、自动故障转移、精细监控、按需自动伸缩等。

据权威机构预测，到 2022 年，75% 数据库将被部署或迁移至云平台。在这个过程中，亚马逊云科技是如何通过技术来帮助客户加速应用上云的？这离不开除了上述的“专库专用”外，以下四大理念：

第二个理念是无服务器、敏捷创新。 亚马逊云科技大中华区产品部数据类产品高级经理王晓野表示，企业业务总有波峰波谷之时，如何按照企业 80-90% 的业务峰值来规划数据库的存储容量和计算资源的话，将给应用带来一定的业务连续性的妥协和挑战。因此大多数企业都是按照峰值留有余地来选择数据库的计算资源，这将造成成本上的浪费。而 Serverless 数据库服务可完成无差别的繁复工作和自动化扩展。

Amazon DynamoDB 是亚马逊云科技自研 Serverless 数据库，其诞生最早可追溯到 2004 年，当时亚马逊电商作为 Oracle 的客户，尽管对于关系型数据库在零售场景的需求并不频繁，70% 均是键值类操作，此时倒逼亚马逊电商思考：为什么要把关系型数据库这么重得使用？我们可以设计一款支持读写、可横向扩展的分布式数据库吗？后来的故事大家都知道了，这款数据库就是 Amazon DynamoDB，并在 2007 年发表论文，掀起业界 NoSQL 分布式数据库技术创新大潮。

Amazon DynamoDB 可为大规模应用提供支持，支撑亚马逊自身多个高流量网站和系统，如亚马逊电商网站、亚马逊全球 442 个物流中心等。在亚马逊电商一年一度 Prime Day，光是针对DynamoDB API 的调用达到数万亿次，最高峰值请求达到每秒 8920 万次。由此可见，DynamoDB 拥有高吞吐、扩展性、一致性、可预测响应延迟、高可用等优势。

智能可穿戴设备厂商华米科技，在全球 70 多个国家拥有近 1 亿用户。仅 2020 年上半年，其手表出货量超 174 万台，截止到 2021 年 2 月，华米科技的可穿戴设备累计记录步数是 151 万步，累计记录的睡眠时间是 128 亿个夜晚，记录心率总时长达 1208 亿个小时。如此庞大的数据同时必须保证极高的安全性和低延迟相应，如何保证稳定性是巨大的挑战。

DynamoDB 帮助华米科技在任何规模下都能提供延迟不超过 10 毫秒的一致响应时间。华米科技健康云的 P0 和 P1 级别故障减少了约 30%，总体服务可用性提升了 0.25%，系统可用性指标达到 99.99%，为华为科技全球化扩展提供了有力的支撑。

最新无服务数据库产品是 Amazon Aurora Serverless V2 提供瞬间扩展能力，真正把扩展能力发挥到极致，在不到一秒的时间内，将几百个事务扩展到数十万的级别。同时在扩展时每一次调整的增量都是非常精细化的去管理，如果按照峰值来规划数据库资源，可实现大概90%的成本节省。目前 Amazon Aurora Serverless V2 在全球实现预览。

第三个理念是全球架构、一键部署。 在全球化的今天，如何支撑全球客户的业务扩展连续性、一致性、以最低延迟带给到终端客户上，对数据库提出新的挑战。

亚马逊云科技提供 Amazon Aurora 关系型数据库Global Database、Amazon DynamoDB、Amazon ElastiCache 内存数据库、Amazon DocumentDB 文档数据库都能利用亚马逊云科技的骨干网络提供比互联网更稳定的网络支撑，以一键部署的方式，帮助客户实现几千公里跨区域数据库灾备，故障恢复大概能在一分钟之内完成，同时跨区域的数据复制延迟通常小于一秒。

第四个理念是平滑迁移、加速上云。 目前，450000+ 数据库通过亚马逊云科技数据库迁移服务迁移到亚马逊云科技中，这个数字每年都在不断增长。亚马逊云科技提供 Amazon DMS、Amazon Database Migration Service 等工具让开发者和企业进行自助式云迁移。另外，对于迁移过程中可能会需要的支持，可通过专业服务团队和合作伙伴网络成员，为客户提供专业支持，还通过 Database Freedom 项目帮助客户降低他们的顾虑。

今年 11 月，最新产品 Babelfish for Amazon Aurora PostgreSQL 在全球和中国两个区域正式可用，可加速企业上云的迁移，实现让企业可以利用原有的技术栈、原有的 SQL Server T-SQL的人员可以利用到云数据库进行创新。

第五个理念是 AI赋能，深度集成。 我们观察到，ML 技术赋能数据库开发者，开发者无需具备机器学习专业知识，就可进行机器学习操作。在此潮流下，亚马逊云科技推出 Amazon Neptune，借由 Deep Graph Library 和 Amazon SageMaker 驱动图神经网络。

今年 8 月，Neptune ML 在中国正式可用，允许数据工程师不需要掌握机器学习的技能直接从图数据库里导出数据、转换格式、训练模型并发布，用 gremlin 语句调用训练成的模型在数据库里实现推理，进行欺诈检测，推荐物品。

目前，亚马逊云科技加速在中国区域服务落地，2021年至今新发布 60 多个数据库服务与功能。亚马逊云科技正是通过上述五大数据库理念，打造丰富的数据库产品家族，在全球智能化发展趋势下，为企业提供更快更好的数智服务，释放数据价值，并连续六年入选 Gartner 领导者象限，得到业界和客户的深度认可。

❸ 安华金和凭借什么技术入围Gartner的呢

貌似之前安华金和就已经入围Gartner,凭借的技术还真不了解，不过我知道2020年是凭借DAP（数据库审计与保护）相关技术能力，入选Gartner“数据安全、数据管理、隐私保护”三个领域的技术成熟度曲线研究报告，而且是该领域第一家中国数据安全企业，与IBM、Imperva、Datiphy、McAfee、Oracle、Trustwave等国际知名厂商一并进行推荐。真的是不错，为此感到骄傲。

❹ 2019数据架构选型必读：1月数据库产品技术解析

本期目录

DB-Engines数据库排行榜

新闻快讯

一、RDBMS家族

二、NoSQL家族

三、NewSQL家族

四、时间序列

五、大数据生态圈

六、国产数据库概览

七、云数据库

八、推出dbaplus Newsletter的想法

九、感谢名单

为方便阅读、重点呈现，本期Newsletter（2019年1月）将对各个板块的内容进行精简。需要阅读全文的同学可点击文末 【阅读原文】 或登录https://pan..com/s/13BgipbaHeMfvm0YPtiYviA

进行下载。

DB-Engines数据库排行榜

以下取自2019年1月的数据，具体信息可以参考http://db-engines.com/en/ranking/，数据仅供参考。

DB-Engines排名的数据依据5个不同的因素：

新闻快讯

1、2018年9月24日，微软公布了SQL Server2019预览版，SQL Server 2019将结合Spark创建统一数据平台。

2、2018年10月5日，ElasticSearch在美国纽约证券交易所上市。

3、亚马逊放弃甲骨文数据库软件，导致最大仓库之一在黄金时段宕机。受此消息影响，亚马逊盘前股价小幅跳水，跌超2%。

4、2018年10月31日，Percona发布了Percona Server 8.0 RC版本，发布对MongoDB 4.0的支持，发布对XtraBackup测试第二个版本。

5、2018年10月31日，Gartner陆续发布了2018年的数据库系列报告，包括《数据库魔力象限》、《数据库核心能力》以及《数据库推荐报告》。

今年的总上榜数据库产品达到了5家，分别来自：阿里云，华为，巨杉数据库，腾讯云，星环科技。其中阿里云和巨杉数据库已经连续两年入选。

6、2018年11月初，Neo4j宣布完成E轮8000万美元融资。11月15日，Neo4j宣布企业版彻底闭源：

7、2019年1月8日，阿里巴巴以1.033亿美元（9000万欧元）的价格收购了Apache Flink商业公司DataArtisans。

8、2019年1月11日早间消息，亚马逊宣布推出云数据库软件，亚马逊和MongoDB将会直接竞争。

RDBMS家族

Oracle 发布18.3版本

2018年7月，Oracle Database 18.3通用版开始提供下载。我们可以将Oracle Database 18c视为采用之前发布模式的Oracle Database 12c第2版的第一个补丁集。未来，客户将不再需要等待多年才能用上最新版Oracle数据库，而是每年都可以期待新数据库特性和增强。Database 19c将于2019年Q1率先在Oracle cloud上发布云版本。

Oracle Database 18c及19c部分关键功能：

1、性能

2、多租户，大量功能增强及改进，大幅节省成本和提高敏捷性

3、高可用

4、数据仓库和大数据

MySQL发布8.0.13版本

1、账户管理

经过配置，修改密码时，必须带上原密码。在之前的版本，用户登录之后，就可以修改自己的密码。这种方式存在一定安全风险。比如用户登录上数据库后，中途离开一段时间，那么非法用户可能会修改密码。由参数password_require_current控制。

2、配置

Innodb表必须有主键。在用户没有指定主键时，系统会生成一个默认的主键。但是在主从复制的场景下，默认的主键，会对丛库应用速度带来致命的影响。如果设置sql_require_primary_key，那么数据库会强制用户在创建表、修改表时，加上主键。

3、字段默认值

BLOB、TEXT、GEOMETRY和JSON字段可以指定默认值了。

4、优化器

1）Skip Scan

非前缀索引也可以用了。

之前的版本，任何没有带上f1字段的查询，都没法使用索引。在新的版本中，它可以忽略前面的字段，让这个查询使用到索引。其实现原理就是把(f1 = 1 AND f2 > 40) 和(f1 = 2 AND f2 > 40)的查询结果合并。

2）函数索引

之前版本只能基于某个列或者多个列加索引，但是不允许在上面做计算，如今这个限制消除了。

5、SQL语法

GROUP BY ASC和GROUP BY DESC语法已经被废弃，要想达到类似的效果，请使用GROUP BY ORDER BY ASC和GROUP BY ORDER BY DESC。

6、功能变化

1）设置用户变量，请使用SET语句

如下类型语句将要被废弃SELECT @var, @var:=@var+1。

2）新增innodb_fsync_threshold

该变量是控制文件刷新到磁盘的速率，防止磁盘在短时间内饱和。

3）新增会话级临时表空间

在以往的版本中，当执行SQL时，产生的临时表都在全局表空间ibtmp1中，及时执行结束，临时表被释放，空间不会被回收。新版本中，会为session从临时表空间池中分配一个临时表空间，当连接断开时，临时表空间的磁盘空间被回收。

4）在线切换Group Replication的状态

5）新增了group_replication_member_expel_timeout

之前，如果某个节点被怀疑有问题，在5秒检测期结束之后，那么就直接被驱逐出这个集群。即使该节点恢复正常时，也不会再被加入集群。那么，瞬时的故障，会把某些节点驱逐出集群。

group_replication_member_expel_timeout让管理员能更好的依据自身的场景，做出最合适的配置（建议配置时间小于一个小时）。

MariaDB 10.3版本功能展示

1、MariaDB 10.3支持update多表ORDER BY and LIMIT

1）update连表更新，limit语句

update t1 join t2 on t1.id=t2.id set t1.name='hechunyang' limit 3;

MySQL 8.0直接报错

MariaDB 10.3更新成功

2）update连表更新，ORDER BY and LIMIT语句

update t1 join t2 on t1.id=t2.id set t1.name='HEchunyang' order by t1.id DESC limit 3;

MySQL 8.0直接报错

MariaDB 10.3更新成功

参考：

https://jira.mariadb.org/browse/MDEV-13911

2、MariaDB10.3增补AliSQL补丁——安全执行Online DDL

Online DDL从名字上看很容易误导新手，以为不论什么情况，修改表结构都不会锁表，理想很丰满，现实很骨感，注意这个坑！

有以下两种情况执行DDL操作会锁表的，Waiting for table metadata lock（元数据表锁）：

针对第二种情况，MariaDB10.3增补AliSQL补丁-DDL FAST FAIL，让其DDL操作快速失败。

例：

如果线上有某个慢SQL对该表进行操作，可以使用WAIT n（以秒为单位设置等待）或NOWAIT在语句中显式设置锁等待超时，在这种情况下，如果无法获取锁，语句将立即失败。 WAIT 0相当于NOWAIT。

参考：

https://jira.mariadb.org/browse/MDEV-11388

3、MariaDB Window Functions窗口函数分组取TOP N记录

窗口函数在MariaDB10.2版本里实现，其简化了复杂SQL的撰写，提高了可读性。

参考：

https://mariadb.com/kb/en/library/window-functions-overview/

Percona Server发布8.0 GA版本

2018年12月21日，Percona发布了Percona Server 8.0 GA版本。

在支持MySQL8.0社区的基础版上，Percona Server for MySQL 8.0版本中带来了许多新功能：

1、安全性和合规性

2、性能和可扩展性

3、可观察性和可用性

Percona Server for MySQL 8.0中将要被废用功能：

Percona Server for MySQL 8.0中删除的功能：

RocksDB发布V5.17.2版本

2018年10月24日，RocksDB发布V5.17.2版本。

RocksDB是Facebook在LevelDB基础上用C++写的高效内嵌式K/V存储引擎。相比LevelDB，RocksDB提供了Column-Family，TTL，Transaction，Merge等方面的支持。目前MyRocks，TiKV等底层的存储都是基于RocksDB来构建。

PostgreSQL发布11版本

2018年10月18日，PostgreSQL 11发布。

1、PostgreSQL 11的重大增强

2、PostgreSQL 插件动态

1）分布式插件citus发布 8.1

citus是PostgreSQL的一款sharding插件，目前国内苏宁、铁总、探探有较大量使用案例。

https://github.com/citusdata/citus

2）地理信息插件postgis发布2.5.1

PostGIS是专业的时空数据库插件，在测绘、航天、气象、地震、国土资源、地图等时空专业领域应用广泛。同时在互联网行业也得到了对GIS有性能、功能深度要求的客户青睐，比如共享出行、外卖等客户。

http://postgis.net/

3）时序插件timescale发布1.1.1

timescale是PostgreSQL的一款时序数据库插件，在IoT行业中有非常好的应用。github star数目前有5000多，是一个非常火爆的插件。

https://github.com/timescale/timescaledb

4）流计算插件 pipelinedb 正式插件化

Pipelinedb是PostgreSQL的一款流计算插件，使用这个创建可以对高速写入的数据进行实时根据定义的聚合规则进行聚合（支持概率计算），实时根据定义的规则触发事件（支持事件处理函数的自定义）。可用于IoT，监控，FEED实时计算等场景。

https://github.com/pipelinedb/pipelinedb

3、PostgreSQL衍生开源产品动态

1）agensgraph发布 2.0.0版本

agensgraph是兼容PostgreSQL、opencypher的专业图数据库，适合图式关系的管理。

https://github.com/bitnine-oss/agensgraph

2）gpdb发布5.15

gpdb是兼容PostgreSQL的mpp数据库，适合OLAP场景。近两年，gpdb一直在追赶PostgreSQL的社区版本，预计很快会追上10的PostgreSQL，在TP方面的性能也会得到显着提升。

https://github.com/greenplum-db/gpdb

3）antdb发布3.2

antdb是以Postgres-XC为基础开发的一款PostgreSQL sharding数据库，亚信主导开发，开源，目前主要服务于亚信自有客户。

https://github.com/ADBSQL/AntDB

4）迁移工具MTK发布52版本

MTK是EDB提供的可以将Oracle、PostgreSQL、MySQL、MSSQL、Sybase数据库迁移到PostgreSQL, PPAS的产品，迁移速度可以达到100万行/s以上。

https://github.com/digoal/blog/blob/master/201812/20181226_01.md

DB2发布 11.1.4.4版本

DB2最新发布Mod Pack 4 and Fix Pack 4，包含以下几方面的改动及增强：

1、性能

2、高可用

3、管理视图

4、应用开发方面

5、联邦功能

6、pureScale

NoSQL家族

Redis发布5.0.3版本

MongoDB升级更新MongoDB Mobile和MongoDB Stitch

2018年11月21日，MongoDB升级更新MongoDB Mobile和MongoDB Stitch，助力开发人员提升工作效率。

MongoDB 公司日前发布了多项新产品功能，旨在更好地帮助开发人员在世界各地管理数据。通过利用存储在移动设备和后台数据库的数据之间的实时、自动的同步特性，MongoDB Mobile通用版本助力开发人员构建更快捷、反应更迅速的应用程序。此前，这只能通过在移动应用内部安装一个可供选择或限定功能的数据库来实现。

MongoDB Mobile在为客户提供随处运行的自由度方面更进了一步。用户在iOS和安卓终端设备上可拥有MongoDB所有功能，将网络边界扩展到其物联网资产范畴。应用系统还可以使用MongoDB Stitch的软件开发包访问移动客户端或后台数据，帮助开发人员通过他们希望的任意方式查询移动终端数据和物联网数据，包括本地读写、本地JSON存储、索引和聚合。通过Stitch移动同步功能(现可提供beta版)，用户可以自动对保存在本地的数据以及后台数据库的数据进行同步。

本期新秀：Cassandra发布3.11.3版本

2018年8月11日，Cassandra发布正式版3.11.3。

Apache Cassandra是一款开源分布式NoSQL数据库系统，使用了基于Google BigTable的数据模型，与面向行(row)的传统关系型数据库或键值存储key-value数据库不同，Cassandra使用的是宽列存储模型(Wide Column Stores)。与BigTable和其模仿者HBase不同，数据并不存储在分布式文件系统如GFS或HDFS中，而是直接存于本地。

Cassandra的系统架构与Amazon DynamoDB类似，是基于一致性哈希的完全P2P架构，每行数据通过哈希来决定应该存在哪个或哪些节点中。集群没有master的概念，所有节点都是同样的角色，彻底避免了整个系统的单点问题导致的不稳定性，集群间的状态同步通过Gossip协议来进行P2P的通信。

3.11.3版本的一些bug fix和改进：

NewSQL家族

TiDB 发布2.1.2版本

2018 年 12 月 22 日，TiDB 发布 2.1.2 版，TiDB-Ansible 相应发布 2.1.2 版本。该版本在 2.1.1 版的基础上，对系统兼容性、稳定性做出了改进。

TiDB 是一款定位于在线事务处理/在线分析处理（ HTAP: Hybrid Transactional/Analytical Processing）的融合型数据库产品。除了底层的 RocksDB 存储引擎之外，分布式SQL层、分布式KV存储引擎（TiKV）完全自主设计和研发。

TiDB 完全开源，兼容MySQL协议和语法，可以简单理解为一个可以无限水平扩展的MySQL，并且提供分布式事务、跨节点 JOIN、吞吐和存储容量水平扩展、故障自恢复、高可用等优异的特性；对业务没有任何侵入性，简化开发，利于维护和平滑迁移。

TiDB：

PD：

TiKV：

Tools：

1）TiDB-Lightning

2）TiDB-Binlog

EsgynDB发布R2.5版本

2018年12月22日，EsgynDB R2.5版本正式发布。

作为企业级产品，EsgynDB 2.5向前迈进了一大步，它拥有以下功能和改进：

CockroachDB发布2.1版本

2018年10月30日，CockroachDB正式发布2.1版本，其新增特性如下：

新增企业级特性：

新增SQL特性：

新增内核特性：

Admin UI增强：

时间序列

本期新秀：TimescaleDB发布1.0版本

10月底，TimescaleDB 1.0宣布正式推出，官方表示该版本已可用于生产环境，支持完整SQL和扩展。

TimescaleDB是基于PostgreSQL数据库开发的一款时序数据库，以插件化的形式打包提供，随着PostgreSQL的版本升级而升级，不会因为另立分支带来麻烦。

TimescaleDB架构：

数据自动按时间和空间分片(chunk)

更新亮点：

https://github.com/timescale/timescaledb/releases/tag/1.0.0

大数据生态圈

Hadoop发布2.9.2版本

2018年11月中旬，Hadoop在2.9分支上发布了新的2.9.2版本，该版本进行了204个大大小小的变更，主要变更如下：

Greenplum 发布5.15版本

Greenplum最新的5.15版本中发布了流式数据加载工具。

该版本中的Greenplum Streem Server组件已经集成了Kafka流式加载功能，并通过了Confluent官方的集成认证，其支持的主要功能如下：

国产数据库概览

K-DB发布数据库一体机版

2018年11月7日，K-DB发布了数据库一体机版。该版本更新情况如下：

OceanBase迁移服务发布1.0版本

1月4日，OceanBase 正式发布OMS迁移服务1.0版本。

以下内容包含 OceanBase 迁移服务的重要特性和功能：

SequoiaDB发布3.0.1新版本

1、架构

1）完整计算存储分离架构，兼容MySQL协议、语法

计算存储分离体系以松耦合的方式将计算与存储层分别部署，通过标准接口或插件对各个模块和组件进行无缝替换，在计算层与存储层均可实现自由的弹性伸缩。

SequoiaDB巨杉数据库“计算-存储分离”架构详细示意

用户可以根据自身业务特征选择面向交易的SQL解析器（例如MySQL或PGSQL）或面向统计分析的执行引擎（例如SparkSQL）。众所周知，使用不同的SQL优化与执行方式，数据库的访问性能可能会存在上千上万倍的差距。计算存储分离的核心思想便是在数据存储层面进行一体化存储，在计算层面则利用每种执行引擎的特点针对不同业务场景进行选择和优化，用户可以在存储层进行逻辑与物理的隔离，将面向高频交易的前端业务与面向高吞吐量的统计分析使用不同的硬件进行存储，确保在多类型数据访问时互不干扰，以真正达到生产环境可用的多租户与HTAP能力。

2、其他更新信息

1）接口变更：

2）主要特性：

云数据库

本期新秀：腾讯发布数据库CynosDB，开启公测

1、News

1）腾讯云数据库MySQL2018年重大更新：

2）腾讯云数据库MongoDB2018年重大更新：

3）腾讯云数据库Redis/CKV+2018年重大更新：

4）腾讯云数据库CTSDB2018年重大更新：

2、Redis 4.0集群版商业化上线

2018年10月，腾讯云数据库Redis 4.0集群版完成邀测、公测、商业化三个迭代，在广州、上海、北京正式全量商业化上线。

产品特性：

使用场景：

官网文档：

https://cloud.tencent.com/document/proct/239/18336

3、腾讯自研数据库CynosDB发布，开启公测

2018年11月22日，腾讯云召开新一代自研数据库CynosDB发布会，业界第一款全面兼容市面上两大最主流的开源数据库MySQL和PostgreSQL的高性能企业级分布式云数据库。

本期新秀：京东云DRDS发布1.0版本

12月24日，京东云分布式关系型数据库DRDS正式发布1.0版本。

DRDS是京东云精心自研的数据库中间件产品，获得了2018年 ”可信云技术创新奖”。DRDS可实现海量数据下的自动分库分表，具有高性能，分布式，弹性升级，兼容MySQL等优点，适用于高并发、大规模数据的在线交易，历史数据查询，自动数据分片等业务场景，历经多次618，双十一的考验，已经在京东集团内大规模使用。

京东云DRDS产品有以下主要特性

1）自动分库分表

通过简单的定义即可自动实现分库分表，将数据实际存放在多个MySQL实例的数据库中，但呈现给应用程序的依旧是一张表，对业务透明，应用程序几乎无需改动，实现了对数据库存储和处理能力的水平扩展。

2）分布式架构

基于分布式架构的集群方案，多个对等节点同时对外提供服务，不但可有效规避服务的单点故障，而且更加容易扩展。

3）超强性能

具有极高的处理能力，双节点即可支持数万QPS，满足用户超大规模处理能力的需求。

4）兼容MySQL

兼容绝大部分MySQL语法，包括MySQL语法、数据类型、索引、常用函数、排序、关联等DDL，DML语句，使用成本低。

参考链接：

https://www.jdcloud.com/cn/procts/drds

RadonDB发布1.0.3版本

2018年12月26日，MyNewSQL领域的RadonDB云数据库发布1.0.3版本。

推出dbaplus Newsletter的想法

dbaplus Newsletter旨在向广大技术爱好者提供数据库行业的最新技术发展趋势，为社区的技术发展提供一个统一的发声平台。为此，我们策划了RDBMS、NoSQL、NewSQL、时间序列、大数据生态圈、国产数据库、云数据库等几个版块。

我们不以商业宣传为目的，不接受任何商业广告宣传，严格审查信息源的可信度和准确性，力争为大家提供一个纯净的技术学习环境，欢迎大家监督指正。

至于Newsletter发布的周期，目前计划是每三个月左右会做一次跟进， 下期计划时间是2019年4月14日~4月25日， 如果有相关的信息提供请发送至邮箱：[email protected]

感谢名单

最后要感谢那些提供宝贵信息和建议的专家朋友，排名不分先后。

往期回顾：

↓↓别忘了点这里下载 2019年1月 完整版Newsletter 哦~

❺ 一场替换传统数据库的行动正在全球范围悄然进行

随着全球各大科技巨头的竞相加入，开源软件技术已经活跃在各个信息技术领域当中。其中，大数据生态成为开源技术的直接受益者。开源技术适用于庞杂的数据管理系统，带来敏捷、高效、可扩展以及可自控的管理能力，并帮助企业降低IT建设及维护成本。2018年双11当天，阿里云原生数据库PolarDB轻松应对了0点0分0秒瞬时提升122倍的数据洪峰。Netflix也采用自研开源架构Metacat将海量数据集合成一个“单一”的数据仓库，大幅提升管理能效。

当前，我国有越来越多的企业、人才加入到开源社区，贡献力也“后来居上”，共同推进开源项目、开源生态的繁荣和可持续发展。

大数据生态成为开源技术重大“受益者”

近年来，在互联网服务、多媒体以及科学研究等多个领域，都可见到大数据的身影。在大数据时代，不断增长的数据量、快速处理数据的需求以及数据类型、结构和来源的多样性给数据库敏捷、高效、可扩展性以及个性化管理带来了全新挑战。

开源技术赋能了大数据生态的高质量发展。赛迪智库信息化和软件服务业所博士蒲松涛表示，经过了数十年的发展，开源软件和开源工具已经应用到了大数据产业发展的各个环节，基于开源软件，企业可以快速构建大数据应用平台，提供丰富的大数据开发和应用工具。

当前，几乎各种规模的企业都在使用开源软件和工具做大数据处理和基于数据的预测分析。开源界也涌现出了Hadoop、OpenStack、OpenShift、Maprece、docker等引领行业技术创新方向的重量级开源项目。

华泰人寿基于OpenShift架构打造易于管理的新IT系统，以提升企业竞争力，实现业务数字化转型。在基础设施上，引入红帽OpenShift容器云解决方案和红帽Ceph分布式存储。通过将保险业务上docker云，实现华泰人寿业务的弹性伸缩和快速上线，加速其互联网保险项目快速落地。

美国知名在线影片租赁提供商Netflix也采用了大数据发现服务的开源框架Metacat。由于Netflix的数据仓库由许多大型的数据集组成，为了确保数据平台能够横跨这些数据集成为一个“单一”的数据仓库，Netflix开发的元数据服务Metacat，能让数据的发生、发现、处理和管理变得更加快捷高效、处理精度大幅提升;同时还可兼容Spark、Presto、Pig和Hive架构。Netflix软件架构师Ajoy Majumdar指出，开放开源是身为技术公司的竞争战略，既能够将自己的解决方案建立为行业标准和最佳实践，又能建立Netflix的技术品牌，还能从共享生态中获得反馈输入并受益。

事实上，推动大数据应用高质量发展的主流开源平台还有很多，例如Spark、Shark、Bagel等。蒲松涛表示，这些开源平台大幅降低应用门槛，有效帮助企业实现工业级应用，进而带动各行业大规模部署。此外，大数据还涌现出了一批开源支线平台。其中，Storm完全摆脱了经典的MapRece架构，重新设计了一个适用于流式计算的架构，以数据流为驱动触发计算，计算时效性高，适应有向无环图计算拓扑的设计，计算方式较为灵活，在业界得到了一定的部署应用。

开源社区供需“双赢”中国力量已崛起

开源社区的建立为推动开源软件发展、构建行业竞争优势做出突出贡献，队伍的壮大需要每一位使用者持续不断的贡献智慧，以实现真正的“共赢”。开源的发展历程中，极客、大公司、商业颠覆者轮番登场，开源技术的诉求也从商业驱动向生态驱动发展。中国工程院院士廖湘科指出，开源是软件创新技术的主要来源，是生态抓手，而非赢利的切入点。

开源软件的“共享和贡献”机制吸引了众多开发者的参与，给了每一位开发者“颠覆游戏规则”的权利。有了这种生态的加持，信息技术将被快速推进，各个参与者将持续获利。对此，李飞飞表示，开源生态的受益者是开源技术的需求侧和供给侧双方。从供给侧角度来看，参与的人越多，思维碰撞而引发的迭代演进就会越快;从需求侧角度来看，各个企业不仅可以免除被闭源系统“技术绑定”，还可以在开源社区实现数据库技术迁移，企业还可针对企业技术特征进行数据库的个性定制化，实现大量的应用和代码的改造且系统间互相兼容。

中国开源软件推进联盟副主席兼秘书长刘澎在PostgreSQL .CN 2019上表示，当前国内越来越多的企业为开源做出重要贡献，我国的开源实力已经崛起。以华为、阿里等为代表的开源软件开发者已经逐渐与亚马逊、微软站到了同一高度，实现了从“使用者”到“引领者”的身份转变。

目前，中国企业在Linux基金会中有1个白金会员(华为)，1个金牌会员(阿里云)和数十家银牌会员(包括腾讯、中国移动、联想等)。华为在多个开源社区贡献排名前列。中国工程院院士倪光南认为，华为是开源软件的优秀开发代表，通过引进、消化，实现创新发展，进而贡献给整个开源社区。

阿里云也成为游戏规则的重要改变者和全球云数据库领跑者之一。2018年，阿里云数据库成功进入Gartner数据库魔力象限，这是该榜单首次出现中国公司。近日，Gartner发布的全球云数据库市场份额榜单中，阿里云位居第三，超越了Oracle、IBM和谷歌。5月21日，阿里云提供传统数据库一键迁移上云能力，可以帮助企业将线下的MySQL、PostgreSQL和Oracle等数据库轻松上云，最快数小时内迁移完成。李飞飞表示，阿里云自研的PolarDB云原生数据库的分布式存储架构具有一写多度、计算与存储分离等优势，帮助淘宝交易平台应对了双11当天瞬时提升122倍的数据洪峰。

此外，国内还有包括网络、浪潮、瀚高等在内的众多企业积极参与并贡献到开源社区当中。人工智能、自动驾驶等新兴信息技术也成为开源项目的重要应用领域。

❻ 柏睿数据可以说是国内分析型数据库的代表吗

算是国内这类型厂商的代表，他们的核心产品分布式内存数据库RapidsDB通过了信通院大数据产品能力评测，也入选Gartner的中国数据库市场指南报告，可以说是国产自主研发的具有完整独立知识产权的基于全内存架构的分布式关系性型数据库代表了有帮助的话，可以给个大大的赞不。

❼ 新一代HTAP数据库崛起，MySQL生态的最佳归宿

俗话说，天下大势，合久必分、分久必合。

数据库领域同样如此。过去五十余年，数据库经历OLTP和OLAP两种需求漫长的融合-分离-再融合的过程。究其原因，数据库的发展始终与用户场景需求变迁紧密相关。如今，随着云计算和大数据的兴起，业务场景正在经历前所未有的变革，数据库领域也掀起了一股HTAP浪潮。

Gartner在多次报告中强调，HTAP是数据库领域最重要的发展趋势之一，也是用户数字化转型中重要的数据平台。业界甚至认为，HTAP的兴起代表着数据库大融合时代的开启。

那么，为什么数据库大厂和云服务巨头们均纷纷押宝HTAP？开源+多云为何是HTAP普及的助推剂？面对新一代HTAP数据的崛起，多年积累形成的MySQL生态终于找到最佳归宿？

放在几年前，HTAP可能还会被认为是数据库领域的小众产品，是否成气候还有待观察。

而随着数据资源、数据消费习惯和数据驱动型场景发生巨大变化，用户需求与传统数据库之间的供需矛盾日渐突出，使得HTAP这种具备“同时支持OLTP和OLAP、创新计算存储框架、去ETL”等特征的新时代数据库成为不可阻挡的趋势。

如今，几乎所有数据库大厂和云服务巨头都在布局HTAP。例如，OceanBase去年推出的 3.0版本中就正式宣布向HTAP数据库进军；今年5月，Google Cloud发布HTAP云端数据库AlloyDB，为PG用户提供了HTAP数据库服务；再加上Oracle MySQL Heatwave，甚至连SnowFlake也发布Unistore来“蹭”HTAP的热点。

如果细数近一年以来的HTAP新品，会发现几乎全部都建立在云端之上。新一代HTAP+云正在成为数据库市场重要的潮流。例如，PingCAP近日发布的TiDB 6.0，也是与云端紧密联系的新一代HTAP数据库。

事实上，PingCAP是HTAP数据库领域非常重要的一个引领者。早在TiDB 3.0起，PingCAP就正式转向HTAP，从OLTP主引擎+OLAP辅助能力，到OLTP引擎+外接分析引擎，再到OLTP引擎+融合分析引擎，PingCAP在HTAP领域稳打稳扎，一个版本上一个台阶。

如今，随着TiDB 6.0的发布，针对HTAP进行了更多成熟性改进，TPC-C 性能也较 5.0 版本提升达到 76.32%，TiDB 6.0还增强了多个企业级特性，以更好适合云时代用户对于HTAP数据库的需求。

固然，有人质疑当前HTAP是新瓶装旧酒，并无太多新意。但业界普遍形成共识：新一代HTAP与过去完全不同，开源+云孕育而出，很多都有AI加持，而且是为数据敏捷而生，拥有过去前所未有的创新活力与迭代速度，并逐渐形成数据库技术变革的新潮流。

PingCAP CTO 黄东旭也直言：“TiDB近年来的快速进化与迭代，得益于开源和云的助力。”

HTAP之所受到用户青睐，某种程度是因为用户对于数据敏捷性的极度渴求。

“在数字化时代，客户最为在乎的是如何快速走向市场。这需要数据敏捷性，而HTAP恰恰是数据敏捷的核心能力。”黄东旭如是说。

最近几年，“海量、实时、在线”的需求越来越广泛，大量采用 MySQL 和 PostgreSQL 开源数据库的新一代企业需要提升对于热数据的实时在线分析能力，这类需求遍布几乎所有的互联网企业以及从事线上业务的数字化转型企业。对于新鲜数据的实时分析能力直接决定了这些业务的生死存亡，传统的 OLTP+OLAP+ETL 的数据架构已经严重阻碍了消费者体验，这种诉求催生了 HTAP 的技术变革。

而真正帮助HTAP与用户需求完成对接的则是开源+云。众所周知，开源近年来在数据库领域的流行和影响力与日俱增，DB-Engines数据显示，全球383款数据库中开源数据库占据51.7%，六款开源数据库进入到前十，开源正在成为像HTAP这种新时代数据库的创新源泉。

以PingCAP的TiDB为例，其产品研发体系建立在开源体系和开源社区的基础上，实现了一年一个大版本、一个月一个小版本的迭代速度。黄东旭透露道：“开源是TiDB的第一个增长引擎，通过开源体系，开发者、贡献者、布道者和用户能够很好串联起来，形成飞轮效应，让产品能够走向加速迭代和创新的正向循环。”

据悉，TiDB每年会有超过 40% 的代码更新，而这些代码有很大一部分由外部贡献者所共享。TiDB开源项目一直在全球和中国开源项目活跃度中名列前茅。

如果说开源改变了HTAP产品的开发模式和迭代速度，那么云则能够为HTAP产品提供用户最为直接的需求反馈。众所周知，云数据库一改以往传统数据库部署、运维、扩展等难题，以云服务的方式让数据库使用更加简单；更加关键的是，随着云计算的普及，云上用户群体持续增加，来自云上用户群体的需求反馈无时无刻都在发生，对于数据库产品的进化与迭代至关重要。

“真正的产品迭代是如何缩短用户问题/需求的反馈时间。云无疑为数据库等基础软件提供了这样的价值，让产品可以更好地迭代。”黄东旭如是说。以TiDB为例，自去年五月全托管的数据库即服务（DBaaS）产品 TiDB Cloud 公测版发布以来，已经陆续登陆亚马逊云科技、谷歌云等全球知名云服务商的Marketplace，并在今年5月份正式全球商用；今年 6 月与阿里云合作上线阿里云云市场，成为为数不多的跨全球三朵云的数据库服务。

在众多数据库产品之中，MySQL凭借着开源、免费、适合互联网场景等优势，常年位居全球最受欢迎数据库的前三。根据Slintel网站的统计数据，在全球关系型数据库市场中，MySQL市场份额最高，达到43.04%。

过去二十年里，开源MySQL数据库对于各行各业影响至深，捕获了来自互联网、金融、零售、交通等多个行业用户的心，堪称“万人迷”。例如，在中国就有超过9成的金融机构都应用了MySQL数据库。

但任何数据库潮流都是“需求变化+技术变革+架构创新”融合的产物，MySQL是如此，HTAP亦不例外。如今，场景的数据规模、业务并发量、处理速度要求跟以往相比早已不是一个数量级。此时，MySQL数据库的局限性愈发突出，扩展性很难满足用户需求，想继续获得增长的企业不得不使用分库分表方案，但这又会造成数据架构的复杂性。

新一代HTAP数据库无需分库分表，且具备实时海量规模的OLTP和实时数据分析能力，还拥有极为出色的扩展性，与很多业务场景的海量交易实时数据展现、平稳运行的需求高度契合，HTAP凭借技术架构优势崛起已成必然。

“用户需求侧最大的变化就是很多用户需要借助热数据实现运营级别的实时分析，获得实时洞察以支持决策，这极大推动了新一代HTAP数据库的需求。”PingCAP副总裁刘松补充道。

虽然MySQL已经增加列存引擎Heatwave来获得HTAP能力，但主要解决规模化查询的问题，系统本身架构并未产生革命性变化，扩展能力、OLTP吞吐量依然有着很大局限。“智能新能源汽车跟传统燃油车在外表看几乎没区别。数据库也类似，像TiDB这种新一代HTAP数据库，从架构设计、应对场景和使用体验等角度，都与传统数据库有着极大的区别。”刘松形象比喻道。

事实上，与过去SAP HANA这种小众、昂贵的HTAP不同，新一代HTAP拥有极强的兼容性，像Google Cloud、PingCAP这些数据库厂商都借助新一代HTAP架构为采用 MySQL或者PG开源数据库的企业拓展 OLTP和OLAP的能力范围。

例如，Google Cloud发布的HTAP云端数据库AlloyDB，为单机版PG生态用户提供了最好选择，TiDB则成为MySQL生态的最佳归宿。PingCAP大量用户中有很多TiDB与MySQL混合部署的成功案例；得益于 TiDB 的开放性，TiDB 也可通过和其他数据服务产品“混搭”形成新的数据服务解决方案，如通过同样是开源的大数据计算引擎 Flink 混搭形成实时数仓解决方案，扩展 HTAP 数据库的能力边界。

黄东旭则直言，HTAP数据库除了产品、技术之外，尤为需要关心用户体验，“HTAP应该让用户觉得好用，屏蔽掉数据库的复杂性。”据悉，PingCAP是2022 Gartner Peer Insights“Voice of the Customer” 云数据库领域唯一入选的中国数据库公司，客户总体评分达到 4.7 分（满分 5 分），在所有入选企业中位列第一。在参与Gartner Peer Insights评分的PingCAP用户中，像互联网、金融等重点行业用户均高度认可HTAP现代数据库理念。

总体来看，今年是HTAP的大年，各大厂商纷纷在市场中上新。随着新一代HTAP数据库产品的增多，整个市场对于HTAP数据库理念和产品的接受与采用将会提速。而随着新一代HTAP数据库持续完善，让广大MySQL生态用户群真正看到了大数据时代一条绝佳的迁移路径。

❽ 看到Gartner发的一篇关于CDM（ data management）的报告，请问谁知道国内现在有相关产品或者技术吗

CDM（Copy Data Management，复制数据管理）技术是一种创新型的备份技术。Gartner认为在两个场景中可以提供非常高效的解决方案：一是备份恢复的现代化；二是开发测试环境的快速搭建。
CDM的核心技术是备份出来的数据格式是原始格式，即备份数据可以直接挂载给目标服务器实现分钟级恢复，和数据量的大小无关，这是和传统备份软件最大的区别。由于备份数据是原始数据格式，并且存放在磁盘上，所以它可以根据新的增量数据和已有的全备数据，在备份系统内合成新的全量备份，从而实现永远增量备份。
由于CDM本身是一种备份技术，所以它可以应对各种宕机场景，包括逻辑错、人为错等大概率小事故。增量备份和增量合成功能可以极大地降低备份窗口以及备份时系统资源的消耗。并且它还可以实现分钟级的恢复时间，满足业务对恢复的时间要求。
除此之外，CDM的即时挂载等技术可以对备份的副本分钟级拉起，提供给开发、测试环境、以及数据报表输出等非生产环境使用，让备份的数据活起来，利用起来。
常见的CDM副本管理国内厂商有：爱数、豪联、鼎甲、云信达、沃趣这几个吧
国外厂商有：Rubrik、Actifio
简单列下这些产品的优劣势：
爱数AnyBackup CDM，目前只对Oracle数据库具有CDM副本管理功能支持，对主流的SQL Server 、MySQL等都不具备CDM功能，属于传统备份技术，此外虚拟化备份和文件系统备份也都是传统备份技术，拥有传统备份的一系列问题：备份速度慢、占用资源高、无法快速拉起等问题。
豪联灵备CDM系统采用CDM架构，产品功能还是蛮强大的，支持ORACLE、SQL Server、MySQL、文件系统、VMware的副本管理功能，同时还具有一键DG以及容灾监控，单单从CDM副本管理这方面来讲是国内做的比较好的。劣势就是品牌知名度相对较弱，目前暂未实现对国产数据库的CDM副本管理支持。
沃趣声称有CDM产品，但是不能确定是不是真正的CDM，感觉更像是Oracle DG + 闪回技术，理论上可以回到历史数据任意一秒，但这是一种紧耦合的技术。Oracle DG + 闪回技术的问题就是，DG是容灾技术，一旦容灾出了问题，那么备份也没有了，这是非常危险的，存在极大的数据丢失的风险。沃趣的CDM只能备Oracle数据库，对其他的像SQL Server 、MySQL数据库、文件系统、VMware虚拟化等全部无能为力。产品力很弱，功能单一。
鼎甲的产品不是很熟悉
云信达的产品嘛，没用过，但是从官网的介绍来看是CDM的名头，他们的CDM产品叫eCloud Data Master，行业内通用的叫Copy Data Management。具体功能没测试过，不发表意见。
Actifio是国外厂商，是最早做CDM产品的厂商之一，目前也是全球CDM技术的领导者，该公司产品性能比较厉害，但价格也是非常高的，目前在国内没听过有什么案例，在国内貌似也没有技术团队，对项目进行有效支撑是个问题。

❾ 企业数据上云必有一战，华为云12.12云数据库2折起

每年的Gartner全球数据库魔力象限都会对未来三年的市场进行预测，而2020年的预测相比于2019年的预测出现一个显着的变化，那就是全球75%数据库将被部署或迁移到云平台的时间表提前了一年——从2023年提前到了2022年。进入2020年底，我们将迎来数据库行业的世纪之战，企业数据上云与治理面临着重大抉择：本地数据库与云数据库的PK。特别是受2020全球疫情的影响，越来越多的企业正加速数字化转型，云数据库以及云上数据治理的时代将很快到来。

2020年12月12日双十二之际，华为云打出了云数据库2折起的大幅折扣，包括：MySQL等热门云数据库 2折起、迁移上云再加送6个月；GaussDB系列、数据管理服务DAS企业版等热销产品低至5折；数据加速与治理产品中也有Redis 4折的惊喜优惠。2020年又是华为云推出全场景数据库云服务GaussDB的第一年，而在2020年底打出云数据库2折起的大力度促销，彰显了华为云开打2021企业数据上云之战的决心。

2020年的一场疫情，让很多企业都将数字化转型提速，特别是让本来需要几年才能下的数字化转型决心和决定缩短到几个月；而新基建的推出，更刺激了基于数字技术的融合基础设施的大规模建设。无论是加速的数字化转型、急于上线的各种在线和互联网业务，还是筹建中的融合基础设施新基建，都为CIO们带来了头痛的问题：数据库的选型。

那么CIO怎么解决云数据库的选型难题呢？华为云数据库业务总裁苏光牛认为，CIO选型数据库，最常见的其实没有变化，就是稳定性和性能，以及云技术出现之后的扩展性和灰度等能力。但对于很多企业，特别是有历史遗留系统的，都涉及一个古老但无法回避的问题就是：生态。也就是如果招聘的DBA多是搞PostgreSQL，那么企业怎么能选择MySQL？反之亦然。或者当熟悉某个数据库的DBA干了几十年，又怎么转向另外一种数据库？

转型是必然的。数字化智能化升级，必然要求数据库跟上，苏光牛认为生态必须是开放的，否则就从一个火坑跳入另外一个火坑。选型之后，CIO都普遍担心，迁移的工作量有多大？CIO都需要有能自动化转换或者评估的工具，能把非确定的工作量转化为确定性的计划。然后就需要考虑迁移是否会中断或者中断多久，业务切换需要多久，对于在线迁移来说还要可控制的切换时间；随之，要考虑数据是否会丢失，因为从一个系统迁移到另一个系统，不可能100%覆盖所有的功能测试，没有覆盖到数据是否就丢失了，当然还要考虑数据安全等问题。

最后，必然要考虑成本以及让数据“活”起来。苏光牛认为，控制成本的最好方式是存储的融合，计算和存储分离的架构；而让数据活起来，就是要让存储的数据在不同系统之间流动起来，通过大的存储资源池解决数据孤岛问题，当然更好的数据迁移工具也能配合解决问题。

2020年11月，在Gartner发布的2020全球云数据库魔力象限中，华为云凭借GaussDB系列产品首次晋级全球顶级云数据库行列。Gartner对华为云的评价是：华为云专注于提供全面的混合堆栈，构建了全面、稳健的产品组合，能够满足跨云和本地环境的全方位数据管理用例，其许多产品与云基础架构紧密集成，以提供增强的性能和可靠性。Gartner还认为，华为在全球电信和网络行业有很强的影响力，很多为管理华为全球行业业务而构建的数据管理能力，面向政企行业普遍可用。

2020年下半年，华为云宣布GaussDB数据库战略升级为华为云数据库全场景服务，以及发布GaussDB云数据库服务GaussDB（for MySQL）、GaussDB（openGauss）以及GaussDB NoSQL，而GaussDB NoSQL非关系型数据库则支持MongoDB、Cassandra、时序InfluxDB、KV数据库Redis等，具有多模式数据管理能力。

就GaussDB来说，通过计算和存储分离实现分布式处理，在一套架构下，可以对接MySQL、PostgreSQL、MongoDB、Cassandra等多种开源数据库引擎，实现这些开源数据库的良好商用性能。GaussDB以华为云为底座，保证了良好可扩展性、弹性、安全可靠等性能要求，特别是通过底层统一的智能化DFV分布式存储架构，满足企业上云对于云数据库的各种需求。

在数据迁移方面，华为云推出的数据库和应用迁移 UGO，是一款专注于异构数据库对象迁移和应用迁移的专业化工具，而华为云数据复制服务DRS，支持更大数据量、更长时间等多种复杂迁移场景，支持数据库上云和云上业务数据实时回传至云外的混合云架构。UGO+DRS形成了完整的迁移产品形态。

GaussDB是为政企打造的数据库一站式上云解决方案，提供全场景数据管理业务、全开放生态和安全可信，彻底解决政企以及互联网行业在数据库选型方面的痛点，真正做到数据库选型安心、迁移放心、管理省心。

苏光牛表示：“华为将持续战略投入数据库，布局全球7大区域囊括1000+数据库专家与人才。此次战略升级是华为云数据库积极构建高安全、高可靠、高性能的全场景云服务，拥抱开源生态的具体举措，华为云GaussDB数据库会持续打造多元生态服务，全方位满足客户的需求，加速政企客户数字化创新发展。”

正如Gartner所观察到的，如今华为云数据库业务在亚太地区，尤其是中国市场实现规模化部署，其中超过一半的客户来自公共管理、电信、金融保险等行业。华为云数据库，特别是GaussDB能够被广大政企用户认可，这首先来自于经历了华为内部的千锤百炼。从2007年开始，就因为华为的无线、网络、交换机等产品而发展起来了GaussDB，从2009年开始基于存算分离的架构而考虑分布式数据库的设计，2015年起基于广泛认知的生态如MySQL或者PostgreSQL等以及NoSQL数据库，逐步推出了分布式的数据库，同时还打造华为自己的openGauss生态。

2020年，华为云数据库品牌更加清晰，GaussDB是华为自有数据库品牌，既兼容MySQL、PostgreSQL等广泛认知的生态，又有自有的生态openGauss，openGauss于2020年6月正式对外开源。苏光牛强调，华为公司将长期投入GaussDB的开发，基于混合云和公有云的方式，联合ISV等伙伴一起，全方位服务好客户。

总结下来，GaussDB有四大特色：第一，开放的生态，拥抱开源生态的同时，打造华为自有生态。华为云认为未来一定是开放的生态，开放的生态才能保护客户投资，避免从一个封闭体系走向另外一个封闭体系。

第二，存算分离的架构，数据库的稳定性是第一位的，特别是交易型数据库，华为云数据库最核心的特色是存储的稳定性。华为云GaussDB基于与企业存储相同的分布式存储架构，经过千行百业的磨炼而不仅仅是单一的某种交易流量，另外各种存储能力如重删、压缩、跨AZ等特性让快速备份恢复、性价比都具备非常好的优势。

第三，安全合规，GaussDB经过了ICSL的安全认证，以及很多白盒的代码层面的认证。特别是随着欧洲GDPR等标准的实施，以及政企对数据安全性要求的增加，华为云GaussDB的代码级、架构级别安全设计，以及多年来在电信级高标准行业的锤炼，经历了很多实际客户的严苛考验，让政企在使用数据库的时候更加放心。

第四，软硬件全栈协同。华为云具备软硬件全栈研发的实力，无论存储底座和RDMA高速网络，还是虚拟化和容器之上的性能调优，以及GuestOS上的协议栈优化，特别是基于云技术之后的全栈优化和云服务能力，更加是华为云的优势。

当然，更为重要的是，云数据库采用云的模式实现了数据库运维管理的集中化，极大简化了数据库的安装、部署、配置、迁移和优化，大幅提升运维管理效率，让政企可以投入更多精力聚焦在核心业务创新上。

总结而言： 企业数据上云和云上数据治理将成为2021年政企数字化转型的重中之重，各大技术厂商都在争夺云数据库市场份额。以华为云全场景数据库GaussDB为代表的新一代云数据库，将满足政企数字化转型的全面需求。特别是以华为云和华为云Stack为底座，GaussDB可以跨公有云以及企业本地部署，其技术符合云及企业本地的要求，同时具有华为云的高性能、高可用、高安全等保证，可以说政企数字化转型的全场景保障！（文/宁川）

❿ 滴普科技：为什么越来越多的企业会选择“湖仓一体”

数据库行业正走向分水岭。

过去几年，全球数据库行业发展迅猛。2020年，Gartner首次把数据库领域的魔力象限重新定义为Cloud DBMS，把云数据库作为唯一的评价方向；2021年，Gartner魔力象限又发生了两个关键的变化： 1、Snowflake和Databricks两个云端数据仓库进入领导者象限；2、放开了魔力象限的收入门槛限制，SingleStore、Exasol、MariaDB、Couchbase等数据库新势力首次进入榜单。

某种程度上，这种变化的背后，暗示着全球数据库已经进入发展的黄金时代，也是一众新兴势力的加速崛起之年。其中，最为典型的例子是Snowflake和Databricks经常隔空喊话，前者是云端数仓的代表玩家，去年继续保持了1倍以上的业务增长；后者因推出“湖仓一体”，估值一路飙升至360亿美金，两者之争，其实是数据库新旧架构之争。

随着企业数字化驶入深水区，对于数据使用场景也呈现多元化的趋势，过去容易被企业忽略的数据，开始从幕后走到台前，如何为众多场景选择一款合适的数据库产品，已经成了很多CIO和管理者的一道必答题。但有一点可以确定的是，过去的数据库已难以匹配眼下日益增长的数据复杂度需求，基于扩展性和可用性划分，分布式架构突破单机、共享、集群架构下的数据库局限，近些年发展态势迅猛。为此，这篇文章我们将主要分析：

1、数据仓、数据湖、湖仓一体究竟是什么？

2、架构演进，为什么说湖仓一体代表了未来？

3、现在是布局湖仓一体的好时机吗？

01：数据湖+数据仓湖仓一体

在湖仓一体出现之前，数据仓库和数据湖是被人们讨论最多的话题。

正式切入主题前，先跟大家科普一个概念，即大数据的工作流程是怎样的？这里就要涉及到两个相对陌生的名词： 数据的结构化程度 和 数据的信息密度 。前者描述的是数据本身的规范性，后者描述的是单位存储体积内、包含信息量的大小。

一般来说，人们获取到的原始数据大多是非结构化的，且信息密度比较低，通过对数据进行清洗、分析、挖掘等操作，可以排除无用数据、找到数据中的关联性，在这个过程中，数据的结构化程度、信息密度也随之提升，最后一步，就是把优化过后的数据加以利用，变成真正的生产资料。

简而言之，大数据处理的过程其实是一个提升数据结构化程度和信息密度的过程。 在这个过程中，数据的特征一直在发生变化，不同的数据，适合的存储介质也有所不同，所以才有了一度火热的数据仓库和数据湖之争。

我们先来聊聊数据仓库，它诞生于1990年，是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合，主要用于支持管理决策和信息的全局共享。 简单点说，数据仓库就像是一个大型图书馆，里面的数据需要按照规范放好，你可以按照类别找到想要的信息 。

就目前来说，对数据仓库的主流定义是位于多个数据库上的大容量存储库，它的作用在于存储大量的结构化数据，为管理分析和业务决策提供统一的数据支持，虽然存取过程相对比较繁琐，对于数据类型有一定限制，但在那个年代，数据仓库的功能性已经够用了，所以在2011年前后，市场还是数据仓库的天下。

到了互联网时代，数据量呈现“井喷式”爆发，数据类型也变得异构化。受数据规模和数据类型的限制，传统数据仓库无法支撑起互联网时代的商业智能，随着Hadoop与对象存储的技术成熟，数据湖的概念应用而生，在2011年由James Dixon提出。

相比于数据仓库，数据湖是一种不断演进中、可扩展的大数据存储、处理、分析的基础设施。它就像一个大型仓库，可以存储任何形式（包括结构化和非结构化）和任何格式（包括文本、音频、视频和图像）的原始数据，数据湖通常更大，存储成本也更为廉价。但它的问题也很明显，数据湖缺乏结构性，一旦没有被治理好，就会变成数据沼泽。

从产品形态上来说，数据仓库一般是独立标准化产品，数据湖更像是一种架构指导，需要配合着系列周边工具，来实现业务需要。换句话说，数据湖的灵活性，对于前期开发和前期部署是友好的；数据仓库的规范性，对于大数据后期运行和公司长期发展是友好的，那么，有没有那么一种可能，有没有一种新架构，能兼具数据仓库和数据湖的优点呢？

于是，湖仓一体诞生了。 依据DataBricks公司对Lakehouse 的定义，湖仓一体是一种结合了数据湖和数据仓库优势的新范式，在用于数据湖的低成本存储上，实现与数据仓库中类似的数据结构和数据管理功能。湖仓一体是一种更开放的新型架构，有人把它做了一个比喻，就类似于在湖边搭建了很多小房子，有的负责数据分析，有的运转机器学习，有的来检索音视频等，至于那些数据源流，都可以从数据湖里轻松获取。

就湖仓一体发展轨迹来看，早期的湖仓一体，更多是一种处理思想，处理上将数据湖和数据仓库互相打通，现在的湖仓一体，虽然仍处于发展的初期阶段，但它已经不只是一个纯粹的技术概念，而是被赋予了更多与厂商产品层面相关的含义和价值。

这里需要注意的是，“湖仓一体”并不等同于“数据湖”+“数据仓”，这是一个极大的误区，现在很多公司经常会同时搭建数仓、数据湖两种存储架构，一个大的数仓拖着多个小的数据湖，这并不意味着这家公司拥有了湖仓一体的能力，湖仓一体绝不等同于数据湖和数据仓简单打通，反而数据在这两种存储中会有极大冗余度。

02：为什么说湖仓一体是未来？

回归开篇的核心问题：湖仓一体凭什么能代表未来？

关于这个问题，我们其实可以换一个问法，即 在数据智能时代，湖仓一体会不会成为企业构建大数据栈的必选项？ 就技术维度和应用趋势来看，这个问题的答案几乎是肯定的，对于高速增长的企业来说，选择湖仓一体架构来替代传统的独立仓和独立湖，已经成为不可逆转的趋势。

一个具有说服力的例证是，现阶段，国内外各大云厂商均陆续推出了自己的“湖仓一体”技术方案，比如亚马逊云科技的Redshift Spectrum、微软的Azure Databricks、华为云的Fusion Insight、滴普科技的FastData等，这些玩家有云计算的老牌龙头，也有数据智能领域的新势力。

事实上，架构的演进是由业务直接驱动的，如果业务侧提出了更高的性能要求，那么在大数据架构建设的过程中，就需要数据库架构建设上进行技术升级。以国内数字化企业服务领域成长最快的独角兽滴普科技为例，依托新一代湖仓一体、流批一体的数据分析基础平台FastData，基于对先进制造、生物医药、消费流通等行业的深度洞察，滴普科技从实际场景切入，为客户提供了一站式的数字化解决方案。

滴普方面认为，“ 在数据分析领域，湖仓一体是未来。它 可以更好地应对AI时代数据分析的需求，在存储形态、计算引擎、数据处理和分析、开放性以及面向AI的演进等方面，要领先于过去的分析型数据库。”以AI应用层面为例，湖仓一体架构天然适合AI类的分析（包括音视频非结构化数据存储，兼容AI计算框架，具有模型开发和机器学习全生命周期的平台化能力），也更适合大规模机器学习时代。

这一点，和趋势不谋而合。

就在前不久，Gartner发布了湖仓一体的未来应用场景预测：湖仓一体架构需要支持三类实时场景，第一类是实时持续智能；第二类是实时按需智能；第三类是离线按需智能，这三类场景将可以通过快照视图、实时视图以及实时批视图提供给数据消费者，这同样是未来湖仓一体架构需要持续演进的方向。

03：现在是布局湖仓一体的好时机吗？

从市场发展走向来看，“湖仓一体”架构是基于技术发展进程的必经之路。

但由于这个新型开放架构仍处于发展早期，国内外企业数字化水平和市场认知的不同，造成了解决方案也存在着较大的差异。在业内投资人看来，“ 虽然美国的企业服务市场比我们成熟的多，也有很多路径可以参考，但中国市场却有着很多中国特色。以对标Databricks的滴普科技为例，美国企业服务市场往往卖产品就可以了，但中国大客户群体需要更与客户资深场景深度融合的解决方案，解决方案需要兼顾通用性和定制化。 ”

在此前与滴普科技的合作中，百丽国际就已经完成了统一数仓的搭建，实现了多个业务线的数据采集和各个业务域的数据建设。在保证前端数据正常运行、“热切换”底层应用的前提下，滴普科技和百丽国际紧密协作，在短短几个月时间里将多个数仓整合为统一数仓，有效统一了业务口径，大幅缩减了开发运维工作量，整个业务价值链也形成了闭环。

这也是“湖仓一体”的能力价值所在：随着数据结构的逐渐多样性，3D图纸、直播视频、会议视频、音频等数据资料越来越多，为深度挖掘数据价值，依托于领先的湖仓一体技术架构，百丽国际可先将海量的多模数据存储入湖，在未来算力允许时，及挖掘深度的业务分析场景后，从数据湖中抓取数据分析。

举个简单的例子，某个设计师想要设计一款鞋子，一般会从历史数据中找有效信息参考，设计师也许只需要一张货品照片，就能像浏览电影般，了解到该商品多年来全生命周期的销售业绩、品牌故事、竞品分析等数据，赋能生产及业务决策，实现数据价值的最大化。

一般来说，大体量的企业想要保持持续增长，往往需要依靠大量、有效的数据输出，进而实现智慧决策。很多企业出于 IT 建设能力的限制，导致很多事情没法做，但通过湖仓一体架构，让之前被限制的数据价值得以充分发挥，如果企业能够在注重数据价值的同时，并有意识地把它保存下来，企业就完成了数字化转型的重要命题之一。

我们也有理由相信，随着企业数字化转型加速，湖仓一体架构也会有更为广阔的发展空间。

gartner数据库

与gartner数据库相关的内容