redshiftsql_如何选择合适的数据库

Ⅰ 云资料库详细资料大全

云资料库是指被最佳化或部署到一个虚拟计算环境中的资料库，可以实现按需付费、按需扩展、高可用性以及存储整合等优势。根据资料库类型一般分为关系型资料库和非关系型资料库（NoSQL资料库）。

云资料库的特性有：实例创建快速、支持唯读实例、读写分离、故障自动切换、数据备份、Binlog备份、SQL审计、访问白名单、监控与讯息通知等。

基本介绍

中文名：云资料库
外文名：CloudDB
简称：云库
简介：基于SQL或访问对象进行操作
分类：关系型资料库非关系型资料库（NoSQL资料库）

服务,优势,特性,套用场景,主流云资料库—关系型资料库,阿里云关系型资料库,亚马逊Redshift,亚马逊关系型资料库服务,主流云资料库—非关系型资料库（NOSQL）,云资料库MongoDB版,亚马逊DynamoDB, 将一个现有的资料库最佳化到云环境有以下好处： ·可以使用户按照存储容量和频宽的需求付费 ·可以将资料库从一个地方移到另一个地方（云的可移植性） ·可实现按需扩展 ·高可用性（HA）将资料库部署到云可以通过简化可用信息通过Web网路连线的业务进程，支持和确保云中的业务应用程式作为软体即服务（SaaS）部署的一部分。另外，将企业资料库部署到云还可以实现存储整合。比如，一个有多个部门的大公司肯定也有多个资料库，可以把这些资料库在云环境中整合成一个资料库管理系统（DBMS）。

服务

云资料库是专业、高性能、高可靠的云资料库服务。云资料库不仅提供WEB界面进行配置、运算元据库实例，还提供可靠的数据备份和恢复、完备的安全管理、完善的监控、轻松扩展等功能支持。相对于用户自建资料库，云资料库具有更经济、更专业、更高效、更可靠、简单易用等特点，使您能更专注于核心业务。

优势

轻松部署 用户能够在RDS控制台轻松的完成资料库申请和创建，RDS实例在几分钟内就可以准备就绪并投入使用。用户通过RDS提供的功能完善的控制台，对所有实例进行统一管理。 高可靠 云资料库具有故障自动单点切换、资料库自动备份等功能，保证实例高可用和数据安全。免费提供7天数据备份，可恢复或回滚至7天内任意备份点。 低成本 RDS支付的费用远低于自建资料库所需的成本，用户可以根据自己的需求选择不同套餐，使用很低的价格得到一整套专业的资料库支持服务。

特性

实例创建快速 选择好需要的套餐后，RDS控制台会根据选择的套餐最佳化配置参数，短短几分钟一个可以使用的资料库实例就创建好了。 支持唯读实例 RDS唯读实例面向对资料库有大量读请求而非大量写请求的读写场景，通过为标准实例创建多个RDS唯读实例，赋予标准实例弹性的读能力扩展，从而增加用户的吞吐量。 故障自动切换 主库发生不可预知的故障（如：硬体故障）时，RDS将自动切换该实例下的主库实例，恢复时间一般<5min。 数据备份 RDS默认自动开启备份，实现资料库实例的定时备份。自动备份保留期为七天。在自动定时备份的基础上，RDS也支持用户手动的资料库实例备份（即数据快照），可以随时从数据快照恢复数据库实例。 Binlog 备份 RDS会自动备份Binlog日志，并长期保存Binlog日志的备份。 RDS备份的Binlog日志也提供用户下载，方便用户对Binlog进行二次分析处理。 访问白名单 RDS支持通过设定IP白名单的方式来控制RDS实例的访问许可权。 监控与讯息通知 通过RDS控制台可以详细了解资料库运行状态。并且可以通过控制台定制需要的监控策略，当监控项达到监控策略阀值时，RDS将通过简讯方式进行提醒和通知。 RDS服务的相关变更也会通过电子邮件或简讯通知功能及时告知。

套用场景

Web 网站 LAMP是常见的网站开发架构，有了RDS用户不用再为资料库的最佳化、管理劳神费力。RDS优异的性能为网站的发展壮大，提供强有力的保证。 数据分析
随着大数据时代的到来，RDS将成为用户在大数据时代把握时代数据脉搏、进行高效数据分析的得力助手。 数据管理
RDS做为云上的关系型资料库服务通过控制台进行简单、方便的数据管理，并通过高可靠的架构确保您的数据安全。 学习研究
RDS使用简单、容易上手，无论是用于资料库套用教学，还是做相关研究都是不错的选择。

主流云资料库—关系型资料库

阿里云关系型资料库

阿里云关系型资料库（Relational Database Service，简称RDS）是一种稳定可靠、可弹性伸缩的线上资料库服务。基于阿里云分散式档案系统和SSD糟高性能存储，RDS支持MySQL、SQL Server、PostgreSQL、PPAS（Postgre Plus Advanced Server，高度兼容Oracle资料库）和MariaDB TX引擎，并且提供了容灾、备份、恢复、监控、迁移等方面的全套解决方案，彻底解决资料库运维的烦恼。

亚马逊Redshift

Redshift跨一个主节点和多个工作节点实施分散式资料库。通过使用AW管理控制台，管理员能够在集群内增加或删除节点，以及按实际需要调整资料库规模。所有的数据都存储在集群节点或机器实例中。 Redshift集群的实施可通过两种类型的虚拟机：密集存储型和密集计算型。密集存储型虚拟机是专为大数据仓库套用而进行最佳化的，而密集计算型为计算密集型分析套用提供了更多的CPU。

亚马逊关系型资料库服务

亚马逊关系型资料库服务（RDS）是专为使用SQL资料库的事务处理套用而设计的。规模缩放和基本管理任务都可使用AWS管理控制台来实现自动化。AWS可以执行很多常见的资料库管理任务，例如备份。

主流云资料库—非关系型资料库（NOSQL）

云资料库MongoDB版

云资料库 MongoDB 版基于飞天分散式系统和高可靠存储引擎，采用高可用架构。提供容灾切换、故障迁移透明化、资料库线上扩容、备份回滚、性能最佳化等功能。云资料库MongoDB支持灵活的部署架构，针对不同的业务场景提供不同的实例架构，包括单节点实例、副本集实例及分片集群实例。

亚马逊DynamoDB

DynamoDB是亚马逊公司的NoSQL资料库产品。其资料库还可与亚马逊Lambda集成以帮助管理人员对数据和套用的触发器进行设定。 DynamoDB特别适用于具有大容量读写操作的移动套用。用户可创建存储JavaScript对象符号（JSON）文档的表格，而用户可指定键值对其进行分区。与定义如何分割数据不同，这里无需定义一个正式的架构。

Ⅱ AWS亚马逊Redshift的特点功能介绍

Redshift即是AWS提供的一款：云上数据仓库服务

Redshift同我们前面使用的RDS一样，是一个全托管的服务（非完全的server less，可以选择集群数量和性能，但是无需管理）

Redshift同RDS一样，只需要鼠标点击几下，即可得到一款可用的高性能、高可靠的数据仓库服务。

但是与RDS不同的是，Redshift可以选择集群模式，也就是可以选择Redshift底层，基于多少台硬件服务器提供算力和存储。

同时，从概念上也不同，我们列个表格来看一下Redshift和RDS的区别

那么来看看Redshift有什么特点。

Amazon Redshift 使用了多种创新技术，对于大小在 100GB 到 1PB 或更高的数据集，可以实现很高的查询性能，并使用了列式存储。Amazon Redshift 采用了大规模并行处理 (MPP) 数据仓库架构，可以对 SQL 操作进行并行分布处理，以便利用所有可用资源。底层硬件支持高性能数据处理，使用本地连接的存储以便尽可能增大 CPU 与驱动器之间的吞吐量，同时使用 10GigE 网状网络以便尽可能增大节点之间的吞吐量。

仅需在 AWS 管理控制台中单击几下或通过一次简单的 API 调用，您就能在性能或容量需求发生变化时，轻松更改云数据仓库中的节点数量或类型。

利用 Amazon Redshift，您只要用单个 160GB DC2.Large 节点就可开始，并能一路扩展到使用 16TB DS2.8XLarge 节点的 1PB 或者更多压缩用户数据。调整大小时，Amazon Redshift 可将您现有的集群置于只读模式，并预置一个您选定大小的新集群，然后将数据从您的旧集群并行复制到您的新集群。在预置新集群的同时，您可继续对您的旧集群进行查询。一旦您的数据被复制到新集群，Amazon Redshift 会自动将查询重新定向至新集群，并移除旧集群。

Amazon Redshift 处理数据仓库的管理、监控及扩展所需的所有工作，从监控集群运行状况、备份到进行修补和升级。

在性能和容量需求发生变化时，您可以轻松调整集群大小。通过处理所有这些耗时耗力的任务，Amazon Redshift 使您得到了解脱并专注于您的数据和业务。

Amazon Redshift 的自动快照功能连续地将集群上的数据备份至 Amazon S3。备份是连续、递增而自动的。

Amazon Redshift 按用户定义的期间存储您的快照，此期间可以是 1 到 35 天。您可在任何时候拍摄您自己的快照，这些快照利用所有现有的系统快照，并可保留到您明确地删除它们时为止。

Redshift 还能将您的快照异步复制到另一个区域的 S3 中进行灾难恢复。一旦您删除了某个集群，您的系统快照也将被移除，但您的用户快照在您明确地删除它们之前仍可使用。

您可通过 AWS 管理控制台或 Amazon Redshift API 使用任何系统快照或用户快照来恢复您的集群。

系统元数据恢复后，您的集群就可供使用，并且您可在用户数据在后台输出时开始运行查询。

Amazon Redshift 拥有多种能够提高数据仓库集群可靠性的功能。

所有写入集群内节点的数据均会自动复制到集群内的其他节点，且所有数据会被连续备份至 Amazon S3。Amazon Redshift 会持续监控集群的运行状况并会自动从出现故障的驱动器重新复制数据，并在必要时替换节点。

并且这一切完全无需用户管理，AWS为您管理一切，用户只需要关心业务开发即可。

借助 Amazon Redshift，您可以配置防火墙规则，以控制对数据仓库集群的网络访问。您可以在 Amazon Virtual Private Cloud (Amazon VPC) 中运行 Amazon Redshift，将您的数据仓库集群隔离在您自己的虚拟网络中。

Amazon Redshift 与 AWS CloudTrail 相集成，使您能够对所有的 Redshift API 调用进行审计。Amazon Redshift 还会记录所有的 SQL 操作，包括连接尝试、查询和数据库变动。您可以使用 SQL 查询在系统表格中访问这些记录，或选择将其下载到 Amazon S3 上的某个位置。

Amazon Redshift 是一种 SQL 数据仓库解决方案，使用了行业标准的 ODBC 和 JDBC 连接。可以从控制台的连接客户端选项卡中下载我们的定制 JDBC 和 ODBC 驱动程序。

Amazon Redshift 与其他 AWS 服务相集成，并内置了命令将数据从 Amazon S3、Amazon DynamoDB 或 Amazon EC2 实例以及使用 SSH 的本地服务器中并行加载到每个节点。Amazon Kinesis 还集成了 Amazon Redshift 作为数据目标。

Ⅲ 如何选择合适的数据库

如何选择数据库

一般来讲，数据分析的查询不会直接从生产环境的数据库来读取数据，一方面是影响线上性能，另一方面是OLTP的表结构设计更多的是面向插入，而不是读取。如何来选择合适的数据库做数据分析呢？本文给出了四方面的考量，抛砖引玉。

1. 客户要分析什么样的数据

2. 客户分析的数据量是多少

3. 客户工程师团队技术背景，运维能力

4. 预期的数据分析的响应时间

客户要分析什么样的数据

上文已简单介绍了关系型数据库和非关系型数据库的区别，这里就不再赘述。下图是一个简单的分类。

redshiftsql