redshiftsql_如何選擇合適的資料庫

Ⅰ 雲資料庫詳細資料大全

雲資料庫是指被最佳化或部署到一個虛擬計算環境中的資料庫，可以實現按需付費、按需擴展、高可用性以及存儲整合等優勢。根據資料庫類型一般分為關系型資料庫和非關系型資料庫（NoSQL資料庫）。

雲資料庫的特性有：實例創建快速、支持唯讀實例、讀寫分離、故障自動切換、數據備份、Binlog備份、SQL審計、訪問白名單、監控與訊息通知等。

基本介紹

中文名：雲資料庫
外文名：CloudDB
簡稱：雲庫
簡介：基於SQL或訪問對象進行操作
分類：關系型資料庫非關系型資料庫（NoSQL資料庫）

服務,優勢,特性,套用場景,主流雲資料庫—關系型資料庫,阿里雲關系型資料庫,亞馬遜Redshift,亞馬遜關系型資料庫服務,主流雲資料庫—非關系型資料庫（NOSQL）,雲資料庫MongoDB版,亞馬遜DynamoDB, 將一個現有的資料庫最佳化到雲環境有以下好處： ·可以使用戶按照存儲容量和頻寬的需求付費 ·可以將資料庫從一個地方移到另一個地方（雲的可移植性） ·可實現按需擴展 ·高可用性（HA）將資料庫部署到雲可以通過簡化可用信息通過Web網路連線的業務進程，支持和確保雲中的業務應用程式作為軟體即服務（SaaS）部署的一部分。另外，將企業資料庫部署到雲還可以實現存儲整合。比如，一個有多個部門的大公司肯定也有多個資料庫，可以把這些資料庫在雲環境中整合成一個資料庫管理系統（DBMS）。

服務

雲資料庫是專業、高性能、高可靠的雲資料庫服務。雲資料庫不僅提供WEB界面進行配置、運算元據庫實例，還提供可靠的數據備份和恢復、完備的安全管理、完善的監控、輕松擴展等功能支持。相對於用戶自建資料庫，雲資料庫具有更經濟、更專業、更高效、更可靠、簡單易用等特點，使您能更專注於核心業務。

優勢

輕松部署 用戶能夠在RDS控制台輕松的完成資料庫申請和創建，RDS實例在幾分鍾內就可以准備就緒並投入使用。用戶通過RDS提供的功能完善的控制台，對所有實例進行統一管理。 高可靠 雲資料庫具有故障自動單點切換、資料庫自動備份等功能，保證實例高可用和數據安全。免費提供7天數據備份，可恢復或回滾至7天內任意備份點。 低成本 RDS支付的費用遠低於自建資料庫所需的成本，用戶可以根據自己的需求選擇不同套餐，使用很低的價格得到一整套專業的資料庫支持服務。

特性

實例創建快速 選擇好需要的套餐後，RDS控制台會根據選擇的套餐最佳化配置參數，短短幾分鍾一個可以使用的資料庫實例就創建好了。 支持唯讀實例 RDS唯讀實例面向對資料庫有大量讀請求而非大量寫請求的讀寫場景，通過為標准實例創建多個RDS唯讀實例，賦予標准實例彈性的讀能力擴展，從而增加用戶的吞吐量。 故障自動切換 主庫發生不可預知的故障（如：硬體故障）時，RDS將自動切換該實例下的主庫實例，恢復時間一般<5min。 數據備份 RDS默認自動開啟備份，實現資料庫實例的定時備份。自動備份保留期為七天。在自動定時備份的基礎上，RDS也支持用戶手動的資料庫實例備份（即數據快照），可以隨時從數據快照恢復資料庫實例。 Binlog 備份 RDS會自動備份Binlog日誌，並長期保存Binlog日誌的備份。 RDS備份的Binlog日誌也提供用戶下載，方便用戶對Binlog進行二次分析處理。 訪問白名單 RDS支持通過設定IP白名單的方式來控制RDS實例的訪問許可權。 監控與訊息通知 通過RDS控制台可以詳細了解資料庫運行狀態。並且可以通過控制台定製需要的監控策略，當監控項達到監控策略閥值時，RDS將通過簡訊方式進行提醒和通知。 RDS服務的相關變更也會通過電子郵件或簡訊通知功能及時告知。

套用場景

Web 網站 LAMP是常見的網站開發架構，有了RDS用戶不用再為資料庫的最佳化、管理勞神費力。RDS優異的性能為網站的發展壯大，提供強有力的保證。 數據分析
隨著大數據時代的到來，RDS將成為用戶在大數據時代把握時代數據脈搏、進行高效數據分析的得力助手。 數據管理
RDS做為雲上的關系型資料庫服務通過控制台進行簡單、方便的數據管理，並通過高可靠的架構確保您的數據安全。 學習研究
RDS使用簡單、容易上手，無論是用於資料庫套用教學，還是做相關研究都是不錯的選擇。

主流雲資料庫—關系型資料庫

阿里雲關系型資料庫

阿里雲關系型資料庫（Relational Database Service，簡稱RDS）是一種穩定可靠、可彈性伸縮的線上資料庫服務。基於阿里雲分散式檔案系統和SSD糟高性能存儲，RDS支持MySQL、SQL Server、PostgreSQL、PPAS（Postgre Plus Advanced Server，高度兼容Oracle資料庫）和MariaDB TX引擎，並且提供了容災、備份、恢復、監控、遷移等方面的全套解決方案，徹底解決資料庫運維的煩惱。

亞馬遜Redshift

Redshift跨一個主節點和多個工作節點實施分散式資料庫。通過使用AW管理控制台，管理員能夠在集群內增加或刪除節點，以及按實際需要調整資料庫規模。所有的數據都存儲在集群節點或機器實例中。 Redshift集群的實施可通過兩種類型的虛擬機：密集存儲型和密集計算型。密集存儲型虛擬機是專為大數據倉庫套用而進行最佳化的，而密集計算型為計算密集型分析套用提供了更多的CPU。

亞馬遜關系型資料庫服務

亞馬遜關系型資料庫服務（RDS）是專為使用SQL資料庫的事務處理套用而設計的。規模縮放和基本管理任務都可使用AWS管理控制台來實現自動化。AWS可以執行很多常見的資料庫管理任務，例如備份。

主流雲資料庫—非關系型資料庫（NOSQL）

雲資料庫MongoDB版

雲資料庫 MongoDB 版基於飛天分散式系統和高可靠存儲引擎，採用高可用架構。提供容災切換、故障遷移透明化、資料庫線上擴容、備份回滾、性能最佳化等功能。雲資料庫MongoDB支持靈活的部署架構，針對不同的業務場景提供不同的實例架構，包括單節點實例、副本集實例及分片集群實例。

亞馬遜DynamoDB

DynamoDB是亞馬遜公司的NoSQL資料庫產品。其資料庫還可與亞馬遜Lambda集成以幫助管理人員對數據和套用的觸發器進行設定。 DynamoDB特別適用於具有大容量讀寫操作的移動套用。用戶可創建存儲JavaScript對象符號（JSON）文檔的表格，而用戶可指定鍵值對其進行分區。與定義如何分割數據不同，這里無需定義一個正式的架構。

Ⅱ AWS亞馬遜Redshift的特點功能介紹

Redshift即是AWS提供的一款：雲上數據倉庫服務

Redshift同我們前面使用的RDS一樣，是一個全託管的服務（非完全的server less，可以選擇集群數量和性能，但是無需管理）

Redshift同RDS一樣，只需要滑鼠點擊幾下，即可得到一款可用的高性能、高可靠的數據倉庫服務。

但是與RDS不同的是，Redshift可以選擇集群模式，也就是可以選擇Redshift底層，基於多少台硬體伺服器提供算力和存儲。

同時，從概念上也不同，我們列個表格來看一下Redshift和RDS的區別

那麼來看看Redshift有什麼特點。

Amazon Redshift 使用了多種創新技術，對於大小在 100GB 到 1PB 或更高的數據集，可以實現很高的查詢性能，並使用了列式存儲。Amazon Redshift 採用了大規模並行處理 (MPP) 數據倉庫架構，可以對 SQL 操作進行並行分布處理，以便利用所有可用資源。底層硬體支持高性能數據處理，使用本地連接的存儲以便盡可能增大 CPU 與驅動器之間的吞吐量，同時使用 10GigE 網狀網路以便盡可能增大節點之間的吞吐量。

僅需在 AWS 管理控制台中單擊幾下或通過一次簡單的 API 調用，您就能在性能或容量需求發生變化時，輕松更改雲數據倉庫中的節點數量或類型。

利用 Amazon Redshift，您只要用單個 160GB DC2.Large 節點就可開始，並能一路擴展到使用 16TB DS2.8XLarge 節點的 1PB 或者更多壓縮用戶數據。調整大小時，Amazon Redshift 可將您現有的集群置於只讀模式，並預置一個您選定大小的新集群，然後將數據從您的舊集群並行復制到您的新集群。在預置新集群的同時，您可繼續對您的舊集群進行查詢。一旦您的數據被復制到新集群，Amazon Redshift 會自動將查詢重新定向至新集群，並移除舊集群。

Amazon Redshift 處理數據倉庫的管理、監控及擴展所需的所有工作，從監控集群運行狀況、備份到進行修補和升級。

在性能和容量需求發生變化時，您可以輕松調整集群大小。通過處理所有這些耗時耗力的任務，Amazon Redshift 使您得到了解脫並專注於您的數據和業務。

Amazon Redshift 的自動快照功能連續地將集群上的數據備份至 Amazon S3。備份是連續、遞增而自動的。

Amazon Redshift 按用戶定義的期間存儲您的快照，此期間可以是 1 到 35 天。您可在任何時候拍攝您自己的快照，這些快照利用所有現有的系統快照，並可保留到您明確地刪除它們時為止。

Redshift 還能將您的快照非同步復制到另一個區域的 S3 中進行災難恢復。一旦您刪除了某個集群，您的系統快照也將被移除，但您的用戶快照在您明確地刪除它們之前仍可使用。

您可通過 AWS 管理控制台或 Amazon Redshift API 使用任何系統快照或用戶快照來恢復您的集群。

系統元數據恢復後，您的集群就可供使用，並且您可在用戶數據在後台輸出時開始運行查詢。

Amazon Redshift 擁有多種能夠提高數據倉庫集群可靠性的功能。

所有寫入集群內節點的數據均會自動復制到集群內的其他節點，且所有數據會被連續備份至 Amazon S3。Amazon Redshift 會持續監控集群的運行狀況並會自動從出現故障的驅動器重新復制數據，並在必要時替換節點。

並且這一切完全無需用戶管理，AWS為您管理一切，用戶只需要關心業務開發即可。

藉助 Amazon Redshift，您可以配置防火牆規則，以控制對數據倉庫集群的網路訪問。您可以在 Amazon Virtual Private Cloud (Amazon VPC) 中運行 Amazon Redshift，將您的數據倉庫集群隔離在您自己的虛擬網路中。

Amazon Redshift 與 AWS CloudTrail 相集成，使您能夠對所有的 Redshift API 調用進行審計。Amazon Redshift 還會記錄所有的 SQL 操作，包括連接嘗試、查詢和資料庫變動。您可以使用 SQL 查詢在系統表格中訪問這些記錄，或選擇將其下載到 Amazon S3 上的某個位置。

Amazon Redshift 是一種 SQL 數據倉庫解決方案，使用了行業標準的 ODBC 和 JDBC 連接。可以從控制台的連接客戶端選項卡中下載我們的定製 JDBC 和 ODBC 驅動程序。

Amazon Redshift 與其他 AWS 服務相集成，並內置了命令將數據從 Amazon S3、Amazon DynamoDB 或 Amazon EC2 實例以及使用 SSH 的本地伺服器中並行載入到每個節點。Amazon Kinesis 還集成了 Amazon Redshift 作為數據目標。

Ⅲ 如何選擇合適的資料庫

如何選擇資料庫

一般來講，數據分析的查詢不會直接從生產環境的資料庫來讀取數據，一方面是影響線上性能，另一方面是OLTP的表結構設計更多的是面向插入，而不是讀取。如何來選擇合適的資料庫做數據分析呢？本文給出了四方面的考量，拋磚引玉。

1. 客戶要分析什麼樣的數據

2. 客戶分析的數據量是多少

3. 客戶工程師團隊技術背景，運維能力

4. 預期的數據分析的響應時間

客戶要分析什麼樣的數據

上文已簡單介紹了關系型資料庫和非關系型資料庫的區別，這里就不再贅述。下圖是一個簡單的分類。

redshiftsql