非關系型資料庫hadoop_非關系型資料庫主要包括幾類各有什麼特點

❶ 從非關系型資料庫，如mangoDB ，或關系型資料庫oracle,mysql等遷移數據到hadoop的hbase，應該怎麼做

只能導出標準的sql語句，在批量替換，導入到hbase，沒什麼特別直接的方法

❷ GreenPlum和Hadoop什麼關系

GreenPlum採取的是PostgreSql框架，是PostgreSql系的重要應用。從這個角度上可以知道GreenPlum是關系型資料庫。
Hadoop框架是一種分布式的平台設計理念。它本身不是資料庫。其中Impala可以認為是一種非關系型的資料庫,
Hive相當於SQL。
分布式，是多個方面的，最主要是存儲方面。GreenPlum的分布式主要體現在多個機器文件存儲，授權等方面。而Hadoop的文件管理方面，也是分布式的，因為只有分布式的部署才能最大效力的發回Hadoop的功能。
因此可以認為GreenPlum和Hadoop沒有直接關系。

❸ 有哪些輕型的非關系型資料庫

常見的非關系型資料庫有：1、mongodb；2、cassandra；3、redis；4、hbase；5、neo4j。其中mongodb是非常著名的NoSQL資料庫，它是一個面向文檔的開源資料庫。
常見的幾種非關系型資料庫：
1、MongoDB
MongoDB是最著名的NoSQL資料庫。它是一個面向文檔的開源資料庫。MongoDB是一個可伸縮和可訪問的資料庫。它在c++中。MongoDB同樣可以用作文件系統。在MongoDB中，JavaScript可以作為查詢語言使用。通過使用sharding MongoDB水平伸縮。它在流行的JavaScript框架中非常有用。
人們真的很享受分片、高級文本搜索、gridFS和map-rece功能。驚人的性能和新特性使這個NoSQL資料庫在我們的列表中名列第一。
特點：提供高性能；自動分片；運行在多個伺服器上；支持主從復制；數據以JSON樣式文檔的形式存儲；索引文檔中的任何欄位；由於數據被放置在碎片中，所以它具有自動負載平衡配置；支持正則表達式搜索；在失敗的情況下易於管理。
優點：易於安裝MongoDB；MongoDB Inc.為客戶提供專業支持；支持臨時查詢；高速資料庫；無模式資料庫；橫向擴展資料庫；性能非常高。
缺點：不支持連接；數據量大；嵌套文檔是有限的；增加不必要的內存使用。
2、Cassandra
Cassandra是Facebook為收件箱搜索開發的。Cassandra是一個用於處理大量結構化數據的分布式數據存儲系統。通常，這些數據分布在許多普通伺服器上。您還可以添加數據存儲容量，使您的服務保持在線，您可以輕松地完成這項任務。由於集群中的所有節點都是相同的，因此不需要處理復雜的配置。
Cassandra是用Java編寫的。Cassandra查詢語言(CQL)是查詢Cassandra資料庫的一種類似sql的語言。因此，Cassandra在最佳開源資料庫中排名第二。Facebook、Twitter、思科(Cisco)、Rackspace、eBay、Twitter、Netflix等一些最大的公司都在使用Cassandra。
特點：線性可伸縮；；保持快速響應時間；支持原子性、一致性、隔離性和耐久性(ACID)等屬性；使用Apache Hadoop支持MapRece；分配數據的最大靈活性；高度可伸縮；點對點架構。
優點：高度可伸縮；無單點故障；Multi-DC復制；與其他基於JVM的應用程序緊密集成；更適合多數據中心部署、冗餘、故障轉移和災難恢復。
缺點：對聚合的有限支持；不可預知的性能；不支持特別查詢。
3、Redis
Redis是一個鍵值存儲。此外，它是最著名的鍵值存儲。Redis支持一些c++、PHP、Ruby、Python、Perl、Scala等等。Redis是用C語言編寫的。此外，它是根據BSD授權的。
特點：自動故障轉移；將其資料庫完全保存在內存中；事務；Lua腳本；將數據復制到任意數量的從屬伺服器；鑰匙的壽命有限；LRU驅逐鑰匙；支持發布/訂閱。
優點：支持多種數據類型；很容易安裝；非常快（每秒執行約11萬組，每秒執行約81000次）；操作都是原子的；多用途工具（在許多用例中使用）。
缺點：不支持連接；存儲過程所需的Lua知識；數據集必須很好地適應內存。
4、HBase
HBase是一個分布式的、面向列的開源資料庫，該技術來源於 Fay Chang 所撰寫的Google論文「Bigtable：一個結構化數據的分布式存儲系統」。就像Bigtable利用了Google文件系統（File System）所提供的分布式數據存儲一樣，HBase在Hadoop之上提供了類似於Bigtable的能力。
HBase是Apache的Hadoop項目的子項目。HBase不同於一般的關系資料庫，它是一個適合於非結構化數據存儲的資料庫。另一個不同的是HBase基於列的而不是基於行的模式。
5、neo4j
Neo4j被稱為原生圖資料庫，因為它有效地實現了屬性圖模型，一直到存儲層。這意味著數據完全按照白板的方式存儲，資料庫使用指針導航和遍歷圖。Neo4j有資料庫的社區版和企業版。企業版包括Community Edition必須提供的所有功能，以及額外的企業需求，如備份、集群和故障轉移功能。
特點：它支持唯一的約束；Neo4j支持完整的ACID(原子性、一致性、隔離性和持久性)規則；Java API: Cypher API和本機Java API；使用Apache Lucence索引；簡單查詢語言Neo4j CQL；包含用於執行CQL命令的UI: Neo4j Data Browser。
優點：容易檢索其相鄰節點或關系細節，無需連接或索引；易於學習Neo4j CQL查詢語言命令；不需要復雜的連接來檢索數據；非常容易地表示半結構化數據；大型企業實時應用程序的高可用性；簡化的調優。
缺點：不支持分片

❹ GreenPlum和Hadoop什麼關系

GreenPlum採取的是PostgreSql框架，是PostgreSql系的重要應用。從這個角度上可以知道GreenPlum是關系型資料庫。
Hadoop框架是一種分布式的平台設計理念。它本身不是資料庫。其中Impala可以認為是一種非關系型的資料庫, Hive相當於SQL。
分布式，是多個方面的，最主要是存儲方面。GreenPlum的分布式主要體現在多個機器文件存儲，授權等方面。而Hadoop的文件管理方面，也是分布式的，因為只有分布式的部署才能最大效力的發回Hadoop的功能。
因此可以認為GreenPlum和Hadoop沒有直接關系。

❺ hadoop與其他nosql資料庫的區別

NoSQL是非關系型資料庫，Hadoop框架中的HBase即為NoSQL資料庫。
Hadoop是分布式軟體框架，他有很多子模塊，包含HDFS、MapRece以及HBase。

❻ 一份難得的資料庫市場分析報告

- 資料庫分類維度：關系型/非關系型、交易型/分析型

- NoSQL資料庫的進一步分類

- OLTP市場規模：關系型資料庫仍占營收大頭

- 資料庫市場份額：雲服務和新興廠商主導NoSQL

- 開源資料庫 vs. 商業資料庫

- 資料庫三大陣營：傳統廠商和雲服務提供商

最近由於時間原因我寫東西少了，在公眾號上也轉載過幾篇搞資料庫朋友的大作。按說我算是外行，沒資格在這個領域品頭論足，而當我看到下面這份報告時立即產生了學習的興趣，同時也想就能看懂的部分寫點心得體會分享給大家。

可能本文比較適合普及性閱讀，讓資料庫領域資深的朋友見笑了：）

資料庫分類維度：關系型/非關系型、交易型/分析型

首先是分類維度，上圖中的縱軸分類為Relational Database（關系型資料庫，RDBMS）和Nonrelational Database （非關系型資料庫，NoSQL），橫軸的分類為Operational（交易型，即OLTP）和Analytical（分析型，即OLAP）。

按照習慣我們先看關系型資料庫，左上角的交易型類別中包括大家熟悉的商業資料庫Oracle、MS SQL Server、DB2、Infomix，也包括開源領域流行的MySQL（MariaDB是它的一個分支）、PostgreSQL，還有雲上面比較常見的SQL Azure和Amazon Aurora等。

比較有意思的是，SAP HANA正好位於交易型和分析型的中間分界處，不要忘了SAP還收購了Sybase，盡管後者今天不夠風光了，而早年微軟的SQL Server都是來源於Sybase。Sybase的ASE資料庫和分析型Sybase IQ還是存在的。

右上角的分析型產品中包括幾款知名的列式數據倉庫Pivotal Greenplum、Teradata和IBM Netezza（已宣布停止支持），來自互聯網巨頭的Google Big Query和Amazon RedShift。至於Oracle Exadata一體機，它上面運行的也是Oracle資料庫，其最初設計用途是OLAP，而在後來發展中也可以良好兼顧OLTP，算是一個跨界產品吧。

再來看非關系型資料庫，左下角的交易型產品中，有幾個我看著熟悉的MongoDB、Redis、Amazon DynamoDB和DocumentDB等；右下角的分析型產品包括著名的Hadoop分支Cloudera、Hortonworks（這2家已並購），Bigtable（來自Google，Hadoop中的HBase是它的開源實現）、Elasticsearch等。

顯然非關系型資料庫的分類要更加復雜，產品在應用中的差異化也比傳統關系型資料庫更大。Willian Blair很負責任地對它們給出了進一步的分類。

NoSQL資料庫的進一步分類

上面這個圖表應該說很清晰了。非關系型資料庫可以分為Document-based Store（基於文檔的存儲）、Key-Value Store（鍵值存儲）、Graph-based（圖資料庫）、Time Series（時序資料庫），以及Wide Cloumn-based Store（寬列式存儲）。

我們再來看下每個細分類別中的產品：

文檔存儲 ：MongoDB、Amazon DocumentDB、Azure Cosmos DB等

Key-Value存儲 ：Redis Labs、Oracle Berkeley DB、Amazon DynamoDB、Aerospike等

圖資料庫 ：Neo4j等

時序資料庫 ：InfluxDB等

WideCloumn ：DataStax、Cassandra、Apache HBase和Bigtable等

多模型資料庫 ：支持上面不只一種類別特性的NoSQL，比如MongoDB、Redis Labs、Amazon DynamoDB和Azure Cosmos DB等。

OLTP市場規模：關系型資料庫仍占營收大頭

上面這個基於IDC數據的交易型資料庫市場份額共有3個分類，其中深藍色部分的關系型資料庫（RDBMS，在這里不統計數據挖掘/分析型資料庫）占據80%以上的市場。

Dynamic Database（DDMS，動態資料庫管理系統，同樣不統計Hadoop）就是我們前面聊的非關系型資料庫。這部分市場顯得小（但發展勢頭看好），我覺得與互聯網等大公司多採用開源+自研，而不買商業產品有關。

而遵循IDC的統計分類，在上圖灰色部分的「非關系型資料庫市場」其實另有定義，參見下面這段文字：

資料庫市場份額：雲服務和新興廠商主導NoSQL

請注意，這里的關系型資料庫統計又包含了分析型產品。Oracle營收份額42%仍居第一，隨後排名依次為微軟、IBM、SAP和Teradata。

代表非關系型資料庫的DDMS分類中（這里同樣加入Hadoop等），雲服務和新興廠商成為了主導，微軟應該是因為雲SQL Server的基礎而小幅領先於AWS，這2家一共占據超過50%的市場，接下來的排名是Google、Cloudera和Hortonworks（二者加起來13%）。

上面是IDC傳統分類中的「非關系型資料庫」，在這里IBM和CA等應該主要是針對大型機的產品，InterSystems有一款在國內醫療HIS系統中應用的Caché資料庫（以前也是運行在Power小機上比較多）。我就知道這些，餘下的就不瞎寫了。

開源資料庫 vs. 商業資料庫

按照流行度來看，開源資料庫從2013年到現在一直呈現增長，已經快要追上商業資料庫了。

商業產品在關系型資料庫的佔比仍然高達60.5%，而上表中從這列往左的分類都是開源占優：

Wide Cloumn：開源佔比81.8%；

時序資料庫：開源佔比80.7%；

文檔存儲：開源佔比80.0%；

Key-Value存儲：開源佔比72.2%；

圖資料庫：開源佔比68.4%；

搜索引擎：開源佔比65.3%

按照開源License的授權模式，上面這個三角形越往下管的越寬松。比如MySQL屬於GPL，在互聯網行業用戶較多；而PostgreSQL屬於BSD授權，國內有不少資料庫公司的產品就是基於Postgre哦。

資料庫三大陣營：傳統廠商和雲服務提供商

前面在討論市場份額時，我提到過交易型資料庫的4個巨頭仍然是Oracle、微軟、IBM和SAP，在這里William Blair將他們歸為第一陣營。

隨著雲平台的不斷興起，AWS、Azure和GCP（Google Cloud Platform）組成了另一個陣營，在國外分析師的眼裡還沒有BAT，就像有的朋友所說，國內互聯網巨頭更多是自身業務導向的，在本土發展公有雲還有些優勢，短時間內將技術輸出到國外的難度應該還比較大。（當然我並不認為國內缺優秀的DBA和研發人才）

第三個陣容就是規模小一些，但比較專注的資料庫玩家。

接下來我再帶大家簡單過一下這前兩個陣容，看看具體的資料庫產品都有哪些。

甲骨文的產品，我相對熟悉一些的有Oracle Database、MySQL以及Exadata一體機。

IBM DB2也是一個龐大的家族，除了傳統針對小型機、x86（好像用的人不多）、z/OS大型機和for i的版本之外，如今也有了針對雲和數據挖掘的產品。記得抱枕大師對Informix的技術比較推崇，可惜這個產品發展似乎不太理想。

微軟除了看家的SQL Server之外，在Azure雲上還能提供MySQL、PostgreSQL和MariaDB開源資料庫。應該說他們是傳統軟體License+PaaS服務兩條腿走路的。

如今人們一提起SAP的資料庫就想起HANA，之前從Sybase收購來的ASE（Adaptive Server Enterprise）和IQ似乎沒有之前發展好了。

在雲服務提供商資料庫的3巨頭中，微軟有SQL Server的先天優勢，甚至把它移植到了Linux擁抱開源平台。關系型資料庫的創新方面值得一提的是Amazon Aurora和Google Spanner（也有非關系型特性），至於它們具體好在哪裡我就不裝內行了：）

非關系型資料庫則是Amazon全面開花，這與其雲計算業務發展早並且占據優勢有關。Google當年的三篇經典論文對業界影響深遠，Yahoo基於此開源的Hadoop有一段時間幾乎是大數據的代名詞。HBase和Hive如今已不再是人們討論的熱點，而Bigtable和BigQuery似乎仍然以服務Google自身業務為主，畢竟GCP的規模比AWS要小多了。

最後這張DB-Engines的排行榜，相信許多朋友都不陌生，今年3月已經不是最新的數據，在這里列出只是給大家一個參考。該排行榜幾乎在每次更新時，都會有國內資料庫專家撰寫點評。

以上是我周末的學習筆記，班門弄斧，希望對大家有幫助。

參考資料《Database Software Market:The Long-Awaited Shake-up》

https://blocksandfiles.com/wp-content/uploads/2019/03/Database-Software-Market-White-Paper.pdf

擴展閱讀：《 資料庫&存儲：互相最想知道的事 》

尊重知識，轉載時請保留全文。感謝您的閱讀和支持！

❼ 非關系型資料庫主要包括幾類各有什麼特點

NoSQL描述的是大量結構化數據存儲方法的集合，根據結構化方法以及應用場合的不同，主要可以將NoSQL分為以下幾類。

(1)Column-Oriented
面向檢索的列式存儲，其存儲結構為列式結構，同於關系型資料庫的行式結構，這種結構會讓很多統計聚合操作更簡單方便，使系統具有較高的可擴展性。這類資料庫還可以適應海量數據的增加以及數據結構的變化，這個特點與雲計算所需的相關需求是相符合的，比如GoogleAppengine的BigTable以及相同設計理念的Hadoop子系統HaBase就是這類的典型代表。需要特別指出的是，Big Table特別適用於MapRece處理，這對於雲計算的發展有很高的適應性。

(2)Key-Value。
面向高性能並發讀/寫的緩存存儲，其結構類似於數據結構中的Hash表，每個Key分別對應一個Value,能夠提供非常快的查詢速度、大數據存放量和高並發操作，非常適合通過主鍵對數據進行查詢和修改等操作。Key-Value資料庫的主要特點是具有極高的並發讀/寫性能，非常適合作為緩存系統使用。MemcacheDB、BerkeleyDB、Redis、Flare就是Key-Value資料庫的代表。

(3)Document-Oriented。
面向海量數據訪問的文檔存儲，這類存儲的結構與Key-Value非常相似，也是每個Key分別對應一個Value,但是這個Value主要以JSON(JavaScriptObjectNotations)或者XML等格式的文檔來進行存儲。這種存儲方式可以很方便地被面向對象的語言所使用。這類資料庫可在海量的數據中快速查詢數據，典型代表為MongoDB、CouchDB等。

NoSQL具有擴展簡單、高並發、高穩定性、成本低廉等優勢，也存在一些問題。例如，NoSQL暫不提供SQL的支持，會造成開發人員的額外學習成本;NoSQL大多為開源軟體其成熟度與商用的關系型資料庫系統相比有差距;NoSQL的架構特性決定了其很難保證數據的完整性，適合在一些特殊的應用場景使用。

❽ 資料庫都有哪些

常用資料庫有mysql、oracle、sqlserver、sqlite等。mysql性能較好，適用於所有平台，是當前最流行的關系型資料庫之一。sqlserver資料庫具有擴展性和可維護性，且安全性較高，是比較全面的資料庫。

❾ hadoop是做什麼的

提供海量數據存儲和計算的，需要java語言基礎。

Hadoop實現了一個分布式文件系統（Hadoop Distributed File System），簡稱HDFS。有高容錯性的特點，並且設計用來部署在低廉的（low-cost）硬體上；而且它提供高吞吐量來訪問應用程序的數據，適合那些有著超大數據集（large data set）的應用程序。

特點

1、快照支持在一個特定時間存儲一個數據拷貝，快照可以將失效的集群回滾到之前一個正常的時間點上。HDFS已經支持元數據快照。

2、HDFS的設計是用於支持大文件的。運行在HDFS上的程序也是用於處理大數據集的。這些程序僅寫一次數據，一次或多次讀數據請求，並且這些讀操作要求滿足流式傳輸速度。

HDFS支持文件的一次寫多次讀操作。HDFS中典型的塊大小是64MB，一個HDFS文件可以被切分成多個64MB大小的塊，如果需要，每一個塊可以分布在不同的數據節點上。

3、階段狀態：一個客戶端創建一個文件的請求並不會立即轉發到名位元組點。實際上，一開始HDFS客戶端將文件數據緩存在本地的臨時文件中。

非關系型資料庫hadoop

與非關系型資料庫hadoop相關的內容