非关系型数据库hadoop_非关系型数据库主要包括几类各有什么特点

❶ 从非关系型数据库，如mangoDB ，或关系型数据库oracle,mysql等迁移数据到hadoop的hbase，应该怎么做

只能导出标准的sql语句，在批量替换，导入到hbase，没什么特别直接的方法

❷ GreenPlum和Hadoop什么关系

GreenPlum采取的是PostgreSql框架，是PostgreSql系的重要应用。从这个角度上可以知道GreenPlum是关系型数据库。
Hadoop框架是一种分布式的平台设计理念。它本身不是数据库。其中Impala可以认为是一种非关系型的数据库,
Hive相当于SQL。
分布式，是多个方面的，最主要是存储方面。GreenPlum的分布式主要体现在多个机器文件存储，授权等方面。而Hadoop的文件管理方面，也是分布式的，因为只有分布式的部署才能最大效力的发回Hadoop的功能。
因此可以认为GreenPlum和Hadoop没有直接关系。

❸ 有哪些轻型的非关系型数据库

常见的非关系型数据库有：1、mongodb；2、cassandra；3、redis；4、hbase；5、neo4j。其中mongodb是非常着名的NoSQL数据库，它是一个面向文档的开源数据库。
常见的几种非关系型数据库：
1、MongoDB
MongoDB是最着名的NoSQL数据库。它是一个面向文档的开源数据库。MongoDB是一个可伸缩和可访问的数据库。它在c++中。MongoDB同样可以用作文件系统。在MongoDB中，JavaScript可以作为查询语言使用。通过使用sharding MongoDB水平伸缩。它在流行的JavaScript框架中非常有用。
人们真的很享受分片、高级文本搜索、gridFS和map-rece功能。惊人的性能和新特性使这个NoSQL数据库在我们的列表中名列第一。
特点：提供高性能；自动分片；运行在多个服务器上；支持主从复制；数据以JSON样式文档的形式存储；索引文档中的任何字段；由于数据被放置在碎片中，所以它具有自动负载平衡配置；支持正则表达式搜索；在失败的情况下易于管理。
优点：易于安装MongoDB；MongoDB Inc.为客户提供专业支持；支持临时查询；高速数据库；无模式数据库；横向扩展数据库；性能非常高。
缺点：不支持连接；数据量大；嵌套文档是有限的；增加不必要的内存使用。
2、Cassandra
Cassandra是Facebook为收件箱搜索开发的。Cassandra是一个用于处理大量结构化数据的分布式数据存储系统。通常，这些数据分布在许多普通服务器上。您还可以添加数据存储容量，使您的服务保持在线，您可以轻松地完成这项任务。由于集群中的所有节点都是相同的，因此不需要处理复杂的配置。
Cassandra是用Java编写的。Cassandra查询语言(CQL)是查询Cassandra数据库的一种类似sql的语言。因此，Cassandra在最佳开源数据库中排名第二。Facebook、Twitter、思科(Cisco)、Rackspace、eBay、Twitter、Netflix等一些最大的公司都在使用Cassandra。
特点：线性可伸缩；；保持快速响应时间；支持原子性、一致性、隔离性和耐久性(ACID)等属性；使用Apache Hadoop支持MapRece；分配数据的最大灵活性；高度可伸缩；点对点架构。
优点：高度可伸缩；无单点故障；Multi-DC复制；与其他基于JVM的应用程序紧密集成；更适合多数据中心部署、冗余、故障转移和灾难恢复。
缺点：对聚合的有限支持；不可预知的性能；不支持特别查询。
3、Redis
Redis是一个键值存储。此外，它是最着名的键值存储。Redis支持一些c++、PHP、Ruby、Python、Perl、Scala等等。Redis是用C语言编写的。此外，它是根据BSD授权的。
特点：自动故障转移；将其数据库完全保存在内存中；事务；Lua脚本；将数据复制到任意数量的从属服务器；钥匙的寿命有限；LRU驱逐钥匙；支持发布/订阅。
优点：支持多种数据类型；很容易安装；非常快（每秒执行约11万组，每秒执行约81000次）；操作都是原子的；多用途工具（在许多用例中使用）。
缺点：不支持连接；存储过程所需的Lua知识；数据集必须很好地适应内存。
4、HBase
HBase是一个分布式的、面向列的开源数据库，该技术来源于 Fay Chang 所撰写的Google论文“Bigtable：一个结构化数据的分布式存储系统”。就像Bigtable利用了Google文件系统（File System）所提供的分布式数据存储一样，HBase在Hadoop之上提供了类似于Bigtable的能力。
HBase是Apache的Hadoop项目的子项目。HBase不同于一般的关系数据库，它是一个适合于非结构化数据存储的数据库。另一个不同的是HBase基于列的而不是基于行的模式。
5、neo4j
Neo4j被称为原生图数据库，因为它有效地实现了属性图模型，一直到存储层。这意味着数据完全按照白板的方式存储，数据库使用指针导航和遍历图。Neo4j有数据库的社区版和企业版。企业版包括Community Edition必须提供的所有功能，以及额外的企业需求，如备份、集群和故障转移功能。
特点：它支持唯一的约束；Neo4j支持完整的ACID(原子性、一致性、隔离性和持久性)规则；Java API: Cypher API和本机Java API；使用Apache Lucence索引；简单查询语言Neo4j CQL；包含用于执行CQL命令的UI: Neo4j Data Browser。
优点：容易检索其相邻节点或关系细节，无需连接或索引；易于学习Neo4j CQL查询语言命令；不需要复杂的连接来检索数据；非常容易地表示半结构化数据；大型企业实时应用程序的高可用性；简化的调优。
缺点：不支持分片

❹ GreenPlum和Hadoop什么关系

GreenPlum采取的是PostgreSql框架，是PostgreSql系的重要应用。从这个角度上可以知道GreenPlum是关系型数据库。
Hadoop框架是一种分布式的平台设计理念。它本身不是数据库。其中Impala可以认为是一种非关系型的数据库, Hive相当于SQL。
分布式，是多个方面的，最主要是存储方面。GreenPlum的分布式主要体现在多个机器文件存储，授权等方面。而Hadoop的文件管理方面，也是分布式的，因为只有分布式的部署才能最大效力的发回Hadoop的功能。
因此可以认为GreenPlum和Hadoop没有直接关系。

❺ hadoop与其他nosql数据库的区别

NoSQL是非关系型数据库，Hadoop框架中的HBase即为NoSQL数据库。
Hadoop是分布式软件框架，他有很多子模块，包含HDFS、MapRece以及HBase。

❻ 一份难得的数据库市场分析报告

- 数据库分类维度：关系型/非关系型、交易型/分析型

- NoSQL数据库的进一步分类

- OLTP市场规模：关系型数据库仍占营收大头

- 数据库市场份额：云服务和新兴厂商主导NoSQL

- 开源数据库 vs. 商业数据库

- 数据库三大阵营：传统厂商和云服务提供商

最近由于时间原因我写东西少了，在公众号上也转载过几篇搞数据库朋友的大作。按说我算是外行，没资格在这个领域品头论足，而当我看到下面这份报告时立即产生了学习的兴趣，同时也想就能看懂的部分写点心得体会分享给大家。

可能本文比较适合普及性阅读，让数据库领域资深的朋友见笑了：）

数据库分类维度：关系型/非关系型、交易型/分析型

首先是分类维度，上图中的纵轴分类为Relational Database（关系型数据库，RDBMS）和Nonrelational Database （非关系型数据库，NoSQL），横轴的分类为Operational（交易型，即OLTP）和Analytical（分析型，即OLAP）。

按照习惯我们先看关系型数据库，左上角的交易型类别中包括大家熟悉的商业数据库Oracle、MS SQL Server、DB2、Infomix，也包括开源领域流行的MySQL（MariaDB是它的一个分支）、PostgreSQL，还有云上面比较常见的SQL Azure和Amazon Aurora等。

比较有意思的是，SAP HANA正好位于交易型和分析型的中间分界处，不要忘了SAP还收购了Sybase，尽管后者今天不够风光了，而早年微软的SQL Server都是来源于Sybase。Sybase的ASE数据库和分析型Sybase IQ还是存在的。

右上角的分析型产品中包括几款知名的列式数据仓库Pivotal Greenplum、Teradata和IBM Netezza（已宣布停止支持），来自互联网巨头的Google Big Query和Amazon RedShift。至于Oracle Exadata一体机，它上面运行的也是Oracle数据库，其最初设计用途是OLAP，而在后来发展中也可以良好兼顾OLTP，算是一个跨界产品吧。

再来看非关系型数据库，左下角的交易型产品中，有几个我看着熟悉的MongoDB、Redis、Amazon DynamoDB和DocumentDB等；右下角的分析型产品包括着名的Hadoop分支Cloudera、Hortonworks（这2家已并购），Bigtable（来自Google，Hadoop中的HBase是它的开源实现）、Elasticsearch等。

显然非关系型数据库的分类要更加复杂，产品在应用中的差异化也比传统关系型数据库更大。Willian Blair很负责任地对它们给出了进一步的分类。

NoSQL数据库的进一步分类

上面这个图表应该说很清晰了。非关系型数据库可以分为Document-based Store（基于文档的存储）、Key-Value Store（键值存储）、Graph-based（图数据库）、Time Series（时序数据库），以及Wide Cloumn-based Store（宽列式存储）。

我们再来看下每个细分类别中的产品：

文档存储 ：MongoDB、Amazon DocumentDB、Azure Cosmos DB等

Key-Value存储 ：Redis Labs、Oracle Berkeley DB、Amazon DynamoDB、Aerospike等

图数据库 ：Neo4j等

时序数据库 ：InfluxDB等

WideCloumn ：DataStax、Cassandra、Apache HBase和Bigtable等

多模型数据库 ：支持上面不只一种类别特性的NoSQL，比如MongoDB、Redis Labs、Amazon DynamoDB和Azure Cosmos DB等。

OLTP市场规模：关系型数据库仍占营收大头

上面这个基于IDC数据的交易型数据库市场份额共有3个分类，其中深蓝色部分的关系型数据库（RDBMS，在这里不统计数据挖掘/分析型数据库）占据80%以上的市场。

Dynamic Database（DDMS，动态数据库管理系统，同样不统计Hadoop）就是我们前面聊的非关系型数据库。这部分市场显得小（但发展势头看好），我觉得与互联网等大公司多采用开源+自研，而不买商业产品有关。

而遵循IDC的统计分类，在上图灰色部分的“非关系型数据库市场”其实另有定义，参见下面这段文字：

数据库市场份额：云服务和新兴厂商主导NoSQL

请注意，这里的关系型数据库统计又包含了分析型产品。Oracle营收份额42%仍居第一，随后排名依次为微软、IBM、SAP和Teradata。

代表非关系型数据库的DDMS分类中（这里同样加入Hadoop等），云服务和新兴厂商成为了主导，微软应该是因为云SQL Server的基础而小幅领先于AWS，这2家一共占据超过50%的市场，接下来的排名是Google、Cloudera和Hortonworks（二者加起来13%）。

上面是IDC传统分类中的“非关系型数据库”，在这里IBM和CA等应该主要是针对大型机的产品，InterSystems有一款在国内医疗HIS系统中应用的Caché数据库（以前也是运行在Power小机上比较多）。我就知道这些，余下的就不瞎写了。

开源数据库 vs. 商业数据库

按照流行度来看，开源数据库从2013年到现在一直呈现增长，已经快要追上商业数据库了。

商业产品在关系型数据库的占比仍然高达60.5%，而上表中从这列往左的分类都是开源占优：

Wide Cloumn：开源占比81.8%；

时序数据库：开源占比80.7%；

文档存储：开源占比80.0%；

Key-Value存储：开源占比72.2%；

图数据库：开源占比68.4%；

搜索引擎：开源占比65.3%

按照开源License的授权模式，上面这个三角形越往下管的越宽松。比如MySQL属于GPL，在互联网行业用户较多；而PostgreSQL属于BSD授权，国内有不少数据库公司的产品就是基于Postgre哦。

数据库三大阵营：传统厂商和云服务提供商

前面在讨论市场份额时，我提到过交易型数据库的4个巨头仍然是Oracle、微软、IBM和SAP，在这里William Blair将他们归为第一阵营。

随着云平台的不断兴起，AWS、Azure和GCP（Google Cloud Platform）组成了另一个阵营，在国外分析师的眼里还没有BAT，就像有的朋友所说，国内互联网巨头更多是自身业务导向的，在本土发展公有云还有些优势，短时间内将技术输出到国外的难度应该还比较大。（当然我并不认为国内缺优秀的DBA和研发人才）

第三个阵容就是规模小一些，但比较专注的数据库玩家。

接下来我再带大家简单过一下这前两个阵容，看看具体的数据库产品都有哪些。

甲骨文的产品，我相对熟悉一些的有Oracle Database、MySQL以及Exadata一体机。

IBM DB2也是一个庞大的家族，除了传统针对小型机、x86（好像用的人不多）、z/OS大型机和for i的版本之外，如今也有了针对云和数据挖掘的产品。记得抱枕大师对Informix的技术比较推崇，可惜这个产品发展似乎不太理想。

微软除了看家的SQL Server之外，在Azure云上还能提供MySQL、PostgreSQL和MariaDB开源数据库。应该说他们是传统软件License+PaaS服务两条腿走路的。

如今人们一提起SAP的数据库就想起HANA，之前从Sybase收购来的ASE（Adaptive Server Enterprise）和IQ似乎没有之前发展好了。

在云服务提供商数据库的3巨头中，微软有SQL Server的先天优势，甚至把它移植到了Linux拥抱开源平台。关系型数据库的创新方面值得一提的是Amazon Aurora和Google Spanner（也有非关系型特性），至于它们具体好在哪里我就不装内行了：）

非关系型数据库则是Amazon全面开花，这与其云计算业务发展早并且占据优势有关。Google当年的三篇经典论文对业界影响深远，Yahoo基于此开源的Hadoop有一段时间几乎是大数据的代名词。HBase和Hive如今已不再是人们讨论的热点，而Bigtable和BigQuery似乎仍然以服务Google自身业务为主，毕竟GCP的规模比AWS要小多了。

最后这张DB-Engines的排行榜，相信许多朋友都不陌生，今年3月已经不是最新的数据，在这里列出只是给大家一个参考。该排行榜几乎在每次更新时，都会有国内数据库专家撰写点评。

以上是我周末的学习笔记，班门弄斧，希望对大家有帮助。

参考资料《Database Software Market:The Long-Awaited Shake-up》

https://blocksandfiles.com/wp-content/uploads/2019/03/Database-Software-Market-White-Paper.pdf

扩展阅读：《 数据库&存储：互相最想知道的事 》

尊重知识，转载时请保留全文。感谢您的阅读和支持！

❼ 非关系型数据库主要包括几类各有什么特点

NoSQL描述的是大量结构化数据存储方法的集合，根据结构化方法以及应用场合的不同，主要可以将NoSQL分为以下几类。

(1)Column-Oriented
面向检索的列式存储，其存储结构为列式结构，同于关系型数据库的行式结构，这种结构会让很多统计聚合操作更简单方便，使系统具有较高的可扩展性。这类数据库还可以适应海量数据的增加以及数据结构的变化，这个特点与云计算所需的相关需求是相符合的，比如GoogleAppengine的BigTable以及相同设计理念的Hadoop子系统HaBase就是这类的典型代表。需要特别指出的是，Big Table特别适用于MapRece处理，这对于云计算的发展有很高的适应性。

(2)Key-Value。
面向高性能并发读/写的缓存存储，其结构类似于数据结构中的Hash表，每个Key分别对应一个Value,能够提供非常快的查询速度、大数据存放量和高并发操作，非常适合通过主键对数据进行查询和修改等操作。Key-Value数据库的主要特点是具有极高的并发读/写性能，非常适合作为缓存系统使用。MemcacheDB、BerkeleyDB、Redis、Flare就是Key-Value数据库的代表。

(3)Document-Oriented。
面向海量数据访问的文档存储，这类存储的结构与Key-Value非常相似，也是每个Key分别对应一个Value,但是这个Value主要以JSON(JavaScriptObjectNotations)或者XML等格式的文档来进行存储。这种存储方式可以很方便地被面向对象的语言所使用。这类数据库可在海量的数据中快速查询数据，典型代表为MongoDB、CouchDB等。

NoSQL具有扩展简单、高并发、高稳定性、成本低廉等优势，也存在一些问题。例如，NoSQL暂不提供SQL的支持，会造成开发人员的额外学习成本;NoSQL大多为开源软件其成熟度与商用的关系型数据库系统相比有差距;NoSQL的架构特性决定了其很难保证数据的完整性，适合在一些特殊的应用场景使用。

❽ 数据库都有哪些

常用数据库有mysql、oracle、sqlserver、sqlite等。mysql性能较好，适用于所有平台，是当前最流行的关系型数据库之一。sqlserver数据库具有扩展性和可维护性，且安全性较高，是比较全面的数据库。

❾ hadoop是做什么的

提供海量数据存储和计算的，需要java语言基础。

Hadoop实现了一个分布式文件系统（Hadoop Distributed File System），简称HDFS。有高容错性的特点，并且设计用来部署在低廉的（low-cost）硬件上；而且它提供高吞吐量来访问应用程序的数据，适合那些有着超大数据集（large data set）的应用程序。

特点

1、快照支持在一个特定时间存储一个数据拷贝，快照可以将失效的集群回滚到之前一个正常的时间点上。HDFS已经支持元数据快照。

2、HDFS的设计是用于支持大文件的。运行在HDFS上的程序也是用于处理大数据集的。这些程序仅写一次数据，一次或多次读数据请求，并且这些读操作要求满足流式传输速度。

HDFS支持文件的一次写多次读操作。HDFS中典型的块大小是64MB，一个HDFS文件可以被切分成多个64MB大小的块，如果需要，每一个块可以分布在不同的数据节点上。

3、阶段状态：一个客户端创建一个文件的请求并不会立即转发到名字节点。实际上，一开始HDFS客户端将文件数据缓存在本地的临时文件中。

非关系型数据库hadoop

与非关系型数据库hadoop相关的内容