hbasesql引擎_如何选择基于Hadoop的SQL引擎

㈠大数据平台的软件有哪些

一、Phoenix

这是一个Java中间层，可以让开发者在Apache HBase上执行sql查询。Phoenix完全使用Java编写，代码位于GitHub上，并且提供了一个客户端可嵌入的JDBC驱动。

Phoenix查询引擎会将SQL查询转换为一个或多个HBase scan，并编排执行以生成标准的JDBC结果集。直接使用HBase API、协同处理器与自定义过滤器，对于简单查询来说，其性能量级是毫秒，对于百万级别的行数来说，其性能量级是秒。

二、Presto

Facebook开源的数据查询引擎Presto ，可对250PB以上的数据进行快速地交互式分析。该项目始于 2012 年秋季开始开发，目前该项目已经在超过 1000 名 Facebook 雇员中使用，运行超过 30000 个查询，每日数据在 1PB 级别。Facebook 称 Presto 的性能比诸如 Hive 和 Map*Rece 要好上 10 倍有多。

Presto 当前支持 ANSI SQL 的大多数特效，包括联合查询、左右联接、子查询以及一些聚合和计算函数;支持近似截然不同的计数(DISTINCT COUNT)等。

三、Shark

Shark即Hive on Spark，本质上是通过Hive的HQL解析，把HQL翻译成Spark上的RDD操作，然后通过Hive的metadata获取数据库里的表信息，实际HDFS上的数据和文件，会由Shark获取并放到Spark上运算。Shark的特点就是快，完全兼容Hive，且可以在shell模式下使用rdd2sql()这样的API，把HQL得到的结果集，继续在scala环境下运算，支持自己编写简单的机器学习或简单分析处理函数，对HQL结果进一步分析计算。

关于大数据平台的软件有哪些，青藤小编就和您分享到这里了。如果您对大数据工程有浓厚的兴趣，希望这篇文章可以为您提供帮助。如果您还想了解更多关于数据分析师、大数据工程师的技巧及素材等内容，可以点击本站的其他文章进行学习。

以上是小编为大家分享的关于大数据平台的软件有哪些?的相关内容，更多信息可以关注环球青藤分享更多干货

㈡大数据平台的软件有哪些

一、Phoenix
简介：这是一个Java中间层，可以让开发者在Apache HBase上执行SQL查询。Phoenix完全使用Java编写，代码位于GitHub上，并且提供了一个客户端可嵌入的JDBC驱动。
Phoenix查询引擎会将SQL查询转换为一个或多个HBase scan，并编排执行以生成标准的JDBC结果集。直接使用HBase API、协同处理器与自定义过滤器，对于简单查询来说，其性能量级是毫秒，对于百万级别的行数来说，其性能量级是秒
二、Stinger
简介：原叫Tez，下一代Hive,Hortonworks主导开发，运行在YARN上的DAG计算框架。
某些测试下，Stinger能提升10倍左右的性能，同时会让Hive支持更多的SQL，其主要优点包括：
❶让用户在Hadoop获得更多的查询匹配。其中包括类似OVER的字句分析功能，支持WHERE查询，让Hive的样式系统更符合SQL模型。
❷优化了Hive请求执行计划，优化后请求时间减少90%。改动了Hive执行引擎，增加单Hive任务的被秒处理记录数。
❸在Hive社区中引入了新的列式文件格式（如ORC文件），提供一种更现代、高效和高性能的方式来储存Hive数据。
三、Presto
简介：Facebook开源的数据查询引擎Presto ，可对250PB以上的数据进行快速地交互式分析。该项目始于 2012 年秋季开始开发，目前该项目已经在超过 1000 名 Facebook 雇员中使用，运行超过 30000 个查询，每日数据在 1PB 级别。Facebook 称 Presto 的性能比诸如 Hive 和 Map*Rece 要好上 10 倍有多。
Presto 当前支持 ANSI SQL 的大多数特效，包括联合查询、左右联接、子查询以及一些聚合和计算函数；支持近似截然不同的计数(DISTINCT COUNT)等。

㈢为啥HBase需要搭建SQL引擎层

现有的SQL解决方案通常都不是水平可伸缩的，因此当数据量变大时会遇到障碍。但是这样的情况，随着NoSQL的出现已经得到很大程度的缓解，并且随着NoSQL技术的完善与成熟，这种情况将会从根本上解决。

我们知道NoSQL区别于关系型数据库的一点就是NoSQL不使用SQL作为查询语言，至于为何在NoSQL数据存储HBase上提供SQL接口，有如下原因：

1.使用诸如SQL这样易于理解的语言，使人们能够更加轻松地使用HBase。

2.使用诸如SQL这样更高层次的语言来编写，减少了编写的代码量。

3.执行查询时，在数据访问与运行时执行之间加上SQL这样一层抽象可以进行大量优化。例如，对于GROUP
BY查询来说，利用HBase中协同处理器，聚合可以在服务器上进行，而不必在客户端，这么做会极大减少客户端与服务器之间传输的数据量。此外，也可以在客户端并行执行GROUP
BY，这是根据行健的范围来截断扫描而实现的。通过并行执行，结果会更快的返回。所有这些优化无需用户参与，只需执行查询即可。

基于HBase的SQL引擎实现

现阶段业内有一些关于HBase SQL引擎层的尝试，已经有一些比较稳定的解决方案和现实。

1.Hive整合HBase

Hive与HBase的整合功能从Hive0.6.0版本已经开始出现，利用两者对外的API接口互相通信，通信主要依靠hive_hbase-handler.jar工具包（Hive
Storage
Handlers）。由于HBase有一次比较大的版本变动，所以并不是每个版本的Hive都能和现有的HBase版本进行整合，所以在使用过程中特别注意的就是两者版本的一致性。

2.Phoenix

Phoenix由Salesforce.com开源，是构建在Apache
HBase之上的一个SQL中间层，可以让开发者在HBase上执行SQL查询。Phoenix
完全使用Java编写，代码位于Github上，并且提供了一个客户端可嵌入的JDBC驱动。对于10w到100w行的简单查询来说，Phoenix要胜于Hive。

3.Kundera

Kundera 是一个JPA2.0兼容的NoSQL数据存储的对象映射框架。Kundera基于现有类库构建，封装出简易的API，其主要特性有：

1）支持交叉数据存储持久性，这意味着用户可以在不同的数据存储使用单一方法存储和获取相关实体。

2)能够很好地管理事务，同时支持EntityTransaction和Java Transaction API（JPA）。

3) 兼容JPA2.0，严格使用JPA注释对象映射到数据存储表。

4) 目前支持的NoSQL服务器包括: HBase,MongoDB,Redis,Neo4j等。

还有其它一些解决方案，例如：Lealone,hbase-sql,Impala等，要么不成熟，要么停止更新了，要么具有局限性。读者对其感兴趣，可以自行去了解。

㈣大数据是不是特别难学，都要学哪些内容，有知道的吗

大数据专业难度较大，建议本科毕业后再学，主要课程内容包括6大模块：

①java：一门面向对象的计算机编程语言，具有功能强大和简单易用两个特征。

②spark：专为大规模数据处理而设计的快速通用的计算引擎。

③SSM：常作为数据源较简单的web项目的框架。

④Hadoop：分布式计算和存储的框架，需要有java语言基础。

⑤spring cloud：一系列框架的有序集合，他巧妙地简化了分布式系统基础设施的开发。

⑤python：一个高层次的结合了解释性、编译性、互动性和面向对象的脚本语言。

北大青鸟中博软件学院大数据课堂实拍

㈤大数据运算的三种引擎是什么有什么区别

现在流行的开源引擎可不止三个，先罗列5个给你：
1)Hive，披着SQL外衣的Map-Rece。Hive是为方便用户使用Map-Rece而在外面封装了一层SQL，由于Hive采用了SQL，它的问题域比Map-Rece更窄，因为很多问题，SQL表达不出来，比如一些数据挖掘算法，推荐算法、图像识别算法等，这些仍只能通过编写Map-Rece完成。
2) Impala：Google Dremel的开源实现（Apache Drill类似），因为交互式实时计算需求，Cloudera推出了Impala系统，该系统适用于交互式实时处理场景，要求最后产生的数据量一定要少。
3)Shark/Spark：为了提高Map-Rece的计算效率，Berkeley的AMPLab实验室开发了Spark，Spark可看做基于内存的Map-Rece实现，此外，伯克利还在Spark基础上封装了一层SQL，产生了一个新的类似Hive的系统Shark。
4) Stinger Initiative（Tez optimized Hive）：Hortonworks开源了一个DAG计算框架Tez，Tez可以理解为Google Pregel的开源实现，该框架可以像Map-Rece一样，可以用来设计DAG应用程序，但需要注意的是，Tez只能运行在YARN上。Tez的一个重要应用是优化Hive和PIG这种典型的DAG应用场景，它通过减少数据读写IO，优化DAG流程使得Hive速度提供了很多倍。
5)Presto：FaceBook于2013年11月份开源了Presto，一个分布式SQL查询引擎，它被设计为用来专门进行高速、实时的数据分析。它支持标准的ANSI SQL，包括复杂查询、聚合（aggregation）、连接（join）和窗口函数（window functions)。Presto设计了一个简单的数据存储的抽象层，来满足在不同数据存储系统（包括HBase、HDFS、Scribe等）之上都可以使用SQL进行查询。

㈥大数据知识点里面的 HBase 是什么意思

HBase是一个分布式的、面向列的开源数据库，基于Hadoop生态圈，在NoSQL蓬勃发展的今天被国内外众多公司选择，应用于现代互联网系统的不同业务。
HBase业务场景
1.标签数据的存储
标签数据是稀疏矩阵的代表，描述了实体的各类属性，主要应用于智能推荐、商务智能或营销引擎等领域。
2. 车联网数据的收集
车联网系统是利用车载设备收集车辆运行时产生的各项数据，通过网络实时上传，在平台进行动态分析和利用。
3. 交易记录的保存
在移动支付领域，保证历史交易记录等敏感信息的安全性是一个重要的话题。当数据中心遭遇自然灾害、外部攻击时，必须保证这些信息不丢，而且从业务角度要保证RTO尽可能短、RPO尽可能为0。
HBase基于底层的HDFS作为存储系统，HDFS实现了三副本策略，按照一定的规则将副本放在不同的节点或机架中，本身具有较高的容灾能力。在工程实践中，也产生了Region replica、主备集群、互备双活等策略来尽可能进行灾备并保证高可用。

㈦如何选择基于Hadoop的SQL引擎

在Hadoop和NoSQL技术中，人们逐渐把焦点转移到了Hadoop上的SQL引擎。今天，可选择的引擎越来越多，反倒让组织陷入了选择困境。本文将罗列几点选择引擎时需要考量的因素，供您参考。
基于Hadoop的SQL技术一大优势在于可以使用熟悉的SQL语言，访问存储在Hadoop中的大数据集。
用户几乎可以应用任何报表或工具来分析和研究数据。在Hadoop上还不能应用SQL的时候，要访问Hadoop中的大数据集，需要十分了解Hadoop
的技术应用程序界面，比如HDFS、MapRece或HBase。现在有了基于Hadoop的SQL引擎，每个人都可以使用他喜欢的工具了。对企业而
言，相当于Hadoop开放了更大的窗口，有更多的企业可以应用Hadoop处理大数据。
有哪些技术可以选择

第一个基于Hadoop的SQL引擎是Apache Hive，不过过去一年里，有很多新产品出现，包括CitusDB、Cloudera
Impala、Concurrent Lingual、Hadapt、InfiniDB、 JethroData、MammothDB、Apache
Drill、MemSQL、Pivotal HawQ、Progress DataDirect、ScleraDB、Simba和Splice
Machine。
除了上述引擎之外，数据虚拟化服务器也应在此列，因为它们对Hadoop数据实现了SQL访问。虚拟化服务器可以访问所有数据源，包括Hadoop，不同的数据源都可以集成。数据虚拟化服务器有很多，包括Cirro Data Hub、Cisco/Composite

当然，还有一些SQL数据库管理系统也支持多种数据源。它们在自己的SQL数据库或Hadoop中存储数据，提供对Hadoop数据的SQL访问。比如
EMC/Greenplum UAP、 HP Vertica （on MapR）、Microsoft PolyBase、Actian
ParAccel 和Teradata Aster Database （via SQL-H）。
这么多基于Hadoop的SQL工具可以使用，可以说是让组织眼花缭乱。那么该如何选择呢？它们彼此的差别又在哪呢？
事实上，不同的技术之间差别很大，比如说，CitusDB知道数据存储在哪里，可以更快地访问数据;JethroData存储索引，可以直接访问数据;Splice Machine提供交易型SQL界面。
要选择正确的技术，需要比对细节。以下是具体的考虑因素：
SQL语言
支持的SQL语言越多，能使用的应用程序也就越多。并且，支持的语言越丰富，Hadoop能运行的查询程序就越多，应用和报表工具要做的就越少。
节点连接
在大表上快速有效地执行节点连接并不容易，尤其是在SQL引擎不知道数据存储在哪的情况下。效率低下的连接过程会导致大量的I/O，以及不同节点之间巨大的数据传输，最终影响处理速度。
非结构化数据
SQL是为结构化数据设
计的。表中的每一条记录都位于同一列，每一列都有同样的属性。但在大数据时代，并不是所有的数据都是结构化的。Hadoop文件中可能包含嵌套的数据、可
变的数据（具有层级结构）、无模式的数据和自我描述的数据。基于Hadoop的SQL引擎必须能够把所有数据都转换为关系数据，并优化这些数据之间的查
询。
存储模式
Hadoop支持一些标准存储格式，比如Parquet、Avro和ORCFile。基于Hadoop的SQL技术使用的格式越多，其他引擎和技术能够读取的格式也就越多。这极大地减少了复制数据的工作。
用户定义函数
要在SQL上执行复杂的分析函数，比如高斯判别分析和购物篮分析等，很重要的前提是SQL对该函数的支持。这样的函数被称为用户定义函数（UDF）。基于Hadoop的SQL引擎需要能够在多节点上分部执行用户定义函数。
多用户工作负载

还需要考量的一个因素是，引擎应该如何在不同的查询和不同类型的查询之间划分资源。比如，不同应用程序的查询有不同的处理优先级;需要运行较长时间的查询
应该让位于需要立即处理的查询;如果计划外的或资源密集型的查询占用很多资源的话，应该被取消或暂停查询。基于Hadoop的SQL技术需要更加智能的工
作负载管理。
数据联合
并不是所有的数据都存储在Hadoop中。大部分企业数据还存储在其他数据源中，比如SQL数据库。基于Hadoop的SQL引擎需要支持存储在不同类型数据源中的数据的连接。换言之，它必须支持数据联合。
应用Hadoop的企业部署SQL引擎是大势所趋。企业在选择不同技术的时候，希望能考虑到上述因素。

㈧以道大数据课程体系都讲什么

大数据技术在如今应用非常广泛，许多想入行学习大数据培训的童鞋不知从何学起，从哪儿开始学首先要根据你的基本情况而定，如果你是零基础的也不需要担心，先从基础开始学起就好了，接下来学习基础java开始、数据结构、关系型数据库、linux系统操作，夯实基础之后，再进入大数据的学习，例如：hadoop离线分析、Storm实时计算、spark内存计算的学习，以道教育大数据课程体系可以如下：
第一阶段 WEB 开发基础
HTML基础
1、Html基本介绍
2、HTML语法规范
3、基本标签介绍
4、HTML编辑器/文本文档/WebStrom/elipse
5、HTML元素和属性
6、基本的HTML元素
6.1 标题
6.2 段落
6.3 样式和style属性
6.3 链接 a
6.4 图像 img
6.5 表格 table
6.6 列表 ul/ol/dl
7、 HTML注释
8、表单介绍
9、Table标签
10、DIV布局介绍
11、HTML列表详解
HTML布局和Bootstrap
1、 HTML块元素（block）和行内元素(inline)
2、使用div实现网页布局
3、响应式WEB设计（Responsive Web Design）
4、使用bootstrap实现响应式布局
HTML表单元素
1、HTML表单 form
2、HTML表单元素
3、 HTML input的类型 type
4、 Html input的属性
CSS基础
1、CSS简介及基本语法
2、在HTML文档中使用CSS
3、CSS样式
4、CSS选择器
5、盒子模型
6、布局及定位
CSS高级/CSS3
1、尺寸和对齐
2、分类（clear/cursor/display/float/position/visibility）
3、导航栏
4、图片库
5、图片透明
6、媒介类型 @media
7、CSS3
8、CSS3动画效果
JavaScript基础
1、JavaScript简介
2、基本语法规则
3、在HTML文档中使用JS
4、JS变量
5、JS数据类型
6、JS函数
7、JS运算符
8、流程控制
9、JS错误和调试
JavaScript对象和作用域
1、数字 Number
2、字符串String
3、日期 Date
4、数组
5、数学 Math
6、DOM对象和事件
7、BOM对象
8、Window对象
9、作用域和作用域链
10、JSON
Javascript库
1、Jquery
2、Prototype
3、Ext Js
Jquery
1、Jquery基本语法
2、Jquery选择器
3、Jquery事件
4、Jquery选择器
5、Jquery效果和动画
6、使用Jquery操作HTML和DOM
7、Jquery遍历
8、Jquery封装函数
9、Jquery案例
表单验证和Jquery Validate
1、用Js对HTML表单进行验证
2、Jquery Validata基本用法
3、默认校验规则和提示信息
4、debug和ignore
5、更改错误信息显示位置和样式
6、全部校验通过后的执行函数
7、修改验证触发方式
8、异步验证
9、自定义校验方法
10、radio 和 checkbox、select 的验证
Java基础
1、关于Java
2、Java运行机制
3、第一个Java程序，注释
4、Javac,Java,Javadoc等命令
5、标识符与关键字
6、变量的声明，初始化与应用
7、变量的作用域
8、变量重名
9、基本数据类型
10、类型转换与类型提升
11、各种数据类型使用细节
12、转义序列
13、各种运算符的使用
流程控制
1、选择控制语句if-else
2、选择控制语句switch-case
3、循环控制语句while
4、循环控制语句do-while
5、循环控制语句for与增强型for
6、break，continue，return
7、循环标签
8、数组的声明与初始化
9、数组内存空间分配
10、栈与堆内存
11、二维（多维）数组
12、Arrays类的相关方法
13、main方法命令行参数
面向对象
1、面向对象的基本思想
2、类与对象
3、成员变量与默认值
4、方法的声明，调用
5、参数传递和内存图
6、方法重载的概念
7、调用原则与重载的优势
8、构造器声明与默认构造器
9、构造器重载
10、this关键字的使用
11、this调用构造器原则
12、实例变量初始化方式
13、可变参数方法
访问权限控制
1、包 package和库
2、访问权限修饰符private/protected/public/包访问权限
3、类的访问权限
4、抽象类和抽象方法
5、接口和实现
6、解耦
7、Java的多重继承
8、通过继承来扩展接口
错误和异常处理
1、概念：错误和异常
2、基本异常
3、捕获异常 catch
4、创建自定义异常
5、捕获所有异常
6、Java标准异常
7、使用finally进行清理
8、异常的限制
9、构造器
10、异常匹配
11、异常使用指南
数据库基础（MySQL）
数据库基础（MySQL）
JDBC
1、Jdbc基本概念
2、使用Jdbc连接数据库
3、使用Jdbc进行crud操作
4、使用Jdbc进行多表操作
5、Jdbc驱动类型
6、Jdbc异常和批量处理
7、Jdbc储存过程
Servlet和JSP
1、Servlet简介
2、Request对象
3、Response对象
4、转发和重定向
5、使用Servlet完成Crud
6、Session和Coolie简介
7、ServletContext和Jsp
8、El和Jstl的使用
Ajax
1、什么是Ajax
2、XMLHttpRequest对象（XHR）
3、XHR请求
4、XHR响应
5、readystate/onreadystatechange
6、Jquery Ajax
7、JSON
8、案例：对用户名是否可用进行服务器端校验
综合案例
1、项目开发一般流程介绍
2、模块化和分层
3、DButils
4、QueryRunner
5、ResultSetHandle
6、案例：用户登录/注册，从前端到后端
第二阶段 Java SE
访问权限和继承
1、包的声明与使用
2、import与import static
3、访问权限修饰符
4、类的封装性
5、static（静态成员变量）
6、final（修饰变量，方法）
7、静态成员变量初始化方式
8、类的继承与成员继承
9、super的使用
10、调用父类构造器
11、方法的重写与变量隐藏
12、继承实现多态和类型转换
13、instanceof
抽象类与接口
1、抽象类
2、抽象方法
3、继承抽象类
4、抽象类与多态
5、接口的成员
6、静态方法与默认方法
7、静态成员类
8、实例成员类
9、局部类
10、匿名类
11、eclipse的使用与调试
12、内部类对外围类的访问关系
13、内部类的命名
Lambda表达式与常用类
1、函数式接口
2、Lambda表达式概念
3、Lambda表达式应用场合
4、使用案例
5、方法引用
6、枚举类型（编译器的处理）
7、包装类型（自动拆箱与封箱）
8、String方法
9、常量池机制
10、String讲解
11、StringBuilder讲解
12、Math，Date使用
13、Calendars使用
异常处理与泛型
1、异常分类
2、try-catch-finally
3、try-with-resources
4、多重捕获multi-catch
5、throw与throws
6、自定义异常和优势
7、泛型背景与优势
8、参数化类型与原生类型
9、类型推断
10、参数化类型与数组的差异
11、类型通配符
12、自定义泛型类和类型擦出
13、泛型方法重载与重写
集合
1 、常用数据结构
2 、Collection接口
3 、List与Set接口
4 、SortedSet与NavigableSet
5 、相关接口的实现类
6 、Comparable与Comparator
7、Queue接口
8 、Deque接口
9 、Map接口
10、NavigableMap
11、相关接口的实现类
12、流操作（聚合操作）
13、Collections类的使用
I/O流与反射
1 、File类的使用
2 、字节流
3 、字符流
4 、缓存流
5 、转换流
6 、数据流
7、对象流
8、类加载，链接与初始化
9 、ClassLoader的使用
10、Class类的使用
11、通过反射调用构造器
12、安全管理器
网络编程模型与多线程
1、进程与线程
2、创建线程的方式
3、线程的相关方法
4、线程同步
5、线程死锁
6、线程协作操作
7、计算机网络（IP与端口）
8、TCP协议与UDP协议
9、URL的相关方法
10、访问网络资源
11、TCP协议通讯
12、UDP协议通讯
13、广播
SSM-Spring
1.Spring/Spring MVC
2.创建Spring MVC项目
3.Spring MVC执行流程和参数
SSM-Spring.IOC
1.Spring/Spring MVC
2.创建Spring MVC项目
3.Spring MVC执行流程和参数
SSM-Spring.AOP
1.Spring/Spring MVC
2.创建Spring MVC项目
3.Spring MVC执行流程和参数
SSM-Spring.Mybatis
1.MyBatis简介
2.MyBatis配置文件
3.用MyBatis完成CRUD
4.ResultMap的使用
5.MyBatis关联查询
6.动态SQL
7.MyBatis缓冲
8.MyBatis-Generator
Socket编程
1.网络通信和协议
2.关于Socket
3.Java Socket
4.Socket类型
5.Socket函数
6.WebSocket
7.WebSocket/Spring MVC/WebSocket Ajax
IO/异步
window对象
全局作用域
窗口关系及框架
窗口位置和大小
打开窗口
间歇调用和超时调用（灵活运用）
系统对话框
location对象
navigator对象
screen对象
history对象
NIO/AIO
1.网络编程模型
2.BIO/NIO/AIO
3.同步阻塞
4.同步非阻塞
5.异步阻塞
6.异步非阻塞
7.NIO与AIO基本操作
8.高性能IO设计模式
第三阶段 Java 主流框架
MyBatis
1.mybatis框架原理分析
2.mybatis框架入门程序编写
3.mybatis和hibernate的本质区别和应用场景
4.mybatis开发方法
5.SqlMapConfig配置文件讲解
6.输入映射-pojo包装类型的定义与实现
7.输出映射-resultType、resultMap
8.动态sql
9.订单商品数据模型分析
10.高级映射的使用
11.查询缓存之一级缓存、二级缓存
12.mybatis与spring整合
13. mybatis逆向工程自动生成代码
Spring/Spring MVC
1. springmvc架构介绍
2. springmvc入门程序
3. spring与mybatis整合
4. springmvc注解开发—商品修改功能分析
5. springmvc注解开发—RequestMapping注解
6. springmvc注解开发—Controller方法返回值
7. springmvc注解开发—springmvc参数绑定过程分析
8. springmvc注解开发—springmvc参数绑定实例讲解
9. springmvc与struts2的区别
10. springmvc异常处理
11. springmvc上传图片
12. springmvc实现json交互
13. springmvc对RESTful支持
14. springmvc拦截器
第四阶段关系型数据库/MySQL/NoSQL
SQL基础
1.SQL及主流产品
2.MySQL的下载与安装（sinux/windows）
3.MySql的基本配置/配置文件
4.基本的SQL操作 DDL
5.基本的SQL操作 DML
6.基本的SQL操作 DCL
7.MySQL客户端工具
8.MySQL帮助文档
MySQL数据类型和运算符
1 数值类型
2 日期时间类型
3 字符串类型
4 CHAR 和 VARCHAR 类型
5 BINARY 和 VARBINARY 类型
6 ENUM 类型
7 SET 类型
8 算术运算符
9 比较运算符
10 逻辑运算符
11 位运算
12 运算符的优先级
MySQL函数
1 字符串函数
2 数值函数
3 日期和时间函数
4 流程函数
5 其他常用函数
MySQL存储引擎
1.MySQL支持的存储引擎及其特性
2.MyISAM
3.InnoDB
4.选择合适的存储引擎
选择合适的数据类型
1 CHAR 与 VARCHAR
2 TEXT 与 BLOB
3 浮点数与定点数
4 日期类型选择
字符集
1 字符集概述
2 Unicode字符集
3 汉字及一些常见字符集
4 选择合适的字符集
5 MySQL 支持的字符集
6 MySQL 字符集的设置 .
索引的设计和使用
1.什么是索引
2.索引的类型
3.索引的数据结构 BTree B+Tree Hash
4.索引的存储
5.MySQL索引
6.查看索引的使用情况
7.索引设计原则
视图/存储过程/函数/触发器
1. 什么是视图
2. 视图操作
3. 什么是存储过程
4. 存储过程操作
5. 什么是函数
6. 函数的相关操作
7. 触发器
事务控制/锁
1. 什么是事务
2. 事务控制
3. 分布式事务
4. 锁/表锁/行锁
5. InnoDB 行锁争用
6. InnoDB 的行锁模式及加锁方法7
7 InnoDB 行锁实现方式7
8 间隙锁（Next-Key 锁）
9 恢复和复制的需要，对 InnoDB 锁机制的影响
10 InnoDB 在不同隔离级别下的一致性读及锁的差异
11 表锁
12 死锁
SQL Mode和安全问题
1. 关于SQL Mode
2. MySQL中的SQL Mode
3. SQL Mode和迁移
4. SQL 注入
5. 开发过程中如何避免SQL注入
SQL优化
1.通过 show status 命令了解各种 SQL 的执行频率
2. 定位执行效率较低的 SQL 语句
3. 通过 EXPLAIN 分析低效 SQL 的执行计划
4. 确定问题并采取相应的优化措施
5. 索引问题
6.定期分析表和检查表
7.定期优化表
8.常用 SQL 的优化
MySQL数据库对象优化
1. 优化表的数据类型
2 散列化
3 逆规范化
4 使用中间表提高统计查询速度
5. 影响MySQL性能的重要参数
6. 磁盘I/O对MySQL性能的影响
7. 使用连接池
8. 减少MySQL连接次数
9. MySQL负载均衡
MySQL集群
MySQL管理和维护
MemCache
Redis
在Java项目中使用MemCache和Redis
第五阶段：操作系统/Linux、云架构
Linux安装与配置
1、安装Linux至硬盘
2、获取信息和搜索应用程序
3、进阶：修复受损的Grub
4、关于超级用户root
5、依赖发行版本的系统管理工具
6、关于硬件驱动程序
7、进阶：配置Grub
系统管理与目录管理
1、Shell基本命令
2、使用命令行补全和通配符
3、find命令、locate命令
4、查找特定程序：whereis
5、Linux文件系统的架构
6、移动、复制和删除
7、文件和目录的权限
8、文件类型与输入输出
9、vmware介绍与安装使用
10、网络管理、分区挂载
用户与用户组管理
1、软件包管理
2、磁盘管理
3、高级硬盘管理RAID和LVM
4、进阶：备份你的工作和系统
5、用户与用户组基础
6、管理、查看、切换用户
7、/etc/...文件
8、进程管理
9、linux VI编辑器，awk，cut，grep，sed，find，unique等
Shell编程
1、 SHELL变量
2、传递参数
3、数组与运算符
4、SHELL的各类命令
5、SHELL流程控制
6、SHELL函数
7、SHELL输入/输出重定向
8、SHELL文件包含
服务器配置
1、系统引导
2、管理守护进程
3、通过xinetd启动SSH服务
4、配置inetd
5、Tomcat安装与配置
6、MySql安装与配置
7、部署项目到Linux
第六阶段：Hadoop生态系统
Hadoop基础
1、大数据概论
2、 Google与Hadoop模块
3、Hadoop生态系统
4、Hadoop常用项目介绍
5、Hadoop环境安装配置
6、Hadoop安装模式
7、Hadoop配置文件
HDFS分布式文件系统
1、认识HDFS及其HDFS架构
2、Hadoop的RPC机制
3、HDFS的HA机制
4、HDFS的Federation机制
5、 Hadoop文件系统的访问
6、JavaAPI接口与维护HDFS
7、HDFS权限管理
8、hadoop伪分布式
Hadoop文件I/O详解
1、Hadoop文件的数据结构
2、 HDFS数据完整性
3、文件序列化
4、Hadoop的Writable类型
5、Hadoop支持的压缩格式
6、Hadoop中编码器和解码器
7、 gzip、LZO和Snappy比较
8、HDFS使用shell+Java API
MapRece工作原理
1、MapRece函数式编程概念
2、 MapRece框架结构
3、MapRece运行原理
4、Shuffle阶段和Sort阶段
5、任务的执行与作业调度器
6、自定义Hadoop调度器
7、异步编程模型
8、YARN架构及其工作流程
MapRece编程
1、WordCount案例分析
2、输入格式与输出格式
3、压缩格式与MapRece优化
4、辅助类与Streaming接口
5、MapRece二次排序
6、MapRece中的Join算法
7、从MySQL读写数据
8、Hadoop系统调优
Hive数据仓库工具
1、Hive工作原理、类型及特点
2、Hive架构及其文件格式
3、Hive操作及Hive复合类型
4、Hive的JOIN详解
5、Hive优化策略
6、Hive内置操作符与函数
7、Hive用户自定义函数接口
8、Hive的权限控制
Hive深入解读
1 、安装部署Sqoop
2、Sqoop数据迁移
3、Sqoop使用案例
4、深入了解数据库导入
5、导出与事务
6、导出与SequenceFile
7、Azkaban执行工作流
Sqoop与Oozie
1 、安装部署Sqoop
2、Sqoop数据迁移
3、Sqoop使用案例
4、深入了解数据库导入
5、导出与事务
6、导出与SequenceFile
7、Azkaban执行工作流
Zookeeper详解
1、Zookeeper简介
2、Zookeeper的下载和部署
3、Zookeeper的配置与运行
4、Zookeeper的本地模式实例
5、Zookeeper的数据模型
6、Zookeeper命令行操作范例
7、storm在Zookeeper目录结构
NoSQL、HBase
1、HBase的特点
2、HBase访问接口
3、HBase存储结构与格式
4、HBase设计
5、关键算法和流程
6、HBase安装
7、HBase的SHELL操作
8、HBase集群搭建
第七阶段：Spark生态系统
Spark
1.什么是Spark
2.Spark大数据处理框架
3.Spark的特点与应用场景
4.Spark SQL原理和实践
5.Spark Streaming原理和实践
6.GraphX SparkR入门
7.Spark的监控和调优
Spark部署和运行
1.WordCount准备开发环境
2.MapRece编程接口体系结构
3.MapRece通信协议
4.导入Hadoop的JAR文件
5.MapRece代码的实现
6.打包、部署和运行
7.打包成JAR文件
Spark程序开发
1、启动Spark Shell
2、加载text文件
3、RDD操作及其应用
4、RDD缓存
5、构建Eclipse开发环境
6、构建IntelliJ IDEA开发环境
7、创建SparkContext对象
8、编写编译并提交应用程序
Spark编程模型
1、RDD特征与依赖
2、集合（数组）创建RDD
3、存储创建RDD
4、RDD转换执行控制操作
5、广播变量
6、累加器
作业执行解析
1、Spark组件
2、RDD视图与DAG图
3、基于Standalone模式的Spark架构
4、基于YARN模式的Spark架构
5、作业事件流和调度分析
6、构建应用程序运行时环境
7、应用程序转换成DAG
Spark SQL与DataFrame
1、Spark SQL架构特性
2、DataFrame和RDD的区别
3、创建操作DataFrame
4、RDD转化为DataFrame
5、加载保存操作与Hive表
6、Parquet文件JSON数据集
7、分布式的SQL Engine
8、性能调优数据类型
深入Spark Streaming
1、Spark Streaming工作原理
2、DStream编程模型
3、Input DStream
4、DStream转换状态输出
5、优化运行时间及内存使用
6、文件输入源
7、基于Receiver的输入源
8、输出操作
Spark MLlib与机器学习
1、机器学习分类级算法
2、Spark MLlib库
3、MLlib数据类型
4、MLlib的算法库与实例
5、ML库主要概念
6、算法库与实例
GraphX与SparkR
1、Spark GraphX架构
2、GraphX编程与常用图算法
3、GraphX应用场景
4、SparkR的工作原理
5、R语言与其他语言的通信
6、SparkR的运行与应用
7、R的DataFrame操作方法
8、SparkR的DataFrame
Scala编程开发
1、Scala语法基础
2、idea工具安装
3、maven工具配置
4、条件结构、循环、高级for循环
5、数组、映射、元组
6、类、样例类、对象、伴生对象
7、高阶函数与函数式编程
Scala进阶
1、柯里化、闭包
2、模式匹配、偏函数
3、类型参数
4、协变与逆变
5、隐式转换、隐式参数、隐式值
6、Actor机制
7、高级项目案例
Python编程
1、Python编程介绍
2、Python的基本语法
3、Python开发环境搭建
4、Pyhton开发Spark应用程序
第八阶段：Storm生态系统
storm简介与基本知识
1、storm的诞生诞生与成长
2、storm的优势与应用
3、storm基本知识概念和配置
4、序列化与容错机制
5、可靠性机制—保证消息处理
6、storm开发环境与生产环境
7、storm拓扑的并行度
8、storm命令行客户端
Storm拓扑与组件详解
1、流分组和拓扑运行
2、拓扑的常见模式
3、本地模式与stormsub的对比
4、使用非jvm语言操作storm
5、hook、组件基本接口
6、基本抽象类
7、事务接口
8、组件之间的相互关系
spout详解与bolt详解
1、spout获取数据的方式
2、常用的spout
3、学习编写spout类
4、bolt概述
5、可靠的与不可靠的bolt
6、复合流与复合anchoring
7、使用其他语言定义bolt
8、学习编写bolt类
storm安装与集群搭建
1、storm集群安装步骤与准备
2、本地模式storm配置命令
3、配置hosts文件、安装jdk
4、zookeeper集群的搭建
5、部署节点
6、storm集群的搭建
7、zookeeper应用案例
8、Hadoop高可用集群搭建
Kafka
1、Kafka介绍和安装
2、整合Flume
3、Kafka API
4、Kafka底层实现原理
5、Kafka的消息处理机制
6、数据传输的事务定义
7、Kafka的存储策略
Flume
1、Flume介绍和安装
2、Flume Source讲解
3、Flume Channel讲解
4、Flume Sink讲解
5、flume部署种类、流配置
6、单一代理、多代理说明
7、flume selector相关配置
Redis
1、Redis介绍和安装、配置
2、Redis数据类型
3、Redis键、字符串、哈希
4、Redis列表与集合
5、Redis事务和脚本
6、Redis数据备份与恢复
7、Redis的SHELL操作

㈨有用SQL语句转化引擎来操作HBase的吗

工具－－》SQL 查询分析器－－》然后输入：
Alter DataBASE New MODIFY FILE(NAME='Old_Data',NEWNAME='New_Data') Alter DataBASE New MODIFY FILE(NAME='Old_Log',NEWNAME='New_Log')
－－》按F5运行便可。

hbasesql引擎

大数据专业难度较大，建议本科毕业后再学，主要课程内容包括6大模块：

与hbasesql引擎相关的内容