hbasesql引擎_如何選擇基於Hadoop的SQL引擎

㈠大數據平台的軟體有哪些

一、Phoenix

這是一個Java中間層，可以讓開發者在Apache HBase上執行sql查詢。Phoenix完全使用Java編寫，代碼位於GitHub上，並且提供了一個客戶端可嵌入的JDBC驅動。

Phoenix查詢引擎會將SQL查詢轉換為一個或多個HBase scan，並編排執行以生成標準的JDBC結果集。直接使用HBase API、協同處理器與自定義過濾器，對於簡單查詢來說，其性能量級是毫秒，對於百萬級別的行數來說，其性能量級是秒。

二、Presto

Facebook開源的數據查詢引擎Presto ，可對250PB以上的數據進行快速地互動式分析。該項目始於 2012 年秋季開始開發，目前該項目已經在超過 1000 名 Facebook 雇員中使用，運行超過 30000 個查詢，每日數據在 1PB 級別。Facebook 稱 Presto 的性能比諸如 Hive 和 Map*Rece 要好上 10 倍有多。

Presto 當前支持 ANSI SQL 的大多數特效，包括聯合查詢、左右聯接、子查詢以及一些聚合和計算函數;支持近似截然不同的計數(DISTINCT COUNT)等。

三、Shark

Shark即Hive on Spark，本質上是通過Hive的HQL解析，把HQL翻譯成Spark上的RDD操作，然後通過Hive的metadata獲取資料庫里的表信息，實際HDFS上的數據和文件，會由Shark獲取並放到Spark上運算。Shark的特點就是快，完全兼容Hive，且可以在shell模式下使用rdd2sql()這樣的API，把HQL得到的結果集，繼續在scala環境下運算，支持自己編寫簡單的機器學習或簡單分析處理函數，對HQL結果進一步分析計算。

關於大數據平台的軟體有哪些，青藤小編就和您分享到這里了。如果您對大數據工程有濃厚的興趣，希望這篇文章可以為您提供幫助。如果您還想了解更多關於數據分析師、大數據工程師的技巧及素材等內容，可以點擊本站的其他文章進行學習。

以上是小編為大家分享的關於大數據平台的軟體有哪些?的相關內容，更多信息可以關注環球青藤分享更多干貨

㈡大數據平台的軟體有哪些

一、Phoenix
簡介：這是一個Java中間層，可以讓開發者在Apache HBase上執行SQL查詢。Phoenix完全使用Java編寫，代碼位於GitHub上，並且提供了一個客戶端可嵌入的JDBC驅動。
Phoenix查詢引擎會將SQL查詢轉換為一個或多個HBase scan，並編排執行以生成標準的JDBC結果集。直接使用HBase API、協同處理器與自定義過濾器，對於簡單查詢來說，其性能量級是毫秒，對於百萬級別的行數來說，其性能量級是秒
二、Stinger
簡介：原叫Tez，下一代Hive,Hortonworks主導開發，運行在YARN上的DAG計算框架。
某些測試下，Stinger能提升10倍左右的性能，同時會讓Hive支持更多的SQL，其主要優點包括：
❶讓用戶在Hadoop獲得更多的查詢匹配。其中包括類似OVER的字句分析功能，支持WHERE查詢，讓Hive的樣式系統更符合SQL模型。
❷優化了Hive請求執行計劃，優化後請求時間減少90%。改動了Hive執行引擎，增加單Hive任務的被秒處理記錄數。
❸在Hive社區中引入了新的列式文件格式（如ORC文件），提供一種更現代、高效和高性能的方式來儲存Hive數據。
三、Presto
簡介：Facebook開源的數據查詢引擎Presto ，可對250PB以上的數據進行快速地互動式分析。該項目始於 2012 年秋季開始開發，目前該項目已經在超過 1000 名 Facebook 雇員中使用，運行超過 30000 個查詢，每日數據在 1PB 級別。Facebook 稱 Presto 的性能比諸如 Hive 和 Map*Rece 要好上 10 倍有多。
Presto 當前支持 ANSI SQL 的大多數特效，包括聯合查詢、左右聯接、子查詢以及一些聚合和計算函數；支持近似截然不同的計數(DISTINCT COUNT)等。

㈢為啥HBase需要搭建SQL引擎層

現有的SQL解決方案通常都不是水平可伸縮的，因此當數據量變大時會遇到障礙。但是這樣的情況，隨著NoSQL的出現已經得到很大程度的緩解，並且隨著NoSQL技術的完善與成熟，這種情況將會從根本上解決。

我們知道NoSQL區別於關系型資料庫的一點就是NoSQL不使用SQL作為查詢語言，至於為何在NoSQL數據存儲HBase上提供SQL介面，有如下原因：

1.使用諸如SQL這樣易於理解的語言，使人們能夠更加輕松地使用HBase。

2.使用諸如SQL這樣更高層次的語言來編寫，減少了編寫的代碼量。

3.執行查詢時，在數據訪問與運行時執行之間加上SQL這樣一層抽象可以進行大量優化。例如，對於GROUP
BY查詢來說，利用HBase中協同處理器，聚合可以在伺服器上進行，而不必在客戶端，這么做會極大減少客戶端與伺服器之間傳輸的數據量。此外，也可以在客戶端並行執行GROUP
BY，這是根據行健的范圍來截斷掃描而實現的。通過並行執行，結果會更快的返回。所有這些優化無需用戶參與，只需執行查詢即可。

基於HBase的SQL引擎實現

現階段業內有一些關於HBase SQL引擎層的嘗試，已經有一些比較穩定的解決方案和現實。

1.Hive整合HBase

Hive與HBase的整合功能從Hive0.6.0版本已經開始出現，利用兩者對外的API介面互相通信，通信主要依靠hive_hbase-handler.jar工具包（Hive
Storage
Handlers）。由於HBase有一次比較大的版本變動，所以並不是每個版本的Hive都能和現有的HBase版本進行整合，所以在使用過程中特別注意的就是兩者版本的一致性。

2.Phoenix

Phoenix由Salesforce.com開源，是構建在Apache
HBase之上的一個SQL中間層，可以讓開發者在HBase上執行SQL查詢。Phoenix
完全使用Java編寫，代碼位於Github上，並且提供了一個客戶端可嵌入的JDBC驅動。對於10w到100w行的簡單查詢來說，Phoenix要勝於Hive。

3.Kundera

Kundera 是一個JPA2.0兼容的NoSQL數據存儲的對象映射框架。Kundera基於現有類庫構建，封裝出簡易的API，其主要特性有：

1）支持交叉數據存儲持久性，這意味著用戶可以在不同的數據存儲使用單一方法存儲和獲取相關實體。

2)能夠很好地管理事務，同時支持EntityTransaction和Java Transaction API（JPA）。

3) 兼容JPA2.0，嚴格使用JPA注釋對象映射到數據存儲表。

4) 目前支持的NoSQL伺服器包括: HBase,MongoDB,Redis,Neo4j等。

還有其它一些解決方案，例如：Lealone,hbase-sql,Impala等，要麼不成熟，要麼停止更新了，要麼具有局限性。讀者對其感興趣，可以自行去了解。

㈣大數據是不是特別難學，都要學哪些內容，有知道的嗎

大數據專業難度較大，建議本科畢業後再學，主要課程內容包括6大模塊：

①java：一門面向對象的計算機編程語言，具有功能強大和簡單易用兩個特徵。

②spark：專為大規模數據處理而設計的快速通用的計算引擎。

③SSM：常作為數據源較簡單的web項目的框架。

④Hadoop：分布式計算和存儲的框架，需要有java語言基礎。

⑤spring cloud：一系列框架的有序集合，他巧妙地簡化了分布式系統基礎設施的開發。

⑤python：一個高層次的結合了解釋性、編譯性、互動性和面向對象的腳本語言。

北大青鳥中博軟體學院大數據課堂實拍

㈤大數據運算的三種引擎是什麼有什麼區別

現在流行的開源引擎可不止三個，先羅列5個給你：
1)Hive，披著SQL外衣的Map-Rece。Hive是為方便用戶使用Map-Rece而在外面封裝了一層SQL，由於Hive採用了SQL，它的問題域比Map-Rece更窄，因為很多問題，SQL表達不出來，比如一些數據挖掘演算法，推薦演算法、圖像識別演算法等，這些仍只能通過編寫Map-Rece完成。
2) Impala：Google Dremel的開源實現（Apache Drill類似），因為互動式實時計算需求，Cloudera推出了Impala系統，該系統適用於互動式實時處理場景，要求最後產生的數據量一定要少。
3)Shark/Spark：為了提高Map-Rece的計算效率，Berkeley的AMPLab實驗室開發了Spark，Spark可看做基於內存的Map-Rece實現，此外，伯克利還在Spark基礎上封裝了一層SQL，產生了一個新的類似Hive的系統Shark。
4) Stinger Initiative（Tez optimized Hive）：Hortonworks開源了一個DAG計算框架Tez，Tez可以理解為Google Pregel的開源實現，該框架可以像Map-Rece一樣，可以用來設計DAG應用程序，但需要注意的是，Tez只能運行在YARN上。Tez的一個重要應用是優化Hive和PIG這種典型的DAG應用場景，它通過減少數據讀寫IO，優化DAG流程使得Hive速度提供了很多倍。
5)Presto：FaceBook於2013年11月份開源了Presto，一個分布式SQL查詢引擎，它被設計為用來專門進行高速、實時的數據分析。它支持標準的ANSI SQL，包括復雜查詢、聚合（aggregation）、連接（join）和窗口函數（window functions)。Presto設計了一個簡單的數據存儲的抽象層，來滿足在不同數據存儲系統（包括HBase、HDFS、Scribe等）之上都可以使用SQL進行查詢。

㈥大數據知識點裡面的 HBase 是什麼意思

HBase是一個分布式的、面向列的開源資料庫，基於Hadoop生態圈，在NoSQL蓬勃發展的今天被國內外眾多公司選擇，應用於現代互聯網系統的不同業務。
HBase業務場景
1.標簽數據的存儲
標簽數據是稀疏矩陣的代表，描述了實體的各類屬性，主要應用於智能推薦、商務智能或營銷引擎等領域。
2. 車聯網數據的收集
車聯網系統是利用車載設備收集車輛運行時產生的各項數據，通過網路實時上傳，在平台進行動態分析和利用。
3. 交易記錄的保存
在移動支付領域，保證歷史交易記錄等敏感信息的安全性是一個重要的話題。當數據中心遭遇自然災害、外部攻擊時，必須保證這些信息不丟，而且從業務角度要保證RTO盡可能短、RPO盡可能為0。
HBase基於底層的HDFS作為存儲系統，HDFS實現了三副本策略，按照一定的規則將副本放在不同的節點或機架中，本身具有較高的容災能力。在工程實踐中，也產生了Region replica、主備集群、互備雙活等策略來盡可能進行災備並保證高可用。

㈦如何選擇基於Hadoop的SQL引擎

在Hadoop和NoSQL技術中，人們逐漸把焦點轉移到了Hadoop上的SQL引擎。今天，可選擇的引擎越來越多，反倒讓組織陷入了選擇困境。本文將羅列幾點選擇引擎時需要考量的因素，供您參考。
基於Hadoop的SQL技術一大優勢在於可以使用熟悉的SQL語言，訪問存儲在Hadoop中的大數據集。
用戶幾乎可以應用任何報表或工具來分析和研究數據。在Hadoop上還不能應用SQL的時候，要訪問Hadoop中的大數據集，需要十分了解Hadoop
的技術應用程序界面，比如HDFS、MapRece或HBase。現在有了基於Hadoop的SQL引擎，每個人都可以使用他喜歡的工具了。對企業而
言，相當於Hadoop開放了更大的窗口，有更多的企業可以應用Hadoop處理大數據。
有哪些技術可以選擇

第一個基於Hadoop的SQL引擎是Apache Hive，不過過去一年裡，有很多新產品出現，包括CitusDB、Cloudera
Impala、Concurrent Lingual、Hadapt、InfiniDB、 JethroData、MammothDB、Apache
Drill、MemSQL、Pivotal HawQ、Progress DataDirect、ScleraDB、Simba和Splice
Machine。
除了上述引擎之外，數據虛擬化伺服器也應在此列，因為它們對Hadoop數據實現了SQL訪問。虛擬化伺服器可以訪問所有數據源，包括Hadoop，不同的數據源都可以集成。數據虛擬化伺服器有很多，包括Cirro Data Hub、Cisco/Composite

當然，還有一些SQL資料庫管理系統也支持多種數據源。它們在自己的SQL資料庫或Hadoop中存儲數據，提供對Hadoop數據的SQL訪問。比如
EMC/Greenplum UAP、 HP Vertica （on MapR）、Microsoft PolyBase、Actian
ParAccel 和Teradata Aster Database （via SQL-H）。
這么多基於Hadoop的SQL工具可以使用，可以說是讓組織眼花繚亂。那麼該如何選擇呢？它們彼此的差別又在哪呢？
事實上，不同的技術之間差別很大，比如說，CitusDB知道數據存儲在哪裡，可以更快地訪問數據;JethroData存儲索引，可以直接訪問數據;Splice Machine提供交易型SQL界面。
要選擇正確的技術，需要比對細節。以下是具體的考慮因素：
SQL語言
支持的SQL語言越多，能使用的應用程序也就越多。並且，支持的語言越豐富，Hadoop能運行的查詢程序就越多，應用和報表工具要做的就越少。
節點連接
在大表上快速有效地執行節點連接並不容易，尤其是在SQL引擎不知道數據存儲在哪的情況下。效率低下的連接過程會導致大量的I/O，以及不同節點之間巨大的數據傳輸，最終影響處理速度。
非結構化數據
SQL是為結構化數據設
計的。表中的每一條記錄都位於同一列，每一列都有同樣的屬性。但在大數據時代，並不是所有的數據都是結構化的。Hadoop文件中可能包含嵌套的數據、可
變的數據（具有層級結構）、無模式的數據和自我描述的數據。基於Hadoop的SQL引擎必須能夠把所有數據都轉換為關系數據，並優化這些數據之間的查
詢。
存儲模式
Hadoop支持一些標准存儲格式，比如Parquet、Avro和ORCFile。基於Hadoop的SQL技術使用的格式越多，其他引擎和技術能夠讀取的格式也就越多。這極大地減少了復制數據的工作。
用戶定義函數
要在SQL上執行復雜的分析函數，比如高斯判別分析和購物籃分析等，很重要的前提是SQL對該函數的支持。這樣的函數被稱為用戶定義函數（UDF）。基於Hadoop的SQL引擎需要能夠在多節點上分部執行用戶定義函數。
多用戶工作負載

還需要考量的一個因素是，引擎應該如何在不同的查詢和不同類型的查詢之間劃分資源。比如，不同應用程序的查詢有不同的處理優先順序;需要運行較長時間的查詢
應該讓位於需要立即處理的查詢;如果計劃外的或資源密集型的查詢佔用很多資源的話，應該被取消或暫停查詢。基於Hadoop的SQL技術需要更加智能的工
作負載管理。
數據聯合
並不是所有的數據都存儲在Hadoop中。大部分企業數據還存儲在其他數據源中，比如SQL資料庫。基於Hadoop的SQL引擎需要支持存儲在不同類型數據源中的數據的連接。換言之，它必須支持數據聯合。
應用Hadoop的企業部署SQL引擎是大勢所趨。企業在選擇不同技術的時候，希望能考慮到上述因素。

㈧以道大數據課程體系都講什麼

大數據技術在如今應用非常廣泛，許多想入行學習大數據培訓的童鞋不知從何學起，從哪兒開始學首先要根據你的基本情況而定，如果你是零基礎的也不需要擔心，先從基礎開始學起就好了，接下來學習基礎java開始、數據結構、關系型資料庫、linux系統操作，夯實基礎之後，再進入大數據的學習，例如：hadoop離線分析、Storm實時計算、spark內存計算的學習，以道教育大數據課程體系可以如下：
第一階段 WEB 開發基礎
HTML基礎
1、Html基本介紹
2、HTML語法規范
3、基本標簽介紹
4、HTML編輯器/文本文檔/WebStrom/elipse
5、HTML元素和屬性
6、基本的HTML元素
6.1 標題
6.2 段落
6.3 樣式和style屬性
6.3 鏈接 a
6.4 圖像 img
6.5 表格 table
6.6 列表 ul/ol/dl
7、 HTML注釋
8、表單介紹
9、Table標簽
10、DIV布局介紹
11、HTML列表詳解
HTML布局和Bootstrap
1、 HTML塊元素（block）和行內元素(inline)
2、使用div實現網頁布局
3、響應式WEB設計（Responsive Web Design）
4、使用bootstrap實現響應式布局
HTML表單元素
1、HTML表單 form
2、HTML表單元素
3、 HTML input的類型 type
4、 Html input的屬性
CSS基礎
1、CSS簡介及基本語法
2、在HTML文檔中使用CSS
3、CSS樣式
4、CSS選擇器
5、盒子模型
6、布局及定位
CSS高級/CSS3
1、尺寸和對齊
2、分類（clear/cursor/display/float/position/visibility）
3、導航欄
4、圖片庫
5、圖片透明
6、媒介類型 @media
7、CSS3
8、CSS3動畫效果
JavaScript基礎
1、JavaScript簡介
2、基本語法規則
3、在HTML文檔中使用JS
4、JS變數
5、JS數據類型
6、JS函數
7、JS運算符
8、流程式控制制
9、JS錯誤和調試
JavaScript對象和作用域
1、數字 Number
2、字元串String
3、日期 Date
4、數組
5、數學 Math
6、DOM對象和事件
7、BOM對象
8、Window對象
9、作用域和作用域鏈
10、JSON
Javascript庫
1、Jquery
2、Prototype
3、Ext Js
Jquery
1、Jquery基本語法
2、Jquery選擇器
3、Jquery事件
4、Jquery選擇器
5、Jquery效果和動畫
6、使用Jquery操作HTML和DOM
7、Jquery遍歷
8、Jquery封裝函數
9、Jquery案例
表單驗證和Jquery Validate
1、用Js對HTML表單進行驗證
2、Jquery Validata基本用法
3、默認校驗規則和提示信息
4、debug和ignore
5、更改錯誤信息顯示位置和樣式
6、全部校驗通過後的執行函數
7、修改驗證觸發方式
8、非同步驗證
9、自定義校驗方法
10、radio 和 checkbox、select 的驗證
Java基礎
1、關於Java
2、Java運行機制
3、第一個Java程序，注釋
4、Javac,Java,Javadoc等命令
5、標識符與關鍵字
6、變數的聲明，初始化與應用
7、變數的作用域
8、變數重名
9、基本數據類型
10、類型轉換與類型提升
11、各種數據類型使用細節
12、轉義序列
13、各種運算符的使用
流程式控制制
1、選擇控制語句if-else
2、選擇控制語句switch-case
3、循環控制語句while
4、循環控制語句do-while
5、循環控制語句for與增強型for
6、break，continue，return
7、循環標簽
8、數組的聲明與初始化
9、數組內存空間分配
10、棧與堆內存
11、二維（多維）數組
12、Arrays類的相關方法
13、main方法命令行參數
面向對象
1、面向對象的基本思想
2、類與對象
3、成員變數與默認值
4、方法的聲明，調用
5、參數傳遞和內存圖
6、方法重載的概念
7、調用原則與重載的優勢
8、構造器聲明與默認構造器
9、構造器重載
10、this關鍵字的使用
11、this調用構造器原則
12、實例變數初始化方式
13、可變參數方法
訪問許可權控制
1、包 package和庫
2、訪問許可權修飾符private/protected/public/包訪問許可權
3、類的訪問許可權
4、抽象類和抽象方法
5、介面和實現
6、解耦
7、Java的多重繼承
8、通過繼承來擴展介面
錯誤和異常處理
1、概念：錯誤和異常
2、基本異常
3、捕獲異常 catch
4、創建自定義異常
5、捕獲所有異常
6、Java標准異常
7、使用finally進行清理
8、異常的限制
9、構造器
10、異常匹配
11、異常使用指南
資料庫基礎（MySQL）
資料庫基礎（MySQL）
JDBC
1、Jdbc基本概念
2、使用Jdbc連接資料庫
3、使用Jdbc進行crud操作
4、使用Jdbc進行多表操作
5、Jdbc驅動類型
6、Jdbc異常和批量處理
7、Jdbc儲存過程
Servlet和JSP
1、Servlet簡介
2、Request對象
3、Response對象
4、轉發和重定向
5、使用Servlet完成Crud
6、Session和Coolie簡介
7、ServletContext和Jsp
8、El和Jstl的使用
Ajax
1、什麼是Ajax
2、XMLHttpRequest對象（XHR）
3、XHR請求
4、XHR響應
5、readystate/onreadystatechange
6、Jquery Ajax
7、JSON
8、案例：對用戶名是否可用進行伺服器端校驗
綜合案例
1、項目開發一般流程介紹
2、模塊化和分層
3、DButils
4、QueryRunner
5、ResultSetHandle
6、案例：用戶登錄/注冊，從前端到後端
第二階段 Java SE
訪問許可權和繼承
1、包的聲明與使用
2、import與import static
3、訪問許可權修飾符
4、類的封裝性
5、static（靜態成員變數）
6、final（修飾變數，方法）
7、靜態成員變數初始化方式
8、類的繼承與成員繼承
9、super的使用
10、調用父類構造器
11、方法的重寫與變數隱藏
12、繼承實現多態和類型轉換
13、instanceof
抽象類與介面
1、抽象類
2、抽象方法
3、繼承抽象類
4、抽象類與多態
5、介面的成員
6、靜態方法與默認方法
7、靜態成員類
8、實例成員類
9、局部類
10、匿名類
11、eclipse的使用與調試
12、內部類對外圍類的訪問關系
13、內部類的命名
Lambda表達式與常用類
1、函數式介面
2、Lambda表達式概念
3、Lambda表達式應用場合
4、使用案例
5、方法引用
6、枚舉類型（編譯器的處理）
7、包裝類型（自動拆箱與封箱）
8、String方法
9、常量池機制
10、String講解
11、StringBuilder講解
12、Math，Date使用
13、Calendars使用
異常處理與泛型
1、異常分類
2、try-catch-finally
3、try-with-resources
4、多重捕獲multi-catch
5、throw與throws
6、自定義異常和優勢
7、泛型背景與優勢
8、參數化類型與原生類型
9、類型推斷
10、參數化類型與數組的差異
11、類型通配符
12、自定義泛型類和類型擦出
13、泛型方法重載與重寫
集合
1 、常用數據結構
2 、Collection介面
3 、List與Set介面
4 、SortedSet與NavigableSet
5 、相關介面的實現類
6 、Comparable與Comparator
7、Queue介面
8 、Deque介面
9 、Map介面
10、NavigableMap
11、相關介面的實現類
12、流操作（聚合操作）
13、Collections類的使用
I/O流與反射
1 、File類的使用
2 、位元組流
3 、字元流
4 、緩存流
5 、轉換流
6 、數據流
7、對象流
8、類載入，鏈接與初始化
9 、ClassLoader的使用
10、Class類的使用
11、通過反射調用構造器
12、安全管理器
網路編程模型與多線程
1、進程與線程
2、創建線程的方式
3、線程的相關方法
4、線程同步
5、線程死鎖
6、線程協作操作
7、計算機網路（IP與埠）
8、TCP協議與UDP協議
9、URL的相關方法
10、訪問網路資源
11、TCP協議通訊
12、UDP協議通訊
13、廣播
SSM-Spring
1.Spring/Spring MVC
2.創建Spring MVC項目
3.Spring MVC執行流程和參數
SSM-Spring.IOC
1.Spring/Spring MVC
2.創建Spring MVC項目
3.Spring MVC執行流程和參數
SSM-Spring.AOP
1.Spring/Spring MVC
2.創建Spring MVC項目
3.Spring MVC執行流程和參數
SSM-Spring.Mybatis
1.MyBatis簡介
2.MyBatis配置文件
3.用MyBatis完成CRUD
4.ResultMap的使用
5.MyBatis關聯查詢
6.動態SQL
7.MyBatis緩沖
8.MyBatis-Generator
Socket編程
1.網路通信和協議
2.關於Socket
3.Java Socket
4.Socket類型
5.Socket函數
6.WebSocket
7.WebSocket/Spring MVC/WebSocket Ajax
IO/非同步
window對象
全局作用域
窗口關系及框架
窗口位置和大小
打開窗口
間歇調用和超時調用（靈活運用）
系統對話框
location對象
navigator對象
screen對象
history對象
NIO/AIO
1.網路編程模型
2.BIO/NIO/AIO
3.同步阻塞
4.同步非阻塞
5.非同步阻塞
6.非同步非阻塞
7.NIO與AIO基本操作
8.高性能IO設計模式
第三階段 Java 主流框架
MyBatis
1.mybatis框架原理分析
2.mybatis框架入門程序編寫
3.mybatis和hibernate的本質區別和應用場景
4.mybatis開發方法
5.SqlMapConfig配置文件講解
6.輸入映射-pojo包裝類型的定義與實現
7.輸出映射-resultType、resultMap
8.動態sql
9.訂單商品數據模型分析
10.高級映射的使用
11.查詢緩存之一級緩存、二級緩存
12.mybatis與spring整合
13. mybatis逆向工程自動生成代碼
Spring/Spring MVC
1. springmvc架構介紹
2. springmvc入門程序
3. spring與mybatis整合
4. springmvc註解開發—商品修改功能分析
5. springmvc註解開發—RequestMapping註解
6. springmvc註解開發—Controller方法返回值
7. springmvc註解開發—springmvc參數綁定過程分析
8. springmvc註解開發—springmvc參數綁定實例講解
9. springmvc與struts2的區別
10. springmvc異常處理
11. springmvc上傳圖片
12. springmvc實現json交互
13. springmvc對RESTful支持
14. springmvc攔截器
第四階段關系型資料庫/MySQL/NoSQL
SQL基礎
1.SQL及主流產品
2.MySQL的下載與安裝（sinux/windows）
3.MySql的基本配置/配置文件
4.基本的SQL操作 DDL
5.基本的SQL操作 DML
6.基本的SQL操作 DCL
7.MySQL客戶端工具
8.MySQL幫助文檔
MySQL數據類型和運算符
1 數值類型
2 日期時間類型
3 字元串類型
4 CHAR 和 VARCHAR 類型
5 BINARY 和 VARBINARY 類型
6 ENUM 類型
7 SET 類型
8 算術運算符
9 比較運算符
10 邏輯運算符
11 位運算
12 運算符的優先順序
MySQL函數
1 字元串函數
2 數值函數
3 日期和時間函數
4 流程函數
5 其他常用函數
MySQL存儲引擎
1.MySQL支持的存儲引擎及其特性
2.MyISAM
3.InnoDB
4.選擇合適的存儲引擎
選擇合適的數據類型
1 CHAR 與 VARCHAR
2 TEXT 與 BLOB
3 浮點數與定點數
4 日期類型選擇
字元集
1 字元集概述
2 Unicode字元集
3 漢字及一些常見字元集
4 選擇合適的字元集
5 MySQL 支持的字元集
6 MySQL 字元集的設置 .
索引的設計和使用
1.什麼是索引
2.索引的類型
3.索引的數據結構 BTree B+Tree Hash
4.索引的存儲
5.MySQL索引
6.查看索引的使用情況
7.索引設計原則
視圖/存儲過程/函數/觸發器
1. 什麼是視圖
2. 視圖操作
3. 什麼是存儲過程
4. 存儲過程操作
5. 什麼是函數
6. 函數的相關操作
7. 觸發器
事務控制/鎖
1. 什麼是事務
2. 事務控制
3. 分布式事務
4. 鎖/表鎖/行鎖
5. InnoDB 行鎖爭用
6. InnoDB 的行鎖模式及加鎖方法7
7 InnoDB 行鎖實現方式7
8 間隙鎖（Next-Key 鎖）
9 恢復和復制的需要，對 InnoDB 鎖機制的影響
10 InnoDB 在不同隔離級別下的一致性讀及鎖的差異
11 表鎖
12 死鎖
SQL Mode和安全問題
1. 關於SQL Mode
2. MySQL中的SQL Mode
3. SQL Mode和遷移
4. SQL 注入
5. 開發過程中如何避免SQL注入
SQL優化
1.通過 show status 命令了解各種 SQL 的執行頻率
2. 定位執行效率較低的 SQL 語句
3. 通過 EXPLAIN 分析低效 SQL 的執行計劃
4. 確定問題並採取相應的優化措施
5. 索引問題
6.定期分析表和檢查表
7.定期優化表
8.常用 SQL 的優化
MySQL資料庫對象優化
1. 優化表的數據類型
2 散列化
3 逆規范化
4 使用中間表提高統計查詢速度
5. 影響MySQL性能的重要參數
6. 磁碟I/O對MySQL性能的影響
7. 使用連接池
8. 減少MySQL連接次數
9. MySQL負載均衡
MySQL集群
MySQL管理和維護
MemCache
Redis
在Java項目中使用MemCache和Redis
第五階段：操作系統/Linux、雲架構
Linux安裝與配置
1、安裝Linux至硬碟
2、獲取信息和搜索應用程序
3、進階：修復受損的Grub
4、關於超級用戶root
5、依賴發行版本的系統管理工具
6、關於硬體驅動程序
7、進階：配置Grub
系統管理與目錄管理
1、Shell基本命令
2、使用命令行補全和通配符
3、find命令、locate命令
4、查找特定程序：whereis
5、Linux文件系統的架構
6、移動、復制和刪除
7、文件和目錄的許可權
8、文件類型與輸入輸出
9、vmware介紹與安裝使用
10、網路管理、分區掛載
用戶與用戶組管理
1、軟體包管理
2、磁碟管理
3、高級硬碟管理RAID和LVM
4、進階：備份你的工作和系統
5、用戶與用戶組基礎
6、管理、查看、切換用戶
7、/etc/...文件
8、進程管理
9、linux VI編輯器，awk，cut，grep，sed，find，unique等
Shell編程
1、 SHELL變數
2、傳遞參數
3、數組與運算符
4、SHELL的各類命令
5、SHELL流程式控制制
6、SHELL函數
7、SHELL輸入/輸出重定向
8、SHELL文件包含
伺服器配置
1、系統引導
2、管理守護進程
3、通過xinetd啟動SSH服務
4、配置inetd
5、Tomcat安裝與配置
6、MySql安裝與配置
7、部署項目到Linux
第六階段：Hadoop生態系統
Hadoop基礎
1、大數據概論
2、 Google與Hadoop模塊
3、Hadoop生態系統
4、Hadoop常用項目介紹
5、Hadoop環境安裝配置
6、Hadoop安裝模式
7、Hadoop配置文件
HDFS分布式文件系統
1、認識HDFS及其HDFS架構
2、Hadoop的RPC機制
3、HDFS的HA機制
4、HDFS的Federation機制
5、 Hadoop文件系統的訪問
6、JavaAPI介面與維護HDFS
7、HDFS許可權管理
8、hadoop偽分布式
Hadoop文件I/O詳解
1、Hadoop文件的數據結構
2、 HDFS數據完整性
3、文件序列化
4、Hadoop的Writable類型
5、Hadoop支持的壓縮格式
6、Hadoop中編碼器和解碼器
7、 gzip、LZO和Snappy比較
8、HDFS使用shell+Java API
MapRece工作原理
1、MapRece函數式編程概念
2、 MapRece框架結構
3、MapRece運行原理
4、Shuffle階段和Sort階段
5、任務的執行與作業調度器
6、自定義Hadoop調度器
7、非同步編程模型
8、YARN架構及其工作流程
MapRece編程
1、WordCount案例分析
2、輸入格式與輸出格式
3、壓縮格式與MapRece優化
4、輔助類與Streaming介面
5、MapRece二次排序
6、MapRece中的Join演算法
7、從MySQL讀寫數據
8、Hadoop系統調優
Hive數據倉庫工具
1、Hive工作原理、類型及特點
2、Hive架構及其文件格式
3、Hive操作及Hive復合類型
4、Hive的JOIN詳解
5、Hive優化策略
6、Hive內置操作符與函數
7、Hive用戶自定義函數介面
8、Hive的許可權控制
Hive深入解讀
1 、安裝部署Sqoop
2、Sqoop數據遷移
3、Sqoop使用案例
4、深入了解資料庫導入
5、導出與事務
6、導出與SequenceFile
7、Azkaban執行工作流
Sqoop與Oozie
1 、安裝部署Sqoop
2、Sqoop數據遷移
3、Sqoop使用案例
4、深入了解資料庫導入
5、導出與事務
6、導出與SequenceFile
7、Azkaban執行工作流
Zookeeper詳解
1、Zookeeper簡介
2、Zookeeper的下載和部署
3、Zookeeper的配置與運行
4、Zookeeper的本地模式實例
5、Zookeeper的數據模型
6、Zookeeper命令行操作範例
7、storm在Zookeeper目錄結構
NoSQL、HBase
1、HBase的特點
2、HBase訪問介面
3、HBase存儲結構與格式
4、HBase設計
5、關鍵演算法和流程
6、HBase安裝
7、HBase的SHELL操作
8、HBase集群搭建
第七階段：Spark生態系統
Spark
1.什麼是Spark
2.Spark大數據處理框架
3.Spark的特點與應用場景
4.Spark SQL原理和實踐
5.Spark Streaming原理和實踐
6.GraphX SparkR入門
7.Spark的監控和調優
Spark部署和運行
1.WordCount准備開發環境
2.MapRece編程介面體系結構
3.MapRece通信協議
4.導入Hadoop的JAR文件
5.MapRece代碼的實現
6.打包、部署和運行
7.打包成JAR文件
Spark程序開發
1、啟動Spark Shell
2、載入text文件
3、RDD操作及其應用
4、RDD緩存
5、構建Eclipse開發環境
6、構建IntelliJ IDEA開發環境
7、創建SparkContext對象
8、編寫編譯並提交應用程序
Spark編程模型
1、RDD特徵與依賴
2、集合（數組）創建RDD
3、存儲創建RDD
4、RDD轉換執行控制操作
5、廣播變數
6、累加器
作業執行解析
1、Spark組件
2、RDD視圖與DAG圖
3、基於Standalone模式的Spark架構
4、基於YARN模式的Spark架構
5、作業事件流和調度分析
6、構建應用程序運行時環境
7、應用程序轉換成DAG
Spark SQL與DataFrame
1、Spark SQL架構特性
2、DataFrame和RDD的區別
3、創建操作DataFrame
4、RDD轉化為DataFrame
5、載入保存操作與Hive表
6、Parquet文件JSON數據集
7、分布式的SQL Engine
8、性能調優數據類型
深入Spark Streaming
1、Spark Streaming工作原理
2、DStream編程模型
3、Input DStream
4、DStream轉換狀態輸出
5、優化運行時間及內存使用
6、文件輸入源
7、基於Receiver的輸入源
8、輸出操作
Spark MLlib與機器學習
1、機器學習分類級演算法
2、Spark MLlib庫
3、MLlib數據類型
4、MLlib的演算法庫與實例
5、ML庫主要概念
6、演算法庫與實例
GraphX與SparkR
1、Spark GraphX架構
2、GraphX編程與常用圖演算法
3、GraphX應用場景
4、SparkR的工作原理
5、R語言與其他語言的通信
6、SparkR的運行與應用
7、R的DataFrame操作方法
8、SparkR的DataFrame
Scala編程開發
1、Scala語法基礎
2、idea工具安裝
3、maven工具配置
4、條件結構、循環、高級for循環
5、數組、映射、元組
6、類、樣例類、對象、伴生對象
7、高階函數與函數式編程
Scala進階
1、柯里化、閉包
2、模式匹配、偏函數
3、類型參數
4、協變與逆變
5、隱式轉換、隱式參數、隱式值
6、Actor機制
7、高級項目案例
Python編程
1、Python編程介紹
2、Python的基本語法
3、Python開發環境搭建
4、Pyhton開發Spark應用程序
第八階段：Storm生態系統
storm簡介與基本知識
1、storm的誕生誕生與成長
2、storm的優勢與應用
3、storm基本知識概念和配置
4、序列化與容錯機制
5、可靠性機制—保證消息處理
6、storm開發環境與生產環境
7、storm拓撲的並行度
8、storm命令行客戶端
Storm拓撲與組件詳解
1、流分組和拓撲運行
2、拓撲的常見模式
3、本地模式與stormsub的對比
4、使用非jvm語言操作storm
5、hook、組件基本介面
6、基本抽象類
7、事務介面
8、組件之間的相互關系
spout詳解與bolt詳解
1、spout獲取數據的方式
2、常用的spout
3、學習編寫spout類
4、bolt概述
5、可靠的與不可靠的bolt
6、復合流與復合anchoring
7、使用其他語言定義bolt
8、學習編寫bolt類
storm安裝與集群搭建
1、storm集群安裝步驟與准備
2、本地模式storm配置命令
3、配置hosts文件、安裝jdk
4、zookeeper集群的搭建
5、部署節點
6、storm集群的搭建
7、zookeeper應用案例
8、Hadoop高可用集群搭建
Kafka
1、Kafka介紹和安裝
2、整合Flume
3、Kafka API
4、Kafka底層實現原理
5、Kafka的消息處理機制
6、數據傳輸的事務定義
7、Kafka的存儲策略
Flume
1、Flume介紹和安裝
2、Flume Source講解
3、Flume Channel講解
4、Flume Sink講解
5、flume部署種類、流配置
6、單一代理、多代理說明
7、flume selector相關配置
Redis
1、Redis介紹和安裝、配置
2、Redis數據類型
3、Redis鍵、字元串、哈希
4、Redis列表與集合
5、Redis事務和腳本
6、Redis數據備份與恢復
7、Redis的SHELL操作

㈨有用SQL語句轉化引擎來操作HBase的嗎

工具－－》SQL 查詢分析器－－》然後輸入：
Alter DataBASE New MODIFY FILE(NAME='Old_Data',NEWNAME='New_Data') Alter DataBASE New MODIFY FILE(NAME='Old_Log',NEWNAME='New_Log')
－－》按F5運行便可。

hbasesql引擎

大數據專業難度較大，建議本科畢業後再學，主要課程內容包括6大模塊：

與hbasesql引擎相關的內容