sparksql讀取hdfs_spark sql讀取hdfs裡面的表數據怎麼讀能顯示欄位名

『壹』如何使用 Spark sql

一、啟動方法
/data/spark-1.4.0-bin-cdh4/bin/spark-sql --master spark://master:7077 --total-executor-cores 10 --executor-memory 1g --executor-cores 2

註：/data/spark-1.4.0-bin-cdh4/為spark的安裝路徑

/data/spark-1.4.0-bin-cdh4/bin/spark-sql –help 查看啟動選項

--master MASTER_URL 指定master url
--executor-memory MEM 每個executor的內存，默認為1G
--total-executor-cores NUM 所有executor的總核數
-e <quoted-query-string> 直接執行查詢SQL

-f <filename> 以文件方式批量執行SQL

二、Spark sql對hive支持的功能

1、查詢語句：SELECT GROUP BY ORDER BY CLUSTER BY SORT BY
2、hive操作運算：
1) 關系運算：= ==, <>, <, >, >=, <=
2) 算術運算：+, -, *, /, %
3) 邏輯運算：AND, &&, OR, ||
4) 復雜的數據結構
5) 數學函數：(sign, ln, cos, etc)
6) 字元串函數：
3、 UDF
4、 UDAF

5、用戶定義的序列化格式
6、join操作：JOIN {LEFT|RIGHT|FULL} OUTER JOIN LEFT SEMI JOIN CROSS JOIN
7、 unions操作：
8、子查詢： SELECT col FROM ( SELECT a + b AS col from t1) t2
9、Sampling
10、 Explain
11、分區表
12、視圖
13、 hive ddl功能：CREATE TABLE、CREATE TABLE AS SELECT、ALTER TABLE

14、支持的數據類型：TINYINT SMALLINT INT BIGINT BOOLEAN FLOAT DOUBLE STRING BINARY TIMESTAMPDATE ARRAY MAP STRUCT

三、Spark sql 在客戶端編程方式進行查詢數據
1、啟動spark-shell
./spark-shell --master spark://master:7077 --total-executor-cores 10 --executor-memory 1g --executor-cores 2
2、編寫程序
val sqlContext = new org.apache.spark.sql.SQLContext(sc)
val df = sqlContext.read.json("../examples/src/main/resources/people.json")
查看所有數據：df.show()
查看錶結構：df.printSchema()
只看name列：df.select("name").show()
對數據運算：df.select(df("name"), df("age") + 1).show()
過濾數據：df.filter(df("age") > 21).show()

分組統計：df.groupBy("age").count().show()

1、查詢txt數據
import sqlContext.implicits._
case class Person(name: String, age: Int)
val people = sc.textFile("../examples/src/main/resources/people.txt").map(_.split(",")).map(p => Person(p(0), p(1).trim.toInt)).toDF()
people.registerTempTable("people")
val teenagers = sqlContext.sql("SELECT name, age FROM people WHERE age >= 13 AND age <= 19")
2、parquet文件
val df = sqlContext.read.load("../examples/src/main/resources/users.parquet")
3、hdfs文件

val df = sqlContext.read.load("hdfs://namenode.Hadoop:9000/user/hive/warehouse/spark_test.db/test_parquet/part-r-00001.gz.parquet")
4、保存查詢結果數據
val df = sqlContext.read.load("../examples/src/main/resources/users.parquet")

df.select("name", "favorite_color").write.save("namesAndFavColors.parquet「)

四、Spark sql性能調優

緩存數據表：sqlContext.cacheTable("tableName")

取消緩存表：sqlContext.uncacheTable("tableName")

spark.sql.inMemoryColumnarStorage.compressedtrue當設置為true時，Spark SQL將為基於數據統計信息的每列自動選擇一個壓縮演算法。
spark.sql.inMemoryColumnarStorage.batchSize10000柱狀緩存的批數據大小。更大的批數據可以提高內存的利用率以及壓縮效率，但有OOMs的風險

『貳』 spark sql怎麼操作hdfs 的數據

使用sqoop工具，或者使用DBInputFormat自己讀取資料庫數據然後寫入到hdfs中

『叄』大數據中的Spark指的是什麼

Spark是一種通用的大數據計算框架，和傳統的大數據技術MapRece有本質區別。前者是基於內存並行計算的框架，而maprece側重磁碟計算。Spark是加州大學伯克利分校AMP實驗室開發的通用內存並行計算框架，用於構建大型的、低延遲的數據分析應用程序。
Spark同樣支持離線計算和實時計算兩種模式。Spark離線計算速度要比Maprece快10-100倍。而實時計算方面，則依賴於SparkStreaming的批處理能力，吞吐量大。不過相比Storm，SparkStreaming並不能做到真正的實時。
Spark使用強大的函數式語言Scala開發，方便簡單。同時，它還提供了對Python、Java和R語言的支持。
作為大數據計算框架MapRece的繼任者，Spark具備以下優勢特性。
1，高效性
不同於MapRece將中間計算結果放入磁碟中，Spark採用內存存儲中間計算結果，減少了迭代運算的磁碟IO，並通過並行計算DAG圖的優化，減少了不同任務之間的依賴，降低了延遲等待時間。內存計算下，Spark 比 MapRece 快100倍。
2，易用性
不同於MapRece僅支持Map和Rece兩種編程運算元，Spark提供了超過80種不同的Transformation和Action運算元，如map,rece,filter,groupByKey,sortByKey,foreach等，並且採用函數式編程風格，實現相同的功能需要的代碼量極大縮小。
3，通用性
Spark提供了統一的解決方案。Spark可以用於批處理、互動式查詢（Spark SQL）、實時流處理（Spark Streaming）、機器學習（Spark MLlib）和圖計算（GraphX）。
4，兼容性
Spark能夠跟很多開源工程兼容使用。如Spark可以使用Hadoop的YARN和Apache Mesos作為它的資源管理和調度器，並且Spark可以讀取多種數據源，如HDFS、HBase、MySQL等。

『肆』 spark SQL和hive到底什麼關系

Hive是一種基於HDFS的數據倉庫，並且提供了基於SQL模型的，針對存儲了大數據的數據倉庫，進行分布式交互查詢的查詢引擎。

SparkSQL並不能完全替代Hive，它替代的是Hive的查詢引擎，SparkSQL由於其底層基於Spark自身的基於內存的特點，因此速度是Hive查詢引擎的數倍以上，Spark本身是不提供存儲的，所以不可能替代Hive作為數據倉庫的這個功能。

SparkSQL相較於Hive的另外一個優點，是支持大量不同的數據源，包括hive、json、parquet、jdbc等等。SparkSQL由於身處Spark技術堆棧內，基於RDD來工作，因此可以與Spark的其他組件無縫整合使用，配合起來實現許多復雜的功能。比如SparkSQL支持可以直接針對hdfs文件執行sql語句。

『伍』 Spark-Hadoop，Hive，Spark 之間是什麼關系

大數據本身是個很寬泛的概念，Hadoop生態圈(或者泛生態圈)基本上都是為了處理超過單機尺度的數據處理而誕生的。你可以把它比作一個廚房所以需要的各種工具。鍋碗瓢盆，各有各的用處，互相之間又有重合。你可以用湯鍋直接當碗吃飯喝湯，你可以用小刀或者刨子去皮。但是每個工具有自己的特性，雖然奇怪的組合也能工作，但是未必是最佳選擇。
大數據，首先你要能存的下大數據
傳統的文件系統是單機的，不能橫跨不同的機器。HDFS(Hadoop Distributed FileSystem)的設計本質上是為了大量的數據能橫跨成百上千台機器，但是你看到的是一個文件系統而不是很多文件系統。比如你說我要獲取/hdfs/tmp/file1的數據，你引用的是一個文件路徑，但是實際的數據存放在很多不同的機器上。你作為用戶，不需要知道這些，就好比在單機上你不關心文件分散在什麼磁軌什麼扇區一樣。HDFS為你管理這些數據。
存的下數據之後，你就開始考慮怎麼處理數據。雖然HDFS可以為你整體管理不同機器上的數據，但是這些數據太大了。一台機器讀取成T上P的數據(很大的數據哦，比如整個東京熱有史以來所有高清電影的大小甚至更大)，一台機器慢慢跑也許需要好幾天甚至好幾周。對於很多公司來說，單機處理是不可忍受的，比如微博要更新24小時熱博，它必須在24小時之內跑完這些處理。那麼我如果要用很多台機器處理，我就面臨了如何分配工作，如果一台機器掛了如何重新啟動相應的任務，機器之間如何互相通信交換數據以完成復雜的計算等等。這就是MapRece
/ Tez / Spark的功能。MapRece是第一代計算引擎，Tez和Spark是第二代。MapRece的設計，採用了很簡化的計算模型，只有Map和Rece兩個計算過程(中間用Shuffle串聯)，用這個模型，已經可以處理大數據領域很大一部分問題了。
那什麼是Map，什麼是Rece?
考慮如果你要統計一個巨大的文本文件存儲在類似HDFS上，你想要知道這個文本里各個詞的出現頻率。你啟動了一個MapRece程序。Map階段，幾百台機器同時讀取這個文件的各個部分，分別把各自讀到的部分分別統計出詞頻，產生類似(hello, 12100次)，(world，15214次)等等這樣的Pair(我這里把Map和Combine放在一起說以便簡化);這幾百台機器各自都產生了如上的集合，然後又有幾百台機器啟動Rece處理。Recer機器A將從Mapper機器收到所有以A開頭的統計結果，機器B將收到B開頭的詞彙統計結果(當然實際上不會真的以字母開頭做依據，而是用函數產生Hash值以避免數據串化。因為類似X開頭的詞肯定比其他要少得多，而你不希望數據處理各個機器的工作量相差懸殊)。然後這些Recer將再次匯總，(hello，12100)+(hello，12311)+(hello，345881)=
(hello，370292)。每個Recer都如上處理，你就得到了整個文件的詞頻結果。
這看似是個很簡單的模型，但很多演算法都可以用這個模型描述了。
Map+Rece的簡單模型很黃很暴力，雖然好用，但是很笨重。第二代的Tez和Spark除了內存Cache之類的新feature，本質上來說，是讓Map/Rece模型更通用，讓Map和Rece之間的界限更模糊，數據交換更靈活，更少的磁碟讀寫，以便更方便地描述復雜演算法，取得更高的吞吐量。
有了MapRece，Tez和Spark之後，程序員發現，MapRece的程序寫起來真麻煩。他們希望簡化這個過程。這就好比你有了匯編語言，雖然你幾乎什麼都能幹了，但是你還是覺得繁瑣。你希望有個更高層更抽象的語言層來描述演算法和數據處理流程。於是就有了Pig和Hive。Pig是接近腳本方式去描述MapRece，Hive則用的是SQL。它們把腳本和SQL語言翻譯成MapRece程序，丟給計算引擎去計算，而你就從繁瑣的MapRece程序中解脫出來，用更簡單更直觀的語言去寫程序了。
有了Hive之後，人們發現SQL對比Java有巨大的優勢。一個是它太容易寫了。剛才詞頻的東西，用SQL描述就只有一兩行，MapRece寫起來大約要幾十上百行。而更重要的是，非計算機背景的用戶終於感受到了愛：我也會寫SQL!於是數據分析人員終於從乞求工程師幫忙的窘境解脫出來，工程師也從寫奇怪的一次性的處理程序中解脫出來。大家都開心了。Hive逐漸成長成了大數據倉庫的核心組件。甚至很多公司的流水線作業集完全是用SQL描述，因為易寫易改，一看就懂，容易維護。
自從數據分析人員開始用Hive分析數據之後，它們發現，Hive在MapRece上跑，真雞巴慢!流水線作業集也許沒啥關系，比如24小時更新的推薦，反正24小時內跑完就算了。但是數據分析，人們總是希望能跑更快一些。比如我希望看過去一個小時內多少人在一些特定頁面駐足，分別停留了多久，對於一個巨型網站海量數據下，這個處理過程也許要花幾十分鍾甚至很多小時。而這個分析也許只是你萬里長征的第一步，你還有很多其他的要分析。你無法忍受等待的折磨，只能跟帥帥的工程師蟈蟈說，快，快，再快一點!
於是Impala，Presto，Drill誕生了(當然還有無數非著名的交互SQL引擎，就不一一列舉了)。三個系統的核心理念是，MapRece引擎太慢，因為它太通用，太強壯，太保守，我們SQL需要更輕量，更激進地獲取資源，更專門地對SQL做優化，而且不需要那麼多容錯性保證(因為系統出錯了大不了重新啟動任務，如果整個處理時間更短的話，比如幾分鍾之內)。這些系統讓用戶更快速地處理SQL任務，犧牲了通用性穩定性等特性。如果說MapRece是大砍刀，砍啥都不怕，那上面三個就是剔骨刀，靈巧鋒利，但是不能搞太大太硬的東西。
這些系統，說實話，一直沒有達到人們期望的流行度。因為這時候又兩個異類被造出來了。他們是Hive on Tez / Spark和SparkSQL。它們的設計理念是，MapRece慢，但是如果我用新一代通用計算引擎Tez或者Spark來跑SQL，那我就能跑的更快。而且用戶不需要維護兩套系統。這就好比如果你廚房小，人又懶，對吃的精細程度要求有限，那你可以買個電飯煲，能蒸能煲能燒，省了好多廚具。
上面的介紹，基本就是一個數據倉庫的構架了。底層HDFS，上面跑MapRece/Tez/Spark，在上面跑Hive，Pig。或者HDFS上直接跑Impala，Drill，Presto。這解決了中低速數據處理的要求。
那如果我要更高速的處理呢？
如果我是一個類似微博的公司，我希望顯示不是24小時熱博，我想看一個不斷變化的熱播榜，更新延遲在一分鍾之內，上面的手段都將無法勝任。於是又一種計算模型被開發出來，這就是Streaming(流)計算。Storm是最流行的流計算平台。流計算的思路是，如果要達到更實時的更新，我何不在數據流進來的時候就處理了?比如還是詞頻統計的例子，我的數據流是一個一個的詞，我就讓他們一邊流過我就一邊開始統計了。流計算很牛逼，基本無延遲，但是它的短處是，不靈活，你想要統計的東西必須預先知道，畢竟數據流過就沒了，你沒算的東西就無法補算了。因此它是個很好的東西，但是無法替代上面數據倉庫和批處理系統。
還有一個有些獨立的模塊是KV Store，比如Cassandra，HBase，MongoDB以及很多很多很多很多其他的(多到無法想像)。所以KV Store就是說，我有一堆鍵值，我能很快速滴獲取與這個Key綁定的數據。比如我用身份證號，能取到你的身份數據。這個動作用MapRece也能完成，但是很可能要掃描整個數據集。而KV
Store專用來處理這個操作，所有存和取都專門為此優化了。從幾個P的數據中查找一個身份證號，也許只要零點幾秒。這讓大數據公司的一些專門操作被大大優化了。比如我網頁上有個根據訂單號查找訂單內容的頁面，而整個網站的訂單數量無法單機資料庫存儲，我就會考慮用KV Store來存。KV Store的理念是，基本無法處理復雜的計算，大多沒法JOIN，也許沒法聚合，沒有強一致性保證(不同數據分布在不同機器上，你每次讀取也許會讀到不同的結果，也無法處理類似銀行轉賬那樣的強一致性要求的操作)。但是丫就是快。極快。
每個不同的KV Store設計都有不同取捨，有些更快，有些容量更高，有些可以支持更復雜的操作。必有一款適合你。
除此之外，還有一些更特製的系統/組件，比如Mahout是分布式機器學習庫，Protobuf是數據交換的編碼和庫，ZooKeeper是高一致性的分布存取協同系統，等等。
有了這么多亂七八糟的工具，都在同一個集群上運轉，大家需要互相尊重有序工作。所以另外一個重要組件是，調度系統。現在最流行的是Yarn。你可以把他看作中央管理，好比你媽在廚房監工，哎，你妹妹切菜切完了，你可以把刀拿去殺雞了。只要大家都服從你媽分配，那大家都能愉快滴燒菜。
你可以認為，大數據生態圈就是一個廚房工具生態圈。為了做不同的菜，中國菜，日本菜，法國菜，你需要各種不同的工具。而且客人的需求正在復雜化，你的廚具不斷被發明，也沒有一個萬用的廚具可以處理所有情況，因此它會變的越來越復雜。

『陸』 spark sql讀取hdfs裡面的表數據，怎麼讀能顯示欄位名

默認是從hdfs讀取文件，也可以指定sc.textFile("路徑").在路徑前面加上hdfs://表示從hdfs文件系統上讀本地文件讀取 sc.textFile("路徑").在路徑前面加上file:// 表示從本地文件系統讀，如file:///home/user/spark/README.md

『柒』 sparksql怎麼講hdfs上的文件導入hbase

打開你的視頻文件夾，直接把文件拖到會聲會影的時間線上就好了，注意要放在視頻軌，不然放不上去的。另個，還要使用會聲會影支持的視頻文件格式才行，有些格式是不支持的。

sparksql讀取hdfs

與sparksql讀取hdfs相關的內容