sparksql使用_怎样用sparksql查询多表

1. spark sql支持哪些sql操作

支持Shark和sparkSQL 。

但是，随着Spark的发展，其中sparkSQL作为Spark生态的一员继续发展，而不再受限于hive，只是兼容hive；而hive on
spark是一个hive的发展计划，该计划将spark作为hive的底层引擎之一，也就是说，hive将不再受限于一个引擎，可以采用map-
rece、Tez、spark等引擎。

2. 如何使用Spark SQL 的JDBC server

首先确保SQLSERVER服务正在运行，并可以允许远程访问连接

然后按如下步骤进行连接
1.安装JDBC驱动
1）下载JDBC驱动

2）执行sqljdbc_4.0.2206.100_chs.exe解压驱动文件

3）拷贝以下目录中的sqljdbc_auth.dll到Windows的System32目录。对x64的机子，x64的dll拷到C:\Windows\System32,x86的dll拷到C:\Windows\SysWOW64目录。
Microsoft JDBC Driver 4.0 for SQL Server\sqljdbc_4.0\chs\auth\

2.在Java程序中连接SQL Server
classpath中加上安装好的SQL Server jdbc jar包
Microsoft JDBC Driver 4.0 for SQL Server\sqljdbc_4.0\chs\sqljdbc4.jar

连接SQL Server的JDBC代码
Class.forName("com.microsoft.sqlserver.jdbc.SQLServerDriver");

String url = "jdbc:sqlserver://localhost:54364;databaseName=master;IntegratedSecurity=True";

Connection con = DriverManager.getConnection(url);
在SQL Server Browser服务开启的情况下也可以通过服务名连接
Class.forName("com.microsoft.sqlserver.jdbc.SQLServerDriver");

String url = "jdbc:sqlserver://localhost\\SQLEXPRESS;databaseName=master;IntegratedSecurity=True";

Connection con = DriverManager.getConnection(url);

3.身份验证模式

SQL Server默认使用Windows身份验证模式，这也是官方推荐的模式，安全性更高。上面的连接例子就是采用的Windows认证。如果要使用混合认证模式，需要下载SQL Server Management Studio,并通过SQL Server Management Studio修改认证模式为混合认证模式。

3. 企业常用sparkcore还是sparksql

企业最常用的是sparkcore和sparksql协同处理的方式。
企业是基于微批处理的流式计算引擎，通常是利用sparkcore与sparksql一起来处理数据。在企业实时处理架构中，通常将sparkstreaming和kafka集成作为整个大数据处理架构的核心环节之一。
SparkSQL构建在SparkCore之上，专门用来处理结构化数据(不仅仅是SQL)。即SparkSQL是SparkCore封装而来的。SparkSQL在SparkCore的基础上针对结构化数据处理进行很多优化和改进，简单来讲，SparkSQL支持很多种结构化数据源，可以让你跳过复杂的读取过程，轻松从各种数据源中读取数据。当你使用SQL查询这些数据源中的数据并且只用到了一部分字段时，SparkSQL可以智能地只扫描这些用到的字段，而不是像SparkContexthadoopFile中那样简单粗暴地扫描全部数据。

4. 求问怎么设置sparksql读取hive的数据库

求问怎么设置sparksql读取hive的数据库
使用maven进行打包：
打包命令：
mvn -Pyarn -Dhadoop.version=2.3.0-cdh5.0.0 -Phive -Phive-thriftserver -DskipTests clean package

5. sparksql 多字段join与单字段join的性能问题

1 概念：流式遍历表(streamIter)和查找表(buildIter)
流式遍历表(streamIter)和查找表(buildIter)的概念见Spark SQL 之 Join 实现 - 云+社区 - 腾讯云 (tencent.com)

一般streamlter是大表，bulidler是小表

2 概念：sparksql种3种join的实现方式
sort merge join：有shuffle操作，适用于两张大表

broadcast join：把bulidler表广播到每个executor里，所以builder表应该小一点，sparks中默认builder表小于10M时使用broadcast join方法，适用于大表+小表

hash join：默认不开启，开启了sort merge join也比它差不了太多，适用于大表+小表（比broadcast的小表略大）

3 4种join方式
inner join：我们在写sql语句或者使用DataFrmae时，可以不用关心哪个是左表，哪个是右表，在spark sql查询优化阶段，spark会自动将大表设为左表，即streamIter，将小表设为右表，即buildIter。

left outer join是以左表为准，在右表中查找匹配的记录，如果查找失败，则返回一个所有字段都为null的记录。我们在写sql语句或者使用DataFrmae时，一般让大表在左边，小表在右边。

right outer join是以右表为准，在左表中查找匹配的记录，如果查找失败，则返回一个所有字段都为null的记录。所以说，右表是streamIter，左表是buildIter，我们在写sql语句或者使用DataFrmae时，一般让大表在右边，小表在左边。

full outer join 不用关心左表右表

6. 如何使用sparksql向mysql中插入数据

f(isset($_POST['submit'])&&$_POST['submit']=='提交'){
3 //判断是否是提交过来的
4 $intext = $_POST['intext'];
5 if($intext!=null||$intext!=''){
6 $link = mysql_connect("localhost", "root", "123456");
7 //数据库配置信息第一个参数数据库位置第二个是用户名第三个是密码
8 mysql_select_db("szn_test");
9 //设置要使用的数据库
10 $sql = "select * from demo where res = '".$intext."'";

7. 怎样用sparksql查询多表

一、启动方法
/data/spark-1.4.0-bin-cdh4/bin/spark-sql --master spark://master:7077 --total-executor-cores 10 --executor-memory 1g --executor-cores 2

注：/data/spark-1.4.0-bin-cdh4/为spark的安装路径

/data/spark-1.4.0-bin-cdh4/bin/spark-sql –help 查看启动选项

--master MASTER_URL 指定master url
--executor-memory MEM 每个executor的内存，默认为1G
--total-executor-cores NUM 所有executor的总核数
-e <quoted-query-string> 直接执行查询SQL

-f <filename> 以文件方式批量执行SQL

8. 如何在集群外客户端上使用sparksql工具

首先确保SQLSERVER服务正在运行，并可以允许远程访问连接然后按如下步骤进行连接 1.安装JDBC驱动 1）下载JDBC驱动 2）执行sqljdbc_4.0.2206.100_chs.exe解压驱动文件 3）拷贝以下目录中的sqljdbc_auth.dll到Windows的System32目录。

9. spark从hive数据仓库中读取的数据可以使用sparksql进行查询吗

1、为了让Spark能够连接到Hive的原有数据仓库，我们需要将Hive中的hive-site.xml文件拷贝到Spark的conf目录下，这样就可以通过这个配置文件找到Hive的元数据以及数据存放。
在这里由于我的Spark是自动安装和部署的，因此需要知道CDH将hive-site.xml放在哪里。经过摸索。该文件默认所在的路径是：/etc/hive/conf 下。
同理，spark的conf也是在/etc/spark/conf。
此时，如上所述，将对应的hive-site.xml拷贝到spark/conf目录下即可
如果Hive的元数据存放在Mysql中，我们还需要准备好Mysql相关驱动，比如：mysql-connector-java-5.1.22-bin.jar。
2、编写测试代码
val conf=new SparkConf().setAppName("Spark-Hive").setMaster("local")
val sc=new SparkContext(conf)

//create hivecontext
val sqlContext = new org.apache.spark.sql.hive.HiveContext(sc)

sqlContext.sql("CREATE TABLE IF NOT EXISTS src (key INT, value STRING) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' ") //这里需要注意数据的间隔符

sqlContext.sql("LOAD DATA INPATH '/user/liujiyu/spark/kv1.txt' INTO TABLE src ");

sqlContext.sql(" SELECT * FROM jn1").collect().foreach(println)

sc.stop()

3、下面列举一下出现的问题：
（1）如果没有将hive-site.xml拷贝到spark/conf目录下，会出现：

分析：从错误提示上面就知道，spark无法知道hive的元数据的位置，所以就无法实例化对应的client。
解决的办法就是必须将hive-site.xml拷贝到spark/conf目录下
（2）测试代码中没有加sc.stop会出现如下错误：
ERROR scheler.LiveListenerBus: Listener EventLoggingListener threw an exception
java.lang.reflect.InvocationTargetException
在代码最后一行添加sc.stop()解决了该问题。

10. sparkSQL用jdbc连接hive和用元数据连接hive的区别，各自优缺点

spark on hive : 是spark 通过spark-sql 使用hive 语句操作hive ,底层运行的还是 spark rdd.
*（1）就是通过sparksql，加载hive的配置文件，获取到hive的元数据信息
* （2）spark sql获取到hive的元数据信息之后就可以拿到hive的所有表的数据
* （3）接下来就可以通过spark sql来操作hive表中的数据
hive on spark: 是hive 等的执行引擎变成spark , 不再是maprece. 相对于上一项,这个要实现责麻烦很多, 必须重新编译你的spark. 和导入jar包,

sparksql使用

与sparksql使用相关的内容