r语言hbase数据库_如何加快hbase读取数据的效率

‘壹’ r语言连接mysql 数据库查询表中文字段名乱码怎么解决

把所有的编码都改为UTF-8，包括jsp页面，数据库编码等
数据库用的是UTF-8，客户端用GBK连接，这都没问题，但是JSP页面也得用UTF-8或者在保存前使用代码转化成UTF-8编码（String mycontent=new String(content.getBytes("ISO-8859-1"),"UTF-8");）也可以.
希望以上信息可以帮到您！

‘贰’ R语言如何数据库读取数据

R 对于基于 SQL 语言的关系型数据库有良好的支持，这些数据库既有商业数据库 Oracle、Microsoft SQL Server、IBM DB2 等，也包含在 GNU General Public License (GPL) 下发布的 MySQL 等开源数据库。 RMySQL 包中提供了到 MySQL 数据库的接口；RODBC 包提供了更为广泛数据库接口的解决方案支持所有标准 ODBC 接口的数据库。通过这种方式，相同的 R 代码可以方便地应用于不同类型的数据库。 library (RODBC) ch <- odbcConnect("stocksDSN",uid = "myuser",pwd = "mypassword") stocks <- sqlQuery(ch ,"select * from quotes") odbcClose(ch) 经测试，Windows 平台上的 Microsoft SQL Server、Access、Oracle、MySQL、PostgreSQL，和

‘叁’ 如何让Hadoop结合R语言做大数据分析

R语言和Hadoop让我们体会到了，两种技术在各自领域的强大。很多开发人员在计算机的角度，都会提出下面2个问题。问题1: Hadoop的家族如此之强大，为什么还要结合R语言？
问题2: Mahout同样可以做数据挖掘和机器学习，和R语言的区别是什么？下面我尝试着做一个解答：问题1: Hadoop的家族如此之强大，为什么还要结合R语言？

a. Hadoop家族的强大之处，在于对大数据的处理，让原来的不可能（TB,PB数据量计算），成为了可能。
b. R语言的强大之处，在于统计分析，在没有Hadoop之前，我们对于大数据的处理，要取样本，假设检验，做回归，长久以来R语言都是统计学家专属的工具。
c. 从a和b两点，我们可以看出，hadoop重点是全量数据分析，而R语言重点是样本数据分析。两种技术放在一起，刚好是最长补短！
d. 模拟场景：对1PB的新闻网站访问日志做分析，预测未来流量变化
d1:用R语言，通过分析少量数据，对业务目标建回归建模，并定义指标d2:用Hadoop从海量日志数据中，提取指标数据d3:用R语言模型，对指标数据进行测试和调优d4:用Hadoop分步式算法，重写R语言的模型，部署上线这个场景中，R和Hadoop分别都起着非常重要的作用。以计算机开发人员的思路，所有有事情都用Hadoop去做，没有数据建模和证明，”预测的结果”一定是有问题的。以统计人员的思路，所有的事情都用R去做，以抽样方式，得到的“预测的结果”也一定是有问题的。所以让二者结合，是产界业的必然的导向，也是产界业和学术界的交集，同时也为交叉学科的人才提供了无限广阔的想象空间。问题2: Mahout同样可以做数据挖掘和机器学习，和R语言的区别是什么？

a. Mahout是基于Hadoop的数据挖掘和机器学习的算法框架，Mahout的重点同样是解决大数据的计算的问题。
b. Mahout目前已支持的算法包括，协同过滤，推荐算法，聚类算法，分类算法，LDA, 朴素bayes，随机森林。上面的算法中，大部分都是距离的算法，可以通过矩阵分解后，充分利用MapRece的并行计算框架，高效地完成计算任务。
c. Mahout的空白点，还有很多的数据挖掘算法，很难实现MapRece并行化。Mahout的现有模型，都是通用模型，直接用到的项目中，计算结果只会比随机结果好一点点。Mahout二次开发，要求有深厚的JAVA和Hadoop的技术基础，最好兼有 “线性代数”，“概率统计”，“算法导论” 等的基础知识。所以想玩转Mahout真的不是一件容易的事情。
d. R语言同样提供了Mahout支持的约大多数算法(除专有算法)，并且还支持大量的Mahout不支持的算法，算法的增长速度比mahout快N倍。并且开发简单，参数配置灵活，对小型数据集运算速度非常快。
虽然，Mahout同样可以做数据挖掘和机器学习，但是和R语言的擅长领域并不重合。集百家之长，在适合的领域选择合适的技术，才能真正地“保质保量”做软件。

如何让Hadoop结合R语言？

从上一节我们看到，Hadoop和R语言是可以互补的，但所介绍的场景都是Hadoop和R语言的分别处理各自的数据。一旦市场有需求，自然会有商家填补这个空白。

1）. RHadoop

RHadoop是一款Hadoop和R语言的结合的产品，由RevolutionAnalytics公司开发，并将代码开源到github社区上面。RHadoop包含三个R包 (rmr，rhdfs，rhbase)，分别是对应Hadoop系统架构中的，MapRece, HDFS, HBase 三个部分。

2）. RHiveRHive是一款通过R语言直接访问Hive的工具包，是由NexR一个韩国公司研发的。

3）. 重写Mahout用R语言重写Mahout的实现也是一种结合的思路，我也做过相关的尝试。

4）.Hadoop调用R

上面说的都是R如何调用Hadoop，当然我们也可以反相操作，打通JAVA和R的连接通道，让Hadoop调用R的函数。但是，这部分还没有商家做出成形的产品。

5. R和Hadoop在实际中的案例

R和Hadoop的结合，技术门槛还是有点高的。对于一个人来说，不仅要掌握Linux, Java, Hadoop, R的技术，还要具备软件开发，算法，概率统计，线性代数，数据可视化，行业背景的一些基本素质。在公司部署这套环境，同样需要多个部门，多种人才的的配合。Hadoop运维，Hadoop算法研发，R语言建模，R语言MapRece化，软件开发，测试等等。所以，这样的案例并不太多。

‘肆’ R语言如何从外部读取数据到R中

R语言如何从外部读取数据到R中
R语言可以从键盘，文本，excel，access，数据库，专业处理软件sas

一、使用键盘的输入
mydata<-data.frame(age=numeric(0),gender=character(0),weight=numeric(0))
mydata<-edit(mydata)
二、读入带有分隔符文本格式的数据
data<-read.table(文件，header=true/false,sep="delimeter",row.names=列名)
其中文件可以有很多选项的
file（）gzfile（），bzfile（），等一些压缩文件以及url（http：//,ftp://,smtp://）
例子：
默认的时候，字符串会自动使用factor转化为数值型
data<-read.table("student.csv",header=TRUE,sep=",",row.names="studentid"，stringsAsFactors=FALSE)
三、将xls文件导入到R中
（1）将xls变成csv的格式导入
（2）在Windows系统中，你也可以使用RODBC包来访问Excel文件。
library(RODBC)
channel <- odbcConnectExcel("student.xls")
mydataframe<-sqlFetch(channel,"Sheet1")
odbcClose(channel)
四、抓取网页并且提取信息
五、导入spss数据
library（Hmisc）
mydata<-spss.get("mydata.sav",use.value.labels=TRUE)
六、导入SAS数据
将sas格式的数据转换为csv格式的数据然后用read.table()形式导入
七、导入关系型数据库的数据
R中有多种面向关系型数据库管理系统（DBMS）的接口，包括Microsoft SQL Server、Microsoft Access、MySQL、Oracle、PostgreSQL、DB2、Sybase、Teradata以及SQLite。其中一些包通过原生的数据库驱动来提供访问功能，另一些则是通过ODBC或JDBC来实现访问的。
（1）使用ODBC的方式导入数据

‘伍’ r语言中，随机取原本数据框90%，如何生成一个新的数据库是存放剩下的10%的数据

train<-read.csv(file="small.dat",header=FALSE)

names(train)<-c("user","item","pref")

hs<-nrow(train)

a<-sample(hs, 0.9*hs)

trai<-train[a, ]

t <- train[-a,] ###剩下10%，相减是指行号

‘陆’ 如何用R语言连接和管理MYSQL数据库

链接数据库其实很简单具体代码如下：
package db;
import java.sql.*;

public class DB {
private Connection con=null;
private Statement stmt=null;
private ResultSet rs=null;
public DB(){}
public Connection getConnection(){
String url="jdbc:mysql://127.0.0.1:3306/test?useUnicode=true&characterEncoding=utf8";
String dbuser="root";
String dbpass="sa";
String name="com.mysql.jdbc.Driver";
if(con==null){
try{
Class.forName(name).newInstance();

}catch(Exception e){
System.out.println(e);
}
try{
con=DriverManager.getConnection(url,dbuser,dbpass);
}catch(Exception e){}
}
return con;
}
public ResultSet exeQuery(String sql){
try{
con=getConnection();
if(con==null){
throw new Exception("没有可连接对象");
}
stmt=con.createStatement();
rs=stmt.executeQuery(sql);
}catch(Exception e){}
return rs;
}
public boolean update(String sql){
boolean flag=true;
try{
con=getConnection();
if(con==null) throw new Exception("没有可连接对象");
stmt=con.createStatement();
stmt.executeUpdate(sql);
}catch(Exception e){
flag=false;
System.out.println("异常:"+e);

}

return flag;
}

public void close(){
try{
if(rs!=null)try{rs.close();}catch(Exception e){System.out.println("rs"+e);}
try{stmt.close();}catch(Exception e){System.out.println("stmt"+e);}
try{con.close();}catch(Exception e){System.out.println("con"+e);}
}catch(Exception e){}
}

‘柒’ 做数据分析，用R语言好还是Stata好

分析软件：Excel、SPSS、SAS、R语言、stata、Eviews、MATLAB、Amos等主流数据库 sc-cpda 数据分析公众交流平台详细看【我】资料

‘捌’ 如何加快hbase读取数据的效率

一．工具开发背景：
业务上目前主要计算逻辑的数据源是hbase，但是我们没有工具对hbase的数据进行单条更改造数据来验证逻辑，之前的做法是把hbase的数据都导出来，改完再重新载入回去，或使用hbase shell接口进行更改（有一个限制就是hbase shell get 出来的数据汉字是看不出来的），效率低，也不便于自动化的回归。测试非常的被动。
于是在师姐的建议下期望有操作hbase数据的工具来提高我们的效率，及大数据的验证。

二．工具简介：
工具使用java编写的jar包，在ihbase.sh进行简单数据处理对jar包进行调用。主要功能为数据的增删改查，支持gbk，utf8编码。通过配置一个xml格式的配置文件（也可以不配置）。
三．使用方法：
1.properties.sh：在里面配置hbase，hadoop等环境变量，里面目前默认是我们测试集群的配置作为参考。注意一些基础的jar包一定要有。
2.config：xml格式的配置hbase导出数据的信息。在海量导出数据或根据rowkey到处数据的时候使用。
3.ihbase.sh工具的使用接口。
四．简要使用介绍：
操作均在bin目录下。

一．查询数据功能
1. ./ihbase –t table_name -rowkey rowkey -enc encoding -s
-enc encoding这个的目的是指定以什么编码读出hbase数据，目前支持utf8，gbk。如果不加该参数则默认以utf读出。
查看表名为table_name,rowkey为rowkey的数据。
2. ./ihbase –t 表名 –k CF:COLUMN=value –k CF:COLUMN=value –w column -s
./ihbase.sh –t "test" –k "a:name=jkfs" –k "a:id=111" -w "nid" -s
查询满足a:name=jkfs且a:id=111的记录，若加上-w参数，则只显示 -w 传进去的列。若不加-w 显示所有列。
（这个命令一般很少用，因为使用这个=的filer需要扫hbase全表，因为这种方式很少使用，所以暂时没考虑如何优化）

二．删除数据功能

1. ./ihbase –t table_name –rowkey rowkey –delete
根据rowkey进行删除。
2. ./ihbase –t table_name –k CF:COLUMN=value –k CF:COLUMN=value –delete
./ihbase –t test –k "a:id=jaks" -k "name=a:jkasj" -delete
删除满足a:id=jaks且a:name=jkasf的数据（目前支持and进行删除，不支持or,原理同该方式的查询）

三．添加数据功能
./ihbase –t table_name –rowkey rowkey –v CF:COLUMN=value –v CF:COLUMN=value -a
./ihbase.sh –t "a:test" -rowkey "111" –v "a:name=jkfs" –v "id=111" -a

添加rowkey为111的数据，后面key，value可以任意指定。如果rowkey已经存在，则报错不进行添加。
添加数据要求必须指定rowkey

四．修改数据功能
1. ./ihbase –t table_name –rowkey rowkey –v key=value -v key=value -u
./ihbase.sh -t "test" -rowkey "1111" –v "name=jkasjd" -u
根据rowkey进行修改一条记录的列数据
2. ./ihbase –t table_name –k key=value –k CF:COLUMN=value -v CF:COLUMN=value -u
./ihbase.sh –t test –k "a:name=jksdj" –k "mge=kjdk" –v "a:name=huanyu" -u
根据非rowkey进行修改，-k 提供修改的条件，-u 提供要修改的列的数数据。(原理同查询，scan全表)

五．导出hbase指定列的数据(所有数据)
./ihbase -f config 此处有一个限制：就是导出表的配置文件必须放在bin的目录下。如果不喜欢这样也可以修改ihbase脚本进行调整。
config为配置导出表信息的xml配置
<?xml version="1.0"?>
<configuration>
<table>
<in_enc>gbk</in_enc>
<out_enc>utf8</out_enc>
<tablename>test</tablename>
<field_separator>\001</field_separator>
<record_separator>\002</record_separator>
<column>
bmw_shops:title
</column>
<outpath>/test/huanyu/hbase</outpath>
</table>
</configuration>
in_enc:hbase中的编码，以解析hbase中数据使用的编码。
out_enc:输出到hdfs路径上的编码。
tablename：操作的表名。
field_separator：如果导出多个字段则作为多个字段间的分隔符。
record_separator:导出数据的行分隔符。（除了\n的字符，因为默认会分行）。
column：导出的字段。如果不存在该字段则导出''。
outpath：导出数据的路径。（其实应在代码中把这个路径先删除的，但是怕用户忘记修改路径误删除，所以没有这么做）
有多少个region 启动多少个map。

六．导出hbase指定行的指定列的数据
./ihbase -f config -rf rfile
config里面配置导出的列，字符编码表名等信息。
rfile 配置导出哪些rowkey的数据。（一个rowkey一行）

类似上面。

七．帮助信息
./ihbase –h
显示帮助信息

r语言hbase数据库

与r语言hbase数据库相关的内容