分词的数据库_Python中主要使用哪些数据库

⑴ 关于文章中的分词和存取数据库的问题

举一个例子：创建一个自动回答的机器人（简单的）
string str；
str Textbox.Text;//表示你一个文本框输进去的文本
if (str.Contains("名字") || str.Contains("姓名") || str.Contains("叫什么"))//提问中包含“名字”“姓名”“叫什么”等关键字
{label1.Text = "我叫雷锋！！"；//lable1显示“我叫雷锋！！”
}
else{label1.Text ="听不懂你说什么"；}//否则回答“听不懂你说什么”
当然你可以将你从数据库中查询到的文本赋值给Text.Box.Text中就行了，然后就按上面的例子写代码就行了。

⑵ NLPIR怎么对sql server数据库数据分词

1、快速从NLPIR-ICTCLAS2014的下载包中获得我们需要的东西

首先来看一下整个文件夹的结构

Data文件夹中，含有分词需要用到的字典，Configure.xml里面有相关的描述信息；doc里面是使用帮助(介绍了基本需要使用到的函数接口)；include、lib自然是我们主要用到的；sample是示例代码；test里面有一个exe示例；授权自然是License，应该是通过某种形式来限制我们的使用的，目前暂时还不清楚，如果到时候被限制，还需要进行调试。

2、从下载包中抽出我们需要的，并新建一个例子

从上面来看，我们需要用到的主要有三个文件夹Data、include、lib(我是打算做的32位程序，所以只需要用里面的
lib\win32下的dll和lib)

这时，工程目录就变成这样的(当然NLPIR.dll需要和exe放在一块)：

第一个例子，比较简单，就简单使用几个常用的函数：
[cpp] view plainprint?
// test_nlpir.cpp : 定义控制台应用程序的入口点。
//

#include "stdafx.h"

#include "iostream"
#include "string"

using namespace std;

#include "NLPIR.h"
#pragma comment(lib, "NLPIR.lib")

int _tmain(int argc, _TCHAR* argv[])
{
if(!NLPIR_Init())
{
printf("Init fails\n");
return -1;
}

const char *participle_result;

const char *sentence = "[整租出租]宣武门西大街4号楼二居整租[整套出租]媒体村天居园大两居[整套出租]媒体村天居园大两居";

cout << "===============NLPIR_ParagraphProcess==================" << endl;
participle_result = NLPIR_ParagraphProcess(sentence,1);
cout << participle_result << endl;
cout << "=================================" << endl;

cout << "==============NLPIR_GetFileNewWords===================" << endl;
const char * get_file_new_words = NLPIR_GetFileNewWords("test.txt");
cout << get_file_new_words << endl;
cout << "=================================" << endl;

cout << "===============NLPIR_GetKeyWords==================" << endl;
const char * get_key_words = NLPIR_GetKeyWords(sentence);
cout << get_key_words << endl;
cout << "=================================" << endl;

cout << "===============NLPIR_GetFileKeyWords==================" << endl;
const char * get_file_key_words = NLPIR_GetFileKeyWords("test.txt");
cout << get_file_key_words << endl;
cout << "=================================" << endl;

cout << "===============NLPIR_GetNewWords==================" << endl;
const char * get_new_words = NLPIR_GetNewWords(sentence);
cout << get_new_words << endl;
cout << "=================================" << endl;

NLPIR_Exit();

return 0;
}
函数可以按照字面上的意思来理解

这是输出的结果：

但明显是看到，上面的分词有些小问题，如果我们在给聚类算法喂数据的时候，这样的分词，会出现一定的问题

3、解决上面的问题

我们有两种方法来处理这个问题

a、这也许是最简单、也最方便的方法
当然，他除了一些繁琐之外(如果你有了一些需要的数据词条、词典就我所谓了)，我们可以新建一个词典文件(比如我这个测试用例中使用user_dic.txt，他里面包含我们需要具体分开的词组)：

那么来看下面是如何具体使用字典的：
[cpp] view plainprint?
// test_nlpir.cpp : 定义控制台应用程序的入口点。
//

#include "stdafx.h"

#include "iostream"
#include "string"

using namespace std;

#include "NLPIR.h"
#pragma comment(lib, "NLPIR.lib")

int _tmain(int argc, _TCHAR* argv[])
{
if(!NLPIR_Init())
{
printf("Init fails\n");
return -1;
}

const char *participle_result;

unsigned int add_dic_items = NLPIR_ImportUserDict("user_dic.txt");//Import user dictionary
printf("%d user-defined lexical entries added!\n", add_dic_items);

const char *sentence = "[整租出租]宣武门西大街4号楼二居整租[整套出租]媒体村天居园大两居[整套出租]媒体村天居园大两居";

cout << "===============NLPIR_ParagraphProcess==================" << endl;
participle_result = NLPIR_ParagraphProcess(sentence,1);
cout << participle_result << endl;
cout << "=================================" << endl;

cout << "==============NLPIR_GetFileNewWords===================" << endl;
const char * get_file_new_words = NLPIR_GetFileNewWords("test.txt");
cout << get_file_new_words << endl;
cout << "=================================" << endl;

cout << "===============NLPIR_GetKeyWords==================" << endl;
const char * get_key_words = NLPIR_GetKeyWords(sentence);
cout << get_key_words << endl;
cout << "=================================" << endl;

cout << "===============NLPIR_GetFileKeyWords==================" << endl;
const char * get_file_key_words = NLPIR_GetFileKeyWords("test.txt");
cout << get_file_key_words << endl;
cout << "=================================" << endl;

cout << "===============NLPIR_GetNewWords==================" << endl;
const char * get_new_words = NLPIR_GetNewWords(sentence);
cout << get_new_words << endl;
cout << "=================================" << endl;

NLPIR_Exit();

return 0;
}

这是使用字典之后的分词结果：

可以看到，我们想要切分的词组都已经出来了，也不再有任何新词出现了

b、通过多个样本(也就是多条数据)来进行分词，这样我们需要用到的词的频率便会增长(有的词只出现1、2次并不会被识别出来)，这样在GetNewWords中，便能够得到一些我们想法的数据，得到这些数据之后，可以写到文本中，然后再写到用户字典中

这里只演示第一步，看看是如何通过增加多条数据来扩大GetNewWords的结果的。
其实很简单，只需要把第一个例子中的测试字符串修改成如下(同样的test.txt对应的字符串也跟着修改)：
[plain] view plainprint?
const char *sentence = "[整租出租]宣武门西大街4号楼二居整租\
[整套出租]媒体村天居园大两居\
【房主出租】万柳中路康桥水郡一居室\
【个人出租】上地桥东清上园小区开间58平\
3个月转租【中关村保福寺桥南】两居中的主卧\
【整套长期出租】海淀安宁佳园安宁庄一居整租（房东直租）\
[单间出租]造甲街南里20号院二居大间\
[个人诚心出租]世纪金源附近，远大园四区11号楼三居次卧\
【房主1居直租】6号线地铁十里堡站炫特嘉园1居（限1人女）\
[单间出租]10号线西土城牡丹园北影黄亭子小区二居之一\
[整套出租]西二旗智学苑三居整套\
[房主整套出租]清河地铁8号线西小口站精装三居整套\
[单间出租]清华校内单间 \
[北京大学西南门海淀桥南大河庄苑精装修一居室整套出租出租]苏\
[求助]求租上地东里/西里/佳园/农大南路2号院干净舒适带电梯两\
[求助]转租西单/金融街/二龙路两居室\
[整套出租]财经大学附近皂君庙一居整套\
北沙滩科学院南里50米一居简装3400元转租，需要的站内索取转租\
招合租中关村知春里海淀黄庄地铁站人大附中对面正规三居\
【个人出租】回龙观地铁附近两居中的主卧和次卧，也可以整租\
个人出租\
[整套出租]朝阳区南沙滩小区一居整套\
（个人转租）新龙城二期14平米正规次卧 1000元\
个人出租：温泉镇尚峰尚水小区精装半地下二居\
【昌平沙河高教园一区小两居】【2450家电全齐全新】\
个人求租,石景山八角附近二居室\
个人出租保利西山林语90平二居室\
2014-7-30存量房网上签约\
明天决定先涨10%的房租，为房产税做准备，得未雨绸缪啊\
今晚新闻调查，心全凉了：转基因米实际已经扩散(12)\
全款求购万年花城两居室(19)\
问一个初级问题：校友卡大家都什么额度？我5k(15)\
再问一个小白问题(8)\
网友评怕老婆城市排行榜：成都第二上海居首(14)\
清华大学东八家嘉苑 61平米全南向正规一居看图 240万(1)\
110平米新房求靠谱装修团队、设计、报价\
五道口学区房满五年唯一两居急售260万\
父母随迁落户能否申请政策房\
房子南面离马路60米，西面紧挨着小学和中学，19层，会吵吗\
学区房在涨吗\
好几个中介打电话说房价要开始上涨了\
【整套出租】6号线黄渠站苹果派小区77平2居\
个人出租]海淀区五道口华联南暂安处朝北主卧合租无中介费近地\
【房屋整租】芍药居北里2居室房主首次出租\
[出租] 中关村北大西门单间\
[求助]求租上地当代城市家园或怡美家园两居或者三居一家人住\
[整套出租]五道口东升园一室一厅南北通透全明实木家具地板家电";
这些数据，也是通过web页面得到的
现在来看看结果
一些常见的词汇也能通过GetNewWords反应出来了

⑶ 如何查看oracle数据库的分词器

oracle使用词法分析器（lexer）进行全文检索，
lexer使用CTX_DDL包，包api位置：{ORACLE_HOME}/ctx/admin/dr0ddl.pkh

⑷ mysql 的中文全文搜索，关于分词，有没有好的解决方案

别用mysql直接做，效率差，实现也麻烦。我实践过一个失败的项目，做出来了功能与效率都没预期的好。
java+lucense+中文分词词库+mysql全文索引。
有人专门做过，全文索引的中间件，叫phinux。找这种组件做。

⑸ 数据库SQL,根据盘古分词返回的词进行查询并按词的匹配度、权重和词频进行排序的存储过程

专业一点好不？SQL太多了，不同数据库的区别很大的

⑹ sql 全文搜索怎么分词的

全文索引的核心理念是倒排索引（即反向索引），而最大的技术难点就在于分词。

英文的分词很简单，直接按空格分词即可。但中文不能这么干，主要原因有两点：

中文词与词之间没有空格
中文分词结果存在歧义。例如：周立波／小人／傻逼和周立／波小／人傻逼，两种分词都说得通，只有结合上下文才知道哪一种对

因此，中文分词比英文分词要困难得多，学术界在这一领域已经研究了多年，并取得了很多研究成果，但目前，中文分词的技术仍然很不完善。

回到全文搜索的话题，sql server自带的中文分词应该是基于正向最大匹配法的，说实话效果并不好。要求不高的话可以凑活用。除此之外，也有一些开源或商业的项目，例如Lucene（及其后续衍生），盘古等等，比sql server自带的要强。但这些项目也有问题：一是分词效果难称完美，二是在数据库中使用比较麻烦。

以上全部手打。有什么问题请继续问。

⑺ ik analyzer 分词连接数据库怎么使用

全文索引的核心理念是倒排索引（即反向索引），而最大的技术难点就在于分词。英文的分词很简单，直接按空格分词即可。但中文不能这么干，主要原因有两点：中文词与词之间没有空格中文分词结果存在歧义。

⑻ Python中主要使用哪些数据库

Python中常用的数据库有很多,需要根据不同的业务和应用场景来选择合适的数据库,才能使程序更高效.
一般常用的主要有 MySQL, Redis, MangoDB 等数据库
学习这些数据库，可以看黑马程序员视频库的学习视频，有代码、有资料，有PPT，不了解还可以问老师！

⑼ 我想用PHP做一个聊天机器人，我调用别人的API实现了中文分词，我要怎样构建自己的数据库呢

可以用SimSimi API：http://developer.simsimi.com/（不需要数据库）。

根据提示进行注册（注册地址：http://developer.simsimi.com/signUp）。

登录后访问：http://developer.simsimi.com/apps，

点击[Get a 7 days Trial Key]，你就会获得一个Trial Key（有效期为7天），然后直接

$key='';//你的TrialKey
$lang='';//语言
$msg='';//用户说的话
$res=file_get_contents('http://sandbox.api.simsimi.com/request.p?key='.$key.'&lc='.$lang.'&ft=1.0&text='.$msg);

或者你要购买一个Paid Key，也可以。

在http://developer.simsimi.com/apps中，点击[Get Paid Key]，就可以购买。

只是代码要改为（响应地址不同）：

$key='';//你的PaidKey
$lang='';//语言
$msg='';//用户说的话
$res=file_get_contents('http://api.simsimi.com/request.p??key='.$key.'&lc='.$lang.'&ft=1.0&text='.$msg);

就可以了。注意php.ini中，allow_url_fopen要为On：

allow_url_fopen=On

然后会返回一个JSON字符串，与下面类似：

{
					"result":100,
					"response":"SimSimi的回答",
					"id":本次会话的标识符（int）,
					"msg":"响应描述"
				}

相应描述与result的值相关。

100：OK.//成功
400：BadRequest.//参数错误
401：Unauthorized.//Key不存在
404：Notfound.//页面不存在
500：ServerError.//服务器出错

参见：SimSimi API：http://developer.simsimi.com/api

谢谢！

⑽ 如何对mysql数据库中一个字段进行分词

如何对mysql数据库中一个字段进行分词
安装一个php分插件就可以对内容进行分词，得到你要的关键词，取关键词密度最大的放到keyword里就可以

分词的数据库

与分词的数据库相关的内容