㈠ 语音识别的前端处理
前端处理是指在特征提取之前,先对原始语音进行处理,部分消除噪声和不同说话人带来的影响,使处理后的信号更能反映语音的本质特征。最常用的前端处理有端点检测和语音增强。端点检测是指在语音信号中将语音和非语音信号时段区分开来,准确地确定出语音信号的起始点。经过端点检测后,后续处理就可以只对语音信号进行,这对提高模型的精确度和识别正确率有重要作用。语音增强的主要任务就是消除环境噪声对语音的影响。目前通用的方法是采用维纳滤波,该方法在噪声较大的情况下效果好于其它滤波器。
㈡ 语音识别系统是什么原理
我们可以设想,在不久的将来坐在办公司里的经理会对电脑说:“嗨!伙计,帮我通知一下公司所有员工,今天下午3:00准时开会。”这是科学家在几十年前的设想,语音识别长久以来一直是人们的美好愿望,让计算机领会人所说的话,实现人机对话是发展人机通信的主要目标。进入2l世纪,随着计算机的日益普及,怎样给不熟悉计算机的人提供一个友好而又简易的操作平台,是我们非常感兴趣的问题,而语音识别技术就是其中最直接的方法之一。
20世纪80年代中期以来,新技术的逐渐成熟和发展使语音识别技术有了实质性的进展,尤其是隐马尔可夫模型(HMM)的研究和广泛应用,推动了语音识别的迅速发展,同时,语音识别领域也正处在一个黄金开发的关键时期,各国的开发人员正在向特定人到非特定人,孤立词汇向连接词,小词汇量向大词汇量来扩展研究领域,可以毫不犹豫地说,语音识别会让计算机变得“善解人意”,许多事情将不再是“对牛弹琴”,最终用户的口述会取代鼠标,键盘这些传统输入设备,只需要用户的嘴和麦克风就能实现对计算机的绝对控制。
1、隐马尔可夫模型HMM的引入
现在假定HMM是一个输出符号序列的统计模型,具有N个状态S1,S2⋯Sn,在一个周期内从一个状态转到另一个状态,每次转移时输出一个符号,转移到了哪个状态以及输出什么符号,分别由状态转移概率和转移时的输出概率来决定,由于只能观测到输出符号序列,不能观测到状态转移序列,因此成为隐藏的马尔可夫模型。
2、语音识别的特点
语音识别的意思是将人说话的内容和意思转换为计算机可读的输入,例如按键、二进制编码或者字符序列等。与说话人的识别不同,后者主要是识别和确认发出语音的人而非其中所包含的内容。语音识别的目的就是让机器听懂人类口述的语言,包括了两方面的含义:第一是逐字逐句听懂而不是转化成书面的语言文字;第二是对作者简介:贾聪,中国地质大学机械与电子信息学院。口述语言中所包含的命令或请求加以领会,做出正确回应,而不仅仅只是拘泥于所有词汇的正确转换。
3、语音识别系统的工作流程
一般来说,一套完整的语音识别系统其工作过程分为7步:①对语音信号进行分析和处理,除去冗余信息。②提取影响语音识别的关键信息和表达语言含义的特征信息。③紧扣特征信息,用最小单元识别字词。④按照不同语言的各自语法,依照先后次序识别字词。⑤把前后意思当作辅助识别条件,有利于分析和识别。⑥按照语义分析,给关键信息划分段落,取出所识别出的字词并连接起来,同时根据语句意思调整句子构成。⑦结合语义,仔细分析上下文的相互联系,对当前正在处理的语句进行适当修正。
4、音识别系统基本原理框图及原理
语音识别系统基本原理结构如图1所示。语音识别原理有三点:①对语音信号中的语言信息编码是按照幅度谱的时间变化来进行;②由于语音是可以阅读的,也就是说声学信号可以在不考虑说话人说话传达的信息内容的前提下用多个具有区别性的、离散的符号来表示;③语音的交互是一个认知过程,所以绝对不能与语法、语义和用语规范等方面分裂开来。
预处理,其中就包括对语音信号进行采样、克服混叠滤波、去除部分由个体发音的差异和环境引起的噪声影响,此外还会考虑到语音识别基本单元的选取和端点检测问题。反复训练是在识别之前通过让说话人多次重复语音,从原始语音信号样本中去除冗余信息,保留关键信息,再按照一定规则对数据加以整理,构成模式库。再者是模式匹配,它是整个语音识别系统的核心部分,是根据一定规则以及计算输入特征与库存模式之间的相似度,进而判断出输入语音的意思。
前端处理,先对原始语音信号进行处理,再进行特征提取,消除噪声和不同说话人的发音差异带来的影响,使处理后的信号能够更完整地反映语音的本质特征提取,消除噪声和不同说话人的发音差异带来的影响,使处理后的信号能够更完整地反映语音的本质特征。
5、当前亟待解决的问题
语音识别系统的性能受到许多因素的影响,包括不同说话人的发音方式、说话方式、环境噪音、传输信道衰落等等。具体要解决的问题有四点:①增强系统的鲁棒性,也就是说如果条件状况变得与训练时很不相同,系统的性能下降不能是突变的。②增加系统的适应能力,系统要能稳定连续的适应条件的变化,因为说话人存在着年龄、性别、口音、语速、语音强度、发音习惯等方面的差异。所以,系统应该有能力排除掉这些差异。达到对语音的稳定识别。③寻求更好的语言模型,系统应该在语言模型中得到尽可能多的约束,从而解决由于词汇量增长所带来的影响。④进行动力学建模,语音识别系统提前假定片段和单词是相互独立的,但实际上词汇和音素的线索要求对反映了发声器官运动模型特点的整合。所以,应该进行动力学建模,从而将这些信息整合到语音识别系统中去。
6、统的组成和分类
根据识别的对象不同语音识别大致上可分为3类:对孤立词识别,对关键词识别和对连续语音识别。其中,孤立词识别的任务是识别事先已知的孤立的词;连续语音识别的任务则是识别任意的连续语音;连续语音流中的关键词检测针对的是连续语音,但它并不识别全③部文字,而只是检测已知的若干关键词在何处出现,根据针对的发音人,可以把语音识别技术分为特定人语音识别和非特定人语音识别,前者只能识别一个或几个人的语音,而后者则可以被任何人使用。
7、语音识别技术应用领域及前景展望
语音识别技术借助飞速发展的高速信息网,可实现计算机的全球联网和信息资源共享,因此被广泛应用的系统有:语音输入和控制系统,语音拨号系统、智能家电及玩具,智能电话查询系统,数据库检索等方面,在咨询服务、教育等行业,正潜移默化地改变和便利着我们的生活。此外,语音识别系统还在多媒体手机、个人掌上电脑、车载导航器GPS等方面有着巨大的应用和市场前景。
8、结语
语音识别是非常有发展潜力的一门学科,你可以设想。我们平时生活中很多地方都可以用到它,可以大大便利我们的生活和工作,比如智能手机,智能空调及冰箱,电动门,汽车导航,机器人控制,医疗设施,军事设备等。可以毫不夸张的说,21世纪将会是语音识别广泛流行和普及的时代,而语音识别产品和设备也会以其独特的魅力引领时代潮流,成为时代追逐的宠儿和焦点。
㈢ 市面上谁家语音识别处理的最好
语音前端的话是科大讯飞做的不错,但自然语言识别的话就是广州安望科技,在模糊词上面的效果是不错的。
㈣ 小米投资大象声科是什么原因
7月10日,机器听觉解决方案供应商大象声科(Elevoc)宣布获得小米和高通创投的数千万人民币的Pre-A轮战略投资,挚金资本担任本轮融资的独家财务顾问。大象声科表示,该轮融资将有利于强化上下游产业链,进一步赋能通讯、智能家居、智能车载、可穿戴设备、安防等行业客户。
公开信息显示,大象声科于2015年创立于美国硅谷,目前总部位于深圳,是一家致力于机器听觉的人工智能公司。值得注意的是,团队方面,大象声科有以俄亥俄州立大学国际着名学者、IEEE Fellow汪德亮教授为代表的人工智能语音交互领域优秀的科学家团队,能够依托算法、软件、硬件三个维度的技术纵深,为语音增强和智能语音交互提供先进的解决方案。
小米首席架构师、人工智能与云平台副总裁崔宝秋表示:“鉴于AI在语音以及其他领域的深度应用,AI将是小米未来十年最重要的战略之一。大象声科的技术团队基于多年对计算听觉场景分析的研究和积累,创造性地采用深度学习技术解决听觉领域中着名的“鸡尾酒会问题”,拥有全球领先的核心算法。我相信小米与大象声科的合作,一定会为小米以及小米生态链下一代系列智能语音产品带来更精彩的人机交互体验。”
此外,高通全球副总裁兼高通创投董事总经理沈劲表示,“人工智能正在从云端向终端迁移,高通作为技术提供商,一直在积极地关注并加速在终端侧人工智能的布局,大象声科拥有业界领先的语音增强和智能语音交互解决方案,势必会让更多的终端设备受益于人工智能技术,加快终端智能化生态的发展。”
虽然人工智能技术的发展已经取得了长足进步,但是要实现人性化的的语音交互还有许多关键问题有待解决,机器听觉便是其中之一。
㈤ 谁知道语音识别这方面的知识!!!
高性能汉语数码语音识别算法
李虎生 刘加 刘润生
摘 要: 提出了一个高性能的汉语数码语音识别(MDSR)系统。 MDSR系统使用Mel频标倒谱系数(MFCC)作为主要的语音特征参数,同时提取共振峰轨迹和鼻音特征以区分一些易混语音对,并提出一个基于语音特征的实时端点检测算法,以减少系统资源需求,提高抗干扰能力。采用了两级识别框架来提高语音的区分能力,其中第一级识别用于确定识别候选结果,第二级识别用于区分易混语音对。由于采用了以上改进, MDSR系统识别率达到了98.8%.
关键词:汉语; 数码语音识别
分类号:TN 912.34 文献标识码:A
文章编号:1000-0054(2000)01-0032-03
High performance digit mandarin
speech recognition
LI Husheng LIU Jia LIU Runsheng
(Department of Electronic Engineering,Tsinghua University, Beijing 100084, China)
Abstract:High-performance mandarin digit speech recognition (MDSR) system is developed using MFCC (mel frequency cepstrum coefficient) as the main parameter identifying the speech patterns. The formant trajectory and the nasal feature are extracted to identify confused words. A feature-based, real-time endpoint detection algorithm is proposed to rece the system resource requirements and to improve the disturbance-proof ability. A two-stage recognition frame enhances discrimination by identifying candidate words in the first stage and confused word pairs in the second stage. These improvements result in a correct recognition rate of 98.8%.
Key words:mandarin;digit speech recognition▲
汉语数码语音识别 (mandarin digit speech recognition, MDSR) 是语音识别领域中一个具有广泛应用背景的分支,它的任务是识别“0”到“9”等10个非特定人汉语数码语音,在电话语音拨号、工业监控、家电遥控等领域有着极大的应用价值〔1〕。但与英语数码语音识别相比, MDSR的性能尚未达到成熟应用水平,这是因为 1) 汉语数码语音的混淆程度较高; 2) 汉语是一个多方言语种,说话人会带有或多或少的地方口音; 3) 在许多应用背景中,MDSR需要在运算和存储资源都较为紧张的数字信号处理器(digital signal processor, DSP)系统上实现,这为MDSR算法的设计带来了很大的限制。由于以上原因,MDSR是一项相当困难的任务。
针对汉语数码语音识别提出了一系列高性能的算法,使MDSR识别率达到了98.8%。由这些算法构成的识别系统框图如图1所示。
MDSR系统〔1〕提取的语音特征参数包括用于识别的参数和用于端点检测的参数。
图1 MDSR系统框图
1 语音前端处理
语音前端处理包括语音特征提取和端点检测两部分。
1.1 语音特征提取
1.1.1 基本识别参数
目前常用的语音识别参数有基于线性预测编码(LPC)的线性预测倒谱系数(LPCC)和基于Mel频标的倒谱系数(MFCC)〔2〕。实验证明,采用MFCC参数时系统识别率高于采用LPCC参数。因此本文的基本识别参数采用MFCC参数及一阶差分MFCC参数。
1.1.2 共振峰轨迹
在MDSR中,易混淆语音“2”和“8”可以由其第2,3共振峰的变化趋势区分开〔3〕。因此可将共振峰轨迹作为识别参数之一,并选用峰值选取算法来提取共振峰轨迹〔3〕。
1.1.3 鼻音特征参数
汉语数码语音中,“0”的元音具有鼻音的特征,而“0”容易与具有非鼻化元音的“6”混淆,因此鼻音特征可用于提高“0”的识别率。鼻音的特征包括〔4〕:
1) 鼻音在频谱低端(约0.25kHz左右)有1个较强的共振峰。
2) 鼻音在中频段(约0.8~2.3kHz)的能量分布较为均匀,没有明显的峰或谷。
采用以下2个参数表征鼻音的特征:
1) 低频能量比:
(1)
其中fn为鼻音低频共振峰频率, B为鼻音低频共振峰带宽。Fk为对语音作快速Fourior变换(FFT)后第k个频率点的能量, 〔f1,f2〕则为语音“6”能量集中的频带。
2) 频谱质心:
(2)
其中〔fL,fH〕为0.8~2.3kHz的中频段。由于MDSR系统采用的基本识别参数为MFCC参数,其计算过程中需要作FFT,所以低频能量比和频谱质心两个参数可以顺带算出,不会影响特征提取的实时完成。
1.2 端点检测
本文提出了基于语音特征的实时端点检测算法(feature-based real-time endpoint detection, FRED),充分利用汉语数码语音的特点,在实时提取特征参数后完成端点检测,检测到的端点只精确到帧的量级。
根据语音学知识〔4〕, MDSR中各类语音的频谱特点如表1
表1 汉语数码语音频谱特点
频 谱 特 征
浊 音 元 音 低频(0.1至0.4kHz间)能量较高; 中频(0.64至2.8kHz)能量较高
浊辅音 低频(0.1至0.4kHz间)能量较高; 中频(0.64至2.8kHz)能量较低
清辅音 高频(3.5kHz以上)能量较高
采用3个频谱能量分布参数{R1,R2,R3}分别反应频谱高频、低频和中频的分布特征。其定义如下:
(3)
(4)
其中: i表示第i帧, N为语音帧长,也即FFT点数, Fk为对语音帧作FFT后各频率点能量, T为语音的总帧数,式(3),(4) 中求和号的上下限由表1中相应频率范围确定,当N为256,采样频率为实验所用语音库的11kHz时, f0=81, f1=9, f2 =2, f3=65, f4=15.由于进行了能量归一化,所以上述特征与语音的强度是无关的。由于计算MFCC参数时需要作FFT,因此频谱能量分布参数可以顺带算出。此外,用于端点检测的参数还包括短时能量参数E0(i)〔5〕.
由以上参数, FRED算法过程为:
1) 根据采入信号首尾两帧确定能量阈值;
2) 根据参数R2确定语音浊音段;
3) 根据参数R1与E0向浊音段两端扩展式搜索语音起始帧;
4) 根据参数R3确定元音段。
FRED算法的特点是:
1) 利用了语音的本质特征进行端点检测,能够很好地适应环境的变化和干扰,实验证明FRED算法可以有效地提高识别率; 2) 将语音端点定在帧的量级上,保证了特征参数在采样时实时提取,节省了系统运行时间,大大减少了系统所需的存储量; 3) 能够准确地确定语音的元音段,从而将辅音与元音分割开,有利于对语音局部特征的辨识。
2 识别算法
实验表明, MDSR的识别错误集中在少数几对易混语音中〔1〕,因此本文采用了两极识别框架,即第一级完成对识别结果的初步确定,第二级完成对易混淆语音的进一步辨识。
2.1 第一级识别
在第一级识别中采用的基本方法为离散隐含Malkov模型(DHMM)算法〔5〕,用Viterbi算法〔5〕计算各个数码语音模型产生采入语音的概率Pr。
由于HMM是一个有人为假设的模型,所以有不可避免的缺陷。其中一个缺陷是在HMM中各状态的持续时间呈几何分布,即
P(Li=n)=anii(1-aii), (5)
其中: Li为状态i的持续时间, aii为状态i跳转回自身的概率。按照式(5),状态持续时间越长,其概率越小,这是不符合实际情况的。用Γ分布来描述状态持续时间〔5〕,即
(6)
其中αi和βi为Γ分布的参数, Fi为归一化因子参数,以上各参数在训练时由训练语音样本估计出。在识别时,用Viterbi算法获得的最佳状态路径中各状态持续时间的概率对Pr作修正:
(7)
其中: λ为加权系数, S为状态数。识别结果则由修正后的概率P�′r获得。实验证明,用状态持续时间分布对Pr进行修正所得的识别性能有明显的提高。
2.2 第二级识别
对第一级识别的错误作分析,我们发现大部分错误都集中在少数几对易混语音中。表2列出了识别错误最多的6对语音(其中“1”念为〔yao〕)占所有错误的百分比及其区分特征。可见这6对语音占所有错误的91%,所以如果能够在第二级识别中对这几对语音作进一步的辩识,整个MDSR系统的性能会有很大的提高。
表2 易混语音错误百分比及其区分特征
易混语音 占识别错误百分比/% 区分特征
“2”“8” 45 共振峰轨迹变化趋势
“1”“9” 12 不同的辅音
“1”“6” 11 不同的辅音
“0”“6” 11 鼻音特征的有无
“3”“4” 8 不同的元音
“6”“9” 4 辅音的清浊性
由表2可见,易混语音“2”“8”, “0”“6”, “6”“9”可以用表征其区分特征的参数,根据一定的规则进行判决,而“1”“9”, “1”“6”, “3”“4”则可以利用端点检测中元、辅音分割的结果,训练元音部分和辅音部分的HMM参数,在识别时针对相应部分再作一次局部HMM识别。表3列出了各对易混语音第二级识别的方法。
表3 第二级识别方法
易混语音 第二级识别方法 规则判决的特征参数或
局部HMM的辨识部位
“2”“8” 规则判决 共振峰轨迹
“1”“9” 局部HMM辨识 辅音
“1”“6” 局部HMM辨识 辅音
“0”“6” 规则判决 鼻音特征
“3”“4” 局部HMM辨识 元音
“6”“9” 规则判决 频谱分布参数R1
3 实验结果
实验使用了一个包含160人从“0”到“9”的各一遍发音的语音库来测试系统的性能,库中语音采样率为11kHz,量化精度为16bit线性量化,录音背景为普通办公室环境。
首先测试了特征参数采用LPCC参数,端点检测采用快速端点检测算法〔6〕,只用Viterbi算法进行一级识别时的基本结果,然后测试了逐个加入本文所提出的各种方法后的识别率,结果如表4。可见,所采用的每一种方法都使系统性能较之于基本系统有了显着的提高,最后达到98.8%的识别率。
表4 算法性能比较
采用的算法 识别率/%
基本结果 91.1
采用MFCC参数 92.9
FRED算法 95.4
状态持续时间分布 96.0
第二级识别 98.8
4 结 论
采用了一系列算法,有效地提高了MDSR系统的识别率,实现了一个高性能的MDSR系统,其特点为:
1) 采用了两极识别框架,增强了对易混语音的区分能力。
2) 充分利用针对汉语数码语音的语音学知识,提高了端点检测的抗干扰能力,提取了用于区分易混语音的共振峰轨迹、鼻音特征等声学特征,进一步提高了系统识别率。
3) 各算法所需的运算量和存储量都较小,有利于MDSR在DSP系统上的实现。■
基金项目:国家自然科学基金项目(69772020)和国家“八六三”高技术项目(863-512-9805-10)
作者简介:李虎生 (1975-), 男(汉), 四川, 硕士研究生
作者单位:李虎生(清华大学,电子工程系,北京,100084)
刘加(清华大学,电子工程系,北京,100084)
刘润生(清华大学,电子工程系,北京,100084)
参考文献:
〔1〕顾良, 刘润生. 汉语数码语音识别: 困难分析与方法比较 〔J〕. 电路与系统学报, 1997, 2 (4): 32-39.
Gu Liang, Liu Runsheng. Mandarin digit speech recognition: state of the art, difficult points analysis and methods comparison 〔J〕. J of Circuits and Systems, 1997, 2(4): 32-39. (in Chinese)
〔2〕Davis S B, Mermelstein P. Comparison of parametric representations for monosyllabic word recognition in continuously spoken sentences 〔J〕. IEEE Trans, on Speech and Audio Signal Processing, 1980, 28 (4): 357-366.
〔3〕李虎生, 杨明杰, 刘润生. 用共振峰轨迹提高汉语数码语音识别性能 〔J〕. 清华大学学报, 1999, 39(9).
Li Husheng, Yang Mingjie, Liu Runsheng. Use formant trajectory to improve the performance of mandarin digit speech recognition 〔J〕. J of Tsinghua University, 1999, 39(9): 69-71. (in Chinese)
〔4〕吴宗济, 林茂灿. 实验语音学教程 〔M〕. 北京: 高等教育出版社, 1989.
Wu Zongji, Lin Maocan. Tutorial on Experimental Phonetics 〔M〕. Beijing: Higher Ecation Press, 1989. (in Chinese)
〔5〕杨行峻, 迟惠生. 语音信号数字处理 〔M〕. 北京: 电子工业出版社, 1995.
Yang Xingjun, Chi Huisheng. Digit Speech Signal Processing 〔M〕. Beijing: Publishing House of Electronic Instry, 1995. (in Chinese)
〔6〕顾良. 汉语数码语音识别方法研究及DSP系统设计 〔D〕. 北京: 清华大学, 1997.
Gu Liang. Research on Methodologies for Mandarin Digit Speech Recognition and Design of its DSP System 〔D〕. Beijing: Tsinghua University, 1997. (in Chinese)
http://www.oxbad.com/DSP/maindoc/audio/PAGE/5.HTM
㈥ 手机通话变声器 通话可以变声吗
是可以的。
变声的原理:
通过自发音,共振峰频率的改变基本上是通过重采样实现的。从重采样原理来看,这还会引起基频的变化。为了确保基本频率变化和谐振频率变化是独立且互不相关的,在基本频率下,运动必须考虑补偿由重采样引起的偏移。
从理论上讲,只要基本频率检测足够准确以确保基本频率变化与共振峰频率变化之间没有相关性,就可以通过移动和更改基本频率来改变声音。
无论是硬件语音转换器还是软件语音转换器,原理都是通过改变输入声音的频率,从而改变声音的音色和音调,输出声音在感觉上不同于原始声音。
每个人都有不同的声音,这源于我们每个人的不同音色和语气。我们所说的男中音和男高音是音调上的差异,即使音调相同,仍然可以区分两个不同的人。声音或不同乐器的声音,这就是音色的差异。变声器将通过音色和音调的双重复合变化来实现输出声音的变化。
(6)语音前端处理扩展阅读
变声的一些用途:
1、语音转换的想法可以用来恢复受损的语音,并在声音通道受损的情况下帮助说话者的语音,以提高清晰度。
2、在电影配音中的应用。在电影配音中,尤其是在用另一种语言配音时,配音演员通常不是演员本人,常常使配音与原演员的人格特征大相径庭,配音效果并不理想。但如果配音是这样的话VC转换后,要使其具有演员本人的个性特征,则配音效果将更加理想。
3、可以用于在机密通信中伪装个性化语音。
4、语音转换可以用于控制单个扬声器的语音质量,并且可以纠正由于在TTS中长期记录扬声器而导致的录制质量变化。
5、可用于语音识别的前端预处理,以减少说话人差异的影响。
㈦ 语音识别系统的原理
语音识别系统是一种模式识别系统,包括特征提取、模式匹配、参考模式库等三个基本单元。未知语音经过话筒变换成电信号后加在识别系统的输入端,首先经过预处理,再根据人的语音特点建立语音模型,对输入的语音信号进行分析,并抽取所需的特征,在此基础上建立语音识别所需的模板。
然后根据此模板的定义,通过查表就可以给出计算机的识别结果。显然,这种最优的结果与特征的选择、语音模型的好坏、模板是否准确都有直接的关系。
语音识别系统构建过程整体上包括两大部分:训练和识别。训练通常是离线完成的,对预先收集好的海量语音、语言数据库进行信号处理和知识挖掘,获取语音识别系统所需要的“声学模型”和“语言模型”;而识别过程通常是在线完成的,对用户实时的语音进行自动识别。
识别过程通常又可以分为“前端”和“后端”两大模块:“前端”模块主要的作用是进行端点检测(去除多余的静音和非说话声)、降噪、特征提取等;“后端”模块的作用是利用训练好的“声学模型”和“语言模型”对用户说话的特征向量进行统计模式识别,得到其包含的文字信息,此外,后端模块还存在一个“自适应”的反馈模块,可以对用户的语音进行自学习,从而对“声学模型”和“语音模型”进行必要的“校正”,进一步提高识别的准确率。
自动语音识别技术有三个基本原理:首先语音信号中的语言信息是按照短时幅度谱的时间变化模式来编码;其次语音是可以阅读的,即它的声学信号可以在不考虑说话人试图传达的信息内容的情况下用数十个具有区别性的、离散的符号来表示;第三语音交互是一个认知过程,因而不能与语言的语法、语义和语用结构分开来。
㈧ 讯飞语音识别引肇
“讯飞语音+”功能介绍
“讯飞语音+”主要提供的语音服务包括语音合成、语音识别、语义理解和语音搜索。
语音合成
讯飞语音+提供的语音合成服务包括在线语音合成与离线语音合成。
具有多语种服务:支持中文、中英文混度、纯正英文、粤语、粤语英文混度的语音合成。
多音色服务:可以设定不同音色,包括普通话女童、男、女发声,粤语、东北话、河南话、湖南话、四川话等。
多字符集支持:支持输入GB2312、GBK、Big5、Unicode和UTF-8等多种字符集,
语音识别:
“讯飞语音+ ”语音识别同样提供在线与离线两种方式,具有一下几种功能。
前端语音处理:端点检测、噪音消除、智能打断;
后端识别处理:连续语音识别、个性化语音识别、置信度输出、多识别结果、多槽识别等。
语义理解 :
语义理解支持的特性包括:
能够处理基于文法规则的实际业务需求,为支持用户通过自然语言向机器发出某种业务需求,如打电话、发短信、查天气、查股票、查航班、订酒店等;
具备基于相似问句语义距离度量的智能知识问答 ;
具备基于本体库自动构建及推理的智能问答。
语音搜索
支持超大规模的语言模型;
支持语言模型的动态更新;
支持针对不同用户给出最匹配的搜索结果列表;
2“讯飞语音+”语音识别功能接口使用方法
第三方软件使用讯飞语音+提供的语音服务需要提前安装讯飞语音+原件。在开发过程中首先将SpeechApi.jar添加进工程,该程序包作为开发者与讯飞语音+的接口,开发者调用统一接口介入其语音识别服务。
在实现语音识别功能中,首先实例化SpeechRecognizer对象,然后通过setParameter(key,value)方法设置识别引擎的参数。