當前位置:首頁 » 網頁前端 » 語音前端處理
擴展閱讀
webinf下怎麼引入js 2023-08-31 21:54:13
堡壘機怎麼打開web 2023-08-31 21:54:11

語音前端處理

發布時間: 2022-09-07 20:29:18

㈠ 語音識別的前端處理

前端處理是指在特徵提取之前,先對原始語音進行處理,部分消除雜訊和不同說話人帶來的影響,使處理後的信號更能反映語音的本質特徵。最常用的前端處理有端點檢測和語音增強。端點檢測是指在語音信號中將語音和非語音信號時段區分開來,准確地確定出語音信號的起始點。經過端點檢測後,後續處理就可以只對語音信號進行,這對提高模型的精確度和識別正確率有重要作用。語音增強的主要任務就是消除環境雜訊對語音的影響。目前通用的方法是採用維納濾波,該方法在雜訊較大的情況下效果好於其它濾波器。

㈡ 語音識別系統是什麼原理

我們可以設想,在不久的將來坐在辦公司里的經理會對電腦說:「嗨!伙計,幫我通知一下公司所有員工,今天下午3:00准時開會。」這是科學家在幾十年前的設想,語音識別長久以來一直是人們的美好願望,讓計算機領會人所說的話,實現人機對話是發展人機通信的主要目標。進入2l世紀,隨著計算機的日益普及,怎樣給不熟悉計算機的人提供一個友好而又簡易的操作平台,是我們非常感興趣的問題,而語音識別技術就是其中最直接的方法之一。

20世紀80年代中期以來,新技術的逐漸成熟和發展使語音識別技術有了實質性的進展,尤其是隱馬爾可夫模型(HMM)的研究和廣泛應用,推動了語音識別的迅速發展,同時,語音識別領域也正處在一個黃金開發的關鍵時期,各國的開發人員正在向特定人到非特定人,孤立詞彙向連接詞,小詞彙量向大詞彙量來擴展研究領域,可以毫不猶豫地說,語音識別會讓計算機變得「善解人意」,許多事情將不再是「對牛彈琴」,最終用戶的口述會取代滑鼠,鍵盤這些傳統輸入設備,只需要用戶的嘴和麥克風就能實現對計算機的絕對控制。

1、隱馬爾可夫模型HMM的引入

現在假定HMM是一個輸出符號序列的統計模型,具有N個狀態S1,S2⋯Sn,在一個周期內從一個狀態轉到另一個狀態,每次轉移時輸出一個符號,轉移到了哪個狀態以及輸出什麼符號,分別由狀態轉移概率和轉移時的輸出概率來決定,由於只能觀測到輸出符號序列,不能觀測到狀態轉移序列,因此成為隱藏的馬爾可夫模型。

2、語音識別的特點

語音識別的意思是將人說話的內容和意思轉換為計算機可讀的輸入,例如按鍵、二進制編碼或者字元序列等。與說話人的識別不同,後者主要是識別和確認發出語音的人而非其中所包含的內容。語音識別的目的就是讓機器聽懂人類口述的語言,包括了兩方面的含義:第一是逐字逐句聽懂而不是轉化成書面的語言文字;第二是對作者簡介:賈聰,中國地質大學機械與電子信息學院。口述語言中所包含的命令或請求加以領會,做出正確回應,而不僅僅只是拘泥於所有詞彙的正確轉換。

3、語音識別系統的工作流程

一般來說,一套完整的語音識別系統其工作過程分為7步:①對語音信號進行分析和處理,除去冗餘信息。②提取影響語音識別的關鍵信息和表達語言含義的特徵信息。③緊扣特徵信息,用最小單元識別字詞。④按照不同語言的各自語法,依照先後次序識別字詞。⑤把前後意思當作輔助識別條件,有利於分析和識別。⑥按照語義分析,給關鍵信息劃分段落,取出所識別出的字詞並連接起來,同時根據語句意思調整句子構成。⑦結合語義,仔細分析上下文的相互聯系,對當前正在處理的語句進行適當修正。

4、音識別系統基本原理框圖及原理

語音識別系統基本原理結構如圖1所示。語音識別原理有三點:①對語音信號中的語言信息編碼是按照幅度譜的時間變化來進行;②由於語音是可以閱讀的,也就是說聲學信號可以在不考慮說話人說話傳達的信息內容的前提下用多個具有區別性的、離散的符號來表示;③語音的交互是一個認知過程,所以絕對不能與語法、語義和用語規范等方面分裂開來。

預處理,其中就包括對語音信號進行采樣、克服混疊濾波、去除部分由個體發音的差異和環境引起的雜訊影響,此外還會考慮到語音識別基本單元的選取和端點檢測問題。反復訓練是在識別之前通過讓說話人多次重復語音,從原始語音信號樣本中去除冗餘信息,保留關鍵信息,再按照一定規則對數據加以整理,構成模式庫。再者是模式匹配,它是整個語音識別系統的核心部分,是根據一定規則以及計算輸入特徵與庫存模式之間的相似度,進而判斷出輸入語音的意思。

前端處理,先對原始語音信號進行處理,再進行特徵提取,消除雜訊和不同說話人的發音差異帶來的影響,使處理後的信號能夠更完整地反映語音的本質特徵提取,消除雜訊和不同說話人的發音差異帶來的影響,使處理後的信號能夠更完整地反映語音的本質特徵。

5、當前亟待解決的問題

語音識別系統的性能受到許多因素的影響,包括不同說話人的發音方式、說話方式、環境噪音、傳輸信道衰落等等。具體要解決的問題有四點:①增強系統的魯棒性,也就是說如果條件狀況變得與訓練時很不相同,系統的性能下降不能是突變的。②增加系統的適應能力,系統要能穩定連續的適應條件的變化,因為說話人存在著年齡、性別、口音、語速、語音強度、發音習慣等方面的差異。所以,系統應該有能力排除掉這些差異。達到對語音的穩定識別。③尋求更好的語言模型,系統應該在語言模型中得到盡可能多的約束,從而解決由於詞彙量增長所帶來的影響。④進行動力學建模,語音識別系統提前假定片段和單詞是相互獨立的,但實際上詞彙和音素的線索要求對反映了發聲器官運動模型特點的整合。所以,應該進行動力學建模,從而將這些信息整合到語音識別系統中去。

6、統的組成和分類

根據識別的對象不同語音識別大致上可分為3類:對孤立詞識別,對關鍵詞識別和對連續語音識別。其中,孤立詞識別的任務是識別事先已知的孤立的詞;連續語音識別的任務則是識別任意的連續語音;連續語音流中的關鍵詞檢測針對的是連續語音,但它並不識別全③部文字,而只是檢測已知的若干關鍵詞在何處出現,根據針對的發音人,可以把語音識別技術分為特定人語音識別和非特定人語音識別,前者只能識別一個或幾個人的語音,而後者則可以被任何人使用。

7、語音識別技術應用領域及前景展望

語音識別技術藉助飛速發展的高速信息網,可實現計算機的全球聯網和信息資源共享,因此被廣泛應用的系統有:語音輸入和控制系統,語音撥號系統、智能家電及玩具,智能電話查詢系統,資料庫檢索等方面,在咨詢服務、教育等行業,正潛移默化地改變和便利著我們的生活。此外,語音識別系統還在多媒體手機、個人掌上電腦、車載導航器GPS等方面有著巨大的應用和市場前景。

8、結語

語音識別是非常有發展潛力的一門學科,你可以設想。我們平時生活中很多地方都可以用到它,可以大大便利我們的生活和工作,比如智能手機,智能空調及冰箱,電動門,汽車導航,機器人控制,醫療設施,軍事設備等。可以毫不誇張的說,21世紀將會是語音識別廣泛流行和普及的時代,而語音識別產品和設備也會以其獨特的魅力引領時代潮流,成為時代追逐的寵兒和焦點。



㈢ 市面上誰家語音識別處理的最好

語音前端的話是科大訊飛做的不錯,但自然語言識別的話就是廣州安望科技,在模糊詞上面的效果是不錯的。

㈣ 小米投資大象聲科是什麼原因

7月10日,機器聽覺解決方案供應商大象聲科(Elevoc)宣布獲得小米和高通創投的數千萬人民幣的Pre-A輪戰略投資,摯金資本擔任本輪融資的獨家財務顧問。大象聲科表示,該輪融資將有利於強化上下游產業鏈,進一步賦能通訊、智能家居、智能車載、可穿戴設備、安防等行業客戶。

公開信息顯示,大象聲科於2015年創立於美國矽谷,目前總部位於深圳,是一家致力於機器聽覺的人工智慧公司。值得注意的是,團隊方面,大象聲科有以俄亥俄州立大學國際著名學者、IEEE Fellow汪德亮教授為代表的人工智慧語音交互領域優秀的科學家團隊,能夠依託演算法、軟體、硬體三個維度的技術縱深,為語音增強和智能語音交互提供先進的解決方案。

小米首席架構師、人工智慧與雲平台副總裁崔寶秋表示:「鑒於AI在語音以及其他領域的深度應用,AI將是小米未來十年最重要的戰略之一。大象聲科的技術團隊基於多年對計算聽覺場景分析的研究和積累,創造性地採用深度學習技術解決聽覺領域中著名的「雞尾酒會問題」,擁有全球領先的核心演算法。我相信小米與大象聲科的合作,一定會為小米以及小米生態鏈下一代系列智能語音產品帶來更精彩的人機交互體驗。」

此外,高通全球副總裁兼高通創投董事總經理沈勁表示,「人工智慧正在從雲端向終端遷移,高通作為技術提供商,一直在積極地關注並加速在終端側人工智慧的布局,大象聲科擁有業界領先的語音增強和智能語音交互解決方案,勢必會讓更多的終端設備受益於人工智慧技術,加快終端智能化生態的發展。」

雖然人工智慧技術的發展已經取得了長足進步,但是要實現人性化的的語音交互還有許多關鍵問題有待解決,機器聽覺便是其中之一。

㈤ 誰知道語音識別這方面的知識!!!

高性能漢語數碼語音識別演算法

李虎生 劉加 劉潤生

摘 要: 提出了一個高性能的漢語數碼語音識別(MDSR)系統。 MDSR系統使用Mel頻標倒譜系數(MFCC)作為主要的語音特徵參數,同時提取共振峰軌跡和鼻音特徵以區分一些易混語音對,並提出一個基於語音特徵的實時端點檢測演算法,以減少系統資源需求,提高抗干擾能力。採用了兩級識別框架來提高語音的區分能力,其中第一級識別用於確定識別候選結果,第二級識別用於區分易混語音對。由於採用了以上改進, MDSR系統識別率達到了98.8%.
關鍵詞:漢語; 數碼語音識別
分類號:TN 912.34 文獻標識碼:A
文章編號:1000-0054(2000)01-0032-03

High performance digit mandarin
speech recognition

LI Husheng LIU Jia LIU Runsheng
(Department of Electronic Engineering,Tsinghua University, Beijing 100084, China)

Abstract:High-performance mandarin digit speech recognition (MDSR) system is developed using MFCC (mel frequency cepstrum coefficient) as the main parameter identifying the speech patterns. The formant trajectory and the nasal feature are extracted to identify confused words. A feature-based, real-time endpoint detection algorithm is proposed to rece the system resource requirements and to improve the disturbance-proof ability. A two-stage recognition frame enhances discrimination by identifying candidate words in the first stage and confused word pairs in the second stage. These improvements result in a correct recognition rate of 98.8%.
Key words:mandarin;digit speech recognition▲

漢語數碼語音識別 (mandarin digit speech recognition, MDSR) 是語音識別領域中一個具有廣泛應用背景的分支,它的任務是識別「0」到「9」等10個非特定人漢語數碼語音,在電話語音撥號、工業監控、家電遙控等領域有著極大的應用價值〔1〕。但與英語數碼語音識別相比, MDSR的性能尚未達到成熟應用水平,這是因為 1) 漢語數碼語音的混淆程度較高; 2) 漢語是一個多方言語種,說話人會帶有或多或少的地方口音; 3) 在許多應用背景中,MDSR需要在運算和存儲資源都較為緊張的數字信號處理器(digital signal processor, DSP)系統上實現,這為MDSR演算法的設計帶來了很大的限制。由於以上原因,MDSR是一項相當困難的任務。
針對漢語數碼語音識別提出了一系列高性能的演算法,使MDSR識別率達到了98.8%。由這些演算法構成的識別系統框圖如圖1所示。
MDSR系統〔1〕提取的語音特徵參數包括用於識別的參數和用於端點檢測的參數。

圖1 MDSR系統框圖

1 語音前端處理

語音前端處理包括語音特徵提取和端點檢測兩部分。

1.1 語音特徵提取
1.1.1 基本識別參數
目前常用的語音識別參數有基於線性預測編碼(LPC)的線性預測倒譜系數(LPCC)和基於Mel頻標的倒譜系數(MFCC)〔2〕。實驗證明,採用MFCC參數時系統識別率高於採用LPCC參數。因此本文的基本識別參數採用MFCC參數及一階差分MFCC參數。

1.1.2 共振峰軌跡
在MDSR中,易混淆語音「2」和「8」可以由其第2,3共振峰的變化趨勢區分開〔3〕。因此可將共振峰軌跡作為識別參數之一,並選用峰值選取演算法來提取共振峰軌跡〔3〕。

1.1.3 鼻音特徵參數
漢語數碼語音中,「0」的母音具有鼻音的特徵,而「0」容易與具有非鼻化母音的「6」混淆,因此鼻音特徵可用於提高「0」的識別率。鼻音的特徵包括〔4〕:
1) 鼻音在頻譜低端(約0.25kHz左右)有1個較強的共振峰。
2) 鼻音在中頻段(約0.8~2.3kHz)的能量分布較為均勻,沒有明顯的峰或谷。
採用以下2個參數表徵鼻音的特徵:
1) 低頻能量比:

(1)

其中fn為鼻音低頻共振峰頻率, B為鼻音低頻共振峰帶寬。Fk為對語音作快速Fourior變換(FFT)後第k個頻率點的能量, 〔f1,f2〕則為語音「6」能量集中的頻帶。
2) 頻譜質心:

(2)

其中〔fL,fH〕為0.8~2.3kHz的中頻段。由於MDSR系統採用的基本識別參數為MFCC參數,其計算過程中需要作FFT,所以低頻能量比和頻譜質心兩個參數可以順帶算出,不會影響特徵提取的實時完成。

1.2 端點檢測
本文提出了基於語音特徵的實時端點檢測演算法(feature-based real-time endpoint detection, FRED),充分利用漢語數碼語音的特點,在實時提取特徵參數後完成端點檢測,檢測到的端點只精確到幀的量級。
根據語音學知識〔4〕, MDSR中各類語音的頻譜特點如表1

表1 漢語數碼語音頻譜特點

頻 譜 特 征
濁 音 元 音 低頻(0.1至0.4kHz間)能量較高; 中頻(0.64至2.8kHz)能量較高
濁輔音 低頻(0.1至0.4kHz間)能量較高; 中頻(0.64至2.8kHz)能量較低
清輔音 高頻(3.5kHz以上)能量較高

採用3個頻譜能量分布參數{R1,R2,R3}分別反應頻譜高頻、低頻和中頻的分布特徵。其定義如下:
(3)
(4)

其中: i表示第i幀, N為語音幀長,也即FFT點數, Fk為對語音幀作FFT後各頻率點能量, T為語音的總幀數,式(3),(4) 中求和號的上下限由表1中相應頻率范圍確定,當N為256,采樣頻率為實驗所用語音庫的11kHz時, f0=81, f1=9, f2 =2, f3=65, f4=15.由於進行了能量歸一化,所以上述特徵與語音的強度是無關的。由於計算MFCC參數時需要作FFT,因此頻譜能量分布參數可以順帶算出。此外,用於端點檢測的參數還包括短時能量參數E0(i)〔5〕.
由以上參數, FRED演算法過程為:
1) 根據采入信號首尾兩幀確定能量閾值;
2) 根據參數R2確定語音濁音段;
3) 根據參數R1與E0向濁音段兩端擴展式搜索語音起始幀;
4) 根據參數R3確定母音段。
FRED演算法的特點是:
1) 利用了語音的本質特徵進行端點檢測,能夠很好地適應環境的變化和干擾,實驗證明FRED演算法可以有效地提高識別率; 2) 將語音端點定在幀的量級上,保證了特徵參數在采樣時實時提取,節省了系統運行時間,大大減少了系統所需的存儲量; 3) 能夠准確地確定語音的母音段,從而將輔音與母音分割開,有利於對語音局部特徵的辨識。

2 識別演算法

實驗表明, MDSR的識別錯誤集中在少數幾對易混語音中〔1〕,因此本文採用了兩極識別框架,即第一級完成對識別結果的初步確定,第二級完成對易混淆語音的進一步辨識。

2.1 第一級識別
在第一級識別中採用的基本方法為離散隱含Malkov模型(DHMM)演算法〔5〕,用Viterbi演算法〔5〕計算各個數碼語音模型產生采入語音的概率Pr。
由於HMM是一個有人為假設的模型,所以有不可避免的缺陷。其中一個缺陷是在HMM中各狀態的持續時間呈幾何分布,即

P(Li=n)=anii(1-aii), (5)

其中: Li為狀態i的持續時間, aii為狀態i跳轉回自身的概率。按照式(5),狀態持續時間越長,其概率越小,這是不符合實際情況的。用Γ分布來描述狀態持續時間〔5〕,即

(6)

其中αi和βi為Γ分布的參數, Fi為歸一化因子參數,以上各參數在訓練時由訓練語音樣本估計出。在識別時,用Viterbi演算法獲得的最佳狀態路徑中各狀態持續時間的概率對Pr作修正:

(7)

其中: λ為加權系數, S為狀態數。識別結果則由修正後的概率P�′r獲得。實驗證明,用狀態持續時間分布對Pr進行修正所得的識別性能有明顯的提高。

2.2 第二級識別
對第一級識別的錯誤作分析,我們發現大部分錯誤都集中在少數幾對易混語音中。表2列出了識別錯誤最多的6對語音(其中「1」念為〔yao〕)占所有錯誤的百分比及其區分特徵。可見這6對語音占所有錯誤的91%,所以如果能夠在第二級識別中對這幾對語音作進一步的辯識,整個MDSR系統的性能會有很大的提高。

表2 易混語音錯誤百分比及其區分特徵

易混語音 占識別錯誤百分比/% 區分特徵
「2」「8」 45 共振峰軌跡變化趨勢
「1」「9」 12 不同的輔音
「1」「6」 11 不同的輔音
「0」「6」 11 鼻音特徵的有無
「3」「4」 8 不同的母音
「6」「9」 4 輔音的清濁性

由表2可見,易混語音「2」「8」, 「0」「6」, 「6」「9」可以用表徵其區分特徵的參數,根據一定的規則進行判決,而「1」「9」, 「1」「6」, 「3」「4」則可以利用端點檢測中元、輔音分割的結果,訓練母音部分和輔音部分的HMM參數,在識別時針對相應部分再作一次局部HMM識別。表3列出了各對易混語音第二級識別的方法。
表3 第二級識別方法

易混語音 第二級識別方法 規則判決的特徵參數或
局部HMM的辨識部位
「2」「8」 規則判決 共振峰軌跡
「1」「9」 局部HMM辨識 輔音
「1」「6」 局部HMM辨識 輔音
「0」「6」 規則判決 鼻音特徵
「3」「4」 局部HMM辨識 母音
「6」「9」 規則判決 頻譜分布參數R1

3 實驗結果

實驗使用了一個包含160人從「0」到「9」的各一遍發音的語音庫來測試系統的性能,庫中語音采樣率為11kHz,量化精度為16bit線性量化,錄音背景為普通辦公室環境。
首先測試了特徵參數採用LPCC參數,端點檢測採用快速端點檢測演算法〔6〕,只用Viterbi演算法進行一級識別時的基本結果,然後測試了逐個加入本文所提出的各種方法後的識別率,結果如表4。可見,所採用的每一種方法都使系統性能較之於基本系統有了顯著的提高,最後達到98.8%的識別率。

表4 演算法性能比較

採用的演算法 識別率/%
基本結果 91.1
採用MFCC參數 92.9
FRED演算法 95.4
狀態持續時間分布 96.0
第二級識別 98.8

4 結 論
採用了一系列演算法,有效地提高了MDSR系統的識別率,實現了一個高性能的MDSR系統,其特點為:
1) 採用了兩極識別框架,增強了對易混語音的區分能力。
2) 充分利用針對漢語數碼語音的語音學知識,提高了端點檢測的抗干擾能力,提取了用於區分易混語音的共振峰軌跡、鼻音特徵等聲學特徵,進一步提高了系統識別率。
3) 各演算法所需的運算量和存儲量都較小,有利於MDSR在DSP系統上的實現。■

基金項目:國家自然科學基金項目(69772020)和國家「八六三」高技術項目(863-512-9805-10)
作者簡介:李虎生 (1975-), 男(漢), 四川, 碩士研究生
作者單位:李虎生(清華大學,電子工程系,北京,100084)
劉加(清華大學,電子工程系,北京,100084)
劉潤生(清華大學,電子工程系,北京,100084)

參考文獻:

〔1〕顧良, 劉潤生. 漢語數碼語音識別: 困難分析與方法比較 〔J〕. 電路與系統學報, 1997, 2 (4): 32-39.
Gu Liang, Liu Runsheng. Mandarin digit speech recognition: state of the art, difficult points analysis and methods comparison 〔J〕. J of Circuits and Systems, 1997, 2(4): 32-39. (in Chinese)
〔2〕Davis S B, Mermelstein P. Comparison of parametric representations for monosyllabic word recognition in continuously spoken sentences 〔J〕. IEEE Trans, on Speech and Audio Signal Processing, 1980, 28 (4): 357-366.
〔3〕李虎生, 楊明傑, 劉潤生. 用共振峰軌跡提高漢語數碼語音識別性能 〔J〕. 清華大學學報, 1999, 39(9).
Li Husheng, Yang Mingjie, Liu Runsheng. Use formant trajectory to improve the performance of mandarin digit speech recognition 〔J〕. J of Tsinghua University, 1999, 39(9): 69-71. (in Chinese)
〔4〕吳宗濟, 林茂燦. 實驗語音學教程 〔M〕. 北京: 高等教育出版社, 1989.
Wu Zongji, Lin Maocan. Tutorial on Experimental Phonetics 〔M〕. Beijing: Higher Ecation Press, 1989. (in Chinese)
〔5〕楊行峻, 遲惠生. 語音信號數字處理 〔M〕. 北京: 電子工業出版社, 1995.
Yang Xingjun, Chi Huisheng. Digit Speech Signal Processing 〔M〕. Beijing: Publishing House of Electronic Instry, 1995. (in Chinese)
〔6〕顧良. 漢語數碼語音識別方法研究及DSP系統設計 〔D〕. 北京: 清華大學, 1997.
Gu Liang. Research on Methodologies for Mandarin Digit Speech Recognition and Design of its DSP System 〔D〕. Beijing: Tsinghua University, 1997. (in Chinese)
http://www.oxbad.com/DSP/maindoc/audio/PAGE/5.HTM

㈥ 手機通話變聲器 通話可以變聲嗎

是可以的。

變聲的原理:

通過自發音,共振峰頻率的改變基本上是通過重采樣實現的。從重采樣原理來看,這還會引起基頻的變化。為了確保基本頻率變化和諧振頻率變化是獨立且互不相關的,在基本頻率下,運動必須考慮補償由重采樣引起的偏移。

從理論上講,只要基本頻率檢測足夠准確以確保基本頻率變化與共振峰頻率變化之間沒有相關性,就可以通過移動和更改基本頻率來改變聲音。

無論是硬體語音轉換器還是軟體語音轉換器,原理都是通過改變輸入聲音的頻率,從而改變聲音的音色和音調,輸出聲音在感覺上不同於原始聲音。

每個人都有不同的聲音,這源於我們每個人的不同音色和語氣。我們所說的男中音和男高音是音調上的差異,即使音調相同,仍然可以區分兩個不同的人。聲音或不同樂器的聲音,這就是音色的差異。變聲器將通過音色和音調的雙重復合變化來實現輸出聲音的變化。

(6)語音前端處理擴展閱讀

變聲的一些用途:

1、語音轉換的想法可以用來恢復受損的語音,並在聲音通道受損的情況下幫助說話者的語音,以提高清晰度。

2、在電影配音中的應用。在電影配音中,尤其是在用另一種語言配音時,配音演員通常不是演員本人,常常使配音與原演員的人格特徵大相徑庭,配音效果並不理想。但如果配音是這樣的話VC轉換後,要使其具有演員本人的個性特徵,則配音效果將更加理想。

3、可以用於在機密通信中偽裝個性化語音。

4、語音轉換可以用於控制單個揚聲器的語音質量,並且可以糾正由於在TTS中長期記錄揚聲器而導致的錄制質量變化。

5、可用於語音識別的前端預處理,以減少說話人差異的影響。

㈦ 語音識別系統的原理

語音識別系統是一種模式識別系統,包括特徵提取、模式匹配、參考模式庫等三個基本單元。未知語音經過話筒變換成電信號後加在識別系統的輸入端,首先經過預處理,再根據人的語音特點建立語音模型,對輸入的語音信號進行分析,並抽取所需的特徵,在此基礎上建立語音識別所需的模板。

然後根據此模板的定義,通過查表就可以給出計算機的識別結果。顯然,這種最優的結果與特徵的選擇、語音模型的好壞、模板是否准確都有直接的關系。

語音識別系統構建過程整體上包括兩大部分:訓練和識別。訓練通常是離線完成的,對預先收集好的海量語音、語言資料庫進行信號處理和知識挖掘,獲取語音識別系統所需要的「聲學模型」和「語言模型」;而識別過程通常是在線完成的,對用戶實時的語音進行自動識別。

識別過程通常又可以分為「前端」和「後端」兩大模塊:「前端」模塊主要的作用是進行端點檢測(去除多餘的靜音和非說話聲)、降噪、特徵提取等;「後端」模塊的作用是利用訓練好的「聲學模型」和「語言模型」對用戶說話的特徵向量進行統計模式識別,得到其包含的文字信息,此外,後端模塊還存在一個「自適應」的反饋模塊,可以對用戶的語音進行自學習,從而對「聲學模型」和「語音模型」進行必要的「校正」,進一步提高識別的准確率。

自動語音識別技術有三個基本原理:首先語音信號中的語言信息是按照短時幅度譜的時間變化模式來編碼;其次語音是可以閱讀的,即它的聲學信號可以在不考慮說話人試圖傳達的信息內容的情況下用數十個具有區別性的、離散的符號來表示;第三語音交互是一個認知過程,因而不能與語言的語法、語義和語用結構分開來。

㈧ 訊飛語音識別引肇

「訊飛語音+」功能介紹
「訊飛語音+」主要提供的語音服務包括語音合成、語音識別、語義理解和語音搜索。
語音合成
訊飛語音+提供的語音合成服務包括在線語音合成與離線語音合成。
具有多語種服務:支持中文、中英文混度、純正英文、粵語、粵語英文混度的語音合成。
多音色服務:可以設定不同音色,包括普通話女童、男、女發聲,粵語、東北話、河南話、湖南話、四川話等。
多字元集支持:支持輸入GB2312、GBK、Big5、Unicode和UTF-8等多種字元集,
語音識別:
「訊飛語音+ 」語音識別同樣提供在線與離線兩種方式,具有一下幾種功能。
前端語音處理:端點檢測、噪音消除、智能打斷;
後端識別處理:連續語音識別、個性化語音識別、置信度輸出、多識別結果、多槽識別等。
語義理解 :
語義理解支持的特性包括:
能夠處理基於文法規則的實際業務需求,為支持用戶通過自然語言向機器發出某種業務需求,如打電話、發簡訊、查天氣、查股票、查航班、訂酒店等;
具備基於相似問句語義距離度量的智能知識問答 ;
具備基於本體庫自動構建及推理的智能問答。
語音搜索
支持超大規模的語言模型;
支持語言模型的動態更新;
支持針對不同用戶給出最匹配的搜索結果列表;
2「訊飛語音+」語音識別功能介面使用方法
第三方軟體使用訊飛語音+提供的語音服務需要提前安裝訊飛語音+原件。在開發過程中首先將SpeechApi.jar添加進工程,該程序包作為開發者與訊飛語音+的介面,開發者調用統一介面介入其語音識別服務。
在實現語音識別功能中,首先實例化SpeechRecognizer對象,然後通過setParameter(key,value)方法設置識別引擎的參數。