search

語音識別原理

語音識別原理

  首先,我們知道聲音實際上是一種波。常見的mp3、wmv等格式都是壓縮格式,必須轉成非壓縮的純波形檔案來處理,比如Windows PCM檔案,也就是俗稱的wav檔案。wav檔案裡儲存的除了一個檔案頭以外,就是聲音波形的一個個點了。

  在開始語音識別之前,有時需要把首尾端的靜音切除,降低對後續步驟造成的干擾。這個靜音切除的操作一般稱為VAD,需要用到訊號處理的一些技術。要對聲音進行分析,需要對聲音分幀,也就是把聲音切開成一小段一小段,每小段稱為一幀。分幀操作一般不是簡單的切開,而是使用移動窗函式來實現,這裡不詳述。幀與幀之間一般是有交疊的。

  每幀的長度為25毫秒,每兩幀之間有25-10=15毫秒的交疊。我們稱為以幀長25ms、幀移10ms分幀。每幀的長度為25毫秒,每兩幀之間有25-10=15毫秒的交疊。我們稱為以幀長25ms、幀移10ms分幀。

  分幀後,語音就變成了很多小段。但波形在時域上幾乎沒有描述能力,因此必須將波形作變換。常見的一種變換方法是提取MFCC特徵,根據人耳的生理特性,把每一幀波形變成一個多維向量,可以簡單地理解為這個向量包含了這幀語音的內容資訊。這個過程叫做聲學特徵提取。實際應用中,這一步有很多細節,聲學特徵也不止有MFCC這一種,具體這裡不講。

  至此,聲音就成了一個12行(假設聲學特徵是12維)、N列的一個矩陣,稱之為觀察序列,這裡N為總幀數。觀察序列如下圖所示,圖中,每一幀都用一個12維的向量表示,色塊的顏色深淺表示向量值的大小。

  接下來就要介紹怎樣把這個矩陣變成文字了。首先要介紹兩個概念:音素:單詞的發音由音素構成。對英語,一種常用的音素集是卡內基梅隆大學的一套由39個音素構成的音素集,參見The CMU Pronouncing Dictionary。漢語一般直接用全部聲母和韻母作為音素集,另外漢語識別還分有調無調,不詳述。狀態:這裡理解成比音素更細緻的語音單位就行啦。通常把一個音素劃分成3個狀態。

  語音識別是怎麼工作的呢?實際上一點都不神秘,無非是:第一步,把幀識別成狀態(難點);第二步,把狀態組合成音素;第三步,把音素組合成單詞。

語音識別的技術原理是什麼

  語音識別技術,目標是將人類的語音中的詞彙內容轉換為計算機可讀的輸入。

  工作原理:

  動態時間伸縮方法使用瞬間的、變動倒頻透過交換字母順序,用一個含義廣泛的詞彙定義了一個新的訊號處理技術,倒頻譜的計算通常使用快速傅立葉變換。

  運用隱馬爾可夫模型的方法,頻譜特徵的統計變差得以測量。文字無關語音識別方法的例子有平均頻譜法、向量量化法和多變數自迴歸法。

語音識別的原理是什麼

  語音識別技術,也被稱為自動語音識別,其目標是將人類的語音中的詞彙內容轉換為計算機可讀的輸入;原理是動態時間伸縮方法使用瞬間的、變動倒頻,1963年Bogert et al出版了《回聲的時序倒頻分析》,透過交換字母順序,他們用一個含義廣泛的詞彙定義了一個新的訊號處理技術,倒頻譜的計算通常使用快速傅立葉變換;從1975年起,隱馬爾可夫模型變得很流行,運用隱馬爾可夫模型的方法,頻譜特徵的統計變差得以測量,文字無關語音識別方法的例子有平均頻譜法、向量量化法和多變數自迴歸法;平均頻譜法使用有利的倒頻距離,語音訊譜中


win8語音識別怎麼關

  關閉win8語音識別的兩種方法:   1、開啟電腦,按Win鍵,滑鼠右擊空白處,在彈出的選項中,選擇“所有應用”,向右滑動,找到“語音識別”,選擇關閉;   2、開啟電腦,將滑鼠指標移到桌面右下角,選中“設定”,點選“控制面板”,開啟“輕鬆使用”,找到“語音識別”選項,選擇關閉。   若想開啟語音識別功能 ...

屏下指紋識別原理

  1、枚感測器採用光學生產材料和工藝製作,可直接封裝在 AMOLED 柔性顯示屏下方或整合到 OLED 螢幕中,厚度僅為 1.5mm。同樣地,它也具備屏下指紋識別方案的優點——無懼汙跡和泥垢等。   2、當 FS9500 感測器被啟用時,感測器會透過上層的 OLED 面板背光來照亮指紋識別的區域,然後將反射 ...

微軟語音識別系統如何設定

  具體的設定步驟如下所示:   1、點選控制面板;   2、點選輕鬆訪問;   3、點選啟動語音識別;   4、接著“設定語音識別”嚮導對話框出來後再點選下一步;   5、選擇麥克風型別,選擇第一種;   6、點選下一步;   7、選擇啟用文件審閱,使用手動啟用模式;   8、點選上面的麥克風圖示進行啟用; ...

手機語音識別不了怎麼辦

  適用品牌型號:小米11;系統:MIUI12;   1,以小米手機語音助手為例,可能是小米手機語音助手沒有獲得許可權。   2,可能是手機沒有網路連線,小米手機語音助手需要網路才能使用。   3,可能是手機錄音系統出現故障。   4,小米手機語音助手軟體出現錯誤,可以重新啟動嘗試。 ...

如何關閉windows語音識別

  點選開始,點選控制面板;點選輕鬆訪問;點選左邊的高階語音選項;把啟動時執行語音識別前面的勾給去掉;點選確定即可。 ...

語音識別技術究竟可以發展到什麼地步

  語音識別技術,也被稱為自動語音識別ASR,其目標是將人類的語音中的詞彙內容轉換為計算機可讀的輸入,例如按鍵、二進位制編碼或者字元序列,與說話人識別及說話人確認不同,後者嘗試識別或確認發出語音的說話人而非其中所包含的詞彙內容。 ...

oppo手機有語音識別功能嗎

  oppo手機有語音識別功能。   使用oppo手機語音識別功能的方法步驟如下:   1、首先,在oppo手機待機桌面上,長按選單鍵,直到彈出語音助手;   2、然後,彈出語音助手後,在非訪客模式和圖案密碼、數字密碼的鎖屏介面上,與語音助手說話,可以打電話給通訊錄的人,也可以語音發簡訊,即可成功使用oppo ...