<s id="eoqoe"><xmp id="eoqoe">
<button id="eoqoe"><strong id="eoqoe"></strong></button>
<s id="eoqoe"><xmp id="eoqoe">
<button id="eoqoe"><strong id="eoqoe"></strong></button>
<wbr id="eoqoe"></wbr>
<wbr id="eoqoe"><strong id="eoqoe"></strong></wbr>
<wbr id="eoqoe"><strong id="eoqoe"></strong></wbr>
<wbr id="eoqoe"><strong id="eoqoe"></strong></wbr>
<wbr id="eoqoe"><label id="eoqoe"></label></wbr>
<button id="eoqoe"></button>
<wbr id="eoqoe"></wbr>
你的位置:首頁(yè) > RF/微波 > 正文

熟透語(yǔ)音識別技術(shù),軍事斗爭領(lǐng)域你就是"王"

發(fā)布時(shí)間:2015-01-14 來(lái)源:禹琳琳 海軍駐北京地區航空軍事代表室 責任編輯:sherryyu

【導讀】一位航空專(zhuān)家專(zhuān)門(mén)為大家講解了語(yǔ)音識別技術(shù)的基本原理及應用,希望在語(yǔ)音識別技術(shù)上有所成就的人可以詳細的研讀。同時(shí)作為航空軍事領(lǐng)域語(yǔ)音識別技術(shù)也很重要,如若能將該技術(shù)熟練的應用到軍事上,我想那國家的軍事力量肯定不容小覷。
 
語(yǔ)音識別作為信息技術(shù)中一種人機接口的關(guān)鍵技術(shù),具有重要的研究意義和廣泛的應用價(jià)值。介紹了語(yǔ)音識別技術(shù)發(fā)展的歷程,具體闡述了語(yǔ)音識別概念、基本原理、聲學(xué)建模方法等基本知識,并對語(yǔ)音識別技術(shù)在各領(lǐng)域的應用作了簡(jiǎn)要介紹。
 
語(yǔ)言是人類(lèi)相互交流最常用、最有效、最重要和最方便的通信形式,語(yǔ)音是語(yǔ)言的聲學(xué)表現,與機器進(jìn)行語(yǔ)音交流是人類(lèi)一直以來(lái)的夢(mèng)想。隨著(zhù)計算機技術(shù)的飛速發(fā)展,語(yǔ)音識別技術(shù)也取得突破性的成就,人與機器用自然語(yǔ)言進(jìn)行對話(huà)的夢(mèng)想逐步接近實(shí)現。語(yǔ)音識別技術(shù)的應用范圍極為廣泛,不僅涉及到日常生活的方方面面,在軍事領(lǐng)域也發(fā)揮著(zhù)極其重要的作用。它是信息社會(huì )朝著(zhù)智能化和自動(dòng)化發(fā)展的關(guān)鍵技術(shù),使人們對信息的處理和獲取更加便捷,從而提高人們的工作效率。
 
1 語(yǔ)音識別技術(shù)的發(fā)展
 
語(yǔ)音識別技術(shù)起始于20世紀50年代。這一時(shí)期,語(yǔ)音識別的研究主要集中在對元音、輔音、數字以及孤立詞的識別。
 
20世紀60年代,語(yǔ)音識別研究取得實(shí)質(zhì)性進(jìn)展。線(xiàn)性預測分析和動(dòng)態(tài)規劃的提出較好地解決了語(yǔ)音信號模型的產(chǎn)生和語(yǔ)音信號不等長(cháng)兩個(gè)問(wèn)題,并通過(guò)語(yǔ)音信號的線(xiàn)性預測編碼,有效地解決了語(yǔ)音信號的特征提取。
 
2O世紀70年代,語(yǔ)音識別技術(shù)取得突破性進(jìn)展?;趧?dòng)態(tài)規劃的動(dòng)態(tài)時(shí)間規整(Dynamic Time Warping,DTW)技術(shù)基本成熟,特別提出了矢量量化(Vector Quantization,VQ)和隱馬爾可夫模型(Hidden Markov Model,HMM)理論。
 
20世紀80年代,語(yǔ)音識別任務(wù)開(kāi)始從孤立詞、連接詞的識別轉向大詞匯量、非特定人、連續語(yǔ)音的識別,識別算法也從傳統的基于標準模板匹配的方法轉向基于統計模型的方法。在聲學(xué)模型方面,由于HMM能夠很好的描述語(yǔ)音時(shí)變性和平穩性,開(kāi)始被廣泛應用于大詞匯量連續語(yǔ)音識別(Large Vocabulary Continous Speech Recognition,LVCSR)的聲學(xué)建模;在語(yǔ)言模型方面,以N元文法為代表的統計語(yǔ)言模型開(kāi)始廣泛應用于語(yǔ)音識別系統 。在這一階段,基于HMM/VQ、HMM/高斯混合模型、HMM/人工神經(jīng)網(wǎng)絡(luò )的語(yǔ)音建模方法開(kāi)始廣泛應用于LVCSR系統,語(yǔ)音識別技術(shù)取得新突破。
 
20世紀90年代以后,伴隨著(zhù)語(yǔ)音識別系統走向實(shí)用化,語(yǔ)音識別在細化模型的設計、參數提取和優(yōu)化、系統的自適應方面取得較大進(jìn)展 。同時(shí),人們更多地關(guān)注話(huà)者自適應、聽(tīng)覺(jué)模型、快速搜索識別算法以及進(jìn)一步的語(yǔ)言模型的研究等課題 。此外,語(yǔ)音識別技術(shù)開(kāi)始與其他領(lǐng)域相關(guān)技術(shù)進(jìn)行結合,以提高識別的準確率,便于實(shí)現語(yǔ)音識別技術(shù)的產(chǎn)品化。
 
2 語(yǔ)音識別基礎

2.1 語(yǔ)音識別概念
 
語(yǔ)音識別是將人類(lèi)的聲音信號轉化為文字或者指令的過(guò)程。語(yǔ)音識別以語(yǔ)音為研究對象,它是語(yǔ)音信號處理的一個(gè)重要研究方向,是模式識別的一個(gè)分支。語(yǔ)音識別的研究涉及微機技術(shù)、人工智能、數字信號處理、模式識別、聲學(xué)、語(yǔ)言學(xué)和認知科學(xué)等許多學(xué)科領(lǐng)域,是一個(gè)多學(xué)科綜合性研究領(lǐng)域。
 
根據在不同限制條件下的研究任務(wù),產(chǎn)生了不同的研究領(lǐng)域。這些領(lǐng)域包括:根據對說(shuō)話(huà)人說(shuō)話(huà)方式的要求,可分為孤立字(詞)、連接詞和連續語(yǔ)音識別系統;根據對說(shuō)話(huà)人的依賴(lài)程度,可分為特定人和非特定人語(yǔ)音識別系統;根據詞匯量的大小,可分為小詞匯量、中等詞匯量、大詞匯量以及無(wú)限詞匯量語(yǔ)音識別系統。
 
2.2 語(yǔ)音識別基本原理
 
從語(yǔ)音識別模型的角度講,主流的語(yǔ)音識別系統理論是建立在統計模式識別基礎之上的。語(yǔ)音識別的目標是利用語(yǔ)音學(xué)與語(yǔ)言學(xué)信息,把輸入的語(yǔ)音特征向量序列X=x1,x2,……,xT轉化成詞序列W=w1,w2,……,wN并輸出?;谧畲蠛篁灨怕实恼Z(yǔ)音識別模型如下式所示:
語(yǔ)音識別模型
其中,P(X|W)是特征矢量序列X在給定W條件下的條件概率,由聲學(xué)模型決定。P(W)是W獨立于語(yǔ)音特征矢量的先驗概率,由語(yǔ)言模型決定。由于將概率取對數不影響W的選取,第四個(gè)等式成立。logP(X|W)與logP(W)分別表示聲學(xué)得分與語(yǔ)言得分,且分別通過(guò)聲學(xué)模型與語(yǔ)言模型計算得到。A是平衡聲學(xué)模型與語(yǔ)言模型的權重。從語(yǔ)音識別系統構成的角度講,一個(gè)完整的語(yǔ)音識別系統包括特征提取、聲學(xué)模型、語(yǔ)言模型、搜索算法等模塊。語(yǔ)音識別系統本質(zhì)上是一種多維模式識別系統,對于不同的語(yǔ)音識別系統,人們所采用的具體識別方法及技術(shù)不同,但其基本原理都是相同的,即將采集到的語(yǔ)音信號送到特征提取模塊處理,將所得到的語(yǔ)音特征參數送入模型庫模塊,由聲音模式匹配模塊根據模型庫對該段語(yǔ)音進(jìn)行識別,最后得出識別結果 。
[page]

語(yǔ)音識別系統基本原理框圖如圖1所示,其中:預處理模塊濾除原始語(yǔ)音信號中的次要信息及背景噪音等,包括抗混疊濾波、預加重、模/數轉換、自動(dòng)增益控制等處理過(guò)程,將語(yǔ)音信號數字化;特征提取模塊對語(yǔ)音的聲學(xué)參數進(jìn)行分析后提取出語(yǔ)音特征參數,形成特征矢量序列。語(yǔ)音識別系統常用的特征參數有短時(shí)平均幅度、短時(shí)平均能量、線(xiàn)性預測編碼系數、短時(shí)頻譜等。特征提取和選擇是構建系統的關(guān)鍵,對識別效果極為重要。
語(yǔ)音識別基本原理框圖
圖1 語(yǔ)音識別基本原理框圖
 
由于語(yǔ)音信號本質(zhì)上屬于非平穩信號,目前對語(yǔ)音信號的分析是建立在短時(shí)平穩性假設之上的。在對語(yǔ)音信號作短時(shí)平穩假設后,通過(guò)對語(yǔ)音信號進(jìn)行加窗,實(shí)現短時(shí)語(yǔ)音片段上的特征提取。這些短時(shí)片段被稱(chēng)為幀,以幀為單位的特征序列構成語(yǔ)音識別系統的輸人。由于梅爾倒譜系數及感知線(xiàn)性預測系數能夠從人耳聽(tīng)覺(jué)特性的角度準確刻畫(huà)語(yǔ)音信號,已經(jīng)成為目前主流的語(yǔ)音特征。為補償幀間獨立性假設,人們在使用梅爾倒譜系數及感知線(xiàn)性預測系數時(shí),通常加上它們的一階、二階差分,以引入信號特征的動(dòng)態(tài)特征。
 
聲學(xué)模型是語(yǔ)音識別系統中最為重要的部分之一。聲學(xué)建模涉及建模單元選取、模型狀態(tài)聚類(lèi)、模型參數估計等很多方面。在目前的LVCSR系統中,普遍采用上下文相關(guān)的模型作為基本建模單元,以刻畫(huà)連續語(yǔ)音的協(xié)同發(fā)音現象。在考慮了語(yǔ)境的影響后,聲學(xué)模型的數量急劇增加,LVCSR系統通常采用狀態(tài)聚類(lèi)的方法壓縮聲學(xué)參數的數量,以簡(jiǎn)化模型的訓練。在訓練過(guò)程中,系統對若干次訓練語(yǔ)音進(jìn)行預處理,并通過(guò)特征提取得到特征矢量序列,然后由特征建模模塊建立訓練語(yǔ)音的參考模式庫。
 
搜索是在指定的空間當中,按照一定的優(yōu)化準則,尋找最優(yōu)詞序列的過(guò)程。搜索的本質(zhì)是問(wèn)題求解,廣泛應用于語(yǔ)音識別、機器翻譯等人工智能和模式識別的各個(gè)領(lǐng)域。它通過(guò)利用已掌握的知識(聲學(xué)知識、語(yǔ)音學(xué)知識、詞典知識、語(yǔ)言模型知識等),在狀態(tài)(從高層至底層依次為詞、聲學(xué)模型、HMM狀態(tài))空間中找到最優(yōu)的狀態(tài)序列。最終的詞序列是對輸入的語(yǔ)音信號在一定準則下的一個(gè)最優(yōu)描述。在識別階段,將輸入語(yǔ)音的特征矢量參數同訓練得到的參考模板庫中的模式進(jìn)行相似性度量比較,將相似度最高的模式所屬的類(lèi)別作為識別中間候選結果輸出。為了提高識別的正確率,在后處理模塊中對上述得到的候選識別結果繼續處理,包括通過(guò)Lattice重打分融合更高元的語(yǔ)言模型、通過(guò)置信度度量得到識別結果的可靠程度等。最終通過(guò)增加約束,得到更可靠的識別結果。
 
2.3 聲學(xué)建模方法
 
常用的聲學(xué)建模方法包含以下三種:基于模式匹配的動(dòng)態(tài)時(shí)間規整法(DTW);隱馬爾可夫模型法(HMM);基于人工神經(jīng)網(wǎng)絡(luò )識別法(ANN)等。
 
DTW 是較早的一種模式匹配的方法。它基于動(dòng)態(tài)規劃的思想,解決孤立詞語(yǔ)音識別中的語(yǔ)音信號特征參數序列比較時(shí)長(cháng)度不一的模板匹配問(wèn)題 在實(shí)際應用中,DTW通過(guò)計算已預處理和分幀的語(yǔ)音信號與參考模板之間的相似度,再按照某種距離測度計算出模板間的相似度并選擇最佳路徑。
 
HMM是對語(yǔ)音信號的時(shí)間序列結構所建立的統計模型,是在馬爾可夫鏈的基礎上發(fā)展起來(lái)的,它是一種基于參數模型的統計識別方法。HMM可模仿人的言語(yǔ)過(guò)程,可視作一個(gè)雙重隨機過(guò)程:一個(gè)是用具有有限狀態(tài)數的馬爾可夫鏈來(lái)模擬語(yǔ)音信號統計特性變化的隱含的隨機過(guò)程,另一個(gè)是與馬爾可夫鏈的每一個(gè)狀態(tài)相關(guān)聯(lián)的觀(guān)測序列的隨機過(guò)程。
[page]

ANN以數學(xué)模型模擬神經(jīng)元活動(dòng),將人工神經(jīng)網(wǎng)絡(luò )中大量神經(jīng)元并行分布運算的原理、高效的學(xué)習算法以及對人的認知系統的模仿能力充分運用到語(yǔ)音識別領(lǐng)域,并結合神經(jīng)網(wǎng)絡(luò )和隱含馬爾可夫模型的識別算法,克服了ANN在描述語(yǔ)音信號時(shí)間動(dòng)態(tài)特性方面的缺點(diǎn),進(jìn)一步提高了語(yǔ)音識別的魯棒性和準確率。其中成功的方法就是在混合模型中用ANN替代高斯混合模型估計音素或狀態(tài)的后驗概率。2011年,微軟以深度神經(jīng)網(wǎng)絡(luò )替代多層感知機形成的混合模型系統大大提高了語(yǔ)音識別的準確率。
 
3 語(yǔ)音識別的應用
 
語(yǔ)音識別技術(shù)有著(zhù)非常廣泛的應用領(lǐng)域和市場(chǎng)前景。在語(yǔ)音輸入控制系統中,它使得人們可以甩掉鍵盤(pán),通過(guò)識別語(yǔ)音中的要求、請求、命令或詢(xún)問(wèn)來(lái)作出正確的響應,這樣既可以克服人工鍵盤(pán)輸入速度慢,極易出差錯的缺點(diǎn),又有利于縮短系統的反應時(shí)間,使人機交流變得簡(jiǎn)便易行,比如用于聲控語(yǔ)音撥號系統、聲控智能玩具、智能家電等領(lǐng)域。在智能對話(huà)查詢(xún)系統中,人們通過(guò)語(yǔ)音命令,可以方便地從遠端的數據庫系統中查詢(xún)與提取有關(guān)信息,享受自然、友好的數據庫檢索服務(wù),例如信息網(wǎng)絡(luò )查詢(xún)、醫療服務(wù)、銀行服務(wù)等。語(yǔ)音識別技術(shù)還可以應用于自動(dòng)口語(yǔ)翻譯,即通過(guò)將口語(yǔ)識別技術(shù)、機器翻譯技術(shù)、語(yǔ)音合成技術(shù)等相結合,可將一種語(yǔ)言的語(yǔ)音輸入翻譯為另一種語(yǔ)言的語(yǔ)音輸出,實(shí)現跨語(yǔ)言交流。
 
語(yǔ)音識別技術(shù)在軍事斗爭領(lǐng)域里也有著(zhù)極為重要的應用價(jià)值和極其廣闊的應用空間。一些語(yǔ)音識別技術(shù)就是著(zhù)眼于軍事活動(dòng)而研發(fā),并在軍事領(lǐng)域首先應用、首獲成效的,軍事應用對語(yǔ)音識別系統的識別精度、響應時(shí)間、惡劣環(huán)境下的頑健性都提出了更高的要求。目前,語(yǔ)音識別技術(shù)已在軍事指揮和控制自動(dòng)化方面得以應用。比如,將語(yǔ)音識別技術(shù)應用于航空飛行控制,可快速提高作戰效率和減輕飛行員的工作負擔,飛行員利用語(yǔ)音輸人來(lái)代替傳統的手動(dòng)操作和控制各種開(kāi)關(guān)和設備,以及重新改編或排列顯示器上的顯示信息等,可使飛行員把時(shí)間和精力集中于對攻擊目標的判斷和完成其他操作上來(lái),以便更快獲得信息來(lái)發(fā)揮戰術(shù)優(yōu)勢。
 
4 結語(yǔ)
 
語(yǔ)音識別的研究工作對于信息化社會(huì )的發(fā)展,人們生活水平的提高等方面有著(zhù)深遠的意義。隨著(zhù)計算機信息技術(shù)的不斷發(fā)展,語(yǔ)音識別技術(shù)將取得更多重大突破,語(yǔ)音識別系統的研究將會(huì )更加深入,有著(zhù)更加廣闊的發(fā)展空間。
要采購鍵盤(pán)么,點(diǎn)這里了解一下價(jià)格!
特別推薦
技術(shù)文章更多>>
技術(shù)白皮書(shū)下載更多>>
熱門(mén)搜索
?

關(guān)閉

?

關(guān)閉

久久无码人妻精品一区二区三区_精品少妇人妻av无码中文字幕_98精品国产高清在线看入口_92精品国产自产在线观看481页
<s id="eoqoe"><xmp id="eoqoe">
<button id="eoqoe"><strong id="eoqoe"></strong></button>
<s id="eoqoe"><xmp id="eoqoe">
<button id="eoqoe"><strong id="eoqoe"></strong></button>
<wbr id="eoqoe"></wbr>
<wbr id="eoqoe"><strong id="eoqoe"></strong></wbr>
<wbr id="eoqoe"><strong id="eoqoe"></strong></wbr>
<wbr id="eoqoe"><strong id="eoqoe"></strong></wbr>
<wbr id="eoqoe"><label id="eoqoe"></label></wbr>
<button id="eoqoe"></button>
<wbr id="eoqoe"></wbr>