- 學(xué)習智能手機的超性能語(yǔ)音識別技術(shù)
- 手機提供的羅盤(pán)或者GPS能夠增強自然語(yǔ)言處理的有用性
- 在移動(dòng)設備方面設計
- 硬件和軟件技術(shù)
當語(yǔ)音識別技術(shù)應用到計算機桌面的時(shí)候,這看起來(lái)似乎是一個(gè)好主意。但是,對于大多數人來(lái)說(shuō),語(yǔ)音識別還不能取代鍵盤(pán)和鼠標?,F在,語(yǔ)音技術(shù)正用于一個(gè)全新的環(huán)境:手機。語(yǔ)音識別技術(shù)在手機中的應用將進(jìn)一步推動(dòng)這種技術(shù)向新的方向發(fā)展和應用。這是語(yǔ)音識別技術(shù)在臺式電腦應用中從來(lái)沒(méi)有涉足的方向。
IBM今年將紀念其創(chuàng )建100周年。IBM在60年代初期創(chuàng )建了一個(gè)名為“Shoebox”的試驗性的語(yǔ)音識別系統。這個(gè)系統解決了口語(yǔ)算法問(wèn)題。語(yǔ)音識別技術(shù)是在50年代作為一項早期的技術(shù)第一次出現的,當時(shí)主要是由于好奇。在60年代初,IBM的“Shoebox”設備能夠識別出16個(gè)口語(yǔ)單詞并且能夠回答簡(jiǎn)單的數學(xué)問(wèn)題,如“3 + 4 =?”。
Dragon Systems在80年代初為DOS計算機推出的DragonDictate可能是第一個(gè)語(yǔ)音識別應用程序。這個(gè)應用程序只能識別單個(gè)單詞,每次只說(shuō)一個(gè)單詞。隨著(zhù)時(shí)間的推移,這個(gè)應用程序已經(jīng)發(fā)展成為名為“Dragon NaturallySpeaking”(目前是第11個(gè)版本,由Nuance通訊公司所有)的產(chǎn)品。這個(gè)應用程序能夠翻譯以正常的會(huì )話(huà)語(yǔ)音和速度讀出的文本。
語(yǔ)音識別技術(shù)在臺式電腦中的應用有兩個(gè)制約因素。第一,為了使這個(gè)應用程序以更高的準確性工作,這個(gè)應用程序必須要進(jìn)行訓練以便識別用戶(hù)的語(yǔ)音特征。Windows Vista和Windows 7操作系統中的本地語(yǔ)音轉換文本技術(shù)和Dragon NaturallySpeaking等第三方產(chǎn)品仍然都需要一個(gè)用戶(hù)訓練期才能使用。
第二個(gè)制約因素是鍵盤(pán)的流行程度。大多數人已經(jīng)習慣于鍵盤(pán)打字而不是講話(huà),因此,語(yǔ)音控制面臨Dvorak鍵盤(pán)布局同樣的應用障礙。當簡(jiǎn)單的老式QWERTY鍵盤(pán)供貨充足并且工作的很好的時(shí)候,為什么要學(xué)習使用Dvorak鍵盤(pán)呢?
微軟TellMe團隊是負責為多媒體環(huán)境開(kāi)發(fā)語(yǔ)音識別技術(shù)的部門(mén)。TellMe團隊高級產(chǎn)品經(jīng)理Abhi Rele指出,在臺式電腦環(huán)境,用戶(hù)有方便的人機交流模式,如鍵盤(pán)和鼠標。因此,語(yǔ)音的使用主要是針對語(yǔ)音愛(ài)好者的。
語(yǔ)音控制的計算更廣泛的應用需要兩件事情:更好的方便的應用和主要使用語(yǔ)音的地方。手機正是很長(cháng)時(shí)間以來(lái)一直在增長(cháng)的這種地方。
Nuance負責產(chǎn)品管理和營(yíng)銷(xiāo)的副總裁Matt Revis解釋說(shuō),臺式電腦和移動(dòng)環(huán)境的區別是這樣的:臺式電腦是一個(gè)固定的環(huán)境,重點(diǎn)完全在于臺式電腦的使用情況。因此,臺式電腦的語(yǔ)音技術(shù)主要執行如下任務(wù):支持辦公應用程序、網(wǎng)絡(luò )瀏覽、通訊等。在移動(dòng)方面,語(yǔ)音更多地用于支持各種生活方式方面:移動(dòng)中的專(zhuān)業(yè)人員、戶(hù)外的有趣活動(dòng)、免提電話(huà)等等。
Gartner分析師Tuong Nguyen贊同這個(gè)觀(guān)點(diǎn):語(yǔ)音在移動(dòng)環(huán)境中更有意義。他說(shuō),從使用的角度看,掌上設備的語(yǔ)音識別功能價(jià)值更大。它增加了用戶(hù)友好的、方便的輸入方式。
Nguyen補充說(shuō),如果不用語(yǔ)音技術(shù)說(shuō)出一個(gè)簡(jiǎn)單的說(shuō)明語(yǔ)句,而是翻動(dòng)許多菜單或者努力地在小顯示屏鍵盤(pán)上進(jìn)行輸入,語(yǔ)音識別的價(jià)值就顯現出來(lái)了。隨著(zhù)觸摸屏設備(沒(méi)有物理鍵盤(pán))應用的增長(cháng),語(yǔ)音識別技術(shù)將用來(lái)增強數據輸入和輸出。語(yǔ)音識別還支持免提要求或者法律要求。
[page]
在移動(dòng)設備方面
因為移動(dòng)設備一般僅支持臺式電腦的一部分存儲和處理功能,語(yǔ)音處理需要一些時(shí)間才能以基本的形式出現在手機中。
語(yǔ)音處理Springer手冊解釋了手機在2000年代初的情況。盡管那時(shí)還有一些局限性,但是,手機經(jīng)過(guò)編程之后能夠識別逐個(gè)數字的撥號語(yǔ)音,在某種程度上還能識別人的名字。主要問(wèn)題是內存,因此,大多數手機一次只能識別10個(gè)數字或者名字。但是,這些作者指出的另一個(gè)問(wèn)題是這個(gè)功能使用的比較少,可能是因為手機廠(chǎng)商在這方面的營(yíng)銷(xiāo)很糟糕。
隨著(zhù)手機的增加內存和增強處理能力,普通手機的識別能力也增強了。三星電子在2005年發(fā)布的售價(jià)99美元的SCH-p-207型手機增加了語(yǔ)音至文本的聽(tīng)寫(xiě)功能和語(yǔ)音撥號功能。隨著(zhù)內存達到數百MB和存儲容量達到數GB,目前這一代智能手機很少受到限制。
另一個(gè)關(guān)鍵的進(jìn)步是網(wǎng)絡(luò )速度。速度更快的無(wú)線(xiàn)網(wǎng)絡(luò )浪潮抬高了許多大船,包括最新一代的語(yǔ)音處理技術(shù)。速度更快的網(wǎng)絡(luò )能夠把語(yǔ)音處理任務(wù)從網(wǎng)絡(luò )遷移到遠程服務(wù)器。
谷歌語(yǔ)音搜索產(chǎn)品經(jīng)理Amir Mane解釋了速度更快的網(wǎng)絡(luò )是如何幫助谷歌語(yǔ)音應用程序的。他說(shuō),由于所有繁重的處理任務(wù)都是由谷歌服務(wù)器在網(wǎng)絡(luò )上處理的,我們減少了掌上設備計算能力的限制。
目前的應用程序
手機語(yǔ)音識別技術(shù)目前的狀態(tài)不僅僅局限于語(yǔ)音撥號。語(yǔ)音啟動(dòng)的功能實(shí)際上就包括語(yǔ)音撥號。這是手機上出現的第一個(gè)語(yǔ)音識別功能。目前,甚至許多低端手機都有這個(gè)功能,盡管這個(gè)功能處理手機電話(huà)簿中一些不常用的名字的時(shí)稍差一些。
Gartner分析師Nguyen指出,比較新的一代語(yǔ)音功能是更開(kāi)放的。不用編程執行某些功能的具體的語(yǔ)音指令,應用程序可識別語(yǔ)音并且執行適當的行動(dòng)。更高端的、更強大的設備使這些應用更可行。換句話(huà)說(shuō),不僅僅是能夠使用這個(gè)短語(yǔ)“呼叫888-555-1212”撥打一個(gè)電話(huà)號碼,用戶(hù)還可以說(shuō)“呼叫媽媽”或者“給我媽媽打電話(huà)”。
谷歌語(yǔ)音搜索擁有比以前的語(yǔ)音識別技術(shù)更少的限制,因為所有的繁重任務(wù)都是由網(wǎng)絡(luò )服務(wù)器完成的。這使谷歌語(yǔ)音搜索等語(yǔ)音驅動(dòng)的應用程序更可行。例如,如果你說(shuō)“創(chuàng )戰紀電影時(shí)間”,你會(huì )看到一個(gè)網(wǎng)頁(yè)列出地區編號或者位置。這個(gè)應用程序不僅能夠識別出這個(gè)短語(yǔ)的意思,而且還能提供你的手機(你當前的位置)和網(wǎng)站(上映時(shí)間)的信息。
這個(gè)應用程序還非常熟悉英語(yǔ),不用進(jìn)行訓練就能自動(dòng)分辨出一些詞匯的差別。如果我說(shuō)“摩特里褲(Motley Crue)樂(lè )隊”,這個(gè)應用程序甚至能在搜索詞匯方便使用這個(gè)樂(lè )隊的獨特的拼寫(xiě),盡管它會(huì )漏掉變音符號。搜索“Motley''''s Crew”,你會(huì )得到一個(gè)喜劇片。
這就是說(shuō)谷歌語(yǔ)音識別的限制明顯地表明將使你進(jìn)一步脫離主流的英語(yǔ)。外國人的名字是沒(méi)有幫助的。語(yǔ)音識別應用程序的另一個(gè)問(wèn)題是環(huán)境的噪音。移動(dòng)用戶(hù)受環(huán)境噪音的影響通常比臺式電腦用戶(hù)多。Nuance公司的Revis稱(chēng),在充滿(mǎn)噪音的戶(hù)外環(huán)境中,語(yǔ)音識別的準確性是一個(gè)問(wèn)題。
自從2005年三星的那款手機推出以來(lái),聽(tīng)寫(xiě)功能已經(jīng)取得了長(cháng)足的進(jìn)步。由Dragon NaturallySpeaking驅動(dòng)的iPhone的Dragon聽(tīng)寫(xiě)功能允許用戶(hù)聽(tīng)寫(xiě)從備忘錄、電子郵件到Twitter更新等一切內容。用于電子郵件的Dragon軟件為黑莓設備提供了類(lèi)似的功能。
對于A(yíng)ndroid手機來(lái)說(shuō),Nuance提供了FlexT9軟件。這個(gè)軟件把Dragon聽(tīng)寫(xiě)功能與三種類(lèi)型的觸摸屏輸入方式結合在了一起。還有一個(gè)Handcent短信應用程序。這個(gè)應用程序集成了Android本地語(yǔ)音識別技術(shù)以幫助你用語(yǔ)音發(fā)短信。
文本之間的翻譯目前已經(jīng)推出多年(如通過(guò)知名的Babel Fish網(wǎng)站進(jìn)行翻譯)。同聲翻譯功能現在還沒(méi)有,不過(guò),這種軟件很快會(huì )推出。例如,用于iPhone的Jibbigo軟件可翻譯單詞、短語(yǔ)和合理的簡(jiǎn)單句子,讓雙方交替地講話(huà)。
[page]
未來(lái)的方向
詢(xún)問(wèn)參加開(kāi)發(fā)語(yǔ)音技術(shù)的每一個(gè)人下一個(gè)巨大的步驟是什么。他們一般會(huì )給你一個(gè)答案:自然語(yǔ)言處理。
Revis把它解釋為理解你的意思的系統,它不僅僅知道你說(shuō)什么。在會(huì )話(huà)式的互動(dòng)模式中,用戶(hù)說(shuō)自己要說(shuō)的話(huà),沒(méi)有限制用戶(hù)如何說(shuō)這個(gè)話(huà)。他提供了指令或者要求得到信息的例子,如“我在什么地方能夠買(mǎi)到100美元以下的尼康照相機?”或者“給杰尼發(fā)個(gè)短信說(shuō)我晚到20分鐘”或者“今天晚上在Morton''''s訂三個(gè)人的地方”。
谷歌的Mane稱(chēng),在口語(yǔ)對話(huà)中提供自然的語(yǔ)言處理是一個(gè)雙重挑戰。首先,你必須識別這些單詞,然后,你必須理解這個(gè)意思。第一部分變得更加容易了。但是,第二部分仍然很難解決:意思是根據上下文確定的和難以應付的,人類(lèi)做的語(yǔ)法分析也不是總是成功的。
微軟的Rele認為,手機提供的額外的服務(wù)(如羅盤(pán)或者GPS)能夠增強自然語(yǔ)言處理的有用性。他說(shuō),你可以為兩個(gè)人安排吃飯和看電影,方法是利用不同來(lái)源的數據把這個(gè)任務(wù)分開(kāi),如使用日歷、飯店排名、電影評論和位置等數據。
此外,手機的服務(wù)能夠用于提供講話(huà)的環(huán)境。Rele表示,用戶(hù)的語(yǔ)音輸入以及從其它有關(guān)用戶(hù)及用戶(hù)環(huán)境的傳感器和狀態(tài)獲得的智能信息可以提供更豐富的和更相關(guān)的結果。例如,如果你剛剛使用Foursquare網(wǎng)站查看有關(guān)飯店,一些含糊的語(yǔ)音指令就會(huì )傾向于外出吃飯、訂膳宿和要一輛出租車(chē)等事情。
多平臺應用程序Vlingo自稱(chēng)是“虛擬助手”,已經(jīng)能夠提供這些方面的功能。這個(gè)軟件插入到OpenTable和Fandango等服務(wù)中以完成許多任務(wù):訂飯店、訂電影票等等。
Nguyen認為未來(lái)語(yǔ)音識別技術(shù)改善的另一個(gè)領(lǐng)域是游戲。他說(shuō),在游戲中可以使用語(yǔ)音以增加玩游戲的不同氛圍。例如,你可以把Kirk-style船長(cháng)的命令傳遞給恒星飛船或者在在一個(gè)神秘的事情中審訊疑犯。
是你嗎?已經(jīng)應用的另一個(gè)功能是自動(dòng)地把語(yǔ)音識別適用于單個(gè)用戶(hù)。這是臺式電腦語(yǔ)音識別技術(shù)所要求的免提版語(yǔ)音訓練。
例如,最新版本的谷歌語(yǔ)音搜索有一個(gè)選擇性加入功能,允許隨著(zhù)時(shí)間的推移建立一個(gè)用戶(hù)的客戶(hù)化語(yǔ)音特征。Mane解釋說(shuō),當用戶(hù)選擇使用客戶(hù)化語(yǔ)音識別的時(shí)候,我們在用戶(hù)和用戶(hù)的語(yǔ)調方面畫(huà)一個(gè)界限,這使我們能夠建立一個(gè)初步的、個(gè)性化的語(yǔ)音識別模式。
然而,個(gè)性化識別并不是一個(gè)能夠解決一切問(wèn)題的技術(shù),它只是實(shí)現語(yǔ)音識別更加無(wú)縫化的一個(gè)過(guò)渡步驟。Mane稱(chēng),我們沒(méi)有把個(gè)性化識別看作一個(gè)唯一的解決方案,因為還會(huì )有更多的一系列的技術(shù)創(chuàng )新。Mane認為,這種技術(shù)未來(lái)的改進(jìn)需要我們的用戶(hù)更積極的參與。
結論
手機一直是許多技術(shù)的孵化器和推動(dòng)因素,這包括硬件和軟件技術(shù)。到目前為止,在這個(gè)組合中增加語(yǔ)音功能僅產(chǎn)生了逐步的改善,谷歌語(yǔ)音應用程序的很好的功能。
但是,這些改進(jìn)正逐步地為更重要的進(jìn)步鋪平道路。移動(dòng)技術(shù)為如何聚集這些新技術(shù)提供了一個(gè)全新的舞臺。下一步也許不是一個(gè)理解你說(shuō)的一切事情的手機,而是能夠充分理解你說(shuō)的事情的一個(gè)更有用的手機。