语音辨识技术於蓝芽通讯环境之应用研究.doc_第1页
语音辨识技术於蓝芽通讯环境之应用研究.doc_第2页
语音辨识技术於蓝芽通讯环境之应用研究.doc_第3页
语音辨识技术於蓝芽通讯环境之应用研究.doc_第4页
语音辨识技术於蓝芽通讯环境之应用研究.doc_第5页
免费预览已结束,剩余1页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

語音辨識技術於藍芽通訊環境之應用研究Applications of Speech Recognition to Bluetooth Wireless Communications譚旦旭 王新富 何元傑 王冠驊 汪千綺 高逸竹國立台北科技大學電機工程系Email: .tw摘要本論文探討語音辨識技術應用於藍芽通訊環境的可行性。首先,我們應用藍芽系統於多種距離下錄製2男3女的測試語料,並利用HTK模組所訓練的語音參考模型進行模擬實驗。接著我們實作了一套語音控制系統,此系統由藍芽模組、語音辨識模組、控制模組及機械狗組成。模擬與實作系統的測試結果顯示整合藍芽與語音辨識技術的家庭自動化之應用是可行的一個方向。關鍵詞:藍芽、語音辨識、家庭自動化一、簡介經過三十多年來的發展,語音辨識技術已臻成熟的地步1,目前已有許多語音辨識系統被開發出來,並成功地應用在人類日常生活中,例如我們可以使用語音輸入取代按鍵輸入2、以聲控方式撥打手機3、及以手機進行語音下單4等。由手機、個人電腦、消費性電子以及娛樂性產品等,處處可見語音辨識的應用,語音辨識技術不但使正常人的生活更便利,也可大幅提昇殘障人士的生活品質。家庭自動化是人類一直追求的目標,也陸續有各式各樣的系統被開發出來。但多數仍存在有線的束縛,且控制方式仍多採手動按鍵等缺點,為改善上述情況,本研究擬結合藍芽(Bluetooth)無線通訊及語音辨識(Speech Recognition)技術以擺脫有線環境的束縛,進一步提昇家庭自動化的品質。目前整合藍芽及語音辨識之研究尚未見文獻探討,故其應用仍屬萌芽期。由於藍芽需要的功率很低且適用於短距離傳輸,因此符合一般家庭環境之需求,若能輔以語音辨識之便利性,將更具應用價值,可為人類在家庭自動化之應用提供更好的解決方案。本論文第二節將介紹藍芽無線技術。第三節將敘述語音辨識技術。為了驗證語音辨識於藍芽通訊環境之可行性,第四節將以電腦軟體評估語音辨識率並分析其效能。第五節實作一套無線藍芽語音辨識系統,以語音控制機械狗。第六節為結論。二、藍芽藍芽5是一種適用於短距離傳輸(10100公尺)的低功率無線通訊技術,其使用的2.4 GHz (2.4022.480 GHz) 頻道為全世界通用的免費ISM (Industrial, Scientific and Medical) 頻帶。為解決公用頻道的干擾問題,藍芽使用跳頻(Frequency Hopping)技術,其工作的2.4022.480 GHz頻帶被切割成79個各為1 MHz的通道(channel),並以隨機方式選擇通道進行通訊,一般傳輸狀況下跳頻次數為1,600 次/秒,每個時槽(time slot)佔625 s。藍芽採用分時雙工(Time-Division-Duplex;TDD)及GFSK (Gaussian Frequency Shift Keying)調變技術。藍芽以SCO(Synchronous Connection-Oriented)通道傳送語音,SCO連線屬電路交換的同步傳輸型態,每一條SCO支援64 Kbit/s的語音通話,一旦建立SCO通道,Master和Slave即可直接發送SCO封包,進行單點對單點的對稱連線服務。藍芽的興起對目前廣被採用的紅外線傳輸技術影響甚鉅,雖然紅外線擁有低成本的優勢,但紅外線傳輸受到須在視線範圍內連線的限制,藍芽則無此限制,且藍芽價格已逐年下降至趨近合理範圍,因此漸有取代紅外線的趨勢。表1比較藍芽與紅外線技術之差異5-8。 三、語音辨識技術語音辨識技術主要包括訓練及測試兩大部分,在訓練部分主要是由語音中所萃取出之特徵參數建立相關之語音參考模型,測試部分則是根據訓練所得之模型對測試語料進行辨識。本論文中,語音特徵參數的擷取方法是採用描述人耳聽覺特性的梅爾頻率倒頻譜係數(Mel-Frequency Cepstrum Coefficients),其特徵參數的相關變數設定為32 ms的音框長度、10 ms的音框位移長度、Filter-Bank的階數為26階、Cepstrum階數為13階(包含語音能量參數),且採用Hamming Windows1。而語音模型則是採用隱藏式馬可夫模型(Hidden Markov Model, HMM),每一模型所代表的是一特定音節(Syllable)之語音。而測試階段則是根據最大相似度法則(Maximum-Likelihood),利用維特比演算法(Viterbi Algorithm)進行辨識。本論文中語音模型的訓練是採用微軟公司所免費分享之HTK (Hidden Markov Model Toolkit) 9軟體。HTK是一套用來建立和操作隱藏式馬可夫模型(HMM)的軟體,已廣泛應用於語音相關研究之模型訓練。表1藍芽與紅外線(IrDA)之比較通訊技術BluetoothIrDA使用頻段2.4GHz850900 nm調變技術GFSK無展頻技術FHSS無傳輸距離(公尺)110 (1mW)100 (100mW)1 (16Mbps) 5以上(75Kbps)最快傳輸速率1Mbps (10 公尺以內) 16Mbps(1 公尺以內)資料傳輸有有輸出功率class1: 100mWclass2: 2 .5mWclass3: 1mW數mW語音傳輸有無穿透力有無接收角度無限制120成本$5 $20$1模組體積大小四、藍芽通訊環境下語音辨認之模擬實驗與效能分析圖1為藍芽通訊環境下的語音辨識模擬系統架構。語者的測試語料先由麥克風輸入藍芽模組,再以SCO通道傳至接收端,最後由PC端完成辨識之工作。 圖1 語音辨識模擬系統架構圖4.1測試語料之建立我們針對受控端(機械狗)的無線語音控制,規劃了九種控制指令,它們分別是:鞠躬、坐下、撒尿、點頭、搖尾巴、站好、暫停、停止、離開。我們共建立了五位語者(2男3女)的測試語料資料庫(Speech Database),它們分別在5、10、20、30、40、45、46、47、48、49及50公尺之距離錄製(於實驗室外之走道),所有指令於每個距離均由每位語者唸20次。4.2語音參考模型之建立我們採用HTK軟體建立語者無關(Speaker Independent)之語音參考模型,訓練的語料為中華民國計算語言學學會發行之國語語音資料庫MAT-16010,資料庫中所有語者均以單聲道、8 kHz取樣,解析度為16 bits。4.3實驗結果表2為各指令於5、10、20、30、35、40及45公尺距離下測得之平均辨識率。其中最高為停止指令的99%,最低為撒尿指令的94%,平均為97.2%。表2 各指令之辨識率指令鞠躬坐下暫停停止點頭撒尿站好離開搖尾巴辨識率(%)97.097.098.099.097.094.098.098.097.0平均97.2%表3顯示辨識率與無線傳送距離的關係,此結果顯示在30公尺以內的辨識率可達100%,45公尺以內仍可達90%以上,45公尺以後則開始明顯下降。表3 辨識率與無線傳送距離之關係距離(m)510203040454647484950辨識率(%)10010010010097.091.086.077.072.070.032.0表4為五位測試者之平均辨識率,其測試條件同表2。此結果顯示個別辨識率均達97%以上。表4 測試者之個別辨識率測試者M1M2F1F2F3辨識率(%)97.097.097.097.098.0(註:M代表男生,F代表女生)五、應用系統實作5.1 系統架構本系統由四個單元組成如圖2所示,第一個單元為藍芽語音傳輸單元:由美商CSR公司生產的Casira11藍芽開發模組結合個人電腦組成;第二個單元為語音辨識模組,採用美商Sensory公司生產的Voice ExtremeTM Toolkit 12-14;第三個單元為控制電路(含開關電路及機械狗控制器),它提供語音辨識後之控制信號轉換;第四個單元為受控裝置,以美商Tiger Electronics公司出產的i-Cybie15機械狗模擬多功能家電,圖3為應用系統實體圖。圖2 系統架構圖n 藍芽語音傳輸單元CSR公司藍芽開發模組Casira(如圖4)之BlueChat應用程式,提供用戶在兩個藍芽設備間建立ACL連線以傳送資料或建立SCO連線以傳送語音資料,本系統選擇Audio Type建立SCO連線。n 語音辨識模組本系統使用的語音辨識模組是美商Sensory公司出產的Voice ExtremeTM Toolkit,如圖5所示。圖3 應用系統實體圖圖4 CSR Casira開發模組圖5 Voice ExtremeTM Toolkit架構圖我們在電腦上利用Voice ExtremeTM之VE C Language撰寫機械狗之控制程式,並利用RS-232連接埠將程式下載至Voice ExtremeTM ToolKit之核心模組。另將Casira之語音控制端(Headset Socket)與語音辨識模組的外部麥克風輸入孔(External Microphone Jack)及外部喇叭輸出孔(External Speaker Jack) 作連接,讓使用者依據程式的提示語進行訓練及辨識。我們應用語音辨識模組中的Speaker Dependent (SD)模式進行語音辨識。此晶片辨識工作包括訓練及辨識兩部分,至多可以辨識64個語音指令,訓練的語料儲存於flash memory中。n 控制電路機械狗的原始設計是以紅外線接收控制訊號,因無法改裝,所以在設計控制電路時,必須將機械狗的遙控器電路保留,遙控器上有十四顆按鍵,可以搖控機械狗的各種動作。我們從機械狗遙控器的電路板上,找出八個接點,並重新編碼以取代原先十四個按鍵的功能。Voice ExtremeTM ToolKit提供的I/O Pins分為I/O 0(以P0.x表示)及I/O 1(以P1.x表示),各有八隻I/O Pin,但是扣除原先已經定義使用的RS232(P0.0、 P0.1 及P1.7)、按鍵(P1.0、 P1.1及 P1.2)、內部快閃記憶體更新(P0.5及 P0.6),正好剩八個腳分別是P0.2、P0.3、P0.4、P0.7和P1.3、P1.4、P1.5、P1.6可供使用,如表5所示。表5 Voice ExtremeTM Toolkit I/O Pins當使用者按下Switch B鍵時,Voice ExtremeTM ToolKit語音辨識模組會發出語音提示:請下命令,等待使用者說出鞠躬、點頭、坐下等語音指令,若正確完成辨識程序,則會回應完成辨識,否則發出無法辨識等待使用者重新下令;當辨識完成時,VE ToolKit 上的八隻I/O PIN腳會送出對應的控制訊號到TTL IC 74LS244(三態緩衝閘),74LS244是用來確保從VE ToolKit送來的高電位能在下一級CMOS IC 4016(對稱傳輸開關)提供穩定的高電位,以設定兩個接點能夠導通,俾達成原來遙控器按下按鍵的功能,以送出控制訊號給機械狗做出正確動作。n 機械狗i-Cybie(機械狗)由Tiger Electronics 公司所生產,其構造大致如圖6所示:圖6 i-Cybie結構圖5.2 系統效能測試為了驗證本系統的效能,我們進行與第四節相同的測試項目。n 測試環境:利用實驗室外的走道進行(1) 12種傳輸距離於5、10、20、30、40、45、46、47、48、49、50公尺等11種距離實測系統的辨識效能。(2) 測試者:本次試驗的測試者同樣為2男3女。語音模組的辨識程式被設計成SD模式,因此在測試語音之前必須先經過訓練的動作,所以藍芽在接收語音後,語音辨識模組配合程式的設計將輸入的語音指令,分別進行訓練或辨識。接下來我們要透過語音辨識模組對機械狗下指令,當語音辨識模組在接收到指令並經過辨識之後,機械狗就會在語音辨識模組的控制下產生指定的動作。圖7及圖8是訓練和辨識的流程圖:n 測試流程(1) 按下語音辨識模組上的Switch A鍵,進入訓練模 式。(2) 依照語音提示依序對每個語音指令,個別訓練語音參考模型,以供辨識之用。(3) 訓練完成之後,即可按下語音辨識模組上的 Switch B鍵,進入辨識模式。(4) 進入辨識模式之後,即可對機械狗發出指令。圖7 訓練流程圖n 測試結果表6為各指令於5、10、20、30、35、40及45公尺距離下測得之平均辨識率。其中最高為站好指令的99.6%,最低為搖尾巴指令的96%,平均為98%。表7顯示辨識率與無線傳送距離的關係,此結果顯示在30公尺以內的辨識率可達100%,45公尺以內仍可達90%以上,47公尺以後則略微下降。此處結果優於表3的主要原因為表3採語者無關模型,而此處為語者相關模型。表8為五位測試者之平均辨識率,其測試條件同表6。此顯示結果其辨識率可達96%以上。圖8 辨識流程圖表6 各指令之辨識率指令鞠躬坐下點頭撒尿搖尾巴站好離開暫停停止辨識率(%)96.898.398.697.696.099.697.398.799.1平均98.0表7辨識率與無線傳送距離之關係距離(m)510203040454647484950辨識率(%)10010010010099.699.399.098.698.598.498.0表8 測試者之辨識率測試者F1F2F3M1M2辨識率(%)98.696.498.4100.096.6六、結論本研究應用藍芽系統於多種距離下評估語音辨識之效能,並分別進行了語者無關與語者相關的語音辨識實驗。前者模擬結果顯示在45公尺以內的通訊環境語音辨識率可達90%以上。另外,我們實作一套語音控制系統,並以機械狗作為受控標的,其中的辨識晶片採用語者相關模式,實測結果顯示於多種條件下其辨識率均可達96%以上,因此整合藍芽與語音辨識技術的自動化系統極適合家庭自動化之應用。參考文獻1 L.R. Rabiner and B.H. Juang, Fundamentals of Speech Recognition, New Jersy:Prentice-Hall PTR, 1993.2 /tw/shop/promotion/viavoice/3 .tw/news_buy/890614buy4.html4

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论