利用现有的语音辨识系统对这些语料进行自动转写.ppt_第1页
利用现有的语音辨识系统对这些语料进行自动转写.ppt_第2页
利用现有的语音辨识系统对这些语料进行自动转写.ppt_第3页
利用现有的语音辨识系统对这些语料进行自动转写.ppt_第4页
利用现有的语音辨识系统对这些语料进行自动转写.ppt_第5页
免费预览已结束,剩余22页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

非監督式學習於中文電視新聞自動轉寫之初步應用,郭人瑋、蔡文鴻、陳柏琳國立台灣師範大學資訊工程研究所,ExploitingUnsupervisedLearningtoMandarinTVNewsTranscription:AnInitialStudy,Jen-WeiKuo,Wen-HungTsai,BerlinChenSpeechLab,NationalTaiwanNormalUniversity,序論,動機日常生活中能取得的多媒體影音資訊愈來愈多,若要在語音辨識系統上使用這些資訊,人工轉寫往往不易取得。解決方法非監督式學習利用現有的語音辨識系統對這些語料進行自動轉寫,並使用信心度評評估來加以篩選。非監督式學習包含非監督式聲學模型訓練利用發音確認技術來挑選較正確的語料。非監督式聲學模型調適引入信心度評估來作聲學模型調適。非監督式語言模型調適使用自動轉寫的文字語料來作語言模型調適。非監督式學習之流程與技術,Introduction,Motivation日常生活中能取得的多媒體影音資訊愈來愈多,若要在語音辨識系統上使用這些資訊,人工轉寫往往不易取得。SolutionUnsupervisedLearning利用現有的語音辨識系統對這些語料進行自動轉寫,並使用信心度評評估來加以篩選。非監督式學習包含UnsupervisedAcousticModelTraining利用發音確認技術來挑選較正確的語料。UnsupervisedAcousticModelAdaptation引入信心度評估來作聲學模型調適。UnsupervisedLanguageModelAdaptation使用自動轉寫的文字語料來作語言模型調適。,台師大資工所新聞語音辨識系統,大詞彙連續語音辨識系統詞典建立:利用前後雙連機率來作為複合詞合併的依據。詞彙樹複製搜尋:為一種結合語言模型與聲學模型的動態規劃搜尋演算法,配合語言模型前看分數及光束剪栽能有效率的建立詞圖。詞圖搜尋:在詞圖上上使用更高階的語言模型,重新進行一次動態規劃搜尋,找出最佳的詞句。,NTNULVCSRSystem,LargeVocabularyContinuousSpeechRecognitionSystem詞典建立:利用前後雙連機率來作為複合詞合併的依據。詞彙樹複製搜尋:為一種結合語言模型與聲學模型的動態規劃搜尋演算法,配合語言模型前看分數及光束剪栽能有效率的建立詞圖。詞圖搜尋:在詞圖上上使用更高階的語言模型,重新進行一次動態規劃搜尋,找出最佳的詞句。,詞圖,圖一、語音辨識器所產生的詞圖,對應的轉寫為豪雨不斷台東兩人死亡,非監督式學習之流程,大量語料,語音辨識,對應的自動轉寫(第一名詞序列),篩選,篩選,非監督式聲學模型訓練,聲學模型,語言模型,詞典,語音辨識系統,詞彙樹複製搜尋,語音輸入,文字輸出,詞圖,詞彙樹複製搜尋,詞圖,MLLR,非監督式聲學模型調適,詞圖搜尋,篩選,非監督式語言模型調適,文字語料,語型言建模立,語言模型,少量人工轉寫語料,聲型學建模立,聲學模型,非監督式學習技術,候選詞事後機率,聲學信心,候選詞信心度評估,發音確認,非監督式聲學模型訓練,非監督式語言模型調適,非監督式聲學模型調適,候選詞事後機率,候選詞事後機率,根據觀察,以愈高階的語言模型進行詞圖搜尋,候選詞之間的事後機率差異愈是懸殊,例如以三連語言模型進行詞圖搜尋時,第一名詞序列(Top1WordSequence)中的候選詞往往佔有超過0.95的事後機率,換句話說,語言模型所用的階層(Order)愈高,則候選詞事後機率愈受語言模型所影響。將式子作一點修正,引入信心度比例係數來解決。,候選詞事後機率,其中為信心度比例係數(ConfidenceScaleFactor),介於0與1之間,表示對聯合機率施以壓縮,使候選詞間的事後機率差異變小。當等於1時,則表示刻度不變;當等於0時,事後機率為均勻機率(UniformProbability)。,聲學信心,台東(taa_iduueng),ta,a_i,du,ueng,sic_a,sic_o,sil,候選詞信心度評估,候選詞信心度評估為候選詞事後機率與聲學信心的線性組合。,其中與為權重參數,在以下的非監督式聲學模型訓練中,我們均設為0.5。,發音確認,決定某語句是否予以挑選成為非監督式訓練的語料。發音確認可視為一個決斷函數,根據平均候選詞信心度評估,來決定自動轉寫產生的第一名詞序列是否能成為訓練語料。其中為篩選的基準閥值。,非監督式聲學模型調適,大多數的非監督式聲學模型調適僅取第一次辨識所產生的第一名詞序列來做聲學模型調適的依據。然而語音辨識的錯誤可能會對聲學模型調適造成影響,使得調適效果有限。我們嘗試使用候選詞信心度評估為詞圖上的候選詞進行加權,使得每一個候選詞依其信心度評估分數對模型調適都有不同程度的貢獻。,非監督式聲學模型調適,演算法:測試語句經由詞彙樹複製搜尋(Tree-CopySearch),產生詞圖(WordGraph)。利用Forward-Backward演算法在詞圖上進行詞圖搜尋(WordGraphRescoring),為詞圖上的每一候選詞求出其對應的信心度評估。針對每一候選詞的語音段落,再使用一次狀態層次(StateLevel)Forward-Backward演算法,為每一音框(Frame)t及狀態(State)i求其事後機率。,非監督式聲學模型調適,演算法:最後,將乘上所屬候選詞的事後機率,並對所有候選詞語音段落加總。可得音框時t,狀態i的事後機率。重覆上述步驟,收集MLLR模型調適時所需的統計量,並進行MLLR模型調適。,廣播及電視新聞語料,初始聲學模型:大約4小時語料收錄於1998至1999年之間。所有的語料都經由人工切割為一則一則的新聞語音檔,每一則新聞均由一個主播所播報,性別上男女都有。某些檔案因錄音的關係,含有相當大的背景雜訊。初始語言模型:收錄2000及2001年中央社的新聞。約含有162M個中文字。,廣播及電視新聞語料,公視新聞語料為中央研究院資訊所口語小組耗時三年與公共電視台合作錄製完成,預計將收錄200小時的廣播新聞。公視新聞語料大致上可分內場及外場兩個部份,內場部分主要為主播(StudioAnchors)的語料,外場部分主要為記者(FieldReporters)與受訪者(Interviewees)的語料。經由統計,MATBN2002與MATBN2003共120小時的語料內,只含有五位主播,其中以葉明蘭主播的語料佔絕大多數,約85%,使得要在內場中定義出一套較具代表性的訓練及測試語料,顯得有些困難。,廣播及電視新聞語料,本實驗的訓練語料,廣播及電視新聞語料,本實驗的測試語料,非監督式聲學模型調適基礎實驗,基礎實驗與非監督式聲學模型調適之語音辨識結果:嘗試改變信心度比例係數與計算候選詞事後機率時語言模型的階層。MLLR(Top1)為傳統只取用第一名辨識結果詞序列來做MLLR調適;MLLR(CM)為引入信心度評估的MLLR調適。字錯誤率減少百分比為相對於無聲學模型調適之字錯誤率。,MLLR(CM),MLLR(CM),MLLR(CM),MLLR(CM),MLLR(CM),MLLR(CM),MLLR(CM),MLLR(CM),非監督式聲學模型訓練實驗結果,非監督式聲學模型訓練在使用不同基準閥值下的語音辨識結果。Thr為非監督式聲學模型訓練用以選取語句之基準閥值,MLLR(CM)為引入信心度評估的MLLR調適,信心度比例係數在此設為1/16。同一列中,MLLR括弧內的數據為相對於無聲學模型調適時字錯誤率減少百分比。最後一列的監督式訓練為對照組。,非監督式語言模型調適實驗結果,自動轉寫用於語言模型調適的語音辨識結果。Thr為非監督式聲學模型訓練用以選取語句之基準閥值,括弧內之數據為相對於無語言模型調適之字錯誤率減少百分比。,領域內之語言模型調適實驗結果,領域內語言模型調適的語音辨識結果。MLLR(CM)為引入信心度評估的MLLR調適,信心度比例係數在此設為1/16。,結論與未來展望,發音確認能有效地挑選較為可靠的語料來進行訓練,節省大量的人力進行人工轉寫,使龐大的語料能被運用。信心度評估也使得詞圖上更多的資訊能應用在非監督式聲學模型調適上,不再只侷限於

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论