版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、Exploiting Unsupervised Learning to Mandarin TV News Transcription: An Initial Study Jen-Wei Kuo , Wen-Hung Tsai , Berlin ChenSpeech Lab, National Taiwan Normal University序論 動機 日常生活中能取得的多媒體影音資訊愈來愈多,若要在語音辨識系統上使用這些資訊,人工轉寫往往不易取得。 解決方法非監督式學習 利用現有的語音辨識系統對這些語料進行自動轉寫,並使用信心度評評估來加以篩選。 非監督式學習包含 非監督式聲學模型訓練 利用發
2、音確認技術來挑選較正確的語料。 非監督式聲學模型調適 引入信心度評估來作聲學模型調適。 非監督式語言模型調適 使用自動轉寫的文字語料來作語言模型調適。 非監督式學習之流程與技術Introduction Motivation 日常生活中能取得的多媒體影音資訊愈來愈多,若要在語音辨識系統上使用這些資訊,人工轉寫往往不易取得。 Solution Unsupervised Learning 利用現有的語音辨識系統對這些語料進行自動轉寫,並使用信心度評評估來加以篩選。 非監督式學習包含 Unsupervised Acoustic Model Training 利用發音確認技術來挑選較正確的語料。 Uns
3、upervised Acoustic Model Adaptation 引入信心度評估來作聲學模型調適。 Unsupervised Language Model Adaptation 使用自動轉寫的文字語料來作語言模型調適。台師大資工所新聞語音辨識系統 大詞彙連續語音辨識系統 詞典建立:利用前後雙連機率來作為複合詞合併的依據。 詞彙樹複製搜尋:為一種結合語言模型與聲學模型的動態規劃搜尋演算法,配合語言模型前看分數及光束剪栽能有效率的建立詞圖。 詞圖搜尋:在詞圖上上使用更高階的語言模型,重新進行一次動態規劃搜尋,找出最佳的詞句 。)|()|(),(jibijfjiwwPwwPwwFBNTNU L
4、VCSR System Large Vocabulary Continuous Speech Recognition System 詞典建立:利用前後雙連機率來作為複合詞合併的依據。 詞彙樹複製搜尋:為一種結合語言模型與聲學模型的動態規劃搜尋演算法,配合語言模型前看分數及光束剪栽能有效率的建立詞圖。 詞圖搜尋:在詞圖上上使用更高階的語言模型,重新進行一次動態規劃搜尋,找出最佳的詞句 。)|()|(),(jibijfjiwwPwwPwwFB詞圖詞圖台東妙語無端太重良心不斷太多台中良心兩任SIL豪雨無端無端台東不斷不斷兩人陶藝死亡私人良心自任非監督式學習之流程大量語料語音辨識對應的自動轉寫(第一名
5、詞序列)篩選非監督式聲學模型訓練聲學模型語言模型詞典語音辨識系統詞彙樹複製搜尋語音輸入文字輸出詞圖詞彙樹複製搜尋詞圖MLLR非監督式聲學模型調適詞圖搜尋篩選非監督式語言模型調適文字語料語型言建模立語言模型少量人工轉寫語料聲型學建模立聲學模型非監督式學習技術候選詞事後機率聲學信心候選詞信心度評估發音確認非監督式聲學模型訓練非監督式語言模型調適非監督式聲學模型調適候選詞事後機率,),(),()(),()|()|(11111111XWpXWwWpXpXwpXwpXwCMTWTttttWWttttttPosteriorTeessTetstesesesesttwstet1T11stWTteW1候選詞事後
6、機率 根據觀察,以愈高階的語言模型進行詞圖搜尋,候選詞之間的事後機率差異愈是懸殊,例如以三連語言模型進行詞圖搜尋時,第一名詞序列(Top1 Word Sequence)中的候選詞往往佔有超過0.95的事後機率,換句話說,語言模型所用的階層(Order)愈高,則候選詞事後機率愈受語言模型所影響。 將式子作一點修正,引入信心度比例係數來解決。候選詞事後機率.),(),()|()|(11111111XWpXWwWpXwpXwCMTWTttttWWttttPosteriorTeessTetsteses 其中 為信心度比例係數(Confidence Scale Factor),介於0與1之間,表示對聯合
7、機率施以壓縮,使候選詞間的事後機率差異變小。當等於1時,則表示刻度不變;當等於0時,事後機率為均勻機率(Uniform Probability)。聲學信心,)|(max)|(log)(,)(exp121)(,1subXpsubXpsubLLRwheresubLLRNwCMeisieisiwesttsubittiiNiwttAcoustic台東(ta a_i du ueng)taa_iduuengstetst,2et,2sic_asic_osil1sub2sub3sub4sub候選詞信心度評估候選詞信心度評估 候選詞信心度評估為候選詞事後機率與聲學信心的線性組合。)|()|()|(21XwCMc
8、XwCMcXwCMnPosteriornAcousticn 其中 與 為權重參數,在以下的非監督式聲學模型訓練中,我們均設為0.5。1c2c發音確認發音確認 決定某語句是否予以挑選成為非監督式訓練的語料。發音確認可視為一個決斷函數 ,根據平均候選詞信心度評估,來決定自動轉寫產生的第一名詞序列 是否能成為訓練語料。其中 為篩選的基準閥值。otherwiserejectThrXwCMNifacceptThrWXVnNn)|(1),(1),(ThrWXV,1NwwWThr非監督式聲學模型調適非監督式聲學模型調適 大多數的非監督式聲學模型調適僅取第一次辨識所產生的第一名詞序列來做聲學模型調適的依據。
9、然而語音辨識的錯誤可能會對聲學模型調適造成影響,使得調適效果有限。 我們嘗試使用候選詞信心度評估為詞圖上的候選詞進行加權,使得每一個候選詞依其信心度評估分數對模型調適都有不同程度的貢獻。 非監督式聲學模型調適非監督式聲學模型調適 演算法:測試語句經由詞彙樹複製搜尋(Tree-Copy Search),產生詞圖(Word Graph)。利用Forward-Backward演算法在詞圖上進行詞圖搜尋(Word Graph Rescoring),為詞圖上的每一候選詞求出其對應的信心度評估。針對每一候選詞 的語音段落,再使用一次狀態層次(State Level) Forward-Backward演算法
10、,為每一音框(Frame)t及狀態(State)i求其事後機率 。)|(estttwiesttw非監督式聲學模型調適非監督式聲學模型調適 演算法:最後,將 乘上所屬候選詞的事後機率 ,並對所有候選詞語音段落加總。可得音框時t,狀態i的事後機率 。重覆上述步驟,收集MLLR模型調適時所需的統計量,並進行MLLR模型調適。 )|(estttwi)|(XwCMestt)|()|()|Pr()(1esesetsttttttwTttwiXwCMXisi廣播及電視新聞語料廣播及電視新聞語料 初始聲學模型:大約4小時語料收錄於1998至1999年之間。所有的語料都經由人工切割為一則一則的新聞語音檔,每一則新
11、聞均由一個主播所播報,性別上男女都有。 某些檔案因錄音的關係,含有相當大的背景雜訊。 初始語言模型:收錄2000及2001年中央社的新聞。約含有162M個中文字。廣播及電視新聞語料廣播及電視新聞語料 公視新聞語料為中央研究院資訊所口語小組耗時三年與公共電視台合作錄製完成,預計將收錄200小時的廣播新聞。公視新聞語料大致上可分內場及外場兩個部份,內場部分主要為主播(Studio Anchors)的語料,外場部分主要為記者(Field Reporters)與受訪者(Interviewees)的語料。 經由統計,MATBN2002與MATBN2003共120小時的語料內,只含有五位主播,其中以葉明蘭
12、主播的語料佔絕大多數,約85%,使得要在內場中定義出一套較具代表性的訓練及測試語料,顯得有些困難。廣播及電視新聞語料廣播及電視新聞語料 本實驗的訓練語料訓練語料(主播部分)總時間(小時)句數(句)平均句長(秒/句)最長句長(秒)最短句長(秒)佔比例(%)性別林建成1.4742212.5355.912.019.71男馬紹0.133513.3026.585.290.86男葉明蘭12.982,86016.3468.922.0885.85女洪蕙竹0.4812713.6630.942.703.19女蘇怡如0.061712.5834.215.550.39女總計15.123,461-100.002男3女平均
13、-15.7368.922.01-廣播及電視新聞語料廣播及電視新聞語料 本實驗的測試語料測試語料(主播部分)總時間(小時)句數(句)平均句長(秒/句)最長句長(秒)最短句長(秒)佔比例(%)性別葉明蘭0.7416316.2838.502.57100.00女總計0.74163-100.001女非監督式聲學模型調適基礎實驗非監督式聲學模型調適基礎實驗 基礎實驗與非監督式聲學模型調適之語音辨識結果:嘗試改變信心度比例係數與計算候選詞事後機率時語言模型的階層。 MLLR(Top1)為傳統只取用第一名辨識結果詞序列來做MLLR調適;MLLR(CM)為引入信心度評估的MLLR調適。字錯誤率減少百分比為相對於
14、無聲學模型調適之字錯誤率。 計算候選詞事後機率時所用的語言模型階層三連語言模型二連語言模型聲學模型調適字錯誤率(%)相對字錯誤率減少百分比(%)字辨識率(%)相對字錯誤率減少百分比(%)無27.67-27.67-MLLR(Top1)25.936.2925.936.29125.806.7626.125.601/425.697.1625.926.321/825.806.7625.956.221/1225.378.3125.497.881/1625.268.7125.547.701/2025.149.1425.737.011/2425.388.2825.826.691/2825.517.8125.9
15、36.29非監督式聲學模型訓練實驗結果 字錯誤率(%) (相對字錯誤率減少百分比(%)無聲學模型調適MLLR(Top1) MLLR(CM)原來四小時訓練之聲學模型27.6725.93 (6.29)25.26 (8.71)+ 3.80小時(Thr=0.9)21.3721.00 (1.73)20.97 (1.87)+11.57小時(Thr=0.8)20.0920.00 (0.45)19.56 (2.64)+13.30小時(Thr=0.7)20.2520.01 (1.19)19.71 (2.67)+13.61小時(Thr=0.6)20.1819.94 (1.19)19.59 (2.92)+13.67
16、小時(Thr=0.5)20.2120.01 (0.99)19.69 (2.57)+13.70小時(Thr=0.0)20.3220.07 (1.23)19.76 (2.76)+15.12小時(監督式訓練)16.2616.29 (-0.18) 16.47 (-1.29)非監督式聲學模型訓練在使用不同基準閥值下的語音辨識結果。Thr為非監督式聲學模型訓練用以選取語句之基準閥值,MLLR(CM)為引入信心度評估的MLLR調適,信心度比例係數在此設為1/16。同一列中,MLLR括弧內的數據為相對於無聲學模型調適時字錯誤率減少百分比。最後一列的監督式訓練為對照組。 非監督式語言模型調適實驗結果 聲學模型調
17、適語料字數字錯誤率(%) (相對字錯誤率減少百分比(%)無語言模型調適語言模型插補詞頻數混合 + 3.80小時(Thr=0.9)66,54021.3721.85 (-2.25)21.08 ( 1.36)+11.57小時(Thr=0.8)209,48920.0919.97 ( 0.60)19.74 ( 1.74)+13.30小時(Thr=0.7)242,63020.2520.06 ( 0.94)20.27 (-0.10)+13.61小時(Thr=0.6)248,70120.1820.04 ( 0.69)20.06 ( 0.59)+13.67小時(Thr=0.5)249,88020.2120.05
18、 ( 0.79)20.23 (-0.10)自動轉寫用於語言模型調適的語音辨識結果。Thr為非監督式聲學模型訓練用以選取語句之基準閥值,括弧內之數據為相對於無語言模型調適之字錯誤率減少百分比。 領域內之語言模型調適實驗結果字錯誤率(%)無聲學模型調適MLLR(Top1) MLLR(CM)無語言模型調適17.83 17.67 17.51 PTS_LM_1(語言模型插補)7.46 7.32 7.23 PTS_LM_1(詞頻數混合)7.477.397.33PTS_LM_2(語言模型插補)15.08 14.93 15.32 PTS_LM_2(詞頻數混合)15.9415.7215.45領域內語言模型調適的語音辨識結果。MLLR(CM)為引入信心度評估的MLLR調適,信心度比例
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年融资培训心得体会全流程拆解
- 2026年机房教育心得体会核心要点
- 基于诺丁斯关怀理论的健康教育方案对ICU患者家属疾病不确定感的影响研究
- ICU康复锻炼安全管理制度
- 2026年两周培训心得体会全套攻略
- 2026年核心技巧教育财务会审心得体会
- 2026年-陶笛培训心得体会全流程拆解
- 人教版数学小升初复习精讲精练专题四《比和比例》(习题)
- 2026年马云和员工培训心得体会重点
- 2026年自动化安全主题培训内容重点
- 【地理】 欧洲西部第一课时课件-2025-2026学年人教版(2024)七年级地理下学期
- 航天文化创意产业现状分析市场调研报告
- 2026四川九洲投资控股集团有限公司招聘战略规划岗1人备考题库含答案详解
- 数学探索直线平行的条件(第1课时)课件 2025-2026学年北师大版数学七年级下册
- 生成式人工智能在小学科学课堂中的应用对学生参与度提升策略探讨教学研究课题报告
- 我国流域生态补偿主体制度:现状、问题与优化路径
- GB/T 15171-2025包装件密封性能试验方法
- 2026年沈阳职业技术学院单招职业倾向性考试题库参考答案详解
- 重金属环境安全隐患排查评估整治技术指南(试行)
- 青少年心理健康干预体系构建与心理问题早发现早干预研究答辩汇报
- DB14∕T 3429-2025 全域土地综合整治项目可行性研究报告编制规范
评论
0/150
提交评论