以巴克频谱失真为基础之语音音调周期估测.doc_第1页
以巴克频谱失真为基础之语音音调周期估测.doc_第2页
以巴克频谱失真为基础之语音音调周期估测.doc_第3页
以巴克频谱失真为基础之语音音调周期估测.doc_第4页
免费预览已结束,剩余1页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

以巴克頻譜失真為基礎之語音音調週期估測國科會專題研究計畫成果報告計畫編號:NSC 90-2213-E-324-025執行期限:90年8月1日至91年7月31日主持人:朝陽科技大學資訊工程系 助理教授王德譽E-mail: .tw共同主持人: 計畫參與人員:4一、中文摘要音高估測在語音信號理中是一個當重要的問題,目前研究不論是時域或頻域之估測,基本上都是藉由比較預估波形與原始波形的關聯性或信號雜訊比來決定音調週期。對於完美清音,簡單的波形比對即可達到正確之音高估測,然而實際語音是時變信號,對於清/濁音變換、共振峰混淆等,若音高估測不當,將使合成之語音品質嚴重下降。故本論文以巴克頻譜失真,比較原始語音及預估諧波頻譜,求得最佳之音高週期。模擬結果發現以巴克頻譜失真為基礎之音高估測,配合正弦語音模型,可有效合成高品質之語音。關鍵詞:音高估測、巴克頻譜失真,正弦語音模型。AbstractPitch detection is an important issue in a variety of speech processing applications. Many pitch detection algorithms (PDAs), both in the time and frequency domains, have been proposed for the voiced/unvoiced detection and pitch abstraction. During highly voiced stationary sections of speech, the pitch period is easily observed using PDAs based on peak detection in the time domain, such as auto-correlation function, zero crossing rate and average magnitude difference function (AMDF). In the frequency domain, the PDAs utilize the harmonic structure of the speech spectrum or the spectral auto-correlation property. All of the proposed algorithms have their limitations, and no presently available PDAs can be expected to give perfectly satisfactory results across a wide range of speakers, applications, and operating environments. In this paper, we provide a pitch detection algorithm based on Bark Spectral Distortion (BSD), in which several known features of the perceptual processing of speech sounds by the human ear are emulated. The experimental results show that the proposed method can provide a more accurate than that of sinusoidal speech model, and the reconstructed speech sounds more naturalness.Keywords: Pitch detection, Bark Spectral Distortion, sinusoidal speech model.二、緣由與目的音高估測(pitch detection)在語音信號處理中是一個相當重要的問題,尤其在語音編碼器(Vocoders)1中經常假設清音為完美週期性信號以減少編碼位元。對於此問題,已有很多的研究提出並由Hess整理於2,大體上可分成時域音調估測及頻域音高估測,時域估測往往利用波形位移前後的關聯性(correlation)找到音高週期。運用的關聯函數如自相關函數(auto-correlation)3,或平均振幅差函數(Average Magnitude Difference Function, AMDF)3;頻域估測則是計算頻譜的基頻(fundamental frequency)(音高週期的倒數)諧波(harmonic)匹配程度來決定清音的週期性,例如正弦轉換編碼中的基頻估測4。然而,實際語音信號並非完美的週期信號,估測時必須面對下列問題:(1)語音信號並不是完美的週期信號,而只是準週期性信號;(2)較強的共振腔的共振峰(formant)會影響音高週期的估測;(3)倍音高週期混淆,例如音高週期為T,2T也會是其週期,所以估測時亦要避免錯估為音高週期的倍數;(4)清/濁音(Voicing/Unvoicing)之間的變換不能完全以週期性的清音處理。不當的音高估測將造成聲音品質的嚴重衰減。為了更精確的估測暫態之音高變化,目前更有研究5使用諧波小波轉換(Wavelete transform)來改善此一問題。多頻帶激發(Multi-Band Excitation, MBE)6語音編碼及正弦轉換編碼(Sinusoidal Transform Coder, STC)7等正弦語音編碼已廣泛使用於低位元率語音編碼,為了改善正弦語音編碼中基頻(Fundamental frequency,音高的倒數)的估測,更有研究8利用連續音框音高的相關性增加估測準確性。由於目前的研究無論是在時域或頻域上的音高估測,基本上是利用預估週期波形與原始波形的匹配程度來決定音高週期及清/濁音機率,皆尚未考慮人耳對不同頻率信號的解析度與響度均存在非線性聽覺響之事實,因此本論文特以巴克頻譜失真(Bark Spectral Distortion, BSD)9來評估諧波頻譜之失真,並藉以找到最佳之估測音高及清/濁音機率。三、巴克頻譜失真(BSD)根據聲響心理醫學報告,人耳聽覺系統在低頻率具有較清晰的解析能力,而且不同頻率信號的響度反應也存在著明顯差異。巴克頻譜分析如圖一所示,包含頻率轉巴克,臨界頻帶濾波、等響度預強調,以及主觀響度轉換。針對此非線性聽覺響應之事實巴克頻譜分析分為三部分來解決:(一)頻率解析度等化人耳對高低頻解析度並不相同。此非線性特性可以臨界頻帶濾波器等化,其分為二個步驟:步驟一:利用下列關係將語音頻譜刻度轉換成巴克刻度b:。並取得對應之臨界頻帶密度X(b)。步驟二:經由頻寬1巴克的臨頻帶濾波器,得到臨界頻帶之頻譜能量分布為。此能量對應到人耳聽覺神經之激發分布,故稱為激發原型。(二)聽覺強度等化在不同頻率下,人耳聽覺激發靈敏度並不同。例如,一個100Hz的單音大槪要提高35dB,在聽覺上才會和1000Hz等音量,這些特性皆被完整的描述在圖二:等響度圖,其中phon即是所謂的聽覺音量,也就是等效於1000Hz單音的音量。為補償此一非線性特性,必須將音量單位dB轉換為phon。一般電話語音頻寬約300至3400Hz,而音量約40至80dB。此範圍的語音可以下列預強調濾波器等化:。若其相對應之巴克刻度之預強調濾波器為H(b),則激發原型經等化後之響度為:。(三)主觀響度等化在不同的響度(單位phon)下,聽覺對響度的增減是非線性。例如,在40 phons的響度下增加10 phons,感受到響度加倍;但在接近0 phon響度時增加10 phons,卻感覺響度增加10倍。為等化此非線性特性,各臨界頻帶響度P最後再以下列關係轉換成主觀響度L:。而巴克頻譜即是每一臨界頻帶的主觀響度 其中B為臨界頻帶個數。(四)巴克頻譜失真計算由於巴克頻譜完全反應人耳對頻率及音量的非線性特性。因此,第k個分析音框之巴克頻譜失真定義為:,其中及分別代表原始語音及編碼後之巴克頻譜。平均所有音框BSD得到非正規化的巴克頻譜失真。最後,計算原始語音之巴克頻譜能量:,並求得正規化之巴克頻譜失真為:。四、以BSD為基礎之音高估測(一)基頻估測在正弦語音產生模型中,語音信號是由一組正弦波形組合而成,即,其中Ak,wk及分別為第k個弦波之振幅、頻率及相位,而N則為弦波個數。經由McAulay7推導得到正弦語音模型中最佳之弦波參數估測為頻譜的峰值。其中正弦諧波模型簡化頻率參數wk,以基頻的倍頻取代峰值頻率為:,其中w0為基頻,即音高的倒數。BSD-Based音高估測如圖三所示。原始語音先以正弦語音分析求得只保留峰值的頻譜,再分別求取原始語音之巴克頻譜及諧波之巴克頻譜。為求取諧波之巴克頻譜,我們先以SEEVOC10求得峰值頻譜之頻譜包絡線,再分別以不同的基頻對此包絡線取樣,並計算其巴克頻譜,最後比較各基頻之BSD,求得最佳之估測基頻為:。(二)清音機率估測為估測清音機率,我們首先定義BSD-Based的第k個分析音框之信號雜訊比為:。由於本論文以BSD估測諧波匹配程度,故BSD 愈小則諧波頻譜與峰值頻譜愈匹配,亦即清音的機率愈高。要以實際的函數決定SNR與清/濁音機率是相當困難的。因此,我們採用許多語音編碼中使用的函數7:,其中Pv即是清/濁音機率。五、實驗結果本實驗語音分析取樣頻率8 kHz,音框長度17.5ms,而傳利葉分析使用512點的FFT。基頻估測分別使用Sinusoidal-Based基頻估測法4及本論文提出之BSD-Based基頻估測法。為比較兩者之效能,本實驗採用信號雜訊比(SNR)、片段式信號雜訊比(Segment SNR, SNRseg)、Mel倒頻譜距離(Mel-Cepstral Distance, MCD)11、巴克頻譜失真(BSD)及巴克頻譜失真等級(Bark Spectral Distortion Rating, BSDR)12等五種客觀測試標準,分別對二男m1,m2及二女f1,f2四段約3.5秒的語音進行測試,表一列出其模擬結果,其中BSDR愈高表示聲音品質愈好。結果顯示BSD-Based基頻估測皆比Sinusoidal-Based基頻估測好。因此可見以考慮人耳聽覺效應巴克頻譜失真為評估標法的基頻估測確實可以有效估測基頻,以減少聽覺上的失真。六、結語語音基頻估測在語音編碼中,合成語音的品質影響非常大,而正弦語音編碼已廣泛使用低位元率語音編碼,本論文提出以巴克頻譜失真評估基頻匹配程度,以決定最佳之估測基頻,由於最佳之估測音高對應之BSD最小,故其造成之聽覺失真最小。配合正弦語音分析/合成法產生合成語音,實驗結果顯示BSD-Based基頻估測法確實可以有效改善聲音品質。七、參考文獻1 K. K. Paliwal, Speech Coding and Synthesis, Elsevier, Amsterdam, 1995.2 W. Hess, Pitch Determination of Speech Signals, Springer, 1983.3 L. R. Rabiner and R. W. Schafer, Digital Processing of Speech Signals, Prentice Hall, Englewood Cliffs, 1978. 4 R. J. McAuly and T. F. Quatieri, “Pitch estimation and voicing detection based on a Sinusoidal model,” Proc. IEEE Int. Conf. Acoust., Speech and Signal Proc., pp. 249-252, Albuquerque, NM, Apr. 3-6 1990.5 Y. Chisaki, T. Usagawa and M. Ebata, “Improvement of Pitch Estimation Using Harmonic Wavelete Transform,” IEEE TENCON, 1999.6 D. D. Griffin and J. S. Lim, “ Multi-band excitation vocoder,” IEEE Trans. Acoust., Speech, Signal Processing, Vol. 36, pp. 1223-1235, Aug. 1988.7 R. J. McAulay and T. F. Quatieri, Sinusoidal coding, Chapter 4 In Speech Coding and Synthesis, Editor, W. B. Kleijn and K. K. Paliwal, Elsevier, Amsterdam, 1995.8 J. Fu, S. Xu, and J. Chen, “ A Modified Pitch Detection Algorithm,” IEEE Communications Letters, Vol. 5, No. 2, February 2001.9 S. Wang, A. Sekey, and A. Gersho, “An Objective Measure for Predicting Subjective Quality of Speech Coders,” IEEE Journal Selected Areas in Communications, Vol. 10, No. 5, June 1992.10 D. B. Paul, The spectral envelope estimation vocoder, IEEE trans. on Acoustics, Speech and Signal Processing, Vol. ASSP-29, pp. 786-794, 1981.11 R. F. Kubichek, Mel-cepstral distance measure for objective speech quality assessment, Proc. IEEE Pacific Rim Conf. Commun., Computation, and Signal Proc., pp.125-128, 1993.12 T. Watanabe and S. Hayashi, An objective measure based on an auditory model for assessing low-rate coded speech, IEICE Trans. Inf. and Syst., Vol. E78-D, No. 6, pp. 751-757, June, 1995.圖一:巴克頻譜分析圖二:等

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论