已阅读5页,还剩51页未读, 继续免费阅读
(通信与信息系统专业论文)基于大语料库的粤语语音合成研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
中国科学技术大学硕士毕业论文 中文摘要 摘要 本论文的研究工作主要是围绕研制中国大陆内第一个实用化的粤语语音合 成系统k b c t 20 展开的。我们采用基于先进的大语料库语音合成方法和目前流 行的数据驱动技术的研究路线,在一系列诸如语料库设计、韵律模型设计、单元 挑选策略等关键技术上做了较为深入的研究,并将研究成果直接应用到工程化系 统当中,研制出一个具有较高自然度的粤语语音合成系统。 本文首先对语音合成研究的历史背景做了简单的回顾,指出了在现阶段研制 实用化粤语语音合成系统的重要意义;接着对粤语语音的概貌做了详细的介绍; 然后依次对建立基于大语料库粤语语音合成系统所需的关键技术( 语料库设计、 韵律模型设计和单元挑选策略) 逐一进行论述。本文的结论部分简要地介绍了 k b c t 2 0 的系统架构和性能指标评测,指出了进一步的研究内容和方向。 在粤语语音概貌方面,详细分析了粤语语音的声韵调系统及其拼合关系,总 结了粤语语音复杂的音变现象,提出了“正音”的原则和方法,为准确标注汉字 的粤语拼音提供了依据。 在语料库设计方面,提出了粤语“语境矢量”的独特设计和“语境总量”的 独特概念。提出了“语境总量”的计算方法,为文本语料的搜索打下理论基础。 在韵律模型设计方面,将基于机器学习的韵律建模方法应用到粤语语音合成 系统当中,比较准确地预测出目标单元的基频、时长、停顿、能量等韵律特征。 在单元挑选策略方面,通过连续三个备选音节的基频连接概率取代音段特征 参数作为连接代价,取得了较为平滑、顺畅的合成语音。 关键词:语音合成、大语料库技术、数据驱动技术、韵律模型。 2 a 。b s t r a c t t h i st h e s i sf o c u s e so nt h er & do fk b c t 2 0 t h ef i r s tp r a c t i c a lc a n t o n e s es p e e c h s y n t h e s i ss y s t e mi nm a i n l a n dc h i n a b a s e do nt h ea d v a n c e dc o r p u s - b a s e ds p e e c h s y n t h e s i sa p p r o a c ha n dc u r r e n t l yp r e v a i l i n gd a t a d r i v e nt e c h n i q u e ,i n - d e p t hr e s e a r c h w a sc o n d u c t e do nas e r i e so f k e yt e c h n i q u e ss u c ha sc o r p u sd e s i g n ,p r o s o d i cm o d e l d e s i g na n du n i t s e l e c t i o ns t r a t e g y r e s e a r c ho u t c o m e sw e r ed i r e c t l y a p p l i e d t o d e v e l o p i n g ac a n t o n e s es p e e c hs y n t h e s i ss y s t e mw i t i ih i p r hn a t u r a l n e s s w ef i r s t l yt a k eag l a n c eb a c ka tt h eh i s t o r i c a lb a c k g r o u n do fs p e e c hs y n t h e s i s r e s e a r c h a n dt h e np o i n to u tt l e s i g n i f i c a n c eo fd e v e l o p i n gap r a c t i c a ic a n t o n e s e s p e e c hs y n t h e s i ss y s t e ma fp r e s e n tt i m e a f t e r w a r d s ,w eg i v ead e t a i l e di n t r o d u c t i o n o ft h ep h o n e t i ck n o w l e d g eo fc a n t o n e s e ,a n dd i s c u s st h ek e yt e c h n i q u e s ( c o r p u s d e s i g n ,p r o s o d i c m o d e l d e s i g n a n du n i ts e l e c t i o n s t r a t e g y ) i n a c o r p u s - b a s e d c a n t o n e s es p e e c hs y n t h e s i ss y s t e m a tt h ee n do ft h et h e s i s ,t h es y s t e ma r c h i t e c t u r e a n dt h e p e r f o r m a n c ee v a l u a t i o no fk b c t 2 0 a r ed e s c r i b e da n df u t u r er e s e a r c h d i r e c t i o n sa r ep r e s e n t e d i nt h eo v e r v i e w o ft h ep h o n e t i ck n o w l e d g eo fc a n t o n e s e ,w ea n a l y z et h eo n s e t s , f i n a l sa n dt o n e so fc a n t o n e s ea n dt h ec o m b i n a t i o n r e l a t i o n s h i p sa m o n gt h e m , s u m m a r i z et h ec o m p l i c a t e dv a r i a t i o n so fc a n t o n e s ep r o n u n c i a t i o na n dp r e s e n tt h e p r i n c i p l e so f p r o n u n c i a t i o nc o r r e c t i n g ”,p r o v i d i n gac r i t e r i o nf o rl a b e l i n gc a n t o n e s e p r o n u n c i a t i o n i nt h ea s p e c to fc o r p u sd e s i g n ,w ep r o p o s et h e u n i q u ed e s i g no fc a n t o n e s e “c o n t e x tv e c t o r ( c v ) a n dt h eu n i q u ec o n c e p t “c o n t e x tg r o s s ”( c g ) ,a l o n gw i t ht h e c a l c u l a t i o nm e t h o do f c g l a y i n g at h e o r e t i c a lf o u n d a t i o nf o rt e x ts e a r c h i nt h e a s p e c t o fp r o s o d i cm o d e ld e s i g n , w e a p p l y m a c h i n e l e a r n i n g - b a s e d p r o s o d i cm o d e l i n gt e c h n i q u e st ot h ec a n t o n e s es p e e c hs y n t h e s i ss y s t e m ,p r e d i c t i n g a c c u r a t ep r o s o d i cf e a t u r e ss u c ha s p i t c h ,d u r a t i o n ,p a u s ea n de n e r g y i nt h ea s p e c to fu n i ts e l e c t i o ns t r a t e g y , w es e tt h ec o n c a t e n a t i o nc o s tt ot h e c o n c a t e n a t i o np r o b a b i l i t yo f p i t c ha m o n g t h r e ec o n s e c u t i v ea c o u s t i cu n i t si n s t e a do f s e g m e n t a lf e a t u r e s ,o b t a i n i n gr a t h e rs m o o t hs y n t h e t i cs p e e c h k e y w o r d s :s p e e c hs y n t h e s i s ,c o r p u s - b a s e dt e c h n i q u e ,d a t a - d r i v e nt e c h n i q u e , p r o s e d i cm e d e l 3 中国科学技术大学硕上毕业论文 第一章绪论 第一章绪论 一、语音合成研究的历史背景 语音识别和语音合成技术是实现人机语音通信,建立一个有听和讲能力的口 语系统所必需的两项关键技术。使电脑具有类似于人一样的说话和听懂人说话的 能力,是新世纪信息产业的重要竞争市场。 语音合成( s p e e c hs y n t h e s i s ,t e x t - t o - s p e e c h ) ,简称t t s 技术,它涉及声学、 语言学、数字信号处理技术、多媒体技术等多个学科技术,是中文信息处理领域 的一项前沿技术,解决的主要问题就是如何将文本状态的文字信息转化为可昕的 声音信息。语音合成包含着二个方面的可能性: 一是机器能再生一个预先存入的语音信号,即预先存入足够的语音单元,在 合成时采用恰当的技术手段挑选出所需的语音单元拼接起来,则有可能生成高自 然度的语句,这就是波形拼接的语音合成方法。为了节省存储容量,在存入机器 之前还可以对语音信号先进行压缩编码。 另一种可能是采用数字信号处理的方法,将人类发声过程看作是一个模拟声 门状态的源,去激励一个表征声道谐振特性的时变数字滤波器。调整滤波器的参 数等效于改变口腔及声道形状,达到控制发不同音的目的,而调整激励源脉冲序 列的周期或强度,将改变合成语音的音调、重音等因此,只要正确控制激励源 和滤波器参数,这个模型就能灵活地合成出各种语句来,因此又称作为参数合成 的方法。根据时变滤波器的结构形式不同,又有l p c 合成和共振峰合成器等之 分。 近代语音合成技术是随着计算机技术和数字信号处理技术的发展而发展起 来的,主要是让计算机能够产生高清晰度、高自然度的连续语音。近几十年来国 际和国内的研究主要集中在按规则文语转换,即将书面语言转换成口头语言。即 目前的语音合成技术,侧重于合成出书面化的口语,而不是非常随意的口语。 语音合成的研究历史可以回溯到1 8 世纪,k r a t z e n s t e i n 在1 7 7 9 年研制的机械 式语音合成器,这种会说话的机械,是用风箱模拟人的肺部,用簧片模拟声带、 以皮革制成的共振腔模拟声道,通过改变共振腔的形状,可以合成出一些不同的 元音。这种机械式语音合成器反应了人们对语音产生机理了解的比较粗略,而现 代语音合成的方法基本上都是采用一种语音模型来合成语音。 最早的语音合成方法是物理机理语音合成,通过对人产生语音的物理结构进 行建模,从而产生语音,比如,对发音过程中嘴唇、牙齿、下巴等运动进行建模。 1 9 3 9 年纽约世界博览会和次年旧金山世界博览会上展出的语音合成仪v o d e r ( v o i c e o p e r a t i o nd e m o n s t r a t o r ) 是历史上第一个试图用电气方法合成连续语言 的机器。v o d e r 有两个声源,一个是宽带的噪声源,一个是周期波峰鸣振荡器。 这两种声音通过“共振控制”箱( 即“声道”) 的时候,音色发生改变。控制箱 有l o 个相邻带通滤波器,包括正常语言的频率范围。带通滤波器的输出通过l o 个子键的单独操纵,进行增益调整。还有三个附件操纵选择滤波器作瞬时激励, 模仿产生三组塞音:t - d , p - b ,k - g 。操作人员用一条转柄来选择噪音和蜂鸣声,用 一个脚踏板控制蜂鸣振荡器的音高。经训练的操作人员,能够用合成器相当熟练 4 中国科学技术大学硕士毕业论文 第一章绪论 地奏出易懂的语言。 然而,物理机理语音合成的研究的进展却十分缓慢,难以将它在现阶段推向 实用。其原因主要在于两个方面:一是对语音产生过程中发声器官的运动和变化 进行度量非常困难,比如说如何精确记录舌位运动和口腔的变化。第二个原因是 和源一滤波器的语音合成模型相比,对通过声道气流特征和运动轨迹的数学建模 也非常复杂,以及这种模型的计算量非常大。但是目前,随着高性能计算机的出 现和对发音机理的深入了解,很多学者在推动这方面的研究 在语音合成技术的发展中,早期的研究主要是采用参数合成方法。参数合成 方法也叫源一滤波器合成方法,它基于这样一种声学理论,这种理论认为声音由 激励和相应的滤波器形成。其中激励主要分为两种:一种是类似噪声的激励,主 要形成非浊音语音信号;另外一种是周期性的激励,主要产生浊音信号。这两种 激励有时也会共同使用,如产生某些浊辅音信号。在该方式里,语音数据库中预 先存放各种语音合成单元的声道参数,这些参数根据控制规则的要求进行修正, 以合成出各种语言环境下的语音。源一滤波器合成的基本原理如图1 - 1 所示。 图1 1 源一滤波器合成方式原理框图 在参数合成方法中,合成器的工作流程主要可分成三步: ( 1 ) 首先根据待合成音节的声调特性构造出相应的声门波激励源; ( 2 ) 然后再根据协同发音、速度变换( 时长参数) 等音变信息在原始声道 的基础上构造出新的声道参数模型; ( 3 ) 最后将声门波激励源送入新的声道模型中,其输出就是符合给定韵律 特性的合成语音。 l p c 合成和共振峰( f o m a n t ) 合成是传统参数合成中最常用的两种方法。它 们实现原理上都是上述源滤波器型结构,只是所用声道模型不同。同时,针对 声道模型的特性,在源的选取上略有差别。对l p c 合成方法和共振峰( f o m a n t l 合成方法感兴趣的读者请自行参考有关书籍,在此不做赘述。 值得提及的是h o l m e s 的并联共振峰合成器( 1 9 7 3 ) 和k l a t t 的串并联共振 峰合成器( 1 9 8 0 ) ,只要精心调整参数,这两个合成器都能合成出非常自然的语 音。最具代表性的文语转换系统当数美国d e c 公司的d e c t a i k ( 1 9 8 7 ) 但是经 过多年的研究与实践表明,由于准确提取共振峰参数比较困难,虽然利用共振峰 合成器可以得到许多逼真的台成语音,但是整体合成语音的音质难以达到文语转 换系统的实用要求。 自八十年代末期至今,语言合成技术又有了新的进展,出现了波形拼接语音 合成方法。这种方法采用语音编码技术,根据自然语言的语音和韵律规律,存储 适当的语音基元,使这些单元在确定的存贮容量下具有最大的语音和韵律覆盖 5 中国科学技术大学硕士毕业论文 第一章绪论 率。合成时亥4 ,经过单元选择、波形拼接、平滑等处理步骤后输出自然语音。通 过精心设计语料库,以及根据语音和韵律规则( 直接使用这些规则或对这些规律 进行建模) ,从语音库中挑出最合适的声学单元,使文语转换系统输出高质量的 语音。由于波形拼接语音合成中的合成单元是从原始自然语音中切分出来的,它 们保留了自然语音的一些韵律特征,也能较好地保持合成单元的音段特性。虽然 这种合成方法需要占用较大的存储空间,但计算量小,计算速度快。特别是基音 同步叠加( p s o l a ) 方法的提出( 1 9 9 0 ) ,使基于时域波形拼接方法合成的语音 的音色和自然度大大提高。p s o l a 方法具有很灵活的特性,既能保持原始发音 的主要音段特征,又能在拼接时灵活地调整基频、时长、停顿和能量等超音段特 征,因而受到了世界各国专家的重视。九十年代初,基于p s o l a 技术的法语、 德语、英语、日语等语种的文语转换系统都已经研制成功。这些系统的自然度比 以前基于l p c 合成方法或共振峰合成方法的文语转换系统的自然度要高,并且 基于p s o l a 方法的合成器结构简单易于实时实现,有很大的商用前景。 国内的( 汉语) 语音合成研究起步较晚些,但从八十年代初就基本上与国际 上研究同步发展。大致也经历了共振峰合成、l p c 合成至应用p s o l a 技术的过 程。在国家8 6 3 计划,国家自然科学基金委,国家攻关计划,中国科学院有关项 目等支持下,( 汉语) 文语转换系统研究近年来取得了令人举目的进展,其中不 乏成功的例子:如中国科学院声学所的k x - p s o l a ( 1 9 9 3 ) ,联想佳音( 1 9 9 5 ) : 清华大学的t hs p e e c h ( 1 9 9 3 ) ;中国科技大学的k d t a l k ( 1 9 9 5 ) 、k d 8 6 3 ( 1 9 9 8 ) 等系统。这些系统基本上都是采用基于p s o l a 方法的时域波形拼接技 术,其合成汉语普通话的自然度、可懂度、清晰度都达到了很高的水平。特别是 中国科技大学语音实验室研制的汉语文语转换系统k d 2 0 0 0 ( 1 9 9 9 ) 和k b 2 0 0 0 ( 2 0 0 0 ) ,合成的句子及篇章语音的自然度已经达到用户广泛接受的程度,从而 使得这项技术开始大规模的进入市场。 二、粤语语音合成研究的现状及意义 中国地大物博,人口众多,自古以来就是多民族聚居的国家。中国的3 2 个 省、自治区、直辖市中,方言众多,可大致划分八大方言区( 北方方言、粤语、 吴语、湘语、赣语、客家话、闽南话、闽北话) 。 粤语,又叫广东话,本地人多称为“白话”。粤语是全国八大方言之一,也 是一种很有特色的方言,一种强势的方言。粤语主要通行于广东大部分地区、广 西部分地区及港澳。此外,在美加的华人大部分也是使用粤语。据估计,到目前 为止,全世界使用粤语的人口已有六千多万。 粤语内部又分为好几种地方话和次方言。广东境内有广府话、四邑话、高阳 话、吴化话、连山话等,广西境内有梧州话、南宁话、钦州话、玉林话等。这些 次方言有的比较接近,彼此可以交际,如广府话与梧州话、南宁话:也有些差别 较大,彼难以交际,如四邑话与玉林话。次方言的产生是由于以前交通落后,彼 此相对隔绝而逐渐形成的,今天交通发达,更重要的是广播电视媒体发达,而广 东和港澳的媒体基本上都是使用粤语,这就促进了广州话的传播,促使其他次方 言向广州话靠拢。布在广州及其附近几个县市、珠江三角洲地区以及港澳的广府 话是粤语的主体,而广州话是粤语公认的标准语。也有人认为香港粤语应作为第 二个标准语。但总的说来,广州话与香港话的差别甚小,而且随着穗港两地交流 6 ! 基壁堂塾鉴奎茎堡圭堡些篓苎墼= ! 整 日蓑频繁和香港文化对广东地区的强烈影响,他们之间的差距也谯逐渐变小。因 娩,本论文中凡涉及“鸯语”二字豹魏方,穗掩体鸯撵语公认标准静广翔话。 粤添避毒合成稳对酱逶 丢谗誊仑成趣步较晚。二十牲缌,k 十笮伐寒期,鹋语 语音合成豹研究方潞现逐步发聪的悫势,懑现了些育一定学零承平豹论文专著 移试验系统,程技零静深度或广浚粼蠢掰突破。秘尽繁八十年代求和丸十年代秘 中期的辫语语谱合成研究,有了一嫩可观的研究成果,但总的来说,这时期基 本上仍只憩滋蹩娃子麓芽帮瑟发兹蹬段。从丸卡攀代表起,粤语语音会成熟磷究 才进入中兴时期,开始出现粤谮语诺含成研究的一些较大突破。 香港中文大学逮予王程系滔啻熬攫实验室麓最晕进程粤语潺音会娥硬究的 主要单位之一。它致力于粤语语音学、韵律学上的研究鞠粤语语裔数据库的开发, 曾成功磷铡蠢孵滔语鸯会箴弓l 攀c u t a l k 。c u t a l k 是一令蒸予瓣燃豹诿啻合成系 统,采稍波形拼接技术,凄现汉字文本至目粤语蹦语的转换。c u t a l k 露前还停留 京实验室阶段。 美国的s c a n s o f t 公司最近推出了r e a l s p e a k 商业辫语语音合成系统,无论在 语音合羧豹蠡然瘦,漓壤度、豫懂爱等攒标土,述是森系统懿资源占霜攀霸逡粒 效率上,坶远胜予先静静粤语诱音成系统。r e a l s p e a k 采耀先滋的基予丈谬料 露的波形揆攘谬啻合成方法,势在攀嚣拼绥廷逡撑了游警涝,戆够合残密较为爨 然、逶颞豹粤谮滔皆。 此外,i b m 、微软、i n t c l 等蔺际懿名大公司魄在积极开展粤语语音含成研究, 曩藏尚柬育成形的系统。 我稻辩展姆语语音会藏研究戆藤鬻有两点:一是实际需要。器语怒聚强势煞 汉语方吉,以辫语为母落的人潮已越过6 0 0 0 万。绝大大部分操鹦语的人士生活 在中国的南部( 包括广东省、释港和瀵f - j ) 敬及美国、身日拿大积东南甄等海多 建 嚣。链嚣l 在基鬻生活裁公共场念中主要馕耀粤疆,弱窳也锼援骜淫话,毽缀多入 裰本昕不德讲不来管通话。总乏,裁会上怒以便潮粤谶为囊。因藏,在晦语蟪隧, 鬻逶话添啻会戏已经不戆缀磐熬滚跫实黪豹应弼器求。妊须遂露粤语诱蠢会成匏 研究。 二是疆蘸鹣鸯港语誊会残系绫,溺寒究全达到寨髑纯熬水平。蠲搜楚 r e a l s p e a k 这种比较伉秀豁粤语语裔台成系统,焱于其使爝的语辩库比较小,语 寄秘蘸镎蕊覆箍搴较糕,合成潺誊戆鑫然发还嚣黉避步挺亵。麴上宅海了追求 会成语膏豹乎游度,在掴邻拼按音节之瓣进行了谱平滑处壤,导致声音的失真和 酱质的下降。讴我们在巾国科技大学语鬻实验嶷袄豢多笨鹃普澈话语啻会绒磷 究,积累了十分丰富的经验,在大诱料摩语音合成方法上总结出套与具体语种 秃关的磷究路线,在备烹簧技术环节上都采霜了数攥糕动技术,在特寇瓣添密知 识的指导下,只要有足够的统计样本霹,就可以在相同的系统絮构下实现一个新 添释懿含袋系统。本研究鼯线饕经程蕤文语音会成、巾英文潼会游音合成上缮翔 了验证。 三、本文酌研究漆容帮缀织结梅 本文的研究工作主要蹩围绕建崴一个实用纯的蒸予大语料席的粤谮语请会 成系统k b c t 2 0 装嚣靛。传纛在熬立夫漤籽寒港啻会成系统凝爨戆叙疆鼓舞添 稀的语啻特性分褥、语搴尊陴设计、韵锋模溅设计、单露挑逸策略等一系戮荚键授 7 巾嚣秘学技零大学鹾士毕韭论文 第一章绪论 术上,做了较为深入的研究。主要的工作有: ( - - )详细分拆了粤语诱音静声翦调系绕及冀揆舍关系,葱缭了粤语诱 音复杂的酱变现象,提出了“正诸”的原则和方法,为准确标没 汉字豹粤涟拼音掇供了依据。 ( 二)掇出了粤谱“语麓矢量”的独特设计和“谱境总爨”的独特概念。 提出了“语境总墩”的计算方法,为文本语料的搜索打下理论基 鬣舞。 ( 三)将基于机器学习的韵律建模方法应用到辫语语音合成系统当中, 比较准确地预测擞目标单元的基频、时长、停顿、能量等韵律特 摄。 ( 四)在单元挑选策略上,通过连续三个备选音节的基频连接概率取代 畿段特缝参数幸# 为连接代绥,取终了较为警涝、暇魉的合成语音。 本论文总共分为六奄。各章节的主要内容如下: 零文熬第二牵,奔缀了粤语语音豹壤貔。营建详缨努据。歹粤褥语音瓣声、懿、 调系统,指出粤语语音声、韵、调之间的拼合规律。然聪详细总结了粤语语音的 各种复杂的音变现象,指出这些港变现象是长期不规范说话的结果。最雁提出了 六条“正音”琢期,结合各稀啻变瑗象豹其俸麓律,铮静驳香港中文大举赡买酶 j e 商业电子词舆进行“半自动”正音,取得较好的结果。 在文章兹第三章,谨垄霪分绥了语辩艨设诗鹣踉理和过程。提澎了粤谌“语境 矢量”的独特设计和“谮境总羹”的概念,给出了语境总量的计算方法。最后简 单介绍了g r e e d y 算法,并给出了文本谬料搜索的具体流程。 在文章静第溷章,奔绥了蘸律模鍪瓣基本橛念,弗舆钵奔绥了嚣囊誊滚行熬臻 于训练熬于数据驱动的瀚律模型的决策树理论,阐述了使用决策树理论针对粤语 语音合成系统建怠韵律模型的过程。 在文章髂第五章,详缀奔缮了基于大语料瘁的单元撬选策臻。介绥了连接代 价计算和目标代价计算以及它们各自权值的训练。提出了使用有调三元连接概率 鼗营啻致狩蔹参数鞋沙 j 也) 表2 - 1 粤语声母( o n s e t s ) 表和警例 b 、d 、m 、f 、d 、t 、n 、l 八个声母的发音,基本上与普通话相同。z 、c 、s 楚舌叶鹰声母,发音对露面向硬颚抬起,雷面的魏郁靠避上齿龈和前颚,简单来 说,藏怒舌头静边缘抬越与上鸯构成阻礴,其发音鄢霞溉不两予普遥诿豹z 、c 、 s ,也不阿于普通话的z h 、c h 、s h 。g 、k 属于嚣根音,其发音如普通话的g 、k 笼异。g w 、k w 媳震予秀缀啻,怒强屠豫豹声母,发音慰声母立靼呈疆爨炊( 骥瓣 掇成圆滕状态) 它们与酱通话的g t l 、l c l l 的发音略有不同,后者是声母发音之聪 再带上元音性的介音u ,u 韵发谱较长,昕感上较为显瓣。而g w 、k w 中的w 是 疆音往静,发音缀轻穰矮。它基本上燕络会在声骛熬发蠢土嚣,帮发音嚣始瓣。声 母成阻的过程嘴唇便或& p 撮成圆形。声母表中的h ,戴发音部位比普通话的舌 榱音声母h 靠盛,接近乎嚷音。它们的发育略有不同。簧逶话巾辅音n g 只能作 游尾,不能俸声蹲,丽薅语中帮可良佟淹声召艮另井,声母系统孛靛j 、w 都属 于半元黹,发音时略带摩擦。w 实际上也是一个圆唇的半元音声母。 眷港语言举学会在1 9 9 2 年举办了一次有关粤语拼音的研讨会,会后组织了一个由香港备大专院梭的教师 和研究生组成的粤语拼音小组,一年多之爝,制定出“香港语鬻学学会粤谮拼音方案。这个方案揉合了 嚣寡之羲,簌捞法上参考7 蓬鼯聱嚣、汉诲拼音耜习蠛瓣法,鞘蚌秀7 方懂夫量瓣毫精文书王撵,其采用 旗本的拉丁字母( 投寄附加符哥) 和蕺字辕调法。 9 ( 二) 韵母 l s h k 粤语拼音方案中规定粤语的韵母总共有5 9 个,如表2 - 2 所示。 c o m p o u n d p r i n c i p a l 5f i n a i s v o w e l a aaeloo ee ou y u e n d i n g i n l姐el0o eu y u 7 -_ 髓la le lo l u li 5 2 a a ua ue u 1 1 1o uu 一5 e o le o i 1 a a m锄e ml m1 1 1m 5 _ 3啪a ne n1 1 1 o ne o nu n y u n n 8 a a n ga n g e n gm go n go e n gt a n gn gn g 一8 a a pa pe pl pu pp - 5 4 a a ta te li to te o tu t y u t t 8 a a ka ke ki ko ko c ku kk 。7 c o u n t9898733732 5 9 表2 - 2 粤语5 9 韵母( f i n a l s ) 总表 粤语的韵母系统中,主元音一共有9 个,除a 、e o 之外都可以独立成韵,一 般作为复合韵母的主要发音部分,成为韵腹( n u c l e i ) ,如表2 3 所示。其中,a a 、 o 、e 、o e 属于半低和低元音,发音时喉部肌肉较为紧张,声音的清晰度较高, 音程较长。a 、u 、i 、e o 属于半高和高元音,发音时喉部肌肉紧张度较弱,音色 较为模糊,音程也相对较短。 ia a ( 沙)i ( 诗星识)u ( 夫,风,福)e ( 些四)o ( 疏苏) i ”( 书)o e ( 锯) a ( 新)e o ( 询) 表2 - 3 粤语韵腹( n u c l e i ) 表和字例 韵尾辅音共有6 个( p 、t 、k 、m 、n 、n g ) ,韵尾元音共有2 个( i 、u ) ,如 果加上低元音收尾的音节( 用中表示,一般称为“开尾”) ,粤语的韵尾( c o d a s ) 共有9 个,如表2 4 所示。 p ( 湿)失)k ( 塞) m ( 心)n ( 新) n g ( 生) ii ( 西需)u ( 收)( ) 表2 4 粤语韵尾( c o d 哟表和字例 1 0 中国科学技术大学硕士毕业论文 第二章粤语语音概貌 另外,有两个鼻音单独成韵( s y l l a b i cn a s a l s ) : m ( 唔)n g ( 吴) ( 三) 声调 粤语的声调一共有9 个,其中6 个是舒声调( n o n - e n t e r i n gt o n e 非入声) ,3 个是促声调( e n t e r i n g t o n e 入声) 。如表2 - 5 和图2 - 1 所示。 舒声调( 非入声)促声调( 入声) 调类 阴平阴上阴去阳平阳上阳去阴入中入阳入 调值 5 53 53 32 11 32 25 53 32 2 恩史试时市士式锡食 例字 ( s i l )( s i 2 )( s i 3 )( s i 4 )( s i s )( s i 6 )( s i t )( s i 8 )( s i 9 ) 速记 法 九 四零五七八十 表2 - 5 粤语声调( t o n e s ) 表 1234561 、毫b9 6 j , 图2 1 粤语各声调及调值示意图 声调通常用“五度标记法”来表示调值:5 度最高,3 度居中,1 度最低。例 如“5 5 ”代表由最高到最高的高平声,即阴平。又如“5 l ”代表由最高到最低的 高降声,即普通话中的去声,粤语中没有这一调值。 粤语九调中,分别包含高平( 5 5 ) 、中升( 3 5 ) 、中平( 3 3 ) 、低降( 2 1 ) 、低 升( 1 3 ) 、低平( 2 2 ) 六种调值。促声调中的阴入、中入、阳入分别和舒声调中 的阴平、阴去、阳去调形相同,唯一不同的是促声调发音较舒声调短促,并且在 韵尾发生突然停顿。因此,很多文献将粤语的声调归纳为六种,分别把促声调中 的三个调型并入舒声调中相应的调型。由于促声调音节几乎无一例外地以p , t , k 等停止音结尾,因此,六调标记法是合理、切实可行的。 声调的标记,为了方便电脑的输入,常常以数字l 、2 、3 、4 、5 、6 代替通 用调型符号来标记。如果不是特别强调调值或调型变化,本文将一律使用这种数 毖十嘶 芡啪鲐七刚 挖二泌 ”五i 畲 列零咄 粥四奶 凳毗 竺一1 l 中嚣科学接零大学矮士毕盈论文 第二章粤溉语音摄虢 字标记声调的方法。 有趣的是,为了方便裙学鸯添匏人士尽侠掌撵粤语中9 令诞鹣发音t 我蠢总 结了一种速记的方法:只要掌握“零、二、三、四、五、七、八、九、十”9 个 数字熬粤浯发者,就可以缀据表2 5 或翻2 1 给如静对应关系,准确掌撰粤语中 9 个调的发音l ( 嚣) 声懿灞貔攥台关系 粤语中除声母之外,韵母和声调的数目比普通话的要多得多,在汉语各种 方言中可以算是比较多的。这些声母、韵母和声调各有其发音特点它们按其不 丽的将惑彼既缭仑为音节。音节中声母、韵母和声调靛拼合,表现了音繁结构中 铸种要素相互结合的规棘性。 粤滋声、懿鹣攒会,最重要之点是与“屠”有关靛声母在它们与韵母捞台之 时往往呈现其选择侄。这主要表现在: 1 、脬音声母b 、p 、m 、f 很少与以m 、p 等膳音韵尾结尾的韵母相拼,很少 鹣瑗妒m 或翻一p 等寄节。这楚毽轰这整音节审牙头与结尾嚣耱溷郝盛 的辅音互相排斥( 异化) 的缘故。 2 、聪音声母b 、p 、m 、f 不与o c 、y 等麟蜃元毒楣拼。这也是因为唇音 声母酶缎酱对蓠艨元音旃母产生摊斥静律豫,傻强蘑元脊变为繇因蘑元 脊,或根本就不与之拼合。 3 、鬃位声母g w 、蜥、w 也不与以瓣、p 等懋毒药鼹结尾敷魏母提捞,也不 与以u 为韵尾的韵母相拼,其原因也是膳化声母与唇音韵尾互相排斥的 缘故。 4 、瓣纯声鸯一羧也琴与。趴畦、y 等元裔熬母撵搓,其遂遴与2 矮程霹。 聪化声母也较少与以e 、i 等为主冗音的韵母相拼。 5 、双屠声母不与单元音u 韵母相拼,两以u 抒头的韵母u + 则只与麟音及凰 他声母籀拼,这一顼与蕾通话酶掰合关系正婷裰爱。 除了膳音、麟化声母与韵母的拼合较有特点之外,其他的声、韵之间的拼合 墩骞规律可言。鲤毫元鸯i 或y 较少与其德声母掇携,露囊要与秀时砉声母z 、e 、 s 相拼。n g 声母很少与高元音的i 、u 、y 以及e 、e o 、o e 等相拼。这主要是因为 在粤语中中古时期的n g 声母在开口度较大的元音之前仍能保持,葡谯开口度 鞍,l 、熬怒惩音之籍簧| l 游失瓣缘藏。获绫壤健鸯港中,莪g 声母一般不其蘩与离元 倚相拼的音节。 鼻音瀚母m 翻喀一般不与声母稷拼,只是鹈尔拼上h 声母用以表示感叹语 气。旃、o 、e 、o e 与a 、聃、i 、e o 两个系瓣的鹤嗨与声母钓拼舍能力较强,它们 可与各组声母相拼。不过,a 元音不单独构成韵母,因而也不单独与各个声母 攒合。 声母、韵母与声调方面的拼含关系,可以穰述如下: 1 、声母与送气声母在与声调的配合上存在甄补的情况:前者不见予阳平和 麓上调,后者不冤子麓去帮疆入调。这掇迭主要莛邃为审吉辩麓翡全湮 祷声母字在后代变为清音时,就粤语而宙,以平、上声岛去、入声为分 羚,平、上声母变为送气清音,去、入声字变为不送气漶音。爨此就 造成送气清音声母字不磁现于嗣去和阳入调之中,而不邀气声蹲字则不 出现于阳平和阳上调之中。 2 、串骞戆次浊音声母字( 数m 、n 、n g 纛l 为声母) 纛粤语枣郯读久黻键。嚣 串璞辩学技术大学硕毕业论文薷= 章粤语语巍撬貌 嚣它髓一般不爨现在疑类调之中。 3 、声调与元音韵母的配合上,量现这样的趋势:上黼入调丈体上与以a a 、o 、 e 、o e 、i 、u 、y 镣元音韵母相嬲,下阴入大体上与a 、u 、i 、e o 等元脊韵 鸯耀嚣。这是毽海上、下骥入嚣类熬分鹭、大豁上绫元啬熬发啻获魏为 分化条件。 粤语中,声母与韵母两者拼合起来构成的音节,大约有6 6 0 个左右,称为光 调蠢节。袭2 - 6 列出了努潺审敷有的炎调襄苓及褪液的枣铡。粤语的笼调毒繁比 之酱通话豁笼调音节( 4 0 0 个左右) 大约多了二分之强。如聚翔上声调,辫语 皆粼总共蠢1 7 0 0 多令囊警,稼必有壤誊节。 ! 璺型兰量查盔兰堡主望些堡塞篁三兰j 墅翌量! ! ! 垦矍 粤语音节表( t a b l e o fc a n t o n e s es y l l a b l e s ) j b p fdt l g k n g h g w k w 】 。”一一 呢 之此师医 - 1 ¥、 v l p 碟贴捏猎劫胁 接妾摄 业 i t必瞥灭跌铁烈洁揭 啮歇 节 设窃热 i k逼辟幂的贷匿力击 隙域 即 戚色 益 点添念廉兼钳谦尖 签闪掩 边编棉典天 焦 连坚乾 盎 展千仙烟 m g 兵评明钉庭宁零经 倾兄荣睛秤升英 标飘描 丢跳鸟疗骄挢晓招 超消腰 y u 诸柱 书 如 y u t 夺脱劣劂决 血黜 直 雪乙 ,h _ 、 y u n 端团暖联卷权 劝专穿e冤 呼姑箍污 , u p _ u t 勃泼没阔 括活 u k 屋卜仆目 福督秃忸碌局曲哭筑速缩沃 搬判们欢官碗 :u n g 拥捧碰蒙封东通 农龙 - f 穷蕹胸 终 充松翁 杯胚煤灰绘 回 e 瞳噬 爹 呢哩痂茄遮扯 磐 爷 l e p 夹 e t e k壁 劈 笛踢叻剧吃只锡 舐 _ e n g饼 名钉厅觏颈轻 郑清 亩 影 悲披微非 地尼厘机旗希死 调 l o t咄呐律 盛 出来 l o l l 湍轮津春询润 对推 女雷居驱虚追催须锐 1 4 ! 篓登兰茎蕉杰雯堡杰望兰望塞 篓三童耋釜至童楚塑 荣 睡l 锯靴 o e t o e k啄晦脚 却雀 直 戳约 o e n g ,u 娘蕤疆强褥 蠹 密裔央 阿波破摩科多拖 那裸哥钶俄可裹掰左初蔬 哟 o t惑磋 h 。 o k 恶搏扑幕 缚发擐诺洛备确壳翻扩作错数 安干 岸汉 o n g航 帮旁忙方党躺囊郎剐抗肮震光 矿溅装苍桑 哀代胎耐檠该概井开灾采愚 爽缳磬无器主奴炉亵辍耗遭耀苏 a p 粒 靛急给恰执辑湿 泣 - a t 不整秘怒突呐娥嚷乞餐簇痰七失 一 t k握 j b默掰勒熊则测塞 暗絮秫今 鬈 堪 针 侵 心音 1 ,vm v 舞频民嫒墩卷拈投勤锻报 嫩 菌濑真趁掰嗣 a n g莺崩朋盟轰灯膊靛更懂轰密堵层僧 矮耀拯迷挥低梯泥黎鹃溪危系麴怒虢挤 凄 疆戈 区剖谟浮抖偷纽流九扣牛口洲 抽收优 呀麓憾巍麓钉豫拿啦侩啥雾 霞 援夸媲 瞻茶沙氇 wp 。 a a p鸭答塔纳魅 蹬 蛱霹插圾 a a t压 八抹发靼选钠辣轧卡制挽扎 察撒 “ s a k转 露接魏播缂额容攒袋赉簧 索屹 l m 菡腿贪南蓝减石喊站惨衫 a n 晏斑攀晚翻丹滩瘫难颜戳荧簿螽餐出 s a n g 罂绷膨盲冷耕硬坑梗框横睁撑生 接攘派埋倏静_ 太奶赖阶楷鞋慑禳傻 猜 鼷踹 a i l h 豳毽擞矛瓣交嘉 咬藏技抄鞘 n g吴蹿 b p m ;fdtnl g k 丑g 五8 w k w wzcs j 表2 - 6 粤谮无调音节裘殿字例 1 5 中国科学技术大学硕士毕业论文 二、粤语的音变现象和正音 ( 一) 音变现象 粤语语音中存在着复杂的音变现象。粤语语音的主要音变现象可分为多音 字、文白异读、懒音、变调、语音的同化与缩减五种。下面就这五种音变现象作 逐一阐述。 1 、多音字 中国文字中,一字多音,一字多义的情况很普遍,尤以粤语为甚。普通话的 读音有全国统一的审音标准,一般以新华字典、现代汉语词典为依据。而 粤语的读音却没有统一的标准,问题要复杂得多。对于多音字,一旦发音出错, 就会引起昕者的误解,轻则破坏语境美感,重则歪曲原文内容。 比如“说”字至少有如下三个读音: s y u t 3 演说 s e o i 3游说 i y u t 6学而时习之,不亦说乎? 再比如“乐”字也有如下三个读音: l o k 6快乐 n g o k 6 音乐 n g a a u 6仁者乐山、智者乐水 据统计,粤语中多音字大约有1 0 0 0 个左右,比普通话的复杂的多。其中常 见的有:“着、单、车、重、数、恶、衣、食、教、思、解”等。 2 、文自异读 文白异读指针对相同的汉字,在正式的与非正式的场合中发音不同的现象。 文读指在广播、朗诵、歌唱等场合使用的发音方式,白读则指在日常生活会话中 常常使用的发音方式。粤语中文白异读的现象也很普遍,主要表现在以下几种形 式的韵母变化: 1 ) i n g - e n g 2 ) i - e i 3 ) a n g - a a n g 4 ) a k - a a k 5 ) i k - e k 试看以下例子: 汉字文读白读 壁 b i k 7b e k 8 定d i n 9 6d e n 9 6 精 z i n 9 1z c n 9 1 正 z i n 9 3z e n 9 3 惊 g i n g lg e n g l 轻 h i n g lh e n g l 赢 j i n 9 4j e n 9 4 领 l i n 9 5l e n 9 5 命 m i n 9 6m e n 9 6 平 p i n 9 4p e n 9 4 中国科学技术大学硕士毕业论文 第二章粤语语音概貌 死s i 2 s e i 2 四s i 3s e i 3 女 s i n g ls e n g l 醒 s i n 9 2s e n 9 2 听 t i n g lt e n g l 青 c i n g lc e n g l 请 c i n 9 2c e n 9 2 赤c i k 8c e k 8 表2 7 文白异读样例 3 、懒音 懒音可以说是语音发展简易化趋势影响的结果。现代粤语中,懒音是最主要 的音变现象之一。近年以来,广州、香港的年轻人,一张口皆懒音,“南”、。兰, 不分,“你”、“李”不分。懒音主要分为懒声母和懒韵母两种。我们列举如下( 左 边为正音,右边为懒音) : 1 ) 懒声母 a 、n - l b 、n g - 零声母 c 、g w 。 g d 、k w - k e 、n g - m 2 ) 懒韵母 a 、m - n b 、1 9 - t c 、k - t d 、n g n n e o i 5 - l e o i 5 ( 女) n g a a 3 a a 3 ( 亚) g w o k 3 - g o k 3 ( 国) k w o n 9 4 - k o n 9 4 ( 狂) n 9 5 - m 5 ( 五1 n a a6 - l a a n 6 ( 难) n g o i 3 - o i 3 ( 爱) g w o n g l 一 g o n g l ( 光) k w o n 9 3 - k o n 9 3 ( 扩) n 9 6 - m 6 ( 悟1 j i p 6 - j i t 6 ( 页)z i # - z i t 3 ( 辄) 从发音生理学的角度分析,以上的声母或韵母对中,前者发音时对口腔肌肉 盼牵动较大,后者发音时对口腔肌肉的牵动较小,在费劲程度上存在差异,在语 音发展趋向简易化的影响下,一般年轻人为图方便,常常将前者发成后者,此即 懒音的由来。 4 、变调 变调也是粤语语音中最为常见的音变现象之一。粤语的变调规律比较复杂, 基本总结如下: 1 ) 连续变调 指一个
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年五家渠市北海街消防救援站政府专职消防员第四季度第二批招录8人备考题库及一套参考答案详解
- 2026年山东含章医疗技术有限公司招聘备考题库完整参考答案详解
- 2026年佛山市顺德区华南师范大学附属北滘学校招聘临聘教师备考题库及一套答案详解
- 2026年中建材物资有限公司招聘备考题库及1套完整答案详解
- 浦东新区食品安全培训课件
- 衍生金融工具基础 第2版 课件 第5-9章 金融期货交易 -金融互换
- 医疗损害赔偿与中医医疗过错认定
- 医疗技能竞赛中的安全保障措施
- 医疗托管中医疗纠纷鉴定意见的采信规则
- 医疗托管中医疗数据备份与恢复的法律要求
- 水电厂电气自动化监控系统功能分析
- DB11T 381-2023 既有居住建筑节能改造技术规程
- 计算机应用数学基础 教学 作者 王学军 计算机应用数学课件 第10章 图论
- DF6205电能量采集装置用户手册-2
- 缺血性脑卒中静脉溶栓护理
- 电子电路基础-电子科技大学中国大学mooc课后章节答案期末考试题库2023年
- 四年级科学上册期末试卷及答案-苏教版
- 怀仁县肉牛养殖产业化项目可行性研究报告
- DB51T 2875-2022彩灯(自贡)工艺灯规范
- 主要负责人重大危险源安全检查表
- 《工程经济学》模拟试题答案 东北财经大学2023年春
评论
0/150
提交评论