(中国少数民族语言文学专业论文)基于标准拉萨语的藏语语音识别技术研究.pdf_第1页
(中国少数民族语言文学专业论文)基于标准拉萨语的藏语语音识别技术研究.pdf_第2页
(中国少数民族语言文学专业论文)基于标准拉萨语的藏语语音识别技术研究.pdf_第3页
(中国少数民族语言文学专业论文)基于标准拉萨语的藏语语音识别技术研究.pdf_第4页
(中国少数民族语言文学专业论文)基于标准拉萨语的藏语语音识别技术研究.pdf_第5页
已阅读5页,还剩74页未读 继续免费阅读

(中国少数民族语言文学专业论文)基于标准拉萨语的藏语语音识别技术研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘 要 摘 要 语音识别是当今语音研究的热点,它是涉及语音语言学、计算机 科学、信号处理、生理学、心理学等多领域的一门交叉学科,也是模式 识别和人工智能领域的重要分支。英语的语音识别经过多年的探索研 究和实践已经走向了实用化。汉语语音识别自本世纪80年代起步至今 也已取得重大突破,不断向实际应用阶段迈进。藏语语音识别技术的 研究才刚刚起步,由于语言本身的复杂性所限,目前还停留在实验室 研究阶段,尚未形成比较成熟的理论成果,因此藏语语音识别技术要 得到突破性进展并实现大规模实用,还要跨越很多障碍。本文以语音 识别的发展历史、关键技术、人工智能理论及方法为出发点,提出了 一个基本的藏语语音识别技术方案,即提取以拉萨话为基础的藏语语 音的发音特点并以此作为语音识别的主要技术依据,通过基于小波变 换的基音检测、 基于倒谱特征的藏语语音端点检测和基于hmm的特征提 取等技术手段来实现藏语小词汇量孤立词的语音识别。本文的研究结 果为藏语语音识别、藏语语音合成等技术的进一步研究提供了基础和 参考。 关键词 中文信息处理,藏语语音识别,特征提取,隐马尔可夫模型, 美尔倒谱系数 2 abstract voice speech recognition is the hot spot in research, it is a cross-disciplinary that involved in computational linguistics, computer science, signal processing, physiology, psychology and other areas, and it is also an important branch in the field of pattern recognition and artificial intelligence. after years of exploration and practice, english speech recognition has become practical. since the 80s of this century, chinese speech recognition has also started a major breakthrough has been achieved, and continuously move to the stage of practical application. tibetan language speech recognition technology has just begun, due to the complexity of language itself limited, is still staying in the laboratory stage and is not yet form a more mature theoretical results, so the tibetan language voice recognition technology to be a breakthrough and achieve large-scale practical, it must across the many obstacles. this paper analyzed the speech recognitions the history of development, key technologies, theory and methods of artificial intelligence, provided technology proposal of tibetan language speech recognition. extracted features of lhasa pronunciation and look them as the main foundation for tibetan speech recognition. through wavelet-based pitch detection, cestrum-based features of the tibetan voice activity detection and hmm-based feature extraction and other technical means to achieve tibetan small vocabulary isolated word recognition. the results of this article provide a technical basis and reference to further the tibetan language speech recognition and speech synthesis. key words chinese information processing , tibetan speech recognition,feature extraction,hidden markov model,mel-frequency cepstrum coefficient 3 西藏大学研究生学位论文作业声明 本人声明:本人呈交的学位论文是本人在导师指导下取得的研究 成果。 对前人及其他人员对本文的启发和贡献已在论文中做出了明确 的声明,并表示了谢意。论文中除了特别加以标注和致谢的地方外, 不包含其他人和其它机构已经发表或者撰写过的研究成果。 本人同意学校根据中华人民共和国学位条例暂行实施办法等 有关规定保留本人学位论文并向国家有关部门或资料库送交论文或 者电子版,允许论文被查阅和借阅;本人授权西藏大学可以将本人学 位论文的全部或者部分内容编入有关数据库进行检索,可以采用影 印、缩印或者其它复制手段和汇编学位论文(保密论文在解密后应遵 守此规定) 。 学位论文作者签名: 指导教师签名: 签字日期: 年 月 日 签字日期: 年 月 日 1 第一章 绪 论 第一章 绪 论 1.1 语音识别技术研究的背景 1.1 语音识别技术研究的背景 语言是人类特有的功能,是交流思想、传播知识的重要工具。语音是语言 的声学表现,是人类信息交流最便捷、有效的手段。因此,语音信号是人们思想 沟通和感情交流最主要和最有效的途径。藏语历史悠久,是一种古老的语言。藏 文创始于 7 世纪,属于拼音文字。整个藏区在历史的长河中由于地域的分离、交 通不便等原因导致各地区语音都不一致,经过学术界的研究和讨论,现在大致可 以认为藏语标准语应为: “以拉萨书面语的读音为标准语音,以卫藏方言为基础 方言,以典范的传统文法为语法规则的藏语标准语。 ” 1 每个民族的发展都与时代紧密相连,对于古老的藏民族而言,其历史悠久, 民族文化博大精深,在继承民族之文化精神的条件下,我们应该及时汲取先进的 现代科技技术为民族文化传承加油助力, 继续把优秀灿烂的藏民族文化进一步发 扬光大。纵观国内外语言文字信息化发展历史和现状,我们可以清楚地看到,古 老的藏文字能否跨入信息时代的关键就是能不能解决好藏文信息化的问题。 随着 藏文信息化建设的不断发展,计算机在藏民族日常生活中的不断应用,人与机器 之间的交流也越来越广泛和深入。从科学研究到日常生活,计算机已经开始渗透 到人们生活的各个方面,人们逐渐习惯借助计算机来完成各项事务。这样以来, 如何让计算机更智能化地与人进行通信, 使人机交互更加方便快捷就成为现代通 信与计算机学科研究的重要课题之一。如果计算机能够听懂藏民族自己的语言, 能够说话 ,能够按照人们的指令去处理问题,那么使用不同语言的人们就再 也不用为交流的困难而担忧。实现这一目标的基础就是语音识别技术,它就是将 人们发出的语音信息转换成计算机能够听懂的命令,从而做出相应的响应。 现在,语音识别在工业、军事、交通、医学等诸多邻域,如计算机、信息 处理、自动控制系统等方面都有着非常广泛的应用,也必定会在未来的藏文信息 化建设中起到巨大的推动作用。 1 1.2 语音识别技术概述 1.2 语音识别技术概述 语音识别技术是以语音信号处理为研究对象, 让机器接收并识别、 理解语音 信号,并将其转换为相应数字信号的技术。让机器听懂人类的语言,这是人们长 期以来梦寐以求的事情,而语音识别是一门非常复杂的交叉性学科,它涉及语音 语言学、计算机科学、信号处理学、生理学、心理学等一系列学科,是模式识别 的重要分支。什么是模式和模式识别呢?按照广义的定义,模式是一些供模仿用 的、完美无缺的标本。模式识别就是识别出特定客体所模仿的标本 2。50 年代, 是语音识别研究工作的开始时期,它以贝尔实验室研制成功可识别十个数字的 audry 系统为标志。该技术具有非常广阔的应用前景,从60 年代至今,世界许多 著名公司不惜投入巨资进行研究开发。 20 世纪80 年代语音识别研究进一步走向 深入, 基于特定人孤立语音技术的系统研制成功。在过去20年里,隐马尔可夫模 型和人工神经元网络(artificial neural network) 在语音识别中的成功应用使 语音识别从神秘不可思议的学术研究发展成为新世纪人机信息交互最时髦的界 面技术之一。我国对语音识别的研究始于20 世纪80 年代,近年来发展迅速,并 取得了一系列的成果,其中,北京大学和中科院声学研究所一直紧跟国际水平, 进行汉语语音识别技术的研究工作。藏语语音识别技术的研究才刚刚起步,由于 语言本身的复杂性所限,目前还停留在实验室研究阶段,尚未形成比较成熟的理 论成果。 现代语音识别系统将信号处理、模式识别、语言学、语音学等多领域技术有 机地融入统计数学方法的框架,并通过算法和计算机技术相结合的方式来实现。 目前,这样的系统能够做到识别理解数十万条词汇的连续语音信号。这种现代模 式识别系统除了在语音领域的应用外, 可以广泛应用于信号处理和模式识别的其 它领域, 代表着信号与信息处理技术从曾经以解析结论或数值模拟占主导地位的 方法论和系统工程向现代以大规模科学数据积累为基础, 以复杂系统或过程中局 部与整体交互演化的功能实现为主要目标的方法论和系统工程的革命性转变。 语 音识别一般分为两个步骤: 学习阶段和识别阶段。 学习阶段的任务是建立识别基 本单元的声学模型以及语言模型。 识别阶段是将输入的目标语音的特征参数和模 型进行比较,得到识别结果。语音识别系统本质上讲是一种模式识别系统,其原 理如下图所示: 3 2 图 1-1 语音识别原理示意图 下面对该流程作简单介绍: (1) 语音采集设备如话筒、电话等将语音转换成模拟信号。 (2) 数字化一般包括预滤波、采样和 a/ d 变换。该过程将模拟信号转变成 计算机能处理的数字信号。 (3) 预处理一般包括预加重、加窗分帧。经预处理后的信号被转换成了帧序 列的加窗的短时信号。 (4) 参数分析是对短时信号进行分析并提取语音特征参数的过程,如时域、 频 域分析,矢量量化等。 (5) 语音识别是目标语音根据特征参数与模型库中的参数进行比对,产生识 别结果的过程。一般有模板匹配法、随机模型法和神经网络等。 1.3 藏语语音识别研究的目的和意义 1.3 藏语语音识别研究的目的和意义 少数民族语言文字中,藏族语言文字历史悠久,其所涵盖的传统文化博大精 深。我们的生活、学习、工作、交流、通讯都离不开语音,尤其是随着计算机信 息技术的迅猛发展,工程语音学的研究成果在社会各个行业中的应用越来越多, 如语音合成、语音识别、人机对话等各类需求。藏语也不例外,甚至有着更突出 的体现。目前,藏语语音在教学、科研、信息传递、鉴别分析等方面都已体现出 了广泛的需求和不可估量的应用前景。 藏语语音识别技术研究已被人们普遍关注 并采用计算机辅助研究来付诸实施,使语音的研究成果更具科学性和实用性。 本文在汉、英语音识别研究的成果基础之上,以标准拉萨语为研究对象,建 立具有代表性的小词汇量孤立词语音样本库和声学特征参数数据库, 初步概括出 拉萨话孤立词的发音特点并将其矢量化, 从而较全面地了解拉萨话文读语音系统 3 的轮廓并为该方言在应用语言学领域以及今后的藏语语音识别及合成、 藏语语音 教学、语言工程等方面的应用提供必要的基础参考数据。这无疑对藏语语言学、 藏语工程语音学和社会历史学都有着极为重要的理论价值和现实意义, 为未来的 藏文信息处理领域开辟更为广阔的研究空间也是有很大帮助的。 藏文文字识别的 研究已经取得了非常显著的成果并已进入实用阶段, 语音识别技术的研究将为藏 文化体系识别领域的研究起到推波助澜的作用, 也将对藏民族优秀传统文化的进 一步发扬光大和得到更好的传承延续起到非常重要的促进作用。 1.4 研究的主体和论文的组织结构 1.4 研究的主体和论文的组织结构 1.4.1 研究内容 (1)降噪处理方法及算法研究; (2)藏语语音增强算法研究; (3)藏语语音端点检测算法研究; (4)基于 mfcc 的藏语孤立词语音特征参数提取算法研究; (5)基于 hmm 的藏语数字孤立词特征提取算法研究; (6)研究建立相关语音库的流程、方法并积累经验; 1.4.2 创新点 近年来藏语语音识别已经成为藏文信息技术研究领域的一大热点但同时也 是一大难点。中央民族大学、西北民族大学、青海师范大学及中国社会科学院语 言研究所等高校和科研单位对藏语语音识别也做了很多研究工作, 取得了一定的 理论研究成果和实验数据,但由于语音识别和藏文本身复杂性的限制,现有的研 究都处于最初级的实验室探索阶段,想要进入真正的实用阶段还任重而道远。本 文在学习和借鉴相关研究成果的基础上, 研究了基于标准拉萨语的语音识别方法 及其算法,论文所具有的创新点如下: (1)通过理论研究及实验提出了较为有效的标准拉萨语特征提取方法及其 算法; (2)能够在小词汇量孤立词范围内实现较高的识别率,为下一步实现大词 4 汇量语音识别和进一步提高识别率提供了参考依据。 1.4.3 论文的组织结构 第一章即为绪论,简单地介绍了本论文选题的目的、意义以及研究的主体、 背景。最后阐明了本文的组织结构、相关基本概念及所做的主要工作; 第二章在学习和参考他人现有研究成果的基础上结合实验语图归纳总结出 标准拉萨语发音的生理属性、发音特点及文读特征; 第三章是基于 hmm 和 mfcc 的藏语语音识别技术的研究。介绍了语音识 别所涉及的预处理、端点检测及特征提取等关键技术的相关知识及其算法; 第四章简要介绍了建立三个语音库即藏语孤立词语音样本库、用户训练库、 用户实时录入库的相关内容; 第五章除了介绍仿真实验的原理、方法、设备等信息外还通过编程在 matlab 环境下对藏语 10 个数字做了预处理、 端点检测、 特征提取及识别 的仿真性测试并对实验结果做了总结; 第六章在总结前面研究及实验的基础上对藏语语音识别提出了展望。 1.5 相关基本概念 1.5 相关基本概念 模式识别:模式识别:模式识别(pattern recognition)是指对表征事物或现象各种 形式的(数值的、文字的和逻辑关系的)信息进行处理和分析,以对事物或现 象进行描述、辨认、分类和解释的过程,是信息科学和人工智能的重要组 成部分。随着 20 世纪 40 年代计算机的出现以及 50 年代人工智能的兴起, 模式识别在 20 世纪 60 年代初迅速发展并成为一门新学科。 语音识别:语音识别:语音处理和识别是利用计算机对语音信号进行分析和综合, 从而实现对人类语音的自动理解和处理的一门学科,它是信息科学中一个 十分活跃的研究领域。 语音库:语音库:语音库是指将声音采样并数字化后形成的数据库。 预处理:预处理:去除语音信息获取过程中参入的干扰和噪声,人为地加强有 用信息,并对因种种因素造成的退化现象进行复原的过程称为预处理。 端点检测:端点检测:孤立词识别中,确定单词语音信号的起始点和终止点的过 5 程称为端点检测。它可以减少非实时系统中的大量计算,对语音识别有着 非常重要的意义。 特征提取:特征提取:在处理语音信号的过程中,我们必须先对大量的样本进行 参数化,也就是提取较少的有代表性的部分数据来表征某一段语音信号, 这个过程就是特征提取(feature extraction)。 mfcc:数字化的语音信号是声道频率和激励信号源二者的共同结果, 后者对于某帧而言常带有一定的随机性。说话人的个性特征很大程度上体 现在说话人的发音声道变化上,即声道频率特征。若对语音信号先经过一 定的频率坐标的尺度弯折 tw(): 频率坐标在 1000hz 以下的采用线性的 频率弯折; 频率坐标在 1000hz 以上的采用对数的频率弯折; 然后再进行逆 dft,这样得到的特征称为美尔倒谱系数(mel-frequency cepstrum coefficient)。 lpc:lp(线性预测)所包含的基本概念是,一个语音信号能够用过去若 干个语音采样的线性组合来逼近,通过使实际语音采样和线性预测采样之 间的差值的平方和(在一个有限间隔内)达到最小值,能够决定唯一的一组预 感器系数,称该组系数为线性预测系数即 lpc。 hmm:1870 年,俄国有机化学家 vladimir v. markovnikov 第一次提 出马尔科夫模型(hidden markov model)。每一说话人的语音特征都是随着 时间的变化而变化的,如果将这种特征的变化过程用状态间的转移来描述, 则构成了说话人的隐马尔可夫模型。hmm 方法已经成为语音识别的主流技 术。 加窗:加窗: 语音信号的准平稳特性是指在短时间段(1020ms)上可以认为声 道形状、激励性质、模型的各参数都没有改变,因此可以采用分析平稳过 程的方法来分析语音信号。把已采集到的语音信号分为一个个短时段,每 个短时段称为一帧,帧长记为 n(以 ms 为单位)。对于每一帧,为了从其中 切取含有 n 个样本的语音信号序列,需要用时间窗函数 w(n)与原来的语音 信号 s(n)相乘,这一过程称为加窗。 短时平均过零率:短时平均过零率:短时平均过零率信号的幅度值一秒内在正值和负值 之间的跳变次数称为过零率。将信号按窗口进行分割,把窗口内信号的过 零率作平均统计,即为短时平均过零率。 6 鲁棒性:鲁棒性:鲁棒性是指在训练环境和测试环境不匹配时,系统保持较高 识别率的性能。鲁棒语音识别技术是语音识别系统从实验室理论走向实际 应用的关键性技术之一,它研究的主要目的是解决训练环境与使用环境之 间失陪所造成的识别率下降的问题。 短时能量:短时能量: 短时能量是语音信号强度的度量参数,主要用于识别无声 段和语音段的起点和终点的位置。它与窗的起点有直接关系,如果窗的起 点是 n=0,短时能量为 ;如果窗的起点为 n=m,短时能 量为 。 )( 1 2 0 nse w ) 1 2 ne wm = 0 阈值:阈值:一个领域或一个系统的界限称为阈,其数值称为阈值。在各门科 学领域中均有阈值。可以理解为对某种情况的判断值,即高于这个值是一种 情况,而低于这个值又是另外一种情况。 n n = = ms mn mn + = ( 采样:采样: 采样就是按照一定的时间间隔从模拟连续信号提取出一定数量的样本 来,即数字音频文件,该过程实际上就是将模拟信号转换成数字离散信号。 采样率:采样率:采样率表示了每秒对原始信号采样的次数,一般用 khz 来衡量。 采样精度:采样精度: 采样精度就是指存放一个采样值所使用的比特数, 以 bit 为单位。 声音频率:声音频率:它是指人发声时每秒钟声带振动的次数,其单位用赫兹(hz)来 表示。国际通信标准制定人的声音频率范围为 300hz-3400hz。压力大小决定了 声音的强度,声带的张力与质量决定声音的频率。 声道:声道:声道指输入或输出信号的通道。声道分为单声道(mono)和立体声 (stereo),通常用多声道来输入或输出不同的信号,如果只需录制一个位置的一 种信号时,则选用单声道。 信噪比:信噪比:信噪比指信号与噪声之间的能量比。录音时信噪比越高越好,8 位 采样的信噪比大约是 48db。 共振峰:共振峰:声道的谐振频率称为共振峰频率或共振峰。 vot:vot: 英文全称为 voice onset time,中文有“嗓音起始时间”、“浊音起 始时间”、“发声起始时间”、“声带震动起始时间”等各色缤纷的译法,是用 作分析浊送气音的指标。 7 1.6 发展前景 1.6 发展前景 语音识别技术经历了从孤立词、特定人、小词汇量到连续语音、非特定人、 大词汇量的进展历程,21 世纪,语音技术已渗透到各行各业,在科技界、工业 界、国防界都有广泛的应用价值和前景。各种高性能的语音识别系统 45如,声 控电话交换、 语音拨号系统、 信息网络查询服务系统、 订票系统、 声控智能玩具、 医疗服务、 银行服务、 听写机、 计算机控制、 工业控制、 语音通信系统等等, pda、 掌上电脑、复读机、移动电话等在电信与数字网络中都已得到广泛应用。这种交 互式进步正是当前语音识别的发展模式也是未来藏语言语音识别发展的必然趋 势。语音技术的应用正在成为一个具有竞争性的新兴高技术产业,改变着人们的 日常生活。 1.7 面临的难题 1.7 面临的难题 语音识别是一项复杂的技术,对于藏语语音识别更是如此,藏语语音识别工 作目前还处于理论研究的处级阶段, 语音识别技术要得到突破性进展且进入大规 模实用,还要跨越很多障碍。 首先, 为实现准确且高效的语音识别所必须建立的藏语语音样板库和训练库 需要大量的人力、物力,它的实现存在诸多客观困难。 其次,语音信号存在较大的漂移性。同一个音节或单词的语音不仅随着的讲 话者的不同而变化,而且对同一个讲话者在不同场合,不同上下文环境中也会发 生变化,从而增加识别过程中的不确定性,语音识别中存在的噪声、多通道、时 漂、情绪等因素都属于这个方面,这意味着需要对语言模型、算法模型和语音识 别的自适应性方面作不断的改进。 与此同时, 建立较好的以藏语言学为基础的文法模型, 才能使计算机确实 “理 解”人类的语言,从而得到较高的识别率,这是一项艰巨的任务。 此外, 大量的研究表明, 目前语音识别的问题主要来自说话人的特征提取上, 如何寻求新的更具有个性特征表现力、拥有更强的鲁棒性的语音特征,或者对现 有特征进行优化的选择、融合、补偿等方法来增强现有系统的性能,仍然是藏语 语音识别乃至整个语音识别领域中亟待解决的重要问题。 8 1.8 主要工作和研究成果 1.8 主要工作和研究成果 藏文语音识别系统以孤立词为发音单位向系统输入语音。与词组发音相比, 这种发音方式比较自然,且输入效率也比较高。系统首先建立样板语音库,建库 的原则是事先用许多人(通常 3040 人)的语音样本训练系统,提取形成一套基 础的语音库,所有使用者共用一套样板语音库,同时系统针对非特定人的语音进 行识别,对于每一个使用者都必须首先建立个人独有且专用的用户语音训练库。 使用该系统时用户语音训练库和样板语音库配合使用, 共同校正结果以提高语音 识别率。藏语语音识别系统主要包括以下几个步骤。 1.8.1 语音信号的预处理和端点的检测 语音信号的预处理主要是对采集到的信号进行基于小波变换的基音检测、 语 音增强等技术处理,过滤无用的干扰噪音,保存语音信息中的关键部分,从而达 到输出的信号既可以保留关键信息又可以降低数据复杂度的目的。 端点检测是指从背景噪声中找出语音的开始点和终止点, 是语音处理领域的 基本问题,特别是在孤立词语音识别中,找出每个单字的语音信号范围是很重要 的,确定语音信号的起点和终点可以减少系统的大量计算,使系统运行效率得到 很大提升。 1.8.2 语音特征提取 语音特征提取主要是建立语言模型, 通过语言模型对预处理之后的语音数据 根据一定的特征参数进行矢量化,得到符合语言模型要求的特定维数的矢量数 据,这些数据对语音信号进行了数字化重建,使信号转化为数据,特征参数的选 择和提取是整个系统构建的基础,也是提高系统鲁棒性的理想方法。一个好的特 征参数应具有以下特点:能有效代表语音特征,包括声道特征和听觉特征,具 有很好的区分性;各阶参数之间有良好的独立性;特征参数要便于计算。 目前识别系统中常用的声学特征参数主要包括:mel 频段倒谱系数(mfcc) 和感知线性预测(plp)参数,线性预测系数(lpc) 、倒谱系数(cep)等。本项 目中语音特征提取方法主要研究 mel 频率倒谱参数 mfcc,它的优点在于不依赖 9 于信号的性质, 对输入的信号不做任何假设和限制, 还利用了听觉模型研究成果, 且信噪比降低时仍具有较好的识别性能。 10 第二章 藏语语音发音特点分析 第二章 藏语语音发音特点分析 本文所涉及和分析的藏语语音都是能够大体上代表卫藏方言的拉萨话, 比起 现代藏语的其他方言而言,拉萨的历史地位和地理位置一向处于开放的状态,从 而导致拉萨话的整个语音系统发生了很大的变化。 古代藏文从整体上把文字分别 归属于阴性和阳性,相对于辅音而言元音被视为弱势音,属阴性,而辅音被视为 强势音,属阳性。传统藏文文法是根据发音部位和发音方法来分析与引用的,而 字母性的分类主要是根据语音要素中的音势的强弱、气流的多寡、带音不带音以 及发音器官肌肉的松紧等来划分。 在传统藏语文法著述中把藏文辅音字母按发音 方法分成强音字、中性字、弱音字、极弱势字、绝弱势字五大类。 “ 6 2.1 藏语语音研究现状 2.1 藏语语音研究现状 藏文创制于 7 世纪,是个先进的拼音文字体制,由 30 个辅音字母和 4 个元 音符号组成,距今已有 1300 多年的历史,由著名的语言学家吞米桑布扎创制。 藏文是以古藏语口语为基础的,拉萨作为西藏自治区的首府,在藏族文化发展史 上占有不可撼动的重要地位,从古至今是都是藏民族政治、经济、文化、宗教的 活动中心。一种语言的变化与该群体所处的社会状态有着直接的关系,当社会呈 现出开放的状态,该语言也会受到各方因素的影响而呈现出极度活跃的状态。不 同语言的质量变化是受到不同社会状态的影响而造成的, 社会系统的状态对语言 变化起着决定性的作用。随着社会的发展和语言的变化,藏语口语语音的对应性 逐渐分化,从而导致了方言的日益分化,书面语和现代口语产生距离,在拼读时 发音有了差异。从古至今,藏语言学家和文字及信息研究者们一直没有停止过探 索的脚步,1300 年来,在漫长的历史时期中字有更革、音有转移,现代藏语有 11 了区域性的语音变化特征,但是文字的使用仍然保持规范统一。 2.2 藏语语音的生理属性 2.2 藏语语音的生理属性 语音的产生是包含了心理和生理等各方面综合因素的一个复杂过程。 藏语发 音机制方面,以前就有完整的理论体系,从音是如何发出的系统问题开始,探讨 了发音部位、发音方法、发音动力、人的意识等一系列涉及语音的生理特征,这 里的发音方法是指发辅音时形成阻碍和克服阻碍的方法, 发音部位指发辅音时发 音器官形成阻碍的部位, 这与现代语音学的理论是完全吻合的, 并且更具科学性。 藏语语音可以分为元音和辅音,气流在口腔或咽头受阻而形成的音叫辅音,气流 振动声带,在口腔、咽头不受阻而形成的音叫元音。藏文将辅音字母和元音字母 分开排列,称辅音字母为“父音” () ,元音字母为“子音” () ,元音 不能独立书写,藏文还是一种准确拼写语音的音素拼音文字 7。从声学角度看, 语音中元音都是乐音, 辅音都带有噪音, 藏语语音中包含 30 个辅音: 和四个元音符号 。 元音是一种准周期信号,不同的元音是不同的口腔形状形成的,可从三个方 面分:由于口腔的开闭、舌头的高低前后、唇的平展圆敛等不同变化形成不一样 的共鸣器,于是形成了元音特有的音色,元音在藏语中的地位至关重要。 语音的区别在于发音部位和发音方法的状态, 现代语音学里把发音器官大致 分为三大部分:肺和胸部是语音的动力器官、喉头和声带是语音的发音体、口腔 和鼻腔是共鸣器,三部分在发音时协同发挥作用。传统藏语中语音的发音部位有 8 个:胸部()、喉部()、上腭()、舌()、鼻腔()、脑腔()、齿()、 唇()。以上发音部位也分为窄位和宽位,属于窄位的有喉部()、鼻腔 ()、脑腔(),属于宽位的有胸部()、上腭()、齿()、唇()、舌()。关 于藏文发音部位和发音方法的原理有以下论述: ? ? ? ? ? 12 ? ? ? ? ? ? ? ? ? ? ? ? ?() ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 8 13 2.3 藏语拉萨话书面语文读特征 2.3 藏语拉萨话书面语文读特征 书面语和口语是一种语言的不同表现形式,虽然语言内部系统是一致的,但 在语音层面上,文读和口语白读是存在一些差异的,而且它们的适用范围也有所 不同,本文重点所要分析的是藏语拉萨话的文读特征,这里的文读是指书面语的 读音,与此相对而言的口语是一个方言的土语。藏语的书面语和口语之间的差异 日益显现,对一种语言的发展而言,一定程度上来讲会起到消极作用。藏语是拼 音文字,从遗留下来的丰富文献中,都能依稀辨别出古今之差别。因此,在目前 藏语方言分歧较大的情况下, 从各方面尤其是信息化方面着手建立藏语标准语并 做好它的规范化普及工作对于藏民族社会的发展以及藏文化的发扬光大都有着 非同寻常的意义和作用。 藏文是一种准确拼写语音音素的拼音文字, 研究藏语语音的发音特征就必须 细化到各音素的发音特征。藏文的三十个辅音和四个元音符号具有以下发音特 点: 辅音发音时气流要经过不同的阻碍且发音器官中阻碍部分较紧张, 气流较强, 字母系统中的顺序就是以发音特征为根据,每四个一组依次排列的。相对而言, 元音发音时气流不受阻碍,发音器官均衡地紧张,气流较弱。所有的元音都是浊 音。此外,拉萨话的声调也具有一定的特点,胡坦认为“拉萨话声调的来历大都 可以从古藏语单音节结构的一头一尾中找到渊源,声母的简化导致高低调的独 立,韵尾的简化导致高低调各分平降” 。与此同时,胡坦老师在藏语(拉萨话) 声调研究一文中借助现代计算机对拉萨语的声调现状作了较为详尽的分析,依 据实验结果,拉萨语的调值、调类的分法如下表: 9 二分法 三分法 四分法 六分法 赵元任 于道泉 中央民院式中科院式 张琨式 胡坦式 元音 高调 54 h 高平调 f 高平 55 长调 55 53 高调 x 高降调 h 高降 53 短调 韵尾 52 131 低调 v 低升调 v 低升 35 短调 低调 12 轻声不标调 w 低升降 15 长调 113 132 14 2.3.1 藏语拉萨话元音韵母的文读特征 拉萨话元音的声学特征不同于辅音那么复杂,主要表现在元音共振峰上,在 语图上表现的模式相对简单,即用横杠来表示共振峰的频率变化。 “元音共振峰 是元音音质最主要的声学标志(特征) ,它是由声带振动作为激励源经声腔共鸣 形成的。不同的元音有不同的声腔形状,就有各自的共振峰。一般说每个元音有 5 个共振峰,其中前两个对音色起到重要作用” 10。元音共振峰的模式在语图的 频率轴上表现出一定的有序性,形成了明显的构型,它随元音发音口腔形状的改 变而发生变化。在现代藏语里还存在少数的元音,复元音是从一个元音滑到另一 个元音,它的共振峰在语图中处于不断的变化状态。另外,在赛氏文法中元 音的发音特征有如下描述: 11 2.3.2 藏语拉萨话单辅音声母的文读特征 辅音在语图(spectrogram)上的声学纹样可以分解为一组基本模式:冲直条 (spike)、无声空间(gap)、乱纹(fills)、噪音横条(voice bar)、共振峰 (formant) 12, 这些基本纹样的模式在单独或混合出现时表示出各自的发音特征, 辅音在发音方法上的区别表现为图形类别的不同, 发音部位上的区别表现为图形 分布范围和频率位置的不同。为了便于分析,我们通过音节构成的成分并结合各 个辅音的发音语图来进行特征分析。 15 1 k 辅音 k 是一个舌根 清塞音, 在语图上的表现 为一个冲直条和一段简 短的乱纹, 冲直条是这个 辅音在发音的过程中除阻的表现,一段乱纹是向元音过渡的过程,表明是一个不 送气的塞音。是舌根贴近软腭,鼻腔堵塞声带不振动,气流爆破成音。 2 kha-g 原辅音 kha 和浊辅 音 g 归并为 kh,是一个 舌根送气塞音, 在语图上 的表现为冲直条和一段 延续的噪音段引起的乱 纹, 冲直条是这个辅音 在发音的过程中除阻的表现,比 k 的气流强,乱纹是辅音的送气段,表明是一个 送气塞音,音调为低调。 3 kha-g 该辅音是一个舌根 送气塞音, 在语图上的表 现为冲直条和一段延续 的噪音段引起的乱纹, 冲直条是这个辅音在发 音的过程中除阻的表现, 比 k 的气流强, 乱纹是辅 音的送气段,表明是一个送气塞音,音调为高调。 16 4 辅音 是一个舌根 鼻音, 在语图上跟元音有 相似的特征表现, 但比元 音弱。 表现为声带振动引 起的浊音横杠和共振峰 横杠,共振峰是气流在口腔内受到阻碍,气流通过鼻腔引起的共鸣所形成的,这 个辅音在除阻之前声带已经开始振动产生了基频,接元音后继续保持振动,辅元 结构之间没有空白段,此辅音的 vot0,表明是个浊音。 5 辅音 是一个舌面 前的清塞擦音, 在语图上 的表现为一个短粗的窄 细冲直条和一段噪音短 的乱纹, 表明这种冲直条 后街乱纹的音是一个不送气塞擦音。短促窄细的冲直条是除阻的表现,乱纹是辅 音发出时舌尖与上腭贴近到能够产生湍流的情况下发声的表现。 6 h- 原辅音h和原浊辅 音 归并成 h, 是一个 舌面前送气塞擦音, 在语 图上的两个辅音在元音 之前表现为间隙和一个 模糊短促的冲直条, 之后是一个较长的明显送气乱纹, 表明是一个送气清塞擦音。 间隙后的窄细冲直条是除阻的表现,乱纹是冲直条结束后的一段送气段噪音。 17 7 h- 该辅音有与相似 的语图,跟辅音 相比, 此辅音的起始有不太明 显的间隙和窄细冲直条, 说明阻塞的程度稍弱。 有 很明显的送气段,说明辅音 h 的送气段是音渡的过程。 8 辅音 是一个舌 面前鼻音, 在语图上表现 为跟元音共振峰相似但 比元音稍弱的共振峰模 式和明显的基频横杠, 辅 音的鼻共鸣特征出现在 元音第一共振峰之下弱化并抬高,表明是一个浊辅音。 9 t 辅音 t 是一个舌尖 中清塞音, 在语图上表现 为一个较明显的冲直条, 冲直条是这个辅音在发 音的过程中除阻的表现, 表明是一个塞音。 乱纹的 时段很短,是辅音在除阻之后过渡到元音的过程表现。 18 10 th-d 原辅音th和d 归并 为 th,是一个舌尖中送 气塞音, 是原浊塞音演变 为清塞音的, 在语图上表 现为一个窄细的冲直条 和一段噪音段, 冲直条是 这个辅音在发音的过程中除阻的表现,表明是一个送气音。 11 th-d 该辅音在语图上表 现为一个窄细的冲直条 和一段噪音段, 冲直条是 这个辅音在发音的过程 中除阻的表现, 表明是一 个送气塞音。 乱纹是辅音爆破后元音的声带振动前持续一段时间的声门敞开的气 流所引起的。 12 n 辅音 n 是一个舌尖 鼻音, 在语图上表现为和 元音共振峰相似但比元 音较弱的共振峰模式和 明显的基频横杠, 在频谱 中辅音的第二共振峰比第一共振峰减弱很多,能量主要集中在 216hz 处,表明是 一个浊辅音。 19 13 p 辅音 p 是一个双唇 的不送气清塞音, 发音伊 始在语图上表现为一个 窄细的冲直条, 冲直条是 这个辅音在发音的过程 中除阻的表现为短暂的爆发音段,表明是一个塞音,是辅音在瞬间除阻时气流爆 破所发出来的音。 14 ph-b 原辅音 ph 和 b 合并 成 ph,是一个双唇的送 气清塞音, 在语图上表现 为一个窄细的冲直条和 一段乱纹, 这种冲直条加 乱纹的辅音为送气塞音,冲直条是这个辅音在发音的过程中除阻的表现。语图上 的乱纹是此辅音爆破后在持续一段的声门敞开的噪音段。 15 ph-b 该辅音与辅音 一 样也是一个双唇的送气 清塞音, 发音开始时在语 图上表现为一个窄细的 冲直条和一段乱纹, 这种 冲直条加乱纹的辅音为 送气塞音,冲直条是这个辅音在发音的过程中除阻的表现。语图上的乱纹是此辅 音爆破后在持续一段的声门敞开的噪音段。 20 16 m 辅音 m 是一个双唇 鼻音, 在语图上表现为跟 元音共振峰相似但比元 音较弱的共振峰模式和 明显的基频横杠, 在频谱

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论