语音学基础知识(初级篇).docx

上传人：活*** IP属地：宁夏上传时间：2019-12-19 格式：DOCX 页数：15 大小：803.14KB 积分：11 举报 版权申诉

已阅读5页，还剩10页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

语音学基础知识(初级篇) 刘静娟修订历史记录日期版本说明作者2014/2/201.0初稿刘静娟目录语音学部分（一）4语音的形成过程4各器官对语音的作用5语音的短时平稳性5语音的分帧处理5语音四要素6音节6音素（phoneme）7国际音标（ipa）7元音（vowel）和辅音（consonant）8清音和浊音8声音和韵母8wav文件结构9信噪比10噪声10如何提取视频中的音频10声学部分（二）10声纹概念10声纹特点11声纹鉴定常用的设备11声纹鉴定12声谱仪及原理12声纹鉴定的客体12检材和样本12波形图13语谱图14如何读谱14编者按从入门篇里，我们了解到了与语音相关的一些基础概念，对语音有了个初步的了解。在接下来的初级篇里，主要介绍了语音是如何产生的，语音的特点及构成、语音如何转化为声纹等方面的知识，同时从声纹鉴定的角度梳理了声纹的常用特征谱图等，初级篇里的内容会根据大家的意见进行逐步完善和丰富的。_语音学部分（一）语音的形成过程语音就是人类调节呼吸器官所产生的气流通过发音器官发出来的声音。气流通过的部位不同、方式不同，形成的声音也就不同。以下是发音器官的构造图：解释：通过这张图，我们可以看到，人说话时，先由肺产生动力气流，经气管、声带的振动产生声波，声波再由咽腔、口腔、鼻腔组成共鸣腔，最后经嘴唇辐射传到口外。形成了不同响度、声调和音色的语音。各器官对语音的作用1) 肺把气流送入喉，把从肺部呼出的直流气流变为音源，即变为交流的断续流或乱流2) 喉将来自肺的气流调制为周期性脉冲或类似随机噪声的激励声源，并送入声道3) 口腔和鼻腔形成共鸣管道，声道对频谱进行润色后在嘴唇处的气压变化形成可以传播的声波。肺相当于动力源，喉相当于调制器，声道相当于滤波器和扩音器。语音的短时平稳性语音信号是一种时变信号，同时具有短时平稳性，通过对语音信号进行短时分析进而捕捉语音的时变信息。语音的分帧处理由于语音信号的短时平稳特性，将语音信号划分为很多短时的语音段，每个短时的语音段称为一个分析帧。前一帧和后一帧的交叠部分称为帧移。帧移与帧长的比值一般取为01/2。通过帧移来实现每一帧之间的平滑过渡。分帧是用可移动的有限长度窗口进行加权的方法实现的，就是用一定的窗函数w( n)来乘s (n)，从而形成加窗语音信号。以下是帧移和帧长之间的关系图：语音四要素在感知语音学上，以音色、音高、音强和音长四个听觉来描述和区别语音。比较两个语音的异同点，主要从这四个方面进行比较。1) 音高：指声音的高低。音的高低由发音体的振动频率决定的。不同频率的声音产生不同的音调感觉。频率振动次数多则音高，反之则低。例如：不同声调的i（如“衣，宜，以，翼”）是音高的不同。人耳能够听到的频率范围在1620，000hz之间。妇女和儿童的声带短而薄，所以说话时声音高一些（妇女150300hz，儿童200350hz）。男子的声带长而厚，所以说话的声音低一些（60200hz）。2) 音强：即声音的轻重或强弱。它取决于振幅。发音时用力大，气流强，声音就强或重，反之就弱或轻。音强在感知上对应是的响度。例如：“帘子”的“子”念轻声，“莲子”的“子”不轻。3）音长：就是音节时长。语速快，音节就短，语速慢，音节就长。语速快慢一定程度上代表了说话者发音的习惯特征。例如，“科大讯飞”和“科-大-讯-飞”，如果一个音节长的话，比较起来就容易些。音节太短的话，可能提取的特征就比较困难。4）音色：音色是声音的特色，代表不同物体的发音特点。根据不同的音色，即使在同一音高和同一声音强度的情况下，也能区分出是不同乐器或人声发出的。在声学分析中，音色主要表现在对共振峰的特性分析上。扩展音色的不同取决于不同的泛音，不同的人以及所有能发声的物体发出的声音，除了一个基音外，还有许多不同频率的泛音伴随，正是这些泛音决定了其不同的音色，使人能辨别出是不同的乐器甚至不同的人发出的声音。每一个人即使说话也有不同的音色，因此可以根据其声音辨别出是不同的人。音节音节是听觉能感受到的最自然的语音单位，有一个或几个音素按一定规律组合而成。汉语中一个汉字一般是一个音节，每个音节由声母、韵母和声调三个部分组成；例如：bian（边）这个音节是由四个最小音素组成的。英语get这个音节是由三个最小音段组成的。汉语音节之间的界限最为清楚，一个汉字就是一个音节。扩展超音质成分是由音高，音强和音长三部分组成。从声波特性来分析超音质成份：基频确定音高，振幅确定音强，时间确定音长。音素（phoneme）音素是构成音节的最小单位或最小的语音片段，每一种语言中的音素都是不一样的，即使是同种语言中，方言的音素也是不一样的。汉语音素中，包括10个元音，22个辅音，总共有32个。一个音节，至少有一个音素，至多有四个音素。例如：“普通话”，由三个音节组成，可以分析成“p,u,t,o,ng,h,u,a”八个音素。国际音标（ipa）简称ipa，是国际上通行的一种语音注音符号，由国际语音协会于1888年制定并公布，后经多次修改。用国际音标记音，用于表示发音上的语音细节时，采用进行记录。一个音素对应一个符号。例如：如：普通话ban（班）和bang（邦）的a，用国际音标分别为a和。扩展在对语音进行标音时，分为严式标音法和宽式标音法两种。严式标音：就是出现什么音素就记录什么音素，有什么伴随现象就记录什么伴随现象。例如：现代汉语中，较低的舌面元音可归纳为一个音位/a/，若用严式标音，则必须分别标为、a、a、æ等。宽式标音：是在严式标音的基础上，整理出一种语音的音位系统，然后按音位来标记语音，也就是只记音位，不记音位变体及其它非本质的伴随现象。例如：现代汉语中，舌面低元音有、a、a、等多个，用宽式标音只用/a/就可以了。用宽式标音，可以把音标数目限制在有限范围之内，因而能把一种语言或方言的音系反映得简明清晰。元音（vowel）和辅音（consonant）元音：元音是在发音过程中由气流通过口腔而不受阻碍发出的音。由于声带颤动，形成的声波都是周期性的，因此，元音都是浊音。普通话里的a,0,i都是典型的元音。辅音：发音时由于气流暂时被阻，不能通过或只能勉强挤出去，所产生的声音大都是瞬音或紊音。多数为不颤动的清辅音，少数辅音为声带颤动的浊辅音汉语中，辅音也称为声母，元音也称为韵母。例如：普通话里的b,d,g都是气流被阻断后产生的瞬音，f,s,x则是气流勉强挤出产生的紊音。清音和浊音按声带振动来分。元音一定是浊音，发音时，声带需要振动，辅音有清浊之分。有清辅音和浊辅音。例如：m n l r都是浊辅音。声音和韵母声母：是使用在韵母前面的辅音，跟韵母一齐构成一个完整的音节。目前汉语中的声母有21个。韵母：汉语字音中声母、字调以外的部分。旧称为韵。韵母又可以分成韵头(介音)、韵腹(主要元音)、韵尾三部分。每个韵母一定有韵腹，韵头和韵尾则可有可无。例如：“娘”ning的韵母是iang，其中i是韵头，a是韵腹，ng是韵尾。“大”d的韵母是a，a是韵腹，没有韵头、韵尾；“瓜”gu的韵母是ua，其中u是韵头，a是韵腹，没有韵尾；“刀”do的韵母是ao，其中a是韵腹，o是韵尾，没有韵头。普通话中共有39个韵母。wav文件结构/* 目前工作站、声纹库等项目中分析的语音文件基本上都是wav，因此在这里简述下wav文件的结构。*/wave是录音时用的标准的windows文件格式，文件的扩展名为“wav”，数据本身的格式为pcm或压缩型。wav文件的三个参数：采样位数、采样频率和声道数。声道有单声道和立体声之分，采样频率一般有8khz、11025hz（11khz）、22050hz（22khz）和44100hz（44khz）三种。wav文件所占容量=（采样频率采样位数声道）时间/8（1字节=8bit）。信噪比是指正常声音信号功率s与无信号时噪声信号(功率)n的比值。用db表示。一般来说，信噪比越大，说明混在信号里的噪声越小，声音回放的音质量越高，否则相反。信噪比一般不应该低于70db，高保真音箱的信噪比应达到110db以上。例如：有一台收音机，它的有用信号输入功率是500w,噪声功率是5w，此时收听广播很清晰，有另一台收音机，它的有用信号输入功率是1000w，噪声功率是500w,此时有用信号被淹没在噪声中，什么也听不清。因此，信噪比越高，声音的清晰度越高。噪声广义上，凡是人们讨厌的声音都称为噪声。在声学上，通常把那些杂乱无章，时断时续，忽大忽小的声音称为噪声。噪音信号都是在设备录音时自行产生的信号，这些信号与输入信号无关。如何提取视频中的音频可以通过一些音视频分离工具来实现分离，比较通用的工具有：格式工厂、cyberlink_powerdirector工具等拿：cyberlink_powerdirector工具来举例：方法：安装该工具后，打开工具，选择“导入媒体”，导入后，直接在该视频文件上单击右键，选择：提取音频，并保存为.wav格式的音频文件。声学部分（二）声纹概念声纹原指通过电声学仪器分析、显示出来的语音图像，即语音的频谱图。声纹现指作为诉讼证据的声音特征的集合。例如：以下就是一个声音转化成的语音波形和语谱图：声纹特点一个人从十几岁变声后，声纹基本不再改变。因此，声纹与指纹相似，具有各不相同的特点。具有相对稳定性。成年人的声音可保持长期相对稳定不变。获取犯罪分子的声纹和嫌疑人的声纹，通过声纹鉴定技术进行检验对比，迅速认定罪犯，为侦查破案提供可靠的证据。每个人，都具有独特的声纹，这是由每个人的发声器官在成长过程中形成的。无法模仿，声纹这个特征可以用来确认一个人的有效身份。人的声纹有80多个特征可以用来进行对比。我们现在是对其中的几个特征进行研究。比如基频、能量、共振峰、过零率曲线等等。声纹鉴定常用的设备目前常用的声纹鉴定设备主要有：vs-99语音工作站、声纹鉴定工作站、wavesurfer、praat软件等。声纹鉴定有狭义和广义之分，狭义方面单指说话人鉴定。广义上则泛指声纹鉴定技术，也就是运用现代科学技术结合经验知识分析检验，确定或推断语音或音源是否同一，音像资料是否真实完整、噪声的来源、语音的内容、属性及录制器材等，为审判活动提供证据的一种专门技术手段。对于声纹的鉴定，最早是通过声谱仪鉴定的。伴随电声技术的发展和研究，把语音有图形描绘出来，形成了现在的语音图形显示。声谱仪及原理声谱仪是一种动态音频频谱分析仪，他能把声音信号转变为可见谱图，可以谱图进行切分、听辨。观察这些谱图，检测声音信号的频率，强度和时间等物理参量以及它们之间的关系，分析声音信号的声学特性，声谱仪的结构主要包括信号采集，量化，频谱分析频谱显示三个部分，其中频谱分析是声谱仪的核心部分。它利用快速傅里叶变换(fft)，和线性预测编码（lpc）技术，将时域的声音信号转化成频率的声音信号，进行信号的声学特性分析。声纹鉴定的客体常见有：录音（机）笔、录音电话机、手机、电话录音系统、视频监控系统中的音频资料。检材和样本/* 我们在做声纹鉴定时，都会涉及到检材和样本。确定样本和检材是否是同一说话人。下面解释一下什么是检材和样本。*/1、检材：指犯罪现场获取的语音，未知说话人的语音。由于检材是从犯罪现场捕获的，而此会存在很多的局限性，比如音质不高、声音小、有噪音、时间短，有多人对话，这些都会干扰我们对检材的获取，从而影响材料的鉴定结果。2、样本：指犯罪嫌疑人提供的已知说话人身份的语音。最好是高保真信道采集。在制作样本时，尽量和检材中的声音环境接近一致。波形图波形图表示语音信号的输入形式。语音经过话筒由声压信号转变为电信号，也就是模拟信号，再经过模数转换，就变成了数字信号。也就是我们用cooledit看到的波形图。时域波形的获得语音经过话筒由声压信号转换为电信号（模拟信号）经a/d转换，进行离散采样和量化转换为数字语音信号该信号各采样点的幅度值构成语音的时域波形数字语音信号的两个重要参数采样率fs：对应信号频谱的最高频率为fs/2 量化比特数：16bits量化 -3276832767语谱图语谱图是表示语音频谱随时间变化的图形，其纵轴为频率，横轴为时间，任一给定频率成分在给定时刻的强弱用相应点的灰度或色调来表示。我们现在看到的语谱图基本上都是二维图形。其实语谱图是一个三维立体图形，横轴是时间，纵轴是频率，坐标点值是能量图。能量是通过颜色来表示的，颜色深，表示该点的语音能量强。解释：1、从图中可以看到明显的一条条横方向的条纹，条纹是颜色深的点聚集的地方，随时间

人人文库> 全部分类> 应用文书 > 事务文书

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

语音学基础知识(初级篇).docx

文档简介

温馨提示

最新文档

评论

语音学基础知识(初级篇).docx

文档简介

温馨提示

最新文档

评论

相关文档