不用WindowsSpeechSDK的“语音合成”方案.doc

上传人：s*** IP属地：四川上传时间：2019-04-06 格式：DOC 页数：7 大小：68.80KB 积分：15 举报 版权申诉

已阅读5页，还剩2页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

不用Windows Speech SDK的“语音合成 ”方案 -风轻云淡 “语音合成 ”，在电脑上实际上是完成“字符转变为语音”这个功能的。我个人也就沿用这个“语音合成 ”这个概念吧。笔者就此事情，了解了一下“语音识别和语音合成”程序设计方面的事情，好像都是要借助于“微软Windows Speech SDK”这个开发包。假如要甩开这个“SDK”，是否有可能呢？笔者通过实验注来看是可以的。但它是否能推广到一般呢？是否可以仿此推广到其它的语种呢？是否可以多语种的混合使用？是否可以在Liunx系统中仿照方法也能够实现呢？诸如此类的种种问题，有待于广大程序员的辛勤和努力工作。下面，把我以中文为对象，在VB里的做过的实验过程大概的说一下：先制作发音文件：中文发音文件，根据现代汉语词典商务印书馆 1981年北京版这部词典来制作的。根据【音节表】制作1331个中文音节发音音频文件，是MP3格式，【每个音节做成一个音频文件，包括汉语拼音的四声，分别命名为编号. MP3】。其序号从1开始一直排到1331.。每个音频文件的名称就成了xxx.mp3，注：xxx表示11331之间的任意整数。为说明和理解的方便，暂时把这些发音文件理解成一个文件，即“读音文件”。关于这种文件的制作，有条件的可以自己录音制作，笔者也赞成这样，做好的发音文件要经过修剪的。因为笔者是为了实验，也就暂时借助于其它的语音合成软件合成了供实验用的材料。【思考和讨论：笔者采用格式的原因是文件占用空间比较小，相对于wav格式，那么是否还有其它的格式可供采用呢？特别是数字格式的，即：用一个数字来表示，或者一个数组来表示，为何要考虑其它格式，原因很简单，就是想考虑和以后的语音识别能否共用这些文件，这点至关重要】。第二个文件是“汉字发音编号索引”文件，文件内容的格式是：汉字+空格+发音编号。例如：猜 80。这里的空格也可以用其它符号。也就是说：一个汉字对应着一个发音编号。那么，下面说说建立这个文件步骤：1 :建立一个零时字库文件，建立这个文件，当然是选择的独立汉字越多越好；建立字库文件，可以设计一个小工具来从文章里筛选得到。我选择了大概有4000多个，这个数字在现实中是完全不够用的，但目前只是实验，笔者也就没有再继续做这方面的工作了。2：把字库文件的每一个汉字进行读音标注，这个工作也只能借助于软件来完成。3：音节发音文件与汉字读音文件合并成一个文件，暂且命名为：hanziduyinbianhao汉字读音编号,这样就成了【汉字+空格+发音编号】这样的文件。在合并时要这样做：把每一个汉字转换为ASCII码，以这个ASCII码作为记录号写入随机文件。因为以后查阅的时候，仍然是根据其ASCII码来查找的，这样速度快。当然，不反对使用数据库的方案。这项工作也得由软件来完成，笔者也只得自己设计一个这样的小工具了。这个工具也很简单，用字符匹配函数和字符运算就够了。上面的两个文件制作好后，就存放在一定的文件夹下：我这里放在D:shiyai文件夹下，这个文件夹下有还有一个文件夹，这个是存放音节发音文件的，我这里命名为yinpinmp3,它里面存放了1331个MP3音频文件。如果再把hanziduyinbianhao.dat这个文件方的D:shiyai文件夹下，那么在shiyan就有一个文件hanziduyinbianhao.dat和一个文件夹yinpinmp3。如果要他们进行操作的话，就先写出路径，写法如下：D:shiyaihanziduyinbianhao.dat 【hanziduyinbianhao.dat是：“汉字读音编号”】D:shiyai yinpinmp3xxx.mp3 【xxx.mp3是：“读音文件”】上面的两个文件做好以后，【“汉字读音编号”和“读音文件”】就可以进行程序的设计了。现在先看看这个程序的思路流程：以“我们的国家是一个伟大的国家”这句话为例。分析：计算机要把这一句话说出来，只能是按照先后顺序一个字一个字的说，人们说话或者听话的习惯也是如此，那么，就得把这句话拆分成单个的汉字，这样就得设计一个拆分过程；：计算机本身是不能够识别字符的，更不知道它该读什么音，那么在计算机内就得预先存放有很多字符以及其读音的数据文件，这个数据文件就是前面提到的“hanziduyinbianhao.dat” 这个文件。计算机根据前面已经分解过的单个字符，逐个在“hanziduyinbianhao.dat”文件中查找其对应的读音编号，然后写入到一个文件，这里命名为“bf.txt”，：读出部分。这部分是利用一个列表框顺序播放器来完成。综合1、2、3所述，程序的流程如下：拆分成单个的字符把字符逐个转换为ascii，并查找出读音编号，然后写入bf.txt文件，sehll播放器.exe,自行退出列表框播放器首先读取bf.txt文件并加入列表框，开始播放，完毕后自行退出上面的框图只是程序的总流程框图，具体到每一步那就要多一些，笔者暂时无暇顾及，没有写出，望谅解。值得说明的是：从框图上可以看出，笔者是按两个程序进行设计的，也可以合并为一个程序。我之所有这样做的原因：一个是在试验阶段为了方便，另一个更重要的原因是为了其它地方的应用方便而有意这样做的，主要是根据我自己的情况来决定的，再就是考虑日后其它应用程序的应用接口以及通用性问题。我这里暂时的接口是：把要读出的字符首先写入文件：然后调用“字符分解程序”就完了。实验后看到的缺陷有：1：建立的字库所含汉字少；2：没有写出错处理程序3：读音间隔长，原因可能主要是读音文件的问题，需要对那1331格式的mp3音频文件进行剪辑，才能解决问题。通过这次的实验，完全可以得出一个结论，不用“Windows Speech SDK”是完全可以的。也许“Windows Speech SDK”也和实验过程有相仿或类似之处吧。通过这次的实验，不由得我想起了“语音识别”这个课题，它是否也有同样的道理呢？即是不是也可以撇开“Windows Speech SDK”呢？

人人文库> 全部分类> 应用文书 > 事务文书

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

不用WindowsSpeechSDK的“语音合成”方案.doc

文档简介

温馨提示

最新文档

评论

不用WindowsSpeechSDK的“语音合成”方案.doc

文档简介

温馨提示

最新文档

评论

相关文档