




已阅读5页,还剩33页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
CSSML中文语音合成标记语言audio支持插入已有的声音文件。用法属性src 指明声音文件的名称。属性值可以是以URL指定的某个文件或是已约定的对象名称,包括预录音资源中的声音样本,方法为src = “name:预录音名称”或src = “id:预录音编号”,或者以MIME格式编码在文档中的内嵌对象。必需。audio元素下列参数支持文件编码。 参数值FormatPCMa-lawu-lawBit-depth8 bits16 bitsChannels仅支持单音Sampling Rate支持所有采样率注意该元素用于调用一个已知的声音文件。例 这时听到的一声 下面播放一段录音:。 我听见风的声音 break用于控制词语之间停顿的空元素。用法属性size 指明停顿长短。可取值:none、small、medium、large。“none”说明一个正常的停顿范围。实际的毫秒值和每个取值关联如下:none=0ms;small=500ms;medium=1000ms;large=2000ms。缺省值是medium。可选。 time 指明具体停顿时长。以秒或毫秒为单位,例如2s或500ms。可选。 注意可以使用本标记元素改变合成语音中的停顿情况。如果break元素的属性指明了停顿持续的时间,合成系统会输出指定时长的静音数据。该标记得具体支持情况请参考CSSML标记支持列表。例 这个电话号码是八位数的号码 风轻轻摇着树梢 他们是人民公仆 emphasis指明包含的文本轻重读/强调程度。用法 属性level指明强调等级,可取值“strong”, “moderate”, “none”以及“reduced”。可选。layer指明作用层次,可取值“paragraph”,“sentence”,“phrase”以及“word”。可选。注意该标记的具体支持情况请参考CSSML标记支持列表。例 这个苹果可真大 明天是春节 我们的最高目标 是 得到高自然的语音 environment指明发音时是否带有背景音场环境。用法 属性mode 指明声场环境的模式。可取值:noisy、silent、normal。默认模式是“normal”。可选。 repeat 指明背景声音是否重复播放。可取值:yes、no。默认方式为“no”。可选。 src 指明背景声音文件的URL或者约定的对象名称,用户可以使用背景音库中的背景音样本名称,方法为src属性的值为“name:背景音名称”。可选。 azimuth 指明声源的水平方位角。可取值:right、left、front、behind、center。默认值为“center”。可选。 elevation 指明声源相对于听者的高度。可取值:below、level、above。默认值为“level”。可选。 注意该标记的具体支持情况请参考CSSML标记支持列表。例 背景音乐为蓝色多瑙河 中国 这里很吵 lexicon指明包含的文本使用的用户词典。用法 属性scr 文本使用的用户词典名称。必需。 注意该标记的具体支持情况请参考CSSML标记支持列表。例 这种力叫做洛伦兹力 mark在文本中插入标记,此标记可被用来快速检索文档,并在合成到此位置时触发mark事件。用法 属性name指明标记元素的名称。值为串。可选。注意“mark”元素既可以为空,也可以包含文本。应用程序开发者能够使用这个元素去包含一个文本的特殊序列,或者在CSSML文档内部或其他文档的外部建立索引。使用空的mark元素插入输出串中,可以触发异步响应。当应用程序到达mark元素时,语音合成程序发布包含元素名称属性值的事件。该标记的具体支持情况请参考CSSML标记支持列表。例 在合成到此标记时产生事件 这是用户自定义的标记 meta定义名称值这样的属性对,用户可以利用此标记插入自定义的文档信息。只允许出现在speak元素与第一个有效cssml标记之间(除meta标记自身)。用法 属性name 信息值的名称。可取值author,date,description,title,domain(领域,以便定制)等。必需。 content 信息值的内容。name取值的内容,可以是用户指定的任意值。 注意meta标记旨在为当前的CSSML文档提供一些可查询的描述信息。例 我的母校是USTC paragraph/p, sentence/s, phrase and word指明文档中语句的层次结构,不允许嵌套。用法 属性xml:lang 指定作用域内文字内容使用的语言类型。可选。 注意和相当于和。开始和结束的元素必须相同。规范禁止这样的序列: text 。这些元素是可选择使用的。在缺乏这些元素时,语音合成系统自动决定文档的结构。标记的具体支持情况请参考CSSML标记支持列表。例 我们的最高目标 是 得到高自然的语音 我是学生 这句话没有主语。 请你加上主语。 phoneme指明发音参数。用法 属性py 符合中国国家语委拼音方案的拼音序列。拼音须用小写字母拼写。可选。 ph 符合International Phonetic Alphabet(IPA)的音标序列。音标间必须划定界限,如果音标没有划定界限,或者在指定的串中包含未知的音标,语音合成系统将不能产生音标指定的输出语音。 可选。 lang 指明作用域内容是按照英文发音还是按拼音发音。 可选。 注意这三个属性必须有且仅有一个存在。该标记的具体支持情况请参考CSSML标记支持列表。例 他姓曾 工会主席Chen Yuxing “查”作为姓氏时应该读zha1 prosody指明合成文本时的音高、速率和音量等韵律参数。用法 属性pitch 指明基频的高低。可取值绝对频率数值、相对值。绝对频率数值可以取70420Hz(该值将被映射到-500500),或下列值:x-low,low, medium, high, x-high, default。相对值可以取浮点值、浮点百分率。必须。绝对频率数值类型举例Hz75Hz, 110Hz, 261Hz列举x-low,low, medium, high,x-high, default相对值类型举例浮点值+4Hz, +10.6Hz, -2.0Hz浮点百分率%2, +5.5%, -7.0%contour 指明调型曲线,取值为一系列关键点的值,每个关键点值由(位置,音高)来描述,位置为百分比,音高与pitch的取值形式相同。 必须。 range 指明基频范围,可取值绝对频率数值、相对改变值或high, medium, low, default。 必须。 rate 指明速率。rate的取值可以是绝对值,或相对值。绝对值可以取0.51.5中的小数表明语速的比例(该值将被映射到-500500),或下列值:x-slow,slow, medium, fast, x-fast,default。相对值可以取浮点值或浮点百分率。必须。绝对值类型举例语速比例.8, 1.3, 1.1,1.列举x-slow, slow, medium, fast,x-fast, default相对值类型举例浮点值+5, +10.3, -3.0浮点百分率%15, +7.8%, -6.5%duration 指明发音持续时长,可取值毫秒或秒、相对值或fast, medium, slow, default。必须。 volume 指明合成语音的音量。可取值绝对值,或相对值。绝对值可以取0100中的正整数或小数(该值将被映射到-2020),或下列值: silent, x-soft, soft, medium, loud,x-loud, default。相对值可以取浮点值,或浮点百分率。默认volume的值是100。必须。绝对值类型举例正整数16, 47, 84, 100列举silent, x-soft, soft, medium, loud, x-loud, default相对值类型举例浮点值+15, +45.3, -30.0, -13.25浮点百分率+21%, +6.5%, -50.0%, -25.5%注意因为prosody的属性值取值范围相当大,语音合成系统将认为prosody的值是语音的实际值。语音合成系统会对超出的属性值进行限制,例如不支持为pictch赋值1MHz,合成系统将把该值映射为支持的最大值420Hz,如果volume属性值为120,合成系统会把该值转为支持的最大值100。该标记的具体支持情况请参考CSSML标记支持列表。例 您定购的8本书将于明天到货。 今年的工作目标已胜利完成 punctuation指明文本中包含的标点符号发音方式。用法 属性speak_out 指明标点符号的读出方式是否为逐一读出。 可取值:yes、no、default。默认值为default 。必需。 注意该标记的具体支持情况请参考CSSML标记支持列表。例 中国传统的节日有: 春节、端午节、中秋节等。 sayas/say-as指明元素中包含的文本性质,即文本的发音方式。用法 属性interpret-as 指明文本的发音方式。可用值是包含类型名称的串。 可选。 发音方式说明acronym英语缩写,字母发音间隔较小spell-out按字母发音,发音间隔较大number指明是数字telephone按电话号码读法发音date指明日期time指明时刻duration指明时间段currency指明货币金额measure指明度量值name指明是人的姓名、公司名称或是地名net指明是网络(internet)上应用的地址address指明是表述邮政地址format 指明文本格式。可用值是包含类型名称的串。 可选。interpret-as的属性值format取值说明numberordinal按数值发音digits按数字串发音score按比分读法发音fraction按分数读法发音datedmy, mdy, ymd,ym, my, md, y指明年月日的顺序timehm, hms 指明是否时间(小时/分钟/秒)的格式和顺序durationhm, hms, ms指明是否时间间隔(小时/分钟/秒)的格式和顺序netemail, url分别表示网络电子邮件地址和网络URL地址 type 指明元素中包含的文本类型。可用值是包含类型名称的串。string:extension是使用类型的扩展格式说明type属性的取值,例如,type=date:dmy。必需。 类型扩展格式说明acronym指明包含的文本应该按英语缩写说明,字母发音间隔较小。spell-out指明包含的文本是连续的字母,应该按字母个别发音,发音间隔较大。例如,S. D. K.。number包含的文本应该按数字发音。numberordinal包含的文本应该按数值发音。numberdigits包含的文本应该按数字串发音。numberscore包含的文本应该按比分读法发音。numberfraction包含的文本应该按分数读法发音。datedmy, mdy, ymd,ym, my, md, y包含的文本在指定格式中是日期。在格式扩展中,d=day, m=month, y=year。 如果不包括扩展格式,合成系统默认日期格式为月日。timehm, hms包含的文本为时间。根据12时制表示时间。书写时,上午表示为“A. M.”,下午表示为“P. M.”。(例如,4:00 P. M.)。 19可以用19或者0109表示。小时前带0,将被读成“oh”加上数字(例如,09将被读成“oh jiu”)。 用数字描绘时、分和秒,中间要用冒号分开。下面的时间串是正确的例子:12:35; 1:14:32; 08:15; 02:50:45。 在格式扩展中,h=hour, m=minute, s=second。 durationhm, hms, ms包含的文本是时间段。currency包含的文本是货币金额。measure包含的文本是度量值。telephone包含的文本是电话号码。netemail包含的文本是电子邮件地址。neturl包含的文本是URL。address包含的文本是邮政地址。name包含的文本是名称。注意相当于。开始和结束的元素必须相同。规范禁止这样的序列: text 。对于规范的文本,语音合成系统通常能够自动处理类似以上所指的这些情况。在自动处理出错时,推荐使用say-as元素,这样可以提示合成系统正确识别文本的朗读方式,改善合成效果。对于文本中包含的多个文本域的文本格式,应使用单一的、非字母的字符将其分隔。例如,say-as元素中包含的日期值可以通过连字号或斜线分离成日、月、年,如10-19-02或10/19/02。该标记的具体支持情况请参考CSSML标记支持列表。例 中国科技大学的英文缩写是USTC 网址是 我们的服务信箱是tts_ SDK 现在时钟已指向8 我们一共有13个人 我住在412房间 双方比分是3:1 取其中的1/3 今天是2000/12/13 会议14:30开始 笔试时间8:0010:00 这本书的价格是¥12.33 身高是1.5米 技术支持部的电话是05515331826 我的邮箱是 本公司的网址是 你可以写信至合肥市瑶海区临淮路街道 他是刘炎 sub使用指定的文本替换原有文本的发音,如果指定的文本为空,则不发音。用法 属性alias 指定替换后的文本。必需。 注意使用sub元素替换原来文本中的内容,或者是让一段文本不发音。例 我的母校是USTC 中国已是WTO的成员 value指明插入一个系统变量的值。用法 属性name 变量的名称,可以是currentTime,currentDate等。必需。 type 与sayas中的type属性相同。可选。注意该标记的具体支持情况请参考CSSML标记支持列表。例 现在时间是 今天的日期是 今天是 xml:lang指定作用域内文本内容使用的语言类型,被speak、paragraph和sentence元素定义。用法 s xml:lang=string注意xml:lang属性值遵循RFC1766定义语言编码规范。可取值:“cn”、“zh-CN”、“chi-CN”、“zho-CN”、“en”、“en-US”。语言信息继承文档层次。在文档中,当一种以上的语言类型被指定使用时,内部元素的xml:lang属性优先于外部元素的xml:lang属性。这意味着一旦一种语言类型被设置为某个元素的xml:lang属性,该类型将被应用到所有元素的内容中,直到它明确地被另一个xml:lang属性改变。例 今天农历八月十五 我是上海人 支持列表在目前的InterPhonic合成系统中,出于系统的功能限制和实用性考虑,CSSML v1.0规范中的标记目前尚未完全实现,如lexicon和voice标记。CSSML标记的支持情况如下表所示:CSSML 元素是否支持实现情况speak支持全面实现。sub支持全面实现,替换内容不能超过128个字符。audio支持支持位于本机的文件,不支持网络URL,该文件必须为相应采样率的16bit PCM格式或aLaw、uLaw格式,还可以是和当前语音输出格式相同的音频文件。 CE30改进:还支持预录音音库中的音频片断,需要在src属性中以固定形式name:xxx指名使用的预录音。break支持全面实现。emphasis支持CE30新增:初步支持一般的强调语气,在停顿和音量方面进行了调整。environment支持CE30新增:1.支持指定一个背景音文件,该文件必须适合当前输出采样率相同的16bit PCM格式; 2.支持指定背景音库中的一段音频为合成背景音; lexicon不支持mark支持支持命名和无名事件。meta支持支持CSSML v1.1规范的描述。paragraph / p支持效果与sentence标记相同。sentence / s支持全面实现。phrase支持CE30改进:对phrase标记的支持作了改进。word支持phoneme支持目前不支持ph(英文的国际音标)属性。prosody支持仅支持“rate”、“volume”和“pitch”三个属性。punctuation支持全面实现。sayas / say-as支持全面支持。 CE30改进:对sayas标记的支持作了改进。value支持name属性增加了“ttsVersion”、“licenceCount”、“productName”、“companyName”的取值。voice不支持注意在应用中,很多元素和属性可能会希望其影响范围可以跨句、段落使用,例如prosody元素的rate、pitch、volume属性,punctuation元素,voice元素、environment元素,考虑到sayas标记相对处理比较复杂,跨句使用可能造成影响其他标记等诸多问题,目前sayas标记将不支持跨句使用。在CSSML的标记中,将sub、sayas-type属性值设为“net:url”、“net:email”、“address”时,都会影响分句。数值型属性的取值策略在CSSML规范中,一些数值型属性的取值方法和取值范围会与当前合成系统某些参数的取值存在着差异。对于这些差异采取以下策略:1.与CSSML规范存在冲突的,采用CSSML规范中规定的标准实现。例如prosody元素的volume属性,在CSSML文本中取值范围只能是0-100之间。 2.与CSSML规范相异但不冲突的,两种取值方法都被支持。例如prosody元素的rate属性,
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026届湖南明德中学高三化学第一学期期中复习检测模拟试题含解析
- 2025年二季度骨科护理技术操作常见并发症理论考试题及答案
- 2025年保健品考试题及答案
- 2026届辽宁省本溪中学化学高三上期末质量检测模拟试题含解析
- 2025年陪诊师模拟考试题库及答案
- 2025年环保保护试题及答案
- 2025年注册验船师资格考试(C级船舶检验专业能力)模拟试题及答案二
- 2025年高级运动营养师实操技能解析与模拟题
- 2025年人力资源管理师专业技能测试题库
- 桃花源记app课件
- 砼回弹强度自动计算表
- 教师课堂管理方法和技巧课件
- 小学科学教师专题培训课件
- 伍德灯在寻找炎症性皮肤病变中的应用价值研究
- 新版药品管理法培训试题
- 合同的订立与有效性
- 市政工程交通导行方案
- 梁的弯曲振动-振动力学课件
- 说专业-物流管理专业
- 钢结构长廊施工方案
- 临床检验专业医疗质量控制指标(2015版)
评论
0/150
提交评论