智能会议转写系统解决方案_第1页
智能会议转写系统解决方案_第2页
智能会议转写系统解决方案_第3页
智能会议转写系统解决方案_第4页
智能会议转写系统解决方案_第5页
已阅读5页,还剩13页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第1页智能会议转写系统解决方案第2页目录1背景概述 32系统架构42.1逻辑架构42.2物理架构53功能描述63.1灵云智能会议转写系统 63.1.1 创建会议63.1.2关键词优化73.1.3会议实时转写83.1.4历史会议记录回听 93.1.5 会议状态控制 103.1.6 会议信息自动播报 103.1.7 导出/打印/保存 113.2灵云全智能能力平台介绍 123.2.1语音合成123.2.2语音识别134系统的益处与价值 155技术要求165.1软硬件配置清单 165.2软硬件性能要求 165.2.1软件参数165.2.2硬件参数17第18页1背景概述当前,随着人工智能技术的不断发展和

2、应用普及,针对多人连续语音的识别应用已经十分成熟。将人工智能应用到会议室实时识别转写场景下,改变当前的会议纪要模式,实现在会议过程中对会议的发起方、参与方、主席、主持人、秘书等将各方发言的内容自动实时识别成文字,能够成倍提升会议的效率,并将 大幅减轻会议记录员的工作强度和压力。而且部分会议信息量大、讨论问题多、会议时间长等要素,人工 记录很难做到完全保存会议信息,这时灵云智能会议转写系统能够做到记录整个会议过程全量信息,从而 体现出巨大的实用价值。2系统架构2.1逻辑架构灵云智能会议转写系统的逻辑框架如下图所示。图1系统逻辑架构系统依托于灵云全智能能力平台提供的语音识别(ASR和语音合成(TT

3、S)能力,主要包括采音模块、业务系统和存储模块三部分:1)采音模块:主要通过麦克风及USB声卡等硬件采集会议音频数据。2)业务系统:该系统为会议速记员等提供实时的语音识别文本展现、相关资料展现和会议流程中 各种基础处理功能,便于相关人员便捷实用系统,提高工作效率。3)存储模块:将业务相关数据存储于Redis数据库、Oracle数据库和文件服务器中,根据实际业务情况提供能力支撑和应用服务。2.2物理架构灵云智能会议转写系统的物理框架如下图所示。会议会议麦克 . 麦克风N会议室 秘手机.手机mmI)子子脑多通道USB频流 服务器会议室网线语音能力平台服 务器上 1-无线路由器|会议室; N秘书电脑

4、无线路由器图2系统部署架构系统物理框架首先需要在公司内网服务器上搭建语音平台,并且针对单个会议室需要新增一台专用采集设备和一台 Windows电脑,Windows电脑要能够与语音能力平台服务器相连接。具体系统流程如下:1)会议室内的N个麦克风通过并线连接采音设备,采音设备实现将模拟信号音频转换为数字信号,通过USB连线与局域网内的 Windows电脑相连接,将音频输出到台式机上。2)在速记员电脑上安装录音软件负责把采音设备采集到的数字信号通过公司内网发送给后台语音识别服务器。3)语音识别服务器负责将音频识别为文字,发送给速记员电脑上的网页端会议系统。4)速记员通过网页端会议系统可以实时查看、编

5、辑、修改识别出的文字内容。3功能描述3.1灵云智能会议转写系统产品结构图:3.1.1创建会议功能描述:速记员创建会议的时候,在网页上选择会议室,系统会自动关联到对应会议室的麦克风,速记员即可 对麦克风的角色姓名进行编辑,从而在会议转写的直播过程中来达到区分角色的效果。此外,在网页界面 上支持对当前会议的编号、名称、开会时间、开会地点等信息进行编辑设置,方便会后整理和查阅。业务流程图:界面效果图:.需”Ml苏工甘碎華砂巧f;吨15晉.二 nkTrfttHrHWSH?柏伯 r43H?ip7Cr1二耳劄冃 弓Si= THWktt 田a.-HLKtfiLii :.乱上鼻丁侃护寥应老&吟, Wu fif

6、lwtemiiww声匕如看E扭町审B PRflWknUIWnUBIIWfllHUMRwifi itakwvrBffaaixrrRB.期一SHfiL tdirt咅B倉里E*卄ies:帕薛泄佛月曲吕i - 社左生什注整 市曲 AMIHfa 1 好 Adn1幅栅;ili工 IWE MB4M.A.4NMferfiM*A fiflWUBitnH HMIKPt-.Tt IWilA&IT 理严料IWW呼亍暑 甘取昙靈TRt上砂!科牯 -RFl剛T已用MIW诲3.1.5会议状态控制功能描述:速记员通过网页端能够实现对整个会议节奏的控制,当前系统提供三种会议状态:“开会”“闭会”。界面效果图:mElCUFFiT

7、i;!劉FF宙丄氓.网耳虬.FTM可井曲讯3.1.6会议信息自动播报功能描述:对于开会需要宣读的会议纪律、基本会议背景、与会人员等内容,能够通过网页端自动播 报,并且支持播报速度调整及音色自由选择。业务流程图:界面效果图:3.1.7导出/打印/保存功能描述:速记员在整个会议结束后,可以从系统的网页端将会议生成的笔录导出为Word文档,也支持在网页端中直接进行打印操作,并且可以将会议笔录保存至会议记录管理系统。业务流程图:开始导出打印保存 + tIP打印预览界面效果图:01:23:468 :舖 席口宦贰存F疋样亡罩冬拆一;”祁汽甲菲朮*4丫怎屮幵疋巧左將恵卡局-旳宅甲示卞匡奁疔疽自作円? r i

8、 .3tS姑音导T示丟疗哄储立r邛酗撰郁Q,莎充豆走证全甫 范(3曰开厘医越非开泾台改華忙格专顶笛巴.喊弋直忒再営苓忑咒一绢乳 筑一舸 闪眄口匸总帀忻= 舟去旳民亓,市、N左需厅乍等尸T讨别幵酉時码市方目畑寺耶-WW ? *.tffW.-绘审博和时闻3.2灵云全智能能力平台介绍全智能能力平台是基于服务器硬件和软件,提供捷通华声科技股份有限公司最新的语音合成、语音识 别、声纹识别等多项核心技术能力,并在此基础上构建语音应用。3.2.1语音合成语音合成(Text to Speech ,TTS),是将文本信息转化为语音数据的技术。语音平台集成的语音合成 引擎是业界领先的文语转化引擎,采用最先进的中文

9、文本、韵律分析算法和大语料库的合成方法,合成语 音已经接近真人的自然效果。其主要功能有:1)高质量语音,将输入文本实时转换为流畅、清晰、自然和具有表现力的语音数据;2)多语种服务,整合了多语种语音合成引擎,可提供中文、英文、粤语、维语等语音合成服务;3)多音色服务,提供丰富、风格多样化的音色选择,如浑厚淳正的男声,温柔甜美的女声,天真烂 漫的童声等等;4)多字符集支持,支持输入GB2312 GBK Big5、Unicode和UTF-8等多种字符集,普通文本和带有CSSM标注等多种格式的文本信息;5)多种数据输出格式,支持输出多种采用率的线性WAV A/U率WAX和 VOX等格式的语音数据;6)

10、语音调整功能,开发接口提供了音量、语速、音高(基频)等多种合成参数动态调整功能;7)配置和管理工具,合成引擎提供了统一进行配置和管理的工具,完成了全局参数配置、用户词典、用户规则管理等功能;8)效果优化,合成引擎提供了以定制资源包和CSSMI为代表的多种针对实际应用环境进行合成效果优化的方法;9)一致的访问方式,能以方式访问远程的语音合成服务,并且提供与本地调用相同的开发接口,实现了完全透明的访问;10)背景音和预录音,提供了背景音和预录音的功能,大大提高了合成语音的自然度和表现力。322语音识别语音识别技术(Auto Speech Recognize,简称ASR所要解决的问题是让机器能够 听

11、懂”人类的语音, 将语音中包含的文字信息 “提取”出来,相当于给机器安装上 “耳朵”,使其具备“能听”的功能。其主 要功能有:A. 前端语音处理前端语音处理指利用信号处理的方法对说话人语音进行检测、降噪等预处理,以便得到最适合识别引 擎处理的语音。主要功能有:1)端点检测端点检测是对输入的音频流进行分析,确定用户说话的起始和终止的处理过程。一旦检测到用户开始 说话,语音开始流向识别引擎,直到检测到用户说话结束。这种方式使识别引擎在用户在说话的同时即开 始进行识别处理。2)噪音消除语音识别系统具备高效的噪音消除能力,以适应用户在千差万别的环境中应用的要求。3)智能打断智能打断功能使用户可以在自助

12、语音服务的提示语播放过程中随时说出自己的需求,而无需等待播放 结束,系统能够自动进行判断,立即停止提示语的播放,对用户的语音指示做出响应。该功能使人机交互 更加高效、快捷、自然,有助于增强客户体验。B. 后端识别处理后端识别处理对说话人语音进行识别,得到最适合的结果,主要特性有:1)大词汇量、独立于说话人的健壮识别功能系统满足大词汇量、与说话人无关的识别要求,可以支持数万条语法规模的词汇量;并能适应不同年 龄、不同地域、不同人群、不同信道、不同终端和不同噪声环境的应用环境。2)连续语音识别连续语音识别是指能够把用户说的任意语音转换成对应的文字信息,支持中文和中英文混读的常见语句听写,对于日常使

13、用的常用对话有着很高的识别准确率,包含日常用语,如短信类、生活、交通、娱乐、科技、数字数值、名人、互联网热词、新闻、金融等领域的词库更新。3)智能标点添加连续语音识别支持中文标点智能预测,使用超大规模的语言模型,对识别结果语句智能预测其对话语 境,提供智能断句和标点符号的预测。4)置信度输出置信度反映了识别结果的可信程度。语音识别引擎可以在返回识别结果时会携带该识别结果的置信度, 应用程序可以通过置信度的值进行分析和后续处理。5)多识别结果又称多候选技术,在某些识别过程中,识别引擎可以通过置信度判决的结果向应用程序返回满足条件 的多个识别结果,而不是唯一的结果。识别系统提供了可能的识别结果列表

14、,并按置信度结果从高到低进 行排列。在业务设计中,可以根据应用要求向用户提供这些结果,供用户进行二次选择。通过置信度判决 和多识别结果输出技术可以开发更加灵活、更加人性化的业务流程。6)说话人自适应当用户与语音识别系统进行多次会话过程中,系统能够在线提取通话的语音特征,自动调整识别参数,使识别效果得到持续优化。7)多槽识别语音识别的槽(Slot )代表一个关键字,即在一次会话过程中可以识别说话人语音中包含的多个关键 字,这可以提高语音识别应用的效率,增强用户体验。8)热词识别热词识别使得语音识别应用程序能够在说话者说话的同时检测一个特定的词或短语,当说话者说到这 个短语的时候,识别引擎会把控制

15、权交还给应用程序。在应用程序使用该功能可以使识别器能够在后台监 听输入的语音,直到用户说出特定的短语进行请求时才与用户交互。9)智能调整识别策略能够自动根据系统运行情况动态调整语音识别策略,在系统较忙时(CPU占用较高),采用计算量较小但具有足够精度的策略以保证系统的响应速度;在系统不忙时(CPU占用较低),采用精度更高的策略以达到更优的识别效果。10)语音录入允许用户通过语音方式动态增加识别语法。该功能使用户可以更加灵活的维护语法,扩展语音识别范 围,并且能够提高识别系统对用户语音的适应能力,提高识别的准确率。11)识别日志语音识别的日志在系统中有着非常重要的作用,该日志记录输入的音频、加载

16、的语法、识别过程的中 间结果、识别模块识别过程、识别使用的各种参数、识别结果以及当时的系统环境信息。4系统的益处与价值系统不但节省人力成本、减少人工出错率,而且给客户带来诸多益处或价值。1) 超高的语音识别准确率灵云智能会议转写系统识别准确率达到92%上,会议前的关键词优化,可以提升识别率到95%2) 能够大幅缩短会议时长由人工录入120字/分钟上升至机器转录 300字/分钟以上,普通会议时间缩短20%速记员熟练使用系统后将可以节约会议时间将近50%3) 会议纪录完整度会议过程全程留痕,笔录完整度高达100%5技术要求5.1软硬件配置清单系统建设所需的软硬件设备配置如下:类型配置或样式数量硬件

17、 设备专业级USB声 卡8进8出USB音频接口,8个通道带话放和48V幻相供电,USB连接口,可调增益1台音频流服 务器i3CPU / 4GB内存/ 128GB硬盘,操作系统: Windows 7/10 ;具备USB接 口;接入到公司 内网,能够与语音平台服务器连通1台智能云平 台服务器8核/ 64GB内存/仃B 硬盘/ RedHat 6.21台满足15个会议同时 开会使用软件 设备会议语音 转写交互 模块以web界面形式提供会议语音转与功能1套云服务 平台提供基础平台框架,平台所有模块依赖此框 架进行构建,通过组播协议与域内其他服务 模块建立点对多点连接,为平台各模块提供 授权管理,同时提供

18、系统运维功能,提供中 文普通话自由说语音转文字和简体中文汉字 合成中文普通话音频功能1套最大支持300个5.2软硬件性能要求521软件参数1)角色区分:会议环境下多人同时说话的语音按照每个人的发音特征进行自动分离,从而对多人所 说的语音分别进行识别。2)个性化词汇识别:针对会议信息中含有的个性化词汇需要能够加入到系统中,并且系统可以立即 生效并在会议过程中正确的识别出来。3)多会使用:支持多个会议同时进行会议识别服务,在公司专网内通过部署私有云平台,每个会议 都能够连接到平台上获取语音识别能力,并且多个会议能够同时调用。4)录音回听:支持会议录音标记回听的功能,速记员能够通过软件在会议录音中标记出记录不及时 的位置,在闭会或休会时,按照标记的位置,可以回听之前的会议音频,再快速修正记录内容。5) 语音播报:对于开会需要宣读的会议纪律、基本会议背景、与会人员等内容,能够通过系统进行自动播报,并且支持播报速度的人工调整。522硬件参数1) 8模拟的卡侬/大两芯/大三芯复合型平衡/非平衡输入口,每个均带独立的话筒放大器、48V供电

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论