中国声纹识别产业发展白皮书 2.0-12大变化趋势正式版_第1页
中国声纹识别产业发展白皮书 2.0-12大变化趋势正式版_第2页
中国声纹识别产业发展白皮书 2.0-12大变化趋势正式版_第3页
中国声纹识别产业发展白皮书 2.0-12大变化趋势正式版_第4页
中国声纹识别产业发展白皮书 2.0-12大变化趋势正式版_第5页
已阅读5页,还剩30页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

中国声纹识别产业发展白皮书

2.0——12大变化趋势联合发布单位:清华大学人工智能研究院听觉智能研究中心AIIA-得意音通声纹技术联合实验室中国电信股份有限公司研究院发布时间:2020年12月22日目录CONTENTS07080910公安等部门加速声纹采集

建库规范提上日程后疫情时代“无接触”带来新机遇010203040506关键词搜索趋热声纹关注场景化核心技术人才遭争抢渗透至二三线城市投资事件不降反升投资规模趋于理性金融监管渐步正轨利好政策逐年出台动态密码成最佳实践声纹登录开始普及多元化需求开始涌现技术成熟度参差不齐电话信道声纹识别结合元数据为企业赋能标准建设推进深水区示范带动作用明显多模态技术蓬勃发展“声纹+人脸”融合验证成趋势1112Deepfake诈骗兴起音视频鉴伪技术成焦点后疫情时代

“无接触”带来新机遇Part.01Part.01后疫情时代

“无接触”带来新机遇指纹打卡交叉传染刷脸支付要摘口罩2020年2月,国务院在印发复工复产疫情防控措施指南的通知中提出“使用指纹考勤机的单位应暂时停用。”同月,由中国人民银行营业管理部制定的《北京市非银行支付机构复工复产防疫工作指引》提出要优化和丰富“非接触式服务”渠道和场景,强调疫情防控期间,暂缓人脸识别支付商户拓展。疫情之下,有效阻断“人传人”的传播链条是关键。于是,机器人承接了消毒清洁、送药送餐、诊疗辅助等“一线工作”,VR看房、在线娱乐、在线教育等也成为大众居家必备之选,而打造远程银行、无人工厂的需求也比以往任何时候都更为迫切。这些“非接触式”服务的变革,不仅催生了新的经济模式——“非接触经济”,如在线办公、在线医疗等,还为声纹识别带来新的产业机遇。关键词搜索趋热

声纹关注场景化Part.02Part.02关键词搜索趋热

声纹关注场景化声纹识别,最初大家的关注点更多是从学术端来考虑,较少有人从应用端考虑。从2019年发布1.0版白皮书至今一年半的时间,人们的关注点开始向场景侧下沉,更加聚焦,更加落地。信息源:百度、京东、微信搜索等专利数回落申请和授权数双降Part.03Part.03专利数回落授权专利跌至个位数2018年,无论公开数量还是授权数量,专利数及增幅均达历史峰值;近两年则均开始回落。2019~2020年下降幅度较大,截止2020年8月,本年度授权专利数仅为个位数。投资事件不降反升

投资规模趋于理性Part.03Part.03投资事件不降反升

投资规模趋于理性2家5家2家6家012345近年来声纹技术厂商融资份额统计“资本寒冬”贯穿了2019-2020年始末,到处都是坏消息,然而声纹识别是个例外,在资本寒冬中站上风口。虽然投资总额不如2018年,投资事件数却在经历2019年沉淀和2020年疫情考验后逐渐复苏,不降反升,成为资本市场新宠。信息源:天眼查、企查查核心技术人才遭争抢

渗透至二三线城市Part.04Part.04核心技术人才遭争抢

渗透至二三线城市声纹识别算法工程师声纹识别研发工程师声纹识别工程师声纹AI工程师主要城市北京薪资范围(月薪)50-70K40-50K30-40K20-30K12-20K上海武汉绵阳厦门深圳杭州近期国内部分城市声纹识别核心技术人才招聘信息统计市场需求上升后,技术投入也在同步增加,未来声纹行业领域人才的争夺将日趋激烈。信息源:智联、拉勾、猎聘、等招聘平台金融监管渐步正轨

利好政策逐年出台Part.05Part.05金融监管渐步正轨

利好政策逐年出台试点应用场景征集产品认证标准颁布2018年11月我国金融领域第一个生物特征识别安全应用技术标准《移动金融基于声纹识别的安全应用技术规范》出台。2019年10月市场监管总局、央行对外发布了《金融科技产品认证目录(第一批)》,声纹识别系统作为唯一的生物特征识别技术产品被纳入首批认证目录。2020年9月中关村管委会发布2020年金融科技支持资金征集示范应用场景的通知,基于声纹识别等前沿技术在远程开户模拟场景的应用被列为金融科技示范应用场景重点方向。2020年11月人民银行广州分行声纹识别金融服务试点应用取得初步成效;人民银行济南分行实现以声纹识别等新型网络身份认证技术,提升金融服务可得性和满意度。2020年2月《个人金融信息保护技术规范》正式实施。此次《规范》对个人信息按照敏感程度进行了界定,动态声纹密码被列入C2级别敏感程度。这是“动态声纹密码”首次从“个人生物识别信息”中脱离出来,和动态口令并列,作为一种隐私敏感程度较低的个人信息类型被行业认可。动态密码成最佳实践声纹登录开始普及Part.06Part.06动态密码成最佳实践声纹登录开始普及移动金融声纹应用市场份额现有金融应用场景分布随着2018年央行《移动金融基于声纹识别的安全应用技术规范》的颁布,以及2019年金融科技产品认证的出台,金融业继续稳居声纹识别产业的第一大民用领域。截止2020年下旬,约有30家银行机构采购了声纹识别技术产品,其中基于“动态声纹密码”的声纹登录场景首当其冲成为金融业第一大应用场景。信息源:金采网公安等部门加速声纹采集

建库规范提上日程Part.07Part.07公安等部门加速声纹采集

建库规范提上日程电信诈骗案件呈现井喷趋势,声纹特征在公共安全领域的应用价值日益凸显。为有效防止此类案件给人民财产安全带来的危害,公安部将声纹识别技术纳入防治举措的方案,并开展声纹采集设备选型。各地公共安全领域相关部门也在加大声纹采集力度。与此同时,声纹数据库建设工作和建库规范也开始提上日程。全国范围内已开展声纹采集&建库的省份(部分)信息源:中国政府采购网标准建设推进深水区示范带动作用明显Part.08Part.08标准建设推进深水区示范带动作用明显目前,声纹识别标准已完成基本定义,2008年3月由工业和信息化部发布《自动声纹识别(说话人识别)技术规范》SJ/T11380-2008是中国颁布的首个涉及声纹识别的标准;2010年12月由公安部发布《安防生物特征识别应用术语》。此后,声纹识别的标准主要聚焦于推动行业应用,2014年8月公安部发布《安防声纹确认应用算法技术要求和测试方法》是中国首次就声纹识别的行业应用技术要求和安全等级制订标准;2018年10月中国人民银行发布《移动金融基于声纹识别的安全应用技术规范》JR/T0164-2018是我国金融行业生物识别的首个技术标准。2018年5月25日,《信息技术移动设备生物特征识别第5部分:声纹》、《信息技术生物特征数据交换格式第13部分:声纹数据》两项应用类标准由全国信息技术标准化技术委员会予以立项,进入标准起草阶段,这两项标准主要规范了数据交换中的格式要求,及在互联网金融等重点领域的应用要求。由于深度学习是基于数据驱动的模型,需要庞大的数据,这些数据最好是真实场景的数据,以及对数据的精确标注。声纹识别训练库的建立,至少要保证性别比例分布为50%±5%,包含有不同年龄段、不同地域、不同口音、不同职业。同时,测试样本应该涵盖文本内容是否相关、采集设备、传输信道、环境噪音、录音回放、声音模仿、时间跨度、采样时长、健康状况和情感因素等影响声纹识别性能的主要因素。因此,在声纹识别标准化的发展中,声纹数据采集的技术要求、声纹数据质量评价标准、声纹数据建库要求等数据建设标准也至关重要。Part.08标准建设推进深水区示范带动作用明显基础定义算法要求数据管理2018年10月中国人民银行发布《移动金融基于声纹识别的安全应用技术规范》应用规范2008年3月由工业和信息化部发布《自动声纹识别(说话人识别)技术规范》2010年12月由公安部发布《安防生物特征识别应用术语》2014年8月公安部发布《安防声纹确认应用算法技术要求和测试方法》2018年5月25日,《信息技术移动设备生物特征识别第5部分:声纹》、《信息技术生物特征数据交换格式第13部分:声纹数据》由全国信息技术标准化技术委员会予以立项2020年7月,全国信息安全标准化技术委员会发布《关于2020年第二批网络安全国家标准项目立项建议征求意见的通知》,其中声纹识别数据安全要求被纳入立项建议。2018年11月25日,声纹数据采集、建库的技术要及声纹数据质量评价标准已通过公安部立项2020年11月中国人工智能产业发展联盟(

AIIA)

发布《声纹识别(说话人识别)基础服务指标要求和评估方法》多元化需求开始涌现技术成熟度参差不齐Part.09Part.09多元化需求开始涌现技术成熟度参差不齐(1)文本无关(Text-Independent)不规定说话人的发音内容,模型建立相对困难,验证所需有效语音较长,但用户使用方便,可应用范围较宽。(2)文本相关(Text-Dependent)要求用户模型建立与识别需按照规定的内容发音,可以达到较好的识别效果和效率,但防录音假冒攻击能力弱。(3)文本提示(Text-Prompt)介于文本无关和文本相关之间,系统随机生成识别内容,准确率高且能有效解决防攻击问题。数字动态码是典型应用。按任务分类按内容分类(1)声纹确认(1:1)即给定一个说话人的声纹模型和一段只含一名说话人的语音,判断该段语音是否是该说话人所说。

适用场景:金融、社保、政务等。(2)声纹辨认(1:N)即给定一组候选说话人的声纹模型和一段语音,判断该段语音是哪个说话人所说。适用场景:公安、安防等。Part.09多元化需求开始涌现技术成熟度参差不齐1:N辨认1:1确认文本相关文本无关文本提示声纹识别技术按照两种不同分类的技术成熟度雷达图Part.10基于电话信道声纹识别可结合元数据为企业赋能Part.10基于电话信道声纹识别可结合元数据为企业赋能

在电话信道环境下,通信网络产生的电话录音,经预处理子系统(如转码、角色分离、降噪)处理后将其传入系统声纹数据库,将用户的声音注册到声纹库中。在实际商业场景中,企业客户如呼叫中心等产生的实时通话的语音流经过声纹识别系统,利用算法与模型提取话音数据中说话人的声纹特征并与声纹库进行比对。从而为业务系统或呼叫中心提供声纹辨认或声纹确认服务。呼叫中心/企业业务系统声纹识别平台语音数据预处理声纹库

特征比对通信大网算法模型声纹注册声纹验证1.基于电话信道的声纹识别处理流程单通道双通道无感知注册有感知注册角色分离语音转码元数据和语音数据采集元数据:关联提取、

清洗、格式转换语音数据:角色分离、 VAD、语音抽取数据分析语音识别:文本转写声纹识别:特征提取深度分析:性别年龄数据加工:用户画像数据融合2.电话信道的语音,所关联的元数据携带的属性极其丰富,和声纹、语义特征融合后,增值企业大数据资产,并更好地为企业应用服务元数据:话音数据相关的业务基础数据如用户基础信息、通话日志、话单、手机号码、套餐等、呼叫类型和标示。数据采集:话音与元数据的预处理子系统。数据分析:对话音数据进行声纹与文字的识别与加工。数据融合:将以上数据加以整合、关联与存储。语音大数据元数据

声纹特征语义特征文本文件关键字搜索音频文件录音调听通用属性业务属性自然属性声纹库特征提取搜索声纹属性文本音频Part.10基于电话信道声纹识别可结合元数据为企业赋能Part.10基于电话信道声纹识别可结合元数据为企业赋能

噪声和采样率影响:电话信道噪声及环境噪声的叠加,电话采样率较专业收音设备采样率低,多以6K,8K为主,同时由于电话信道多为对话语音,角色分离的准确率不高,这几方面因素都对声纹识别准确率造成影响。

实时流处理难度高:电话信道的声纹识别使用场景大多数为实时对话,需处理实时流,需要从核心网设备或呼叫中心服务器同步语音流,并与元数据对应,实施难度大。被动采集涉及隐私保护问题:基于电话信道的声纹识别可实现无感知注册及验证,但会涉及隐私保护问题。此外,被动采集声纹信息,音频质量不可控也是难点。跨信道训练与预测:由于基于电信信道中文的大数据集的缺乏,模型的训练可能基于非电话信道数据,而模型的预测为电话信道数据,导致精度的下降。3基于电话信道的声纹识别目前还面临着许多挑战:Deepfake诈骗兴起音视频鉴伪技术成焦点Part.11Part.11Deepfake诈骗兴起音视频鉴伪技术成焦点2019年,美国众议院议长南希·佩洛西遭到虚假视频恶搞。2019年6月,马克·扎克伯格的假视频在国外社交媒体

Instagram和

Facebook上广为流传。据美国网络安全公司Symantec研究人员表示,他们发现至少有三起公司高管的声音被人模仿以用于电信诈骗。其中一起案件的损失总计达数百万美元。2020年4月,某叛乱组织在Facebook上发布了比利时总理索菲·维尔梅斯关于森林砍伐与COVID-19之间可能联系的虚假演讲视频,24小时内超过十万人观看。2019年,英国某能源公司高管在一个小时之内通过匈牙利供应商向一诈骗犯转账24万美元,仅因诈骗犯通过AI语音合成技术仿造了其母公司CEO的声音。2019年6月,网上曝出马来西亚经济部长AzminAli与男性发生关系的假视频。2020年,多起“假靳东”事件发生,不法分子在短视频平台冒充明星,利用中老年人对网络的陌生感进行情感勒索和经济诈骗。2019年,珠海小伙遭遇“熟人”微信语音借钱被骗10400元;南京男子遭骗子订制熟人语音被骗数千元。Part.11Deepfake诈骗兴起

音视频鉴伪技术成焦点四种语音伪造对比模仿伪造韵律、口音、发音等高阶说话人特性易欺骗人耳,难欺骗声纹识别系统未见研究证明其具有显著威胁性首先使用麦克风进行语音录制其次使用扬声器播放伪造语音进行攻击最常见、易实施、威胁大基于规则(共振峰)、数据(单元选择)、参数(声带激励、声道调制)、端到端(频谱)的合成技术通过声码器(Griffin-Lim、WaveNet

等)合成伪造语音进行攻击人声模仿录音重放语音合成声音转换间接攻击直接攻击Part.11Deepfake诈骗兴起

音视频鉴伪技术成焦点直接攻击的鉴别方法ASVspoofingPA2019Rank1基于信号相似性的鉴别方法基于信号失真的鉴别方法基于以真鉴假的鉴别方法基于物理现象的鉴别方法…………Part.12非接触多模态技术蓬勃发展“声纹+人脸”融合验证成趋势Part.12非接触多模态技术蓬勃发展“声纹+人脸”融合验证成趋势1视频实时采集人脸质量检测人脸活体检测语音实时采集声纹识别语音识别人脸识别唇语识别戴口罩分类检测如一个身份识别场景中,同时利用“声纹+人脸”的识别结果做综合判别声纹识别人脸识别语音识别&语义理解1商业趋势:精度要求:单个识别技术如人脸识别对于光照强弱、口罩遮挡、表情变化、尺度变化、设备采集角度等常见问题有局限性,精度无法达到某些场景下商业要求安全保障:人脸识别广泛应用后,个人隐私数据被各类系统广泛采集,仅凭单一识别技术存在漏洞和安全风险,特别是涉及金融支付、用户认证等。体验提升:疫情影响下,在电梯、门禁、闸机、取款设备等多种场景下都提出了非接触需求,多模态技术融合后的产品形态将会明显提升用户使用体验。Part.12非接触多模态技术蓬勃发展“声纹+人脸”融合验证成趋势由美国国家标准与技术研究所(NIST)主办的说话人识别评估自1996年以来一直是最具代表性的说话人识别竞赛之一。来自世界各地的研究团队不断探索用于说话人识别的新算法和最新技术。2019年NIST说话人识别评估(SRE19)包括两个独立的活动:1)CTS:TheevaluationdataisconversationaltelephonespeechobtainedfromCallMyNet2(CMN2)corpus.

2)Multimedia:TheevaluationdataincludesaudioandvisualdataobtainedfromVideoAnnotationforSpeechTechnology(VAST)corpus.

多媒体:评价数据包括语音技术视频标注(VAST)语料库中的音频和视频数据。新加坡国立大学HLT-NUS基于NIST2019任务发表最新成果:声纹系统:x-vector;人脸系统:ResNet/insightface在此篇论文中,audio-visual的Fusion:AV的EER相比单独任务的EER等指标有明显的下降2国际趋势:NIST2019主任务为Audio-Visual联合识别,国际学术界率先进行验证2HLT-NUSSubmissionforNIST2019MultimediaSpeakerRecognitionEvaluation

作者:RohanKumarDas,RuijieTao,JichenYang,WeiRao,ChengYu,HaizhouLi

备注:AcceptedforpublicationinAPSIPAASC2020

链接:/abs/2010.039051NIST2019SpeakerRecog

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论