2023年用AI加强产品设计·识别篇-如何利用文字识别（OCR）、语音识别（ASR）和机器翻译（NMT）提升用户体验

上传人：1*** IP属地：广东上传时间：2023-04-22 格式：DOCX 页数：4 大小：26.09KB 积分：15 举报 版权申诉

2023年用AI加强产品设计·识别篇-如何利用文字识别（OCR）、语音识别（ASR）和机器翻译（NMT）提升用户体验_第2页

2023年用AI加强产品设计·识别篇-如何利用文字识别（OCR）、语音识别（ASR）和机器翻译（NMT）提升用户体验_第3页

2023年用AI加强产品设计·识别篇-如何利用文字识别（OCR）、语音识别（ASR）和机器翻译（NMT）提升用户体验_第4页

全文预览已结束

 下载本文档

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

用AI加强产品设计·识别篇——如何利用文字识别（OCR）、语音识别（ASR）和机器翻译（NMT）提升用户体验class="size-fullwp-image-5751401aligncenter"src="hIQhfVKaZzBnLUmAZNWb.jpg"alt=""width="900"height="420"/>

作为一个产品经理，让我们负责的产品胜利的关键在于场景、需求和痛点——越自然地满意用户的需求，用户的体验就会越好。

比如我们看看这几个例子——

在快递、闪送这个场景下，用户的收件人地址信息通常在另外一个App里，想要有时甚至复制和粘贴都做不到。是否能对收件人的姓名、地址这些信息进行截图、识别、智能填写？至少我们需要把这个截图里的文字识别出来。在旅游的过程中，用户如何快速看懂身边的文字？有时用户不只是看不懂——也许率连输入都做不到（日语的假名、泰语的文字），至少我们要先把它转成文字，然后再进行翻译，对吧？为了解决这些痛点问题，人工智能（AI）力量很有可能是你最佳的选择，而做一个“懂一点AI”的产品经理很可能在这个新的时代里是PM的必备技能。在这篇博客里，我们会探究三种特定的人工智能功能——图像文本识别(OCR)、语音识别(ASR)和机器翻译——以及如何应用它们来增加我们的产品并为用户供应价值。

当然，值得留意的是，还有许多其它的AI力量，在日后的文章中我们会一一介绍。在这篇博客中，我会只关注这些和文字、识别和快速理解相关的三个力量，而这三个作为整个AI世界里最简单理解的基础力量，能快速地带你了解到如何应用AI到你的产品里。

名目：

I.图像文字识别（OCR）II.语音识别(ASR)III.机器翻译IV.总结V.一些额外的阅读建议一、图像文字识别(OCR)

许多人应当都有这样的困扰，比如在逛淘宝的时候，想要去搜寻详情页的大图里的文字简直难于上青天，由于图片里的文字是没法复制的。一些不太懂一些“歪门斜道技术”的人也很难破解那些“禁止右键”或“禁止复制”的破网站的限制，拿到想要的文字。有时你也可能需要从截图里猎取文字，或者快速扫描手头的文档、电子化课堂里的板书。这些场景正是OCR的用武之地。OCR是OpticalCharacterRecognition（光学字符识别）的缩写，更多的我们会叫它“文字识别”或者“图像文字识别）。在现在的手机App里很简单找到OCR的身影，如微信最近的更新使得你可以在谈天记录中搜寻文字，会找到提到这个文字的图片；iOS的实况文本功能可以在输入框中快速录入现实生活中的文字等等。

OCR是一种让计算机能识别和提取图像中的文字的AI技术。它的工作原理（简化到六岁小孩能理解的难度的话）可以认为是AI通过讨论各种图片里文字的外形和模式，学会了在图片里“找文字”并把每个文字与已知的字符去匹配，最终告知你“字在哪”和“这些字是什么”的技术（当然这个解释特别地不科学，你就将就看吧）。有了这个技术，再加上一些特别简洁的交互和UI就可以做到依据需要去编辑、搜寻或存储你提取的文本了。

如引入部分提到的，OCR的一个常见用例是在快递行业。在填写收件人信息时，用户通常会截取表单的截图并提取文本以便快速填写。OCR使这个过程更快更有效，由于用户不必手动输入全部的信息。而且在截图场景下，像手机号的识别精确率会特别特别高。

OCR还可用于各种其他行业，如医疗保健、金融和教育。例如，OCR可用于从医疗记录、财务文档和同学成果单中提取和组织信息。在一些特别的模版下,OCR力量结合一些图像处理的技术,也可以把一些固定格式的内容快速提取出来,形成结构化的信息并录入到数据库中;当结合一些自然语言处理(NLP)技术时,也可以做到一些非结构化的信息提取。

然而，在使用OCR时还是会有一些需要考虑的问题的。其中一个挑战是，你想让OCR识别得准，你的图片就得很高清优质。假如图像模糊或扭曲，OCR可能就没方法很精确地识别了。有一个比较简单理解的评估方式就是，假如人能轻松认出这个字是什么，机器的精确率通常会很高；但假如人需要费很大的劲，甚至需要结合上下文去猜想，那么机器一般就不是很能精确地进行识别。

另外，像一些潦草的手写，用通用的OCR有时也会识别困难。当然，通用的AI力量在特别的场景下，一般比不过对这个场景做特地优化的力量。比如在有道智云这个AI开放平台里，通用文字识别、手写文字识别和公式识别是三个不同的接口。比如在教育场景下的公式识别，可以识别出LaTeX格式的公式，让在客户端渲染公式时更轻松简单。在我们的产品中假如有相应的场景，可以去接入试试看。

二、语音识别(ASR)

语音识别，或者说ASR（AutomaticSpeechRecognition，自动语音识别），则是让计算机听懂“语音”的技术。它能将语音转换为文本，使用户无需打字就能更便利地输入信息或发出命令。

ASR通常用于智能语音助手，如Siri和小爱同学，以及各种叫“转录”或“听写”的软件。还是拿微信举例子，微信的语音转文字就是一个特别典型的ASR力量的例子，没有它你可能每天都被（你厌烦的）某些伴侣进行60s轰炸。其它的例子比如如语音输入法、语音导航等等。它还可以用于各种行业，包括客户服务、教育、音视频行业等等。

例如，在客户服务行业，ASR可用于创建交互式语音应答(IVR)系统，让用户可以用语音就和“外呼机器人”对线。当然更早期还没有现在这么智能的机器人，早期其实是做一些简洁的“回答”就可以让用户找到他们需要的信息，有效削减了（某些公司——合理怀疑——根本就不存在的）人工客服。在教育行业，ASR应用还是很广泛的，比如在线课程的字幕识别、同学的课文背诵和语音问答等等。最新的B站也最终加了“字幕自动识别”，结合后文的机器翻译就可以快速理解原本不懂的外文影片了。

在产品里集成ASR的好处可太多了。主要的缘由其实就是它能解放双手，不需要再去打字，这样无论是输入速度还是精确性都会提高不少，产品的可用性也会有提升。

和全部其它AI力量一样，在使用语音识别力量的时候，要特殊留意使用场景，同时也会搭配一些额外的力量使用。照实时沟通的过程中，需要加入VAD力量来推断用户的一段话是否已经说完（在有道智云这些力量都已经集成进了接口中），同时对时延的要求特别高，通常要求时延在200ms以内。相对的，在长语音文件转写的场景里，用户等待的时间就可以适当放宽，在产品设计上可以批量提交后系统转写再通知用户完成（异步处理）。一般来说，一个商用的ASR系统的加速比一般是在1:30、1:50甚至更高，即半小时的音频，在一分钟就可以转写完毕，大家可以在产品设计的过程中参考这一数字。

然而，在使用ASR时也有一些问题需要考虑。其中一个挑战是，这项技术可能并不总是能精确识别不同的腔调或方言。此外，背景噪声会干扰ASR过程的精确性。当然，和OCR一样，如有道智云这种面对开发者的AI平台一方面会充分考虑通用性，在系统内部进行了对噪声的处理，同时兼容不同的方言和腔调，有必要的时候还可以考虑通过声纹识别等新的技术进行优化，另一方面假如有特别的需求（如对某种特定方言的精确识别），也可以和他们的商务联系来获得更乐观的支持和优化。

三、机器翻译

机器翻译是一种让计算机将文本内容从一种语言转换成另一种语言的技术。它可以用来实时翻译网站、文档，甚至是对话。

机器翻译适用于各种行业和场合。例如，在社交相关的产品上，跨语种的沟通总是会有语言障碍。加入了机器翻译后，跨语种的沟通就成为了可能。同时像产品描述或客户服务查询这种官方供应的文档，也可以在低成本的条件下可以轻易拓展更多国家的用户群。同时，翻译力量可以让我们的产品更简单为说不同语言的人所接受，从而使我们能够接触到更广泛的受众，也可以提高沟通的效率和信息传递的速度。

和上文我们提到的OCR、ASR力量结合在一起，会起到更奇异的化学反应。

当输入是图片时，可以进行图片翻译，这种翻译方式除了结合了OCR、机器翻译外，还使用了多种新技术（如对抗生成网络、篇章语义理解等等），使得不仅能让用户快速理解图片中的文字，甚至可以把文字直接绘制在背景上，就似乎原本照片上就是目标语种的文字一样，这样能大大降低用户的理解难度。

而当输入是语音时，又有一些新的玩法。比如可以实时地进行会议场景下的字幕翻译，还可以和一些其它的语音技术相融合。比如可以直接把翻译后的内容读出来（TTS技术），甚至可以用你自己的声音读出来（声音复刻的PR稿，链接）。

当输入是PDF这类文档时，由于文档有可能是图片格式、有可能是文字格式，需要协作针对性的解析服务（pdf转word）来使用。有道智云也供应了“文档翻译”这样的力量（可以公有云接入，也可以私有化部署），直接上传pdf、excel、ppt等格式的文档，就可以下载对应的译文。

然而，在使用机器翻译时，也有一些需要考虑的问题。翻译的质量不肯定在任何状况下都很好，特殊是对于那些更简单或有许多习语和文化参考的语言。在这种状况下，有可能需要一些术语库（链接）甚至是专业领域模型的支持。比如有道智云供应了医学、金融、计算机等多个领域的专有领域模型。此外，机器翻译过程有时会转变原文的语气或意图。比如日语中的敬体、敬语，在和中文互译时，受限于语言本身的差异，有时就会丢失掉原本听话人的感受（比如中文很难表述出日本人花样繁多的敬语之间的微小差异）。当然，随着技术的进展，这些问题也在渐渐地解决中

四、总结

在这篇博客文章中，我们探讨了如何将图像文本识别（OCR）、语音识别（ASR）和机器翻译应用于识别信息并为不同行业的用户解决他们的痛点。作为产品经理，重要的是在了解这些AI力量之后，考虑这些技术如何提高产品的价值和吸引力。有了像有道智云（链接）这样的AI开放平台，将这些AI功能集成到产品中是很简单的。他们供应了所需的基础设施和算法，因此你就可以专注于改善用户体验并为客户解决挑战。

假如你有爱好将这些AI功能集成到你的产品中，接下来你可以实行以下几个步骤：

讨论各种可用的人工智能功能，并确定哪些功能最相

人人文库> 全部分类> 应用文书 > 资格认证

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

2023年用AI加强产品设计·识别篇-如何利用文字识别（OCR）、语音识别（ASR）和机器翻译（NMT）提升用户体验

文档简介

温馨提示

最新文档

评论

2023年用AI加强产品设计·识别篇-如何利用文字识别（OCR）、语音识别（ASR）和机器翻译（NMT）提升用户体验

文档简介

温馨提示

最新文档

评论

相关文档