版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第4章
常用AI工具简介及使用方法第06讲人工智能通识教程人工智能通识教程
本章导读:虽然目前AI处于初级阶段,但是,已经出现各种各样的AI工具,可以服务于我们的学习、生活与工作。这些工具主要有文本类工具、人机交互工具、识别类工具、辅助学习类工具等。一方面,这些工具在不断更新与发展,另一方面,还会出现新的AI工具。对在校学生来说,了解这些工具的基本原理,学会使用这些工具,可以助力我们的学习与成长。第2页共47页人工智能通识教程(1)了解常用AI工具;(2)掌握常用AI工具的使用方法;(3)通过常用AI工具的使用,树立科技服务工作、服务社会的使命感。本章学习目标第3页共47页人工智能通识教程本章思维导图第4页共47页4.1文本类工具4.2人机交互工具4.3识别类工具4.4辅助学习类工具人工智能通识教程4.5案例实践目录第5页共47页人工智能通识教程4.1文本类工具4.1.1自然语言处理
1.自然语言概述自然语言是人类日常交流所使用的语言,具有高度的灵活性和复杂性,是人类智慧的结晶。它不仅包含文字信息,还蕴含着丰富的语义、情感和文化内涵,是人类沟通思想的重要工具。自然语言处理是计算机科学、信息工程以及人工智能的子领域,主要研究用计算机来理解和生成自然语言的各种理论和方法,旨在使计算机能够对自然语言的形、音、义等信息进行处理,即对字、词、句、篇章的输入、输出、识别、分析、理解、生成等的操作和加工。实现人机间的信息交流,是人工智能界、计算机科学和语言学界所共同关注的重要问题。自然语言处理的具体表现形式包括机器翻译、文本摘要、文本分类、文本校对、信息抽取、语音合成、语音识别等。第6页共47页人工智能通识教程
2.自然语言处理发展历程自然语言处理的研究始于20世纪50年代,最初主要集中在机器翻译领域,尝试通过简单的规则和算法实现语言之间的转换。早期探索阶段(1950-1969)在这一阶段,自然语言处理主要依赖于基于规则的系统,通过编写大量的语言规则和知识库来实现语言的理解和生成。基于规则的系统阶段(1970-1992)从20世纪90年代开始,自然语言处理进入算法研究阶段,利用大量的文本数据和统计方法来学习语言的结构和规律。算法研究阶段(1993-2012)2013年以来,深度学习技术在自然语言处理领域得到广泛应用,自监督神经网络学习成为主流,极大地推动了自然语言处理的发展。深度学习阶段(2013-至今)第7页共47页人工智能通识教程自然语言处理与机器学习、深度学习、人工智能之间存在着密切的关系。机器学习为自然语言处理提供了重要的方法和工具,而深度学习则进一步增强了自然语言处理的能力,使得计算机能够更好地理解和处理自然语言。它们之间的相互作用推动了人工智能技术的不断发展和进步。第8页共47页人工智能通识教程
3.自然语言处理的核心任务NLU和NLG作为NLP的两大核心任务,分别代表了计算机对人类语言的输入和输出的处理能力。自然语言理解(NLU)是所有支持机器理解文本内容的方法模型或任务的总称,即能够进行常见的文本分类、序列标注、信息抽取等任务。主旨在于使计算机能够深入把握并解析人类的语言输入。这不仅涉及识别文本的字面意义,还深入到理解其语境、背后的意图以及蕴含的情感等多个层面。自然语言生成(NLG)致力于将计算机内部的数据与信息转换成人类可以轻松理解的自然语言文本,确保信息的清晰与准确传达。这一过程不仅限于生成单个连贯的句子,还能够构建出段落乃至完整的篇章。NLG技术可以应用于各种场景,如智能客服、文本摘要、机器翻译、报告生成等。第9页共47页人工智能通识教程4.自然语言处理的主要难点自然语言处理的难点首先在于数据大多都是非结构化的,而且语言规律非常复杂,语言可以自由组合,存在着多样性和歧义性,很多时候语言的含义是和对应领域的知识、和上下文相关。另外,语言还具有鲁棒性,有时就算出现错别字或者发音不标准,也不影响其表达意图。在使用NLP在应用就面临着5个难题:语言的多样性,语言是没有规律的,或者说规律是错综复杂的。语言的歧义性,语言是可以自由组合的,可以组合复杂的语言表达。语言的鲁棒性,语言是一个开放集合,我们可以任意的组合一些新的表达方式。语言的知识依赖,语言需要联系到实践知识,有一定的知识依赖。语言的上下文,语言的使用尤其是理解要基于环境和上下文。面对以上5个难题,NLP可以使用传统方法来处理,也可以使用机器学习方法来处理第10页共47页人工智能通识教程4.1.2自然语言处理技术自然语言处理技术分为基础技术和应用技术两大类,基础技术包括语法与句法分析、语义分析、语篇分析、知识图谱、语言认知模型、语言知识表示与深度学习;应用技术包括自动问答、文字识别、信息检索、自动文摘、信息抽取、机器翻译、信息推荐与过滤、情感分析、文本分类与聚类。1.分词分词(Tokenization)是指将文本数据分割成基本的、有意义的单元,如单词、短语或其他符号。这些单元可以是单词、短语或其他符号。分词是文本预处理的重要步骤,它有助于后续的文本分析和理解。中文分词(ChineseWordSegmentation,CWS)是将连续字序列转换为对应的词序列的过程,旨在将连续的中文字符序列切分成有意义的词序列。这些词可以是单字、多字词组或者短语。由于中文文本没有像英文那样明显的单词边界(例如空格),也可以看做在输入的序列中添加空格或其他边界标记的过程。第11页共47页人工智能通识教程例如,在猫界橘猫9成以上的是橘色的。分词结果:在/猫界/橘猫/9/成/以上/的/是/橘色/的。在-词性:介词。在中文中,“在”常用于表示时间、地点、范围等。猫界-词性:名词。“猫”指代具体的动物,“界”在这里表示一个特定的领域或范围,“猫界”组合在一起表示猫所构成的一个特定群体或领域。橘猫-词性:名词。“橘”描述了猫的颜色特征,“猫”是主体,“橘猫”作为一个整体,特指毛色为橘色的猫9/成-词性:数量词。“9”是具体的数字,“成”在中文中常用于表示十分之一,所以“9成”表示十分之九,即90%,用于描述比例关系。以上-词性:方位词。在这里与“9成”搭配使用,表示超过“9成”的意思,强调比例超过了90%。橘色-词性:名词。表示一种颜色,是对橘猫颜色的具体描述。第12页共47页人工智能通识教程2.词法、句法及语义分析词法分析的核心任务包括词性标注(Part-of-SpeechTagging,POSTagging)和词义标注。词性标注识别句子中每个词的语法范畴,并进行标注。词义标注则关注确定多义词在特定语境中的确切意义。当前,词性标注的方法主要有基于规则、基于统计、基于规则与统计结合以及基于深度学习的方法。例如,我爱北京天安门。词性标注结果:我/代词(PRP)爱/动词(VB)北京/名词(NN)天安门/名词(NN)。在这个句子中,“我”被标注为代词,“爱”被标注为动词,“北京”和“天安门”都被标注为名词。例如,中国队打乒乓球打得最好。词义标注结果:第一个“打”(动词,表示进行乒乓球运动);“乒乓球”(名词,指乒乓球运动);第二个“打”(动词,表示技能水平高)。在这个句子中,“打”这个词出现了两次,但根据上下文,第一次出现表示进行乒乓球运动的动作,第二次出现表示技能水平高,因此它们的词义不同。第13页共47页人工智能通识教程"依存分析"的方法,它是通过研究词语之间的关系来理解句子的结构和意思。例如,学生们在图书馆学习。句法树示例:(S(NP学生们)(VP在图书馆/学习))“学生们”作为主语(NP),“在图书馆学习”作为谓语动词短语(VP)。例如,他买了一本书。浅层句法分析结果:他/NP买了/VP一本书/NP。“他”作为名词短语(NP),“买了”作为动词短语(VP),“一本书”作为另一个名词短语(NP)。依存关系示例:(买-主语-他,买-宾语-一本书),“买”是谓语,“他”是主语,“一本书”是宾语,依存句法分析揭示了这些词汇之间的依存关系。“S”代表句子(Sentence)“NP”表示名词短语(NounPhrase)“VP”代表动词短语(VerbPhrase)第14页共47页人工智能通识教程语义分析的目标是根据句子的句法结构和实词的词义,推导出反映句子意义的形式化表示,将自然语言转化为计算机能够理解的形式语言。例如,鸿蒙比苹果香呀语义表示示例:(比较(鸿蒙,苹果,香味))语义分析推导出了一个形式化表示,表明“鸿蒙”和“苹果”在“香味”这一属性上进行了比较,且“鸿蒙”的香味更浓。“鸿蒙”可能指的是华为的操作系统HarmonyOS(鸿蒙操作系统),而“苹果”可能指的是苹果公司的产品,在语义分析中,“鸿蒙”和“苹果”在这里被用作比较的对象“香”在这里被用作比较的属性,即“香味”。这个语义表示捕捉了句子的核心意义,即在香味这一维度上,鸿蒙被认为比苹果更胜一筹。第15页共47页人工智能通识教程3.知识图谱知识图谱的概念起源于语义网络,2012年,Google推出了Google知识图谱,并将其应用于搜索引擎中,以此增强搜索能力,改善用户的搜索质量和体验。知识图谱在表现形式上与语义网络比较类似,不同的是,语义网络侧重于表示概念与概念之间的关系,而知识图谱更侧重于表述实体之间的关系。知识图谱是结构化的语义知识库,用于描述物理世界中的概念及其相互关系。知识图谱通过对错综复杂的文档的数据进行有效的加工、处理、整合,转化为简单、清晰的“实体,关系,实体”的三元组,最后聚合大量知识,从而实现知识的快速响应和推理。第16页共47页人工智能通识教程4.自然语言处理应用技术自然语言处理应用技术包括机器翻译、文本翻译、语音翻译、图像翻译、信息检索、自动文摘、情感分析等。机器翻译,通过特定的计算机程序将一种书写形式或声音形式的自然语言,翻译成另一种书写形式或声音形式的自然语言。文本翻译,机器翻译的子类,专注纯文本的跨语言转换,不涉及语音或图像输入。语音翻译,将语音输入实时转换为目标语言语音/文本的输出。图像翻译,从图像中提取文字并翻译,结合OCR(光学字符识别)与MT技术。信息检索,从大规模文本库中查找与用户查询相关的信息。自动文摘,自动生成文本的简洁摘要,保留核心信息。情感分析,识别文本中表达的情感倾向(如积极/消极/中立)。第17页共47页人工智能通识教程4.1.3文本分析与挖掘文本挖掘是一种利用自然语言处理和数据挖掘技术来从文本数据中提取有价值信息的方法。文本挖掘是从数据挖掘发展而来,但并不意味着简单地将数据挖掘技术运用到大量文本的集合上即可实现文本挖掘。主题模型和情感分析作为文本分析与挖掘领域的重要研究方向,主题建模型力于从文本中挖掘潜在的语义主题,旨在从文本数据中挖掘隐藏的主题结构,帮助理解文本数据的内在含义和关联性;而情感分析则关注文本背后的情感倾向以及情感极性,帮助分析情感色彩和情绪变化。主题模型与情感分析结合应用,可以使文本数据的分析更加全面和深入。通过发掘文本数据中隐藏的主题信息,结合情感分析,可以更好地了解用户的兴趣和情感倾向,为个性化推荐、舆情监控、情感分析等领域提供更为精准的分析结果第18页共47页人工智能通识教程1.主题建模的概念与方法主题建模(topicmodeling)是一种用于发现文档集合(语料库)中的主题(或称为主题、议题、概念)的统计模型。它能够发现文档-词语之间所蕴含的潜在语义关系(即主题),基于主题建模的文本情感分析技术,期望通过挖掘各种非结构化文本评论所蕴含的主题及其关联的情感特征,来提高文本情感分析的性能。主题建模的方法主要包括:潜在狄利克雷分配(latentdirichletallocation,LDA)算法是一种基于概率的模型,它假设每个文档都是由多个主题的混合组成的,而每个主题则是由一系列词汇组成的。LDA模型通过最大化文档-主题分布和主题-词汇分布之间的似然函数来估计主题。非负矩阵分解(non-negativematrixfactorization,NMF)方法是一种基于矩阵分解的方法,它可以将文档-词汇矩阵分解为两个非负矩阵,即文档-主题矩阵和主题-词汇矩阵。概率潜在语义分析(probabilisticlatentsemanticanalysis,PLSA)方法是LDA的一个变体,它假设每个文档和每个词汇都与一个或多个主题相关联,并且这些主题是相互独立的。PLSA通过最大化文档-主题分布和主题-词汇分布之间的似然函数来估计主题。第19页共47页人工智能通识教程主题模型可以应用于许多场景、不同领域的实际用途(1)文档分类,通过识别文档的主要主题来对其进行分类。例如,在新闻网站上,可以利用主题建模自动将新闻文章分为“政治”“经济”“体育”“娱乐”等不同类别,方便用户快速找到自己感兴趣的新闻。(2)推荐系统,通过发现用户的兴趣主题来提升内容推荐的相关性。例如,在音乐流媒体平台上,分析用户听歌的历史记录和行为数据,挖掘出用户喜欢的音乐主题(如“摇滚”“古典”“流行”等),然后根据这些主题为用户推荐符合其口味的新歌曲或专辑。(3)信息检索,增强搜索算法,让其能根据主题而非单个关键词来检索文档。在传统的搜索引擎中,用户输入关键词后,系统会返回包含这些关键词的文档列表。而基于主题建模的搜索算法,可以理解用户查询的潜在主题,从而返回与该主题更相关的文档,提高搜索结果的质量和准确性。(4)趋势分析,在时间序列数据中识别和跟踪主题的流行度变化。例如,通过分析社交媒体上的热门话题趋势,了解公众对不同事件、产品或文化现象的关注度变化,为企业市场调研、政策制定者决策支持等提供参考依据。第20页共47页人工智能通识教程2.情感分析的概念与方法情感分析(sentimentanalysis)是NLP领域的一个分支,其目标是识别和理解文本中表达的情感,从而帮助用户更好地理解用户的情感状态和偏好。情感分析通常涉及对文本数据进行分类,以判断其情感是正面、负面还是中性。情感分析的方法主要包括以下几种:基于规则的方法,根据预定义的规则和情感词典,识别文本中的情感词汇,并判断其情感倾向。基于机器学习的方法,使用机器学习算法,如支持向量机(SVM)、朴素贝叶斯(naiveBayes)、随机森林(randomforest)等,通过训练数据集学习情感词汇和文本的情感分布,然后使用学到的模型对新的文本进行情感分析。基于深度学习的方法,使用深度学习模型,如卷积神经网络(CNN)、循环神经网络(RNN)、长短时记忆网络(LSTM)等,自动学习文本的特征表示,并识别出情感线索。第21页共47页人工智能通识教程3.主题建模与情感分析应用(1)主题建模的应用,产品分类和推荐,通过对产品描述文本进行主题建模,可以自动提取出产品的主题类别,并根据这些主题类别对产品进行分类。(2)情感分析的应用,了解用户满意度:通过对用户评论进行情感分析,可以了解用户对产品的满意度。第22页共47页人工智能通识教程4.1.4文本生成1.文本生成定义文本生成是指接受非语言形式的信息作为输入,生成可读的文字表述。随着NLP和AI技术发展、成熟,文本生成技术已经日益成熟,它能够将非语言形式的信息转换为流畅的文字表达。这一过程依赖于计算机程序、数据、算法和模型的协同工作,自动创造出符合语言规范、逻辑清晰且具有特定意义和风格的文本。本质上,这项技术模仿了人类的写作过程,通过深入学习大量的文本数据,最终实现了新原创文本的能力。第23页共47页人工智能通识教程2.文本生成分类(1)文本到文本的生成这类任务通常指的是从现有的文本数据中生成新的文本内容。又可根据不同的任务分为文本摘要、文本生成、文本复述等。文本摘要,可以分为抽取式摘要和生成式摘要。抽取式摘要通常包含信息抽取和规划等主要步骤,通过信息抽取和规划等步骤,从原始文本中提取关键信息生成摘要。生成式摘要,通过理解原始文本的内容,生成新的摘要文本。
文本生成,根据给定的文本输入,生成新的文本内容。文本复述,将原始文本重新表述为不同的形式,但保持其核心意义不变。第24页共47页人工智能通识教程(2)数据到文本的生成这类任务通常是从结构化数据(如表格、数据库记录)中生成文本内容。又可根据不同的任务分为数据摘要、数据解释、数据报告等。数据摘要,数据摘要可以分为数据表格摘要和数据图表摘要。数据表格摘要,通过数据筛选、数据处理和数据规划等步骤,从数据表格中提取关键信息生成摘要。数据图表摘要,通过分析数据图表,生成描述性的文本。数据解释,将数据转化为易于理解的文本描述,帮助用户更好地理解数据内容。数据报告,根据数据生成详细的分析报告,提供决策支持。第25页共47页人工智能通识教程(3)图像到文本的生成图像到文本的生成这类任务通常指的是从图像中生成文本描述。又可根据不同的任务分为图像描述、图像标签、图像问答等。图像描述又可以分为基于视觉特征的描述和基于语义理解的描述。基于视觉特征的描述通常包含图像识别、图像分割和图像分类等主要步骤。第26页共47页人工智能通识教程(3)图像到文本的生成图像到文本的生成这类任务通常指的是从图像中生成文本描述。又可根据不同的任务分为图像描述、图像标签、图像问答等。图像描述又可以分为基于视觉特征的描述和基于语义理解的描述。基于视觉特征的描述通常包含图像识别、图像分割和图像分类等主要步骤。第27页共47页人工智能通识教程3.文本生成方法文本生成的不同方法,包括传统统计模型(如N-gram和平滑技术)、基于模板的生成、神经网络模型(LSTM和Transformer)以及大型预训练模型GPT的原理和应用,常用方法(基于语言模型和深度学习)、解码策略(贪婪搜索、束搜索、温度采样、top-k和nucleus采样)以及评价指标。(1)基于语言模型
基于语言模型(languagemodel)的文本生成技术,其核心在于利用统计原理预测文本中下一个词或短语出现的概率。这一领域内的主要方法包括N-gram模型、平滑技术及神经网络语言模型等。N-gram模型,通过计算文本中连续出现的N个词(N-gram)的频率,来预测下一个词的出现概率。第28页共47页人工智能通识教程3.文本生成方法(2)使用深度学习使用深度学习(deeplearning)的文本生成方法通过神经网络模型(如LSTM、Transformer)来学习词之间的复杂关系,从而生成更流畅、自然的文本。深度学习模型能够捕捉到语言的上下文信息,使得生成的文本更加准确和连贯。第29页共47页人工智能通识教程4.2人机交互工具4.2.1人机交互框架人机交互系统存在统一特征暨面向任务问答交互。任务型人机系统的设计目的是解决某一类任务,为了服务其相关场景,系统需要向用户收集任务的相关信息条件。当用户提供的条件存在缺漏或错误时,系统通过人机交互不断填充相关信息,并在充分收集信息后执行相关任务。任务型人机交互系统整体由三大部分构成:自然语言理解(NLU)、对话管理(DM)以及自然语言生成(NLG)。任务型人机交互系统一般由用户主动触发对话,用户输入可以是语音,也可以是文本,如果是语音,则NLU部分则包含语音识别模块;若系统输出为语音时,NLG部分也需包含语音合成模块。非目标驱动(Non-GoalDriven)人机对话系统,系统框架大致与左图一致。此类系统并非由目标驱动,通常只是对用户输入的内容进行响应,并不完成特定信息服务任务。有别于任务型机器人,此类系统对于收集信息、自主确定对话行为等方面的要求相对较弱,大多没有显式的意图识别、语义标注等NLU过程,也没有显式的DM状态。在实际应用中,目标驱动与非目标驱动的划分也并不是绝对的,常常会需要目标驱动和非目标驱动混合出现。比如,智能手机得个人助手,有时可能要与用户闲聊,这时是非目标驱动的,有时可能要帮助用户执行手机中一个指定得应用程序,这时是目标驱动的。第30页共47页人工智能通识教程4.2.2对话管理对话管理(DM)是对话工具的中枢,控制着人机对话的过程,在这个过程中,DM根据对话历史信息,不仅要捕捉用户的即时意图,获得对话任务的语义信息,还要维护对话的连贯性和目的性。对话管理的目标是确保每一次互动都是有意义且有助于解决问题的。对话管理模块通常包括状态追踪和策略优化两个部分。语义表示有多种形式,目前为止比较常用的是框架语义(FrameSemantics),即采用领域(Domain)、意图(Intent)和词槽(Slot)来表示语义结果。领域(Domain),是指同一类型的数据或资源,以及围绕这些数据或资源提供的服务。比如“天气”、“汽车”、“酒店”、“音乐”等。意图(Intent),是指对于领域数据的操作,一般以动宾短语来命名,比如音乐领域有“查询歌曲”、“播放音乐”、“暂停音乐”等意图。词槽(Slot),用来存放领域的属性,比如音乐领域有“歌曲名”、“歌手”等词槽。第31页共47页人工智能通识教程举个例子,从“北京明天天气怎么样”这句话中,可以得到以下语义结果第32页共47页人工智能通识教程对话状态,追踪其主要功能是跟踪和更新用户和系统之间的对话状态。对话策略,通常采用强化学习的方法来实现,对话策略的目标是最大化系统的长期奖励。多轮对话允许用户和系统进行更深入的交流。上下文跟踪,系统需要理解当前对话内容的上下文,包括用户之前的问题和系统的回答,以确保系统在回答用户新问题时不会偏离对话主题。意图管理,用户的意图可能在对话过程中变化,系统必须能够实时判断和调整对话策略。状态管理,系统需要记录当前会话状态,包括已经获取到的信息(如槽位值),并跟踪哪些信息尚未满足用户需求。状态管理可以保证系统在多轮对话中保持信息的连贯性。上下文管理,则是多轮对话能够顺利进行的基础。它涉及到跟踪对话的历史信息,包括用户的先前陈述、系统之前的响应,以及任何在对话中提及的相关细节。第33页共47页人工智能通识教程比如我们使用智能音箱查询天气场景的对话说明第34页共47页人工智能通识教程4.2.3对话式AI对话式AI赋予机器与人类进行自然、流畅对话的能力,已成为当代人工智能领域的研究焦点。它融合了自然语言处理、自然语言理解、自然语言生成以及对话管理等关键技术,为机器与人类之间的交互提供了全新的可能。传统的对话式AI主要聚焦于基于规则的交互,而LLM与GenAI的融合则带来了对传统对话式AI的颠覆与革新。表4-1GenAI与对话式AI的比较比较项GenAI对话式AI目标生成新颖、连贯、上下文相关的内容(如文本、图像)涉及深度伪造、误导性内容、版权侵犯等风险技术利用生成模型:GAN、VAE、自回归模型等结合NLP、NLU、NLG和对话管理技术应用领域利用生成模型:GAN、VAE、自回归模型等虚拟助理、聊天机器人、客户服务自动化等数据要求需要大量且多样化的训练数据依赖用于语言理解和生成的大规模数据集评估指标需要大量且多样化的训练数据响应准确性、相关性、流畅性、用户满意度道德考量涉及深度伪造、误导性内容、版权侵犯等风险涉及隐私、偏见、公平性、用户信任及负责任的部署第35页共47页人工智能通识教程对话类AI产品根据加载场景及终端的不同,从智能手机中的助手到客服支持,可将对话交互产品分为消费级硬件交互产品与对话式AI产品。对话式交互产品分类如图第36页共47页人工智能通识教程4.3识别类工具4.3.1
OCR识别工具光学字符识别(OpticalCharacterRecognition,OCR)技术是指通过光学扫描设备获取纸质文档的图像,然后利用计算机技术将图像中的文字转换为电子文本的过程。传统OCR技术主要是扫描介质上的字符,经过检测暗、亮的模式肯定其形状,而后用字符识别方法将形状翻译成计算机文字的过程;传统的光学字符识别过程:图像预处理(彩色图像灰度化、二值化处理、图像变化角度检测、矫正处理等)、版面划分(直线检测、倾斜检测)、字符定位切分、字符识别、版面恢复、后处理、校对等。深度学习图像文字识别过程,包括输入图像、深度学习文字区域检测、预处理、特征提取、深度学习识别器、深度学习后处理等。深度学习技术在OCR中的应用主要体现在两个方面:一是网络结构设计,二是训练方法优化。常用的深度学习架构包括卷积神经网络(CNN)、递归神经网络(RNN)和转换器网络(Transformer),这些网络结构能够有效捕捉输入图像中的复杂特征和空间关系。第37页共47页人工智能通识教程OCR处理体验体验:/第38页共47页人工智能通识教程4.3.2生物特征识别生物特征识别(BIOMETRICS)技术,是指通过计算机与光学、声学、生物传感器和生物统计学原理等高科技手段密切结合,利用人体固有的生理特性和行为特征来进行个人身份的鉴定,完成身份认证识别的过程。生物特征识别主要关系到计算机视觉、图象处理与模式识别、计算机听觉、语音处理、多传感器技术、虚拟现实、计算机图形学、可视化技术、计算机辅助设计、智能机器人感知系统等其他相关的研究。已被用于生物识别的生物特征有手形、指纹、脸形、虹膜、视网膜、脉搏、耳廓等,行为特征有签字、声音、按键力度等。第39页共47页人工智能通识教程1.语音识别语音识别技术,也称为自动语音识别(automaticspeechrecognition,ASR),旨在将人类的语音信号转换为文本信息。它不仅涉及声音到文字的转换,还包含语义理解层面的内涵,即不仅要“听得到”声音,还要“听得懂”声音所承载的信息。传统的语音识别系统主要由特征提取、声学模型、语言模型以及字典与解码四大部分构成。语音识别技术的核心问题包括“是什么”(自动语音识别)、“是谁”(声纹识别)和“生成语音”(语音合成),其最终目标是赋予机器与人类相似的对话能力。传统的语音识别系统主要由特征提取、声学模型、语言模型以及字典与解码四大部分构成。在语音识别方面,技术的发展经历了从高斯混合模型和隐马尔科夫模型的混合模型阶段(GMM-HMM模型),到结合深度神经网络的模型阶段(如深度神经网络DNN、循环神经网络RNN、长短时记忆网络LSTM),再到近期的端到端的模式阶段。4.3.3语音识别与合成第40页共47页人工智能通识教程语音识别的核心问题为“是什么”、“是谁”和“生成语音”三个问题,即自动语音识别(ASR)、声纹识别(SR)、语音合成(TTS)。第41页共47页人工智能通识教程语音合成技术,即文本到语音(text-to-speech,TTS)技术,负责将文本信息转换为人类可听的语音信号。它通过模拟人类发声过程,使机器能够“说得出”自然流畅的语言。语音合成系统通常包括文本预处理、语音模型训练和合成三个主要步骤。文本预处理阶段对输入文本进行分词、拼音转换等处理,以便后续模块能够正确理解文本内容;语音模型训练阶段利用大量语音数据训练模型,如HMM、DNN等,以捕捉语音的声学特征和语言
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 容桂消防安全培训证课件
- 家长进课堂食品安全课件
- 家长培训材料课件
- 2026年保险合同财产协议
- 2026年餐饮品牌区域代理合作合同协议
- 2026年废旧金属买卖合同
- 2026年办公系统运维续约合同
- 2026年热力管道维护合同
- 2026年工程险合同协议
- 2026年室内装饰设计施工合同协议
- 2026国家电投招聘试题及答案
- 2025 AHA 心肺复苏与心血管急救指南 - 第6部分:儿童基本生命支持解读
- 2026年大庆医学高等专科学校单招职业技能测试模拟测试卷附答案
- 中央财经大学金融学院行政岗招聘1人(非事业编制)参考笔试题库及答案解析
- 临床试验风险最小化的法律风险防范策略
- 2025年酒店总经理年度工作总结暨战略规划
- 2025年三基超声试题及答案
- 广场景观及铺装工程施工方案
- 贵州兴义电力发展有限公司2026年校园招聘备考题库及一套完整答案详解
- 完整版学生公寓维修改造工程施工组织设计方案
- 2026年“十五五”期间中国速冻食品行业市场调研及投资前景预测报告
评论
0/150
提交评论