人工智能技术概览专题培训课件_第1页
人工智能技术概览专题培训课件_第2页
人工智能技术概览专题培训课件_第3页
人工智能技术概览专题培训课件_第4页
人工智能技术概览专题培训课件_第5页
已阅读5页,还剩25页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

目录北京久其软件股份有限公司2024年2月2日1、人工智能定义、关联2、人工智能主要应用领域3、机器学习算法及分类4、主流神经网络简介5、NLP的主要技术与方法人工智能定义用机器,通常为电子仪器、电脑等,对人的意识、思维的信息过程的模拟。人工智能不是人的智能,但能像人那样思考、也可能超过人的智能。数据:预测、挖掘语音:语音识别、语音合成、声纹检测文字:分类、翻译、对话、NLP、NLU、NLG视觉:图像识别、生成作画、视频理解运动:智能控制、仿真机器人、自动驾驶思考:简单推理、机器人写稿、AlphaGo北京久其软件股份有限公司2024年2月2日涉及面最广的交叉学科人工智能自动化控制计算机数学统计学逻辑学归纳学系统学概率论哲学心理学生物学经济学语言学工程学认知学仿生学人工智能教育要从娃娃抓起有望成为一级学科2024年2月2日工业4.0,自动化生产线旨在提升制造业的智能化水平,建立具有适应性、资源效率及基因工程学的智慧工厂,在商业流程及价值流程中整合客户及商业伙伴其技术基础是网络实体系统及物联网北京久其软件股份有限公司2024年2月2日特斯拉工厂曝光,整个工厂只有150个机器人,超震撼机器人,好帮手北京久其软件股份有限公司2024年2月2日奔跑跳跃搬东西,这种机器人平衡能力比人类还强自动驾驶谷歌、特斯拉、百度、苹果……集各类人工智能技术一身北京久其软件股份有限公司2024年2月2日机器学习数据爆炸式增长催热机器学习统计学、概率模型(贝叶斯)、神经网络有监督学习、半监督学习、无监督学习主要区别在于人工投入的比例无监督学习只有极少数应用投多少人工,有多少智能?北京久其软件股份有限公司2024年2月2日强化学习reinforcementlearning,RL又称再励学习、评价学习智能系统从环境到行为映射的学习,以使奖励信号(强化信号)函数值最大处于研究阶段无人机,自动化控制,电子游戏北京久其软件股份有限公司2024年2月2日NLP?迁移学习TransferLearning,TL收集数据成本高;训练耗时;重复利用已有知识样本迁移、特征迁移、模型迁移、关系迁移北京久其软件股份有限公司2024年2月2日用于精准营销人工神经网络人工神经网络模仿动物神经网络特征,进行分布式并行信息处理的算法数学模型。网络依靠系统的复杂程度,通过调整内部大量节点之间相互连接的关系,从而达到处理信息的目的。优势并行分布处理高度鲁棒性和容错能力分布存储及学习能力能充分逼近复杂的非线性关系激活函数、损失函数、梯度下降北京久其软件股份有限公司2024年2月2日深度学习深度学习源于人工神经网络,多个隐含层感知器。深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征,以发现数据的分布式特征表示。各层设计、图形化调参、学习速率北京久其软件股份有限公司2024年2月2日端到端优势?劣势?CNN–卷积神经网络ConvolutionalNeuralNetwork图像领域应用非常成功,人脸识别超99.5%全连接

局部连接,权值共享图像识别、OCR、语音识别(DBN+CNN+RNN最好)特征数量卷积核大小2024年2月2日RNN–循环神经网络RecurrentNeuralNetwork(t+1)时刻网络的最终结果O(t+1)是该时刻输入和所有历史共同作用的结果语音识别、NLPBidirectionalRNNs、DeepRNNs、GRURNN北京久其软件股份有限公司2024年2月2日LSTM-长短期记忆网络LongShort-TermMemoryNeuralNetworkRNN时间上传递的神经网络,可能“梯度消失”通过门的开关实现时间上记忆功能,防止梯度消失遗忘门输入门输出门Seq2Seq机器翻译AttentionModel对话2024年2月2日GAN-生成性对抗生成网络GenerativeAdversarialNetworks它有两个模型:一个生成器,一个判别器没有损失函数,优化过程是“二元极小极大博”北京久其软件股份有限公司2024年2月2日深度学习框架库名称开发语言速度灵活性文档适合模型平台上手难易Caffec++/cuda快一般全面CNN所有系统中等TensorFlowc++/cuda/Python中等好中等CNN/RNNLinux,OSX难MXNetc++/cuda快好全面CNN所有系统中等Torchc/lua/cuda快好全面CNN/RNNLinux,OSX中等Theanopython/c++/cuda中等好中等CNN/RNNLinux,OSX易Caffe2013年底,由UCBerkely的YangqingJia开发计算机视觉领域首选CaffeTensorFlowGoogle主推的开源学习框架有众多预先训练好的模型,开发简单速度慢,内存占用较大TorchFacebook力推的深度学习框架,主要开发语言是C和Lua有较好的灵活性和速度,开发也比较简单缺点是接口为lua语言,不支持PythonPython首选语言Ubuntu首选平台2024年2月2日机器学习中的问题与应对欠拟合添加其他特征,减少正则化过拟合L1、L2正则化不收敛复审输入数据、修改模型设计、改变参数初始化方法、调整学习速率数据集过小转换扩增运算过慢分布式运算,换用GPU或专用神经网络处理器调参复杂分开训练、参数各种图形化展示北京久其软件股份有限公司2024年2月2日NLP-自然语言处理自然语言是人类智慧的结晶,自然语言处理是人工智能中最为困难的问题之一广义的NLP包含NLU、NLG用到统计、概率、神经网络等各种算法文本分类信息抽取人机对话领域知识图谱自动写稿北京久其软件股份有限公司2024年2月2日中文分词11款开放中文分词引擎大比拼目前主流分词包均采用复杂的统计模型,HMM、CRF、SP(结构化感知)首先统计大量已切分文本特征训练模型,然后针对输入文本搜索最佳切分方式目前哈工大语言云、Boson云效果最佳THULAC(清华)是开源包中效果最佳,也非常快结巴分词用的很广(Python),效果也不错没有完美方案,90%以后每提升1点都要巨大代价北京久其软件股份有限公司2024年2月2日词性标注中文词类活用现象非常多没有英文的变形:ing、ed、er、ly词性命名标准出自北大,基本统一目前都只提供静态词性,非准确标注在关键词计算、事件发现、情感判断有价值句法分析、语义理解的前提词法分析、句法分析、语义理解相互交织依赖,制约了词法技术提升北京久其软件股份有限公司2024年2月2日NER命名实体识别NamedEntityRecognition又称作“专名识别”,是指识别文本中具有特定意义的实体三大类:实体类、时间类和数字类七小类:人名、机构名、地名、时间、日期、货币和百分比基于规则和词典的方法采用语言学专家手工构造规则模板,选用特征包括统计信息、标点符号、关键字、指示词和方向词、位置词(如尾字)、中心词等方法,以模式和字符串相匹配为主要手段基于统计的方法HMM、ME、SVM、条件随机场(CRF)神经网络识别NN、CNN-CRF、RNN-CRF、Attention机制目前缺少成熟可以API,少数付费效果尚可训练的CRF模型,人名、时间、数字识别还行,有提升空间北京久其软件股份有限公司2024年2月2日语言模型、词向量N-Grams:二元组、三元组、五元组……大量分词后语料进行统计正则化、平滑可用于拼写和语法检查,也可协助分词Word2Vec:将词组转换成多维向量表示CBOW、Skip-Gram、GloVe神经网络输入需要Embedding,50,100,300维特性相似近邻通过向量距离查找关联词线性加减w2v(中国)-w2v(北京)=w2v(法国)-w2v(巴黎)只是一种高阶近似,同一含义在同一维表达,尽量分散2024年2月2日关键词、摘要提取PageRank算法原理整个www可以看作一张有向图图,节点是网页。如果网页A存在到网页B的链接,那么有一条从网页A指向网页B的有向边。导入的链接越多,页面的重要程度越高复杂的迭代优化精确权重关键词距离较近的词,视同有链接可根据词性、统计规律调整权重,TF-IDF是最常用算法摘要句子初始权重为各词TF-IDF权重合计权重最高的句子(必要修剪)作为摘要自上而下的摘要用模板/知识库生存(事件、球赛)2024年2月2日文本分类、聚类、情感倾向文本分类属于有监督学习,需要训练贝叶斯、SVM、神经网络文本聚类属于无监督学习划分法(K-Means)、层次法、密度法、网格法文本倾向性分析,主要用于舆情监控,评价挖掘贝叶斯理论为基础褒义词、贬义词、中性词否定谓词、副词的识别与地域、主体识别结合运用难点在于各门类数据抓取、行业模型训练北京久其软件股份有限公司2024年2月2日句法分析上下文无关文法ContextFreeGrammar依存文法分析(DependencyParsing)通过分析语言单位内成分之间的依存关系揭示其句法结构识别“主谓宾”、“定状补”算法:CYK、PCFG、CRF、神经网络(?)目前中文句法分析短句可用,长句较差哈工大LTP语言云、Boson云(较好)StanfordParser、HanLP(稍差)北京久其软件股份有限公司2024年2月2日语义分析/理解知识工程:语义树可用于句子语义理解、数据抽取、句式转换需要强大的知识库配合,知识图谱(?)今天晚上吃金属吧(

╳)法国一位老人以吃金属为生(√)还难以理解文章,进行摘要或推理神经网络:训练超级模型词向量(稀疏)比较成熟,生成较快Synonymy、Antonymy、Hyponym短句可用向量相加近似表示,长句、文章尚在研究北京久其软件股份有限公司2024年2月2日知识图谱(KnowledgeGraph)由知识点相互连接而成的语义网络用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系,并进行查询推理RDF(资源描述框架)、OWL(Web本体语言)、SparQL建立:数据源整理、实体消歧、schema(本体、关系等)构建、查询与推理、优化存储、更新维护WordNet、Yago、DbpediaCN-Dbpedia、Zhishi.Me、PKU-PIE搜索引擎、金融分析、辅助诊断目前似乎难以表达行为动作、限定修饰北京久其软件股份有限公司2024年2月2日QA-机

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论