版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第八章自然语言处理第一页,编辑于星期日:五点五十四分。提纲概述词法分析句法分析语义分析语言知识库自然语言处理的应用第二页,编辑于星期日:五点五十四分。概述自然语言vs.人工语言自然语言处理用计算机来分析、处理自然语言,让计算机理解并能表达自然语言,实现人与计算机的自然语言交流。图灵测试&IBMWatson所属学科计算机与语言学的交叉学科计算机科学与技术—人工智能—自然语言处理语言学—应用语言学—计算语言学(=自然语言处理)第三页,编辑于星期日:五点五十四分。概述自然语言的特点新词不断出现,很难完全收入词典新词一般包括如下类型命名实体:包括人名、地名、机构名等。缩略语:如,人大(中国人民大学、全国人民代表大会)、白骨精(白领、骨干、精英)。网络新词:蚁族、蜗居、打酱油、织围脖(微博)、给力、伤不起。数字、字母、符号等。第四页,编辑于星期日:五点五十四分。概述自然语言的特点自然语言的表达非常灵活,很难完全形式化如下面例子中,“主席团”、“台上”、“坐”可以随便调换次序,但都表达相同的意思。主席团台上坐。主席团坐台上。台上坐主席团。台上主席团坐。还有各种各样的省略形式。如:今天星期五。两个词语就构成一句话,省略了谓语“是”。第五页,编辑于星期日:五点五十四分。概述自然语言的特点自然语言充满歧义,很难完全消解读音歧义朝阳(zhaoyang)产业北京市朝阳(chaoyang)区分词歧义南京市长江大桥。白天鹅在湖里游泳。词性歧义这只会测水温的鸭子,挺有用的。这只会测水温的鸭子,没什么用。第六页,编辑于星期日:五点五十四分。概述自然语言的特点自然语言充满歧义,很难完全消解句法结构歧义咬死了猎人的狗。三个大学的老师。词义歧义他说:“她这个人真有意思”。她说:“他这个人真怪有意思的”。于是人们以为他们有了那种意思,并让他向她意思意思。他火了:“我根本没有那个意思”!她也生气了:“你们这么说是什么意思”?事后有人说,“真有意思”。也有人说:“真没意思”。第七页,编辑于星期日:五点五十四分。概述自然语言的特点自然语言中有各种语言创新,机器很难应付隐喻、借代、双关、幽默等双关天大药业的广告词:您的健康是天大的事。昂立教育:ONLYeducationcanchangeyourlife.第八页,编辑于星期日:五点五十四分。概述自然语言处理涉及的层次语音分析词法分析句法分析语义分析语用分析第九页,编辑于星期日:五点五十四分。词法分析英语中词的识别英语词与词之间有空格区分句末点号与词中点号识别出的词与词典中的词的对应能直接对应需要词根化以后才能对应对应不上,是未登录词第十页,编辑于星期日:五点五十四分。词法分析汉语分词汉语是分句连写,句与句之间有标点,词与词之间没有分隔符。基于词典的方法:正向最大匹配待切分字串S1,输出词串S2为空,最大词长MaxLenS1是否为空从S1左边取出最长字串W,W的长度不大于MaxLenW是否在词典中将W最右边一个字去掉W是否为单字S2=S2+W+空格;S1=S1-W输出结果S2是否是是否否第十一页,编辑于星期日:五点五十四分。词法分析汉语分词基于字的方法转化为机器学习中的序列标记问题。根据字在词中的位置一般有四个标记:词首B、词中M、词尾E、独立成词S。例如,“自然语言处理是人工智能的分支学科”这句话中每个字加上标记后的序列如下:自/B然/M语/M言/M处/M理/E是/S人/B工/M智/M能/E的/S分/B支/E学/B科/E加完标签后,再扫描一遍,就可以得到词的序列:自然语言处理是人工智能的分支学科第十二页,编辑于星期日:五点五十四分。句法分析短语结构语法PhraseStructureGrammar由Chomsky提出,上下文无关文法。G=(N,T,S,P)N={ROOT,IP,NP,VP,NR,VV,VE,NN}T={俄国,希望,伊朗,没有,制造,核武器}S=ROOT产生式P:ROOT
IPIP
NPVPPUNP
NRVP
VVIPVP
VEVPVP
VVNNNR
俄国VV
希望NR
伊朗VE
没有VV
制造NN
核武器PU
。第十三页,编辑于星期日:五点五十四分。句法分析依存语法DependencyGrammar由Tesniere于1959年提出。第十四页,编辑于星期日:五点五十四分。语义分析词义消歧一词多义很常见。根据上下文语境自动确定词语用的是哪一个义项。例如,“仪表”这个词在《现代汉语词典(第5版)》中有两个义项:(1)人的外表(包括容貌、姿态、风度等,指好的):~堂堂(2)测定温度、压力、电量等各种物理量的仪器。词义消歧是确定下面两句话中的“仪表”分别属于哪一个义项。(1)我国仪器仪表事业取得了长足的发展。(2)酒店要求服务员仪表端庄大方。第十五页,编辑于星期日:五点五十四分。语义分析语义角色标注浅层语义分析,标注谓词(谓语动词、名词、形容词)的语义角色。语义角色指有关语言成分的所指在语句所表达的事件中所扮演的参与者角色。常见的语义角色类型有施事、受事、与事、工具、方式、时间、处所、结果、目的、原因等。例如:昨天张三在家吃苹果。谓语动词“吃”的语义角色有:施事-张三,受事-苹果,时间-昨天,处所-家。第十六页,编辑于星期日:五点五十四分。语言知识库现代汉语语法信息词典GrammaticalKnowledgeBase,GKB由北京大学计算语言学研究所研制的一个现代汉语语法知识库。该词典的研制始于1986年,现在仍然在不断发展和完善。该词典以朱德熙先生倡导的“词组本位”语法体系为理论基础,按照语法功能和意义结合的准则收录了8万余词条。依据语法功能分布的原则,建立了词类体系,完成词语的归类。并在此基础上,分类描述每个词语的各种语法属性,共计360余万个属性值。第十七页,编辑于星期日:五点五十四分。语言知识库现代汉语语法信息词典GKB采用关系数据库的格式描述词语及其语法属性的二维关系,包括总库及分库共34个数据库文件。每一个词类建立一个分库,如名词分库、形容词分库、动词分库等。分库可以继续细分,建立二级分库,如体宾动词分库、谓宾动词分库、离合动词分库等。所有的库之间可以通过“词语+词类+同形”的联合主键进行连接,构成上下位继承关系的树。第十八页,编辑于星期日:五点五十四分。语言知识库知网HowNet语义网络1968年由美国心理学家M.R.Quillian在研究人类联系记忆时提出的。1972年,美国人工智能专家R.F.Simmons和J.Slocum首先将语义网络用于自然语言理解系统中。语义网络可以用有向图表示。图的节点表示概念,有向边表示概念之间的语义关系。一个语义网络的基本单元可以用一个三元组表示(A,R,B),其中A、B表示两个节点,R是语义关系。ABR第十九页,编辑于星期日:五点五十四分。语言知识库知网HowNet语义网络常见的语义关系地球行星IS-A窗户房子PART-OF北京首都IS第二十页,编辑于星期日:五点五十四分。语言知识库知网HowNet知网由机器翻译专家董振东教授创建的语言知识库,是一个以汉语和英语的词语所代表的概念为描述对象,以揭示概念与概念之间以及概念所具有的属性之间的关系为基本内容的常识知识库。知网是一个语义网络。医治医生医药患者疾病罹患医院医疗费付给施事受事内容工具内容经验者场所领属物对象施事第二十一页,编辑于星期日:五点五十四分。语言知识库现代汉语虚词用法知识库ChineseFunctionwordusageKnowledgeBase,CFKB郑州大学信息工程学院与北京大学计算语言学研究所合作构建。三位一体的语言知识库,包括现代汉语虚词用法词典、现代汉语虚词用法规则库以及现代汉语虚词用法标注语料库。汉语虚词类型包括副词、介词、连词、助词、语气词、方位词,每个虚词可能区分为若干义项,每个义项又可能区分为若干用法。目前的现代汉语虚词用法词典中收录的虚词词语总数为2401个,共涉及2982个义项及4337个用法。第二十二页,编辑于星期日:五点五十四分。自然语言处理的应用语音识别与合成机器翻译信息检索问答系统信息抽取文本摘要文本分类社会计算输入法文本纠错作文评分……第二十三页,编辑于星期日:五点五十四分。自然语言处理的应用机器翻译巴别塔Babel的故事方法:基于规则、基于统计、基于实例GoogleTranslate源语言文本词法分析句法分析语义分析结构转换句子生成形态生成译词选择目标语言文本词典规则库第二十四页,编辑于星期日:五点五十四分。自然语言处理的应用信息检索Web搜索引擎,Google、百度等汉语分词的应用和服务必于三日后裁制完毕,并呈送将军府中。王府饭店的设施和服务是一流的。
查询的同义扩展“电脑”与“计算机”第二十五页,编辑于星期日:五点五十四分。本
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年辽宁省抚顺市街道办人员招聘考试参考试题及答案解析
- 2026年鹤壁市山城区街道办人员招聘笔试备考题库及答案解析
- 文化差异对国际市场影响评估
- 2025安徽芜湖市湾沚区中小学劳务派遣教师招聘61人考试模拟试题及答案解析
- 大气污染治理专项资金管理办法
- 2025年黑龙江省牡丹江市街道办人员招聘笔试试题及答案解析
- 2026年聊城市东昌府区网格员招聘考试备考试题及答案解析
- 2026年抚顺市顺城区网格员招聘考试模拟试题及答案解析
- 2025年自贡市沿滩区街道办人员招聘考试试题及答案解析
- 2026年大兴安岭地区网格员招聘笔试参考题库及答案解析
- 聚焦离子束虚拟仿真应用报告
- 2026年郑州信息科技职业学院单招职业技能测试题库及参考答案详解1套
- 裂解汽油加氢
- 卫生管理师职称考试之《医院管理学》知识点及试题
- JJF2119-2024低气压试验箱校准规范
- 吊车拉网跨越线路施工方案
- 2025年中国特殊医学用途配方食品(FSMP)行业及消费者洞察白皮书-Arla
- 2026年决战行测5000题言语理解与表达附答案(黄金题型)
- 2026届江苏省泰州市兴化市数学九年级第一学期期末调研模拟试题含解析
- 《统计学-SPSS和Excel实现》(第9版)课件 第3章 用统计量描述性数据
- 2025年广东高考物理试题(解析版)
评论
0/150
提交评论