第一章自然语言处理概论_第1页
第一章自然语言处理概论_第2页
第一章自然语言处理概论_第3页
第一章自然语言处理概论_第4页
第一章自然语言处理概论_第5页
已阅读5页,还剩59页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

关毅guanyi@哈尔滨工业大学计算机学院语言技术研究中心第一章自然语言处理概论1、开场白2、自然语言处理概论3、学习方法主要内容哈尔滨工业大学计算机学院语言技术研究中心欢迎大家加入可能是世界上人数最多的自然语言处理团队!1、开场白哈尔滨工业大学计算机学院语言技术研究中心哈尔滨工业大学计算机学院的自然语言处理团队起源80年代初王开铸教授,俄汉机器翻译李生教授,汉英机器翻译哈尔滨工业大学计算机学院语言技术研究中心哈尔滨工业大学计算机学院的自然语言处理团队(续)主要研究室语言技术研究中心社会计算与信息检索研究中心智能接口与人机交互研究中心……哈尔滨工业大学计算机学院语言技术研究中心个人简介关毅1992年开始进入自然语言处理领域主要工程项目微软拼音输入法BOPOMOFO汉字输入系统Weniwen搜索引擎主要科学贡献关于相似的研究-提出系统相似度测度理论现为哈工大计算机学院语言技术研究中心教授,博士生导师哈尔滨工业大学计算机学院语言技术研究中心课程概貌研究生专业必修课:自然语言处理学时:32学时+16学时授课方式:课堂讲授+课后上机练习考察方式:闭卷考试实验课哈尔滨工业大学计算机学院语言技术研究中心几个时间段二十多年崛起于80年代初的统计自然语言处理技术,已经成为自然语言处理的主流技术本课程重点介绍统计语言处理技术,特别是基于统计的汉语词法分析技术哈尔滨工业大学计算机学院语言技术研究中心几个时间段(续)六十多年自然语言处理技术起源于人们对机器翻译技术的研究,从1946年算起至今,已有60多年的历史了“目前一些试用过的用户表示,改进后的翻译服务在质量方面令人惊讶。对于那些从未使用机器翻译的用户来说,他们完全可以通过翻译后的文本理解原文的意思,一些细微的错误并不会引起太大的麻烦。”

--FranzJosefOch

哈尔滨工业大学计算机学院语言技术研究中心几个时间段(续)还需要多少年才能实现计算机与人类无障碍地沟通?1968年的美国影片《2001太空奥德赛》机器人HAL和Dave进行了如下对话:DaveBownman:Openthepodbaydoors,HAL.(DaveBownman:HAL,请你打开太空舱的分离门。)HAL:I’msorryDave,IamafraidIcan’tdothat. (HAL:对不起,Dave,我恐怕不能这样做。)哈尔滨工业大学计算机学院语言技术研究中心几个时间段(续)自然语言处理是一个“AIcomplete”问题自然语言与(分子)生物学有着深刻的渊源生物学中有着至少500年也解决不完的有趣问题

—DonaldE.Knuth哈尔滨工业大学计算机学院语言技术研究中心自然语言处理中的歧义问题在自然语言处理的各个阶段广泛大量地存在着形形色色的歧义问题,这是自然语言与人工语言的根本差别之一,也是自然语言处理的难点所在哈尔滨工业大学计算机学院语言技术研究中心自然语言处理中的歧义问题(续)词法分析歧义分词严守一把手机关了严守/一把手/机关/了严守一/把/手机/关/了词性标注我/pro计划/v考/v研/n我/pro完成/v了/aux计划/n命名实体识别秦兵坑杀赵军40万于长平哈尔滨工业大学计算机学院语言技术研究中心自然语言处理中的歧义问题(续)语法分析歧义咬死了猎人的狗那只狼咬死了猎人的狗咬死了猎人的狗失踪了哈尔滨工业大学计算机学院语言技术研究中心自然语言处理中的歧义问题(续)语义分析歧义Atlast,acomputerthatunderstandsyoulikeyourmother. –1985McDonnell-Douglasad含义1:计算机会象你的母亲那样很好地理解你(的语言)含义2:计算机理解你喜欢你的母亲含义3:计算机会象很好地理解你的母亲那样理解你哈尔滨工业大学计算机学院语言技术研究中心自然语言处理中的歧义问题(续)语用分析歧义“你真坏”至少有如下三种理解:当人们对干了坏事的成年人说时,是一种严厉的斥责当妈妈对淘气的儿子说时,实际表达的是对儿子的一种疼爱当恋爱中的女孩对男友说这句话时,则是女孩在男友面前撒娇的一种表现……哈尔滨工业大学计算机学院语言技术研究中心自然语言处理中的歧义问题(续)自然语言处理应用中的歧义问题音字转换例ji

qifanyi

ji

qi

ying

yong

ji

qilerenmenji

qi

nong

houdexing

qu哈尔滨工业大学计算机学院语言技术研究中心几点感性认识有点繁琐枯燥“从繁体词库到简体词库”要求同学们一丝不苟的认真精神充满乐趣“机器翻译及其应用激起了人们极其浓厚的兴趣”要求同学们有愚公移山,坚持到底的精神哈尔滨工业大学计算机学院语言技术研究中心几点感性认识(续)团队合作“128个字节的偏移量”要求同学们善于协作,有团队精神独创精神“一只美丽的小花猫”要求同学们勇于创新哈尔滨工业大学计算机学院语言技术研究中心本人印象深刻的至理名言取法其上,仅得其中;取法其中,仅得其下;取法其众,得其上。

-中国古代思想家Everyimportantideaissimple -列夫.托尔斯泰哈尔滨工业大学计算机学院语言技术研究中心本人印象深刻的至理名言哈尔滨工业大学计算机学院语言技术研究中心两件宝贝MindjetMindManagerEndnote/Mendeley/NoteExpress哈尔滨工业大学计算机学院语言技术研究中心哈工大-阿里巴巴联合实验室教材ChristopherManningandHinrich

Schutze:FoundationsofStatisticalLanguageProcessing,

MITpress,1999(有中译本,译者苑春法等)自然语言处理综论DanielJurafsky&JamesH.Martin著冯志伟孙乐译王晓龙、关毅《计算机自然语言处理》清华大学出版社2005年哈尔滨工业大学计算机学院语言技术研究中心哈尔滨工业大学计算机学院语言技术研究中心2、自然语言处理概论什么是自然语言处理定义1:自然语言处理可以定义为研究在人与人交际中以及在人与计算机交际中的语言问题的一门学科。自然语言处理要研制表示语言能力(linguisticcompetence)和语言应用(linguisticperformance)的模型,建立计算框架来实现这样的语言模型,提出相应的方法来不断地完善这样的语言模型,根据这样的语言模型设计各种实用系统,并探讨这些实用系统的评测技术。

---BillManaris,1999

哈尔滨工业大学计算机学院语言技术研究中心解题本学科的主题与背景:“自然语言处理可以定义为研究在人与人交际中以及在人与计算机交际中的语言问题的一门学科。”人人交际中的语言问题例如语言不通的问题,促进了机器翻译这一语言处理中最重要的应用之一的发展人机交际中的语言问题例如语言文字的输入输出问题,促进了智能化人机接口技术的研究

哈尔滨工业大学计算机学院语言技术研究中心为什么要研究自然语言处理从科学研究的角度:探寻人类通过语言来交互信息的奥秘,更好地理解语言本身的内在规律从实际应用的角度:构建更加有效的人机交互方式哈尔滨工业大学计算机学院语言技术研究中心解题(续)两类不同的语言处理模型(Chomsky)能力模型通常是基于语言学规则的模型,建立在人脑中先天存在语法通则这一假设的基础上,认为语言是人脑的语言能力推导出来的,建立语言模型就是通过建立人工编辑的语言规则集来模拟这种先天的语言能力。又称“理性主义的”语言模型建模步骤语言学知识形式化形式化规则算法化算法实现哈尔滨工业大学计算机学院语言技术研究中心解题(续)应用模型根据不同的语言处理应用而建立的特定语言模型,通常是基于统计的模型。又称“经验主义的”语言模型建模步骤大规模真实语料库中获得语言各级语言单位上的统计信息依据较低级语言单位上的统计信息运用相关的统计推理技术计算较高级语言单位上的统计信息哈尔滨工业大学计算机学院语言技术研究中心解题(续)建立计算框架来实现这样的语言模型借助计算机,研究自动化的方法提出相应的方法来不断地完善这样的语言模型人工编辑的方法统计机器学习方法的大量运用哈尔滨工业大学计算机学院语言技术研究中心解题(续)根据这样的语言模型设计各种实用系统规则与统计相结合评测技术自然语言处理的重要研究专题之一国际公认的自然语言研究竞技场SighanConllTREC哈尔滨工业大学计算机学院语言技术研究中心什么是自然语言处理定义2:是人工智能和语言学的交叉学科,研究自然语言的自动生成(naturallanguagegeneration)与理解(naturallanguageunderstanding)。自然语言自动生成研究将存放于计算机数据库的信息转换为自然语音。自然语言理解研究将人类语言转换为计算机能够理解操作的形式化表示方式

--”Naturallanguageprocessing” FromWikipedia,thefreeencyclopedia哈尔滨工业大学计算机学院语言技术研究中心图灵实验让机器模仿人来回答某些问题,通过实验和观察来判断机器是否具备智能。为人工智能确定了奋斗的目标,并指明了前进的方向人工智能自诞生之日起就和自然语言理解结下了不解之缘哈尔滨工业大学计算机学院语言技术研究中心自然语言处理是一门交叉性学科它是人工智能的重要分支它是应用语言学的分支交叉性学科语言学计算机科学数学心理学信息论声学…哈尔滨工业大学计算机学院语言技术研究中心相关术语中文信息处理中文语言处理计算语言学自然语言理解智能化人机接口……哈尔滨工业大学计算机学院语言技术研究中心自然语言处理的知识内容基础应用资源评测哈尔滨工业大学计算机学院语言技术研究中心自然语言处理的知识内容:基础音位学形态学词汇学句法学语义学语用学哈尔滨工业大学计算机学院语言技术研究中心自然语言处理的知识内容:基础音位学描述音位的结合规律,说明音位怎样形成语素举例:“deletefilex”->dilet'#fail#eks形态学描述语素的结合规律,说明语素怎样形成单词举例:

dilet'#fail#eks->”delete”“file”“x”哈尔滨工业大学计算机学院语言技术研究中心自然语言处理的知识内容:基础词汇学描述词汇系统的规律,说明单词本身固有的语义特性和语法特性举例:”delete”“file”“x”->(“delete”VERB)(“file”NOUN)(“x”ID)哈尔滨工业大学计算机学院语言技术研究中心自然语言处理的知识内容:基础句法学描述单词或词组之间的结构规则,说明单词或词组怎样构成句子举例:(“delete”VERB)(“file”NOUN)(“x”ID)->SVPVERBdeleteNPNOUNfileIDx哈尔滨工业大学计算机学院语言技术研究中心自然语言处理的知识内容:基础语义学描述句子中各个成分之间的语义关系,怎样从构成句子的各个成分推导出整个句子的语义举例: ->delete-file(‘x’)SVPVERBdeleteNPNOUNfileIDx哈尔滨工业大学计算机学院语言技术研究中心自然语言处理的知识内容:基础话语分析描述句子和句子之间的结构规律,说明怎样由句子形成话语或对话语用分析描述与情景有关的情景语义,说明怎样推导出句子具有的与周围话语有关的各种涵义举例:delete-file(‘x’)->rm-ix哈尔滨工业大学计算机学院语言技术研究中心自然语言处理的知识内容:应用我们可以按照如下准则将自然语言处理的各种应用系统地组织起来一个应用是重新生成或者恢复还是需要转换或者翻译某种语言现象一个应用是要识别或者分析语言输入还是需要产生或者合成语言输出哈尔滨工业大学计算机学院语言技术研究中心自然语言处理的知识内容:应用重新生成转换识别产生文本检索文本分类与聚类问答信息抽取文摘机器翻译实体识别语音识别主题抽取语音合成哈尔滨工业大学计算机学院语言技术研究中心自然语言处理的知识内容:资源语料库(计算机用)词法、句法、语义词典,文法规则集等等常用中文资源简介北京大学人民日报语料库《现代汉语语法信息词典》黄曾阳HNC董振东Hownet……哈尔滨工业大学计算机学院语言技术研究中心自然语言处理的知识内容:评测自然语言处理的重要组成部分,对自然语言处理的各种应用进行系统地评价引导自然语言处理应用发展的重要手段由如下三个方面组成评测方法评测对象(速度?精度?适用范围?…)评测量度哈尔滨工业大学计算机学院语言技术研究中心自然语言处理的知识内容:评测常用评测量度量度英文典型应用定义单词错误率Worderrorrate(WER)语音识别系统输出与正确输出的最小编辑距离精确度Precision(P)文本检索系统输出中的正确输出占实际输出总数的比率召回率Recall(R)文本检索系统输出中的正确输出占全部正确输出的比率哈尔滨工业大学计算机学院语言技术研究中心自然语言处理的知识内容:评测(续)量度英文典型应用定义F量度F-measure文本检索精确度与召回率的调和平均数平均准确率Meanaverageprecision(MAP)文本检索对不同召回率点上的精确度取平均值平均排序倒数MeanreciprocalRank(MRR)文本检索RR是第一个正确答案出现位置的倒数,MRR是多个主题的RR的平均值…………哈尔滨工业大学计算机学院语言技术研究中心中文语言处理的发展概况从汉字信息处理到汉语信息处理汉字信息处理已经基本解决汉语信息处理遭遇瓶颈从单机信息处理到网络信息处理单机信息处理系统网络信息处理系统哈尔滨工业大学计算机学院语言技术研究中心从汉字信息处理到汉语信息处理字处理汉字机内码国标码GB2312-80GB18030

国家信息产业部和质量技术监督局发布《信息技术和信息交换用汉字编码字符集、基本集的扩充》Unicode汉字输入码汉字字型库汉字排版系统北大方正的激光照排系统哈尔滨工业大学计算机学院语言技术研究中心从汉字信息处理到汉语信息处理词处理词是自然语言中最小的有意义的构成单位分词规范《信息处理用现代汉语分词规范》(中华人民共和国国家标准GB13715)研究内容分词词性标注名实体识别词义消歧等等哈尔滨工业大学计算机学院语言技术研究中心从汉字信息处理到汉语信息处理语句处理句法分析语句的语义分析应用音字转换文本校对语音合成机器翻译…哈尔滨工业大学计算机学院语言技术研究中心从汉字信息处理到汉语信息处理篇章处理自动文摘单文档自动文摘多文档自动文摘哈尔滨工业大学计算机学院语言技术研究中心从单机信息处理到网络信息处理当前的热点问题信息抽取问答系统对话系统等等哈尔滨工业大学计算机学院语言技

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论