IR、NLP入门指南.doc_第1页
IR、NLP入门指南.doc_第2页
IR、NLP入门指南.doc_第3页
IR、NLP入门指南.doc_第4页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

IR、NLP入门指南苏绥(信息检索实验室)自然语言处理(Natural Language Processing, NLP)技术是信息检索的基础,它大致可以分为以下四个步骤:1) 文本预处理 如网页正文信息提取、去噪等。2) 句法分析 如中文分词、词性标注等。3) 语法分析分析句子的句法结构,如一个句子中的主谓结构、动宾结构等语法成分,常用依存文法分析器就是一个语法分析工具。4) 语义分析这步在语法分析的基础上,理解句子所蕴含的意思。一般信息检索系统中只涉及前两个步骤,即预处理及句法分析。总的来说,上述四个步骤层层推进,对语言的理解也越来越深,且前一步骤是进行后续处理的基础,如语法分析一般在句法分析的基础上进行,句法分析的输入(分词以后的词序列)是语法分析的输入。在信息检索过程中涉及到以下NLP技术:1) 去噪 检索任务通常面对的是网页文档,而一般网页中都会包含大量的标签(Tag)、导航信息等无用内容。我们关注的仅仅是网页的正文信息,即表达网页主题的那部分内容,其他都视为噪音。当然,对于不同的应用来说,对“噪音”的定义可能不尽相同。去噪的目的就是提取过滤掉网页那些无用的噪音信息,而仅留下正文信息供进一步处理。2) 去除停用词(Stop Words) 所谓“停用词”,一般指出现频率很高且没有实际意义的虚词,如汉中的“的”、“啊”等词,英语的“a”、“of”等词,这些词在文档中出现的频率很高,但没有实际语法语义,对检索没有多大的用处,因为一般可以过滤掉。3) 形态分析(词干化、形态还原等) 这一步主要是针对英文来说的。英文中的词根通常会衍生出很多词,如词根“stop”经变化可以衍生出“stopped”、“stopping”等不同的形式。在信息检索中,一般需要将不同变化的还原成其原始的形式(如上例中将“stopped”还原成“stop”),这一过程称之为词干化。4) 特征选择 检索系统面对往往是海量文本,其中包含的词可能成千上万,如果将所有词都建立索引,不仅会占用很大的存储空间,而且会降低检索的速度。此外,文本中有很多词对于表达文档的正文没有多大帮助,因此我们可以从中提取一些有代表性的词建立索引,而将其余的词忽略掉,这个过程其实就是特征选择的过程。特征选择的目的降低词空间的维度(文档集合中出现的每个Unique Term占据一维),也即降维过程。5) 中文分词 这个过程只针对中文信息处理。对于汉语句子“他从马上下来”来说,很明显其想表达的语义是“他 从 马 上 下来”,但机器如何能准确切分出来呢?这便是中文分词需要解决的问题。6) 词性标注词性标注是在分词的基础上,自动识别出每个词的词性(如代词、名词、数词等),如上例中,“他”是代词,“从”是副词,“下来”是动词。7) 短语识别语言中有很多固定搭配的词,它们通常表达某一个确定的意思,如“Information Retrieval”,如何识别出句子中这种具有固定搭配的短语也是NLP中的难点。当然NLP中还包括很多其他的内容,如组块分析(Chunking)、分类(Classification)、聚类(Clustering),但上面的7个步骤是最基本、最常用,几乎所有的NLP应用中都会涉及到其中的某些步骤,因而掌握这些基本知识是进行深入的NLP处理的前提。NOTE: 掌握上述7个步骤至关重要。国内比较好的相关期刊:1、 三大学报a) 软件学报(A类,EI)b) 计算机学报(A类,EI)c) 计算机研究与发展(A类,EI)2、 中文信息学报(核心,B类)3、 模型识别与人工智能(核心,B类,EI)4、 情报学报(核心)国内相关会议:a) 全国搜索引擎与网上信息挖掘学术研讨会(SEWM)b) 全国信息检索学术会议(CCIR)c) 中国计算语言学学术会议(CNCCL)英文期刊:1、 ACM Transactiona) ACM Transactions on Information Systems (TOIS)b) ACM Transactions on Asian Language Information Processing (TALIP):c) ACM Transactions on Knowledge Discovery from Data (TKDD)2、 IEEE Transactiona) IEEE Transactions on Knowledge and Data Engineering 3、 其他a) Computational Linguistics and Chinese Language Processingb) Journal of Machine Learning Researchc) Journal of Artificial Intelligence Research英文会议:1、 IR、NLP相关顶级会议a) ACM Special Interest Group on Information Retrieval(SIGIR)b) ACM Conference on Information and Knowledge Management(CIKM)c) Annual Meeting of the Association for Computational Linguistics(ACL)d) International World Wide Web Conference(WWW)2、 机器学习相关顶级会议a) International Conference on Machine Learning(ICML)b) The Neural Information Processing Systems (NIPS)c) Association for the Advancement of Artificial Intelligence(AAAI)3、 其他a) International Conference on Data Engineering(ICDM)b) International Conference on Computational Linguistics(COLING)c) European Conference on Information Retrieval(ECIR)NOTE: 用红色标注的期刊、会议与IR、NLP领域更加相关。学习方法:对于一个新的领域或方向,首先下载一些比较简单且具有代表性(一般通过期刊、会议的水平来过滤)的文章来阅读,熟悉该领域中惯用的术语及涉及到的技术,然后用相关的英文关键词在Google等检索系统中查找相关的英文文献,也可以通过中文文献中所引用的文章进行查找。在ACM数据中,给出了每篇文章的引用数(Citation Count),可以通过这个指标来衡量文章的经典程度。在对这领域有了深入的了解之后,可以有选择性地跟踪该领域几个顶级的会议、期刊的文章,了解该目前该领域中别人都在关注哪方面。当然,也可以跟踪该领域公认的研究大牛(Authorities)的研究方向,这对把握该方向的研究趋势很有帮助。NOTE: 查找文献是非常重要的一个技能,只有自己先学会了检索(Search)的基本技能,才有可能让机器帮助人们进行自动的信息检索(IR)。阅读书籍:a) Introduction to Information Retrieval. Cambridgeb) 大规模中文文本处理,吴立德c) 搜索引擎 原理、技术与系统,李晓明d) 统计自然语言处理基础NOTE: 根据自身情况,可以有选择性地选择其中一本或多本阅读,在理解的基础上进行阅读。相关讲义、课件:a) 信息检索、统计自然语言处理,刘挺,哈工大课件b) 计算语言学概论,詹卫东,北大讲义c) 自然语言理解,宗成庆,中科院讲义现将阅读重点简单罗列一下:a) IR、NLP领域的基本术语、概念、原理等。b) 一个完整检索系统的详细流程,最好了解到实现层面,清楚各个模块包含哪些处理步骤,每一步中都可以有哪些实现方法。c) 3个经典检索模型1) Boolean Model2) Vector Space Model3) Probabilistic ModelProbabilistic Model刚开始阅读的时候可能会感觉很复杂,它是基于概率分布的模型,所以对数学方面的知识要求的比较对(主要是概率统计知识)。d) 常见分类算法1) 朴素贝叶斯(Nave Bayes)2) K-近邻(KNN)3) 支持向量机(SVM)e) 常见的特征选择算法1) 文档频率(Docu

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论