关键词抽取方法研究PPT课件_第1页
关键词抽取方法研究PPT课件_第2页
关键词抽取方法研究PPT课件_第3页
关键词抽取方法研究PPT课件_第4页
关键词抽取方法研究PPT课件_第5页
已阅读5页,还剩67页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

关键词抽取方法研究,刘知远(清华大学)2020年6月1日,1,.,报告摘要,关键词抽取简介关键词抽取方法关键词抽取的应用展望,2,.,问题描述,关键词自动抽取AutomaticKeyphraseExtraction定义:自动从文档中抽取关键词作为文档摘要特点:多个词或短语一般来自文档内容,3,.,关键词抽取的典型应用场景,4,.,关键词标注方式,5,.,关键词标注方法,6,.,有监督方法,转化为二分类问题判断某个候选关键词是否为关键词Frank1999采用朴素贝叶斯分类器Turney2000采用C4.5决策树分类器转化为多分类多标签问题传统文本分类方法受限词表作为候选关键词集合(分类标签),7,.,无监督方法,词频基于TFIDF及其变形对候选关键词进行排序图方法Rada2004:PageRankTextRankHuang2006:复杂网络统计性质LitvakandLast2007:HITS,8,.,词频方法,Term-frequencyinversedocument-frequency(TFIDF)TF:theimportanceofthetermwithinthedocumentIDF:theinformativenessoftheterminthedocumentset,9,.,TextRank,10,.,文献综述-无监督方法小结,11,.,研究问题,关键词应当具备以下特点相关性,可读性,覆盖性关键词与文档主题保持一致性如何在关键词抽取中考虑对文档主题的覆盖性一个文档往往有多个主题现有方法没有提供机制对主题进行较好覆盖如何解决文档与关键词间的词汇差异问题许多关键词在文档中频度较低、甚至没有出现“machinetransliteration”vs“machinetranslation”“iPad”vs“Apple”,12,.,研究思路,对文档主题结构进行建模,并用于提高关键词抽取的覆盖性利用文档内部信息构造文档主题利用文档外部信息构造文档主题结合文档内部、外部信息利用无标注文档集中的文档与关键词的主题一致性,弥合文档与关键词的词汇差异,13,.,研究内容,通过文档词聚类构建主题进行关键词抽取利用隐含主题构建主题进行关键词抽取综合利用隐含主题和文档结构进行关键词抽取利用机器翻译弥合词汇差异进行关键词抽取关键词抽取的典型应用,14,.,通过文档词聚类构建主题进行关键词抽取,15,.,研究动机与方法,动机:利用文档内部信息对文档主题进行建模方法在文档中选取候选关键词计算候选关键词之间的语义相似度对文档中的词进行聚类在每个聚类中选取聚类中心(exemplar)扩展出关键词,16,.,算法细节,候选关键词相似度度量基于同现关系的相似度基于维基百科的相似度Cosine,Euclid,PMI,NGD聚类方法选取层次聚类(hierarchicalclustering)谱聚类(spectralclustering)消息传递聚类(AffinityPropagation),17,.,实验结果,数据集合:论文摘要参数影响,18,.,实验结果,与其他算法的比较举例,19,.,小结,提出了利用聚类对文档内部主题结构建模的关键词抽取算法对比了不同的相似度度量算法、聚类算法较好地实现推荐关键词的覆盖性问题不同聚类个数较大地影响关键词抽取效果,ZhiyuanLiu,PengLi,YabinZheng,MaosongSun.ClusteringtoFindExemplarTermsforKeyphraseExtraction.TheConferenceonEmpiricalMethodsinNaturalLanguageProcessing(EMNLP),2009.,20,.,通过隐含主题模型构建主题进行关键词抽取,21,.,隐含主题模型,对文档主题进行建模的无监督学习模型由用户指定隐含主题个数根据大规模文档集合中学习每个主题是在词上的分布每个词和文档都可以表示为主题上的分布常见隐含主题模型LatentSemanticAnalysis(LSA/LSI)ProbabilisticLSA(pLSA)LatentDirichletallocation(LDA),22,.,隐含主题模型示例,23,.,利用隐含主题模型进行关键词抽取,24,.,LDA学习算法,GibbsSampling,其他位置上的词w的主题分布,该文档其他位置上词的主题分布,25,.,隐含主题模型的并行研究,26,.,PLDA+算法,机器分为两种功能:一部分机器用于维护训练文档一部分机器用于维护主题模型,27,.,PLDA+算法,28,.,实验效果-维基百科(20万词汇),29,.,在线学习-OnlineLDA,基本思想整个数据集合上的大循环每个文档上的小循环每次只在一个很小的集合上学习并更新模型不再返回去看旧的数据特点快速有利于Web随时间变化较快的数据NIPS2010OnlineLearningforLatentDirichletAllocationDeterministicSingle-PassAlgorithmforLDA,30,.,小结,通过并行或者在线学习可以有效加速LDA学习将在下部分一并展示利用隐含主题模型进行关键词抽取的效果,ZhiyuanLiu,YuzhouZhang,EdwardY.Chang,MaosongSun.PLDA+:ParallelLatentDirichletAllocationwithDataPlacementandPipelineProcessing.ACMTransactionsonIntelligentSystemsandTechnology(ACMTIST),2010.,31,.,综合利用隐含主题模型和文档结构进行关键词抽取,32,.,研究思路,前述工作LDA:利用隐含主题模型发现文档主题TextRank:利用文档内部结构信息综合考虑文档主题和内部结构进行关键词抽取Topical-PageRank(TPR),33,.,研究方法,34,.,研究方法,35,.,研究方法,36,.,(a)Topicon“Terrorism”,(b)Topicon“Israel”,(c)Topicon“U.S.”,(d)TPRResult,示例,37,.,实验,38,.,参数影响,39,.,参数影响,40,.,不同偏好参数设置的影响,41,.,与其他方法比较,42,.,与其他方法比较,43,.,与其他方法比较,44,.,小结,LDA通过文档主题进行关键词抽取,因此取得较TFIDF、TextRank较优的结果TPR综合了TextRank和LDA的优点,在两个数据集合上都表现出了它的优势由于TPR可以按照主题推荐关键词,因此可以用于文档可视化,也可以用来进行查询导向(queryfocused)的关键词抽取,ZhiyuanLiu,WenyiHuang,YabinZheng,MaosongSun.AutomaticKeyphraseExtractionviaTopicDecomposition.TheConferenceonEmpiricalMethodsinNaturalLanguageProcessing(EMNLP),2010.,45,.,利用机器翻译模型进行关键词抽取,46,.,研究问题,文档和关键词都是对同一事物的描述主题一致,词汇差异词汇差异的表现很多关键词在文档中出现次数不高有的关键词在文档中根本没有出现(尤其是短文本)问题TFIDF、TextRank及其扩展、LDA等方法均没有很好解决词汇差异问题,47,.,相关工作,TextRank的扩展ExpandRank在构建词网时,同时考虑文档的近邻文档从“文档层次(documentlevel)”利用外部信息容易引入噪音LDA通过主题分布的相似度来对候选关键词排序从“主题层次(topiclevel)”利用外部信息由于主题一般是粗粒度的倾向于推荐普通词容易发生主题漂移,48,.,研究思路,在“词汇层次(wordlevel)”利用外部信息文档和关键词是对同一事物的描述关键词抽取问题翻译问题,翻译,49,.,研究方法,50,.,研究方法-构建翻译对集合,将文档标题或摘要看作近似用关键词语言写成大部分文档有标题或摘要信息将标题/摘要与文档正文形成翻译对问题摘要、文档往往较长直接使用词对齐算法效率较低、效果较差没有标题/摘要的时候怎么办,51,.,研究方法-构建翻译对集合,52,.,研究方法-构建翻译对集合,当没有标题或摘要,从文档正文中选择重要的句子来与正文构成翻译对选择文档第一句话选择与文档最相关的一句话,53,.,实验设置,句子对齐算法采用IBMModel-1的工具GIZA+在13,702篇中文新闻上进行试验,54,.,实验结果,55,.,实验结果,56,.,57,.,实验结果-抽取重要句子构建翻译对,58,.,实验结果-关键词生成(keywordGeneration),在测试时,只能够根据新闻标题产生关键词,59,.,实验结果-关键词生成举例,文档题目:“以军方称伊朗能造核弹可能据此对伊朗动武”,60,.,小结,机器翻译技术可以有效解决词汇差异问题推荐更符合文档主题的关键词甚至能够胜任关键词生成任务标题/摘要与文档能够构建高质量的翻译对对于新闻文档而言,正文第一句也可以用来构建高质量翻译对,ZhiyuanLiu,XinxiongChen,MaosongSun.ASimpleWordTriggerMethodforSocialTagSuggestion.EMNLP11ZhiyuanLiu,XinxiongChen,YabinZheng,MaosongSun.AutomaticKeyphraseExtractionbyBridgingVocabularyGap.CoNLL11,61,.,典型应用:微博关键词抽取,62,.,应用简介,以新浪微博为平台利用关键词抽取技术获取用户发表微博的关键词应用前景发现和建模用户兴趣为用户之间链接赋予更丰富信息推荐用户感兴趣的产品、信息和好友等具有广阔的商业前景,63,.,64,.,应用界面,65,.,关键词抽取举例-我的微博关键词,66,.,关键词抽取举例-马少平老师的微博关键词,67,.,关键词抽取举例-MSRA的微博关键词,68,.,应用使用情况-统计概览(5.25-9.29),小结,系统受到了微博用户的普遍认可微博关键词抽取系统验证了本文对于基于文档主题结构关键词抽取研究的有效性不足:交互机制,69,.,研究总结,利用文档主题结构对关键词抽取覆盖度的作用进行了深入研究通过文档内词聚类构建文档主题通过隐含主题模型构建文档主题综合

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论