关键词抽取在协同管理中的应用_第1页
关键词抽取在协同管理中的应用_第2页
关键词抽取在协同管理中的应用_第3页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、关键词抽取在协同管理中的应用摘 要:为了自动提取协同管理平台中的修改意见的主题,本文从选取候选词集和基于统计的抽取方法入手进行关键词抽取,首先利用维基百科作为语料库,利用最大匹配算法生成候选词集,然后综合考虑了词频、逆文本频率、词长等三项指标,利用改进的TF-IDF关键词抽取方法,抽取关键词来表示修改意见的主题。将关键词与朴素贝叶斯分类算法相结合,对修改意见语料集进行实验,结果说明,抽取来的关键词能够更准确地表示修改意见的主题。关键词:短文本 候选词集 关键词抽取 TF-IDF中图分类号:F560.81    &#

2、160;          文献标识码:A            文章編号:1674-098X202102a-0200-02目前,在企业协同管理平台存有大量修改意见,需要人工对这些意见进行分析,了解企业用户经常犯什么错误,从而采取针对性培训,提高企业执行效率。但是在执行过程发现工作量大、时间效率低、存在人为主观性等缺点。为了克服这些缺点,我们需要让计算机能够“读懂修改意见,根据

3、对意见的收集可以得知用户经常犯的错误,并挖掘出一些潜在的企业管理短板,采取针对性培训。根据评论进行意见收集实质是对短文本进行关键词抽取。短文本指的是篇幅小、表现形式多种多样、内容零碎的一类文本,大多都是能够表达完整意见的语句。关键词指的是代表短文本主题内容的词或短语,便于读者快速理解短文本内容并对文本进行归类总结。中文关键词抽取一般分为通过中文分词产生候选词集和对候选词集进行抽取两个局部。中文与拉丁系语言区别在于字之间没有空格或分隔符来识别词语的边界,中文字可以自由组合产生多种含义,单个字的重复利用率高,从上述可以发现主要难点在于如何得到一个好的候选词集和如何将其中的关键词抽选出来。1

4、0;短文本候选词集由于中文具有一定语义的最小单位是词,词与词之间没有明显切分标志,中文分词效果的好坏直接影响到关键词抽取的最终结果。如何提高分词效果和将大量未在分词词典中出现的未定义词缩略语、网络语言等新词识别出来,是中文分词中的难点。特别是相对长文本,短文本中词的数量要少得多,候选词集的选取更是难上加难。为了实现高效的分词,根底前提是构建一个高效的词表,通常短文本分词可以借助现有大语料库或词典等外来资源扩充短文本语义特征【1】,本文利用中国科学院计算技术研究所发布的免费版分词词典作为分词词典【2】,利用分词过程中产生的多频率词和单位常用的专业术语作为分词词典的补充。中文分词是将一个汉字序列切

5、分成一个个单词的过程。传统的中文分词算法分为三类:基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。本文采用了第一种方法,即按照一定的策略将汉字字符串与一个词典中的词进行匹配。常见和实用的分词匹配算法有正向最大匹配法、百度的双向最大匹配算法BMMM和GOOGLE逆向最大匹配算法RMMM【3】。本文应用正向最大匹配法对短文本进行词条匹配,具体思想是分词词典中的最长的词条字数为L个,取评论的前L个字作为匹配字段,在分词词典中查找,假设词典中有这个词,那么匹配成功,就切分出来,取下一个L个字段;如果词典中找不到该词,那么匹配失败,将匹配失败的词条进行记录、存储,当再次出现时进行频率更

6、新,当词频数等于某一个设定的值时,作为未定义词,更新分词词典。然后去掉匹配字段的最后一个字,重新进行上述的操作,直到切分出所有词为止。然后过滤掉不能反映主题的停用词,诸如“的之类助词和“因此等只能反映句子语法结构的词语,本文的停用词确定为所有虚词以及标点符号。2 关键词抽取现有的中文关键词抽取方法,主要有基于语义分析、基于规那么和基于统计的方法。基于语义分析通过研究自然语言的语法关系来抽取关键词,可以分为语义分析、词法分析、句法分析和篇章分析,但是需要对文本逐步进行分析,消耗大量人力物力。基于规那么的方法主要是通过建立关键词的位置、词性等特征规那么等方法来进行抽取,需要人工统计规那么

7、,规那么自适应性弱,领域性较强。基于统计的分析方法分为有监督和无监督的关键词抽取方法,有监督的关键词抽取方法指的是基于决策树、朴素贝叶斯、SVM等机器学习方法,需要大规模人工标注的训练语料作为根底支持,抽取效果依赖具体的训练语料的质量。虽然该类方法精确度高,但是对语料需要消耗大量的人力资源进行标注,而在没有大量人工标注的标准语料库作为支持的情况下,无监督的方法更加适用关键词抽取的实际应用。本文通过无监督的统计TF-IDF方法确定候选词的权重,从中筛选出权重较大者作为最终的关键词。特征词的挑选通常应该具备以下原那么:1能够确实标识文本内容,即与文本主题内容应密切相关;2具备将目标文本与其他文本区

8、分开的能力;3个数适中,不宜过多;4特征词别离操作易实现。本文用改进的TFIDF来衡量每个类中训练文档的词条的权重,并按照权重大小排序,从每个类中选出KK=40个权重最大的词,根据这些词语进行了相关性分析,对管理中出现的问题进行了整理。本文选取出来的特征词与朴素贝叶斯NB分类算法相结合应用于修改意见,对修改意见进行文本分类,观测分类效果,以确认关键词的优劣。采用两个评判指标-查全率、查准率,查全率是分类器正确判别为属于该类的文本数与分类器预测为该类的文本数的比值;查准率是分类器正确判别为属于该类的文本数与实际属于该类的文本数的比值;格式错误的查全率为81.3%,查准率为87.3%,缺项漏项的查全率为76.1%,查准率为88.1%,说明关键词的抽取具有一定的效果。3 结语为了自动提取协同管理平台中的修改意见的关键词,本文从候选词集选取和关键词抽取方法入手,利用维基百科作为词表生成候选词集,从综合考虑了词频、逆文本频率、词长等三项指标,提出了改进的TF-IDF方法,选取一局部关键词,取得一定的成果。但本文未能考虑词的位置、评论来源的重要性等外部信息对评论的影响,将是笔者下一步研究的内容。参考文献【1】范云杰,刘怀亮.基于维基百科的中文短文本分类研究D.西安:西安电子科技大学,2021.【2】钱爱兵,江岚.基于改进TF-IDF的中文网页关键词抽取J.情报理论与实践,2021

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论