




已阅读5页,还剩9页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
信息资源开发与管理基于文本挖掘的共词分析1、研究内容本文是对文本挖掘相关文献的研究,选择的论文和期刊来源于中国知网。通过对文献资源的检索,寻找到相关的文献资源,并对文献资源进行分析,从而能够对文本挖掘这个研究题目进行一定的了解。本次研究具体内容包括:(1)文献资源检索;(2)文献处理;(3)分析我国今年来文本挖掘的发展方向与研究热点;(4)对研究进行总结。2、文献资源检索与数据收集本文的研究采用中国学术期刊网(CNKI)全文数据库并选择网络数据总库,时间是2010-2014年,指定主题为“文本挖掘”,共搜索到1203篇文献信息,选取其中的1200篇。搜索过程如下图所示。3、关键字分列4、关键词确定利用Excel,通过其统计功能,对关键词进行统计。原始关键词有5534个,从中选择词频为8个及8个以上的,共有51个。之后并对以下关键词进行删除:出现频率过高(即比其它关键词高过多),有:文本挖掘。筛选后,得到比较高频的关键词50个。利用Excel的统计功能将所有关键词进行词频统计,获得原始关键词5534个。选择词频不低于7次的关键词,筛选出51个关键词作为高频词。其中,关键词“文本挖掘”词频846次,为最高频次。但鉴于“文本挖掘”与此次研究本研究内容完全重合,在共词分析中难以发挥作用,予以舍弃,得到最终高频关键词50个,筛选如下:表2 高频关键词筛选结果(频次7)4.建立共词矩阵、相似矩阵、相异矩阵(1)共词矩阵下表中的这些关键词是有关文本挖掘文献中出现频次较高的词,从较大程度上能够代表中国当前文本挖掘研究的热点。为了进一步了解这些关键词之间的联系,在建立的数据表中对这些高频关键词进行两两共词检索,统计它们在1200篇文章中同时出现的频率,建立一个5050的关键词的共词矩阵。其中,部分共词矩阵数据如下图所示。共词矩阵为对称矩阵, 主对角线的数据定义为缺失, 非主对角中单元格的数据为两个关键词共同出现的次数。如关键词“数据挖掘”与“ 文本聚类” 的共词频次为7, 即表示有7篇论文同时使用了这两个关键词。由于下面运用的多元统计方法对矩阵的数据结构有不同的要求, 为了统计分析的方便, 因此用系数将共词矩阵转换成相似矩阵, 具体方法是将共词矩阵中的每个数字都除以与之相关的两个词的总出现频次的开方的积。(2)相似矩阵由于将要运用的多元统计方法对矩阵的数据结构有不同的要求,为了统计分析的方便,本文将相关矩阵转化为相似矩阵和相异矩阵。具体方法是,用Ochiia系数将共词矩阵转换成相似矩阵,即将共词矩阵中的每个数字都除以与之相关的两个关键字总频次开方的乘积,其计算公式是:A、B两词同时出现的频次A词总出现频次B词总出现频次利用该公式进行计算,得到相似矩阵。部分相似矩阵如下:相似矩阵中的数字表明其对应两个关键词之间的亲疏关系,数值越大则表明关键词之间的距离越近,相似度越好;反之,数值越小则表明关键词之间的距离越远,相似度越差。在相似矩阵中由于0值过多, 统计时误差过大, 有可能影响分析结果。为了方便进一步处理, 用1与全部相关矩阵上的数据相减, 得到表示两词间相异程度的相异矩阵。(3)相异矩阵用1与全部相似矩阵中的数据相减,得到表示两词间相异程度的相异矩阵。部分相异矩阵如下:相异矩阵中的数据表示不相似数据,数值越大则表明关键词之间的距离越远,相似度越差;反之,数值越小则表明关键词之间的距离越近,相似度越高。5、聚类分析聚类分析借助数据挖掘中的聚类分析法,对共词关系网络中的词与词之间的距离进行数学运算分析,将距离较近的主题词聚集起来,形成一个个概念相对独立的类团,使得类团内属性相似性最大,类团间属性相似性最小,以达到将研究领域分类的目的。本实验采用层次聚类(Hierarchical Cluster) ,选择离差平方和法(Wards Method) 与离散数据类型(Count)中的斐方( Phi-square Measure) 方法。可以初步判断各关键词之间的关联程度。本实验主要通过运用SPSS20.0版本进行聚类分析。聚类分析结果树状图如下:图2 聚类分析结果树状图6、因子分析在聚类分析基础上,再利用因子分析对研究前沿进行进一步的论证,以利于解释。因子分析是一种多变量分析方法,能将众多的具有错综复杂关系的指标归结为少数几个综合指标(公共因子或因子变量) ,达到降维和简化数据的目的。因子分析的目标就是用尽可能少的因子去描述众多指标间的联系,其基本思想是把研究对象的变量分组,使得同组内的变量相关性较高,不同组的变量相关性较低。每组变量称为一个公共因子,这样几个公共因子可以反映原资料大部分信息。通过下表,可以看出50个关键词中共有23个公共因子被提取,其方差累积贡献率为64.65%,它们能够解释全部信息的64.65%,从而说明50个关键词可以分别从属于23个不同的类别。本研究是使用SPSS20.0版本进行因子分析。解释的总方差成份初始特征值提取平方和载入合计方差的 %累积 %合计方差的 %累积 %12.2454.4904.4902.2454.4904.49021.9343.8678.3581.9343.8678.35831.7823.56311.9211.7823.56311.92141.7233.44515.3661.7233.44515.36651.7123.42418.7901.7123.42418.79061.6163.23122.0211.6163.23122.02171.5703.13925.1611.5703.13925.16181.4852.97028.1311.4852.97028.13191.4522.90431.0351.4522.90431.035101.4152.83033.8651.4152.83033.865111.3962.79336.6571.3962.79336.657121.3462.69239.3491.3462.69239.349131.3122.62341.9731.3122.62341.973141.2942.58744.5601.2942.58744.560151.2312.46247.0221.2312.46247.022161.2012.40349.4251.2012.40349.425171.1692.33851.7631.1692.33851.763181.1212.24254.0041.1212.24254.004191.0922.18356.1881.0922.18356.188201.0802.16058.3481.0802.16058.348211.0762.15260.4991.0762.15260.499221.0552.11062.6091.0552.11062.609231.0202.04164.6501.0202.04164.65024.9841.96866.61825.9641.92868.54626.9611.92170.46727.9181.83672.30328.9051.81074.11229.8561.71275.82530.8341.66977.49431.8141.62879.12232.7801.56080.68233.7531.50682.18734.7411.48383.670解释的总方差成份初始特征值提取平方和载入合计方差的 %累积 %合计方差的 %累积 %35.7261.45185.12136.7081.41686.53737.6751.34987.88638.6241.24989.13539.6201.24190.37640.5951.19091.56541.5641.12892.69342.5561.11293.80543.5331.06794.87244.5091.01995.89145.472.94596.83646.456.91297.74747.439.87998.62648.376.75199.37749.311.623100.00050-6.245E-016-1.249E-015100.000提取方法:主成份分析。图3 碎石图因子个数碎石图直观地显示出因子分析的前23个因子类别是比较明晰的,根据因子载荷系数大于0.5对命名才有帮助的原则,23个主成分命名如下表所示。7、研究热点分析根据上述国内文本挖掘领域的研究结构结合文献对结构,概括起来,国内对文本挖掘的研究热点集中在以下几点(可能存在偏差):(1)语义分析从因子载荷系数来看,有关语义分析的关联性最强,它与关键词提取紧密关联,包含了特征提取、关键词提取。作为一个在人工智能和计算语言学的方法,它为知识推理和语言提供了一个结构和过程。由此可见,国内对于文本挖掘的研究在这几方面投入的研究的比较多,也可以知道这是一大研究热点。(2)聚类算法聚类分析是研究(样品或指标)分类问题的一种统计分析方法,同时也是数据挖掘的一个重要算法。聚类分析是由若干模式组成的,通常,模式是一个度量的向量,或者是多维空间中的一个点。聚类分析以相似性为基础,在一个聚类中的模式之间比不在同一聚类中的模式之间具有更多的相似性。(3)文本聚类在数字文本膨胀的背景下,利用聚类分析技术对文本数据进行简化表示,通过聚类分析技术对信息检索结果进行重新组织、加速信息检索速度、实现信息的个性化推送都是一系列极具发展前景的应用。K-means是经典的基于划分的聚类算法,相对简单而应用广泛。(4)Web数据挖掘Web数据挖掘在信息检索领域应用比较多,主要用于从大量非结构化Web数据中提取和产生知识。Web数据挖掘的目标是从Web超链接、网页内容和使用日志中探寻有用的信息,通过web数据挖掘可获取竞争对手和客户信息发现用户访问模式等等。(5)信息抽取信息抽取 (Information Extraction: IE)是把文本里包含的信息进行结构化处理,变成表格一样的组织形式。输入信息抽取系统的是原始文本,输出的是固定格式的信息点。信息点从各种各样的文档中被抽取出来,然后以统一的形式集成在一起。这就是信息抽取的主要任务。信息以统一的形式集成在一起的好处是方便检查和比较。 信息抽取技术并不试图全面理解整篇文档,只是对文档中包含相关信息的部分进行分析。至于哪些信息是相关的,那将由系统设计时定下的领域范围而定。8、总结本研究以中国全文学术期刊(CNKI)近四年(2010-2014)国内文本挖掘领域的关键词为基础。通过共词分析方法,结合SPSS软件的层次聚类功能以及因子分析功能,对研究热点以及国内研究现状、方向进行了分析,以期从整体上把握研究重点,同时对现在研究是否偏离实际作出一个判断,为进一步研究做相关参考。(1)文本挖掘的研究是由实际对于分析海量文本数据提取隐藏信息引发的,并且随着实际效应而逐渐彰显重要性。(2)从文本挖掘技术的研究和应用状况来看,从语义角度实现文本挖掘的的还比较少,研究比较多的文本挖掘技术是文档分类、文档聚类和自动文摘,是挖掘工作的重要组成部分,处于挖掘过程的学习和知识提取阶段。(3)在当今世界,一个人或一个组织所获得的文本信息集合十分巨大,而且文本信息集合还在不断地更新和增加,信息检索等技术已不能适应当今文本信息处理的需要,因
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 草坪建植工协作考核试卷及答案
- 铁氧体材料制备工效率提升考核试卷及答案
- 丙纶纤维纤维复合应用开发工艺考核试卷及答案
- 稀硝酸工知识考核试卷及答案
- 2025秋新教材八年级上册道德与法治教学课件:第二单元 第4课遵守社会规则第2课时 遵守规则 含微课视频
- 研发技术类考试题及答案
- 飞机电气系统及运行限制测试卷附答案
- 英文电商面试题库及答案
- 银行校招试题及答案
- 注册结构专业试题及答案
- 董事会基础知识培训总结课件
- 2025版煤矿安全规程宣贯培训课件
- (教科2024版)科学三年级上册2.1 水到哪里去了 课件(新教材)
- 上锁挂牌管理培训课件
- 节能减排培训课件
- 新课标(水平三)体育与健康《篮球》大单元教学计划及配套教案(18课时)
- 24h药房温湿度记录表
- 药食同源培训教材课件
- 集成运算放大器的非线性应用课件
- 材料化学纳米材料市公开课一等奖省名师优质课赛课一等奖课件
- 从初高中物理教学衔接角度谈初中物理教学课件
评论
0/150
提交评论