【毕业学位论文】(Word原稿)基于文献聚类的数据挖掘模型设计与实现-统计教育学_第1页
【毕业学位论文】(Word原稿)基于文献聚类的数据挖掘模型设计与实现-统计教育学_第2页
【毕业学位论文】(Word原稿)基于文献聚类的数据挖掘模型设计与实现-统计教育学_第3页
【毕业学位论文】(Word原稿)基于文献聚类的数据挖掘模型设计与实现-统计教育学_第4页
【毕业学位论文】(Word原稿)基于文献聚类的数据挖掘模型设计与实现-统计教育学_第5页
已阅读5页,还剩15页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1 基于文献聚类的数据挖掘模型设计与实现 (南京人口管理干部学院 江苏 南京 210042) 摘要 :聚类分析是统计学中的一项重要技术。通过聚类可以发现隐藏在海量数据背后知识。本文首先建立空间向量模型,改进了传统相似度的计算模型,提出了一种基于摘要词对关键词加权贡献的相似度模型,使得文献的空间向量更加精确。数据来源于 05 年 献数据库图书情报学的 3千多条文献数据,并通过中知网查询相关文献的摘要。通过数据清洗、去噪声、降维、规格化处理、样本抽样等一系列步骤,得到最终用于聚类的 681篇文献和 108个学科特征原子词。利用 件编程实现了 法的文献聚类。将聚类的结果通过基于学科原子特征词的学科交叉表来表示,统计出图书馆学、情报学和文献学三个学科的研究热点及交叉点,以及图书情报学新的学科增长点,并对结果进行了检验,检验结果表明该统计模型是科学的、有意义的。 关键词 :聚类 ; 交叉学科 ; 关键词 ; 摘要 ; 相似度 ; 一、引言 聚类分析( 统计、模式识别和数据挖掘等领域中一个非常重要的技术,文献聚类就是依据文献之间 的相似度按照一定的算法准则,挖掘隐藏在海量文献数据背后的有用知识:如学科交叉、研究热点和新的研究方向。科学研究需要创新。科学技术的发展为每个学科的发展带来新的机遇的同时,也带来更为严峻的挑战。目前,文、理、工、管等学科之间相互渗透、交叉、融合已经成为一种潮流和趋势,其深度和广度正在进一步深化。众所周知,近代科学发展特别是科学上的重大发现和国计民生中的重大社会问题的解决,常常涉及不同学科的相互交充满和相互渗透。学科交叉逐渐形成一批交叉学科,如化学与物理学的交叉形成了物理化学和化学物理学,化学与生物学的交叉形成 了生物化学和化学生物学,物理学与生物学交叉形成了生物物理学等。这些交叉学科的不断发展大大地推动了科学进步,因此学科交叉研究( 现了科学向综合性发展的趋势。科学上的新理论、新发明的产生,新的工程技术的出现,经常是在学科的边缘或交叉点上,重视交叉学科将使科学本身向着更深层次和更高水平发展,这是符合自然界存在的客观规律的。由于现有的学科是人为划分的,而科学问题是客观存在的,根据人们的认识水平,过去只有天文学、地理(地质)、生物、数学、物理、化学六个一级学科;而 经过 20 世纪科学的发展和交叉研究,又逐渐形成了新的交叉学科,如生命科学、材料科学、环境科学等。因此研究学科交叉可以反映学科的研究的热点和发展趋势。本次统计建模正是基于以上的研究背景,通过文献聚类来研究学科交叉,其意义在于:( 1)通过对文献数据的聚类分析,挖掘学科交叉点,使研究者了解本学科目前的研究现状,如学科发展前沿与热点问题等,以提高研究者的创新意识和创新动力,为 2 科学研究提供决策支持;( 2)为管理者和研究机构提供决策支持,如交叉学科的政策支持、研究经费投入、人才培养方向等;( 3)通过学科交叉的比较,使学科 本身获得动力,提升学科竞争力,使学科能更好地适应社会和经济的发展,更好地服务社会。 不同的数据库 ,对其文献进行分类有不同的方法 ,没有一种方法能对所有数据库的文献分类都具有高效率、高精确率。对于科学文献的分类 ,目前主要采用的方法有 1: (1)引文分析法 :引文分析是指通过对文献中所附的参考引文进行计量统计分析 ,从而揭示科学技术发展的历史及现状。其目的是寻找文献之间的联系来研究文献内在联系和科学结构的一种方法。 (2)关键词分析法 :关键词分析就是通过对反映文献主题内 容的词进行关联性或相异性定量分析 ,研究文献内在联系和科学结构的一种方法。 (3)聚类分析法 :聚类分析是指根据分析对象彼此之间的相关程度把文献分成类群 ,使群内尽量相似 ,群间尽量相异 ,然后进行分析研究的过程。 (4)因素分析法 :因素分析的概念是英美心理统计学者们最早提出的 ,因素分析法是从试验所得的 m n 个数据文献中概括和提取出较少量的关键因素 ,它们能反映和解释所得的大量观测事实 ,从而建立起最简洁、最基本的概念系统 ,揭示出事物间最本质的联系。 (5)关键词分析与共引聚类分析相结合研究法。目前国内研 究的主要热点集中在第一方面 ,而国外在该领域的最新研究是通过关键词分析和共引聚类分析相结合 ,以揭示文献的主题结构。 中文文本挖掘技术成败的关键在于文本中词汇切分的成功与否。由于汉语语言的特殊性和复杂性 ,使中文词汇的切分成为一个很伤脑筋的问题。而如果不进行分词 ,中文信息处理的其它很多研究就无法进行。 分词技术中基于词库的算法目前使用较广 ,也较为成熟 ,如正向、逆向最大匹配法、逐词遍历法。这类算法分词的正确性很大程度上取决于所建的词库。一个词库应具有完备性和完全性两个方面 ,建立一个同时满足 这两个要求的词库具有很大的难度 2。所以 ,对于中文文本挖掘来说 ,基于词库的分词技术可能会使某些具有重要意义的词汇被疏漏 ,从而导致挖掘的内容不是十分准确。 基于无词典的分词技术正处于研究发展阶段 ,其基本思想是 :基于频度的统计 ,不依靠于词典 ,将文本中任意几个字同时出现的频率进行统计 ,次数越高的越可能是一个词 3。文中设计了一个基于无词典分词的算法 4,能比较准确地切分出文本中的新词。 特征提取主要是识别文本中代表其特征的词项。提取过程是自动的 ,提取的特征大部分是文本集中表示的概念。文本 特征分为一般特征和数字特征 ,其中一般特征主要包括动词和名词短语 ,如人名、组织名等 ;数字特征主要包括日期、时间、货币以及单纯数字信息。这些特征包含重要的信息 ,因此特征提取是一种强有力的文本挖掘技术。通过文本特征抽取 ,记录文本的特征 ,可以更好地组织文本 ,如文本的存储、检索、过滤、分类和摘要等。 中文姓名识别属于中文信息处理中未登录词处理的范畴 ,中文姓名在文章中 3 的出现频率虽然不高 ,但绝非可以忽略 ,因为中文姓名本身包含着重要的信息 ,它可能是整个句子甚至整个段落的语义中心 ,如果不予处理 ,将影响文本挖掘的性能 5。数 字特征反映一定的信息 ,但不能表达文本的中心思想 ,通常只作文本挖掘中的参考信息。 聚类分析主要包括统计学习和机器学习两种方法。在基于统计学习的聚类分析中,主要研究基于几何距离的聚类,这也是本次建模采用的方法。其主要步骤包括:( 1)定义多维空间;( 2)计算多维空间中样本点之间的距离,作为样本点之间的相似度;( 3)采用某种算法(如 次法等)按照相似度大小将相似度高的样本聚为一类。 在文献聚类问题中,一般都是根据向量空间模型( 想,将文献聚类的样本空间表示成 X= , 其中样本 , 在要找到这样一个划分 C= , 使得: ,.,2,1,1 i 且 且,.,2,1,,并且满足类内之和 kj cx 值最小, 示类 本次建模研究目标是在海量数据的基础上,采用聚类分析的理论和方法,挖掘隐藏在数据背后的学科交叉知识, 研究的整体框架如下: 图 1 文献聚类研究框架 主要的研究思路为: ( 1)数据采集:采集三个学科(图书、情报、文献)一年的文献数据; ( 2)数据预处理: 降维:经过抽取和提炼,建立学科特征词库,构建聚类空间; 文献摘要分词:将摘要利用分词技术进行分词,去掉虚泛词; 关键词与摘要词加权:利用关键词在摘要中出现的频次,计算出摘要词对关键词的贡献度; 去噪声:对数据库中文献学科类别特点不明显的文献删除。 ( 3)利用 型,建立文献空间向量; ( 4)利用 件中的 法,将文献进 行多次聚类; 文献样本 数据库 学科特征词库 数据抽取和提炼 结果 分析 聚类分析 文献 数据库 数据采集 加工 4 ( 5)对聚类的结果进行统计分析。 二、模型设计 向量空间模型( 文献分类所使用的特征较为普遍采用的方法之一。在这种模型中,文献空间被看作是由一组正交词条向量组成的向量空间,每个文献表示为其中的一个范化特征向量: V(d)=(t1,w1(d), ,ti,wi(d), ,tn,wn(d),其中 可以要求 提高文献内容的准确性。 Wi(d)常被定义为 d 出现频率 d)的函数,如 wi(d)=(d),常用的 函数有布 尔函数: 1 ( ) 10 , ( ) 0d , ;平方根函数: ()d ;对数函数 : lo g ( ( ) 1 )d ; 数: ( ) l o g ( )d n 等。本次建模中采用了一种新的 wi(d)的计算模型,具体步骤如下: (1)构建特征向量空间 文献聚类是在一个非常高的维度中进行的,而聚类算法的复杂度与数据维度是非线性关系。理论证明,随着维度的增加,计算的复杂度将呈现指数级的增长。我们通过 对 05 年 献数据库中三大学科文献的统计发现,在 3932 篇文献中关键字的个数为 14202,平均每篇文献的关键词个数为 ,互异的关键词达到 6708 个,利用普遍认可的 计算文献相似度矩阵时,特征空间的维度很大,增加了计算的复杂性。因此,文献聚类的首要问题是要将数据进行降维。原子特征词是指从所有文献关键词中找出能够反映出学科特点的关键词中的原子部分。这样做可以将数组维度从一个非常高的维度降低到一个维度相对较低的空间。 原子特征词词典的确立是基于关键词的文本分类的非常关键的基础问题,词典中原子 特征词的选取既要考虑这些词在文本集合中出现的统计特征,选取那些反映文本内容的原子特征词;又要做停用词表,去掉那些在特定语言中出现频率较高但含义虚泛的词,以降低特征空间的维数;同时还要考虑关键词的频幅限制,以防止因少数关键词在少数文本中频幅过高而造成的聚类中心的偏移影响。 (2)关键词相似度计算模型 由于我们对关键进行了抽取和加工,因此大部分的文献关键词与原子特征词并不完全相同,由于在传统的相似度计算模型中两者的相似度将是 0,这会使得构建的文献空间向量矩阵绝大部分元素出现 0。因此,必须考虑两种关键词之间的部分 相似性。 6 假设两个关键字 符长度分别为 续相同字符串长度为 l,则该两个关键字相似度定义为 T(ki, 404),( ( 1) 显然有 T(ki, 0, 1。这个公式考虑了关键字之间的部分相似性,提高了相似度计算的精度。例如:两个关键字“公共图书馆”和“数字图书馆”,在许多的文献聚类方法中将这两个关键字的相似度定义为 0(即两者完全不同), 5 这在某种程度上影响了文献相似度的精确度。利用我们给出的公式( 1)计算结果为 更加准确地表示两者的相似度。 (3)相似度加权计算模型 每一篇文献一般有若干个关键词,通过关键词相似度计算模型中公式( 1)计算所得的值也相应地有若干个。为了进一步提高文献相似度的精确度,我们结合关键词相似度计算模型和关键词的频次提出一种新的计算文献相似度的相似度加权计算模型: 假设文献的关键词为文献的关键词集合定义为 () 12( ) ( , , , , , )i i nD k k k k k( 1) 定义文献的关键词的频次为 () ( ( ) , ( ) , , ( ) , , ( ) )i i nF k F k F k F k F k( 2) 通过关键词相似度计算模型计算 12( ) ( ( ) , ( ) , , ( ) , , ( ) )i i nT k T k T k T k T k( 3) 取公式( 3)中的最大值,定义为 ()k( ) ( ( ) )a x k T k(4) 定义相似度加权计算的值为 () ( ) ( ( ) 1 )i i iP k M a x k F k (5) (4)文献空间向量的构建 目标是将文献数据表示为特征空间中的一个向量。该矩阵以文献作为行,以原子特征词作为文献的特征词,即作为列。每一篇文献的每一个关键词分别和每一个原子特征词进行相似度计算,乘以该关键词在摘要中出现的频次加1后的最大值作为最终结果,因为该词在文献关键词中也出现 1次。假设 文献的空间向量矩阵表示为: .献在 m 维空间的特征分量 i=1,2,n;j=1,2,m)计算是通过每篇文献的关键词与原子特征词之间的相似度乘以该关键词在摘要中出现的频次加 1,并取最大值得到。例如:一篇文献中的 3 个关键词及在摘要中出现的频次分别为:数字型图书馆( 3) ; 隐性知识( 4) ; 图书馆工作( 2),第 i 维的原子特征词为“图书馆”。则这篇文献的 wi(d)的计算方式为:首先利用相似度计算模型中公 式( 5)计算 3 个关键词与原子特征词“图书馆”的相似度值分别为 0、 后计算加权后的值分别为 3+1) =0( 4+1)=0、 2+1) =最大值 为 wi(d)的值。 6 类算法模型及步骤 ( 1) 类算法模型 的思想就是使得被划分到同一 类的对象之间相似度最大,而不同 类 之间的相似度最小。模糊 均值算法的改进,普通 7。 代寻优过程中 , 不断更新各类的中心及隶属度矩阵各元素的值 , 直到逼近下列准则函数最小值 211(,) Nc mm ij V u d , (2) 式 (1)中 V= , 重 (1, )m,2 ( ) ( )j i j x v A x v , 时, 欧式距离 。式 (2)的约束条件为11c , j ,运用拉格朗日乘数法,可得无约束的准则函数 2 1 1( 1 )N c N j i j i jj i j iF u d u , (3) 式( 3)取极小值的必要条件是 12 0,ij jF m u (4) 1( 1 ) 0 .c u (5) 由式 (3)可得 12 1( ) ,j m d (6) 将式 (6)代入式 (5)可得 11 112111( ) ( ) 1cc mj , (7) 从而有 1 11121( ) ,1()j (8) 将式 (8)代入式 (6)得 2111 .()ij mk (9) 考虑到,对j,定义集合 7 0,j i d 2 , , 3如果 ,则 2111 .()ij mk (10) 如果 则,令 0,类似地,可得聚类中心更新算式,令 ( , ) 0 , V 可得 11 ( ) ( ) 2 ( ) 0 ,j j i j i i j j x v A x v u A x 由此可得 ij j u x u (11) ( 2) 类算法步骤 ( 1)确定类数 (2 )c c N 、参数 m、矩阵 ; ( 2)置定初始模糊分类矩阵 (0), 中元素,令 s=0; ( 3)计算 ()的 ()11, 1 , 2 , , m mi i j j i u x u i c ( 4)按下面的方法更新 () ( 1 ) ( 1 ) j N 计算 0,j i d 2 , ,c I 计算 如果 ,那么2111 ,()ij mk 否则,0,ij i ( 5)以一个适当的矩阵范数比较 () ( 1),如果 ( ) ( 1 ) ,停止;否则, s=s+1,返回( 3) 8. 8 三、文献聚类的实现 文献聚类实现的步骤如下: ( 1)数据抽样:从 05年 据库中情报学、文献学、图书馆学三种学科文献共 3932 篇文献中,通过系统抽样法,从中选取了 800 篇文献,其中情报学 257篇,文献学 120篇,图书馆学 423篇。 ( 2)数据清洗:通过中知网( 索,取出每一篇文献的摘要部分,并统计每一篇文献中关键词在摘要中出现的频次。去掉其中表达不规范的摘要,最终选取情报学、文献学、图书馆学三个学科文献共 681篇,其中情报学207篇,文献学 98 篇,图书馆学 376篇,处理后的数据如图 2所示。 图 2 待聚类的文献数据 ( 3)抽取原子特征词:取出 681篇文献中所有的关键词,从中人工选取 108个原子特征词,如表 1。通过编写程序,求出每一篇文献中的每一个关键词相对于 108 个原子特征词的相 似度值,然后乘以该关键词在摘要中出现的频次加 1之后最大相似度值,即为相似度加权值。 表 1 原子特征词表 1 安全 19 传播 37 馆员 55 排架 73 数字 91 影响因子 2 版本 20 导航 38 集成 56 评估 74 搜索引擎 92 用户 3 版权 21 电子 39 计算机 57 评价 75 索引 93 语义 4 保存 22 调查 40 家谱 58 期刊 76 图书 94 元数据 5 被引 23 读者 41 价值 59 企业 77 图书馆 95 阅读 6 本体 24 敦煌 42 检 索 60 情报 78 图像 96 整理 7 编目 25 分布式 43 建筑 61 全文数据库 79 推送 97 政府 8 标引 26 分词 44 借阅 62 人文 80 网络计量 98 知识 9 博客 27 分类 45 竞争 63 人性化 81 网页 99 智能 10 采访 28 佛经 46 口述 64 儒家 82 网站 100 中图法 9 11 采购 29 个人 47 类目 65 商务 83 文献 101 主题 12 参考 30 个性化 48 联合 66 社会 84 信息 102 著录 13 藏 书 31 公共 49 联机 67 社区 85 虚拟 103 著作 14 查全 32 共享 50 联盟 68 史料 86 叙词表 104 专利 15 查新 33 古籍 51 链接 69 视频 87 学科 105 咨询 16 查询 34 关键词 52 论文 70 收录 88 学术 106 资料 17 成本 35 馆藏 53 目录 71 书目 89 引文 107 资源 18 出版 36 馆际 54 内容分析 72 数据 90 隐性知识 108 自动化 ( 4)构建文献空间向量矩阵:以 681篇文献作为行, 108个原子特征词作为列,以步骤( 3)中求出的相似度加权值作为矩阵元素来构建文献空间向量矩阵R,图 3 为 R 的部分元素。该矩阵每一行即为一篇文献的一个空间向量,每一列(每一维)即为一个文献特征。通过相似度加权计算的方法所取得的值与现有的方法相比较更加准确地反映出某个关键词在文献中的权重,而且所得的文献空间向量矩阵 样通过 定。 图 3 文献空间向量矩阵 ( 5)聚类实现:将文献空间向量矩阵 R 中的数据存入文本文档,作为 法的数据 源。运行 法 100 以上,取出其中聚类目标函数值最小时的聚类结果作为最终结果输出,程序界面如图 4。通过多次运行并对结果进行比较发现,聚类的结果比较稳定,如表 2。 10 图 4 序界面 表 2 前 200 项数据的聚类结果 1 3 21 3 41 2 61 1 81 1 101 1 121 1 141 1 161 2 181 3 2 2 22 2 42 1 62 1 82 1 102 2 122 1 142 2 162 3 182 1 3 2 23 1 43 1 63 1 83 1 103 1 123 1 143 1 163 2 183 3 4 3 24 1 44 1 64 1 84 1 104 1 124 1 144 1 164 2 184 3 5 1 25 3 45 1 65 2 85 1 105 1 125 1 145 1 165 2 185 2 6 3 26 3 46 3 66 1 86 1 106 1 126 1 146 2 166 2 186 1 7 1 27 2 47 1 67 3 87 1 107 3 127 1 147 3 167 3 187 3 8 1 28 1 48 1 68 3 88 1 108 2 128 1 148 3 168 3 188 2 9 3 29 2 49 1 69 1 89 1 109 1 129 1 149 3 169 3 189 3 10 2 30 1 50 1 70 1 90 1 110 1 130 1 150 3 170 1 190 1 11 3 31 2 51 1 71 1 91 2 111 1 131 1 151 3 171 2 191 3 12 3 32 2 52 1 72 1 92 1 112 1 132 1 152 1 172 1 192 1 13 3 33 1 53 2 73 1 93 1 113 1 133 2 153 2 173 1 193 3 14 1 34 1 54 1 74 3 94 1 114 1 134 3 154 1 174 2 194 3 15 3 35 1 55 1 75 2 95 3 115 1 135 1 155 1 175 3 195 1 16 1 36 1 56 1 76 1 96 2 116 1 136 3 156 1 176 3 196 1 17 1 37 3 57 1 77 1 97 1 117 1 137 1 157 3 177 1 197 2 18 2 38 3 58 1 78 1 98 2 118 1 138 1 158 2 178 3 198 1 19 2 39 3 59 3 79 1 99 1 119 1 139 1 159 1 179 3 199 2 20 1 40 1 60 2 80 1 100 2 120 1 140 3 160 1 180 1 200 1 ( 6)学科交叉研究方法:通过 2)中已知的学科分类数据相比较,得到一张 学科交叉表。该表以原子特征词作为行,以两两学科相互之间是否交叉作为列,统计原子特征词是否在某两门学科之间出 11 现以及如果出现,那么出现的频次为多大。这样就可以清晰地知道:哪些文献属于交叉学科,学科之间正在共同探讨哪些方面以及该方面的关注度如何。 四、聚类结果统计分析 建立一张二维表,通过 类所得的文献分类结果与文献在现实中的学科分类相比,就可以很清楚地看到该文献是否为交叉学科,同时很清楚地看到该文献属于哪几门学科交叉及各学科之间的交叉点(关注点)。 表 3 部分学科交叉表(完整学科交叉表见附录 原子特征词 全 0 3 0 0 2 0 5 0 0 版本 0 0 3 0 0 0 0 0 0 版权 0 0 0 0 2 0 4 0 0 保存 0 5 0 0 0 0 0 0 0 被引 0 2 4 0 0 0 0 0 0 本体 0 8 0 0 0 0 0 6 0 表 1(见附录 每个字段中前 一个数字表示文献通过 类方法聚成的结果,共分为 3 类,分别用 I、 示;后一个数据表示文献的实际分类,其中“ 1”代表“图书馆学”;“ 2”代表“情报学”;“ 3”代表“文献学”。例如:“ 一个“ I”代表文献通过 后一个“ 1”表示文献现实中被归为图书馆学。 从表 1(见附录 我们可以看出: ( 1)文献中哪些属于交叉学科范畴。当一部分文献通过原子特征词被聚为同一类时,说明这些文献研究或探讨的内容有相同或相似的方面,在这一类中的文献如果现实中属于不同学科时,那么说明 学科之间有交叉的部分,其中一些文献属于交叉学科。从原子特征词中,我们可以进一步看出学科之间共同关注的课题。 ( 2)如果某个原子特征词分别在不同学科中出现,那么从中我们可以很明显地看出该原子特征词被哪些学科同时关注。例如第八行的原子特征词“编目”通过 在现实中同时出现于“图书馆学”、“情报学”、“文献学”三门学科。从中我们可以看出,这三门学科正在同时研究“编目”这个方面。 ( 3)通过原子特征词的统计频次,我们可以进一步看出某个原子特征词的关注度。如果某个原子特征词在某些学科中同时多次出 现,那么可以肯定地是这个原子特征词是不同学科研究的热点问题。例如:“检索”在图书馆学中出现地频次为 7,在情报学中出现地频次为 98,在文献学中出现地频次为 11,而且是被聚为同一类中。从中可以看出,三门学科在“检索”方面属于交叉学科范畴,而且它在三门学科中的关注度很高。 2. 统计分析 ( 1)聚类结果的学科类别统计分析 表 4 聚类结果的学科类别统计表 文献数 图书馆学 情报学 文献学 合计 12 类别 I 63 154 93 30% 310 06 32 3 141 07 90% 21 2 230 合计 376 207 98 681 从表 4中统计的结果可以看出,聚类结果的第 和文献学( 30%)组成,图书馆学占 因此第 I 类中可以分析出情报学与文献学、情报学与图书馆学之间的交叉关系;第 2 类中主要是由图书馆学(和情报学(占 组成,因此第 主要由图书馆学(占 90%)组成,包 含 情报学有可能成为研究的新的增长点。图 5是三个类别中学科分布情况。以上是对三个学科类别总体情况的分析,下面将作更为详细的分析。 第 I 类别 学科分布状况情报学 : 49 . 7 %图书馆学 : 20 . 3 %文献学 : 30 %123第 别 学科分布状况图书馆学 :报学 : 22 . 7 %文献学 : 2 . 1 %123 13 第 别 学科分布状况图书馆学 : 90 %情报学 : 9 . 1 %文献学 : 0 . 9 %123图 5 三个类别学科分布状况 ( 2)学科研究热点分析 综合上述的统计情况,类别 别 要是图书馆学为主,因此,按以下思路分别对三个类别进行统计分析来研究各个学科的研究热点: ( 1)从第 情报学中原子特征词频次降序排列后,排在前 10位的数据如下: 原子特征词 图书馆 情报学 文献学 总计 情报 0 115 0 115 检索 7 98 11 116 竞争 0 71 0 71 信息 19 65 0 84 数据 8 63 9 80 资源 27 52 20 99 数字 12 43 11 66 知识 14 43 0 57 参考 7 32 5 44 期刊 13 30 6 49 ( 2)从第 文献学中原子特征词频次降序排列后,排在前 10位的数据如下: 原子特征词 图书馆 情报学 文献学 总计 文献 4 8 42 54 资源 27 52 20 99 编目 7 2 19 28 查新 0 7 15 22 分词 0 0 15 15 标引 0 3 13 16 著录 4 0 13 17 藏书 2 0 12 14 检索 7 98 11 116 数字 12 43 11 66 ( 3)从第 中,按图书馆学中原子特征词频次降序排列后,排在前 10 14 位的数据如下: 原子特征词 图书馆 情报学 文献学 总计 图书 295 0 2 297 图书馆 292 0 2 294 数字 97 0 0 97 知识 53 16 0 69 资源 39 11 0 50 馆员 27 0 0 27 社区 25 0 0 25 评价 23 0 0 23 信息 17 0 0 17 社会 17 0 0 17 ( 4)研究热点汇总 将三张表的结果进行汇总得到每个学科研究的热点如下表: 研究热点 学 科 研究热点 图书馆学 数字图书馆、知识管理、信息资源、信息评价、社区图书馆等 情报学 情报检索、竞争情报、知识管理、信息资源管理、信息数字化等。 文献学 文献资源管理、文献检索、文献查新、数字文献、藏书等 ( 3)学科交叉分析 从三张表中字体为黑斜体的数据统计出三个学科之间的交叉情况如下表: 图书馆学 报学 数字图书馆、 知识管理、信息资源等 情报学 献学 文献检索、编目、文献、信息资源等 文献学 书馆学 编目、文献、信息资源、知识管理等 文献学 书馆学 报学 检索、数据、资源、参考、期刊、编目等 ( 4)新的学科增长点分析 为了研究新的学科增长点,我们从第 中提取了情报学文献进行研究,由于该类别中绝大部分属于图书馆学,尽管其中只有 21 篇文献既属于图书馆学又属于情报学研究内容,因此该类别中这种学科交叉点有可能成为情报学新的增长点。具体数据如下图: 15 图 6 第 中情报学文献数据 从数据中可以 看出,其中“数字图书馆”涉及较多,当然它也是 05 年图书情报研究的热点,这是一个显性的知识;而其中的“语义 “本体”、“知识”等词的出现,应该成为我们必须关注的信号,因为它们可能在若干年后成为图书情报学研究的新的增长点。为了验证我们的结论,我们从中知网的 数字出版物超市 中国学术文献网络出版总库 学科学术热点 ,从中检索“本体”关键字的结果如下表: 序号 热点主题 主要知识点 主题所属学科名称 热度值 文献数 相关国家课题数 研究人员数 研究机构数 5 语义网 ;知识服务 ;本体 ; 语义网 ;知识服务 ;本体 ;识管理 ;万维网 ;高校图书馆 ;数据 ;网络检索 ;图书馆 ;图书馆员 ;本体映射 ;智能检索 ;图书馆服务 ;知识地图 ;知识服务系统 ;数字图书馆建设 ;语义 图书情报与数字图书馆 ;计算机软件及计算机应用 ; 10149 178 25 273 127 6 语义网 ;本体 ;信息组织 ; 语义网 ;本体 ;务 ;数字图书馆 ;万维网 ;献标题 ;搜索引擎 ;网络检索 ;元数据 ;知识服务 ;智能检索 ;圆周率 ;本体论 ;知识表示 ;信息检索系统 ;据库 ;体语言 ; 互联网技术 ;计算机软件及计算机应用 ; 7959 146 28 226 104 从表中可以检验我们通过对 05年数据挖掘的结果在 09年得到验证。 五、结论 本次建模的主要目标是通过文献聚类发现学科交叉和学科热点等隐藏在数据背后的学科知识。在建模中,我们选取了 05 年图书情报学的 681 篇文献作为统计建模的数据,由于采用了系统抽样的方法,因此研究的数据具有一定的代表性。通过数据的采集和预处理、模型的建立、实验仿真、结果的统计分析和结果检验等各个环节,我们比较顺利 地完成了本次建模任务。经检验,模型是科学的,结果是正确的。主要的创新点:( 1)在设计的模型中,我们提出了一种新的相似度加权模型,从而使得 类所得的结果更加合理和准确。( 2)设计了学科交叉表。从学科交叉表中可以一目了然地看出哪些学科在哪些方面交叉,同时还可以看出哪些课题是学科之间的热点及新的增长点。这样研究人员、学者就可以在第一时间很清楚地了解到交叉学科的热点及增长点,不仅节省花在查找方面的时间与精力,更为重要地是,可以时刻掌握先机,抢占科学前沿。该模型还需改进的方面有:( 1)模型只考虑了摘要词对关键词 的贡献度,还可以考虑标题词对关键词的贡献度,以进一步加强文献间相似度的精确性;( 2)由于 此在该模型中可以引入模糊理论,使得聚类的结果有重合,对于研究学科交叉将更为直接。 16 参考文献 1林春燕,朱东华 计算机应用, 2004. 2蒋澄 ,马范援 ,蒋思杰 索引擎的信息处理 J1999,25(4):373 严威 ,赵政 J1999,25(6):54 胥桂仙 ,苏筱蔚 ,陈淑艳 J2002,23(1):165 牛正雨 ,柴佩琪 J2001,(1):256魏建香,苏新宁 . 基于关键字和摘要相关度的文献聚类研究 . 情报学报,2009, 28( 2) . 7金华 . 分级聚类与平面划分结合方法在网页分类中的应用 . 计算机工程与应用 , 2004. 8胡宁静,王靖 . 基于模糊 c 均值算法文档聚类问题的研究 . 长沙电力学 院学报 , 2004. 17 附录 I: 法( U, %if 2 & 3, %判断输入的函数参数个数只能是 2个或 3个 or ); 1); %求出 ,即样本个数 2); %求出 ,即特征值长度 2;100;1; %默认操作参数 隶属度矩阵 最大迭代次数 隶属度最小变化量 迭代终止条件 每次迭代是否输出信息标志 if 2, if , if i) 18 i; :; % 标函数值 % U:隶属度矩阵 % 类中心 附录 表 1 学科交叉表 原子特征词 1全 0 3 0 0 2 0 5 0 0 版本 0 0 3 0 0 0 0 0 0 版权 0 0 0 0 2 0 4 0 0 保存 0 5 0 0 0 0 0 0 0 被引 0 2 4 0 0 0 0 0 0 本体 0 8 0 0 0 0 0 6 0 编目 7 2 19 2 0 0 5 0 0 标引 0 3 13 0 0 0 0 0 0 博客 0 9 0 0 0 0 0 0 0 采访 2 2 7 8 0 0 4 0 0 采购 2 0 8 3 2 0 3 0 0 参考 7 32 5 2 8 0 10 5 0 藏书 2 0 12 9 0 0 7 0 0 查全 0 7 0 0 0 0 0 0 0 查新 0 7 15 0 0 0 0 0 0 查询 0 10 0 0 0 0 0 0 0 成本 4 5 0 0 0 0 11 0 0 出版 0 0 3 0 0 0 0 0 4 传播 0 0 0 0 3 0 4 0 0 导航 0 8 2 0 0 0 0 0 0 电子 16 15 10 0 0 0 0 0 0 调查 0 0 0 0 0 0 3 0 0 读者 2 0 0 6 0 0 9 0 0 敦煌 0 0 4 0 0 0 0 0 0 分布式 2 0 0 0 0 0 0 0 0 分词 0 0 15 0 0 0 0 0 0 分类 0 0 4 0 0 0 0 0 0 佛经 0 0 5 0 0 0 0 0 0 个人 0 7 0 0 3 0 4 0 0 个性化 0 10 0 0 0 0 0 2 0 19 公共 0 0 0 0 0 0 0 0 0 共享 7 6 8 6 2 0 8 0 0 古籍 0 0 0 0 0 0 0 0 0 关键词 0 3 4 0 0 0 0 0 0 馆藏 6 0 0 0 0 0 2 0 0 馆际 0 0 0 0 0 0 0 0 0 馆员 18 0 0 14 0 0 27 0 0 集成 0 4 0 3 4 2 0 2 0 计算机 0 0 0 0 0 0 2 0 0 家谱 0 0

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论