(计算机软件与理论专业论文)基于dblp的作者协作关系挖掘.pdf_第1页
(计算机软件与理论专业论文)基于dblp的作者协作关系挖掘.pdf_第2页
(计算机软件与理论专业论文)基于dblp的作者协作关系挖掘.pdf_第3页
(计算机软件与理论专业论文)基于dblp的作者协作关系挖掘.pdf_第4页
(计算机软件与理论专业论文)基于dblp的作者协作关系挖掘.pdf_第5页
已阅读5页,还剩46页未读 继续免费阅读

(计算机软件与理论专业论文)基于dblp的作者协作关系挖掘.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

中文摘要 中文摘要 社会网络分析是数据挖掘的热门领域。在社会网络分析中,将人或团队抽象 为点,他们之间存在的某种关系抽象为边,如朋友关系、亲属关系、贸易关系等。 两个人或团队问存在一种特定关系则在他们之间加一条边,这样就形成了一个关 系网络,从中可以挖掘出很多有意义的信息。作者协作关系是社会网络的一个重 要应用,表达了作者间合著论文的关系。利用社会网络中心性理论研究作者协作 关系,可以挖掘出科学协作的结构特征和研究者个人的重要性。 本文应用社会网络分析的理论,研究了d b l p 上作者间的协作关系。论文工 作主要包括以下两个方面: 首先用s a x 方法对d b l p 中的作者和出版物进行了统计分析,得到了d b l p 上作者间的协作关系和计算机领域作者发表论文的特点。 其次提出了一个新的估算中心性的近似算法,即d e g r a n 近似算法,用于挖掘 中心作者。d e g r a n 近似算法按照点的度随机选取估算点,然后计算其它点到估算 点的单源最短路径问题,得到中心性近似值。实验结果表明d e g r a n 近似算法有较 好的准确性。 关键词:d b l p ;社会网络分析;作者协作关系;x m l 黑龙江大学硕士学位论文 a b s t r a c t s o c i a ln e t w o r ka n a l y s i si sah o ta r e ao fd a t am i n i n g i ns o c i a ln e t w o r ka n a l y s i s , p e r s o no rt e a mw i l lb ec o n s i d e r e da san o d ea n dt h er e l a t i o n s h i pb e t w e e nt h e mw i l lb e c o n s i d e r e da st h ee d g e ,s u c ha sf r i e n d s h i p s ,f a m i l yr e l a t i o n sa n dt r a d er e l a t i o n s w h e na s p e c i f i cr e l a t i o n s h i pe x i s t sb e t w e e nt w op e o p l eo rt e a m s ,a d da ne d g eb e t w e e nt h e m t h u si tf o r m sar e l a t i o nn e t w o r k ,f r o mw h i c hy o uc a nm i n el o t so fm e a n i n g f u l i n f o r m a t i o n c o a u t h o r s h i pi sa ni m p o r t a n ta p p l i c a t i o no fs o c i a ln e t w o r k ,i n d i c a t e st h e r e l a t i o n s h i pb e t w e e nt h ec o a u t h o r s u s i n go fs o c i a ln e t w o r kt h e o r yo f t h ec e n t r a l i t y , y o u c a l lm i n et h es t r u c t u r eo fs c i e n t i f i cc o l l a b o r a t i o na n dt h es t a t u so fi n d i v i d u a lr e s e a r c h e r s i nt h ec o a u t h o r s h i pn e t w o r k s i nt h i sp a p e r , w es t u d yt h ec o - a u t h o r s h i pb a s e do nd b l pu s i n gs o c i a ln e t w o r k a n a l y s i st h e o r y t h em a i nc o n t r i b u t i o n so f t h i sp a p e ra r ea sf o l l o w i n g f i r s to fa l lw ed os t a t i s t i c a la n a l y s i sr e l a t e dt oa u t h o r sa n dp u b l i c a t i o n s t h i ss h o w s t h ec o a u t h o r s h i po nd b l pa n dt h ec h a r a c t e r i s t i c so ft h ec o m p u t e rs c i e n c ef i e l d t h e nw ep r o p o s ean e wa p p r o x i m a t i o na l g o r i t h m ,d e g g a na l g o r i t h mt od e t e c tt h e c e n t r i ca u t h o r w ep r o p o s ean e wm e t h o do fc h o o s i n ge s t i m a t e dn o d e sr a n d o m l y a c c o r d i n gt od e g r e ea n dt h e nc o m p u t e rt h es i n g l e s o u r c es h o r t e s t - p a t hb a s e do nt h e m t h er e s u l t ss h o wt h a tt h ei m p r o v e da p p r o x i m a t i o na l g o r i t h mh a sb e t t e ra c c u r a c y k e y w o r d s :d b l p ,s o c i a ln e t w o r ka n a l y s i s ,c o - a u t h o r s h i p ,x m l 1 i 独创性声明 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研 究成果。据我所知,除了文中特,i i j ) j n 以标注和致谢的地方外,论文中不包含他人 已经发表或撰写过的研究成果,也不包含为获得墨蕴逛太堂或其他教育机构的 学位或证书而使用过的材料。与我一同工作的同志对本研究所作的任何贡献均已 在论文中作了明确地说明并表示谢意。 学位论文作者签名:辅研杉氓v 签字日期曲辟多月乡日 学位论文版权使用授权书 本学位论文作者完全了解墨蕉江太堂有关保留、使用学位论文的规定,有 权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和借 阅。本人授权墨蕉江丕堂可以将学位论文的全部或部分内容编入有关数据库进 行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。 学位论文作者签名:o 遮春飧2 , 签字日期驯薛占月岳日 学位论文作者毕业后去向: 工作单位: 通讯地址: 导师签名:脱 签字日期纠哞莎月占e t 电话: 邮编: 第1 章绪论 第1 章绪论 1 1 课题研究的背景和意义 社会网络是一组人或社区( c o m m u n i t y ) 以某种关系和另一些人或社区相连 ( w a s s e r m a na n df a u s t ,19 9 4 ;s c o t t ,2 0 0 0 ) 【1 ,2 ,引。人或社区叫做活动者( a c t o r ) ,他们 之间的关系叫联系( t i e s ) 。活动者和联系可根据不同问题定义成不同形式。活动者 可以是个体、小组或者公司,联系可以是两个人的友谊、协作关系或者公司间的 商业关系。 社会网络分析是研究社会结构和社会关系的一种方法,是在社会计量法基础上 发展起来的分析方法。社会网络的直观形式是一组点及点与点之间的连线所构成 的图形。社会网络分析的目的是研究社会实体间的关系,如群体成员间的沟通, 公司间的经济交易,国家间的贸易和条约等。社会网络分析的意义在于,社会网 络分析提出了若干定量分析的指标,可用这些指标定量地分析社会网络,揭示网 络的结构,解释一定的社会现象。它使复杂的系统简单化、清晰化,为人们了解 庞大系统的特征提供了方便。社会网络分析已被广泛应用于社会学、心理学、经 济学等多个领域。 社会网络的历史至少可以追溯到半个世纪以前。在2 0 世纪社会学中,社会网 络分析取得了许多有意义的成果,在社会影响、社会团体、疾病传播、信息交流 等领域起着越来越重要的作用。近些年社会网络分析主要集中在数学和统计物理 学等应用上。 在社会网络分析中,六度分离是一个重要的理论。这个理论是社会学家在研 究社交网络( s o c i a ln e t w o r k s ) 时提出的一个概念。该问题源于社会学家、哈佛 大学的心理学教授s t a n l e ym i l g r a m ( 1 9 3 4 - 1 9 8 4 ) 在1 9 6 7 年做的实验:“追踪美 国社交网络中的最短路径。他要求每个参与者设法寄信给一个住在波士顿附 近的“目标人物”,规定每个参与者只能转发给一个他们认识的人。m i l g r a m 发现完整的链平均长度为6 个人,也就是任何两个人不论他们认识与否,都可 黑龙江大学硕士学位论文 以通过6 个人彼此到达。这个理论也被称为“小世界 现象。可以说社会网络 将现实中的问题,应用到网络模型中,研究网络模型的特点可以揭示实际生活 中的网络关系。 作者协作关系属于社会网络范畴,目的是研究合著论文的作者间的关系。作 者协作关系起源于e r d 6 s 数。e r d 6 s 是一个多产的数据家,自己创作或与他人合作 发表过1 5 0 0 篇论文。对e r d 6 s 来说,科学研究是一项社会活动,需要与他人合作, 他的合作者超过5 0 0 人。但许多数学家,尤其是早期数学家是独立进行研究的。 他们虽然没与e r d 6 s 合作过论文,但与e r d 6 s 的合作者们合作了大量的论文,这就 促使了e r d 6 s 数的形成【4 1 。e r d 6 s 数是计算数学家们与e r d 6 s 之间的距离:e r d 6 s 本 人的e r d o s 数为0 ,与e r d 6 s 发表过论文的作者被赋予e r d 6 s 数1 ,与e r d 6 s 的合作 者之一而非e r d 6 s 本人发表过论文的作者e r d 6 s 数为2 ,以此类推。用社会网络分 析的概念,你的e r d 6 s 数就是在作者协作网上与e r d o s 的测地线距离。用协作图的 角度考虑,所有数学家构成的集合作为顶点集,两个顶点( 数学家) 是邻接的, 则他们合作过论文( 该论文可能还有其他合作者) 。一个数学家( 顶点) 的e r d 6 s 数就是在合作图中该顶点与e r d 6 s 顶点之间的距离。这样人们可以在协作图上挖掘 出有意义的信息,研究作者间的协作关系。 协作网络另一个有趣的应用是名为“k e v i n b a c o n 六度分离理论 的流行游戏。 这个游戏的思路是这样的,通过追溯两个在同一部电影中出现的演员,可以将任 一演员与k e v i nb a c o n 联系起来,二者之间的距离最多不超过六步。例如, t h e o d o r eh e s b u r g h ( n o t r ed a m e 大学的名誉主席) 在电影 r u d y 中和演员g e r r y b e c k e t 一起出演,后者又在电影s l e e p e r s ) ) 中与k e v i nb a c o n 一起出演。那么 演员t h e o d o r eh e s b u r g h 就通过g e r r yb e c k e r 与k e v i nb a c o n 相连了。为什么要算 其他人到k e v i nb a c o n 的距离呢? 因为发明这个游戏的的三名学生,m i k eg i n e l l i 、 c r a i gf a s s 和b r i a nt u r t l e 认为k e v i nb a c o n 是娱乐世界的中心。这个k e v i n b a c o n 游戏很象e r d 6 s 数,多年以来它已经成为世界各地数学家的一项传统活动。 研究作者协作关系的意义在于通过对这种关系的研究可以使我们了解科学协 作的结构,即协作以何种方式组织的:还可以了解个体研究者在科学研究中所处 第1 覃绪论 的位置,即中心作者和次要作者;作者协作关系分析还可以应用到多种会议上, 使我们了解在某一特定会议上发表论文的作者间的关系。 d b l p 就是这样一个计算机类英文文献的集成数据库系统。它按年代列出了作 者的科研成果,包括国际期刊和会议等公开发表的论文。d b l p 是数据库系统和逻 辑编程的英文缩写,即d a t a b a s es y s t e m sa n dl o g i cp r o g r a m m i n g 。不过现在随着这 个词语的使用增多,它已经逐步的延伸到计算机的其他方面,目前是d i g i t a l b i b l i o g r a p h y & l i b r a r yp r o j e c t 的缩写。 d b l p 所收录的期刊和会议论文质量较高,d b l p 的文献更新速度很快, 很好地反应了国际学术研究的前沿方向。计算机科学文献库d b l pc o m p u t e r s c i e n c eb i b l i o g r a p h y 在学术界有很好的声誉,给人们带来了极大的便利,其 权威性也得到了研究界的高度认可。因此,作者协作关系的研究主要集中在 d b l p 数据的研究和分析上。 目前的d b l p 研究主要集中在如下四个方面: l 、利用d b l p 上的作者协作关系,得到大型协作图,用于验证图类挖掘 算法的优越性。例如:中心子图挖掘问题,即找到那样的点或作者,与图中其它 大部分或全部点直接或间接相连【5 】;在点带有属性的大型图中( 例如社会网络中的 点带工作标签) ,找到完全符合或相近的查询子副6 】等。 2 、对d b l p 上的数据进行统计分析,得到作者协作图的特性,例如:学 者的平均距离固定在6 符合六度分离现象1 7 】;检验两个在线计算机科学引用 数据库d b l p 和c i t e s e e r 的不同点和相同点( 8 】等。 3 、对d b l p 网站上数据质量的研究,例如:基于作者协作网给出新的相 似性测量方法使d b l p 提供更准确的数据,尤其是作者姓名的准确表达【9 】等。 4 、作者协作图上的知识发现,例如:对协作关系进行预测,建立强大的研究 团队【1 0 】;对协作图模型上的科学论文预测论文题目i l l 】;在作者协作网络中找到中 心作者【l 】等。 可以看到,d b l p 数据可以为我们提供大量有用的知识。通过对d b l p 数据的 分析,可以找到权威作者。对权威作家的分析,可以挖掘出计算机研究的新领域。 黑龙江大学硕士学位论文 但是目前,没有对新研究领域的研究,对中心作者研究也是在规模较小的协作网 上进行的。因此对d b l p 的协作关系进行分析是十分有意义的,这可以使我们更 好的了解d b l p 上作者间的协作方式、作者间的相似性,找到权威作家,发 现新的研究领域等,对指导科研工作者更好的进行科学研究有重大意义。 综上,对d b l p 的作者协作关系的挖掘具有重要的实际意义。 1 2 国内外研究现状 目前,作者协作关系分析与研究主要集中在d b l p 上数据的使用、作者协作 关系的统计分析、d b l p 上的检索问题以及作者协作图上的知识发现等四个方面: 1 d b l p 数据库上数据的使用 在图挖掘研究中,研究者们往往使用d b l p 上的数据,即论文名称,作者名, 发表的刊物,发表时间等建立一个大型图,在这个图上验证算法的优点。 卡内基梅隆大学的h a n g h a n gt 0 n g 和c h r i s t o sf a l o u t s o s 在2 0 0 6 年k d d 上提 出的中心子图挖掘问题1 5 】。他两人和美国劳伦斯利弗莫尔国家实验室的b r i a n g a l l a g h e r 等提出在点带有属性的大型图中( 例如社会网络中的点带工作标签) ,找 到完全符合或相近的查询子图的方法【6 】。他两人和j i a - y up a n 在2 0 0 6 年i e e e i n t e r n a t i o n a lc o n f e r e n c e0 1 1d a t am i m n g 会议上发表的论文中研究了用r a n d o m w a l kw i t hr e s t a r t0 王w r ) 提供的相关分数,快速计算图中两点距离u 2 1 。 卡内基梅隆大学的j i m e n gs u n 等提出用来计算稀疏的低范围近似值的压缩矩 阵分解( c o m p a c tm a t r i xd e c o m p o s i t i o n 简称c m d ) 方法【1 3 】。 卢森堡大学的m a f i ab i r y u k o v 研究了从书目记录中建立的协著网络,可被整合 成对作者姓名的语言分类过程,在d b l p 数据集上测试。结果显示带有协著网络 过程的语言分类过程比独立考虑作者姓名会更好1 1 4 1 。 这些研究都是使用d b l p 提供的数据集验证图挖掘算法的优越性,没有具体 研究d b l p 上作者的协作关系。 2 作者协作关系的统计分析 ( 1 ) 对d b l p 上的数据进行统计分析,得到作者协作图的特性 第1 覃绪论 宾夕法尼亚大学的e r g i ne l m a c i o g l u 和d o n g w o nl e e 在a c ms i g m o d 2 0 0 5 发表的论文中提到学者的平均距离固定在6 ,符合六度分离现象【7 1 。伦敦大学 学院的v a c l a vp e t r i c e k 等和美国雅虎公司的h u ih a n 及宾夕法尼亚大学i s a a cg c o u n c i l l 等,在2 0 0 5 年的e u r o p e a nc o n f e r e n c eo nd i g i t a ll i b r a r i e s 上发表的论文中检 验两个在线计算机科学引用数据库d b l p 和c i t e s e e r 的不同点和相同点【8 1 。 这些研究对d b l p 数据进行手动选取,完全进行统计分析,没有具体算法做 挖掘。 ( 2 ) 对其它会议数据进行统计分析 美国洛杉矶国家实验室的x i a o m i n gl i u 和h e r b e r tv a n d es o m p e l 及美国弗吉 尼亚州大学的j o h a nb o l l e n 和m i c h a e ll n e l s o n 在i n f o r m a t i o np r o c e s s i n ga n d m a n a g e m e n t 上发表的对a c m ,i e e e ,结合a c m i e e e 数字图书馆会议的协著网 络,研究d l 经过十年发展后所呈现的状态。介绍一种带权的有向网络模型来表示 作者协著网络,并定义为作者排序( a u t h o r r a n k ) 【1 5 1 。 美国密歇根大学m e j n e w m a n 在2 0 0 4 发表的论文中用生物、物理和数学 领域的三个数据库的数据建立网络,用这个网络回答一系列的作者合著问题【1 6 l 。 加拿大艾伯特大学的m a r i oa n a s c i m e n t o 等2 0 0 3 年在s i g m o d 上发表的论 文中研究1 9 7 5 2 0 0 2 年间s i g m o d 发表的所有论文的合著图,研究图的性质f 1 7 1 。 德国莱比锡大学的e r h a r dr a h m 和a n d r e a st h o r 分析了两个主要数据库会议 ( s i g m o d ,v l d b ) 和三个数据库刊物( t o d s ,v l d bj o u r n a l ,s i g m o dr e c o r d ) 近1 0 年的论文引用频率,得到一些统计结果【1 8 1 。 这些研究无论针对什么会议或刊物建立起来的协作网络,都是从宏观角度得 到一些统计分析的结果,只分析一些特性,没有提出新的算法。对d b l p 上的数 据没有提到怎么进行具体的分析来建立协作图。 3 d b l p 上的检索问题 德国特里尔大学的p a t r i c kr e u t h e r 等2 0 0 6 年在e u r o p e a nc o n f e r e n c eo nd i g i t a l l i b r a r i e s 会议上的论文针对数据质量方面,对d b l p 数据获取和维护给出一个简单 的回顾,介绍一种新的相似性测量方法,使用户得到的数据更准确,尤其是鉴别 黑龙江大学硕士学位论文 i _ _ i - - i i 错误姓名【9 1 。 这主要是对d b l p 网站进行的研究,可以提高用户在搜索作家时的使用效率。 4 作者协作图上的知识发现 主要分为链接预测和中心作者的发现两个方面: ( 1 ) 链接预测 美国洛斯阿拉莫斯国家实验室x i a o m i n gl i u 等和美国吉佛尼亚大学h e r b e r t v a nd es o m p e l 等将可视化( v i s u a l i z a t i o n ) 导航工具应用到作者协著网络上,使其 更方便的可视化。用户选择一个作者,导航软件自动建立一个以此用户为中心的 协作图,协作越密切,两作者距离越近。用户依据这些链接导航到其他他们感兴 趣的作者。它为检验协作模式提供了一种便捷方式f 1 9 1 。 加拿大的沃特卢大学m i l e np a v l o v 和日本国家信息学会的r y u t a r oi e h i s e 提出 用监督式学习算法( s u p e r v i s e dl e a r n i n ga l g o r i t h m s ) 在过去协作网的结构属性上训 练预测集,预测未来的链接( 1 i n k ) 。这里点表示研究者,链接表示协作关系。用 来协作预测,建立强大的研究团队1 1 0 1 。本课题要研究的问题是在已有的协作关系 基础上,挖掘出中心作者及其研究领域。 英国布里斯托尔大学的s u s a n n eh o c h e 和p e t e rf l a c h 用基于松弛标记法 ( r e l a x a t i o nl a b e l l i n g ) 的集合分类算法( c o l l e c t i v ec l a s s i f i c a t i o na l g o r i t h m ) ,对协 作图模型上的科学论文预测论文题目。算法假定相邻的论文趋向于统一研究范畴, 分类预测基于一个点的直接邻居。这里科学论文被看作是图中的点,如果这两篇 论文共享了至少一个作者,那么两个点被无向的边相连i l l 】。 可以看到这些研究都是基于链接预测的,本文是在现有的协作图上挖掘出中 心作者和研究领域,对指导现实科学研究有重要意义。新研究领域的发现,可吸 引更多学者加入到这个领域的研究中来,为计算机新领域的发展做出更大贡献。 ( 2 ) 中心作者的发现 美国密歇根大学的m e j n e w m a n2 0 0 1 年在p h y s r e v e 6 4 上发表的论文中首 次提到了在作者协作网络中如何找到中心作者的方法。在建立了作者协作图之后, 对图中每个点计算通过这个点的点对的最短路径和,可以用来表述这个点在图中 第1 章绪论 i i i i i i i i i i i i ii ii - i i_i i i i i i i i i i i i i i i i i i i i i i 的重要性f j j 。用n e 州n m a 提出的算法计算,对大型图的效率还是比较低,计算量非 常巨大。 还有其它一些对中心作者的研究,例如:长岛大学的t h o m a sk r i c h e l 和耶鲁 大学k l i n e 科学实验室的n i s ab a k k a l b a s t 利用经济学作者的中心性,研究不同网络 结构对经济学家分类的影响【2 0 1 。马萨诸塞州大学的d a v i dm i m n o 和a n d r e w m c c a l l u m 在2 0 0 7 年的a c m i e e ej o i n tc o n f e r e n c eo nd i g i t a ll i b r a r i e s 上发表的论 文中,用一个概率模型,根据作者在某领域中的影响,对作者排序【2 l 】。这些研究 中对中心作者的计算时间复杂性仍然很高,图的规模也有限。而d b l p 的作者协 作图规模非常大。 综上,无论是中心作者和研究领域都是值得继续深入研究的。因此,本文设 计一个近似算法挖掘中心作者,并用实验证明有很好的准确性。在挖掘中心作者 的基础上,进一步研究其研究领域。 1 3 本文的研究内容与组织结构 1 3 1 本文研究目的和内容 本文研究目的是通过对d b l p 数据的处理,找到d b l p 上作者间协作的关系, 建立作者协作模型。然后在作者协作模型上根据社会网络分析中心性的理论,找 到中心作者,即在协作模型上与其他人联系最紧密的作者。最后分析中心作者的 研究领域,试图揭示d b l p 计算机领域新的研究方向。 本文研究内容主要有如下三个方面: 1 d b l p 数据预处理 从d b l p 网站:h t t p :d b l p u n i - t r i e r d e x m l 待到d b l px m l 记录。研究分析 x m l 文件的内容和特点,选择适合的解析方法得到实验数据。 2 d b l p 数据统计分析 对作者和发表的论文进行统计分析,得到协作者最多的作者和发表论文最多 的作者。对他们进行分析得到计算机领域研究者们的特点及d b l p 文件的不足。 3 中心作者和研究领域的挖掘 黑龙江大学硕士学位论文 i i 应用作者协作关系图中的两个标准:b e t w e e n n e s s 中心性和c l o s e n e s s 中心性, 对图中的作者进行计算,找到中心作者。d b l p 协作图规模巨大,因此本文考虑算 法的效率,设计适用于大型图的中心作者近似挖掘算法,得到了较好的结果。 本文在协作图上找到中心作者后,分析他近期发表的论文,得到新的研究领 域或热点研究领域问题。 1 3 2 本文组织结构 应用社会网络分析理论,找到d b l p 上的中心作者和研究领域,全文共分4 章,具体章节安排如下: 第1 章绪论,介绍论文的研究背景和意义,分别对社会网络分析、作者协作 关系和d b l p 进行了概述,指出了国内外的现状和不足,最后介绍了本文的研究 目的、内容与组织结构。 第2 章d b l p 数据预处理,首先介绍d b l px m l 文件的数据特点,然后介绍 x m l 文件的解析方法,最后是本章小结。 第3 章d b l p 数据统计分析,首先介绍x m l 文件解析的结果,即独立的作者 和出版物的数量,然后分别对作者和出版物进行统计,得到协作者最多和发表论 文最多的作者,并分别进行分析,最后为本章小结。 第4 章中心作者及其研究领域,首先介绍了中心作者和研究领域的定义,然 后介绍了协作图模型的建立,接着介绍了中心作者的挖掘算法和近似挖掘算法, 最后为实验和本章小结。 结论,给出本文研究结论、不足之处以及未来的工作方向。 第2 章d b l p 数据预处理 第2 章d b l p 数据预处理 协作图的建立和中心作者的挖掘都是基于d b l p 网站上提供的x m l 记录文 件,首先要对数据进行预处理,也就是解析这个x m l 文件。因此本章首先介绍 d b l p 数据的内容及特点,然后介绍x m l 文件的解析方法,从而得到实验数据。 2 1d b l p 的简介 2 1 1 d b l p 的起源和发展 d b l p 的英文全称是d i g i t a lb i b l i o g r a p h y & l i b r a r yp r o j e c t 。d b l p 提供计算机 领域科学文献的搜索服务,它只储存这些文献的相关元数据,如题目、作者、发 表日期等。最早的d b l p 只包含数据库系统和逻辑编程相关方面的文章,所以 d b l p 之前也可以是d a t a b a s es y s t e m sa n dl o g i cp r o g r a m m i n g 的缩写。随着更多的 其他计算机领域的内容的加入,发展成了今天的d b l p 。 d b l p 项目是由德国t r i e r 大学创建并维护的,起源于1 9 9 3 年的一个测试网页 技术的小实验。截止到2 0 1 0 年4 月,d b l p 已经包含了1 3 0 万条书目记录,涵盖 了计算机会议、期刊、丛书、项目等几乎所有计算机领域的文献。和一般书目索 引不同,d b l p 并没有使用数据库而是用x m l 文件存储元数据。几乎每天都有专 人手动输入,进行更新。对计算机科学研究者来说,d b l p 网站是一个关注领域发 展、检索会议新文章的有利工具。对作者、研究机构、期刊或杂志的分类则是d b l p 的另一个用途。 2 1 2 d b l p 数据的用途 d b l p 数据的用途主要有以下四个方面: 1 、验证算法 许多研究者用数据文件验证他们的算法,主要为图挖掘算法。他们只对x m l 文件感兴趣,而不是数据的语义和文件内部结构。 2 、建立图 黑龙江大学硕士学位论文 用d b l p 数据建立作者一论文图、作者一期刊图、作者会议图等二部图, 或属于社会网络范畴的作者协作图。这部分研究主要是分析图的特征或将图可视 化。 3 、书目记录研究 书目研究是第三种用途,需要研究数据的所有语义。d b l p 作为书目研究最大 的缺点是缺少引用信息和不能涵盖计算机科学的不同子领域【2 2 】。它的优点是可免 费获得,并且包括许多对分析计算机科学有重要意义的会议记录,这在其它书目 数据库中是很少包含的。 4 、数据质量 第四个用途是对人名的识别,属于数据质量的一个特定方向。 2 2 x m l 文件的内容 d b l p 书目记录数据包含在一个巨大的x m l 文件中,可以从d b l p 网站瞄】上 下载。随着d b l p 记录每天不断的更新,x m l 文件也不断的被扩大。截止到2 0 1 0 年6 月3 日,文件大小达到7 0 5 m 。 2 2 1 文件的总体结构 d b l p x m l 文件包括构成d b l p 的所有书目记录,它的数据类型定义在d b l p d t d 文件中f 2 4 】。使用标准解析器对d b l p x m l 文件解析时,必须使用这个辅助的d t d 文 件才能实现。d b l p x m l 文件有一个简单的架构: r e c o r d1 r e c o r d n 第一行中i s o 8 8 5 9 1 ( l a t i n 1 ”) 表示编码方式,事实上这个文件只包含a s c i i 码值小于1 2 8 的字符,所有a s c i i 码值大于1 2 8 的字符由符号实体或数字实体表 第2 章d b l p 数据预处理 示。例如:字符6 用符号实体& e a c u t e ;或者数字实体& 2 3 3 ;表示。x m l 的根元素 包含了个很长的书目记录序列,在d t d 文件中列出书目记录的类型,如 表2 1 。 表2 - 1 书目记录文件的内容 t a b l e2 - 1t h ec o n t e n to f b i b l i o g r a p h i cr e c o r d sf i l e 名称含义 a r t i c l e i n p r o c e e d i n g s p r o c e e d i n g s b o o k i n c o l l e c t i o n p h d t h e s i s m a s t e r t h e s i s 、) 旷慑n , 发表在期刊或杂志上的文章 会议论文集中的文章 会议论文集 有确定出版社的书籍 书的一部分但有自己的题目 博士论文 硕士论文 d b l p 作者的个人主页 在r e c o r d l 至l j n 中,列出了多个表2 1 中的项,这样就构成了删l 文件中的书目 记录。 2 2 2 记录的属性 一条期刊或杂志文章的书目记录如下: a 1 e x a n d e rs s z a l a y j i mg r a y ,a s t r o n o m e r 5 8 6 5 2 0 0 8 51 勺o u m a l c o m m u n a c m 11 h t t p :d o i a c r e o r g 10 114 5 1 4 0 0 2 1 4 1 4 0 0 2 3 1 黑龙江大学硕士学位论文 d b j o u m a l s c a c m e a c m 51 h t m l # s z a l a y 0 8 这条记录描述了来自c a c m 的一篇论文,a r t i c l e 元素有两个属性:k e y 和 m d a t e 。 k e y 是这条记录的唯一标识,其名字域的重要子树有:表示会议或工作站论文 的c o r t f * 表示在期刊、学报、杂志或通讯上发表论文的j o u m a l s * 。k e y 的第二部 分表示论文发表的会议系列或期刊的名称。最后一个部分有作者名字和发表时间 组成,后面可能会增加一个字母以使k e y 唯一。这样命名的k e y 是粗糙并且模糊的, 因为期刊或会议的名称并不是一成不变的。期刊或者会议有时会重命名,有时会 合并或分开。m d a t e 由年月日组成,表示记录最后一次修改的时间。 其它的信息还包括作者、题目、页数、年份、卷号、期刊名称、期刊号、d b l p 网站地址和电子版本的地址。 d b l p 还包括会议上发表的文章,用以下i n p r o c e e d i n g s 的x m l 记录表示,例 如一篇收录在l n c s ( 计算机科学丛书) 上的会议文章: m o i r ac n o r r i e p i mm e e t sw e b2 0 l5 - 2 5 2 0 0 8 e r h t t p :d x d o i o r g ( 10 10 0 7 9 7 8 3 5 4 0 8 7 8 7 7 33 e o n f e r 2 0 0 8 d b c o n t t e r e r 2 0 0 8 h t m l # n o r f i e 0 8 其中,e r o s s r e f 标识了文章的出处即e r2 0 0 8 。这个会议的记录如下: q i n gl i s t e f a n os p a c c a p i e t r a e r i cy u a n t o n io l i v & e a c u t e ; c o n c e p t u a lm o d e l i n g e r2 0 0 8 , 2 7 t hi n t e r n a t i o n a lc o n f e r e n c eo nc o n c e p t u a l m o d e l i n g ,b a r c e l o n a , s p a i n ,o c t o b e r2 0 2 4 , 2 0 0 8 p r o c e e d i n g s 5 2 31 2 0 0 8 9 7 8 3 5 4 0 8 7 8 7 6 6 e r l e c t u r e n o t e si nc o m p u t e rs c i e n c e s p r i n g e r d b c o n f e r e r 2 0 0 8 h t m l p r o c e e d i n g s 记录中列出里这个卷的编辑者,s e r i e s 标识了卷中的哪一本丛书。 2 2 3 人名的识别 d b l p 是一个计算机及其相关领域的研究者们的全球大集合,不同文化背景有 不同的取名习惯【2 5 】。d b l p 要识别出每个作者是十分困难的,因为有的作者可能改 名字,或不同的缩写习惯,还有多个作者同名的情况。例如:作者姓名可能被写 成“m i c h e a ll e y 或者“l e y , m i c h e a l ”,在d b l p 中采用第一种写法,在名字域中 不包含逗号。如果名字简写的话,用首字母加点的形式表示。例如:h p s m i t h 而 不写成hps m i t h 或h ps m i t h 。 在西方国家,名字通常由名( g i v e nn a m e ) 开始,姓( f a m i l yn a m e ) 结束。但 仅仅在欧洲,由于地域不同,取名习惯也有着巨大的差异。例如,n a g i b j 6 r gs 6 1 r t i n 1 3 黑龙江大学硕士学位论文 g i s l a d 6 t t i r 是一个传统的冰岛名字,g i s l a d 6 t t i r 表示g i s l a 的女儿,这个名字中没有继 承下来的姓。由于这些源于父名的传统,冰岛的电话簿是按照名字( f i r s tn a m e ) 排序的。d b l p 把同一个名字的作者的所有文章收集在他她的主页上,但很显然这 个映射并不完美。为了做到尽可能的精确,会检查在作者协作图上距离为2 的作者 是否是同一个人闲。 d b l p 书目记录是以人( 作者) 为主体的,因此特别对人名进行了识别,给d b l p 中的作者设立了“主页 。例如作者d a v i dm a i e r 发表的论文在d b l p b u i 江i 1 1 d i c e s a - t r e e m m a i e r :d a v i d h t m l 主页上显示,也就是用作者的姓名l a s t - n a m e : f i r s t n a m e h t m l 表示。在d b l p 书目记录中对同名作者( 同音异义字) 和同一人名不 同写法( 同义字) 进行了识别,从而提取出8 0 0 0 0 0 多个不同的人名。对同名的作 者,在其名字后面加4 位数字区分,例如: c h e nl i c h e r ll i0 0 0 2 c h e nl i0 0 0 7 对人名不同写法通过软件进行识别,例如如果在同一期刊上出现了m i c h a e lj c a r e y 和m c a r e y ,就要检查这两个名字是否指同一人。 2 3 x m l 文件的解析 d b l p 数据文件是一个x m l 文件,要挖掘出有意义的信息就必须解析这个 x m l 文件。下面先介绍什么是x m l 文件,再介绍其解析方法。 2 3 1x m l 文件概述 x m l 是e x t e n s i b l em a r k u pl a n g u a g e 的缩写,是一种可扩展的标记语言。x m l 也是一种简单的数据存储语言,使用一系列简单的标记描述数据,且这些标记可 以方便地建立。简单说,x m l 就是一种数据的描述语言,虽然它是语言,但是通 常情况下,它并不具备常见语言的基本功能被计算机识别并运行。只有依靠 另一种语言,来解释它,使它达到想要的效果或被计算机所接受。 x m l 应用分为文档型和数据型,主要有以下六种用途: 第2 章d b l p 数据预处理 1 、自定义x m l + x s l t - h t m l ,最常见的文档型应用之一。x m l 存放整个 文档的x m l 数据,然后x s l t 将x m l 转换、解析,结合x s l t 中的h t m l 标签, 晟终成为h t m l ,显示在浏览器上。典型的例子就是论坛上的帖子。 2 、x m l 作为微型数据库,这是最常见的数据型应用之一。我们利用相关的 x m la p i ( m s x m ld o m 、j a v ad o m 等) 对x m l 进行存取和查询。留言板的 实现中,就经常可以看到用x m l 作为数据库。 3 、作为通信数据。最典型的就是w e bs e r v i c e ,利用x m l 来传递数据。 4 、作为一些应用程序的配置信息数据。常见的如j 2 e e 配置w e b 服务器时用 的w e b x m l 。 5 、其他一些文档的x m l 格式,如w o r d 、e x c e l 等。 6 、保存数据间的映射关系,如h i b e r n a t e 。 2 3 2 解析方法 所有的x m l 处理都要从解析开始,无论是使用x s l t 或j a v a 语言,第一步都 是要读入x m l 文件,解码结构和检索信息等等,这就是解析,即把代表x m l 文 档的一个无结构的字符序列转换为满足x m l 语法的结构化组件的过程刚。x m l 解析技术大致可分为两种:基于x m l 文档树结构的d o

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论