(计算机软件与理论专业论文)基于维基百科和web共现分析的概念关系网构建系统研究与实现.pdf_第1页
(计算机软件与理论专业论文)基于维基百科和web共现分析的概念关系网构建系统研究与实现.pdf_第2页
(计算机软件与理论专业论文)基于维基百科和web共现分析的概念关系网构建系统研究与实现.pdf_第3页
(计算机软件与理论专业论文)基于维基百科和web共现分析的概念关系网构建系统研究与实现.pdf_第4页
(计算机软件与理论专业论文)基于维基百科和web共现分析的概念关系网构建系统研究与实现.pdf_第5页
已阅读5页,还剩86页未读 继续免费阅读

(计算机软件与理论专业论文)基于维基百科和web共现分析的概念关系网构建系统研究与实现.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

华东师范人学硕1 :学位毕业论文基于维基百科和w e b 共现分析的概念关系网构建系统研究与实现 d i s s e r t a t i o nf o rm a s t e rd e g r e eo fs c i e n c e e a s tc h m an o r m a lu n i v e r s i t y u n i v i d :1 0 2 6 9 s m d e n ti d :51 0 81 2 0 1 0 2 8 煳嬲 r e s e a r c ha n di m p l e m e n t a t i o no f c o n c e p t u a l n e t w o r kc o n s t r u c t i o ns y s t e m b a s e do nw i k i p e d i aa n dc o o c c u r r e n c e a n a l y s i s o nw e b d e p a r t m e n t : m a j o r : r e s e a r c hd i r e c t i o n : :翌选坠旦垒! 垒丛i 坠i 望g a d v i s o r : m a s t e rc a n d i d a t e :鱼丛i 旦g 堡i 垒 o c t ,2 0 1 0 华东师范大学硕士学位毕业论文基于维摹雨科和w e b 共现分析的概念关系网构建系统研究与实现 华东师范大学学位论文原创性声明 郑重声明:本人呈交的学位论文基于维基百科和w e b 共现分析的概念关 系网构建系统研究与实现,是在华东师范大学攻读硬舡博士( 请勾选) 学位 期间,在导师的指导下进行的研究工作及取得的研究成果。除文中已经注明引 用的内容外,本论文不包含其他个人已经发表或撰写过的研究成果。对本文的 研究做出重要贡献的个人和集体,均已在文中作了明确说明并表示谢意。 作者签名: 日期:砂,。年吖月j :7 日 华东师范大学学位论文著作权使用声明 基于维基百科和w e b 共现分析的概念关系网构建系统研究与实现系本 人在华东师范大学攻读学位期间在导师指导下完成的硬征博士( 请勾选) 学位 论文,本论文的研究成果归华东师范大学所有。本人同意华东师范大学根据相 关规定保留和使用此学位论文,并向主管部门和相关机构如国家图书馆、中信 所和“知网”送交学位论文的印刷版和电子版;允许学位论文进入华东师范大 。学图书馆及数据库被查阅、借阅;同意学校将学位论文加入全国博士、硕士学 位论文共建单位数据库进行检索,将学位论文的标题和摘要汇编出版,采用影 印、缩印或者其它方式合理复制学位论文。 本学位论文属于( 请勾选) () 1 经华东师范大学相关部门审查核定的“内部”或“涉密 学位论文 枣,乎年月日解密,解密后适用上述授权。 ( 、j ) 2 不保密,适用上述授权。 导师签名二超牡本人签名二车鲴卜。 釉d 年乃月c 7 矿日 “涉密”学位论文应是已经华东师范大学学位评定委员会办公室或保密委员会审定过的 学位论文( 需附获批的华东师范大学研究生申请学位论文“涉密”审批表方为有效) , 未经上述部门审定的学位论文均为公开学位论文。此声明栏不填写的,默认为公开学位论 文,均适用上述授权) 。 华东师范大学硕+ :学位毕业论文基于维基百科和w e b 共现分析的概念关系嘲构建系统研究与实现 许明敏硕士学位论文答辩委员会成员名单 , 姓名职称单位备注 顾君忠教授华东师范大学答辩主席 吕钊副教授华东师范大学答辩委员 杨静副教授华东师范大学答辩委员 华东师范入学硕卜学位毕业论文基于维基百科和w e b 共现分析的概念关系网构建系统研究与实现 摘要 随着知识的爆炸性增长,如何从浩瀚的信息中找到用户最需要的部分已成为 一大难题。为解决这个问题,信息检索和推荐系统从不同的层面提供了很好的帮 助。信息检索通过分析文档内容提供通用的信息查询功能,而推荐系统利用用户 和内容之间的关联,提供个性化的信息推送。但是,这些方法依然无法从总体上 对知识进行理解,即从总体上把握知识的组成和各部分知识之间的关系。 概念关系网是知识结构描述的有效手段,用于描述知识的组成部分以及各部 分之间的关系。一个优良的概念关系网可以直观的展示知识的内部关系,帮助挖 掘隐含的知识,用于提高知识管理系统的性能。 在分析比较了现有的知识库,包括格式化的语义关系库和半结构化的知识集 的基础上,文章结合了维基百科的特性和共现分析技术,提出了概念关系网快速 构建和自动维护的完整解决方案。本文的关键研究内容如下: 结合维基百科的知识处理技术和共现分析技术,本文提出了基于维基百科和 w e b 共现分析的概念关系网构建框架c a c n w c a ( c o n s t r u c t i o na r c h i t e c t u r eo f c o n c e p t u a ln e t w o r k b a s e do i lw i k i p e d i aa n dc o o c c u r r e n c ea n a l y s i s ) 。该框架根据 概念关系网构建阶段和更新维护阶段的不同需求,分别提出了基于维基百科数据 集和w e b 数据集的解决方案。在概念关系网初始化阶段,充分利用维基百科丰富 的语义信息对概念进行标记,提出维基百科中的概念关系识别模型,实现概念关 系网的快速初始化;在概念关系网更新阶段以概念共现和相关度之间的联系为基 础,在大规模的w e b 数据集中,通过对概念共现信息的跟踪,实现了概念关系 网的动态更新。 在c a c n w c a 系统结构的指导下,文章对概念关系网构建和维护的核心技 术,包括维基百科概念重要度算法、维基百科概念对分析算法、新概念新概念 对识别算法以及概念对权重调整算法,进行了深入的研究。 在概念关系网初始化阶段,文章以维基百科提供的数据库文件为分析素材。 首先利用改进的c r o u g h t o n l o n d o n 规则移除数据集中包含的不完善页面,又称 为s t u b 页面,在剩余文档中,根据文档内容的完整性、可靠性等标准给不同的 概念标记相应的重要度。接下来,概念对分析算法以维基百科文档为分析单位, 引入了维基百科文档星型模型来表示文档词条和标记概念中的关系,从中生成概 i 华东师范大学硕:卜学位毕业论文基于维基百科和w e b 共现分析的概念关系嘲构建系统研究j 实现 念关系对。对于每个概念对权重的计算,算法中根据这一原则:标记概念在文档 中的重要度反映了该概念与文档词条的相关程度,从而利用文档中概念的语义信 息计算出概念对的相关度权重。 在关系网更新阶段,文章以基于w e b 数据的共现分析技术为基础,利用新 概念新概念对识别算法和概念对权重调整算法分别实现新元素的增加和已有元 素属性的调节。在新概念新概念对识别算法中,除了出现频率这一标准,文章 中还提出了累计增益的概念,从变化趋势中识别出重要的元素。在概念对权重的 调节中,文章提出了概念权重衰减模型和概念权重冲激模型,在使概念权重自然 衰减的同时,利用共现信息来重新提升概念对的相关权重,实现概念关系网的动 态平衡。 最后,由于本系统架构已经使用在具体的项目中,在理论研究的基础上,文 章对于该系统结构的具体实现进行了简单的介绍,并对文章中提出的关键算法进 行了实验分析。实验数据证明,基于维基百科和w e b 共现分析的概念关系网构 建框架具有较好的使用效果。 关键词:概念关系网、维基百科、共现分析、概念关系识别、关系权重调整 i i 华东师范大学硕士学位毕业论文基十维基百科和w e b 共现分析的概念关系网构建系统研究j 实现 a b s t r a c t w i t ht h ee x p l o s i v e l yg r o w i n go fk n o w l e d g e ,i th a sb e c o m ead i f f i c u l tp r o b l e m f o ru s e r st of i n do u tu s e f u li n f o r m a t i o n i n f o r m a t i o nr e t r i e v a ls y s t e ma n d r e c o m m e n d a t i o ns y s t e mt r yt os o l v ei ti nd i f f e r e n ta s p e c t s i n f o r m a t i o nr e t r i e v a l s y s t e ma n a l y s i st h ed o c u m e n tc o n t e n t ,a n dp r o v i d ea l lu s e r st h es a m eg e n e r a l i n t e r f a c et oa c c e s s o nt h eo t h e rs i d e ,r e c o m m e n d a t i o ns y s t e ma n a l y z e st h er e l a t i o n b e t w e e nu s e r sa n dc o n t e n t ,t op u s hp e r s o n a l i z e di n f o r m a t i o nt od i f f e r e n tu s e r s h o w e v e r , t h e s et w os o l u t i o n sc a n n o tg i v eag l o b a lv i e wo ft h ek n o w l e d g e t h a t st o s a y , i td o e sn o tk n o w t h ec o m p o n e n tp a r t s ,e i t h e rt h er e l a t i o n sb e t w e e nt h e m c o n c e p t u a ln e t w o r ki sas i g n i f i c a n tt o o lt od e s c r i b et h es t r u c t u r eo fk n o w l e d g e , i n c l u d i n gt h ec o m p o n e n t sa n dt h e i rr e l a t i o n s aw e l l g e n e r a t e dc o n c e p t u a ln e t w o r k s h o w su s e r st h ei n s i d er e l a t i o n si nav i s u a lm o d e i t sh e l p f u lt od i s c o v e ri m p l i c a t e k n o w l e d g e ,w h i c hi su s u a l l yu s e dt oi m p r o v et h ep e r f o r m a n c eo fa ni n f o r m a t i o n m a n a g e m e n ts y s t e m w i t hd e t a i l e dc o m p a r i s o no ft h ec u r r e n tk n o w l e d g eb a s es y s t e m s ,i n c l u d i n g s t r u c t u r e ds e m a n t i ck n o w l e d g eb a s e sa n ds e m i - s t r u c t u r e dk n o w l e d g es e t s ,w e p r o p o s eaf u l ls o l u t i o nt oh a n d l e rt h ei n i t i a lc o n s t r u c t i o na n dm a i n t a i nw o r k s ,b a s e d o nt h e f e a t u r e so fw i k i p e d i aa n dc o - o c c u r r e n c ea n a l y s i st e c h n i q u e s t h em a i n r e s e a r c hc o n t e n ti nt h i sp a p e ri sa sf o l l o w s : c o m b i n i n gt h ep r o c e s s i n gt e c h n i q u e so fw i k i p e d i aa n dc o - o c c u r r e n c ea n a l y s i s , t h i sp a p e rp r o p o s e st h ec o n c e p t u a ln e t w o r kc o n s t r u c t i o na r c h i t e c t u r ec a c n - w c a ( c o n s t r u c t i o n a r c h i t e c t u r eo fc o n c e p t u a ln e t w o r kb a s e do nw i k i p e d i aa n d c o o c c u r r e n c ea n a l y s i s ) c a c n w c ai sm a d eu pf r o mt w od i f f e r e n tp a r t s ,o n ei st h e i n i t i a lp r o c e s s o rw h i c hu s e sw i k i p e d i ad o c u m e n t st og e n e r a t eac o n c e p t u a ln e t w o r k f r o mn o t h i n g ;t h eo t h e ri st h em a i n t a i np r o c e s s o rw h i c hu p d a t e st h en e t w o r kb a s e do n w e bd o c u m e n t s i nt h ei n i t i a ls t e p s ,w ee x p l o i tp l e n t yo ft h es e m a n t i ci n f o r m a t i o no f w i k i p e d i at oi d e n t i f yc o n c e p t s ,a n dr e c o g n i z et h er e l a t e dc o u p l e s i nt h em a i n t a i n s t e p s ,ar e a l t i m ew e bs e tu s e dt od r a wt h et r e n d so fe l e m e n t si sr e g u l a r l yu p d a t e db y t r a c k i n g ,t h ec o - o c c u r r e n c ei n f o r m a t i o ni nm a s s i v ee x i s t i n gn e t w o r k i i i 华东师范人学硕士学位毕业论文基于维基百科和w e b 共现分析的概念关系网构建系统研究与实现 u n d e rt h eg u i d eo fc a c n w c a ,t h i sp a p e rd e s c r i b e st h ef o l l o w i n gf o u r a l g o r i t h m si nd e t a i l 1 1 1 e ya r ec o n c e p t i m p o r t a n c ea l g o r i t h mb a s e do nw i k i p e d i a , r e l a t e dc o n c e p t sr e c o g n i z ea l g o r i t h mb a s e do nw i k i p e d i a , n e we l e m e n td i s c o v e r y a l g o r i t h ma n dc o n c e p t r e l a t i o nf e a t u r ea d j u s t m e n ta l g o r i t h m d u r i n gi n i t i a ls t a g e ,d a t a b a s ef i l e sf r o mw i k i p e d i aa r eu s e da sa n a l y s e ss e t f i r s t l y , t h er e f i n e d l o n d o nr u l ei su s e dt or e m o v es t u bd o c u m e n t s ,w h i c hi s c o n s i d e r e di n c o m p l e t e i nt h er e m a n d i n gd o c u m e n t s ,e a c hc o n c e p ti sm a r k e da n i m p o r t a n c ed e g r e e ,w h i c hi sm e a s u r e db yc o m p l e t e n e s sa n dr e l i a b i l i t y t h e n ,r e l a t e d c o n c e p t sr e c o g n i z ea l g o r i t h mb a s e do nw i k i p e d i ap r o c e s s e de a c hd o c u m e n tt o r e c o g n i z er e l a t e dc o u p l e s u s u a l l y , aw i k i p e d i ad o c u m e n ti si n d i c a t e dw i t hs t a r - m o d e l f o re a c hc a n d i d a t ec o u p l e ,t h er e l a t i o nw e i g h ti sm e a s u r eb a s e do nt h ec o n s u m p t i o n , t h a tt h ei m p o r t a n c eo fac o n c e p tr e f l e c t st h er e l a t i o nw e i g h t s o ,t h er e l a t i o n w e i g h t i n gi s s u ei sc o n v e r t e di n t oac o m m o nc o n c e p t - i m p o r t a n c ep r o b l e m w h i l e ,d u r i n gt h em a i n t a i ns t a g e ,c o o c c u r r e n c ea n a l y s i sb a s e do nw e bs e ti s e m p l o y e d t h e t w o a l g o r i t h m s ,n e w e l e m e n t d i s c o v e r ya l g o r i t h m a n d c o n c e p t - r e l a t i o nf e a t u r ea d j u s t m e n ta l g o r i t h m ,r e s p e c t i v e l yd e a lw i t hn e we l e m e n t d i s c o v e r ya n de x i s t i n gr e l a t i o n f e a t u r e s a d j u s t i n g f o rn e we l e m e n td i s c o v e r y , e x c l u d i n gt h es t a n d a r do ff r e q u e n c yo fo c c u r r e n c e s ,a c c u m u l a t i o ng a i ni si n t r o d u c e d t od e s c r i b ea i li m p o r t a n te l e m e n tf r o mi t st r e n d i no r d e rt oa d j u s tt h er e l a t i o nw e i g h t , r e l a t i o na t t e n u a t i o nm o d e la n dr e l a t i o ni m p u l s em o d e la r ep r o p o s e d t h e s et w o m o d e l ss i m u l a t et h er e l a t i o nt r e n do fa ne l e m e n t , w h i c hi sd e c r e a s e dn a t u r a l l y , a n db e p r o m o t e do nt h es a m et i m eb yt h eo c c u r r e n c ei n f o r m a t i o n t h e s ei n f l u e n c e sh e l pt o m a i n t a i na 1 1u p - t o d a t ec o n c e p t u a ln e t w o r k s i n c et h i sa r c h i t e c t u r eh a sb e e ni m p l e m e n t e di no u rp r o j e c t , t h i sp a p e rd e s c r i b e s t h em a i np a r t so ft h es y s t e mb r i e f l yi nt h el a s ts e c t i o n a l s o ,s o m ee x p e r i m e n t sh a v e b e e nd o n et om e a s u r et h ea l g o r i t h m sd e s c r i b e da b o v e t h er e s u l t ss h o wt h a t , c a c n w c a ,w h i c hi sb a s e do nw i k i p e d i aa n dc o o c c u r r e n c ea n a l y s i si nw e bs e t , c a n g e n e r a t eap r e f e r a b l ec o n c e p t u a ln e t w o r k k e y w o r d s :c o n c e p t u a ln e t w o r k , w i k i p e d i a ,c o o c c u r r e n c ea n a l y s i s ,c o n c e p tr e l a t i o n r e c o g n i z e ,r e l a t i o na d j u s t m e n t i v 华东师范大学硕上学位毕业论文 基于维基百科和w e b 共现分析的概念关系网构建系统研究与实现 目录 摘要i a b s t r a c t 3 日匀乏5 第1 章绪论1 1 1 研究背景与意义1 1 2 本文的主要研究内容2 1 3 本文的组织结构4 第2 章相关研究工作6 2 1 语义关系库的发展6 2 1 1 w o r d n e t 6 2 1 2 h o w n e t 7 2 1 3 m i n d n e t 8 2 2 维基百科及其应用8 2 2 1 维基百科简介8 2 2 2 维基百科数据结构一1 0 2 2 3 基于维基百科的相关研究。1 2 2 3 共现分析1 5 2 3 1 共现分析技术1 5 2 3 3 基于共现分析的研究1 8 2 4 本章小结1 9 第3 章概念关系网构建框架c a c n - w c a 2 0 3 1 系统总体框架o 2 0 3 1 1 系统目标和功能2 0 3 2 2 系统总体框架描述2 1 3 3 模块分析2 2 3 3 1 概念关系库2 2 3 3 2 维基百科分析模块2 4 华东师范大学硕卜学位毕业论文 摹于维基百科和w e b 共现分析的概念关系网构建系统研究2 i 实现 3 3 3 w e b 共现分析模块一2 6 3 4 本章小结2 7 第4 章基于c a c n w c a 系统框架的关键技术研究及算法分析2 9 4 1 维基百科概念晕要度算法2 9 4 1 1 e - c r o u g h t o n l o n d o n 规则2 9 4 1 2 概念重要性函数定义3 0 4 1 3 算法描述。3 2 4 1 4 算法优点。3 3 4 2 维基百科文档标记共现的概念相关度计算算法3 3 4 2 1 维基百科文档模型。3 3 4 2 2 算法实现。3 6 4 2 3 算法优点一3 7 4 3 基于w e b 文档出现频率趋势的新概念和概念对识别算法3 7 4 3 1 新概念概念对识别模式一3 7 4 3 2 算法实现。4 0 4 3 3 算法优点4 1 4 4 概念关系对权莺调节算法_ 4 王 4 4 1 概念权重调节模型4 1 4 4 2 算法实现。4 5 4 4 3 算法优点4 5 4 5 本章小结4 6 第5 章原型系统实现和算法实验分析4 7 5 1 原型系统设计与实现4 7 5 1 1 系统功能模块。4 7 5 1 2 系统开发环境。5 0 5 1 3 概念关系网演示。5 0 5 2 实验设计s 1 5 2 1 维基百科概念重要度算法实验5 1 5 2 2 维基百科概念相关度算法实验。5 3 5 2 3 新概念新概念对识别算法实验5 4 华东师范人学硕:卜学位毕业论文 基十维基百科和w e b 共现分析的概念关系网构建系统研究与实现 5 2 4 概念对权重调节算法实验一5 6 5 3 本章小结5 7 第6 章总结和进一步工作:5 8 6 1 本文工作总结5 8 6 2 进一步工作展望5 9 参考文献6 0 致谢6 3 附录l :作者攻读硕士学位期间发表的论文6 4 附录2 :作者攻读硕士学位期间参与的科研项目6 4 华东师范大学硕士学位毕业论文第1 章绪论 1 1 研究背景与意义 第1 章绪论 随着科学技术的不断发展,各式各样的信息快速地增加,人类已经进入信息 时代。而计算机的普及以及i n t e m g t 技术的迅速发展,使得这些信息以电子文本 的方式在网络上迅速传输并呈现在人们面前。使传统信息的处理突破了时空的限 制,一方面人们可以在更广阔的信息空间内共享信息和寻找有价值的信息;另一 方面由于各种w e b 应用规模的不断扩展,互联网的资源到目前已经形成了海量 的信息空间,随着信息量的不断更新和递增,网络的信息超载( i n f o r m a t i o n o v e r l o a d ) 现象已日趋严重。据美国因特网监测公司n e t c r a f f 的月监测报告指出 【1 1 ,截止2 0 1 0 年9 月,全球互联网网站数量超过2 2 7 亿。中国互联网中心在2 0 1 0 年7 月最新公布的第2 6 次中国互联网络发展状况统计报告【2 】中指出,截至 到2 0 1 0 年6 月,我国的网站总数达到2 7 9 万个,网页总数超过3 3 6 亿个。然而 互联网是一个高度开放、异构、分布式的信息空间,没有统一的管理,信息杂乱 地散布在全球的各个站点上,而且每天以极快的速度更新。知识管理不仅仅是提 供基于检索系统的信息查询方式,更多的是对整个知识集合组成结构的理解,以 及在整体分析的基础上更好的利用这些知识。互联网的高度无序性给知识的管理 工作带来了极大的困难,如何对互联网上的海量知识进行有效的管理成为了一个 新的挑战。正是在这种背景下,概念关系刚3 】作为一种知识表示和知识组织的工 具,被引入到知识管理中来。 概念关系网是对知识集合中的主要概念和它们之间的关系的一种可视化表 示方式。在概念关系网中,概念代表了知识集合中各重要组成部分,而概念相关 度则体现了概念节点之间的关系,概念相关度以基于共现的概念距离值来描述概 念之间的相关度。概念关系网是知识集合的框架,提供了对知识集合的一个抽象 描述。由于概念关系网是对知识集合中大量信息的集合,被广泛的应用到信息检 索、知识推荐等系统中【4 】。 信息检索的主要目的是帮助用户从大量的资源中自动地找到与查询请求相 关的各种信息,搜索引擎是信息检索的一种工具,是解决信息爆炸的有效方法。 在检索中用户提交的查询一般较短,文献【5 】中,作者对搜狗搜索引擎上的用户查 华东师范大学硕十学位毕业论文第1 章绪论 询做了分析,结果表明,长度不超过3 个词的查询占了总查询数的9 3 1 5 ,平 均长度为1 8 5 个词。短的检索词往往不能完全的表达用户的检索意图,因此基 于关键词的检索会返回大量无关的结果。扩展查询技术致力于解决用户查询概念 过于泛化的问题,借助于概念关系网,通过一定的策略将与查询概念相关的一些 词语加入到查询中,帮助理解用户的真实意图,从而得到更为准确的查询结果。 推荐系统( r e c o m m e n d a t i o ns y s t e m ,r s ) 【6 】作为信息过滤中一种重要的应 用方式,目前已经成为各大主流网站不可缺少的新一代个性化信息服务形式。推 荐系统根据用户的兴趣,购买习惯,以及用户之间、商品之间的相关性分析,主 动的向用户推荐,模拟销售人员帮助用户选购所需商品。推荐系统已经成为了各 领域新一代信息服务的重要应用形式之一。在推荐系统应用中,发现用户和商品 特征之间的关系是推荐算法的关键。概念关系网提供了概念实体之间的关联特 征,有利于发现用户和商品之间的关系,更好的为特定的用户群推荐相应的商品。 比如根据用户的购买习惯,通过概念关系网找到相关的商品推荐给用户。 目前概念关系在知识管理相关领域得到了广泛的应用,但是对于如何构建和 维护一个完善的概念关系库还存在一些问题。从本质上来说,概念关系网是对整 体知识的高度抽象,构建概念关系网需要了解当前知识的组成以及各部分内容之 间隐含的关系。同时,由于知识是在不断变化中,相应的,概念关系网也是动态 变化的,不仅需要添加新的内容,还包括对现有内容的更新管理。这些特征决定 了概念关系网构建系统的两大需求:快速初始化和动态更新。基于以上原因,本 文借鉴基于维基百科的相关技术和共现分析技术,以解决概念关系网构建和维护 过程中的相关问题。 1 2 本文的主要研究内容 作者在对现有方法分析和对比的基础上,认为概念关系网构建系统应该能够 达到以下几个目标: 1 在初始化阶段,概念关系网构建系统应该能够快速的生成足够完善的概 念集,并识别出概念之间的关联实例; 2 当概念关系网初始化完成之后,系统应该能够自动、实时的进行更新操 作,包括实例的增删,概念关系的调整; 3 概念关系网的存储结构应该便于用户使用,并提供良好的用户界面。 针对这些目标,借鉴现有技术,本文拟定了一种可行的解决方案: 2 华东师范人学硕j :学位毕业论文第l 章绪论 第一步:概念关系网建模 将概念关系网分解成两个概念之间概念对的集合,简化了概念关系网的结 构。 第二步:概念关系网初始化 利用维基百科作为知识库,将维基百科文档条目作为概念集,标注概念与条 目之间构成概念关系对,实现概念关系网的初始化。 第三步:概念关系网更新 通过分析概念在w e b 中的出现信息,利用共现分析技术发现概念、概念对 随时间的变化趋势,从而实现概念关系网的更新。 在这个方案中,利用维基百科和w e b 数据的特点以解决概念关系网构建中 面临的问题。在第一步中,维基百科作为一个人工编辑的知识库,覆盖了各方面 的知识,可以用作概念分析的语料库。维基百科的基本组成单位为条目,每个条 目描述了特定的概念内容,这些条目构成了初始的概念集合。另一方面。由于维 基百科具有比较规范的结构,能够快速的从中发现概念和概念之间的关系,避免 了概念关系网初始化过程中的大量分析计算。在第二步的概念关系网更新中,使 用了w e b 资源作为分析数据。w e b 数据中包含了最新的信息,文章通过跟踪其中 的知识变化,将其应用到已有的概念关系网中,解决了概念关系网的更新问题。 共现分析技术的分析过程简单,能够快速的处理大量的w e b 数据集,确保了概 念关系网的多态性。所以说,这个方案完全可以达到上述目标。 本文在分析现有知识网的基础上,结合维基百科和w e b 共现分析技术的特 点,实现概念关系网的快速初始化和自动更新管理。文章的主要研究内容包括以 下两个部分: 第一部分:基于维基百科和共现分析的概念关系网构建模型 基于维基百科知识库和共现分析在概念关系识别应用上的特点,本文提出了 基于维基百科和w e b 共现分析的概念关系网构建框架,用于指导概念关系网的 构建过程。同时,针对该框架中的功能模块及主要工作进行了介绍。 第二部分:系统框架中关键技术的研究 这一部分主要针对基于维基百科的概念分析技术、概念对识别技术和基于 w e b 共现分析的概念概念对识别技术、概念对权重调整技术进行了研究。 基于维基百科的概念分析技术:本文首先结合维基百科文档的特征,利用 c r o u g h t o n - l o n d o n 规则识别并删除其中包含的s t u b 文档,然后根据文档的完整 3 华东师范大学硕七学位毕业论文 第1 章绪论 性、信息的可靠性和更新程度计算出概念的重要度。概念的重要度作为一个重要 参数,影响着后续的概念对相关程度。 基于维基百科的概念对识别技术:维基百科文档中包含大量的标记概念信 息。本文以标记概念和文档条目之间的关系为基础,通过分析标记概念在文档中 的重要度,问接的计算概念对之间的相关程度。通过该技术,不仅能够快速的得 到概念对之间的相关度,而且可以保证概念关系的可靠性。 基于w e b 共现分析的概念概念对识别技术:w e b 资源中实时的记录了大量 的新信息,本文中利用w e b 文档的这种特征,通过跟踪概念在w e b 文档中的出 现信息,将其中出现频率高的概念,作为受关注概念添加到概念关系网中。同样, 将共现频率高的概念对作为新的概念对添加进来。利用该方法很好的解决了新知 识的发现问题。 基于w e b 共现分析的概念对权重调节技术:在概念关系网中,概念对的权 重并不是固定不变的。随着时间的推移,一个相关度高的概念对可能变得不再重 要,同样,一个相关度较低的概念对也可能具有很高的相关值。在本文中,利用 概念对权重调节技术从w e b 文档中发现概念对权重的变化趋势,并及时的调整 概念对的权重。以使概念关系网能够随知识的变化而变化。 在详细阐述了系统结构和关键技术之后,本文根据提出的解决方案实现了概 念关系网构建的原型系统。 1 3 本文的组织结构 文章各章节内容如下: 第一章绪论,主要介绍了概念关系网构建系统的研究背景、意义,并指出本 文的主要研究内容。 第二章相关研究工作,主要介绍了目前已有的知识网系统,基于维基百科和 共现分析的相关工作,并在分析总结的基础上指出了有待改进和值得借鉴的地 方。 第三章基于维基百科和共现分析技术提出了概念关系网的构建系统,主要阐 述了该系统的目的和任务,结构设计和各功能模块的特点。 第四章基于概念关系网系统架构,阐述了维基百科概念重要度分析、概念对 权重计算、新概念新概念对识别和概念对权重调整等关键算法的原理和实现。 第五章介绍了基于维基百科和共现分析的概念关系网构建原型系统的设计 4 华东师范大学硕士学位毕业论文第1 章绪论 与实现,并对文章中提出的关键算法进行分析。 第六章简要总结本文工作,并叙述未来可能的研究方向。 其中第三章和第四章为本文的重点。 5 华东师范人学硕:f :学位毕业论文 第2 章相关研究丁作 第2 章相关研究工作 本文侧重于如何将维基百科和共现模型结合起来,以解决概念关系网构建和 维护中的问题。在这一章中,首先介绍了现有的概念关系网构建系统以及它们各 自的特点。接着介绍了维基百科的特点以及维基百科是如何被应用到相关的研究 领域中的。最后,文章对共现模型进行了分析,介绍了共现模型在知识抽取中的 应用,以及不同应用条件下共现模型的相关改进。通过分析总结维基百科和共现 模型在不同应用中的优缺点,指出值得借鉴和可以进一步完善之处。 2 1 语义关系库的发展 语义学的发展过程经历了几个阶段,从早期的义素分析( s e m a n t i c c o m p o n e n t a n a l y s i s ) ,后来的语义场理论( s e m a n t i cf i e l d ) ,以及现在的关系语义 学( r e l a t i o n a ls e m a n t i c s ) 和框架语义学【7 】【8 】【9 】。到目前为止,国内外已开发多个 语义知识库。国外的有p r i n c e t o n 大学的w o r d n e t 、m i c r o s o f t 公司的m i n d n e t : 国内的有中国科学院董振东先生的h o w n e t ( 或称为知网) 。 在语义知识库的内容上,虽然表现方式各有不同,但目前的语义知识库无论 表现形式上有多大的差异,描述的重点或者说是共同的目标都是试图刻画词语之 间的各种语义关系【l0 1 。以下将对几个重要的语义知识库进行介绍。 2 1

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论