(计算机应用技术专业论文)基于领域本体的web信息抽取技术研究.pdf_第1页
(计算机应用技术专业论文)基于领域本体的web信息抽取技术研究.pdf_第2页
(计算机应用技术专业论文)基于领域本体的web信息抽取技术研究.pdf_第3页
(计算机应用技术专业论文)基于领域本体的web信息抽取技术研究.pdf_第4页
(计算机应用技术专业论文)基于领域本体的web信息抽取技术研究.pdf_第5页
已阅读5页,还剩84页未读 继续免费阅读

(计算机应用技术专业论文)基于领域本体的web信息抽取技术研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

! 、 i 、 学位论文数据集 中图分类号 t p 3 9 l 学科分类号 5 2 0 6 0 论文编号 1 0 0 1 0 2 0 1 1 0 7 2 8 密级非保密 学位授予单位代码 1 0 0 l o 学位授予单位名称北京化工大学 作者姓名程文涛学号 2 0 0 8 0 0 0 7 2 8 获学位专业名称计算机应用技术获学位专业代码 0 8 1 2 0 3 课题来源 国家“9 7 3 ”计划研究方向语义网、w e b 数据挖掘 论文题目 基于领域本体的w e b 信息抽取技术研究 关键词w e b 信息抽取,本体,语义,抽取规则,资源描述框架 论文答辩日期2 0 1 1 年5 月2 6 日论文类型应用研究 学位论文评阅及答辩委员会情况 姓名职称工作单位学科专长 指导教师师雪霖讲师北京化工大学w e b 数据挖掘 评阅人l尤枫高工北京化工大学 计算机应用 评阅人2胡伟副教授北京化工大学数字媒体 评阅人3 评阅人4 评阅人5 答辩委员会主席王学伟教授北京化工大学信号检测与处理 答辩委员1张凤元副教授 北京化工大学密码学与信息安全技术 答辩委员2尤枫高工北京化工大学计算机应用 答辩委员3 袁洪芳副教授北京化工大学专家系统设计和开发 答辩委员4胡伟副教授北京化工大学数字媒体 答辩委员5 注:一论文类型:1 基础研究2 应用研究3 开发研究4 其它 二中图分类号在中国图书资料分类法查询 三学科分类号在中华人民共和国国家标准( g b t1 3 7 4 5 9 ) 学科分类与代码中 查询。 四论文编号由单位代码和年份及学号的后四位组成。 摘要 基于领域本体的w e b 信息抽取技术研究 摘要 w _ e b 信息抽取技术是在计算机不断普及和互联网迅速发展的背景下 产生的。面对网络中海量、半结构化的w | e b 文本资源,w - e b 信息抽取技 术致力于从中提取特定的信息,并将其转化为含义明确的结构化数据,在 一定程度上满足了人们对网络中数据资源进一步整合与共享的需要。近些 年来,本体理论的发展为w r e b 信息抽取的研究提供了新的途径。许多研 究者对本体在w r e b 抽取过程中的应用进行了深入探讨,力图通过使用本 体来进一步改善w r e b 信息抽取的效果。 本文通过对信息抽取技术的特点及现有成果进行分析比较,借鉴本体 领域中的相关理论,对基于领域本体的w 曲信息抽取技术进行了研究, 着重作了以下几方面的具体工作: ( 1 ) 分析了本体领域中的相关理论和应用,针对网页中事物描述信 息的特点,提出了抽取指向型本体的概念及建立方法。将本体概念属性划 分不同的类型,并为本体属性添加属性定位信息映射模型,使其能够识别 和定位网页中的事物描述信息。 ( 2 ) 提出了基于领域本体的w 曲信息抽取系统( o b w i e s ) 框架。 采用模块化设计思路,通过分别构建各个具体的功能模块来完成系统的总 体功能,并对系统架构的具体实现进行了讨论。 ( 3 ) 提出了系统所使用的核心方法,即以本体为指导的w r e b 信息抽 北京化工大学硕士学位论文 取方法( o g 、e ) 。在规则生成阶段通过引入抽取指向型本体的属性定位 信息作为指导,结合网页结构树路径分析算法对包含语义信息的网页核心 信息块进行定位,进而生成抽取规则;在信息抽取阶段参照路径式抽取规 则执行数据抽取;最后将抽取结果转化为r d f 本体知识进行存储,提高 了抽取信息的可重用性。 ( 4 ) 以网络中针对图书和车辆的站点作为数据源,从中选取若干网 页作为测试用例,对原型系统的抽取性能进行了对比实验。实验结果表明, 本系统具有较高的准确率;与无规则抽取方法相比,本系统具有更高的抽 取效率。 关键词:w ,e b 信息抽取,本体,语义,抽取规则,资源描述框架 n r e s e a r c ho no n t o l o g y b a s e d 、bi n f o r m 随t i o n e x t r a c t i o nt e c h n o l o c a b s t r a c t t h e 印a tp o p u l a r i 捌i o no fc o m p u t e r sa i l d 瑚【p i dg r o ho ft h ew o d d w i d ew 曲h a v em u c ht od ow i mt h ee m e 玛e n c eo fw e b i n f - o r m a t i o ne x t r a c t i o n w h i c hi s a 1 ) p l i e d t oe x t m c ts p e c i a li n f o m 眦i o n 舶mh u g en u m b e r so f h e t e r o g e n e o u sw e bd o c u i n e 鹏a n dc o n v e n t h e mi n t o 吼a 1 b i g u o u s ,s t m c t u r e d d a t at os a t i s 匆t h en e e d so ff i l r t h e ri n t e g r a t i o na 1 1 ds h a r i l l go ft h ew e bd a t a r e s o u r c e s i nr e c e n ty e a r s ,t h ed e v e l o p i n e n to fo n t o l o g yp r o v i d e san e wa n g l e f o rt h er e s e a r c ho fw e bd a t ae x t m c t i o na n dr e s e a r c h e r sh a v ec a r r i e do u t i n d 印t hs t u d i e so nt h ea p p l i c a t i 伽o fo n t o l o g yt ow e b i n f o m a t i o ne x t r a c t i o n , s t r i v i n gt oi m p r o v em ep 幽咖a n c eo fw e bi n f o 姗a t i o n e x t r a c t i o nb yt h e u s a g eo fo n t o l o g y i nt h i s 叭i c l e ,o nt h eb a s i so fa i l a l y z i n gt h ef e a m r e sa i l de x i s t i n g a c h i e v e m e n t so fi n f o m l a t i o ne x t r a c t i o nt e c l m o l o g ya sw e l l a sm er e l a t e d t h e o r i e si nm ef i e l do fo n t o l o g w em a d ear e s e a r c ho no n t o l o g y - b a s e dw e b i n f o n n a t i o ne x t r a c t i o nb ym l f i l l i n gm ef o l l o w i n gs p e c i f i ct a s k s : ( 1 ) o n t h eb a s i so fa n a l y z i n gt l l er e l a t e dt h e o r i e sa i l d 印p l i c a t i o n si nt h e f i e l do fo n t o l o g y ,t h ee ) 【t 眦t i o n - o r i e n t e do n t o l o g ym o d e lw a sp r o p o s e di n o r d 盯t oc o p ew i t ht h et h i n g d e s c r i p t i v ei n f o m a t i o ne x i s t i n gi nt h ew e bp a g e s , i w h i c hm a d e ac l a s s i f i c a t i o no nt h e p r o p 耐i e si nt h eo n t o l o g ym o d e la i l da d d e d am a p p i n gm o d e lo ft h el o c a t i o ni n f o 册a t i o nt 0e n d o w t h eo n t o l o g ym o d e l 、7 l ,i 廿lt h ea b i l 匆o f i d e n t i 助n gt h et h i n g d e s c 邱t i v ei n f o n n a t i o ni nt h ew e b p a g e s ( 2 ) t h e e w o r ko fo n t o l o 缈b a s e dw e bi n f o m a t i o ne x t m c t i o ns v s t e m w a sp r e s e n t e d ,、他i c ha d o p tam o d u l a ra r c h i t e c t u r c t oa c h i e v et h es v s t e m ,s o v e r a l l 如n c t i o n b e s i d e s ,也e r ew a sa l s oad i s c u s s i o no v e rm er e a l i z a t i o no f t h es y s t e m s 疗a m e w o r k ( 3 ) t h e o n t o l o g y g u i d e dw e bi n f o n l l a t i o ne x t r a c t i o nm e t h o dw a s p r o p o s e da st h ep d n c i p l eo ft h es y s t 锄s 如n c t i o n ,w h i c hf i r s t l yi n i t sm l e g 锄e r a t i o np h a s ei l n p o r t e dt h el o c a t i o ni n f o n i l a t i o no f t h ee x 舰c t i o n o r i e n t e d k e yw o r d s :w e bi n f o 衄a t i o ne x 仃a c t i o n ,o n t o l o g y s e m a n t i c ,e x 钯置c t i o n m l e ,r e s o u r c ed e s c 砸i o n 觑哑钾旧r k ( r d f ) v 些塾三奎兰堡主兰垡笙壅 v i 目录 第一章绪论 目录 1 1 信息抽取技术背景及研究意义l 1 2 相关的研究成果2 1 3 本文的研究内容3 1 4 本文的组织结构一4 第二章信息抽取技术概述 2 1 信息抽取系统的框架结构5 2 2 信息抽取技术的发展历史6 2 3 信息抽取的主要任务7 2 3 1 名称实体识别一7 2 3 2 语句结构分析8 2 3 3 篇章级别分析8 2 3 4 知识获取9 2 4 信息抽取技术的评估标准一9 2 5w 曲信息抽取技术分析比较1 0 2 6 小结1 2 第三章本体模型的构建1 3 3 1 资源描述框架( i m f ) 1 3 3 1 1r d f 介绍13 3 1 2r d f s 介绍1 4 3 2 本体( o i l t o l o g y ) 相关知识1 5 3 2 1 本体的提出1 5 3 2 2 本体的描述语言15 3 3 抽取指向型本体模型的构建1 7 3 3 1 网页中的事物描述型信息1 7 3 3 2 抽取指向型本体模型的构建过程1 9 3 3 3 抽取指向型本体的生成2 4 3 4 小结2 9 v i l 北京化工大学硕士学位论文 第四章o b w i e s 系统架构设计 4 1 基于本体的信息抽取技术( o b i e ) 3l 4 1 1o b m 技术的产生3 l 4 1 2o b i e 技术的基本特点。3 1 4 1 3o b i e 系统的定义3 2 4 1 4o b l e 系统的通用框架3 3 4 2 基于领域本体的w e b 信息抽取系统框架结构3 5 4 2 1 系统框架概览3 5 4 2 2 网页抓取部分3 6 4 2 3 规则制定部分3 8 4 2 4 信息抽取部分3 9 4 3 系统架构的实现3 9 4 4 ,j 、结4 0 第五章以本体为指导的w e b 信息抽取方法原理及实现4 3 5 1 以本体为指导的w 曲信息抽取方法概述4 3 5 2 抽取规则的生成4 4 5 2 1 解析样本页面4 4 5 2 2 装入抽取指向型本体信息一4 6 5 2 3 筛选本体知识相关记录信息4 7 5 2 4 对前导信息节点进行分块一4 8 5 2 5 对信息节点块进行筛选一4 9 5 2 6 定位可选属性前导信息4 9 5 2 7 定位属性记录值5 0 5 2 8 生成抽取规则5 1 5 3 网页信息的抽取与本体知识的生成5 2 5 3 1 网页信息的抽取5 2 5 3 2 本体知识的生成5 4 5 4 抽取性能实验5 5 5 4 1 抽取准确性评价5 5 5 4 2 抽取效率评价。5 7 5 5 小结5 7 第六章结束语5 9 6 1 研究工作总结5 9 v i i i 目录 6 2 进一步的工作5 9 参考文献 致谢。 研究成果及发表的学术论文 6 5 。6 7 作者简介:6 9 i x x c o n t e n t s c h a p t e r li n t r o d u c t i o n 。”l 1 1b a c 咖u n da i l ds i 嘶f i c 卸鹏o fi i l 向肌撕o ne 删i o n ”1 1 2r - e l a t e d 懈e a “i ha c h i e v 髓l t s 2 1 3r e s e a i 亡hc o n t e n to f t t l i sa r t i c l e 3 1 4 研g a n i z a l i o no f n l i sa i t i c l e 4 c h a p t e r2 o v e 州e wo fi n f o m a 舶ne x t r a c t i o n 2 1f 姗e w o d 【o f i n 南衄a t i o ne x 仃a c 6 0 ns y 疵:m :5 2 2d e v e l o p m e n tl l i s t o 巧o f i n f o m a :t i o n 翩舰c t i o n ”6 2 3m a i l i 缸i s k so fi n f o 肌a t i o ne x 缸:a d i o n 7 2 3 1n 锄e d 即t i t ) ,r e c 0 印i t i 7 2 3 2s y n t a ) 【锄a l y z e 8 2 3 3d i s c o u r s ea n a l ) ,z e 8 2 3 4k h o w l 。d g ea c q u i s i t i o n 9 2 4e v a l u a t i o n 嘶t e r i o no fi n f 0 册a t i o ne x 仃a c t i o n 9 2 5a n a l y z ea l l dc o m p 撕s o no fw e ;bi n f o n 】【l a t i o ne x t 船烈i o n 10 2 6s u m m a r y 1 2 c h a p t e r 3c o n s t r u c t i o no fo n t o l o g ym o d e i 。“”1 3 3 1r e c o u i s ed e s c r i p t i o n 丘砌e 、7 l ,o r k ( r d f ) 一1 3 3 1 1h l t l l d d u 砸o no f r d f 1 3 3 1 2h i 缸o d u c t i o no f l m f s 1 4 3 2r e l a t c dh o w l o d g eo f 伽t o l o g y i 5 3 2 1e m e f g c eo fo n t o l o g y 1 5 3 2 2d c s c r i p t i o nl a i l g u a g eo fo n t o l o 影l 5 3 3c o n 鼬m 曲0 no f e x t r a c t i o n o r ie i _ i t e do n t o l o g ym o d d 1 7 3 3 11 l l i n g - d e s c 却t i v ei n f 0 】胁a t i o ni nw e bp a g 骼”1 7 3 3 2p r o c e s so fc 0 i n s 臼:t i n gt h ee x 也痂o n - o r i e n t e do n t o l o g ym o d e l ”1 9 3 3 3c r e a t i o no f l ec x 电隐c t i o n - o r i 咖e do n t o l o g y 2 4 3 4s u m m a r y 一2 9 ! ! 室垡三查堂堡主堂垡垒塞 一一 - - _ - _ - _ _ _ _ _ _ _ - - _ _ l _ _ _ _ _ _ - _ - _ _ _ l - 。_ _ _ l - l - - 。i _ 。- - _ 。一一一。 c h a p t 镗4d e s i g no fo b w l e s f r a m e w o r k 3l 4 1h l :呐d u c :t i o no fo n t o l o g y r b 勰。di l i 内锄a l i o nc x 衄i c t i o n ( o b i e ) 3 1 4 1 1e m e 曙融c eo fo b i e 3 l 4 1 2b a s i cf e a t 瑚e so f o b i e 3 l 4 1 3d e 丘n i t i o no f o b i e 一3 2 4 1 4c o m m 彻硒m e 、v o r ko f o b i e 3 3 4 2f r 锄e w ,o r ko fo n t o l o g y 山a s e dw e bi n f 0 加a t i o ne x 昀c t i o ns y s t c 撇3 5 4 2 1o v e m e wo f o b w i e s 3 5 4 2 2d e s i 印o f w e bp a g ec f a l w l i r l g 锨嫩0 n 3 6 4 2 3i n l r 0 ( 1 u c t i o no f r u l e 懿| 切b l i 触g 戳;c l 【i o n 3 8 4 2 4i l l 仃o d u c t i o no f i n f o n n a t i o ne x 拄a c t i o ns c c t i o n 3 9 4 3r e a l i z a t i o no fo b w i e s 3 9 4 4s u i n m a r v 4 0 c h a p t e r5p r i n c i p l ea n d r e a i i z a t i o no fo g 、m em e t h o d 。一”4 3 5 1o v i e r 啊咖o f o g w i em e t h o d 4 3 5 2c r e a t i o no f t h ee x 臼a c t i o nn l l e s 2 m 5 2 1p a i s i n gt h es a i t l p l ep a g e 2 博 5 2 2l o a d i n gt h ee x t r a c t i o n 嘶雠t e do n t o l o g y 4 6 5 2 3f i n 嘶n gt h ei n f 0 1 n n l a t i o nr e l a t i n gt 0t h eo n t o l o 蹦m o d e l 4 7 5 2 4c i u s t 耐n gt h el e a d i n gi n f 0 m a t i o nn o d e s 4 8 5 2 5f i l t 融n gt h ei n f 0 姗a t i o nn o d es e t s 4 9 5 2 6l o c a t i n gt h el e a d i n gi n f 0 咖a t i o no fo p t i o n a lp f 程序设计 j f i 雅, 堪“i p t j 2 珏 淞椭弘 国精通 了盯曩从入门到精遁 作 者:荃整鞋 出版社:速垒之茎盥茁盐 蠢形码:g t 8 7 - 3 吃一2 行惦- 5 isb :雪聊3 0 2 舀玎4 胬 弄本:1 6 弃 簸次:第2 版 定价:8 元 出黼: 页数: 装帧: 2 0 l o - 7 - l 弱2 镬函 豳 图3 1 包含书籍描述信息的网页片断示例 酗1 w | e b p a g e 触蛐朗t c 伽t a i n i n g m e d e s 谢面v e 蜘a t i o f a b o o k 1 7 北京化工大学硕士学位论文 法拉利6 1 2 2 0 0 5 敷5 76 1 2s c 越| e t t i 薹车参纛 _ 时# , f _ _ _ _ _ - - - - _ _ _ - - _ _ 审目 _ - _ _ _ _ - _ 目目_ _ 目- k _ _ _ - _ n _ _ _ 自_ _ - _ - _ _ 镕w h “w q q f _ _ - _ _ - - _ _ - _ 目_ _ _ - _ _ - _ ,r _ t _ n _ ”- _ _ m _ - _ - - _ _ 车銎名称嘶获s 76 1 2s c d i t 乞i 厂商指导侨 蛳锄万 一,i7 ,?,。l 髓t 弱啪t 翘s t l5 马力y 1 2 。一 -v-“,二 最齑车速o ”3 量大功率a h 白- ) ,b ) t 脚 - +。 量大扭矩饵_ ,啊) 9 溯变速符硅狷谚陵墟 长度钿)伯吃宽度钿)l 回 醒钿,i 辜档结构承麓式 犍气帘数目2 天皇无 曩倪致簟三年不阳臣 卫 出产年傍2 0 0 7 曹页资 l l 气车评论射经论坛科技房产撰乐时尚黼军事历史文化读书睁童曩- 视点- 直譬: 图3 - 2 包含车辆描述信息的网页片断示例 f i 9 3 2w e bp a g e 如肿饥to o n t 豳i n gt h ed e s 嘶p t i v ei n f o r 啪t i o no f 觚锄t 锄0 b i l e 通过对两图中的网页片断进行比较,可以看出它们对事物的描述都采用了类似于 列表的方式,以逐条罗列的方式对某种事物的各个方面的特征进行描述,并且在每一 个网页中,这种描述信息只针对单个事物进行描述,因此可将网页中的这种信息称为 事物描述信息,通过观察可以发现,各个信息条目在位置分布上相对集中,占据着网 页中的一片连续的区域。 图3 3 进一步给出了图3 1 的h t m l 源码片断,图中的虚线框标示了事物描述型 信息的各个条目分布区域。通过观察源代码也可以看出,描述信息的各个条目在代码 文本中的分布也是相对集中的,这恰好与实际网页中的各个信息条目的显示方式相互 对应。通过各个领域中的大量类似网页进行分析,可以发现在这类网页中,事物描述 信息只针对一个具体的事物( 如一本书、一辆汽车、一台电脑等) 展开描述,这类事 物描述信息往往都占据着网页的核心区域,同时它们在网页中也是用户最为关心的一 部分内容。从图3 3 中可以发现,在事物描述信息所在的区域内一般都包含数个数据 条目,这些条目的作用是用于对一个具体的事物的各个侧面的特性进行说明,在这里 我们称这种数据条目为“记录信息 。在一个网页中,它们总是以类似于表格的形式 罗列于网页的中心区域,每一条记录信息都是一个二元组,由“前导信息 和“记录 值 组成。这一系列记录信息组合在一起,就是对一个具体事物信息描述,具有明显 的语义化特征,并且记录信息中有前导信息和记录值组成的二元组恰好与本体描述语 言中的属性一值对相对应,因此可以针对某一特定领域中的事物的共同特点,建立领域 本体模型,作为描述这类事物的概念框架。然而,仅仅通过建立本体框架并不能实现 对事物描述信息区域中各条记录信息的抽取。为了能够通过本体框架来识别和匹配事 1 8 第三章本体模型的构建 物描述信息区域中的各个记录信息,就必须对原先的本体模型框架进行改进,于是我 们提出建立抽取指向型本体的方法。 v o l n m ell g ,i s s m sl 2 ,a p m2 0 0 0 ,p a g e s6 9 - 1 13 h t m iz m l n 产_ h t t p :,可w w w 3 o r g n9 9 9 ,x h t m l - h e a d h t l e j 吖a 从入门到精遁,李钟尉编著c m n e ,h e a d 曲。妒d i _ p d i l r 。p a n j w a 从入门到精通,s p a 驴,d i p i d “偿t a b l e : :协t p 作者薯n d t t d 李钟尉,t d c ,t r ; : 缸 t 扣出版社,t d t d 涪华大学出版社薯,t d ,t r : h 茸t 曲条形码九d t d 9 7 9 7 3 0 2 2 2 7 4 6 5 茸n d ,缸: : 仃t d i s b n ,t d t d 9 7 8 7 3 0 2 2 2 7 4 6 5 ,t d n r ; j 缸t 如出版时间,t d ,l d 2 0l o 7 1 ,t d ,c ,t p: i : :,协b l e ,d i y : :一 ,d i v 葺,b od p 芭,h 恤1 图3 - 3 包含事物描述信息的网页源码示意图 f i g = 孓- 3s 0 呷c ec o d e 舫g m 明t sf 如maw e bp a g ec o n t a i n i l l gn l em i n g 也嚣翻p t i v ei i l f o r 脚旧t i 锄 3 3 2 抽取指向型本体模型的构建过程 为了让系统实现对网页中事物描述型信息的抽取,最基本的工作就是针对某种类 型的抽取对象建立本体框架,为其增设机器可领会和处理的语义信息。因此有必要建 立一套规范的概念体系,也就是对各种类型的事物制定相应的语义框架本体。在 本文的研究中,我们针对网页中事物描述信息的特点,提出了建立抽取指向型本体的 思想。所谓抽取指向型本体,是对事物本体模型的进一步扩展和功能化,以使其具备 识别和提取网页中特定事物描述信息的能力。 ( 1 ) 本体框架的定义 本体经常被用于对事物的概念进行描述。作为机器执行语义推断的基本载体,标 准的本体模型拥有一套完备的类型划分机制以及推理规范,通过使用本体语言中的推 理规范,能够让基于语义的智能系统更为有效地对本体知识进行推理分析。通常来说, 本体可以被描述为一个五元组,即d 产心砖月彳,刀,当中的a 足、只彳和j r 代表 本体模型中的类型、关系、函数、公理和实例集合,称这五个元素为五个基本的建模 1 9 北京化工大学硕士学位论文 原语【2 9 】。 本体是一个复杂的结构体系,在针对特定建立领域构建本体时,通常都要借助于 领域专家的帮助,利用他们的专业知识来定义本体中的概念和关系等。针对特定领域 建立完备本体框架体系是一项相当复杂的工作,联系本文的研究对象,我们在这里提 出了一个简化的通用本体架构,用于体现基本的语义关联。在实际的使用过程中,只 需根据此模型建立具体的实例即可。下面给出该简化的通用本体架构: d 产假冠只功,在这个表达式中: c 代表类型( c 1 弱s e s ) ,足代表关系( r e l 撕。璐) ,尸代表属性( p r o p e r t i 馏) ,y 代表 数值( d a 协l l u 锚) 。 足中所含的表示关系的元素为:胛嵋谚( 表示不同类型之间局部与整体的关系) 、 册6 以酬( 表示不同类型之间的父子继承关系) 、翩州( 表示实例对象与抽象 类型之间的关系) 、p 心妒州( 表示一个类型为另一个类型的属性) 。 本文中系统的抽取对象为网页中的事物描述型信息,因此在本体模型的具体定义 中只涉及到类型g 属性p 以及概念之间的关系且三个元组的定义。 ( 2 ) 针对抽取对象建立本体模型 抽取对象的本体模型可以从已有的领域本体知识中进行总结,也可以通过观察法 直接从包含此类对象描述信息的网页中得到。在本文中,考虑到研究对象的概念结构 相对简单,所以决定采用观察法来建立抽取对象的本体模型。 以图3 1 和图3 2 给出的两个实例对象为例,首先为它们指定共同的父类型o b e c t ( 表示抽取对象) ,接下来为具体的抽取对象制定类型名称,即b 0 0 k ( 表示书籍) 和 v e h i c l e ( 表示车辆) 。其概念层次关系如图3 4 所示: 图3 - 4 抽取对象的概念层次关系 f i g 3 _ 4k l y e r e dr e l a t i o n sb 炯n ( h ec o n c :e p t so fm ee x 呲t i o n0 b j e c t s 之后为本体类型实例建立相应的属性,以用来指示与本体相关的事物所具有的各 个方面的特性。对于结构复杂的本体来说,这一步工作可能需要相关领域的专家的帮 助,通过对抽取对象进行研究或者对已有本体进行分析和筛选,以选出抽取实际所需 要的属性;本文旨在阐述所提出的方法和原理,所选取的抽取对象本体结构较为简单, 因此可使用观察法从样例网页中对类型的各种属性进行总结。表3 - 1 和3 2 列出了部 分“图书 和“车辆 两个概念类型所对应的属性。 表3 1 图书本体属性及其对应含义表 t a b l e3 - 1 里竺坚些塑竺堕坐堕竺竺塑! 型塑里苎堕型坐竺竺竺兰鬯塑曼竺型苎 属性鱼整鱼整鱼墨 堕星鲞型 _ _ _ _ _ - _ _ _ _ - - - - _ _ - - _ - _ _ _ - - _ - - - - _ _ - _ _ - - - - - 一。 1 n 黜统一资源定位符属性o b j e c t b 0 0 k n 觚圮书名属性b00k h 嬲a u t l l o r作者属性 b 0 0 k b a s l 船n s l a t o r 译者属性 b 0 0 k h a s b a 砌硇e条形码属性 b 0 0 k h a s i s b ni s b n 属性 b 0 0 k h 镐p u b l i s h e r 出版社属性 b 0 0 k h 嬲p u b l i c 砺d a t e出版日期属性 b 0 0 k h a 翊呈型竺竺耍墼星丝 里竺塾 _ _ _ _ - _ _ _ _ _ _ _ _ _ _ _ - _ - _ _ _ _ - _ _ _ _ _ _ _ _ 。_ _ _ _ - _ _ _ - _ _ - _ _ 。_ 。_ - 。_ 。一一 表3 - 2 车辆本体属性及其对应含义表 t a b l e3 2d 嘲o n s 锄堕竺! ! 坐! 型! ! ! 竺坐! ! ! 型受竺竺堕竺璺望! ! ! 竺竺璺坐曼竺坐曼呈 _ _ _ _ _ _ - _ - _ _ h _ - _ - - h _ _ _ _ _ _ _ _ _ _ _ _ h - _ _ - _ _ - _ _ _ - _ - _ _ _ _ _ _ _ _ _ _ - _ _ _ _ _ _ _ _ _ _ - _ - - _ _ _ 一 一 属丝鱼签鱼整鱼墨 堕垦耋型 _ _ _ _ _ _ _ _ _ _ _ - _ _ - _ - _ _ _ _ - - _ _ _ - - - - _ - - - - _ 。_ - 。一一 l l d n 锄e统一资源定位符属性。场e c t v e h i c l c ;n 锄e车辆名称属性 v e h i c i e h 弱胁g t h 车体k 度属性 v e h i c l e h a 8 w i d m车体宽度属性 v e h i c l e h a s h e i g h t车体高度属性、姚i d e p 础e d b v生产厂名属性 v e h i c l e p r o d u c t i o i l d a t e生产日期属性 v e h i c l e 1 0 p s p c e d最大速度属性、协i c l e d i s p l 的锄e n t 排量属性蚯c l e m a x p o w 盱最大功率属性赫c l e u f u e l所用燃料属性腼c l e f r t s l l s _ p e n s i 前悬架属性临c l e r e :a r s u s p e n s i 后悬架属性晒d e d r i v e m ! 堂翌垫查壅星丝 兰垡! ! ! _ _ _ _ _ - _ - _ _ _ _ _ - _ _ _ l _ - _ l _ - _ i _ - _ _ _ _ _ _ - - _ - 一。 ( 3 ) 将属性分类 2 l 北京化工大学硕士学位论文 在不同的数据源网站中,虽然针对某一类事物的描述信息都拥有类似的表现模式, 但在具体的表现内容上还是存在差异的,这种差异体现在不同网站对特定事物在相关 属性的选择上常常带有偏好性。例如在一些上述的图书类网站中,一些网站可能会选 择h a s a u t h o r 、h 鹄1 切n s la _ t o r 、h 弱i s b n 、h a s p u b l i s l 埘和h 鹤b a r a d d e 作为描述特定图书 概念及信息的描绘属性,而在另一些网站中某种图书的描绘属性则可能被选择为 h 础u t h o r 、i 瑚i s b n 、h 嬲p u b l i s h e r 、h 弱b 锄国d c 、h 弱p u b l i c 撕o n d a t c 和h 鹤p a g e n 啪这 几个属性。在有关车辆信息和其它事物信息的数据源网站中同样存在着这种情况。由 于不同的网站对某类特定的事物进行描述时,所选用的属性种类存在差异,因此使用 关于这类抽取对象的全部属性来匹配网页中的事物描述信息所在的区域是不现实的。 本文中提出了特征属性定位法的思想,通过利用不同网站中有关某一类事物的描 述属性的一个最

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论