(计算机软件与理论专业论文)基于本体的deep+web数据源分类和查询接口模式抽取.pdf_第1页
(计算机软件与理论专业论文)基于本体的deep+web数据源分类和查询接口模式抽取.pdf_第2页
(计算机软件与理论专业论文)基于本体的deep+web数据源分类和查询接口模式抽取.pdf_第3页
(计算机软件与理论专业论文)基于本体的deep+web数据源分类和查询接口模式抽取.pdf_第4页
(计算机软件与理论专业论文)基于本体的deep+web数据源分类和查询接口模式抽取.pdf_第5页
已阅读5页,还剩62页未读 继续免费阅读

(计算机软件与理论专业论文)基于本体的deep+web数据源分类和查询接口模式抽取.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

, 1 - ! x ,#nt# n a n j i n gu n i v e r s i t yo f a e r o n a u t i c sa n da s t r o n a u t i c s t h eg r a d u a t es c h o o l c o l l e g eo fi n f o r m a t i o ns c i e n c ea n dt e c h n o l o g y d e e pw e b s o u r c e sc l a s s i f i c a t i o na n d q u e r y i n t e r f a c es c h e m ae x t r a c t i o nb a s e do n o n t o l o g y a t h e s i si n c o m p u t e rs o f t w a r ea n dt h e o r y b y l u of e i a d v i s e db y m a o y u g u a n g s u b m i t t e di np a r t i a lf u l f i l l m e n t o ft h er e q u i r e m e n t s f o rt h ed e g r e eo f m a s t e ro fe n g i n e e r i n g j a n u a r y , 2 0 1 0 ,i 人t i 承诺书 本人声明所呈交的硕士学位论文是本人在导师指导下进行的研究 工作及取得的研究成果。除了文中特别加以标注和致谢的地方外,论文 中不包含其他人已经发表或撰写过的研究成果,也不包含为获得南京航 空航天大学或其他教育机构的学位或证书而使用过的材料。 本人授权南京航空航天大学可以将学位论文的全部或部分内容编 入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存、 汇编学位论文。 ( 保密的学位论文在解密后适用本承诺书) 作者签名:多殳作者签名:之些 日期:丛i ! ! 多 j 一 州:一 , r 。 南京航空航天大学硕士学位论文 摘要 互联网按“深度”可以分为d e e pw e b 和s u r f a c ew e b 。与通过超链接访问的s u r f a c ew e b 不同,d e e pw e b 中的信息只能通过向表单提交查询来获得。s u r f a c ew e b 上的信息多为非结构 化信息。d e e pw e b 则正好相反,其中蕴含的信息绝大多数是结构化信息,因而受到研究人员的 重视。d e e pw e b 数据源分类和d e e pw e b 查询接口模式抽取是d e e pw e b 信息获取的关键技术。 根据d e e pw e b 信息的特点,本文使用本体技术解决d e e pw e b 信息获取技术上的一些难题,有 效地解决了传统方法的局限性。 首先,本文基于互动百科、c w b 中文词库中的知识,根据d e e p w e b 信息的特点,使用p r o t e g e 本体编辑器,通过人工方式为图书、电影、音乐、数码产品、房地产这五个领域建立了中文本 体,为d e e p w e b 数据源分类和d e e p w e b 查询接口模式抽取提供了中文本体知识库的支持。其 次,针对中文d e e p w e b 网站,提出了基于查询接口文本的d e e p w e b 数据源分类方法。该方法 使用查询接口中的文本信息作为分类属性集,基于空间向量模型,利用本体构造特征,提高了 分类准确率。最后,提出了基于本体的d e e pw e b 查询接口模式抽取方法,使得计算机能够在 语义层次上理解查询接口,并在领域本体的帮助下将查询接口模式转换为本体模式。本文对5 个领域2 0 0 个查询接口抽取模式信息,实验结果表明本文方法的准确率和召回率均高于传统的 基于启发式规则的方法。 关键词:d e e p w e b ,本体,查询接口,数据源分类,向量空间模型,构造特征,模式抽取 厂4 i 基于本体的d e e pw e b 数据源分类和查询接口模式抽取 a b s t r a c t t h ei n t e m e tc a nb ec l a s s i f i e di n t od e e pw e ba n ds u r f a c ew e b b yd e p t h u n l i k et h es u r f a c ew e b p r o v i d i n gl i n k - b a s e dn a v i g a t i o n , d e e pw e bc a r lo n l yb ea c c e s s e db ys u b m i t t i n gaq u e r yt ot h ef o r m o p p o s i t et ot h es u r f a c ew e b ,w h o s ed a t aa m o s t l yu n s t r u c t u r e d ,m o s to ft h ed a t ao ft h ed e e pw e b a 坨s t r u c t u r e d ,s ot h ed e e pw e bi sh i g h l i g h t e df o rs p e c i a la t t e n t i o nb yr e s e a r c hs t a f f d e e pw e b c l a s s i f i c a t i o na n dd e e pw e bq u e r yi n t e r f a c ee x t r a c t i o na 陀t h ek e yt e c h n o l o g i e st oo b t a i nt h ed e e p w e bi n f o r m a t i o n b a s e do nt h eo n t o l o g yt e c h n o l o g y , t h i sp a p e rs o l v e s5 0 m ep r o b l e m so fd e e pw e b i n f o r m a t i o na c q u i s i t i o n t h et e c h n o l o g yo v e r c o m e st h el i m i t a t i o n so f t r a d i t i o n a lm e t h o d s f i r s t ,w ea n a l y s et h ec h a r a c t e r i s t i c so fd e e pw e bi n f o r m a t i o n b a s i n go nt h ek n o w l e d g eo f h u d o n gc y c l o p e d i aa n dc w bc h i n e s el e x i c o n ,w eu s ep r o t e g eo n t o l o g ye d i t o rt ob u i l df i v ed o m a i n o n t o l o g i e s ,w h i c hc o n t a i nb o o kd o m a i n ,m u s i cd o m a i n ,m o v i ed o m a i n ,d i g i t a lp r o d u c t sd o m a i na n d r e a le s t a t ed o m a i n i nt h i sp a p e r , t h e s eo n t o l o g i e ss u p p o r tt h er e s e a r c ho nd e e pw e bs o u r c e s c l a s s i f i c a t i o na n dd e e pw e bq u e r yi n t e r f a c e ss c h e m ae x t r a c t i o n s e c o n d , t h i sp a p e rd e s c r i b e sa n a p p r o a c h ,b a s e do nt h et e x to fd e e pw e bq u e r yi n t e r f a c e s ,t oc l a s s i f yt h ec h i n e s ed e 印w e bb y d o m a i n t h ea p p r o a c hu s e st h ev e c t o rs p a c em o d e l b a s e do no n t o l o g y , w es t r u c t u r ef e a t u r ef o r i m p r o v i n gt h ec l a s s i f i c a t i o na c c u r a c y f i n a l l y , w er e s e a r c ht h eq u e r yi n t e r f a c es c h e m ae x t r a c t i o n m e t h o db a s e do nh e u r i s t i cr u l e ,a n dan e wm e t h o db a s e d0 no n t o l o g yi sp r o p o s e d t h i sm e t h o dc a n m a k et h ec o m p u t e ru n d e r s t a n dt h es e m a n t i c so fq u e r yi n t e r f a c e s w i t ht h eh e l po fd o m a i no n t o l o g y , t h eq u e r yi n t e r f a c es c h e m ai sc o n v e r t e dt oa no n t o l o g ym o d e l t h i sp a p e re x t r a c t ss c h e m a i n f o r m a t i o nf z o m2 0 0q u e r yi n t e r f a c e sw i t h i nf i v ed o m a i n s e x p e r i m e n t a lr e s u l t ss h o wt h a tt h e p r e c i s i o na n dr e c a l lo ft h i sm e t h o da 托h i g h e rt h a nt h o s eo ft h et r a d i t i o n a lm e t h o d sw h i c hb a s e do n h e u r i s t i cr u l e s k e yw o r d s :d e e pw e b ,o n t o l o g y , q u e r yi n t e r f a c e ,s o u r c e sc l a s s i f i c a t i o n , v e c t o rs p a c em o d e l , s t r u c t u r ef e a t u r e ,s c h e m ae x t r a c t i o n 南京航空航天大学硕士学位论文 目录 第一章绪论1 1 1 研究背景与意义。l 1 2 国内外研究现状2 1 3 研究内容与创新。4 1 4 论文的组织结构。4 第二章本体与d e e pw e b 信息获取技术概述6 2 1d e e pw e b 概述6 2 1 1 查询接口的定义6 2 1 2 动态s q l 语句生成过程8 2 1 3 动态网页技术8 2 2d e e pw e b 信息获取技术9 2 2 1d e e pw e b 数据源分类1 0 2 2 2d e c pw e b 查询接口模式抽取1 0 2 3 本体概述ll 2 3 1 本体的定义及应用1 l 2 3 2o w l 本体描述语言1 2 2 4 ,j 、结1 3 第三章中文d e e pw e b 本体生成。1 4 3 1d e e pw e b 信息的特点1 4 3 2 本体对d e e pw e b 信息获取的意义。1 6 3 3 中文本体的构建1 6 3 3 1 本体构建的方法1 6 3 3 2 知识的来源1 7 3 3 3 图书领域中文本体建立1 8 3 4d 、1 2 ;2 0 第四章d e e pw e b 数据源分类研究2 2 4 1 问题描述。2 2 4 2d e e pw e b 数据源表示模型的建立2 3 4 2 1 分类属性的来源2 3 基丁本体的d e e pw e b 数据源分类和查询接口模式抽取 4 2 2 分类属性的获取2 6 4 2 3 特征权值的确立2 9 4 3 分类算法的选择2 9 4 4 基于本体的特征构造方法3 0 4 4 1 语义关系分析。3 l 4 4 2 基于本体构造特征3 2 4 5 实验与结果分析3 3 4 6 ,j 、1 4 ;3 4 第五章d e e pw e b 查询接口模式抽取研究3 5 5 1 问题描述3 5 5 2 查询接口模式分析3 6 5 3 基于本体的d e e pw e b 查询接口模式抽取方法3 8 5 3 1 系统结构图3 8 5 3 2 查询接口解析3 8 5 3 3 属性输入值节点名字获取。4 0 5 3 4 查询接口本体建立4 4 5 4 实验与结果分析4 5 5 5 ,j 、结4 6 第六章总结与展望4 7 6 1 总结4 7 6 2 展望4 7 参考文献4 9 j l i 【谢5 :i 在学期间的研究成果及发表的学术论文5 4 南京航空航天大学硕士学位论文 图表清单 图2 1d e e pw 曲数据获取流程m 。6 图2 2 查询接口示例l 7 图2 3 查询接口示例l 的h t m l 代码7 图2 4 查询结果页面示例8 图2 5s u r f a c ew 曲信息获取系统结构图9 图2 6d e e pw e b 信息获取系统结构9 图2 7 本体语言栈1 2 图3 1 语义网架构图1 5 图3 2 各领域数据源词汇增长图1 8 图3 3 图书领域本体类图2 0 图4 1 分类器问题示意图2 3 图4 2 查询接口示例2 2 4 图4 3 查询接口示例3 2 4 图4 4 各领域查询接口词汇分布图2 5 图4 5 查询接口词汇词频分布图2 5 图5 1 查询接口示例4 3 6 图5 2 查询接口示例4 的h t m l 代码。3 6 图5 3 基于本体的查询接口模式抽取系统结构图3 8 图5 4 查询接口示例5 4 i 图5 5 查询接口示例6 4 1 图5 6 在属性值输入节点上方和右方同时有提示文本的查询接口4 3 图5 7 查询接口模式抽取的准确率4 5 图5 8 查询接口模式抽取的召回率4 5 表3 1 图书领域属性示例1 9 表4 1 同义词导致维数变高3 l 表4 2 消除同义词后维数降低。3 l 表4 3 上下位词导致维数变高3 2 表4 4 消除上下位词后维数降低3 2 表4 5 数据源分类实验结果3 3 基于本体的d e 印w e b 数据源分类和查询接口模式抽取 表5 1 查询接口解析示例4 0 表5 2 获得名字的属性值输入节点信息示例4 3 南京航空航天大学硕士学位论文 h t m l s q l d o m w 3 c d 蹄z 注释表 h y p e rt e x tm a r k - u pl a n g u a g e s t r u c t u r e dq u e r yl a n g u a g e d o c u m e n to b j e c tm o d e l w o r l dw i d ew b bc o n s o r t i u m o n t o l o g yw e bl a n g u a g e 南京航空航天大学硕士学位论文 第一章绪论 互联网按“深度”可以分为d e e pw e b 和s u r f a c ew r e b 两大类。现有的搜索引擎主要收录 s u r f a c ew e b 中的信息,对d e e pw e b 中的内容没有做到有效的覆盖,但是d e e pw e b 相对于 s u r f a c ew e b 而言,其数据有数量大、质量高的特点,所以今后搜索引擎的研究必然集中在d e e p w 曲领域。本章开篇首先介绍了本文的研究背景和意义,然后梳理了国内外d e e pw e b 的研究 现状,接着介绍了本文研究内容以及创新点,最后介绍了本文的组织结构。 1 1 研究背景与意义 人们将那些可以通过固定链接访问到的网页称作s u r f a c e w e b ,与之相对的就是d e e p w e b 。 深度网络的概念最早由d r j i l le l l s w o r t h i i 】于1 9 9 4 年提出,一开始叫i n v i s i b l ew e b ,指的是那些 传统搜索引擎无法搜索到的网页。具体地说,d e e pw e b 指的是那些无法通过固定链接访问,只 有在用户向网络数据库提出查询请求后才以动态页面形式出现的网页。 b r i g h t p l a n t 2 是d e e pw 曲研究领域的领导者,他们自2 0 0 0 年起就对d e e pw _ e b 进行了大量 的研究,在其最新的研究报告中,他们得出以下结论: ( 1 ) d e e pw e b 中可访问的公共资源为s u r f a c ew e b 的4 0 0 - 5 5 0 倍。 ( 2 ) 在2 0 0 0 年,d e e pw e b 中包含7 5 0 0 t b 大小的信息,而s u r f a c ew e b 只有1 9 t b 。 ( 3 ) d e e pw e b 包含5 5 0 0 亿个独立文档,而s u r f a c ew e b 只有1 0 亿个。 ( 4 ) 在2 0 0 0 年,网上可探测的d e 印w e b 站点有4 3 0 0 0 - 9 6 0 0 0 个,在2 0 0 9 年,d e e pw e b 站点至少超过2 0 0 0 0 0 个。 ( 5 ) 在2 0 0 0 年,最大的6 0 个d e e pw e b 站点拥有7 5 0 t b 的信息量,是全部s u r f a c ew e b 站点拥有的信息量的4 0 倍。 ( 6 ) 平均看来,d e 印w e b 的访问量比s u r f a c e w e b 高出5 0 ,并且拥有更多的链接;但是 很多权威的d e e pw e b 站点并不为公众所熟知。 ( 7 ) d e e pw e b 信息是互联网上信息增长最大的一类。 ( 8 ) 和s u r f a c ew e b 相比,d e e pw e b 站点在内容范围上更深更窄。 ( 9 ) d e e p w e b 中高质量内容的大小是s u r f a c e w e b 的1 0 0 0 - 2 0 0 0 倍。 ( 1 0 ) d e e pw e b 中的内容与领域高度相关。 ( 1 1 ) 超过一半的d e e pw 曲属于专业领域。 ( 1 2 ) 9 5 的d e e pw e b 信息是免费,向公众开放的。 中国的互联网起步虽晚,但发展迅速,并且拥有极其丰富的d e e pw 曲资源。中国互联网 基于本体的d e e pw e b 数据源分类和查询接口模式抽取 络信息中心在2 0 0 5 年的中国互联网络信息资源数量调查报剖3 】中指出:全国网页总数约为2 4 亿个,字节总数约为6 3 9 3 2 g b ;2 0 0 5 年全国在线数据库约为2 9 5 万个,拥有在线数据库的网 站数目约为1 7 0 万,占到全部网站的2 4 5 :以拥有在线数据库的网站为基数,全国平均每个 网站拥有1 7 个数据库;以所有网站为基数,全国平均每个网站拥有o 4 3 个在线数据库。中国 互联网络信息中心在2 0 0 9 年的报告【4 】中指出:中国网页超过1 6 0 亿个,字节总数约为4 6 0 2 t b , 其中静态网页约占总数的4 9 0 6 ,动态网页约占总数的5 0 9 4 。 现在主流的搜索引擎,谷歌、雅虎、百度等对d e e pw e b 的内容并没有做到有效地利用, 主要表现在以下三个方面: _ ( 1 ) 现在的主流搜索引擎花了十多年时间,搜索了海量的静态网页,然而其所覆盖的内容 仍然只是互联网全部静态网页的- - , j , 部分。直到近两年,d e e pw e b 信息才开始被搜索引擎搜集。 审 现在搜索动态网页的技术还没有成熟,因而d e e pw e b 信息获取的速率远慢于s u r f a c ew e b 。 ( 2 ) 静态网页中主要以非结构化数据为主,而动态网页中的内容以结构化数据为主,数据 质量高,但是主流搜索引擎还没能针对动态网页数据的特点开发出良好的应用。 ( 3 ) 主流搜索引擎现在提供给用户的界面被证明是高效、友好的。但是现在的这种界面并 不适合展示动态网页搜索的结果。 综上所述,d e e pw 如对人们有着极其重要的利用价值,然而由于技术的限制,这部分信息 还没有得到有效的利用,所以对d e e pw e b 信息获取的相关领域进行研究是非常有意义的。 1 2 国内外研究现状 自d e e pw e b 概念第一次被提出以来,国内外学者对如何有效利用d e e pw e b 中的信息做了 广泛的研究,人们致力于建立一个系统,能够以自动的方式对d e e pw e b 中不同数据源进行有 效的集成,并提供智能化的检索方式,为了实现此目的,主要有以下问题需要解决:d e e pw e b 数据源发现问题,d e e p w e b 数据源分类问题,查询接口模式抽取问题,查询接口模式集成问题, d e e pw e b 数据源选择模块,查询结果抽取问题,查询结果语义标注问题,为了解决这些问题, 科研人员展开了相应的研究。 d e e pw e b 数据源发现技术可以探索w e b 站点中是否存在网络数据库,寻找查询接口的位 置。k e v i nc h e n - c h u a nc h a n g 【5 l 等经研究发现9 1 6 的查询接口深度不超过3 ,可以根据此原则一 设定探索深度。j c o p e l 6 等研究了一种识别查询接口的方法,他们首先根据查询接e l 中的信息 产生特征,然后利用c a 5 决策树实现对查询接口的识别。 d e e pw e b 数据源分类技术可以按领域将d e e pw e b 数据源分类,主要有三类方法。第一类 方法选择查询接口所在网页中的信息作为特征,并据此来分类,代表方法有q p e n g p l 等人的成 果,该方法在实验中效果不错,但是该方法要求查询接口所在网页与查询接口所指向的数据库 2 唐 南京航空航天大学硕士学位论文 高度相关,实际情况中它们并不是全部都相关的。第二类方法选择查询接口作为特征的来源, 并据此来分类,代表方法有h a ih e l 8 1 等人的成果,但是这种方法依赖查询接口模式抽取的结果, 适应性不强。第三类方法基于查询结果页面中的信息,代表方法有w m e n g 9 l 等人的成果,这 种方法依赖于查询结果页面抽取的结果。但是在d e e pw e b 中,大多数查询结果只达到半结构 化,这使得查询结果页面的抽取质量不高,所以很难从中获得高质量的分类属性结合。 查询接口模式抽取技术用于获取查询接口中的属性集合。对查询接口中属性的赋值就是一 个查询网络数据库的过程,而且查询接口是在互联网上获取d e e pw e b 数据的唯一途径。该领 域比较著名的方法有s r i r a mr a g h a v a i l 1 0 】等人的基于启发式规则的查询接1 2 1 模式抽取方法和 z h e nz h 姐一1 1 1 等人的基于h i d d e ns y n t a x 的查询接口模式抽取方法。实验中,这两种方法在属性 的获取上均取得了超过8 0 的准确率和召回率,但是都忽略了查询接口中的语义信息。 d e e pw e b 数据源选择技术用于选择合适的网络数据库。当希望从网络数据库中获取数据 时,我们需要知道输入什么样的查询条件才能获得目标数据,哪些网络数据库能够提供目标数 据。在对搜索引擎选择的研究过程中,已经有了很多成熟的技术,这里可以借鉴。c y u i l 2 】等人 提出了基于直方图的t o p - n 选择方法,该方法首先判断特定查询条件与网络数据库之间的相关 性,然后选择合适的数据库作为d e c pw e b 信息的来源。 查询结果抽取技术用于抽取d e 印w e b 中的信息。d e e pw e b 信息以动态网页的形式呈现给 用户,我们称这类网页为结果页面。该技术用于从结果页面中获取属于d e e pw e b 的那部分信 息。该研究领域有了大量的成果,可以分为基于专门页面抽取语言的抽取工具,基于d o m 树 的抽取工具,基于规则的抽取工具这几类。总的来说,该领域是研究最为成熟的一块。但是在 d e e p w e b 中,大部分结果页面中的数据丢失了其在数据库中的结构化信息,需要更好的处理方 法来还原或者重组结果页面数据的模式。 d e e pw e b 数据语义标注技术用于使获取的d e e pw 曲数据更具使用价值。l a r l o t t a 【1 3 】,j w a g e l 4 肄人基于启发式规则对d e e pw 如数据进行语义标注。整体上来说,该领域仍处于起步 状态。 国内也有众多学者对d e e pw e b 展开了研究,但与国际水平相比还有一定的距离,主要表 现在研究问题和解决方法上尚缺乏突破性的成果。为了推动国内d e e pw e b 的研究,2 0 0 8 年2 月,软件学报推出d e e pw e b 专刊。国内具有代表性的论文有:使用分类器发现特定领域的深 度n , k n ( 1 5 】、一种基于图模型的w e b 数据库采样方法【1 6 】、基于本体的d e e pw e b 数据标注【1 7 1 、 d e e pw e b 爬虫研究与设计j 、基于知识的d e e pw e b 集成环境变化处理的研究1 9 1 等。 在2 0 0 4 年,微软亚洲研究院的第三代搜索引擎就宣布开始抽取d e e pw e b 中的信息,但是 从实际的情况来看,其对d e e pw e b 的覆盖没有起到实质性的效果。g o o g l e 在2 0 0 8 年正式公布 其深度网络搜索技术。g o o g l e 的网页爬虫每秒能产生1 0 0 多个查询,每天可以获取超过4 0 万 3 基于本体的d e e pw e b 数据源分类和查询接口模式抽取 的结果页面,但是如果按照中国的动态网页数量来计算,在网页数量不增加的情况下,g o o g l e 需要2 0 0 0 0 天才能搜索完毕。仅仅获取结果页面,还无法实现对d e 印w e b 信息的有效使用。 要实现对d e e pw e b 信息的有效利用,搜索引擎必须做到充分利用d e e pw e b 信息的特点,向用 户提供更加友好、智能的服务。目前为止,还没有搜索引擎开始抽取中文d e e pw e b 信息。 1 3 研究内容与创新 本文基于国内外最新的研究成果,深入探讨了d e e pw e b 信息获取技术中的数据源分类问 题和查询接口模式抽取问题。本文的贡献和创新点如下: ( 1 ) 本文根据d e e pw e b 信息的特点,使用本体技术来解决d e e pw e b 信息获取中的一些问 题。为了获得知识库的支持,本文将互动百科、c w b 中文词库作为知识的来源,根据d e e pw e b 信息的特点,对图书、音乐、电影、数码产品、房地产五大领域d e e pw e b 展开了广泛而深入 的研究,使用p r o t e g e 本体编辑器手工建立了中文本体,为本文的其他研究工作提供了支持。 ( 2 ) 虽然d e e pw e b 已经有了1 0 年的研究,但是在中文d e e pw e b 的相关应用上,现在还 是一片空白。本文提出了基于查询接口文本信息的中文d e e pw e b 数据源分类方法,解决了中 文d e e pw e b 数据源分类问题。 ( 3 ) 在基于文本的空间向量模型中,会出现向量空间的高维性。本文提出了一种基于本体 构造特征的方法,根据语义信息消去同义词等冗余信息,提高了分类准确率,经实验证明,该 方法是有效的。 ( 4 ) 传统的查询接口模式抽取方法的依据只是简单的布局关系,随着互联网技术的发展, 这种方法已经暴露出许多缺陷。本文为了解决该问题,针对中文d e e pw e b ,提出了一种基于本 体的查询接口模式抽取方法,能够在语义层次上理解查询接口。经实验证明,和过去的方法相 比,该方法的准确率和召回率都有了提升。 1 4 论文的组织结构 本文针对d e e pw e b 的数据源分类问题和查询接口模式抽取问题展开了深入而细致的研究, 全文分为六个章节。 第一章介绍了本文的研究背景和意义,分析了国内外的研究现状,说明了对d e e pw e b 研 究的意义,随后介绍了本文的创新点、研究的内容和论文的组织结构。 第二章首先介绍了d e 叩w 曲的几个定义,接着阐述了d e 印w 曲信息获取的流程,然后介 绍了现有的d e e pw e b 数据源分类和d e e pw e b 查询接口模式抽取技术,最后介绍了本体的基本 概念和o w l 本体语言。 第三章首先介绍了在信息检索领域人们新的需求,d e e pw e b 信息的特点,以及中文本体库 建立的现状,接下来根据互动百科、c w b 中文词库和相关领域的d e e pw e b 网站中的知识建立 4 一 ,一 南京航空航天大学硕士学位论文 了图书、音乐、电影、数码产品、房地产五个领域的本体。 第四章首先详细分析了d e e pw e b 数据源分类的必要性和面临的困难,其次提出了基于查 询接口文本信息的中文d e e pw e b 数据源分类方法,取得了不错的效果,最后基于本体构造特 征,提高了分类的准确率。 第五章首先对d e e pw 如查询接1 :3 模式抽取的必要性和难点展开了叙述,接下来提出了一 种基于本体的查询接口模式抽取方法,并通过实验证明,本文方法与过去传统的基于启发式的 方法相比,其准确率和召回率都有了提高,最后提出了一种在领域本体的帮助下将查询接口模 式转换为本体模式的方法。 第六章总结了本文的工作并进行了展望。 5 基于本体的d e e pw e b 数据源分类和查询接e l 模式抽取 第二章 本体与d e e pw e b 信息获取技术概述 本章首先介绍d e e pw e b 信息的获取流程,查询接口的定义,动态s q l 语句的生成过程, 动态网页技术。接下来介绍d e 印w e b 信息获取的系统结构,并详细讲述d e e pw 曲数据源分类 技术和d e e pw e b 查询接口模式抽取技术,分析了现有技术的特点并总结出它们的不足。最后 概述下本体的定义和o w l 本体语言。 2 1d e e pw e b 概述 首先对网络数据库做形式化定义:一个网络数据库可以定义为( w d b ,q ,r ) ,其中w d b 指 的是存储d e e pw e b 信息的数据库,q 表示的是查询接口,r 表示的是查询结果页面。d e e pw e b 信息存储在w e b 站点的数据库中,获取d e e pw e b 信息的过程也就是向网络数据库提交查询获 取结果的过程,这中间需要经过六个步骤:用户填写表单并提交查询请求:w e b 站点后台程序 根据输入的属性值生成动态s q l 语句;后台程序使用s q l 语句在数据库中查找数据;数据库 将数据返回给后台程序:后台程序根据查询结果生成动态网页;用户在结果页面返回后浏览。 具体流程如图2 1 所示: 2 1 1 查询接口的定义 图2 1d e e pw e b 数据获取流程 我们也可以将查询接口称为h t m l 查询表单,它是获取d e e p w e b 数据的唯一入口。d e e p w e b 查询接口可以定义为一个三元组仉l ,b ) ,其中t 指的是文本提示节点,i 指的是属性值输 6 南京航空航天大学硕士学位论文 入节点,b 指的是属性值提交节点。文本提示节点用于帮助用户确定合适的值,属性值输入节 点用于记录用户输入的值,属性值提交节点用于向网络数据库提交查询请求或者重置查询接口 的属性值。图2 2 是一个查询接口,这是用户平时在浏览器中见到的形式,程序员使用h t m l 语言编写查询接口,图2 3 是这个查询接口的h t m l 代码。该查询接口来自于当当网 ( h t t p :w w w d a n g d a n g c o r n ) ,用于搜索当当网所销售的音乐制品。在该查询接口中,“商品名”、 “歌手”、“介质”等文本为文本提示节点;“商品名”右侧的文本输入框、“介质”右侧的单选 框、“上架时间”右侧的列表框等为属性值输入节点;“搜索”按钮为按钮节点。 商品名: 矗事: 演奏者: 益目: 介质: 当当价: 日蝴: 图2 2 查询接口示例1 c ) e v d o 黼 商品名i 介质l 全部 c d 上架时问l 所有时间范围 一 一 近3 天 近1o k 图2 3 查询接口示例l 的h t m l 代码 7 基于本体的d e e pw e b 数据源分类和查询接口模式抽取 2 1 2 动态s q l 语句生成过程 用户填写完表单后,向网络数据库提交查询请求,这时网站后台程序根据提交的属性值生 成动态s q l 语句。例如,在图2 2 所示的查询接口中,我们在“商品名”右侧输入“交响乐”, 在“介质”右侧选择“d v d ”,在“上架时间”右侧选择近l o 天,在提交后,后台数据库有可 能会生成如下的s q l 语句:“s e l e c t f r o m d bw h e r e l l = 交响乐a n d l 2 = d v d a n dl 3 馆藏资源 检索结果列表 页码:l 2 钉页每页2 0 总命中数5 3 3 59 i 一2 墨一4 墨 l 计算机应用电脑化国际贸易系统匕,莹囤电脑研究发展部编译 制e 羞圈鼬漱体习删,民国川1 9 8 8 1 1 ¥4 q ( n t $ 1 6 0 0 0 ) 珊 夏计算机应用电脑化国际贸易系统百,莹圈电脑研究发展部翁译 台北羞圈电脑软体研究开发部民国7 - 1 9 8 a 1 1 1¥蚓n t $ 2 0 0 0 0 ) 堋 图2 4 查询结果页面示例 南京航空航天大学硕士学位论文 2 2d e e pw e b 信息获取技术 d e e pw e b 信息获取的方式和s u r f a c ew e b 不同。一个自动的s u r f a c e 信息获取系统一般是 这样设计的:从u r l 库( 一个u r l 种子集合) 开始获得输入,解析u r l 中表明的网页地址, 建立网络连接,接受数据,然后将获取的页面信息存储在页面库中,并解析出网页中新的u r l , 将它放入原有的u r l 库中,整个过程反复进行一直到u r l 库为空,其系统结构如图2 5 所示。 d e e pw e b 信息获取流程在图2 1 中已有叙述,这里给出d e e pw e b 信息获取的系统结构图,如 图2 6 所示,我们可以看到d e e pw e b 信息获取系统的结构与s u r f a c ew e b 截然不同。下面介绍 d e e pw e b 数据源分类、d e e pw e b 查询接1 2 1 模式抽取这两个d e e pw e b 信息获取过程中运用到的 关键技术。 图2 5s u r f a c ew e b 信息获取系统结构图 图2 6d e 叩w e b 信息获取系统结构 9 基于本体的d e e pw 曲数据源分类和查询接口模式抽取 2 2 1 d e e pw e b 数据源分类 根据kc c h a n g l 5 1 等人的估计,整个w e b 中可访问的w e b 数据库约有4 5 0 0 0 0 个,并且这 一数目还在快速地增长。面对如此庞大的数据,只有将其分类并提供一种方便的检索方式,才 能有效地利用到其中的信息。对w e b 数据库分类的工作量是庞大费时的,单纯地通过手工来分

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论