




已阅读5页,还剩54页未读, 继续免费阅读
(计算机应用技术专业论文)基于本体的deep+web数据源的分类研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
r l 摘要 互联网按“深度”可以分为d e e pw e b 和s u r f a c ew e b 。随着互联网的飞速 发展,大量信息在我们的日常工作和生活中不断产生和积累。为了利用这些资 源,尤其是d e e pw e b 资源,学界引入了d e e pw e b 数据集成问题的研究。而 d e e pw e b 数据源的分类作为d e e pw 曲数据集成中的重要环节,需要更多关注 和研究。 本文针对d e e pw e b 数据源分类所涉及到的相关技术进行了研究,将本体应 用到w e b 数据源的分类中,提出了相关的算法和模型。主要研究工作包括: ( 1 ) d e e pw e b 查询接口模式信息抽取技术研究。本文基于页面一表单模型, 提出对页面进行内容文本特征和超链接的提取,同时对表单特征提取进行了规 范。之后进行预处理。 ( 2 ) 本体构建方法研究。本文给出了本体模型,结合知网和w o r d n e t 来构 建了几个领域的本体,同时提出了新的权重计算方法。 ( 3 ) 基于本体的d e e pw e b 数据源分类方法。提出了在基于查询接口特征 分类的同时,将本体引入d e e pw e b 数据源分类的方法。并改进了分层表单识别 架构( h i f i ) 和权重计算方法,形成了基于本体的d e e pw e b 数据源分类算法。 在实验平台w e k a 上分别用c 4 5 、贝叶斯分类方法、k n n 方法、支持向量 机四种方法进行对比实验,实验表明,基于领域本体的d e e pw e b 数据源分类比 已有的单纯利用查询接口特征进行分类的分类效果更好,同时改进的权重计算 方法以及改进的h i f i 构架对于分类准确性的提高具有较好的效果。 关键词:深网;本体;分类;领域识别 a b s t r a c t t h ei n t e m e tc a nb ec l a s s i f i e di n t od e e pw e ba n ds u r f a c ew e bb yd e p t h w i t h t h er a p i dd e v e l o p m e n to fi n t e m e t ,al a r g ea m o u n to fi n f o r m a t i o ni s i n c r e a s i n g l y g e n e r a t e da n da c c u m u l a t e di no u rd a i l yw o r ka n dl i f e i no r d e rt om a k eu s eo ft h e s e r e s o u r c e s ,e s p e c i a l l yt h ed e e pw e br e s o u r c e s ,a c a d e m i ci n t e r e s t si n 仃o d u c et h e r e s e a r c ho nd e e pw e bd a t ai n t e g r a t i o n d e e pw e bd a t as o u r c e sc l a s s i f i c a t i o n ,a st h e i m p o r t a n tp a r ti nd e 印w e bd a t ai n t e g r a t i o n ,n e e d sf u r t h e rc o n c e n t r a t i o na n ds t u d y i nt h i sp a p e r , t h er e s e a r c hi sa b o u tt h et e c h n o l o g yo ft h ec l a s s i f i c a t i o no f d e e p w e bd a t as o u r c e s o n t o l o g yi s a p p l i e dt o t h ec l a s s i f i c a t i o no fw e bd a t a s o u r c e s a l g o r i t h m sa n dm o d e l sa r ep r o p o s e d t h em a i nw o r ki n c l u d e s : ( 1 ) d e e pw e bq u e r yi n t e r f a c em o d e li n f o r m a t i o ne x t r a c t i o nt e c h n o l o g y b a s e d o nt h ep a g e f o r mm o d e l ,i ti sn e c e s s a r yt oe x t r a c tt h ef e a t u r e so f t h ec o n t e n tt e x ta n d h y p e r l i n k s ,a n dr e g u l a t et h ef e a t u r ee x t r a c t i o no nt h ef o r ma tt h es a m et i m e ( 2 ) i nt h i sr e s e a r c h ,b a s c e do i lt h em o d e lw h i c hi sp r o p o s e di nt h i sp a p e r , w eb u i l ds e v e r a lf i e l d so n t o l o g yu s i n gh o w n e ta n dw o r d n e t a n dn e wm e t h o do f w e i g h t i n gi sp r o p o s e d ( 3 ) i nt h eo n t o l o g y - b a s e dc l a s s i f i c a t i o nm e t h o do fd e e pw e bd a t as o u r c e s , w ep r o p o s eo n t o l o g yc l a s s i f i c a t i o no ft h ei n t r o d u c t i o no fd e e pw e bd a t as o u r c e s , b a s e do nq u e r yi n t e r f a c ef e a t u r ec l a s s i f i c a t i o n h i f ii si m p r o v e da n dn e w w e i g h t i n g i sp r o p o s e d t h ef o r m a t i o no fo n t o l o g y - b a s e dc l a s s i f i c a t i o na l g o r i t h md e e pw e b d a t as o u r c e sc o m e st r u e u s i n gt h ew e k a ,w ed os o m ee x p e r i m e n t sb a s e do nb a y e s i a n ,k n n ,s v ma n d c 4 5 b yb u i l d i n go n t o l o g y , t h e i m p r o v e dc l a s s i f i c a t i o n sl e a d t ob e t t e rt h a n c l a s s i f i c a t i o n sb a s e do nq u e r yi n t e r f a c ef e a t u r e s t h en e w w e i g h t i n ga n dn e w h i f i l e a dt ob e t t e rc l a s s i f i c a t i o l lr e s u l t s k e y w o r d s :d e e pw e b ;o n t o l o g y ;c l a s s i f i c a t i o n ;i d e n t i f ya r e a s 目录 第一章绪论1 1 - 1 引言1 1 2 研究背景与现状2 1 3 选题方向及该方向已有研究成果5 1 4 本文的主要工作与结构安排5 1 4 1 主要工作5 1 4 2 本文结构安排6 第二章本体与d e e pw e b 信息获取概述。7 2 1 d e e pw e b 概j 盔一7 2 1 1 d e e pw e b 查询接口7 2 1 2h t m l 表单1 0 2 2d e e pw e b 信息获取流程1 1 2 2 1d e e pw e b 数据源分类1 2 2 2 2 查询接口特征的表示一1 3 2 2 3w e b 数据源分类算法1 4 2 3 本体及其构建概述l8 2 3 1 本体的概念。18 2 3 2 本体的分类一1 9 2 3 3 本体的构建过程一1 9 2 4 小结一2 3 第三章d e e pw e b 查询接口特征提取2 4 3 1 页面一表单模型一2 4 3 2 页面特征的提取2 7 3 3 表单特征的提取3 0 3 4 预处理31 3 5 空间向量模型3 l 3 64 、结一3 2 第四章基于本体的d e e pw 曲数据源分类3 3 4 1 本体模型3 3 4 1 1 相关概念3 3 4 1 2 本体模型3 4 4 1 3 查询接口向量空间模型3 5 4 1 4 特征项选择一3 6 4 1 5 权重计算3 6 4 2 改进的分层表单识别( h i f i ) 架构3 8 4 3 小结4 0 第五章实验及分析一4 1 5 1 实验平台简介4 1 5 2 基于查询接口文本的分类实验4 1 5 3 引入本体后的分类实验4 3 5 4 实验对比分析4 3 5 5 t f i d f 和d w t f 的性能比较4 4 5 6 新的h i f l 分类器性能测试4 4 5 7 小结4 7 第六章总结与展望4 8 6 1 本文总结4 8 6 2 未来工作4 8 参考文献。4 9 致j 射5 3 作者简介。5 4 i i 第一章绪论 第一章绪论弟一早珀下匕 互联网按“深度”可以分为d e 印w e b 和s u r f a c 七w e b 两大类。现有的搜索引擎主要收 录s u r f a c ew e b 中的信息,对d e e pw e b 中的内容没有做到有效的覆盖,但是d e e pw e b 相 对于s u r f a c ew e b 而言,其数据有数量大、质量高的特点,所以今后搜索引擎的研究必然集 中在d e e pw e b 领域。本章开篇首先介绍了d e e pw 曲的访问过程,然后是本文的研究背景 和现状,然后梳理了国内外d e e pw e b 的研究现状,接着介绍了本文的主要工作和组织结 构。 1 1 引言 随着互联网的飞速发展,大量信息在我们的日常工作和生活中不断产生,并且随着人 们业务的不断深入和发展仍在飞速增长。人们要在海量的w e b 信息中发现和利用相关信息, 就必须进行此方面的综合分析和研究。目前,在互联网上,w e b 信息的载体多种多样,有 文字、图表、视频、音频等多种信息形式。由于其种类多样,相应的各自总量和规模也就 参差不齐。而且,由于互联网是个开放的全球互联平台,各个w e b 数据源的选择、实施、 架设和内容更是复杂繁多。这些因素导致了现实生活中互联网上的w e b 数据源的动态性和 异构性。 当前研究认为,按照w e b 中所涵盖的信息的深度,可以将w e b 分成表层网和深层网两 种形式。所谓的表层网是指可以通过超链接被传统搜索引擎索引到的静态网页的集合,深 层网指那些存储在网络数据库里、不能通过超链接访问而需要通过动态网页技术访问的资 源集合。深层网中的资源是极其丰富的,比表层网包含着更多有价值的资源。b r i g h tp l a n e t i l 】 公司的研究总结深层网络有两个特点,一是数据量大,深层网络的信息量约为表层网络的 4 0 0 到5 0 0 倍,且9 5 的深层网络信息都是可以公开访问的,而不需要付费或者订阅,深 层网络是互联网新信息增长的最大来源:二是专业性强,尽管那些大型的深层网络站点在 互联网,搜索领域都不知名,但是,深层网站点平均访问量比表层网站点高出5 0 ,并且 与表层网站点相比有更多的链接,这主要是其数据的专业性决定的。2 0 0 4 年4 月,伊利诺 斯大学香槟分校( u n i v e r s i t yo fi l l n o i s ea tu r b a n b a nc h a m p a i n ,u i u c ) 对d e e pw e b 作了 一次较为准确的估算,推测整个互联网上有3 0 7 0 0 0 个网站提供数据库,并且这些网站包含 的数据库大概有4 5 0 0 0 0 个【2 】。2 0 0 6 年3 月,c n n i c 发布了( 2 0 0 5 年中国互联网网络信息 资源数量调查报告。其结果显示:截止2 0 0 6 年,中国约有6 9 4 2 0 0 个网站,其中拥有数据 库的网站数目为1 7 0 0 0 0 个,约占全部网站的2 4 5 ,数据库的总数为2 9 5 4 0 0 个 3 1 。 然而传统搜索引擎,比如g o o g l e 、百度等网页搜索引擎,一般只索引表层网中由超链 接可以到达的静态网页、文件等资源,却不索引或很少索引深层网中的资源。这是因为深 南京信息工程大学硕士学位论文 层网由网络数据库组成,其数据无法仅利用链接获取,须通过提交检索、由数据库系统动 态生成结果网页后才能显示给用户。动态网页通常是由后台的数据库支持,只有当用户查 询的时候才一会由c g i 或a s p 程序产生,而且作为响应只会在一次请求应答过程中存在。 此外,在设计普通搜索引擎爬虫时,因为担心爬虫会陷入巨量动态网页库而浪费网络带宽 资源和存储资源,设计人员有意让爬虫避开这样的内容。由于这些原因,普通搜索引擎通 常不能检索深层网络中的信息资源。要想获取这些信息,就必须通过查询接口表单的方式 提交查询来获取。这一过程如图1 1 所示。 图1 1d e e pw e b 访问过程 因此,如何利用d e e pw e b 数据集成来实现对这些d e e pw e b 数据源的信息获取和有 效利用成为一个迫切需要解决的问题。而数据源分类作为d e e pw e b 数据集成的重要环节, 是目前国内外研究的热点。 1 2 研究背景与现状 人们将那些可以通过固定链接访问到的网页称作s u r f a c ew 曲,与之相对的就是d e e p w e b 。深度网络的概念最早由d r j i l le l l s w o r t h l 4 l 于1 9 9 4 年提出,一开始叫i n v i s i b l ew e b , 指的是那些传统搜索引擎无法搜索到的网页。具体地说,d e e pw e b 指的是那些无法通过固 定链接访问,只有在用户向网络数据库提出查询请求后才以动态页面形式出现的网页。 b r i g h t p l a n t t s 是d e e pw 曲研究领域的领导者,他们自2 0 0 0 年起就对d e e pw e b 进行了 大量的研究,在其最新的研究报告中,他们得出以下结论: ( 1 ) d e e pw e b 中可访问的公共资源为s u r f a c ew e b 的4 0 0 5 5 0 倍。 ( 2 ) 在2 0 0 0 年,d e e pw e b 中包含7 5 0 0 t b 大小的信息,而s u r f a c ew e b 只有1 9 t b 。 ( 3 ) d e e pw e b 包含5 5 0 0 亿个独立文档,而s u r f a c ew e b 只有1 0 亿个。 ( 4 ) 在2 0 0 0 年,网上可探测的d e e pw e b 站点有4 3 0 0 0 - - 9 6 0 0 0 个,在2 0 0 9 年,d e e p w 曲站点至少超过2 0 0 0 0 0 个。 ( 5 ) 在2 0 0 0 年,最大的6 0 个d e e pw e b 站点拥有7 5 0 t b 的信息量,是全部s u r f a c ew e b 站点拥有的信息量的4 0 倍。 ( 6 ) 平均看来,d e e pw 曲的访问量比s u r f a c ew e b 高出5 0 ,并且拥有更多的链接; 但是很多权威的d e e pw e b 站点并不为公众所熟知。 2 第一章绪论 ( 7 ) d e e pw e b 信息是互联网上信息增长最大的一类。 ( 8 ) 和s u r f a c ew e b 相比,d e e pw e b 站点在内容范围上更深更窄。 ( 9 ) d e e pw e b 中高质量内容的大小是s u r f a c ew e b 的1 0 0 0 - 2 0 0 0 倍。 ( 1 0 ) d e e pw e b 中的内容与领域高度相关。 ( 1 1 ) 超过一半的d e 印w e b 属于专业领域。 ( 1 2 ) 9 5 的d e 印w e b 信息是免费,向公众开放的。 中国的互联网起步虽晚,但发展迅速,并且拥有极其丰富的d e e pw e b 资源。中国互 联网网络息中心在2 0 0 5 年的中国互联网络信息资源数量调查报告【6 】中指出:全国网页总数 约为2 4 亿个,字节总数约为6 3 9 3 2 g b ;2 0 0 5 年全国在线数据库约为2 9 5 万个,拥有在线 数据库的网站数目约为1 7 0 万,占到全部网站的2 4 5 :以拥有在线数据库的网站为基数, 全国平均每个网站拥有】7 个数据库;以所有网站为基数,全国平均每个网站拥有0 4 3 个 在线数据库。中国互联网络信息中心在2 0 0 9 年的报告【7 】中指出:中国网页超过1 6 0 亿个, 字节总数约为4 6 0 2 t b ,其中静态网页约占总数的4 9 0 6 ,动态网页约占总数的5 0 9 4 。 现在主流的搜索引擎,谷歌、雅虎、百度等对d e e pw e b 的内容并没有做到有效地利 用,主要表现在以下三个方面: ( 1 ) 现在的主流搜索引擎花了十多年时间,搜索了海量的静态网页,然而其所覆盖的 内容仍然只是互联网全部静态网页的- - d , 部分。直到近两年,d e e pw e b 信息才开始被搜索 引擎搜集。现在搜索动态网页的技术还没有成熟,因而d e e pw e b 信息获取的速率远慢于 s u r f a c ew e b 。 ( 2 ) 静态网页中主要以非结构化数据为主,而动态网页中的内容以结构化数据为主, 数据质量高,但是主流搜索引擎还没能针对动态网页数据的特点开发出良好的应用。 ( 3 ) 主流搜索引擎现在提供给用户的界面被证明是高效、友好的。但是现在的这种界 面并不适合展示动态网页搜索的结果。 综上所述,d e e pw e b 对人们有着极其重要的利用价值,然而由于技术的限制,这部分 信息还没有得到有效的利用,所以对d e e pw e b 信息获取的相关领域进行研究是非常有意 义的。 自d e e pw e b 概念第一次被提出以来,国内外学者对如何有效利用d e e pw e b 中的信息 做了广泛的研究,人们致力于建立一个系统,能够以自动的方式对d e e pw e b 中不同数据 源进行有效的集成,并提供智能化的检索方式,为了实现此目的,主要有以下问题需要解 决:d e e pw e b 数据源发现问题,d e e pw e b 数据源分类问题,查询接口模式抽取问题,查 询接口模式集成问题,d e e pw e b 数据源选择模块,查询结果抽取问题,查询结果语义标注 问题,为了解决这些问题,科研人员展开了相应的研究。 d e e pw e b 数据源发现技术可以探索w e b 站点中是否存在网络数据库,寻找查询接口 的位置。k e v i nc h e n - c h u a nc h a n g l s l 等经研究发现9 1 6 的查询接1 2 1 深度不超过3 ,可以根 据此原则设定探索深度。j c o p e t 9 1 等研究了一种识别查询接口的方法,他们首先根据查询接 口中的信息产生特征,然后利用c 4 5 决策树实现对查询接口的识别。 d e e pw e b 数据源分类技术可以按领域将d e 印w e b 数据源分类,主要有三类方法。第 3 南京信息工程大学硕士学位论文 一类方法选择查询接口所在网页中的信息作为特征,并据此来分类,代表方法有q p 一1 o 】 等人的成果,该方法在实验中效果不错,但是该方法要求查询接口所在网页与查询接口所 指向的数据库高度相关,实际情况中它们并不是全部都相关的。第二类方法选择查询接口 作为特征的来源,并据此来分类,代表方法有h a ih e i 】等人的成果,但是这种方法依赖查 询接口模式抽取的结果,适应性不强。第三类方法基于查询结果页面中的信息,代表方法 有w m e n g t l 2 】等人的成果,这种方法依赖于查询结果页面抽取的结果。但是在d e e pw 曲中, 大多数查询结果只达到半结构化,这使得查询结果页面的抽取质量不高,所以很难从中获 得高质量的分类属性结合。 查询接口模式抽取技术用于获取查询接口中的属性集合。对查询接口中属性的赋值就 是一个查询网络数据库的过程,而且查询接i x l 是在互联网上获取d e e pw e b 数据的唯一途 径。该领域比较著名的方法有s r i r a mr a g h a v a l l 【1 3 】等人的基于启发式规则的查询接口模式抽 取方法和z h e nz h a n g t l 等人的基于h i d d e ns y n t a x 的查询接口模式抽取方法。实验中,这两 种方法在属性的获取上均取得了超过8 0 的准确率和召回率,但是都忽略了查询接口中的 语义信息。 d e e pw e b 数据源选择技术用于选择合适的网络数据库。当希望从网络数据库中获取数 据时,我们需要知道输入什么样的查询条件才能获得目标数据,哪些网络数据库能够提供 目标数据。在对搜索引擎选择的研究过程中,已经有了很多成熟的技术,这里可以借鉴。 c y u t l 5 1 等人提出了基于直方图的t o p - n 选择方法,该方法首先判断特定查询条件与网络数 据库之间的相关性,然后选择合适的数据库作为d e e pw e b 信息的来源。 查询结果抽取技术用于抽取d e e pw e b 中的信息。d e 印w e b 信息以动态网页的形式呈 现给用户,我们称这类网页为结果页面。该技术用于从结果页面中获取属于d e e pw e b 的 那部分信息。该研究领域有了大量的成果,可以分为基于专门页面抽取语言的抽取工具, 基于d o m 树的抽取工具,基于规则的抽取工具这几类。总的来说,该领域是研究最为成 熟的一块。但是在d e e pw e b 中,大部分结果页面中的数据丢失了其在数据库中的结构化 信息,需要更好的处理方法来还原或者重组结果页面数据的模式。 d e e pw 曲数据语义标注技术用于使获取的d e 印w 曲数据更具使用价值。l a d o t t a l l 6 】 j w a n g 。7 l 等人基于启发式规则对d e e pw 曲数据进行语义标注。整体上来说,该领域仍处 于起步状态。 国内也有众多学者对d e e pw e b 展开了研究,但与国际水平相比还有一定的距离,主 要表现在研究问题和解决方法上尚缺乏突破性的成果。为了推动国内d e e pw e b 的研究, 2 0 0 8 年2 月,软件学报推出d e e pw e b 专刊。国内具有代表性的论文有:使用分类器发现 特定领域的深度网入口【瑚、一种基于图模型的w 曲数据库采样方法【1 9 1 、基于本体的d e e p w 曲数据标注【硼、d e e pw 曲爬虫研究与设计【2 1 1 、基于知识的d e e pw e b 集成环境变化处理 的研究1 2 2 1 等。 在2 0 0 4 年,微软亚洲研究院的第三代搜索引擎就宣布开始抽取d e e pw e b 中的信息, 但是从实际的情况来看,其对d e 印w 曲的覆盖没有起到实质性的效果。g o o g l e 在2 0 0 8 年 正式公布其深度网络搜索技术。g o o g l e 的网页爬虫每秒能产生1 0 0 多个查询,每天可以获 4 第一覃绪论 取超过4 0 万的结果页面,但是如果按照中国的动态网页数量来计算,在网页数量不增加的 情况下,g o o g l e 需要2 0 0 0 0 天才能搜索完毕。仅仅获取结果页面,还无法实现对d e e pw e b 信息的有效使用。要实现对d e e pw e b 信息的有效利用,搜索引擎必须做到充分利用d e e p w e b 信息的特点,向用户提供更加友好、智能的服务。目前为止,还没有搜索引擎开始抽 取中文d e 印w e b 信息。 1 3 选题方向及该方向已有研究成果 由于d e e pw 曲信息量巨大,而且还在加速增长中,w e b 数据库的数目每天都在变化, 而且涉及的领域众多,因此,为了有效地利用这些信息,有人提出将d e e pw e b 信息按领 域进行分类,查询接口按领域进行集成,这是一个可行的办法,而且得到了大多数研究者 的认可,因此研究d e 印w e b 数据库分类是首要问题。因为w e b 中的在线数据库数量巨大, 而且这些数据库的数目每天都在变化,如果用人工方式对d e e pw e b 数据库进行分类是不 可能的,因此应该研究w e b 数据库的自动分类。d e e pw e b 数据库的分类一般有两类方法, 一类是提交查询法:即通过提交一个或多个查询,根据从w e b 数据库返回的结果页面的内 容来对w e b 数据库进行分类;另一类是非提交查询法:根据表单和包含表单的页面中的文 本信息来对w e b 数据库进行分类。 本文将研究非提交查询法的d e e pw e b 数据库的自动分类。现在对w e b 数据库的非提 交查询法分类,国内外已经有很多研究成果。b h e 等人采用无监督的方式,假设不同的数 据源具有不同的潜在模式,利用表单上的属性标签来对深度网入口表单进行聚类;q i a n p e n g 也提出了用聚类的方法对d e e pw 曲数据库进行分类田1 ;l u c i a n ob a r b o s a 等人采用监 督方式,提出利用表单的文本内容来对深度网入口的表单进行分类,他们认为表单上的文 本内容通常能很好的暗示该表单所属的领域,这些文本内容包含了关于该表单后台数据库 的一些元数据,例如表单的属性标签通常可以与数据库中一个表的属性名字匹配,而下拉 列表对应着数据库中该属性的值域。然而,b h e 【2 4 】等人方法需要抽取表单上的属性标签, 因此,该方法的有效性将高度依赖表单属性标签的抽取,而属性标签的抽取是很难自动进 行的,一般都是通过人工抽取的,这不符合本文自动分类的目的,另外它所提出的假设在 现实世界里也是不一定存在的;而q i a np e l l g l 2 5 等人的方法也只是限于电子商务领域。 1 4 本文的主要工作与结构安排 1 4 1 主要工作 本文的工作主要是根据w e b 数据库查询接口表单上的文本内容来对d e e pw e b 数据库 进行自动分类,该分类在应用中主要是二元分类,即给定一个领域,通过判断表单是否属 5 南京信息工程大学硕士学位论文 于该领域,从而判断这个表单所代表的d e e pw e b 数据库是否属于该领域。在本文的以下 内容中,将d e e pw e b 数据库统称为w e b 数据库,即w e b 中可访问的在线数据库。本文思 路主要有两点: ( 1 ) l u c i a n o b a r b o s a 等人是利用表单上出现的单词来构建特征向量的,由于自然语言 有很多同义词、多义词现象,d e e pw e b 入口表单上的文本内容也是如此,也有很多同义词 和多义词现象,因此,本文提出借助w o r d n e t 和知网建立领域本体,提高分类效果。 ( 2 ) 提出一个新的d e e pw e b 数据库分类框架,该框架利用领域本体来建立特征向量 的,并提出来新的权重计算方法。以此来提高分类精度。 1 4 2 本文结构安排 本文的章节结构安排如下: 第l 章绪论,主要介绍d e e pw e b 的概念及类型、特点、资源现状、研究成果,以及 本文的主要工作、结构安排。 第2 章本体与d e e pw e b 信息获取技术概述,主要介绍基本概念d e e pw e b 查询接口、 h t m l 表单、d e e pw e b 信息获取技术总体流程以及本体的概念、分类及其构建过程。 第3 章d e e pw e b 查询接口特征提取的流程,本章主要给出了查询接口特征抽取的方 法和流程以及用于分类的空间向量模型。 第4 章基于领域本体的w e b 数据源分类,这一章是对本文提出的两个想法进行详细 的叙述,对构建领域本体进行了详细的介绍,提出了新的权重计算方法,并提出了基于领 域本体的d e e pw e b 数据源分类新的分层表单框架。 第5 章实验及对比分析,本章做了实验,对比了引入本体和不引入本体两种方法的实 验和对比了t f i d f 和d w t f 的性能,并做了分析。在前两组实验的基础上,测试了改进的 分层表单架构的性能。 第6 章结论及未来工作。本章对本文所做的工作进行了总结,并提出以后将要进行的 工作。 6 第二章本体与d e e pw e b 信息获取概述 本章介绍了d e e pw e b 的概述、查询接口以及表单,然后介绍了d e e pw e b 信息的获取 流程,接下来介绍d e e pw 曲信息获取的系统结构,并详细讲述d e e pw 曲数据源分类方法 和本体。 2 1d e e pw e b 概述 首先对网络数据库做形式化定义:一个网络数据库可以定义为( w d b ,q ,r ) ,其中w d b 指的是存储d e e pw e b 信息的数据库,q 表示的是查询接口,r 表示的是查询结果页面。 d e e pw e b 信息存储在w e b 站点的数据库中,获取d e e pw e b 信息的过程也就是向网络数据 库提交查询获取结果的过程,这中间需要经过六个步骤:用户填写表单并提交查询请求; w e b 站点后台程序根据输入的属性值生成动态s q l 语句;后台程序使用s q l 语句在数据 库中查找数据;数据库将数据返回给后台程序;后台程序根据查询结果生成动态网页;用 户在结果页面返回后浏览。具体流程如图2 1 所示: 2 1 1 d e e pw e b 查询接口 图2 1d e e pw e b 数据获取流程 在w i s e - c l u s e r 研究中,通过对2 7 0 个不同类型的实际电子商务数据源查询接口做了实 7 南京信息工程大学硕士学位论文 验分析,得出了六种不同类型的查询接口。 ( 1 ) 专一型。在这样的查询接口页面上只存在一个搜索表单,同时它只能搜索一个类 别的产品。大约有8 3 的电子商务查询接口属于这种类别。 ( 2 ) 分开型。在这样的查询接口页面上可以搜索多个类别的产品,但对于不同的产品 类别,它为该子类别提供了独立的查询接口。本文对此类型将子表单分离开来单独处理。 ( 3 ) 共存型。多个电子商务查询接口共存于一个页面上。对于这种类型的查询接口,也 是多个表单分离开来单独处理。如图2 2 所示。 o 时艇谭1 i 萄匿两一车站查诲 车次查询 车站暂瞳公青 q 发车日期堕圈发站垂童 蠹贴涎翌 二 圈 热门筮劲站: 交通田量点名胜出门指南 功蠢导曩 躲霹翻 车站储介竣客须知 时刻查询 疋冤圈 购襄须知售摹网点 竣行常识铁路曹识 曩塞圈 站前公变车站平面田 斯老车站囝l 弱工作宣 蠢店置 _ “ 一”4 “1 1 “一 ;垒嗣覆店2 寥忻琢话- 麓曩 “一= 一一一 城市: s 上海殇l 价格:l t - , l i ;t磁l 入伽闻厨两嘲 鬻店时闾1 2 0 l l - 卜历e i 茎盥 墨媛:l 不限蚓;厕翰 热点城市:北京上海广州棵: i 南京锟煮航空售票中心 毪矿侈。”:j 静强 。 【新闻】南京站余i 住 【新闻】商京站余曩檀 【新阉】謇运每日信 【新闻】春运每日僵一 疆知】南京站代售未 :”:“= = :”:= 二= :”二一”? ? ? : :“ 一 := ”:? 。 l市区售票圈点分布更多 江苏省中旅簸游航空服务有限公司宵京汉中路l 号( 撕街口地铁站4 号出口, 江苏金陵商务宙际旅行社有陬责任公司南京汉中路2 号( 盒陵饭店内) - 新街口代售点( 南京碾燕航空旅游有限公司) 商京市新街口汉中路1 约号 中膏旅辽苏航空景务分公司省膏被南京汉中盔1 5 0 号 - 南京水西f 1 大街代售点南京集经发晨息公司) 膏亲市汉中路1 8 0 号豆汉大厦餐 膏京状元樱旅行杜商京夫子庙状元境9 号 图2 2 共存型 8 第二章本体与d c e pw e b 信息获取技术概述 快速选购相机 通过高级组合搜索,您可以快速 找到心仪的相机 类别: 匾 二二二盈 晶牌: | 佳能( c a n o n l噫l 所有 松下( p a n a s o n i c ) 富士( f i n e p i x ) 尼康( n i k o n ) 通用 索尼( s o n y ) 商l 军磊熬昌毛, 柯达( k o d a k ) 德国柏卡( p r a 炳c a 惠普( h p l 品胜 欧诺思o u n o u n 理光( r i c o h 美国宝丽来( p o l a r o i d 臭林巴斯( o l y m p u s ) 宾得( p e m - a x ) 三星( s a m s u n g ) 爱国者( a i g o 三洋( s a n y o 图2 3 合并型 ( 4 ) 合并型。一个查询接1 3 表单可以搜索多种类别的产品,不同类别的产品共存于一 个搜索表单上,并且表单上只提供一个提交按钮,如图2 3 所示。这样的查询接1 3 被分离 为多个不同的逻辑接1 :3 表单,每个逻辑接1 :3 表单针对一种类别的商品。在查询接口被聚类的 过程中,每个逻辑接1 :3 表单被视为一个独立的表单。当聚类完成后,将实际的查询接1 3 反 映到多个聚类上。 ( 5 ) 共享型。可以搜索多个不同类别的产品,但是它们共享同一个查询接口模式。即: 在子类别查询接口上可以获得相同的查询接口模式。通常在这样的查询接口上只含有一个 文本输入框,但它可以查询多个类别的产品。如图2 4 所示。 ( 6 ) 多页型。某种产品的查询页面分散在多个页面中,需要用户多次交互才能完成查 询任务。只有当所有的查询页面被提交后,才会显示结果页面。由于没有使用基于查询提 交的方法,对于含有多页的查询,只使用第一个查询接口用于聚类。其余查询接口页面, 在聚类过程中可以使用表单中的链接页面信息加以弥补。 9 南京信息工程大学硕士学位论文 热买图书 音乐 音像 手机硒讯 小霉电 荚客化妆 厨 运动户外休雨 苹果 d 玩更 苹果( j 钟表 肇d 珠宝首饰 f 个护健康 软件 游戏娱乐 服饰箱包 特价j 摄影强像 l 数码影膏 大霉电 电脑1 t ,办公 教育音像 汽车用品 四耄季装修 办公用品 食品 母婴用品 一 国 一中兴v 8 8 03 ( 5 莩- 机 l 崎世9 舅的¥1 1 6 9 鲢亚5 2 3 03 g 手帆 诺基亚( n o k l a ) ¥- 嗍¥1 ,2 5 5 0 0 雷 麓鸯 苹累f p h o n e3 6 弹机 苹果( a p p l e ) ¥峥争钿b e ¥3 3 9 8 1 5 匹2 匹 空调空调 图2 4 共享型 下面给出在2 7 0 个电子商务查询接口调查的结果统计信息,如表2 1 所示。从表中可 以看出:专一型的电子商务查询接e l 占了所有查询接口中的绝大部分。可以看出d e e pw 曲 数据源查询接口大都属于专一型的查询接口,它也是目前主要研究的类型。通常专一型查 询接口对应的后台数据库为结构化的关系数据库。 表2 1 不同类型的电子商务查询接口分布 查询接口类型处理前表单数量处理后表单数量 所占百分( ) 专一型 2 2 42 2 48 2 9 6 分开 51 41 8 5 ,存 391 1 l 合并 l20 3 7 共享 6 1 32 2 2 多页 3 l3 11 1 4 8 总计 2 7 02 9 41 0 0 一个查询接口通常是一个w e b 页面中的h t m l 表单,表单是h t m l 语言的一个重要 组成部分,表单被用于在网页中给用户填写信息,然后进行提交操作,于是表单中各控件 的值就从客户端传送到服务器上,在服务器上经过相应程序处理后,将用户所需信息返回 l o 第二章本体与d e e pw e b 信息获取技术概述 到客户端。 下面举个h t m l 表单的例子,该表单让用户输入姓名,示例代码如图2 5 所示: 在浏览器中显示如图2 6 所示: 图2 5h 1 1 也表单 馆藏书目棱紊 二二二二二二二二 圜 图2 6 表单在浏览器中的显示 h t m l 表单的学习最重要的是要掌握三个要点,如下: a c t i o n :代表用户输入的数据被传送到的地方: m e t h o d :代表h t m l 表单发送信息的方式,取值为g e t 或p o s t ; 表单控件:常用的表单控件如表2 2 1 2 6 , 表2 2 常用表单控件 表单控件说明 i n p u tt y p e = t e x t 单行文本输入框 i n p u tt y p e s u b m i t 将表单里的信息提交给表单属性a c t i o n 所 指向的文件 i n p u tt y p e = c h e c k b o x 复选框 i n p u tt 炉r a d i o 单选框 s e l e c t 下拉框 t e x t a r e a 多行文本输入框 i n p u tt y p e = p a s s w o r d 密码输入框 2 2d e e pw e b 信息获取流程 d e e pw e b 信息获取的方式和s u r f a c ew e b 不同。一个自动的s u r f a c e 信息获取系统一般 是这样设计的:从u r l 库( 一个u r l 种子集合) 开始获得输入,解析u r l 中表明的网页 地址,建立网络连接,接受数据,然后将获取的页面信息存储在页面库中,并解析出网页 中新的u r l ,将它放入原有的u r l 库中,整个过程反复进行一直到u r l 库为空,其系统 结构如图2 7 所示。d e e pw 曲信息获取流程在图2 1 中已有叙述,这里
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 岳阳市中储粮2025秋招笔试模拟题及答案
- 内江市中石油2025秋招笔试性格测评专练题库及答案
- 中国广电嘉兴市2025秋招心理测评常考题型与答题技巧
- 绥化市中石油2025秋招笔试提升练习题含答案
- 郴州市中石油2025秋招心理测评常考题型与答题技巧
- 毕节市中石化2025秋招笔试模拟题含答案油气储运与管道岗
- 国家能源昌都市2025秋招面试专业追问及参考计算机与自动化岗位
- 三门峡市中石油2025秋招笔试模拟题含答案炼油设备技术岗
- 邯郸市中石油2025秋招笔试模拟题含答案炼油设备技术岗
- 平顶山市中石化2025秋招面试半结构化模拟题及答案油品分析质检岗
- 重症自身免疫性脑炎监测与治疗中国专家共识(2024版)解读
- 供餐服务合同协议书模板
- 2025-2030年中国电力线载波通信芯片行业市场现状供需分析及投资评估规划分析研究报告
- 窗户改造合同协议书
- 《局部解剖胸部》课件
- 赛鸽公棚内部管理制度
- 一年级语文上册《四季》课件
- 利器管理程序及制度
- 妊娠合并子痫患者的护理
- 医院法律、法规培训2024:深入探讨医疗损害赔偿
- 世界手卫生日活动
评论
0/150
提交评论