(计算机应用技术专业论文)deep+web动态搜索的研究基于图书网站的动态搜索.pdf_第1页
(计算机应用技术专业论文)deep+web动态搜索的研究基于图书网站的动态搜索.pdf_第2页
(计算机应用技术专业论文)deep+web动态搜索的研究基于图书网站的动态搜索.pdf_第3页
(计算机应用技术专业论文)deep+web动态搜索的研究基于图书网站的动态搜索.pdf_第4页
(计算机应用技术专业论文)deep+web动态搜索的研究基于图书网站的动态搜索.pdf_第5页
已阅读5页,还剩64页未读 继续免费阅读

(计算机应用技术专业论文)deep+web动态搜索的研究基于图书网站的动态搜索.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

中图分类号 t p 3 9 l 学科分类号 5 2 0 6 0 论文编号 1 0 0 1 0 2 0 1 1 0 7 0 0 密级公开 学位授予单位代码 1 0 0 1 0 学位授予单位名称北京化工大学 作者姓名李海滨学号 2 0 0 8 0 0 0 7 0 0 获学位专业名称计算机应用技术获学位专业代码 0 8 1 2 0 3 课题来源自选项目研究方向d e e pw e b 论文题目 d e 印w 曲动态搜索的研究一一基于图书网站的动态搜索 关键词表单解析,动态填充,结果页面解析,结果项排序 论文答辩日期 2 0 11 5 2 6论文类型 应用研究 学位论文评阅及答辩委员会情况 姓名职称工作单位学科专长 指导教师许南山副教授北京化工大学网络数据库 评阅人1山岚教授北京化工大学搜索、d e e pw e b 评阅人2张杰副教授北京化工大学可重构计算 评阅人3 评阅人4 评阅人5 答辩委员会主席 赵瑞莲教授 北京化工大学软件测试、软件可靠性 答辩委员1 王学伟教授 北京化工大学信号检测,信号处理 答辩委员2 何苏勤教授 北京化工大学d s p 技术、嵌入式系统 答辩委员3 尤枫副教授 北京化工大学离散数学 答辩委员4 胡伟副教授 北京化工大学图像处理 答辩委员5 尚颖讲师 北京化工大学 m i s 注:一论文类型:1 基础研究2 应用研究3 开发研究4 其它 二中图分类号在中国图书资料分类法查询。 三学科分类号在中华人民共和国国家标准( g b t13 7 4 5 9 ) 学科分类与代码中 查询。 四论文编号由单位代码和年份及学号的后四位组成 摘要 d e e pw 曲动态搜索的研究 基于图书网站的动态搜索 摘要 本文针对图书类网站的特点,根据表单项前的文字信息反映表单项输 入信息,设计一种通过解析表单项动态填充表单的方法,利用动态解析表 单获得结果页面,对其进行解析并加权排序,最后按照统一的显示格式展 现。本文设计实现利用网站自身高级搜索页面对同一类型的多个网站进行 检索的系统,为用户同时在多个图书网站搜索图书提供便利快捷的条件。 实验结果验证了算法设计的正确性,本课题的主要研究工作包括: 1 、设计一个基于字典匹配的动态表单搜索算法。该算法采用s a x 方 式解析表单,避免前人采用d o m 方式解析产生的大量无用信息;利用多 线程方式解析查询接口所在页面提高处理性能;运用字典和表单项关键字 进行匹配。服务器端程序通过抓取页面进行语义分析,发现新的图书网站 和扩展关键字字典。 2 、在表单动态填充获取的结果基础上,实现了结果页面解析。通过 预先了解并熟悉图书网站的搜索结果的展示页面的h t m l 标签结构,将 这种标签结构进行抽象提取,利用抽取模板进行解析获得图书信息对象的 链表,完成结果解析。 3 、查询结果后续处理。对于结果页而解析 :的结果项进行排序,主 要考虑的因素是该类似图书在不同网站的出现频数和在各个网站的排序 顺序。两个因素同等重要,都可以反映 i 图书受欢迎的程度和销售情况, i 北京化t 人学硕1 :学位论义 因此采用等值加权排序法。 在以上工作的基础上,设计实现了一个基于图书网站高级搜索的动态 表单搜索系统。该系统提供一种较为新颖的思路,对于同一类型的网站, 通过其高级搜索页面进行精确查询项匹配。 关键词:表单解析,动态填充,结果页面解析,结果项排序 一垒里! ! 垦垒曼!一 一一 r e s e a r c ho nd e e p 、bd y n a m i cs e a r c h b a s e db o o kw e b s i t ed y n a m i cs e a r c h a b s t r a c t b a s e do nf e a t u r e so fb o o ks a i lw e b s i t e s ,t h et h e s i sd e s i g n sh em e t h o d t h a t f o n ni t e m si sp a r s e da n df i l l e dd y n a m i c a l l ya c c o r d i n gt ot h et e x tb e f o r et h e i n p u ti t e mr e f l e c tt h ei n f o m a t i o nt ob ei n p u ti n t h ei n p u ti t e m ,m a k eu s eo f d y n a m i c a l l yf o m t og e tr e s u l tp a g e ,p a r s ea n ds o r tr e s u l t sp a g eb yw e i g h t ,a t l a s td i s p l a yt h e ma c c o r d i n gt ot h eu n i f o md i s p l a yf o m a t t h ep a p e rd e s i g n s a n di m p l e m e n t st h es y s t e mt oq u e 叫t h es a m et y p eo fm u l t i p l ew e b s i t e sb a s e d o nt h e i ra d v a n c e ds e a r c hp a g e s , a tt h es a m et i m et h es y s t e mp r o v i d e c o n v e n i e n ta n de f l f i c i e n tc o n d i t i o nt oq u e 叫b o o k so nm u l t i p l eb o o kw e b s i t e s f o ru s e r s e x p e r i m e n t a l r e s u l t sd e m o n s t r a t et h ec o r r e c t n e s so fa l g o r i t h m ,t h e m a i nr e s e a r c ht o p i c si n c l u d e : 1 t h i sp a p e rh a sd e s i g nad y n a m i cf o r ms e a r c ha l g o r i t h mb a s e do n d i c t i o n a 拶m a t c h i n g t h ea l g o r i t h mp a r s e sa f o mw i t hs a xt oa v o i dl a 唱e q u a n t i t i e s o fu s e l e s si n f o n n a t i o nw i t he x i s t i n gd o m ;i m p r o v ep r o c e s s i n g p e r f o n l l a n c ew i t hm u l t i p l et h r e a d st op a r s eq u e 叫i n t e r f a c ep a g e ;m a k e u s eo f d i c t i o n a r i e st om a t c hk e yw o r d so ff o r mi t e m s 0 ns e r v e rs i d ep a g e s a r e c r a w l e dt om a k es e m a n t i ca n a l y s i s ,t o6 n dn e wb o o k s a i lw e b s i t e sa n de x p a n d t h eb o o kk e y w o r d sd i c t i o n a t h i o u g hi t sa d v a n c e ds e a r c hp a g e k e yw o r d s : f o r r l lp a r s e r ,卸d ”a m i c a l l yf o m ,p a r s er e s u l tp a g e ,r e s u l t i t e ms o r t 日录 目录 第一章绪论1 1 1 课题研究背景1 1 2 深层网的现状2 1 3 选题及主要研究内容3 1 3 1 课题研究意义4 1 3 2 主要工作4 1 4 论文组织和安排6 第二章查询接口相关技术分析7 2 1 查询接口抽取技术7 2 2 语义分析方法9 2 3 查询接口匹配技术9 2 3 1 基于模式的匹配技术1 0 2 3 2 基于实例的匹配技术1 0 2 - 3 3 现有技术的不足1 1 2 4 本章小结12 第三章系统设计实现一1 3 3 1 总体结构1 3 3 2 设计实现1 4 3 2 1 表单动态填充1 4 3 2 2 结果页面解析2 5 3 2 3 结果项排序3 1 第四章系统测试3 7 v 北京化t 大学硕十学位论文 4 1 测试环境3 7 4 2 系统功能测试3 7 4 2 1 表单动态填充测试3 7 4 2 2 结果页面解析测试4 4 4 2 3 结果项排序测试4 4 4 3 本章小结4 5 第五章结论展望4 7 5 1 结论4 7 c o n t e n t s co n t e n t s c h a p t e r 1i n t r o d u c t i o n 1 1 1r e s e a r c hb a c k g r o u n do f t h et o p i c 1 1 2c u 眦n ts i t u a t i o no fd e e pw e b 2 1 3t o p i ca n dr e s e a r c hc o n t e n t s 3 1 3 1s i g n i f i c a n c eo f t o p i cr e s e a r c h 4 1 3 2m a i nw o r k i n g 4 1 4p a p e ro 唱a n i z a t i o na n da r r a n g e m e n t 6 c h a p t e r2t e c h n i c a la n a l y s i sr e l a t e dt ot h eq u e r y i n t e r f a c e 7 2 。lq u e r yi n t e r f a c ee x t r a c t i o nt e c h n i q u e s 7 2 2m e t h o d so fs e m a n t i ca n a l y s i s 9 2 3q u e r yi n t e r f a c em a t c h i n gt e c h n 0 1 0 9 y 一9 2 3 1b a s e do np a t t e mm a t c h i n gt e c h n i q u e s l o 2 3 2e x a m p l e - b a s e dm a t c h i n gt e c h n i q u e s 一l o 2 3 3l a c ko fe x i s t i n gt e c h n o l o g y 11 2 4s u m m a 叫o f t h ec h a p t e r 12 c h a p t e r 3s y s t e md e s i g na n di m p l e m e n t a t i o n l3 3 1o v e r a l ls t m c t u r e 1 3 3 2d e s i 朗a i l di m p l e m e n t a t i o n l 4 3 2 1f o n na u t o m a t i c a l l yf i l l i n g 1 4 3 2 2r l e s u l tp a g ep a r s i n g ”2 5 3 2 3r e s u l ti t e m ss o r t i n g 3 l c h a p t e r4s y s t e mt e s t i n g 3 7 4 1t b s t i n ge n v i r o n m e n t 3 7 4 2s y s t e m 劬c t i o nt e s t i n g ”3 7 4 2 1t e s tf o rf 0 咖a u t o m a t i c a l l yf 1 1 1 i n g 3 7 4 2 2t e s tf o rr e s u l tp a g ep a r s i n g 4 4 4 2 3t e s tf o rr e s u l ti t e m ss o n i n g 4 4 4 3s u 删m 2 呵o fm ec h a p t e r 4 5 c h a p t e r5c o n c l u s i o na n dp e r s p e c t i v e 4 7 v i l 5 1 c o n c l u s i o n 4 7 5 2e x i s t i n g p r o b l e m s 4 7 5 3p e r s p e c t i v e ? 4 7 r e f e r e n c e s 4 9 a c l m o w l e d g m e n t s 51 a c h i e v e m e n ta n dp u b i i s h e dr e s e a r c hp a p e r s 5 3 5 5 第一章绪论 第一章绪论 本章简要介绍了d e 印w 曲相关概念, 进行了综述,探讨了其中存在的一些问题, 究内容,介绍论文的组织和安排。 1 1 课题研究背景 对基于网站高级搜索的动态表单搜索算法 在此基础上结合课题背景,给出论文的研 互联网广泛融入到各个阶层的社会生活相应领域,为各个领域带来了很多新的研 究课题,引起各行业学者的广泛关注。互联网带来的最大问题就是如何在这个信息量 庞大的信息系统中找寻到有价值的信息。网络上的信息在急速增加,但是由于缺少合 理有效的编排架构,致使大量用户面对众多信息不知所措,无法精确地定位到自己所 需要的信息,这对传统的信息搜索系统提出了巨大的挑战。信息搜索专家们在传统信 息搜索理论基础上,仔细分析互联网的自身特点,在长期的网络搜索过程中不断归纳、 创新,建立和发展了一些网络搜索理论,研究并丌发出大量的互联网信息搜索工具。 有针对f t p 资源的a r c l l i v e ,针对g o p h e r 资源的v c 粕n i c a 和j u gh e a d 等。随着万维网 技术及产业的发展,针对万维网资源的搜索引擎和网站目录成为网络信息搜索工具中 的主流1 1 捌。 搜索引擎的工作原理是通过网络蜘蛛( s p i d e r ) 或网络爬虫( c r a w l e r ) 程序,自动分析 网页中的各种链接,根据链接地址下载页面,然后又分析下载页面中的各种链接,依 次迭代【3 】。对下载的页面,按照一定的规则和算法加以分析整理,如排序、建立索引 等,然后存入数据库。这类网页被称为可索引的页面( p u b l i c l yi n d e x a b l ew 曲) ,又被称 为表层网( s u r f a c ew e b ) o 引。 根据上面所述的原理,有几类页面是搜索引擎无法搜索到的【5 】: ( 1 ) 可搜索数据库( s e a r c h a b l ed a t ab a s e ,s d b ) ,即可进行搜索的网络数据库,又 叫w 曲数据库( w 曲d a t a b a s e ,w d b ) 6 1 。可搜索数据库一般由三层结构组成,分别是 客户端、数据库和服务器端。客户端向用户提供一个可视化的搜索接口,供用户输入 查询参数,并以友好的形式展示查询结果;数据库端存储相关数据,向服务器端提供 查询接口;服务器端将用户的查询请求递交给数据库,并将数据库查询结果生成动态 网页返回给用户i7 1 。 ( 2 ) 需要权限认证彳。能获取的信息。 ( 3 ) 未被其他网页链接的网页( u n l i n e dp a g e s ) ,也叫孤立网页,即没有被其他任何 网页链接。 北京化工大学硕士学位论文 ( 4 ) 非h t m l 网页( n o n - h t i i l lp a g e s ) ,除h t m l 网页以外的一些文件,可执行程序、 声音视频等多媒体文件。 以上4 种类型的网页组成了广义的深层网( d e e pw 曲) f 8 1 。深层网这个概念最初由 j i l le l l s w o r t h 博士于1 9 9 4 年提出,当时称为隐形网( i n v i s i b l ew 曲) 。但真正意义上的深 层网研究起始于1 9 9 8 年,当时两位美国信息管理专家l 删c e 和g i l e s 提出开发深 层网信息资源的想法。在深层网领域颇有作为的公司于2 0 0 1 年公布的一份白皮书中 首次用“深层网 代替“隐形网”一词,且把深层网定义为:保存在可搜索数据库中, 只能通过直接查询数据库才能获取的资源【9 1 。 1 2 深层网的现状 与表层网相比,深层网蕴藏了更加丰富,更加“专业 ( 专注于某一领域) 的信息。 在2 0 0 0 年7 月,b r i 出p l a n e t 对深层网做了一次较为全面的宏观统计,发布了d e 印w 曲 的白皮书( 在该文中b n 曲印l 锄e t 对深层网的定义主要指的是网络数据库) ,指出整个网 络上大约有4 3 0 0 0 9 6 0 0 0 个w e b 数据库,并从宏观上对深层网做了定量的统计调查 【l o l ,下面列出其中部分的调查结果: 深层网包含的信息量是表层网的4 0 0 5 0 0 倍; 对深层网数据的访问量比表层网要高出1 5 ; 深层网包含的信息量比表层网的质量更高; 深层网的增长速度要远大于表层网; 超过5 0 的深层网的内容是特定于某个域的,即面向某个领域。 2 0 0 4 年4 月,u i u c ( u n i v e r s i t yo fi l l i n o i s ea tu r b a n a nc h 锄p a i 盟) 大学对深层网作 了一次较为准确的估算】,推测整个网络上有3 0 7 0 0 0 个提供网络数据库的网站, 4 5 0 0 0 0 个网络数据库。这个结果比b r i 曲t p l a l l e t 公司在2 0 0 0 年估计的5 0 0 0 0 个数据库 网站增长了6 倍多。而且凭着提供网络数据库网站的增长势头,到目前为止,提供网 络数据的网站应该远大于4 5 0 0 0 0 个【1 2 】。 深层网中的网络数据库不但数量众多,而且覆盖了现实世界的各个领域一些专 门的机构,像c o m p l e t e p l a n e t 和i n v i s i b l e w 曲等,构建了深层网目录,按现实世界的 领域对深层网的内容做了分类,主要包括商业与经济、计算机与互联网、新闻媒体、 娱乐等一共十几个分类这只是宏观的分类,每个分类下面还有小的分类,比如科学 可以继续分为社会科学与自然科学,而自然科学又可分为若干学科【”】在表1 1 中可 以看出,尽管这些网站对网络数据库进行了细致的分类,但所列出的网络数据库仅仅 只是整个网络数据库的很小的一个比例( 即使最大的c o m p l e t e p l a n e t 也只有1 5 6 因。 此从宏观上对网络数据库按现实世界的领域分类做一个定量的分析是十分迫切而且 第一章绪论 必要的工作【1 4 1 表1 1 深层网目录的覆盖率 t i a b l el - lt h e c o v e r a g eo fd e 印w 曲d i r e c t o 哆 目前,从网络数据库中获取信息,用户首先需要填写网页上的表单,然后提交查 询,后台服务器获得用户的请求后,执行相应的查询,根据得到的结果动态生成页面 并返回给用户。深层网数据集成的目的是为用户建立一个统一的访问途径来自动获取 分布在互联网上的深层网中的信息【l5 1 。目前,深层网数据集成的研究主要集中在以下 方面:网络数据库的发现、查询接口模式的抽取、网络数据库的分类、查询接口的集 成、网络数据库的选择、查询的转换、查询的提交、查询结果的抽取、查询结果的注 科1 6 1 。 对深层网信息的访问是通过在查询接口上提交查询,这和对搜索引擎的访问在某 种程度上来说是相似的,但深层网数据和搜索引擎二者之间是有着很大区别的: ( 1 ) 搜索引擎搜索结果是网页,而深层网中的搜索结果主要是结构化的数据。 ( 2 ) 网络数据库通常有复杂的接口,而搜索引擎的接口较为简单,一般是关键字搜 索 ( 3 ) 搜索引擎对结果的排序是根据搜索结果与所提交查询的相似性,网络数据库则 是根据结果中对深层网中信息的获取主要的途径是通过某个属性的值。 到目前为止,人们对深层网数据集成已经作了大量的研究,所提出的一些深层网 数据集成系统还尚属于研究性的原型系统,因此至今还没有一个实际应用的深层网系 统【1 6 17 1 。深层网研究中的大部分工作还处于探索性阶段,很多问题还有待解决。 深层网随着网络数据库在网络中不断大量的涌现,对网络数据库进行大规模集成 的研究成为一个非常迫切的问题。至今,人们在深层网领域已经作了大量的研究,也 提出了各种方法解决特定问题【l 出1 9 】。 深层网的研究已经和很多其他学科相互交叉。文献在解决深层网动态查询问题的 过程中,采用了语义分析和统计的方澍2 0 1 。 在基于网页上下文的深层网数据库分类中提出,从训练样本中找出领域和语言知 识,并采用分层模糊集合对应的有向图来表示这些知识。并在此基础上,给出把语义 相似的数据库属性标记词用代表元替换的算法【2 1 之3 1 。 1 3 选题及主要研究内容 北京化工人学硕上学位论文 1 3 1 课题研究意义 此课题的研究意义主要有以下两点: 1 ) d e 印w 曲相对于s u r f a c ew 曲蕴含更大的信息量;d e 印w 曲相对于s u r :f a c e w 曲获取的信息价值更高、质量更优、结构化更好。 2 ) 主流的传统搜索网站对于单一查询项进行分词,拆分成某一个或多个关键字, 通过索引库查询到网络爬虫抓取相关的网页。这种方式忽略了网站自身的高级搜 索页面的作用,获取的信息具有大量冗余,而且缺乏针对性。 因此设计一种借助d e 印w 曲的方式,利用网站自身的高级搜索功能,对高级搜 索页面的表单进行动态填充,对结果关联度进行排序。这种方式获取的信息往往比主 流传统搜索网站更具有针对性,冗余率更低。本文针对图书销售网站进行研究,设计 一种对多数图书销售网站都适用的动态搜索的方式。 本文的创新点是:实现网站的搜索页面的表单动态填充,基于表单项前的文字信 息反映表单项的所要输入项的特点,提出一种利用网站已有的高级搜索页面,通过 s a x ( s i m p l e a p if o r l ) 方式解析该页面的表单,而非前人大量采用d o m ( d o c 啪e n t o b j e c tm o d e l ) 解析方式,避免大量无用信息的解析,提高解析速度。利用解析后的表 单与关键字字典进行匹配,计算表单项权值的策略,实现表单的动态填充,同时解析 结果对其进行加权排序。 本文提出一种新的思路,对于同一类型的多个网站,充分利用网站自身搜索引擎 进行针对该类型网站的搜索,相对于传统搜索网站,搜索到的信息更具体,更有针对 性。根据其他不同类型的网站建立相应的字典,便可以对其类型的网站进行搜索。 1 3 2 主要工作 本文针对d e 印w 曲信息,引入图书网站高级搜索页面,对其表单动态填充开展 研究,并设计了一个表单动态填充的实时搜索系统。该系统解析候选网站的高级搜索 页面,利用关键字字典对f o m 的表单项进行解析加权处理,从中选择权值最大的f o 咖 进行表单填充;利用表单填充的结果获得搜索结果页面,采用人工干预的方式解析搜 索结果页面,生成一系列的搜索结果信息对象;将搜索结果信息对象按照自定义的排 序规则进行排序,最后结果按照统一的显示格式展示给用户。 论文的主要研究工作包括四个方面的内容,总结如图所示。 4 第一章绪论 图l - l 课题研究 :作不意图 f i g 1 一ls c h 锄a t i cd i a g r a mo fm er e s e 砌w o r k 研究内容1 :表单动态填充算法 表单动态填充是通过对候选图书网站的图书搜索页面进行f o 册表单解析,从一 个或多个f o 肌选择最合适的f o m 表单进行填充。对于多个f o 肌表单的情况,系统 会对每个f o n n 表单建立一个线程来解析表单,根据字典计算权值,比较f o n l l 表单的 权值,选出权值最大的f o 肌表单进行填充,同时对于命中的字典项动态修改其命中 次数,利于字典中命中率较高的关键字能够迅速进行匹配。 在表单动态填充的过程中,利用解析f o 衄表单输入项的n 锄e 属性,与f o m 表 单的a c t i o n 属性联合生成f o 肌表单的原生u r l ,将用户提交的查询参数进行编码, 替代原生u r l 中的输入参数生成实际提交的查询u r l 。 研究内容2 :结果页面解析 各个网站搜索结果页面的展示形式和风格不同,针对这种差异,需要采取特定的 解析策略。目前广泛使用的有两种方式:通过自学习人工智能的算法进行解析,但这 种方式需要花费大量时间进行前期学习以进行泛化,而且对于部分h t m l 标签不规范 的页面可能学习效果很差;通过人工干预的方式对结果页面进行解析。 本文采取第二种方式,对结果的解析进行人工干预。首先需要预先了解并熟悉图 书网站的搜索结果的展示页面的h t m l 标签结构,将这种标签结构进行抽象提取,利 用抽象提取出来的标签进行解析获得图书信息对象的链表,完成结果解析的前半部分 的操作。 研究内容3 :结果项排序 对于结果页面解析出的结果项进行排序,主要考虑的因素是该类似图书在不同网 站的出现频数和在各个网站的排序顺序。两个因素同等重要,都可以反映出图书受欢 迎的程度和销售情况,因此采用等值加权排序法。 北京化,t 大学硕士学位论文 1 4 论文组织和安排 “”,”,*,r 第一章绪论 , 遵蠢研究青景 物诺每辔娩,移彩糍鳓0 发聂曩姨 批辘毪壤+ 站矿鬣? 褥4 铝嚣, 研究主要 喜 i :,?。o ? 铝绺,:馥i,。“m 镶毋 畸 j r 7 第二章杏诲揍口相关:技术分析 i壹匈接口雏取技术i 。 语义分圻方选 一* 黼m 碱一 $ 错v 壹由接口匹配技术 ? :i 锄? 。i 一? 嬲织1 一一十s ,巍 上 辔,j 巧: 第兰章系统设计宴现 “ a 节 总忙结均 q * z # ”m # * 磕计宴爰 l + f 0 珊老苹填克 结果页面解忻结警厦掬宇 : 上 4 j ”。+ ,_ 第四章系绕测试 。 测试辱墟 、 “一吩一 “? ld 融啪妒士 系绩功诗试 上 箩 77 :筇五章结论展望 图l - 2 论文组织安排示意图 f i g 1 2s c h 锄a t i cd i a g r a mo ft h e s i so 唱a n i z a t i o n 图1 2 描述的是论文的组织结构,全文共分五章,第一章绪论简要介绍了课题所 研究内容的国内外研究现状和存在的问题,介绍了论文的课题背景、意义、主要内容 以及论文安排。第二章主要分析本课题重点部分查询接口相关技术。第三章介绍了本 系统的总体架构和算法设计实现:3 2 1 详细介绍了解析f o m l 表单动态填充表单的过 程,对应研究内容1 ;3 2 2 详细介绍了解析结果页面的算法实现,对应研究内容2 ; 3 2 2 详细介绍了结果项排序的算法实现,对应研究内容3 。第四章分别对算法和系统 进行了实验与结果分析。对算法的实验主要包括单元功能和表单项填充覆盖率测试; 对系统的实验主要包括:测试系统的各项功能是否正确,测试系统的单元功能是否实 现。 6 第二章查询接口相关技术分析 第二章查询接口相关技术分析 本文的重点是如何对于查询接口( 网站高级搜索页面) 进行匹配,因此本章分析现 今d e 印w 曲集成系统中采用的查询接口相关技术,其中包括查询接口抽取、语义分 析方法和查询接口匹配算法。 2 1 查询接口抽取技术 d e 印w 曲查询接口抽取是查询接口匹配的前提条件,模式抽取的好坏直接影响 查询接口匹配结果。为便于计算机充分理解接口的模式,需对接口进行形式化描述, 指定机器识别的查询接口抽取规则。在大多数d e e pw 曲系统中,查询接口一般主要 是h t m l 页面表单,因此接口抽取的主要对象是h t m l 表单控件和其关联的文本信 息【2 4 捌。 囵= 二= 口 图2 1 只有一个文本输入域的查询接口 f i g 2 1t h es e a r d li n t e r f a c eo fo n l yo n et e x tf i e l d 厂- 陋强圆 图2 2 简单搜索表单常见形式 f i g 2 2t h eu s u a lf o 肋a to f as i i i l p l ef o m 书名: 著译者: 出版社: i s b 群: 折扣: 定价: 当当价: 出版时间: 上架嘲固: 二二二:二二二:二:j 二二二二二 二二二二二 l 。一j 匦蜥匠二 至二 r 一 一一。 l :至 j 圈年 习月一囹年 围月l 到年l 刊月一l毯1 年l 蝤月 厕卿每贮 口困匡圃 图2 - 3 常见高级搜索页面 f i g 2 3as a m p l eo f a na d v a n c e ds e a r c hp a g e 由图2 1 、2 2 和2 3 列举出查询接口常见形式,可以将三个图作为典型的案例, 北京化工人学硕士学位论文 分析出查询接口的一般特征。从查询接口的展现形式来看,查询接口的排列相对有序, 查询接口文本属性节点和查询接口的位置关系相对稳定,大致可分为3 种情况: ( 1 ) 文本信息在查询接口之前,文本信息的作用是指明查询接口输入信息的内容 范畴; ( 2 ) 文本信息在查询接口中,文本信息的作用是表明该查询接口的具体内容,该 查询接口一般为s e l e c t 标签; ( 3 ) 文本信息在查询接口之后,文本信息的作用有两种:一种是提示信息,说明 查询接口输入信息的格式或者注意事项;另外一种是表明查询接口的具体内 容,该查询接口一般为r a d i o 和c h e c l ( b o x 标签。 d e 印w 曲查询接口抽取多数基于d o m 模型解析查询接口,查询接口集合可以抽 象定义成如式( 2 1 ) 所示。 s 1 8 = f f 锄m ,妇e l ,舭蜕扯峨喊盈嗍,叫,沏蜘嗍慨,峭,叱, 渊l :,踟叼) ) ) 式 其中,f o m 元素表明查询接口( f o m 表单) 的相关属性,u r l 属性表示该查询接 口所在页面的u r l 地址,c h a r s e t 属性表明该查询接口页面所采用的编码字符集, m e t h o d 属性指明f o m 表单提交的方法,a c t i o n 属性指明f o m 表单提交的u r l 地址, t y p e 属性指明f o m 提交所采用的编码方式;t a g s 元素指明该查询接口中的文本域集 合,不包含s e l e c t 标签的文本域,t a g s 中所含文本的数量为n ;c o n t r o l s 元素指明该查 询接口中的h t m l 标签集合,t y p e 属性表明标签的类型,n 锄e 属性设定标签的标识, v a l u e 属性设定标签值,孩子控件集合只对s e l e c t 标签有效,孩子控件集合即o p t i o n 标签集合。 d e 印w 曲查询接口抽取基于d o m 模型解析一般遵循如下两个规则【2 8 】: ( 1 ) 规则1 h t m l 控件标签除简单标签外,都有开始标签和结束标签。标签之间可以嵌套, 但不可以镶嵌。非特定解析标签如果不包含子节点标签,将不进行解析。特定解析标 签将作为一个整体被解析,特定解析标签包含文本域、文本输入框、单选按钮、多选 按钮、隐藏域、下拉框。 ( 2 ) 规则2 对于文本域的处理采用本规则。对非表意信息进行过滤处理,这些非表意信息主 要是h t m l 注释和特殊符号,如“ 、“:”和“、 等。如果文本长度大于某一定特 值时,该文本信息将被忽略,该特定值主要取决于该领域词典中最长词条的长度。 运用以上两个规则进行解析,将解析结果生成式( 2 1 ) 数据模型。 基于d o m 方式解析页面需要对h t m l 页面所有内容进行加载,从规则1 可以发 现解析过程中关心的属性标签可能只占整个h t m l 页面标签很少的一部分,会消耗大 部分内存空间存储冗余性信息。因此需要对其他冗余标签作为非结构化特征数据进行 第二章查询接u 相关技术分析 过滤,此项预处理工作为了减少接口匹配时的工作量。 2 2 语义分析方法 语义分析是查询接口匹配的理论基础,下面主要介绍三种语义分析方法【2 9 3 0 】: ( 1 ) 基于编辑距离的方法 在计算词汇之间的相似度研究中,有一种方法是基于字符串的编辑距离。编辑距 离就是用来计算从源字符串s i 转换到目标字符串s i 所需要的最少的操作数,可以进行 操作包括插入,删除和替换三种。此类问题采用经典的动态规划算法进行求解。设 d i s t a n c e ( s i ,s j ) 为s i 和s l 之间的编辑距离,基本操作有三种:( 1 ) 把串s i 中的一个字符替 换串s i 中的一个字符;( 2 ) 把串s i 中的一个字符删除;( 3 ) 在串s i 中插入一个字符。这三 种基本编辑操作的代价为l 。基于这种思路,以编辑距离为基础,将编辑距离演化为 值在【o ,1 区间的相似度算法形式。 ( 2 ) 基于词典的方法 在基于词典的模型中,词典可以被看作一个封闭的自然语言解释系统,每个词 条都被解释为词典中其它的词条。可以做如下假设:两个词条所含有的被解释词条集 重叠程度越高,则表明这两个词条越相似。基于以上假设将词条分解成解释该词条的 其他词条,将其他词条再进行解释,建立词条解释树,通过两个词条的词条解释树节 点进行重合计算,可以获得这两个词条的相似度。 ( 3 ) 基于语义网络或本体的方法【3 l 】 q u i l l i a l l 针对人类联想记忆进行大量研究在此基础上应用心理学模型解析语义 案例,首次提出语义网络( s e m a n t i cn e t w o r k ) 。1 9 7 0 年s i i l l m o n 正式提出了语义网络的 概念。 语义网络是构建在图论的基础之上,图中的节点表示一个语义实体,节点之间的 “边”指明实体之间的关系。本体与语义网络都采用知识作为其表示形式,都可用图 论中的有向图来阐述实体间的关系,有向图可以被计算机识别,从而可以进行大量语 义数据的逻辑建模和关系推导运算。 2 3 查询接口匹配技术 目前,查询接口匹配技术大致可分为两类【3 2 彤】:基于模式的匹配和基于实例的匹 配。d e 印w 曲查询接口的模式都是独立的,为了集成它们,必须对查询接口中各属 性元素的语义进行匹配,基于模式的匹配主要考虑查询接口模式的标签信息;基于实 例的匹配主要通过考虑查询接口模式的实例信息,来进行属性的匹配。两种方法都有 9 北京化工大学硕士学位论文 很好的效果,但也存在不足之处【3 4 。5 1 。 2 3 1 基于模式的匹配技术 基于模式的匹配主要介绍以下两种方法:统计模型方法、基于语料库的匹配方法 和基于聚类的交互式方法。 ( 1 ) 统计模型方法 统计模型方法是一种基于概率统计学的全局性评价体系。在对d e 印w 曲的研究 中,了解到两个特点:第一,不断增加的资源;第二,具有聚合趋势的词表。经过大 量统计分析可以发现,随着数据资源的不断扩充,他们的词表集趋向更加明显,这就 说明同类数据资源有一些共有的属性词汇。由此可以说明,在一个相对狭小的范围内, 同一领域模式词表源总会聚集趋向集中。 ( 2 ) 基于语料库的匹配方法 基于语料库的匹配方法( c o 印u s - b a s e d ) ,事先准备对应领域的语料库,通过收集各 领域模式属性的多个同义表达方式,建立其基本映射关系。通过已知的映射属性关系 集合来构建新的增强型模型来实现更精确的匹配。这种增强性的方法基于语义分析, 通过已获知的其他元素的语义分析树为源元素建立了联系,相对于其他匹配模式有更 高的匹配精度。 ( 3 ) 基于聚类的交互式方法 基于聚类的交互式方法( i i l t e r a c t i v ec 1 u s t 甜n g - b a s e d ) 针对查询接口富含结构信息 特性,把查询接口看作具有层次关系的有序树。查询接口中的一个属性标签位于元素 叶子之上,内部元素可以看作一系列属性元素,兄弟元素拥有相同父节点。这种查询 接口匹配模式结构可以转化成一棵语义有序树。在此数据模型的基础上通过构建语义 对应关系的方式对查询接口的属性实现更准确的匹配聚类。针对复杂匹配模型1 :m 的形式,可以把映射类型分为:聚合和继承两种类型,而且用户可以根据自身的领域 不同对配置进行交互式修改设置。这种交互式修改,对于一些不确定属性匹配有非常 好的效果,比如同名异义、同物异名等。 2 3 2 基于实例的匹配技术 针对利用标签的语义匹配会出现误匹配和漏匹配的情况,借助属性的数据实例来 加强匹配的精确度,在查询接口模式、结果模式之间的匹配中可以有很好的匹配效果, 根据实例来源的不同,分为基于w 曲实例的模式匹配和基于可搜索数据库实例的模式 匹配。 1 0 第二章查询接u 相关技术分析 ( 1 ) 基于w 曲实例的匹配 这种方法是一种自动从表层网和深层网的查询接口上发现实例进行匹配的方法。 首先,从表层网上将查询接

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论