(计算机应用技术专业论文)基于信息抽取的比较购物垂直搜索的研究与设计.pdf_第1页
(计算机应用技术专业论文)基于信息抽取的比较购物垂直搜索的研究与设计.pdf_第2页
(计算机应用技术专业论文)基于信息抽取的比较购物垂直搜索的研究与设计.pdf_第3页
(计算机应用技术专业论文)基于信息抽取的比较购物垂直搜索的研究与设计.pdf_第4页
(计算机应用技术专业论文)基于信息抽取的比较购物垂直搜索的研究与设计.pdf_第5页
已阅读5页,还剩78页未读 继续免费阅读

(计算机应用技术专业论文)基于信息抽取的比较购物垂直搜索的研究与设计.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

i 一 l l l l l i l l l 舢1 1 1 1 1 0 嗍l l l l f l y 18 2 4 6 9 6 , 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研 究成果。据我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他 人已经发表或撰写过的研究成果,也不包含为获得重迭整鱼太堂或其他教育 机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡 献均已在论文中作了明确的说明并表示谢意。 警论文作者签名砸缉签字嗍唧等朔? 瑁 学位论文版权使用授权书 , 本学位论文作者完全了解重庆邮电太堂有关保留、使用学位论文的规 定,有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查 阅和借阅。本人授权重废邮电太堂可以将学位论文的全部或部分内容编入 有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论 文。 7 ( 保密的学位论文在解密后适用本授权书) 学位论文柘者签依 签字呼叼年r 月2 ,蝈 导师签名:修寿傻铆 签字日期:。2 唧年j - 月少阳 l j 摘要 摘要 随着m e t 的飞速发展,w | e b 的信息量越来越大,通用搜索引擎将面临信息 采集、检索等方面更大的挑战。随着电子商务的蓬勃发展,网上商品的交易越来 越频繁,更多的消费者通过搜索引擎来寻找和购买在线产品,但是用户常常难以 快速、准确地从海量信息中找到自己所需的且可比较的信息。为解决这些问题, 比较购物垂直搜索应运而生。 本文旨在通过w e b 信息抽取、中文分词、信息融合等相关垂直搜索技术对网 页信息进行处理,使计算机能够自动完成商品信息抽取和融合,最后呈现给用户 一个完整的商品信息视图,提供一个初步的比较购物垂直搜索系统模型。它有助 于提高信息抽取自动化程度,监控竞争对手的市场策略,以及衍生新的商业模式。 本文针对网页噪音和网页非结构化信息抽取模板生成复杂度高的问题,提出 一种基于模板的快速网页文本自动抽取算法。该算法对网页噪音预处理,将其 d o m 树结构进行标签h a s h 映射,通过自动训练的阈值快速判定网页的主要部 分,根据数据块中的嵌套结构获取网页文本抽取模板。然后使用网页文本主题分 析和正则模板匹配等技术,实现一套针对商品信息的在线抽取方法。 为了增加商品垂直搜索的准确性,维护日益更新的商品名词,本文提出了基 于主题的自适应的分词方法,使用候选词典和专业词库来指导分词和歧义消除, 能有效地提高专业领域中分词的准确率。 本文进行了系统的总体设计、数据库表结构设计;对关键模块的设计引入 ( p l u g i 1 1 ) 机制;并结合一些开源框架对部分系统模块和底层时序调度进行实现。 文中介绍了主要模块的实现细节,并根据抽取的商品信息属性,提出相应的数据 融合策略。最后以图书商品为例进行了系统运行实验。实验运行结果表明:本文 相关算法和设计是可行的,系统能够完成初步的设计目的,为进一步的扩展打下 基础。 关键词:信息抽取,非结构化信息,自适应,数据融合,比较购物垂直搜索 a b s 仃a c t a b s t r a c t w i m 恤r a p i dd e v e l o p m e mo f m ei n t e m e t ,也e 锄。眦ti n f b 皿a t i o n0 f w e b 谢1 lb e l 盯g e r g e n e r a ls e a r c he n g i n e 谢l lf a c eg r e a t c rc 1 1 a l l e n g e s ,s u c h 勰i n f o m a t i o nc o l l e c t i o 玛 r e t r i e v e a tm es 锄et i i n e 一嬲n l er 蜀l p i dd e v e l o p m e n to fe - c o m m e r c e ,o 芏1 l i n e 缸a d i n go f g o o d sa r cm o r ea n dm o r e 厅e q u e n t ,m 砒1 yc o n s u m e r st l l r o u g hs e a r c he i 培i n e st 0f i n da n d b u yp r o d u c t so l l l i n e ,b u ti su s u a l l yd i m c u hf o ru s e r st 0q u i c l 【l y 锄da c c w a t e l yf 如ma c o m p l e xm a s so fi r 面姗a t i o n 丘n dc o m p a r a b l ei n f 0 m a t i o nw 量l i c hm e yn e e d t os o l v e n l e s ei s s u e s ,c o m p a r i s o n - s h o p p i n gv e n i c a ls e a r c h 锄ei n t ob e i n g t i l i sa n i c l ei sf 0 rm ep l = i r p o s eo fc 龇r y i n go np r o c e s s i n g 也ew e bi 1 1 】白r m a t i o n 廿l r o u 曲w 曲i i l :f 加m a t i o ne x 臼徼t i o i l ,c l l i n e s ew o r ds e g m e m a t i o 芏1 ,d a t am s i o n 锄d 硎h e r r e l a t e dv e n i c a ls e a r c ht e c h n o l o g y ,e n a b l e st l l ec o m p u t e rt 0b ea b l et oc o m p l e t e 廿l e c o m m o d i 够i n f o r m a t i o ne x t m c t i o n 龇l d 咖如s i o na u t o m a t i c a l l y ,f m a l l yp r e s e m sf o rt 1 1 e l l s e ra c ! o m p l e t ec o m m o d i 够i i l f o m l a t i o nv i e wp r o v i d e s 也ep r e l i i i i i i l a r y c o m p 撕s o n s h o p p i n g v e n i c a ls e a r c h s y s t e m m o d e l i tc a ne i l l 豫i l c ei i l f o m a t i o n e x 由r a c t i o na u t o m a t i c a l l y ,g a i nc o m p e t i t o rm a r k e ts 仃a t e g y ,觞w e l la sg e n e r a t e st h en e w b u s i n e s sm o d e l t t l i s 枷c l ep r o p o s e san e wa 1 ) p r o a c hf 0 r 豫p i d l ya c c e s s i i l g 廿l eu n 咖t i l r e d i o 姗a t i o nr e 仃i e v et c m p l a t c ,i i lo r d e rt 0s o l v ew e bn o i s e 锄dr e t r i e v et e :m p l a t e sf o r w e bu i l s 仇j c t u r e di i l 】疏a t i o ng e n e f a t e d1 1 i 啦c o m p l e x i 够p r o b l e m s t h em e t l l o df i r s t l l s e s 、bn o i s ep r e 仃e a t 】m e m ,d o mn e es n l j c t u r el a b e lh a s hm a p p i n g ,i na c c o r d a l l c e 诵n 1t 1 1 ea u 幻m a t i c 蛐g l r e s h o l dr a p i d l yd e t e n n i n e dt h em a i l lp 硼o ft h ep a g e ,a i l d t 1 1 e nf o u n dn e s t i n gs t l l j c t u r ei n 缸1 e b l o c k ,a c c e s st ot l l ew e bt e ) 【te x 任a c t e dt e m p l a t e s t h e n 廿l r o u 曲s o m em a _ t u r et e c 量l i l o l o g i e ss u c h 嬲n l ew e b p a g et e 斌s l 蛔e c t 龇1 a l y t i ca n d t l l e r c g u l a rt e m p l a t em a t c l l i n g ,p 帅l p o s e sas e t o fc o m m o d 蚵i i l _ f i o 胍a t i o no i l l 硫 e x n ? a c t i o nm e n l o d h l0 r d e rt oi i l c r e 嬲et t l e a c c u r a c yo fc o m m o d i 够v e r t i c a ls e a r c h ,m 砒咄l i n 也e u p d a t e db u s i i l c s sc o m m o d i t ) ,n a m e s ,t l l i sa r t i c l ep r o p o s e sn 地缸l a 州v es e g m e n t a t i o n m e n l o db 嬲e do nt o p i c ,t l l eu s eo fc 觚d id a _ t e sf o rm 旬o rd i c t i o m u r i e sa n dt 1 1 e s a u r l l st 0 鲥i ew o r ds e g m e n t a t i o na n d t oe l i l l l i 瑚【t e 锄b i g u i 吼砒l dc a ne 丘i e c t i v e l yi m p r o v et l l e f i e l do fm 旬o rm i d d l et e r n la c c u l a c y t 1 1 i s 枷c l el m sc 枷e do ns y s t e m sm o d l d ed e s i g l l ,t l l ed 乏也l b a s et a _ b l e 姗t u m l d c s i g n ;i l p o n e d 口l u g i n ) m e c l l a 越s mi i l t on l ek e ym o d l l l eo fs y s t e m ;觚dc o m b i i l e d a b s 仃a c t ms 伽o p e n s o u ef h m e w o r kf o rm o d _ u l a ri n l p l e m e m a t i o no fm es y s t e m 锄dt i l e s c h e d u l i r 喀o ft h eu n l c r l y i n gs t m c t i l r eo fn l es y s t c m i nm ea r t i c l e ,i ti n _ 拄o d l l c e s 廿l e i m p l e m e n t a t i o nd e t a j l so fm ek e ym o d u l e s ,b u ta l s 0a c c o r d i l l gt 0 1 ec o m m o d i 哆 i n f o m a t i o na t t r i h 【t ew i l i c he x 仃a c t s ,p r o p o s e s 也ec o 玎e s p o n d i n gd a 诅缸s i o n 蛐矧| e 量莎 f i i l 址l yi th a sc 蕊e do n 也es y s t e m so p e r a t i o ne x p e 面咀e m 诅k et h e 的o k sc o m m o d 蚵嬲 l ee x 锄p l e a ne x p e r i m e m s u l ts h o w 1 a t 廿l i sa r t i c l er c l a t e da l g o r i m ma n dt l l e d e s i g na r ef e 觞i b l e ;l es y s t e mc a na c l l i e v em ep r e l i n l i i m 巧d e s i g n9 0 a l ,锄db l l i l dt h e f o u i l d a t i o nf o rn l e 如r t b e re x p 锄峪i o n 一 一 1 ( e yw o r d s :i i l f o m a t i o ne x 仃a c t i o 玛u n s 伽j c t l l r e di n f o m a t i o 坞a d a m i v e ,d a :t af u s i o n , c o m p 撕s o n - s h o p p i n gv e l t i c a ls e a r c h i i l 目录 目录 摘 要:j ;i a b s n 锄c t i i i 第一章绪论:1 1 1 研究背景及目的l 1 2 国内外的研究现状2 。 1 2 1 信息抽取研究现状2 1 2 2 垂直搜索发展现状6 1 3 本文的主要工作7 1 4 论文体系结构7 第二章w 曲信息抽取及垂直搜索相关技术9 2 1w 曲信息抽取9 2 1 1w e b 信息抽取问题的描述9 2 1 2 信息抽取和信息检索的区别一l o 2 1 3w 曲信息抽取理论的形式化描述。1 0 2 1 4 信息抽取系统设计的方法及评价指标1 1 2 2 垂直搜索相关技术。:1 2 2 2 1 垂直搜索引擎概述1 2 2 2 2 中文分词技术13 2 2 3 主题判别理论研究现状l7 2 3 本章小结1 9 第三章基于模板的快速网页文本信息自动抽取算法2 1 3 1 引言2 1 3 2 相关工作2 2 3 3 基于模板的快速网页文本信息自动抽取算法j 2 2 3 3 1 算法相关定义2 2 3 3 2 算法描述2 4 3 3 3n 鹏s h o l d 的确定2 6 3 4 算法运行实验及分析小2 7 3 5 本章小结2 9 第四章基于主题的自适应分词31 4 1 候选词典31 4 2 专家知识库3 2 4 3a g i n g 技术3 4 4 4 基于主题的自适应分词算法3 4 4 5 分词效果测试3 5 4 6 本章小结3 6 目录 第五章基于信息抽取的比较购物垂直搜索的设计3 7 5 1 设计目标一3 7 5 2 系统模块设计3 8 5 3 系统数据库设计。:3 9 5 4 数据表关系相关定义4 3 5 5 本章小结4 3 第六章基于信息抽取的比较购物垂直搜索的实现4 5 6 1 开发平台及工具。4 5 6 2 系统实现及时序框架结构4 8 6 3 网页信息抽取模块4 9 6 3 1w 曲c r a w l e r ( w c ) ”4 9 6 3 2d a :t ac l a s s i f i e r ( d c ) 5 0 6 3 3s t r i l c t u r e di n f 0 锄a t i o np r o c e s s o f ( s p ) 51 6 4s e a r c he n g i n ec o r e ( s e c ) 5 3 6 5d a t a f u s i o np l u g - i n f p ) 5 4 6 5 1 系统信息融合的内容5 4 6 5 2 商品信息融合实现策略:5 5 6 6 系统运行实验5 7 6 6 1t h r e s h o l d 的确定和信息抽取实验”5 8 6 6 2 信息融合实验6 l 6 6 - 3 网页应用试验6 2 6 7 本章小结:6 2 第七章总结及未来工作6 5 7 1 总结。j 6 5 7 2 未来工作_ 。6 6 致谢”6 7 攻硕期间从事的科研工作及取得的研究成果6 9 参考文献7 1 v 第一章绪论 1 1 研究背景及目的 第一章绪论 随着n l e t 相关技术的发展与成熟,互联网规模日益扩大,i n t e n l e t 尤其是 w w w 逐渐成为人们发布和获取信息的常用平台。从网络上收集信息资源已成为 当今以至未来人们获取信息的重要手段。然而随着互联网规模的急剧膨胀,其信 息容量也正在呈几何级数飞速增长。w w w 是以超文本的形式呈现给用户,其中 包含了技术资料、商业信息到新闻报道、娱乐信息等多种类别和形式的信息。同 时,i n t e m e t 是一个具有开放性、异构性和动态性的全球分布式网络,资源分布分 散,且没有统一的管理和结构,使得要想从如此海量的信息中找到满足需求的部 分无疑是一项极富挑战性的工作。 搜索引擎服务能成为最受欢迎的服务是正是因为它解决了用户在浩瀚的互联 网海量信息中快速定位信息的瓶颈问题,但是,互联网的信息量呈爆炸趋势增长, 几年前全球式搜索引擎收录的网页量只有几千万页,而现在己经达到几十亿页【l j 。 数量增加带来的是搜索服务的火热,另一方面,也使传统的综合性搜索,如百度 和g 0 0 9 l e 的品质下降,搜索引擎在搜集网络信息上远赶不上网络信息的增长速度, 同时查询的结果集是海量的,经常是几十万笔的资料,看上去很好,想找到合适 的结果却比较难,搜索结果里存在大量的重复信息和垃圾信息,用户很难在短时 间内准确地筛选出需要的内容【2 j 。 一 随着电子商务的蓬勃发展,网上商品的交易越来越频繁,网民进行网络购物 过程中经常要查询商品的相关信息并且“货比三家”。根据g c o r g i a 技术研究院作的 调查:8 0 准备在网络上购买商品的顾客都使用搜索引擎找到他们需要的商品。从 搜索引擎的访问者来看,新用户比例很高,而且所有访问者均具有极强的针对性, 他们是主动找上你的网站的,所以他们对商业网站的价值也特别高。4 7 的消费者 通过搜索引擎来寻找和购买在线产品【3 】a 企业之间相互市场竞争需要了解竞争对手 的商业情报,知道竞争对手的销售策略和价格,因此需要能够呈现商品比较信息 的视图从而快速的制定相应的市场决策。面对这些新的需求,通用的搜索引擎无 法快速、高效的搜索到用户所需要的商品内容,于是,只能依靠新型的商品垂直 搜索引擎来满足这些新的专业需求。 针对以上问题,“基于信息抽取的比较购物垂直搜索的研究与设计”旨在通过 w e b 信息抽取、中文分词、主题判断、信息融合等相关垂直搜索技术对网页信息 重庆邮电大学硕士论文 进行处理,使得计算机能够自动完成商品信息抽取和融合,最后呈现给用户一个 可进行商品参数比较的垂直搜索模型,它能够取代大量的人力消耗,获取竞争对 手的市场策略,以及衍生新的商业模式。 1 2 国内外的研究现状 本文主要涉及w r e b 信息抽取和垂直搜索的相关技术,目前这两个方面是国内 外研究的热点,同时也公开发布了一些商用系统。 1 2 1 信息抽取研究现状 商品信息的抽取主要由信息抽取( i i 怕衄a t i o ne x n a c t i o n ,简称m ) 系统来完。 成。信息抽取是指从文本文档中识别出特定的目标信息或者数据,并将其形成结 构化的信息或者数据的过程。其过程能够从表达各异的文档中抽取出特定类型的 信息或数据,并且以统一的格式来描述,以便于对该类型信息作进一步的自动处 理,如数据之间的比较和数据的模式特征的挖掘等等。 信息抽取技术起源于8 0 年代末,兴起于9 0 年代,该技术的蓬勃发展主要得 益于消息理解m 砌c ,m e s s a g eu n d e r s t a n d m gc o n f e r e n c e ) 系列会议的召开。m u c 、 会议从1 9 8 7 年开始到1 9 9 8 年一共举行了七届,它由美国国防高级研究计划委员 会d 础( 吐l ed e f e 璐ea d v 锄c e dl 沁s e a r c hp r o j e c t sa g e n c y ) 资助。m u c 会议建立了 专门的术语,信息抽取最终的输出结果被称为模板( t e m p l a t e ) ,模板中的域称为槽 ( s l o t ) ,而把信息抽取过程中使用的匹配规则称为模式p a t t e m ) 【4 】。例如,从新闻报 道中抽取的结果模板中就可能是时间、地点、事件这三个槽。c 会议首先在会 前向参加者提供样例文本和有关的抽取任务说明,然后各参加者开发能够处理这 种消息文本的信息抽取系统。在正式会议前,各参加者运行各自的系统处理给定 的测试消息文本集合。由各个系统的输出结果与手工标注的标准结果相对照得到 最终的评测结果。最后才是正式的会议,公布各参与者的结果和排名,并提供机 会给参与者交流学术思想和感受。m u c 的七次会议从早期的m u c 1 对海军军事 情报的抽取到m u c 7 抽取任务越来越复杂,要求抽取结果要填充的槽也越来越多。 随着m u c 等系列的会议多年的推动下,信息抽取技术逐渐发展起来。 随着互联网的出现,万维网的发展和繁荣,信息抽取的研究人员逐渐将兴趣 转移到w 曲信息抽取的研究上。同时,其他如数据库、数据管理、数据集成、网 络信息处理等领域的很多研究人员也开始关注并研究w e b 信息抽取技术。近几年 来,在国际著名会议( a c ms i a 垤o d ,i e e ei c d e ,正e ew i s e ,v l d b ,i w 3 c 等) 2 第一章绪论 上面都发表了很多关于w e b 信息抽取技术方面的研究文章。 网页信息抽取程序( i i 曲皿a t i o ne 赃瞰t o r ) 也被成为包装器( w 蛹,p e r ) 0 5 1 ,用于从 特定的信息源中抽取相关内容,并以特定形式加以表示。在信息集成系统当中, 包装器是指把来自于不同数据源的异构数据包装成统一界面供用户调用的组件。 在包装器的帮助下,查询模块的逻辑在应用到不同数据源( 比如说不同的数据库) 时就不需要做大的修改。如果数据源是一个w r e b 服务器,包装器就需要通过h r r p 或者其它协议访问相应的服务器,然后从得到的可能是h n 札网页中抽取相关的 数据,然后再把这些数据与来自于其它数据源的数据集成在一起供用户查询。在 这整个过程当中,信息抽取是最关键的步骤( 如图1 1 所示) ,因此很多时候也把包 装器就称为是信息抽取【6 j 。 根据不同的标准可以把当前的网页信息抽取工具分成不同的类别,以下分别 按所采用的技术手段和自动化程度r 7 】把当前的工具和技术做一个分类阐述。 图1 1 包装器和信息抽取 幻按照采用的技术手段分类 随着需求的增加,人们提出了多种不同的技术来实现w e b 页面的数据抽取, 涉及到多个研究领域,譬如自然语言处理过程、语言和语法处理、机器学习0 信 息检索、数据库以及本体论等。这些技术之间有着非常明显的差异,处理能力和 适用对象也各不相同。下面把在包装器开发中采用的主要技术手段作为分类的依 据,对使用特定技术开发的典型系统及实现方法进行分析p ”。 面向包装器开发过程而设计的语言 包装器语言是一种特定的抽取和包装应用逻辑语法描述规则的集合。由于面 向半结构化数据的抽取和包装过程涉及到特定的应用领域,因此针对包装器开发 过程而设计的语言是对传统编程语言功能的一种扩展,对于包装器的开发过程非 重庆邮电大学硕士论文 常有效,并被广泛采用。例如m m e r v a 【羽、t s m 日订i s 【9 1 、w 曲o q “1 0 1 和h e n l e t s o 船 o t s 【1 1 1 。 一 基于h n 札结构特征的工具 这类工具充分利用h n 血文件所固有的结构特征来实现数据抽取任务。在数 据抽取过程之前,先将文档转换为一个反映出h n 札文件中标记所处层次的解析 树;然后通过自动或者半自动的方式生成抽取规则,并将规则应用于解析树上。基 于这种方式的代表性系统包括w 4 f 【1 2 1 、x w r a p 【13 1 、r o a d r l m n e r 【1 4 1 和l i x t 0 【15 1 。 基于自然语言处理的包装工具 这类工具借助了自然语言处理技术( n l p ) 来归纳数据抽取规则,对符合自然语 言规则的文档的数据进行抽取。这些工具通常使用包括过滤、词性标注在内的自 然语言处理技术来建立短语和短语之间的关系,进而获得抽取规则。所产生的抽 取规则通常基于语法约束和语义约束。因此,基于自然语言处理技术而实现的抽 取工具更加适用于由符合语法规则的文本构成的h n 札文档,如用列表形式表示 的求职信息页面等。使用n l p 且面向h n 以l 文档的代表性工具包括p a p 正r 1 1 6 1 、 s r v 【1 7 】和w h i s k 【1 引。 、 包装器归纳工具 包装器归纳工具通过对一系列训练样本文档的分析,归纳得到基于定界符的 抽取规则。这类工具与基于自然语言处理的工具之间的主要差别在于前者并不依 赖于语言约束,而是依据半结构化文档中的格式化特征形成抽取规则。与基于自 然语言处理的包装工具相比,这类工具更加适合于h n 他文档,代表性的工具包 括w _ n 【1 9 1 、s o f i m e a l v 【2 0 】和s t a l k e r 【2 1 1 。 基于建模方式的工具 这类工具的实现方式是定义出所需抽取数据对象的结构,系统对源文档进行 搜索,查找符合这种结构的数据片段。数据结构的定义通过符合一种特定的数据 模型的建模原语完成,例如元组、列表等形式。这种类型的典型工具包括n o d o s e 【2 2 】 和d e b y e 【2 3 1 。 基于本体的工具 前面介绍的这些技术均基于内容数据在文档中的表示特征来生成抽取规则或 抽取模式,而基于本体的工具则直接依赖于内容数据本身完成。针对一个特定的 领域应用,一个本体可以被定义并用于对出现在文档中的常量进行定位,同时完 一成本体对象的封装。基于本体的方法首先需要本体的领域专家进行手工建模,在 本体模型建立后,数据的抽取就可以实现自动化,且具有很好的适应性。最具有 代表性的工具是由b r i 曲a my ,o 眦g 大学的数据抽取研究小组开发的原型系统【2 4 】。 ”按照自动化程度分类 4 第一章绪论 除了按照主要技术手段分类,还可以从各种方法的自动化程度来看,信息抽 取即包装器生成依照其自动化程度可以分为手工编写、半自动生成和现在正在研 究的全自动化生成三类。 。 手工编写包装器不仅要求用户有一定的编程水平,而且开发费时,维护难。 使用面向包装器开发过程而设计的语言生成包装器,基本上都需要手工编写代码。 基于自然语言处理技术、包装器归纳技术和基于建模技术的方法都是半自动的方 法,在这些技术中都不仅要求用户提供训练实例集,还要求用户对页面内容有一 定的先验知识,系统的适应性较差。 。包装器自动化生成的研究是现在的研究热点,人们已经提出了几种基于 h n 仉结构特征的包装器自动生成的方法。这些方法只要输入相应的网页就能够 自动进行分析和生成包装器,并且将数据从网页中抽取出来,在整个过程中需要 用户干预的地方只是最后的数据结构的语义分析部分。采取这样的全自动方式, 大大减轻了用户的工作量,使得w e b 信息的抽取工作有了较大的进步。几种典型 的包装器自动生成系统和方法有r d a d r u n n e r 【1 4 1 ,e x a l g f 2 5 1 ,d e l a 嘲,m p a d 【2 7 】 等。 上两部分所述的不同技术可以从自动化程度,是否支持复杂结构的抓取,是 否支持帆输出,是否支持非h 刑l 抓取等方面进行比较,如表1 1 各种工具的 比较: 表1 1 各种工信息抽取工具的比较 工具 自动化程度是否支持复是否支持是否支持 杂对象x m l 输出h n 仉抓取 面向包装器 m i n e r v a 手工需要编码是部分 开发过程而t s i m m i s手工需要编码否部分 设计的语言 w 曲o q l 手工需要编码否否 基于h t m lw 4 f半自动需要编码是否 结构特征的x w r a p自动 是是 否 工具r o a d r u i m e r 自动是否 否 基于自然语 w h i s k 半自动 否否完全支持 言处理的包 r a p i e r 半自动否否完全支持 装工具s r v半自动否否完全支持 包装器归纳 w l e n 半自动 否否 部分 工具 s o f 【1 e a l y 半自动部分否部分 s t a l k e r 半自动是 否 部分 基于建模方 n o d o s e 半自动是是部分 式的工具 d e b y e 半自动 是 是 部分 基于本体的 b y u手工 需要编码 否 完全 工具 重庆邮电大学硕士论文 1 2 2 垂直搜索发展现状 目前搜索引擎正处于高速发展的阶段,其总体发展趋势如图1 2 : 图1 2 当前搜索引擎的总体发展趋势 2 0 0 7 年,中国互联网搜索领域随着w e b 2 o 以及电子商务的兴起。在互联网大 鳄的身边,各类垂直搜索引擎正悄悄地圈地发展,意图从百度、g o o g l e 、y 曲0 0 嘴 里分一杯羹,我们可以看出这些有各类背景的垂直搜索引擎的发展,不但将影响 搜索大鳄的市场,更将影响中国人的习惯和发展。典型的如:l 、以奇虎 w w w q i h o o c o m 为代表的论坛搜索;2 、以酷讯唧w k o o x o o c o m 为代表的生活搜 索;3 、以音速嗍2 5 8 c o m 为代表的商业搜索;4 、以去哪儿q 啪跹c o m 为 代表的旅游搜索;5 、以搜职嗍g l o b e h l c o m 为代表的招聘搜索;6 、以顶九 、 v w d i n 9 9 c o m 为代表的比价搜索;7 、以视频搜索w w w o p e n v t 、,为代表的娱乐搜 索。可以看出,搜索己经不再只是单纯地搜索网站页面,而是越来越细化,越来 越有针对性。专业搜索服务越来越受到大家的欢迎,也是各大搜索引擎公司的重 点。 目前在国外,有关新一代搜索引擎的研究也早已成为一个热点,下面介绍一 下具有代表性的系统。 1 ) s c i m s 是面向科技文献的一个垂直搜索引擎,它的信息源主要包括网页和期 刊两部分。它首先对网络中所搜索到的结果进行过滤,然后只列出包含有科学信 息的成分,方便了科研人员的使用。 7 2 ) b e r k e l e y 的f o c u s e dp r o j e c t 系统通过两个程序来指导爬行器,一个是分类 器,用来计算下载文档与预定主题的相关度,另一个程序是净化器,用来确定那 些指向很多相关资源的页面。 3 ) 基于概念搜索的a s kj e e v e s 搜索引擎,它将用户提问转化为系统已知的问 题,在对提问进行结构和内容分析之后,或直接给出问题的答案,或引导用户从 第一章绪论 几个可选择的问题中进行再选择。用户只需输入简单的疑问句,如“w b a ti sm e m e 啦o ? ”,h o wc 觚id 0 ? 等旬式就能直接获得结果。 1 3 本文的主要工作 本文通过对w e b 信息抽取、中文分词、数据融合等搜索技术的深入研究和探 讨,提出了针对商品信息的在线抽取和数据融合方案,技术上实现一个垂直的比 较购物搜索系统模型。在论文的研究过程中,主要的工作内容有以下几个方面: 1 ) 提出一种基于模板的快速网页文本自动抽取算法,针对网页噪音和网页非 结构化信息抽取模板生成复杂度高的问题,对网页噪音预处理,将其d o m 树结构 进行标签h a s h 映射,通过自动训练的阈值快速判定网页的主要部分,根据数据 块中的嵌套结构获取网页文本抽取模板。 2 ) 对商品信息页面进行分析,依据商品网页中商品信息特点提出一套针对商 品信息在线抽取的方法。利用h 1 m l p a r s e r 和正则表达式等成熟的相关技术,对商 品信息进行匹配抽取,为后续的融合提供了数据基础。 3 ) 提出一种基于主题的自适应分词算法,该方法主要包括利用候选词典进行 分词、基于专业词库和词统计权重方法消除歧义现象。 4 ) 通过分析了抽取到的商品信息尤其是价格的特点,提出了相应的数据融合 策略,在融合模块中根据实际情况设计一种新的判定算法:v c s m c t 甜c o m m o n s e q u e n c e s ,向量公共子串) ,来使商品个体关系融合更加准确。在此基础之上,建 立商品信息在线抽取与融合的整体模型,并对本系统进行总体设计,介绍了系统 设计目标、数据表结构和表关系。 5 1 以j a v a 语言编程实现,利用一些开源框架对系统底层架构以及系统时序调 度模块进行实现,本文详细说明了关键模块的实现细节,并给出系统运行实验。 1 4 论文体系结构 全文共分为七章,具体章节安排如下: 第一章绪论。提出本论文的研究背景及目的,然后分析了国内外关于w 曲 信息抽取和垂直搜索的研究水平和发展状况,给出本论文的体系结构。 第二章w e b 信息抽取和垂直搜索技术。研究了w r e b 信息抽取技术及中文分 词、主题判断技术;w 曲信息的特点,信息抽取的概念、意义及其评价标准;中 文分词等技术的概念和相关技术研究等。 第三章一种基于模板的快速网页文本自动抽取算法。解决系统网页爬取和结 重庆邮电大学硕士论文 构化信息处理复杂的问题,文中详细描述了网页文本抽取相关研究工作,该算法 定义,以及算法的实验和分析。 第四章基于主题的自适应的分词方法。结合搜索引擎的特点,本文提出了一 种基于主题的自适应的分词方法,描述了该分词方法的关键部分并测试了该方法 的效果。 第五章基于信息抽取的比较购物垂直搜索的设计。提出本搜索系统的设计目 标,详细描述了系统模块设计、系统数据库设计。最后说明了数据表之间的关系 及相关定义。 第六章基于信息抽取的比较购物垂直搜索的实现。深入研究了系统实现的具 体技术细节,介绍了系统的开发平台及工具,系统实现及时序调度框架设计,实 现了相关的算法,并通过系统运行实验,验证了算法和设计的有效性和可行性。 第七章总结及未来工作。对全文的研究做总结,并给出下一步研究方向。 8 第二章w e b 信息抽取及垂直搜索相关技术 第二章w e b 信息抽取及垂直搜索相关技术 2 1w 曲信息抽取, 信息抽取( m ,i i 怕m a t i o ne 妯m t i o n ) 是从自然语言文本中抽取出特定信息的过 程,具体是把文本里包含的信息进行结构化处理,转变成表格或其它良好结构的 文本形式。信息抽取系统的输入是原始文本,输出的是固定格式的,无二意性的 数据,这些数据从各种各样的文档中被抽取出来,然后以统一的形式集成在一起。 信息抽取技术并不试图全面理解整篇文档,只是对文档中包含相关信息的部分进 行分析,至于哪些信息是相关的,那将由系统设计时定下的领域范围而定【2 3 】。信 息抽取的主要功能是从文本中抽取特定的事实信息,比如,从新闻报道中抽取出 恐怖事件的详细情况:时间、地点、作案者、受害者、袭击目标、使用的武器等; 从经济新闻中抽取出公司发布新产品的情况:公司名、产品名、发布时间、产品 性能等;从招聘广告中抽取招聘公司名称、简介、提供的职位、对职位的说明、 招聘人数、对求职者的要求等。通常,被抽取出来的信息以结构化的形式描述, 如可以直接存入数据库中,供用户查询以及进步分析利用。 2 1 1w 曲信息抽取问题的描述 。信息抽取是从一个文档提取出相关的结构化信息,网页信息抽取是在互联网 环境下的信息抽取问题。本文讨论的信息抽取都是指网页信息抽取,输入信息抽 取系统的是原始网页,输出的是固定格式的信息点。信息点从各种各样的网页中 被抽取出来,然后以统一的形式集成在一起。这就是信息抽取的主要任务。 信息以统一的形式集成在一起的一个好处是方便检查和比较,例如比较来自 不同网站的商品信息,这可以帮助互联网用户从更大地范围寻找自己感兴趣的商 品。还有一个好处是能对数据作自动化处理,结构化的数据是开发人员比较喜欢 的数据方式,处理起来比原本网络上的非结构化数据要方便许多。 网页信息抽取技术对于从大量的网页中抽取需要的特定信息是非常有用的。 在网上,同一主题的信息通常分散存放在许多不同网站上,表现的形式也各不相 同。 9 重庆邮电大学硕士论文 2 1 2 信息抽取和信息检索的区别 信息抽取( i i l :f o l m a t i o ne x n 徼t i o n ) 和信息检索( i n :f o m a t i o nr t 炳c v a l ) 是不同的, 信息检索的目的是根据用户的查询请求从文档库中找出相关的文档。用户必须从 找到的文档中翻阅自己所要的信息。 就其目的而言,信息检索和信息抽取的不同可表达如下:信息检索从文档库 中检索相关的文档,而信息抽取是从文档中取出相关信息点。这两种技术因此是 互补的,若结合起来可以为文本处理提供强大的工具【2 9 1 。 信息检索和信息抽取不单在目的上不同,而且使用的技术路线也不同。部分 原因是因为其目的差异,另外还因为它们的发展历史不同。多数信息抽取的研究 是从以规则为基础的计算语言学和自然语言处理技术发源的,而信息检索则更多 地受到信息理论、概率理论和统计学的影响。 2 1 3w 曲信息抽取理论的形式化描述 一个简单的网页信息抽取模型可概括为:向特定资源库发出一个查询请求, 得到相应的响应页,然后网页抽取模块从响应页中抽取出所需要的信息,将其映 射成相应的标记信息,如图2 1 ,网页信息抽取模型所示。 图2 1 网页信

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论