(计算机软件与理论专业论文)基于领域特征的web数据实体抽取的研究.pdf_第1页
(计算机软件与理论专业论文)基于领域特征的web数据实体抽取的研究.pdf_第2页
(计算机软件与理论专业论文)基于领域特征的web数据实体抽取的研究.pdf_第3页
(计算机软件与理论专业论文)基于领域特征的web数据实体抽取的研究.pdf_第4页
(计算机软件与理论专业论文)基于领域特征的web数据实体抽取的研究.pdf_第5页
已阅读5页,还剩57页未读 继续免费阅读

(计算机软件与理论专业论文)基于领域特征的web数据实体抽取的研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

山东大学硕士学位论文 皇皇曼曼曼曼曼蔓毫舅曼罡舅寰曼曼皇曼曼鼍l 一mm 皇皇曼皇鼍皇曼皇鼍皇蔓曼鼍舅曼曼鼍曼曼皇皇曼寡 摘要 随着社会信息化进程的不断发展,人们对信息的需求和依赖程度越来越高, 如何从海量信息中快速有效的获取有用信息,已经成为人们研究的焦点。信息 集成的研究可以帮助人们有效的找到感兴趣的、比较完整的信息,帮助用户发 现对自己有用的知识。目前,9 0 的全球5 0 0 强企业已建立完善的市场情报分析 系统,有效地分析市场情报对于企业的生存和发展具有十分重要的意义。 w e b 已经成为如今人们获取信息的主要来源,但是随着w e b 上数据信息量 的日益增加,人们从w e b 上获取真正需要的信息已经变得不再容易。因此,如 何对w e b 信息进行过滤和发现,帮助人们方便地查找“真正需要的数据”成为 一个至关重要的问题。有些数据处理系统针对某一个行业的信息进行搜集,以 结构化数据为最小单位,关注的是有一定结构的数据,主要通过定向分字段抽 取出需要的数据进行处理后再以某种形式返回给用户。然而,如何从无结构化 的文本中抽取数据实体仍然存在很多困难。 本文主要研究了基于领域的s u r f a c ew e b 中数据实体的提取方法,在领域 特征的基础上,结合传统信息检索技术,设计了基于领域词汇的数据实体抽取 框架,并在此基础上提出了一个面向旅游线路信息的w e b 数据实体抽取系统。 围绕着该框架,本文对如何从特定领域相关的w e b 页面中进行数据实体抽取涉 及的若干关键问题进行了研究。 本文的主要研究内容和工作包括: 1 描述s u r f a c ew e b 中的实体类型,构建了面向旅游线路信息的w e b 数据 实体抽取框架,并以此为本文的研究基础。该框架建立在传统信息检索的分词 和索引技术的基础之上,根据数据实体抽取的特定需求,增加了特有的工作步 骤,将s u r f a c ew e b 页面信息进行分词后再过滤以进行领域信息实体的识别。 2 在数据实体抽取方面,本文提出了如何根据领域词汇表来对信息进行过 滤,并采用x m l 存储旅游线路信息。旅游景点信息的发现是渐进式的,利用x m l 可以表现旅游城市与其景点信息之间的关联,便于信息的逐渐完善与表达。 3 基于已有的对命名实体的研究,可以发现新的旅游景点词汇,用于丰富 旅游线路信息的内容;通过对页面进行分割,使处理的数据描述具有更强的相 山东大学硕士学位论文 关性,以提高抽取的准确性。 4 将x m l 与传统信息检索的索引模型相结合,便于信息的快速获取。本文 利用x m l 对旅游线路信息进行描述,同时将其与索引模型相结合,这样在进行 信息的定位时可以同时定位特定地域信息以及相关旅游路线信息。 本文对如何有效的抽取特定领域的实体信息进行了探索性的研究,希望为 该问题的解决提供一种有效的思路和方法。本文的课题基础也是目前信息处理 领域应用比较广泛的技术,不但为互联网领域的信息搜索提供了思路和方法, 同时也为信息集成领域提供了一定的帮助。这使本文课题研究既具有探索性的 理论研究价值,也具有较大的应用价值和现实意义。 关键词:市场情报:信息检索;中文分词;页面分块;命名实体 i i t li 东大学硕十学位论文 a b s t r a c t w i t ht h ep r o c e s so fi n f o r m a t i o n i z a t i o no fo u rs o c i e t y ,m o s tp e o p l e sa c t i v i t i e s h e a v i l yd e p e n do nr i c hi n f o r m a t i o n ,t h u sh o w t oe x t r a c tu s e f u li n f o r m a t i o ne f f i c i e n t l y f r o mt h em a s s i v es o u r c eh a sb e c o m eo n eo fo u rk e yr e s e a r c h e s i ti se f f e c t i v et od o r e s e a r c ho ni n f o r m a t i o ni n t e g r a t i o n ,t h r o u g hw h i c hp e o p l ec a l lf i n di n f o r m a t i o nt h a ti s i n t e r e s ta n du s e f u lt ot h e m s e l v e s n o w a d a y s ,9 0 o ft h eg l o b a lt o p5 0 0e n t e r p r i s e s h a v ee s t a b l i s h e dt h e i ro w nw e l l d e f i n e dm a r k e ti n t e l l i g e n c ea n a l y s i ss y s t e m s ,髂i ti s o fg r e a ts i g n i f i c a n c ef o rt h es u r v i v a la n dd e v e l o p m e n to fe n t e r p r i s e st od oe f f e c t i v e a n a l y s i so f m a r k e ti n t e l l i g e n c e w e bh a sb e c o m en o wam a j o rs o u r c eo fi n f o r m a t i o n ,b u ta st h ea m o u n to fw e b d a t ah a sb e e ni n c r e a s i n g ,i ti sn o te a s yf o rp e o p l et og e tr e a li n f o r m a t i o nf r o mt h ew e b b yt h e m s e l v e s t h e r e f o r e ,h o w t of i l t e ri n f o r m a t i o no fl e s si m p o r t a n ta n df i n d i m p o r t a n to n e sf r o mt h ew e b ,s oa st oa i dp e o p l ee a s i l yf i n dt h e ”r e a ld a t a ,b e c o m e s ac r i t i c a li s s u e s o m ei n f o r m a t i o np r o c e s s i n gs y s t e m sf o c u so nc e r t a i ni n d u s t r yt o c o l l e c ti n f o r m a t i o n ,c o n s i d e r i n gs t r u c t u r e dd a t aa st h es m a l l e s tu n i t ,a n dt of i n dd a t a t h a ti so r g a n i z e db ys o m es t r u c t u r e ,v e r t i c a ls e a r c hs y s t e mr e c o g n i z e st h ei n f o r m a t i o n t h r o u g hr e c o g n i t i o no ff i e l d s ,t h e nr e t u r nt ot h eu s e ra f t e rs o m ek i n do fp r o c e s s i n g h o w e v e r ,h o wt oe x t r a c td a t ae n t i t i e sf r o mn o n s t r u c t u r e dp a g e si sab i g i s s u e t h i sp a p e rs t u d i e dt h em e t h o d so fe x t r a c td a t ae n t i t i e sb a s e do nd o m a i n i n f o r m a t i o nf r o mt h ew e b c o m b i n i n gw i t h t r a d i t i o n a li n f o r m a t i o nr e t r i e v a l t e c h n o l o g y ,t h i sp a p e rp r o p o s e daf r a m e w o r kf o rd a t ae n t i t i e se x t r a c t i o nb a s e do n d o m a i ni n f o r m a t i o n ,a n dd e s i g n e das y s t e mf o re x t r a c t i o no ft o u r i s mi n f o r m a t i o nd a t a e n t i t i e s a r o u n dt h ef r a m e w o r k ,t h ep a p e rs t u d i e ds o m ek e yi s s u e sf o rd a t ae n t i t i e s e x t r a c t i o nf r o mw e bp a g e so fc e r t a i nd o m a i n t h em a i nr e s e a r c hw o r ki n c l u d e s : 1 f i r s t , d e s c r i b et h ec a t e g o r i e so fe n t i t i e so fs u r f a c ew e b t h e np r o p o s ea d a t a e n t i t i e se x t r a c t i o nf r a m e w o r kf o rt o u r i s tr o u t ei n f o r m a t i o nt os u p p o r tt h es t u d yo ft h i s p a p e r b a s e do nt h et r a d i t i o n a li n f o r m a t i o nr e t r i e v a la n di n d e x i n gt e c h n o l o g y ,t h e 山东大学硕士学位论文 f r a m e w o r ka d d ss p e c i f i cs t e p st or e c o g n i z ed o m a i ne n t i t i e sa f t e rw o r d ss e g m e n t a t i o n a n df i l t e r i n go fw e bp a g e sa c c o r d i n gt os p e c i f i cf e a t u r e s 2 p r e s e n th o wt od of i l t e ra c c o r d i n gd o m a i nv o c a b u l a r y ,a n dh o wt os t o r e i n f o r m a t i o nb yx m l t h ef r a m e w o r kr e c o g n i z e si n f o r m a t i o ns t e pb ys t e p ,a n di t s e a s i e rt os h o wt h er e l a t i o nb e t w e e nc i t i e sa n db e a u t ys p o t st h r o u g hx m l ,t h u si t f a c i l i t a t e st h ei m p r o v e m e n to fi n f o r m a t i o na n dp r e s e n t a t i o n 3 b a s e do np r e e x i s t i n gr e s e a r c ho nn a m e de n t i t y ,t h ef r a m e w o r kc a l lr e c o 蛳z e n e wv o c a b u l a r i e st oi m p r o v et h et o u r i s tr o u t ee n t i t i e s a n db yd i v i d i n gw e b p a g e si n t o b l o c k s ,w ec a ng e tm o r ea c c u r a t ei n f o r m a t i o nf o rd e s c r i p t i o no fe a c hb l o c kh a sh i 曲 r e l e v a n c e 4 c o m b i n ex m lw i t ht h ei n d e xm o d e lo ft r a d i t i o n a li n f o r m a t i o nr e t r i e v a lt o f a c i l i t yi n f o r m a t i o ni n q u i r i e s i nt h i sp a p e r , i n f o r m a t i o no ft o u r i s tr o u t e si ss t o r e di n t h ef o r mo fx m l ,c o m b i n e dw i t ht h ei n d e xm o d e l ,t h u si ti se a s i e rt od oi n q u i r yt o l o c a t es p e c i f i cg e o g r a p h i ci n f o r m a t i o na n dr e l a t e di n f o r m a t i o na l o n gt o u r i s tr o u t e s t h i sp a p e rd o s ee x p l o r a t o r ys t u d yo nh o wt oe f f e c t i v e l yl o c a t ee n t i t i e sf o rs o m e d o m a i n ,a n dh o p e st op r o v i d e 锄e f f e c t i v ei d e aa n dm e t h o dt ot h i si s s u e t h i sp a p e r b a s e so nc u r r e n ti n f o r m a t i o np r o c e s s i n gt e c h n o l o g i e s ,t op r o p o s ei d e a so rm e t h o d sf o r i n t e m e ti n f o r m a t i o ns e a r c ha n di n f o r m a t i o ni n t e g r a t i o n t h i sm a k e st h er e s e a r c ho f t h i sp a p e rh a v et h e o r e t i c a lr e s e a r c hv a l u ea n dp r a c t i c a lv a l u e k e y w o r d :m a r k e ti n t e l l i g e n c e ,i n f o r m a t i o nr e t r i e v a l ,c h i n e s ew o r d s e g m e n t a t i o n ,p a g es e g m e n t a t i o n ,n a m e de n t i t y i v 原创性声明和关于论文使用授权的说明 原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独 立进行研究所取得的成果。除文中已经注明引用的内容外,本论文不 包含任何其他个人或集体已经发表或撰写过的科研成果。对本文的研 究做出重要贡献的个人和集体,均已在文中以明确方式标明。本声明 的法律责任由本人承担。 论文作者签名:至堡鼙 日期:丛监笪 关于学位论文使用授权的声明 本人完全了解山东大学有关保留、使用学位论文的规定,同意学 校保留或向国家有关部门或机构送交论文的复印件和电子版,允许论 文被查阅和借阅;本人授权山东大学可以将本学位论文的全部或部分 内容编入有关数据库进行检索,可以采用影印、缩印或其他复制手段 保存论文和汇编本学位论文。 ( 保密论文在解密后应遵守此规定) 论文作者签名:兰丝生导师签 山东大学硕十学位论文 1 1 课题研究背景 第一章绪论 随着计算机应用越来越广泛,各行业各部门对信息处理的要求也越来越高。 但各部门、各地区之间,由于相同的数据由不同用户以不同方式建模,导致了不 同程度的异构,使得相关信息无法方便地统一。信息集成技术就是为实现各种数 据源间信息的交流和共享而发展起来的。信息集成 1 ,也称为数据集成,就是 要实现不同数据源中异质信息资源跨时间、空间的透明、无缝整合,以便以集成 和统一的方式为用户提供更高层的信息服务。近年来,对信息集成的研究一直是 数据库研究领域及其它相关领域一个非常热门的课题。 随着i n t e r n e t 的普及,网络已经发展成为一个巨大的信息源,人们已经习惯 了在w e b 上发布信息、查找信息,w e b 成为人们获得信息的重要途径和手段。如何 快速、准确地从海量数据里面提取有用的信息已经成为当前计算机科学的关注热 点。为了能有效的利用w e b 上的有效信息,使w e b 能真正成为人们随时可用的知识 库,人们提出了w e b 数据集成的概念。w e b 数据集成技术就是将w e b 上的异构信息 进行集成统一,挖掘数据中包含的深层信息,以满足人们各种各样的需求。 在i n t e r n e t 上包含着众多重要的、有价值的商业信息、市场信息以及国家的 经济政策等信息,i n t e r n e t 已经成为市场情报分析的重要信息源。由于中小型企 业在资金、技术、人力等方面资源缺乏,导致无法开展完善的市场情报分析工作。 如何有效地集成w e b 数据,为中小型企业提供完善的市场情报分析支持,具有重 大的经济意义。高质量数据为市场情报分析提供基础支撑和保证,由于i n t e r n e t 上数据量庞大,呈现出动态性、分布性、多样化等特点,如何从i n t e r n e t 上快速、 准确、稳定地获取有价值信息,为市场情报分析提供数据基础,成为一个巨大的 挑战。 w e b 数据集成中的第一步是w e b 数据的抽取。w e b 数据抽取的核心是从w e b 页面 中包含的无结构或半结构的信息中识别用户感兴趣的数据,并将其转化为更为结 构化、语义更为清晰的格式。通用的搜索引擎 2 如g o o g l e 、b a i d u 等主要是通过 关键字来定位信息,并没有将数据很好的集成起来,用户需要自己对获取的网页 山东大学硕士学位论文 进行进一步分析处理;一些专有信息处理系统则关注于页面中结构化数据的处 理。随着信息技术的发展,市场情报分析受到了更加广泛的关注和重视,面向主 题的信息服务也发展起来。很多专题网站则提供了特定领域的信息服务,例如有 的网站提供了租房信息咨询服务,有的网站则提供了招聘信息服务,面向领域的 信息服务正受到日益关注。 当前,w e b 页面主要分为两类,一类是动态页面,即通常所说的d e e pw e b 数 据页面,另一类是s u r f a c ew e b 页面。d e e pw e b 数据页面通常是由网站的后台数 据库通过某种通用的模板构成,因此,由同一模板生成的w e b 页面中的数据记录 之间具有极高的代码结构相似性,那么,w e b 页面中的数据记录对应的d o m 子树之 间具有很高的结构相似性,可以通过结构的识别来进行信息的抽取。而s u r f a c e w e b 页面中的数据通常是无结构化的,其主体类似于纯文本,如何从这类页面中 将信息有效的抽取出来受到极大关注。 s u r f a c ew e b 页面中的数据实体分为两类,一类是命名实体,例如电话号码、 电子邮件、人名等;另一类是通过分析页面数据综合出来的有机整体所构成的信 息实体。前者由于所依赖的结构特征比较多,受到比较多的关注;后者由于信息 描述的不确定性,很难定位和提取。目前面向领域的w e b 数据实体抽取有许多问 题需要解决,这里以旅游路线信息为例来说明这些问题。 ( 1 ) 信息孤立。w e b 上提供旅游信息的网站非常多,同时许多b l o g 上也会有 个人对一些旅游信息加以描述,但是这些信息之间都是孤立的,在一定程度上形 成了一个一个的“信息孤岛”,旅游行业要想从这些信息中收集各种景点信息以 及已有的旅游线路信息是非常困难的,这需要耗费大量的人力和物力。 ( 2 ) 高质量信息很难获取。s u r f a c ew e b 页面中的结构化信息很少,几乎可 以看作是纯文本,如何从里面将信息准确定位比较困难,似h o o o g l e 、b a i d u 提 供的服务限于提供相关网页,但是用户实际需要的信息还需要用户自己来筛选。 ( 3 ) 数据杂乱。页面中通常会包含各种杂乱的信息,这些信息对于行业情报 分析是没有帮助的,所以要在抽取过程中将这些信息摒弃掉。 ( 4 ) 领域知识的封闭性。对于特定领域的信息抽取,是以领域相关知识为基 础的,但是在信息抽取的过程中可能发现一些相关知识,例如旅游线路信息的抽 取以旅游城市为基础,但是在抽取过程中会发现与城市相关的旅游景点,那么这 2 山东大学硕士学位论文 些景点也可以作为旅游相关信息,以帮助提高抽取的质量。 本文以旅游线路信息服务为基础,将从s u r f a c ew e b 页面中进行旅游信息实 体的提取作为关注对象,对基于领域的w e b 数据集成中数据实体抽取的问题进行 了研究,并提出了一种解决思路。 1 2 国内外研究现状 目前,国内外已经对信息抽取开展了大量的研究工作。通用搜索引驾l r - g o o g l e 、 y a h o o ! 以及m i c r o s o f t 不再仅仅是提供简单的关键字检索,而是更加关注于垂直 搜索技术的研发以提供更加精细和完善的信息。许多科研机构也非常关注实体信 息的抽取,研究重点侧重于如何利用各种技术从给定的文档中准确地提取出信息 以及如何提高信息抽取系统的自动化程度。 按照w e b 抽取规则构造的自动化程度不同,w e b 信息抽取程序可以分为手工建 立、手工标记自动学习和全自动抽取程序。 手工建立的抽取程序抽取准确性高,但构建代价较大,同时很难适应于其他 的网站。典型的系统有s t a n f o r du n i v e r s i t y 的j o a c h i mh a m m e r 等人提出的 t s i m m i s 3 、d i a u n i v e r s i t ad ir o m at r e i t a l y 的v a l t e rc r e s c e n z i 等人提出的m i n e r v a 4 、u n i v e r s i t yo ft o r o n t o 的g u s t a v o0 等人提出的 w e b - o q l 5 、u n i v e r s i t yo fp e n n s y l v a n i a 的h r n a u ds a h u g u e t 等人提出的w 4 f 6 和g e o r g i ai n s t i t u t eo ft e c h n o l o g y 的l i n gl i u 等人提出的x w r a p 7 。 手工标记自动学习的抽取程序分析用户在网页中的标记的目标信息,抽取特 征,通过机器学习来自动建立抽取规则。典型系统主要有c a r n e g i em e l l o n u n i v e r s i t y 的d a y n ef r e i t a g 等人提出的s r v 8 、u n i v e r s i t yo ft e x a sa ta u s t i n 的m a r ye l a i n ec a l i f f 等人提出的r a p i e r 9 、u n i v e r s i t yo fw a s h i n g t o n 的 s t e p h e ns o d e r l a n d 等人提出的w h i s k 1 0 、u n i v e r s i t yo fw a s h i n g t o n 的n k u s h m e r i c k 等人提出的w i e n 1 1 、u n i v e r s i t yo fs o u t h e r nc a l i f o r n i a 的i o n m u s l e a 等人提出的s t a l k e r 1 2 、a l i al a b ,a c a d e m i as i n i c a 的c h u n - n a nh s u 等人提出的s o f t m e a l y 1 3 3 和n a t i o n a lc e n t r a lu n i v e r s i t y 的c h i a - h u ic h a n g 等人提出的i e p a d 1 4 等。 自动抽取程序分析一组类似网页,根据合理的假设,进行信息抽取。典型的 山东大学硕士学位论文 系统有d i a u n i v e r s i t ad ir o m at r e i t a l y 的v a l t e rc r e s c e n z i 等人提 出的r o a d r u n n e r 1 5 、a l i al a b ,a c a d e m i as i n i c a 的c h u n n a nh s u 等人提出的 e x a l g 1 6 、u n i v e r s i t yo fil li n o i sa tc h i c a g o 的y a n h o n gz h a i 等人提出的 d e p t a 1 7 等。 根据各种工具所采用的原理不同将现有的工具分为以下4 类:基于自然语言 处理方式的信息抽取、包装器归纳方式的信息抽取、基于o n t o l o g y 方式的信息抽 取和基于h t m l 结构的信息抽取。 l 、基于自然语言处理方式的信息抽取 基于自然语言的信息抽取技术是将w e b 文档视为文本进行处理,主要适用于 含有大量文本且句子完整、适合语法分析的w e b 页面。该类技术在一定程度上借 鉴了自然语言处理技术,利用子句结构、短语和子句间的关系建立基于语法和语 义的抽取规则实现信息抽取。目前采用这种原理的典型的系统有u n i v e r s i t yo f t e x a sa ta u s t i n 的m a r ye l a i n ec a l i f f 等人提出的r a p i e r 9 、c a r n e g i em e l l o n u n i v e r s i t y 的d a y n ef r e i t a g 等人提出的s r v 8 和u n i v e r s i t yo fw a s h i n g t o n 的 s t e p h e ns o d e r l a n d 等人提出的w h i s k 1 0 。 此类抽取技术的一个重要分支是命名实体识别技术。近年来,国内外对命名 实体识别的研究逐步升温。2 0 0 0 年1 2 月由美国国家标准技术研究所组织的自动内 容抽取( a u t o m a t i cc o n t e n te x t r a c t i o n ,a c e ) 评测会议将实体识别作为它评 测的两大任务之一。在国内,8 6 3 计划中文信息处理与智能人机几乎技术评测, 于2 0 0 3 年首次将中文命名实体识别作为其分词标注评测的子任务,在2 0 0 4 年更将 其作为一个独立的评测项目。2 0 0 4 年的命名实体任务由三个子任务组成:命名实 体、时间表达式、数字表达式,其中命名实体又分为人名、地名和组织名三类。 在中文命名实体识别已有的研究成果中,有很多是针对人名、地名、组织名等单 项命名实体进行识别的,已有很多对于地名的识别研究 2 卜2 4 。 这类技术的缺点也较为明显:( 1 ) 抽取的实现没有利用w e b 文档独特于普通 文本的层次特性,抽取规则表达能力有限,缺乏健壮性;获得有效的抽取规则需 要大量的样本学习,达到全自动的程序较难,而且速度较慢,对于操作网上海量 数据来说这是一个大问题。( 2 ) 只支持记录型的语义模式结构,不支持复杂对象 的抽取。( 3 ) 由于w e b 页面中的文本通常不是结构完整的句子,所以适用范围较 4 山东大学硕士学位论文 窄。 2 、包装器归纳方式的信息抽取 包装器归纳方式的信息抽取根据事先用户标记的样本实例应用机器学习方 式的归纳算法,生成基于定界符的抽取规则。其中定界符实质上是对感兴趣语义 项上下文的描述,即根据语义项的左右边界来定位语义项。该类信息抽取方式和 基于自然语言理解方式的信息抽取技术最大的不同在于仅仅使用语义项的上下 文来定位信息并没有使用语言的语法约束。采用这种原理的典型的系统有 u n i v e r s i t yo fs o u t h e r nc a l i f o r n i a 的i o nm u s l e a 等人提出的s t a l k 职 1 2 、 a i i al a b ,a c a d e m i as i n i c a 的c h u n - n a nh s u 等人提出的s o f t m e a l y 1 3 和 u n i v e r s i t yo fw a s h i n g t o n 的nk u s h m e r i c k 等人提出的w i e n 11 等。 使用包装器的困难在于:( 1 ) 包装器的针对性强,可扩展性较差。由于一个 包装器只能处理一种特定的信息源,所以若从几个不同的信息源中抽取信息,就 需要一系列的包装器集。这样使得信息抽取的工作量巨大。( 2 ) 可重用性差。包 装器对页面结构的依赖性强,当出现一类新的w e b 页面或旧的页面结构发生了变 化后,原来的包装器就会失效,无法从数据源中获得数据或得到错误的数据。这 使得一个新的问题出现,即包装器的维护问题。( 3 ) 缺乏对页面的主动理解。目 前的包装器主要依赖于原网页或其后台数据库的模式,基本上是一种数据模式的 还原,缺乏对数据语义的主动理解。 3 、基于本体( o n t o l o g y ) 方式的信息抽取 该类方法主要基于本体概念,b r i g h a my o u n gu n i v e r s i t y 的d a t a e x t r a c t i o ng r o u p 1 8 对此进行了大量研究,首先构建领域本体,把本体解析为 一系列的概念和关系,再将概念关系生成标注规则,这些规则是抽取与领域相 关的信息的一组原则,利用本体库得到的形式化的表达。还要利用这些概念关系 参与文本的语法分析,把语法分析的结果和本体标注规则结合在一起生成信息 标注器,再通过信息抽取器得到所需要的信息。本体论可以从语义信息入手进行 抽取,这样可大大提高信息的召回率和精度。 基于本体方式的最大的优点是对网页结构的依赖较少,只要事先创建的领域 本体足够强大,系统可以对某一应用领域中各种网页实现信息抽取。 主要缺点是:( 1 ) 需要领域专家创建某一应用领域的详细清晰的领域本体, 山东大学硕士学位论文 工作量大。( 2 ) 由于是根据数据本身实现信息抽取,因此在减少了对网页结构依 赖的时,增加了对网页中所含的数据结构的要求。 ( 3 ) 从大量异构的文档中抽 取公共模式工作量繁重,并且不支持对超链接的处理。 4 、基于h t m l 结构的信息抽取 该类信息抽取技术的特点是根据w e b 页面的结构定位信息。在信息抽取之前 通过解析器将w e b 文档解析成语法树,通过自动或半自动的方式产生抽取规则, 将信息抽取转化为对语法树的操作实现信息抽取。采用这种技术的系统有很多, 比如商业化的l i x t o 1 9 ,非商业化的g e o r g i ai n s t i t u t eo ft e c h n o l o g y 的l i n g l i u 等人提出的x w i 础 7 ,另外d i a u n i v e r s i t 、ad ir o m at r e i t a l y 的 y a l t e rc r e s c e n z i 等人提出的r o a d r u n n e r 1 5 和u n i v e r s i t yo fp e n n s y l v a n i a 的a r n a u ds a h u g u e t 等人提出的w 4 f 6 、中国人民大学的孟小峰等人提出的 s g - w r a me 2 0 也采用了该技术。 综上,信息抽取技术的发展在一定程度上满足了人们对信息的需求,但是在 竞争激烈的今天,各行业对信息的粒度以及完整性要求也越来越高。人们所需要 的不再仅仅局限于得到相关信息文档,而是要做到“所搜即所得 2 5 ”,即获取 的是一个有机的信息实体,而不含有多余的杂乱信息。面向领域的信息表现形式 多种多样,对于如何获取结构化的领域信息已经有了大量的研究并取得了很大进 展,而对于无结构化信息中数据实体的抽取还有很多问题需要解决。 1 3 研究课题的主要内容 s u r f a c ew e b 页面中的数据实体除去命名实体外,还包括通过分析页面数据 综合出来的有机整体所构成的信息实体。以旅游信息为例,为了向旅行社提供咨 询信息服务,除了从d e e pw e b 中获取旅游景点以及费用等信息之外,还需要从 s u r f a c ew e b 中获取旅游线路信息,以判断当前已有哪些可行路线,这些路线包 含了哪些旅游城市以及景点,为用户制订新的旅行线路提供支持;这类实体与命 名实体的不同之处在于它是由多个命名实体按照一定的结构组合而成。 本文重点关注了以下几个方面:利用x m l 对旅游信息实体进行描述和存储, 同时便于结构的扩充,便于旅游信息的增加;讨论了中文分词技术的应用,利用 分词可以从无结构的页面描述中定位领域词汇;描述了传统信息索引模型,并对 6 山东大学硕+ 学位论文 此模型进行改进,通过中间层映射的方式建立面向领域的索引模型,便于检索和 集成:对页面进行分块后提取信息,以提高信息的相关性;利用命名实体识别技 术来识别新的领域信息,扩充领域知识。 1 4 本文所做的主要工作 本文首先回顾了信息检索的发展以及在市场竞争情报中所遇到的机遇和挑 战,然后对传统信息检索技术进行了描述,通过分析领域特征,针对传统信息检 索的不足,提出了面向旅游线路信息的实体抽取模型,使人们可以快速、方便的 定位旅游信息,便于进行旅游新线路的发现。 本文提出了一个面向旅游领域的数据实体抽取框架。该框架对于s u r f a c e w e b 提供的旅行线路信息实体进行抽取,为后续信息处理提供数据以便于进行领 域信息的集成。本文以旅游信息为背景,通过建立旅游领域词汇,定义旅游线路 实体表示,整合中文分词以及索引技术,实现了面向旅游信息领域的数据实体抽 取模型,并对该模型进行评估。 围绕旅游线路信息实体抽取,本文对相关关键问题进行了研究。本文主要的 工作包括如下几个方面: 1 、提出了一个面向旅游领域的数据实体抽取框架,并以此为基础作为本文 的理论基础。该框架很好的支持了命名实体以及复杂有机实体的提取,可以作为 信息集成领域中的s u r f a c ew e b 数据预处理框架使用。 2 、利用x m l 来描述领域词汇和存放旅游元数据,既便于检索,又有利于数据 结构的扩充,同时可以清楚地表达数据之间的关系,还便于进行数据的集成统一。 3 、对中文分词进行了描述,介绍了中文分词的成果,并将其与领域词汇相 结合,应用到框架中,对分词结果进行再过滤,以获取有意义的信息。 4 、借助传统的信息索引模型,通过对其进行改进,定义旅游线路实体表示, 作为信息抽取的中间层,用其来代替传统的文本页面,方便了信息的定位,同时 便于在数据集成时提供效率支持。 5 、利用已有的页面分块技术,结合信息描述的语言特征,对页面信息进行 区域性分割,这样提取的信息有比较大的相关性,便于复杂实体的定位和抽取; 同时利用已有的对命名实体的研究来发现新的领域词汇,对领域词汇实体进行扩 7 t li 东大学硕士学位论文 充。 1 5 本文的组织结构 本文一共分为六个章节。 第一章是本文的绪论部分。该章讨论了信息抽取的背景以及数据实体抽取领 域的研究现状,通过对国内外对于信息抽取技术的总结对比了已有成果的优点和 不足。同时该章还概括了本课题的研究内容以及本文所做的主要工作。 第二章针对旅行社的需求,提出了面向旅游领域的旅游线路信息实体抽取的 框架。该框架专注于旅游领域,利用旅游领域词汇表,控制信息的抽取。该章对 框架进行了描述说明。 第三章详细描述了旅游领域词汇的组织以及旅游线路信息实体的组织方式。 关于旅游领域词汇,初始的旅游城市名称可以预先手工设定,但是旅游景点是不 可预知的,只能知道少数知名景点,但是旅游城市还可以建立新的景点,因此需 要对景点知识进行不断扩充。同时还要便于用户查询时提供完整的相关信息以及 方便的进行检索。这就需要建立有效的组织方式,该章对如何组织存储数据进行 详细说明。 第四章着重论述了如何利用领域词汇来对传统信息检索的结果进行过滤,并 通过自己定义的旅游线路记录结构来描述旅游线路信息实体,以及如何利用实体 表示来代替传统信息检索中的文本。利用实体表示代替文本,既细化了信息抽取 的粒度,也便于将数据进行集成。同时还讨论了如何利用命名实体识别技术来从 无结构化文本中识别新的领域词汇,进行旅游领域信息的扩充。基于预定义的旅 游城市和景点信息,利用语法信息来判断识别出新的旅游景点,既可以扩充领域 词汇,也可以丰富实体数据。 第五章介绍了模型实例,给出了依据该模型建立的系统的测评,对该实体抽 取模型进行了评估。 第六章对全文进行总结,总述了本文的主要贡献以及不足,并对该领域将来 的研究进行了展望。 山东大学硕十学位论文 第二章面向领域的w e b 数据实体抽取框架 2 1 基于旅游领域知识的实体抽取框架tie e f 近几年以来,随着互联网技术飞速发展和软硬件技术的日益成熟,互联网上 的信息也逐日飞速增加,如何有效的从浩瀚的互联网中获得有用的信息也成为人 们的研究热点。虽然对于如何从s u r f a c ew e b 中提取实体信息受到广泛关注,但 是多数方法仍然是利用h t m l 标签来进行提取的,而且英文页面有许多中文页面没 有的便利特点,例如英文文本单词之间有空格,可以通过贴标签的方式进行分析, 而中文表述方式繁杂,利用固定的模式识别信息非常困难。本文关注于如何从 s u r f a c ew e b 页面中提取有一定组织结构的数据实体。 在w e b 数据集成领域存在着许多的研究问题,已有的工作主要集中在这些问 题上:w e b 数据源的发现、数据源分类聚类、页面结构的模版发现、结构化数据 的提取、分词、查询接口的集成、查询的转换、查询结果的抽取、查询结果的排 序等。有些问题已经得到了较多的研究,而有些问题还处在研究的初步阶段甚至 还没有相关的有效技术。 s u r f a c ew e b 页面中的数据实体分为两类,一类是命名实体,例如电话号码、 电子邮件、人名等;另一类是通过分析页面数据综合出来的有机整体所构成的信 息实体。前者由于所依赖的结构特征比较多,可以通过对句法结构以及词汇修饰 关系等特征来定位识别;后者由于信息描述的不确定性,很难定位和提取,但是 可以根据领域特征来帮助识别复杂实体。以旅游线路信息为例,旅游城市中有多 个旅游景点,景点和城市之间构成了归属关系,而城市与城市之间、同一个城市 的景点与景点之间则是并列关系,根据这种关系可以将命名实体组合成复杂实 体,以提供更完整的信息。复杂实体以x m l 来描述可以是如下形式: 济南 蓬莱阁 潍坊 孑l , 庙 寿光 文l j 公岛 | b e a u t y s p o t s 山东大学硕士学位论文 本文提出的面向旅游领域的旅游线路信息实体抽取框架t i e e f 是一个在传统 信息检索技术的基础上,通过对旅游类网站的s u r f a c ew e b 页面数据进行分析, 抽取旅游线路信息,能够为旅行社用户直接提供咨询服务。该框架能够从s u r f a c e w e b 数据源中发现新的旅游线路信息,同时更新已有数据,为用户提供决策咨询 服务,并且在实体抽取过程中不断的完善自己的领域知识,加强自己的抽取信息 量,不断完善旅游线路实体信息。该框架对解决w e b 数据实体抽取问题提供了一 个参考,在旅游市场情报竞争分析中也很有应用价值。 后续数据处理,例如数据集成 数据集成 一 - 一, 采

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论