(模式识别与智能系统专业论文)基于网页版面分析的信息抽取.pdf_第1页
(模式识别与智能系统专业论文)基于网页版面分析的信息抽取.pdf_第2页
(模式识别与智能系统专业论文)基于网页版面分析的信息抽取.pdf_第3页
(模式识别与智能系统专业论文)基于网页版面分析的信息抽取.pdf_第4页
(模式识别与智能系统专业论文)基于网页版面分析的信息抽取.pdf_第5页
已阅读5页,还剩50页未读 继续免费阅读

(模式识别与智能系统专业论文)基于网页版面分析的信息抽取.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

ab s t r a c t ab s t r a c t t h e re s e a r c h o n i n f o r m a t i o n e x t r a c t i o n a i m s a t p ro v i d i n g m o re p o w e r f u l i n f o r m a t i o n a c c e s s t o o l s t o h e l p p e o p l e o v e r c o m e t h e p r o b l e m o f i n f o r m a t i o n o v e r l o a d i n g . w e b i n f o r m a t i o n e x t r a c t i o n i s o n e o f t h e m o s t i m p o rt a n t r e s e a r c h s u b j e c t s , a n d it s r e s e a r c h d o m a i n c o n s i s t s o f d a t a m i n i n g , a rt i f i c i a l i n t e l l i g e n c e , e t c . i n t h e l as t d e c a d e , i n f o r m a t i o n e x t r a c t i o n h a s b e c o m e a n i m p o r t a n t s u b - f i e l d o f n a t u r a l l a n g u a g e p r o c e s s i n g . mo s t o f t h e w e b re s o u r c e s a r e i n t h e f o r m o f h y p e rt e x t m a r k u p l a n g u a g e d o c u m e n t s . h o w e v e r , t o a u t o m a t i c a l l y e x t r a c t i n f o r m a t i o n o r k n o w l e d g e fr o m t h e w e b , a n d t r a n s f e r i t i n t o a m e a n i n g a n d u s e f u l o n e , i s r a t h e r d i f f i c u l t . i n t h i s p a p e r , w e i n v e s t ig a t e v a r i o u s m e t h o d s o f c u r r e n t w e b i n f o r m a t i o n e x t r a c t i o n , a d v a n t a g e s a n d d r a wb a c k s o f t h e s e me t h o d s . t h e n , t h i s p a p e r in t r o d u c e s a n e w w e b i n f o r m a t i o n e x t r a c t i o n me t h o d . t h i s m e t h o d u t i l i z e s b as i c t h o u g h t s o f d o c u m e n t ima g e p r o c e s s , t o e x t r a c t w e b i n f o rm a t i o n fr o m s t r u c t u r e a n a l y s i s . t h i s m e t h o d u s e s t w o - l a y e r c l u s t e r i n g t e c h n o l o g i e s t o a g g r e g a t e w e b p a g e i n f o r m a t i o n a n d t o g e t t h e w h o l e p a g e s t r u c t u r e a n d t h e i n f o r m a t i o n f o r m a t . t h e n w e l o c a t e a n d e x t r a c t w e b p a g e i n f o r m a t io n fr o m t h e v i e w p o i n t o f w e b p a g e s t r u c t u r e . t h i s p a p e r a l s o i l l u s t r a t e s t h e t h e o r e t i c m o d e l a n d i m p l e m e n t s o f t h e p r o p o s e d i n f o r m a t i o n e x t r a c t i n g s y s t e m. f u r t h e r m o r e , t h e p a p e r s u m ma r i z e s t h e e x p e r ime n t r e s u l t s a n d e v a l u a t e s t h e i m p r o v e m e n t s . ke y w o r d i n f o r m a t i o n e x t r a c t i o n , s t ru c t u r e a n a l y s i s , c lu s t e r i n g , t a g s t r i n g , p a t t e rn 南开大学学位论文版权使用授权书 本人完全了解南开大学关于收集、保存、使用学位论文的规定, 同意如下各项内容:按照学校要求提交学位论文的印刷本和电子版 本;学校有权保存学位论文的印刷本和电子版,并采用影印、缩印、 扫描、 数字化或其它手段保存论文; 学校有权提供目 录检索以及提供 本学位论文全文或者部分的阅览服务; 学校有权按有关规定向国家有 关部门或者机构送交论文的复印件和电子版; 在不以赢利为目的的前 提下,学校可以适当复制论文的部分或全部内容用于学术活动。 学 位 论 文 作 者 签 名 : 舟 世 杰 l习 年 犷月竹 日 经指导教师同意,本学位论文属于保密,在年解密后适用 本授权书。 指导教师签名:学位论文作者签名: 解密时间:年月日 各密级的最长保密年限及书写格式规定如下: 5 年 ( 最长5 年、可少子:5 年) 秘密*1 0 年 .二 . , . 盆巨 日 a乌 1 1 1 , 1 . c - . . - 1 恤 翻 佗也 匕匕 朋 三 臼理 业左目 尸它扮性二 匕 曰 独 卫 边翻 圈 5细硬 搜饰 期, 好 洲硬李 立 过 出心盆鹅 出 里 目 甲 铆明 朗 勺洲国 . 自以 口 山 幽 尹 占l以岌 当 创 : 翻 她 创卜 困 注 翻目二 巴 少 娜 峨 时印 i r p宜、 勺月 仙 自盆 “亡 盈助组 1 目 口 钧旧 i n g 翻 . 妞. ,吧 汗巧 舀 目眨 更 加 娇 协一一熙嚣 a加 试 团岑娜娜娜 曲 g e t d . w f 为 胭 山 兜长丫 , jjs e . 仙喊 e l翻 同 侧件 0心 v 爪 . 口 n 止 日 臼 . 5 臼扭 眨翻 岛. 目 .山 钩o. 目 . , 脚 阳 侧 口 侣 a魂 自 入 滓 七日 . . 0次 自 ., 洛月 州 . . 飞 . 了 l 日 妞 门时 角心困娜 比用 日. 州 j o 卜, . 留e h 价 口 弓 . 月 自 口 . . 侧触脚 目角 甲. . 日 翻 曰 二月 . 曰二 p臼日j 翻帕 旧 肠内 呻 5 .公目 灿白 哪翻 , v a 胜幻, ” , j 6 5 . 5 s 转 寸 卜 ” .二 s o a . i 肠. 之 长 侧 . 户扣 -a- 月 , . 翻 xped 胡g o . .ro e se n cm m o a s e a wa .e.v 臼如 川 目 圈能 下 州翻. 阴 ,训冲5 6 胶 . , 门e乙曰 甲匕 占心、 日匕已曰 门 . o p e n e d n e w 即 n 洲扮 加曰. 月 例 . . d . 山玛匆月 . 目 。 拭 m 峨 卫 口, 日 朋 . 洲 加限 欣d 侧 . 肉 . 口 目川 奴翻 . 日月 n 自 门 . d. , .旧 . 斌 卜 州 白 月用 . 门日 口 口 州月拍 口 川州 、 . 日 目m翻月目 的 dc a n 旧侧 抽 加.扭 目的 目 , r .月 .! 图2 . 1 we b 页面示例图一 图2 . 2 是图2 . 1 的部分源代码文件内容信息。 尸a l i g n - c e n t e r - - - - - - - - - - - 一 / f o n i 。 , , n 。 : t r 。 。 ( d i u a l i g n - c e n t e r ip i n e s t r e e t a r l i n g t o n , v a 1 2 3 3 3 5 5 5 . 5 5 5 . 5 5 5 5 ( h o m e ) 5 6 6. 14 6 6. 2 2 2 2 ( c e l l ) p h j o n e s e v a c a p p . c o m f o 附 s i z e - 3 e x p e r i e n c e / f o 抓 :f 7即 h o l d e r,物in t l a p r i l 2 8 叭 一f e b r u a r y 2 0 0 5 图2 .2 w e b 页面示 例图一 对应源代码文件图 在 上面对应网 页的源 代码文件中, 共有6 个内 容 ( c o n t e n t ) 信息项。 它们分 别 是: 基于版面分析网页信息抽取的方法模型 j o b s e a r c h i n g s a mp l e c h r o n o l o g i c a l r e s u m e 一r e t a i l p a u l j o n e s 6 p i n e s t r e e t a r l i n g t o n , v a 1 2 3 3 3 5 5 5 .5 5 5 . 5 5 5 5 ( h o m e ) 5 6 6 .4 8 6 . 2 2 2 2 ( c e l l ) p h j o n e s ( a v a c a p p .c o m e x p e r i e n c e k e y h o l d e r , m o n t b l a n c a p r i l 2 0 0 1 一 f e b r u a ry 2 0 0 5 . ,且,门j4 : 尸j6 然后,根据上面的源代码文件的截图,我们得到各个内容项的 “ 标记字符 串” 信息,其中 “ 标记字符串” 中的标记只涉及网 页整体结构布局的 标记,不 涉及格式显示的标记。它们分别是: 1 . 2 . 3. 4 . 5 . 6 . 很明显, 4 , 5 和6 三个 信息 项的 标记字符串非常 接近。从上 面显示的内 容 观察, 我们也可以 得到同 样的结论, 这说 明这种表示内 容信息的方式是完全可 行的。 当然,我们不期望用很长的标记字符串进行表示,所以,预先定义一个标 记 转 换 映 射数 组表 。 例 如 : t a g s tr a r j= h tm l , h e a d , b o b y , title d iv . . , 很显然上面长长的标记字符串将可以由 较短的数字串 表示而成。 这样会在后面 的信息 分析、 定位和抽 取工作中 带来很大的 方便。 通过对网页中显示信息项这样的一个 “ 标记字符串”的描述,整个网页的 版面结构便存放在了所有信息项的 “ 标记字符串”中,并且所有内容信息项用 数组的形式进行保存。与现在很多抽取网页结构树的版面描述方法相比,该版 面结构的描述和表示方法具有很大的优越性,不仅显得简单明了,而且也不失 版面结构信息的完整性。 基于版面分析网页信息抽取的方法模型 由 于网 页源代码中的 标记数量繁多, 下面通过图 表的形式将它们进行 分类 列举, 并且在图表中 只列举对抽取信息 工作有用的部分标记信息。 表2 . 1 we b标记分类统计表 蒙 _ 一 万 布 局 标 记丫 - 格式化输出标记 超链 接标记 ( 1 - 6 ) 布局标记:“ 标记字符串”中需要保存的标记,通过这些标记可以知道 各个信息项的整体布局, 在后面计算信息相似度和结构恢复的时候很有 用。 格式化输出标记:网 页中显 示的内容是通过这些标记格式化显示输出 的,这些标记不需要出现在 “ 标记字符串”中,可以在抽取各个信息项 的时候同信息项一并抽取,也可以在抽取信息的时候直接忽略不计。 超 链 接 标 记 : 该 标 记 之 所 以 单 独 做 为 一 个 类 别 , 是因 为 现 在 爬 虫( s p id e r ) 搜索技术中需 要, 有可能我们在网页中 查找的内 容是一个“ 超链接” 形 式,这个时候我们就需要在超链接所在的页面中进行信息的定位和查 找。 基于版面分析网页信息抽取的方法模型 第二节 网页信息区 域定位方法模型 通过网页结构的方法表示模型,我们从网 页中 将所有的 信息项内容 进行了 抽取, 并且以 适当的方式进 行了 组织。 这是网页信息 抽取工作的第一步。 网页中的信息组织和普 通文档图像中 的信息组织是非常相似的, 只不过从 网页的 源代码 ( s o u r c e c o d e ) 文件中查 看信息时, 感觉网页的 信息组织是非 常的 零乱不堪。 网 页信息 在网页中 显示时 是以信息区域块的形式展现的,因此,我们期望 对抽取得到的 各个信息项进行合并的操作,以便 将内容相近或者相似的信息项 进行整合,最终使得信息项以信息块区域的形式进行表示。对各个信息项进行 整合和归并的 操作还不涉及信息的定位和检 索工 作,我 们只是期望根据信息项 间的位置关系 和逻辑关系得出 信息块区域的 分布 位置和区 域信息,以方便后面 的信息抽取和定位工作。 现在将网页信息区域定位方法模型的思想介绍如下。该模型方法主要由相 似度直方图描 述方法和聚类15 1 定位方法构成。 通过上面的 “ 表示模型” ,可以 清楚 地知道,在信 息初步的抽取后,我们得 到了 最底层的w e b 网页中 每一个单独的 字符串 信息,以 及对应于每一 个字符串 信息的 “ 标记字符串”内 容。这里区域定 位的方法模型采用了“ 双层” 聚类的 机制。 “ 双层”聚 类由 初级信 息聚类和高级信息聚类两层构成。 下面分别对这两 层聚类时所采用的方法和机制进行详细的介绍。 初级信息聚类,该步骤完成最底层的信息字符串到信息行和段落的合并, 合并时所依据的原则是每一个底层信息字符串的 “ 标记字符串”相似度。由于 网页中 信息之间 位置 上的 相关性, 所以在 进行信息 项的 相似合并时只需考虑相 邻的字符串 信息项即 可。 计算字符串之间的 相似度并且 进行平滑处理时所采用 的算法模型如图2 . 3 所示。 基于版面分析网页信息抽取的方法模型 图2 .3字符串相似度计算模型流程图 图 2 . 3所示 是更 新每一个字符串 与左右相 邻字符串的相似度时用到的算法 流程图。 当前 字符串在更 新前的 相似度数值是i c u r r e n t , i l e ft的 意义是当前字符 串 的“ 标 记 字 符 串 ” 与 左 边 相 邻 的 字 符串 的 “ 标 记 字 符串 ” 中 相 同 的“ 标 记( t a g ) 个数, mi g h t 同 理 代表与 右边相邻的字符串 相同的 “ 标记”的个数, t h r e s 是 根 据不同的网页设置的域值,mi r e c t i o n的含义是方向,0 代表向左,1 代表向右。 如果 mi re c t i o n = 0,则代表当前信息项向左合并. 基于版面分析网页信息抽取的方法模型 wr e n e w r e g i o n i p r e = i cu r r e n t f a l s e t r u e f a l s e f a l s e i c u r r e n t 移 向下一个 id i r e c t i o n i c u r 一 id i r e c t io n i c u r + 1 = 0 t r u e 图2 .4 w e b 初级 信息聚类算法 模型流程图 图2 .4 所示 是进行初步区域归并时 的算法 流程图, w r e 代表前一个字符串 信 息项的相似度数值,i c u r r e n t 代表当前的字符串信息项的相似度数值,数组 i d i r e c t i o n 代 表当前的 字符串 信息项的归 并方向, 0 代表向 左, 1 代表向 右。 该流 程图很清晰的描述了 初步的区域归 并和生 成算法。整体上是趋于向 左看齐的初 步区域归并。在经过上面的两个步骤后, 便完成了区域的初步聚类。 这个步骤 的工作主要是 逐条信息项到信息行、信息 列表和信息段落的合并,还没有实 现 最终的区域划分。图2 .5 描述了经过初级聚类操作后的版面分析结果。 i n f o r ma t i o n s t r i n g p a r a g r a p h l i s t f o r m i n f o r m a t io n s t r i n g p r i m a ry c lu s t e r ta b l e li n e i n f o r ma t i o n s t r i n got h e r s i mi l a r a r e a 图2 .5初级信息聚类结果流程图 高级 信息聚 类,该步骤期望完成整 个网 页的 版面分析,得到网页的整体版 面结 构。 经过此步骤, 我们可以 得到网 页中 的嵌套结 构和较为复杂的 信息区域, 基于版面分析网页信息抽取的方法模型 而这些复杂区 域经过本文所建立的 模型变得有规律可循. 下面 通过图表形式给 出陈述。 很明显, 在初步的信息聚类中, 我们无法得到结构 更加复 杂且有 规律的信 息区域,得到的仅仅是相邻相似信息项之间的合并结果,而没有在更大的范围 内进行信息项之间的合并处理。所以,我们还没有得到网页的整体版面区域结 构。下面举例说明。 p l i g h t t r a v e l巫立巡应丝敛e 丝且 “ a r r i v e s t o y s t i r e , a a r t i sss pp-(h h :a ) 14 10 = 3 8 9 4 4 0 6 v ( 4 4 0 6 o p e r a t e d b y灯八a i dr o e s ) 弱 1 8 k / 1 0 4 2 ( 4 5 1 8 o per a t e d b y a t a a i r l i n e s ) l l : oop m 7 : 阳.ns肠 : 岛u n a v a i l 曲 l e u n a v a i l a b l e 皿e st ri e t e d r . , , 巴 . 书 3 0 4 一 字 3 3 4 u na v a i l a b l e l l : s s p a 1 1 : 4 0 a e oak/1此 : 4 5 场 n a v a i l a b l e u n a v a i l a b l e u n a v a i l a b l e 图 2 . 6航空网页表格区域示例图一 图2 . 6 是航空网页中的一个 表格区域 ( t a b l e r e g i o n ) , 在经 过信息的 初级 聚 类后,我们只是将表格中的每一行信息聚到了一起,却没有得到整个的表格区 域结构。该表格区域对应的相似度直方图如图2 . 7 所示。 图2 .7航空网页表格区域 示例图 一对应相似 度直方图 很明显 这是一个有规律的区域,有三个小尖形状, 其实它们代表的意义是 “ ” , 即 表格结 构 ( t a b l e r e g i o n ) 中 一行的 结束。 接下来再以两个 较为 直观 并具有代表性的实例进行对比说明。 基于版面分析网页信息抽取的方法模型 日傲勺 翻 拍. 咄 0 刁c id cb w b a 4 u lwm a b 6 p k 日c k k b 4 e m * w m o0 邑 c k k b m m6 4 m 4 m k s 6 0 40 习 c k k b a b a f m b m f f pm0 困c k k b d mh e lam 4 4 6 d 10 创 日 翻 1 翻 .了 u e , 1 5 / 几 tg / 到 知口 f l i g h t f d 3 3 6 u 友 陈翻 t x 日t u e , 1 s / a o g / 2 0 0 口 0 6 :4 80 7 : 4 5 日 a n g 如 卜 日 叹 ) u d o n t h a n i ( u ! h ) b a n g k 吐 日 民 “ ) u d a n t h a n 1 ( u n 4) 篡爹器一 d叨一4045一1515一40朽一1515 为1一叻07-场灯一叻a7一1617 i 已 口 悦 二 90田下 日日 拍 口 了日 日 二 的m 1归 日 主 9田了 日 日 we d , 1 6 / a u g l 2 w 6叻 4 0 “ , . . b e n g k a k( b k k ) f ist f d 3 3 6 0 0 7 . 4 5一wo n t h -( u t m ) we d , 1 6 / a u 侧 2 0 0 6场: 1 5 n . a s a n g k o k( s k k ) 峋 h t f d 3 3 6 4 171 5 u d o n t h a n (u t m ) t h u , 1 7 / d+ g / 2 w6 0 64 0 o . o - s w切 胎 ( w k ) f i jrc f d 3 3 6 0 0 74 5 一听t h a n . ( v t m ) t w , 1 7 / x u g / 2 w 6 1 6 : 1 5 mn 4 b a r h ) k 以 ( b k k ) f 吮 如 f 0 3 36 4 1 7 :1 5 4 n a a u d o n t h a ro ( u t m ) 一一一一一wm 图2 . 8航空网页表格区域示例图二 图2 .9航空网页表格区域示例图二对应相似度直方图 1 7 基于版面分析网页信息抽取的方法模型 ,g o o d re lla w , p n . l d a d m g , s m . d b p m e n t 1 0 2 , 2 5 1 - 2 5 8 (1 9 8 8 ) i p u b m e d i c h e m p 皿 1 2j s 7人. v ill,. , . 日. p . p si , j 几p e m h e lle t , j . p . r e c e d p m a . h a m r e a ”, , , (1 5 7 3 ) . i p u b m e d i c h e m p o rt i 3 . v e rg n a u d , g时a l a m j h u m g e e d . 3 8 . 1 0 9 - 1 2 4 (1 8 8 6 ) i p u b m e d i 旦i c h -nd i 4 . g u e lls m, g . d a l n o t- 知7 . 1 7 2 - 1 73 (1 9 6 4 ). i a d l j e i p u b m e d i is l i c h e m p o d i 5 . g o o d fa llo w , p j , d a d m g , s m , t h e m e s , n s . l g o n d le llo w , p . n s c - 2 3 4 , 7 4 0 - 7 4 3 ( 1 9 8 6 ) i

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论