【毕业学位论文】（Word原稿）大规模网页模块识别与信息提取系统设计与实现

上传人：O*** IP属地：四川上传时间：2017-04-17 格式：DOC 页数：41 大小：1.58MB 积分：20 举报 版权申诉

【毕业学位论文】（Word原稿）大规模网页模块识别与信息提取系统设计与实现_第2页

【毕业学位论文】（Word原稿）大规模网页模块识别与信息提取系统设计与实现_第3页

【毕业学位论文】（Word原稿）大规模网页模块识别与信息提取系统设计与实现_第4页

【毕业学位论文】（Word原稿）大规模网页模块识别与信息提取系统设计与实现_第5页

已阅读5页，还剩36页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

本科生毕业论文题目： (中文 ) 大规模网页模块识别与信息提取系统设计与实现 (英文 ) 名：学号：院系：计算机系专业：搜索引擎与互联网信息挖掘指导教师：二一七年四月十七日 00448174 朱磊本科毕业论文 2 00448174 朱磊本科毕业论文 i 摘要本文在已有的基于启发式规则的网页信息提取算法的基础上，通过为所有符合范的签分类，逐个分析各签所包含的语义信息，细化规则设置，实现了一种自底向上的无信息遗漏的网页分块算法，并在此基础上，利用统计方法得到详细的概率分布数据，实现了文本相似度比较和验概率估计两种网页主题内容信息块识别算法，并将其求交，提高了主题内容信息块的识别精确度。上述算法已集成到天网搜索引擎平台的网页预处理模块中，并且在 008 会议中，以这套算法为框架，组织了主题型网页识别和网页主题内容信息块提取两个中文息检索评测项目。在这套算法的基础上，基于天网文件系统与算平台，实现了分布式的网页块级别法，命名为法。实际检验表明，该套算法具有很好的适应性与可扩展性，并达到了很高的精度和召回率。关键词：网页分块信息提取测磊本科毕业论文 i on of eb by in 3C by in by it a On of of is of 008 we eb of In at a 0448174 朱磊本科毕业论文录第 1 章序言 . 3 第 2 章相关研究工作 . 5 于语义的网页信息提取算法 . 5 于视觉的网页分块算法 . 6 法 . 8 . 8 . 10 第 3 章天网搜索引擎块 . 11 页分块算法 . 13 页主题内容提取 . 16 法效果演示 . 18 第 4 章文息检索评测 . 23 测任务介绍 . 23 题型网页发现任务 . 23 页内容信息发现任务 . 24 测格式 . 25 测结果 . 25 题型网页发现任务评测结果 . 26 页内容信息发现任务评测结果 . 28 测综述 . 31 第 5 章网页分块的分布式应用 . 32 . 32 他应用 . 34 第 6 章总结与展望 . 35 结 . 35 望 . 36 00448174 朱磊本科毕业论文 3 第 1 章序言信息时代，非以制胜。互联网的高速发展，改变了我们的生活方式，打破了我们的时空界限，重塑着我们的社会形态。经济、政治、学习、工作、生活、娱乐等等各个层面都在络中激荡起伏，深刻地影响着人类的未来。而络的灵魂，就是流动在其中的无穷无尽的信息。意义就在于网络内容的提供方从商人和专业人员转变为网络上的每一个普通用户，从而几何级数地增长了信息量。然而信息量的增大，随着而来的就是存储成本的增大和信息提取难度的增大，如何有效的获取和整合息成为大家面对的共同课题。传统意义上，整个络就是由无数的面而构成，它们是网络信息存储和提取的基本单位，获取了这些面就相当于获取了息内容。但是把整个页面作为最基本的信息处理单位有一些不合理之处。首先是因为主题内容，也有广告，导航栏，版权信息，装饰信息，以及在大量网页中重复出现的部分，它们自身的信息含量千差万别。当网页浏览者刚打开一个新页面的时候，如果之前没有浏览过类似页面，就会目不暇接，眼花缭乱，有无所适从的感觉，必须仔细探寻一番才能定位到这个页面的要害；如果之前浏览过类似页面，比如常上这个网站，那么通常浏览者就已经训练出一种直觉或者说是条件反射，他会立刻定位到他所想要浏览的部分，从而忽略掉页面中的其他部分。其次还因为现在很多面是动态更新的，比如博客页面或者论坛讨论帖，它们的更新是以一个一个网页块的形式进行的，更新时页面上大部分内容并没有变化，如果仍然以整个页面为处理单位，则不可避免地存在效率损失和定义的混淆。这些情况促使我们反思以整个页面为基本信息单元的做法不仅不尽合理，一定程度上甚至已经损害了网络浏览者的用户体验，妨碍了网络信息提取的效率。解决这个问题的办法其实有两种思路。第一种就是从信息的产生方那儿就不再提供网页式的信息，而改为直接提供网页块或者文字段式的信息。最常见的例子就是合内容，，博客或者新闻的提供方省去了浏览者访问网站查看更新的麻烦，直接将精简后的网页块或者文字段发送给订阅方。第二种则更为普适，就是细分网页中的信息单元，也就是给网页分块，在网页分块的基础上存储和提取面的语义信息。 00448174 朱磊本科毕业论文 4 基于网页分块的面的语义信息提取在很多方面都有应用。比如，在常规搜索引擎中，可以以网页分块为基础去除网页中的噪音信息，识别出网页中的主题内容信息块，从而用提取出的主题内容信息来构建对这个页面的描述，完成网页分类、网页消重等应用。还可以凭此改进搜索引擎的索引模块和检索模块的效率，比如改进算法（详见第五章）。面的语义分块另外一个重要用途在于移动终端访问互联网，比如手机和。因为目前大部分的面都是针对设计的，要求有相对较大的屏幕。而移动设备通常屏幕较小，计算能力有限，无法直接访问这些页面。为了解决这个问题，要么是内容提供商手工编辑专门适用于移动设备的页面，要么就只有对页面进行语义分割，并在分割后的页面中选择信息量最高的语义块。除此之外，面的语义分块还可能对常规搜索引擎之外的其他信息检索系统有帮助。比如类似于新闻人物追踪和历史新闻检索等应用，出于节约存储空间，提高检索精度，方便更新等目的，可以直接存储和操作网页中的主题内容语义块，而舍弃网页中其他与系统需求无关的语义块。在这篇论文中，第二章介绍了本文的相关研究工作，包括常见的网页分块和信息提取算法、基于视觉的网页分块算法，以及网页分块的一个应用法；第三章介绍了我实现的网页分块和主题信息提取算法四章介绍了法在文息检索评测项目中的实际检验；第五章介绍了在法基础上实现的一个分布式序。第六章是对本文的总结和工作展望。 00448174 朱磊本科毕业论文 5 第 2 章相关研究工作基于语义的网页信息提取算法由于对面有效分块之后可以极大地方便内容提取、数据挖掘、息检索领域的相关工作，所以早有很多研究人员前赴后继，就此展开了很多工作。其中，基于语义信息对网页分块是最简便，也最基础的一种方法。所谓语义信息，通常包括网页中包含的签信息，的结构信息，文字内容信息，超链接信息，以及其他通过统计或学习而得到的全局信息等等，也可以理解成为除了网页中的视觉信息之外的所有可以得到的信息。通常基于语义的网页分块算法是和后续的网页主题内容提取结合在一起的，也就是在网页分块的过程中，同时完成了主题内容提取的工作，并且主要的注意点是在主题内容提取上，因此分块算法就比较简单，甚至不显式地分块，在此我们统称它们为网页信息提取算法。总的来说，网页信息提取算法可以分为两类，一类属于网站级别（一类属于网页级别（当然也有将两类方法结合使用的算法。算法顾名思义，就是分析一个网站或者网页集内部的所有网页，从中提取反复出现的模式，而一般来说，在多个网页里重复出现的模式（可理解为树）就是导航栏、广告等噪音信息了，单个网页中减去这些信息，剩下的就是主题信息内容。关于研究一直在继续，就有一篇名为的论文使用正则表达式来提取重复模式，从而更适应网页间的细微变化，增加了召回率。算法在处理大型网站的网页时效率常常不如优势在于灵活，不受网页类型限制。它只利用单个页面内部的信息，当然也可能会用到一些全局信息。宾夕法尼亚州立大学 2005 年的论文 2就是其中的典型。这篇论文提出简化块与块之间的层次结构，直接提取一些原子块（，诸如以为根节点的树，来完成分块工作。这一方法虽然简单而易于实现，但依赖于事先给出的原子块列表，同时忽略了原子块之间的嵌套链接问题。在分块之后，它也只是简单计算了文字长度等几个变量来决定主题信息块。 00448174 朱磊本科毕业论文 6 合并方法也一直有人尝试。论文先利用一个音模板提取器来构建训练集，然后对所有页面构建，为各节点提取分类特征，比如各节点的文本向量，各节点中链接的平均字数，各节点中链接文字所占比例等，最后利用以上训练集对测试集中每一个节点打分，经过等压平滑之后，判定每个节点的类型。所以它是典型的先方法。基于视觉的网页分块算法基于语义的网页分块算法具有一些无法克服的先天性局限。首先，直没有有效统一，而且其语法规范很松散，一些不符合以网页编写者在制作网页时相对随意，导致 3C 规范；其次，浏览器各自为政，对签的识别不尽相同，至还特别为件设计了特别的辅助显示，这些都增加了基于规则分块的复杂性。在实际编程中，就必须得借助一些范工具如来修正结构的错误，但个别中文网页仍然存在无法修正的情况。而且最早引入是为了在浏览器中进行布局显示而不是进行面的语义结构描述。比如，即使中两个结点具有同一个父结点，那么这两个结点在语义上也不一定就是有联系的。反之，两个在语义上有关系的结点却可能分布在的不同之处。因此仅仅通过分析并不能完全获取面的语义信息，所以依赖于的启发式规则算法存在先天不足。而基于视觉的网页分块算法就弥补了这个不足。它的原理来自于用户的实际观察体验，即用户并不关心面的内部结构，而是使用一些视觉因素，比如背景颜色、字体颜色和大小、边框、逻辑块和逻辑块之间的间距等等来识别出页面中的语义块。因此如果充分的使用面的视觉信息，模拟人眼识别语义块的过程，并结合结构分析进行页面分块，则可以达到更好的效果。微软亚洲研究院在其 2003 年的论文 A 里首次提出了基于视觉的网页分块算法法充分利用了面的布局特征（见图 1），它有三个主要步骤：首先从中以较小的粒度提取出所有可视标签块，并且给每个可视标签块计算出一个一致性程度 ”，值来描述该块内部内容的相关性。值越大，则表明该块内部的内容之间的联系越紧密，反之越松散。第二步利用每个可视标签块的绝对位置和相对位置信息，检测00448174 朱磊本科毕业论文 7 出它们之间的所有的分割条，包括水平和垂直方向。最后基于这些分割条，利用更多的诸如颜色等视觉信息，重新构建面的语义结构。法的优点十分明显，它充分利用了网页的视觉信息和结构信息，相对于传统的基于规则的分块算法来说，大大提高了分块的精确度。但法也有其局限性：首先，提取网页视觉信息代价很高。因为言本身并没有包含足够的视觉信息，所以网页真正显示出来的效果因浏览器，因操作系统，甚至因硬件而异。为了得到网页的完整视觉信息，必须完全下载该网页所链接的件，件，图片文件等等，然后调用浏览器内核代码渲染这些网页文件，最后从浏览器内核代码的接口中得到每个签的视觉信息。整个步骤不仅耗时，而且十分依赖于浏览器内核代码。网络上看到的一些法实现都是调用了口，而微软自身的实现是利用单独优化后的核，他们都是基于程环境。在程环境下，可以利用的只有览器的开源代码。但码并没有针对网页视觉信息提取这一需求给出方便的使用接口，只有在其渲染完网页之后再截取视觉信息。我们实验室的毛先领师兄曾经研究码，完成了这项艰苦的工作，但实验表明，提取一个网页的视觉信息所需时间超过 1 秒钟，不能满足搜索引擎等常规应用的使用要求。其次，法虽能改进分块精确度，但算法相对比较复杂，迭代轮数较多，而基于规则的分块算法却只用较少的迭代轮数。 00448174 朱磊本科毕业论文 8 法在法的分块基础上，微软 2004 年的论文中提出了法。之前的大多数链接分析算法都是以一个面为中的一个节点，而法以网页中的语义块为原子节点，从链接结构和页面结构中提取出系矩阵，构建出新的以此计算验表明，先定义两个集合 P 和 B。 P 为所有网页的集合， P = , k 为网页总数。 B 为所有语义块的集合， B = , ， n 为语义块总数。对每个语义块来说，只有一个网页包含它，味着语义块 i 包含于网页 j。而每个网页包含有多个语义块。然后定义两个矩阵，阵 Z 和阵 X。在上述两个矩阵的基础之上，可以构建两个模型，即网页图 P, 和语义块图对这两个图来说， V 是节点集合（节点分别是网页和语义块）， E 是连接两个节点的边的集合，而 W 是边的权值矩阵。阵块页（阵 Z 的维数为 n k，定义如下： i 所链接的网页总数。以理解成是用户从 i 链接到j 的概率。阵页块（阵 X 的维数为 k n，定义如下： 1 / b l o c k j p a g e 如果属于 0 否则1 / b l o c k i p a g e 如果中有链接指向 0 否则00448174 朱磊本科毕业论文 9 i 所包含的数。上面的公式分配给 i 中的每一个相同的权值，显然是过于简化了，不能区分重要程度。在法中，采用了一个简单的要度区分的公式，即用文字多少和离整个页面中心点位置的远近来计算重要度。每个离页面中心点越近，则越重要。改进后的 X 定义如下：其中 f 函数给 i 中的每一个 j 赋予一个重要度权值。函数值越大，则重要。在实现中函数 f 的定义如下：其中为正规化因子，使得对每个 fp(b)的总和为 1。即 fp(b)可以理解为是用户在浏览 p 的时候，关注 b 的可能性。统的法中权值矩阵计算十分简单，如果从 i 到 j 有链接的话，则 WP(i,j)为 1，反之为 0。然而在法中，就是说，当用户点击页面中的超链接时，更偏好选择重要的语义块中的以在，定义为：即Z。 , )可以理解为是从开始，以中包含的各语义块为媒介， b l o c k j p a g e 如果属于 0 否则 P p a g e p b l o c k bf b l o c k 中的大小的中心点到页面中心点的距离 , , W b b P 00448174 朱磊本科毕业论文 10 跳转到的概率。 B 的定义为：即X。 WB(a,b)可以理解为用户从 a 开始，以包含 b 的为媒介，跳转到 b 的概率。别的实质在于，法基于原始的只有 1 和 0 的法基于上面提到的其中 p 为结果向量，共 n 维，每一维代表一个网页的。为适配参数，以 1概率，用户在当前页面中随机选择一个超链接，跳转到该链接指向的页面；以的概率，用户从所有网页中随机选择一个所以 U 为 n n 的转换矩阵，它满足对所有的 i， j， 1/n。而 n n 的转换矩阵，它是由上面提到的值矩阵对每一行做归一化，令每一行的权值之和为 1 得到的。 p 向量的值以马尔科夫链的形式循环计算下去，直到算法收敛。单纯的含了更多的语义信息。因为它的计算基于网页中各语义块的重要程度，噪音块、广告块中的超链接指向的网页的重要性显然不如导航块、正文块中的超链接所指向的网页，所以前者会被分配到较少的，而后者则被分配到较多的。也就是说，网页中的无关信息区域在计算过程中起的作用相对较小，所以效果要优于单纯的 B a , b Z a , X b , a , (1 ) ) p p 00448174 朱磊本科毕业论文 11 第 3 章天网搜索引擎块搜索引擎系统一般包括网页的抓取、预处理、存储、索引、检索等几个部分，其中预处理部分的作用是分析、处理原始网页数据如去除网页噪音，消除重复网页，计算文切词等等，并为后继模块提供统一的数据访问接口，规范数据管理，避免重复计算。同时在天网搜索引擎平台中，基于功能扩展和实验室内部其他相关研究的需要，必须将对原始网页的处理部分单独出来，从而方便模块复用，统一代码管理，减少重复劳动。在天网搜索引擎平台的搭建过程中，也包括了抓取、存储、分析（预处理）、索引、检索等模块，其中的分析模块接受成批量原始网页的输入，然后对每个网页调用块，进行网页分块、信息提取等工作，最后将处理后的数据存成式，再提供给下游模块。我的毕业设计的主要工作，就是围绕从上面的介绍中可以看出，天网搜索引擎块有两个比较重要的特点： 1、可扩展性。因为搜索引擎是一个比较庞大的系统，并且一直在不停的有新算法，新需求的加入，所以对数据的要求也会一直变化。而基于对原始网页数据集中处理的原则，为了应对下游模块可能提取的新的数据访问需求，块必须具备良好的可扩展性，并且提供尽量多的各种类型的数据访问接口。同时由于实验室人员的不固定性，代码的维护十分重要。我自己在刚开始阅读旧有的天网搜索引擎相关代码的时候，就常有十分难懂的感觉，无法复用已有代码，只好自己重新编写。而正由于块的可扩展性要求，所以它的代码的可阅读性也十分重要，在编写的过程中，我尽量注意了这一点，遵守了我们统一的代码规范。 2、独立性。在我们实验室内部，除了搜索引擎之外，还有据挖掘，因此块必须能独立于搜索引擎代码之外单独编译运行，并且方便他人调用这部分代码。 00448174 朱磊本科毕业论文 12 基于上述两个特点，我初步实现了块。该模块的类结构图如下： 1、图中右下及中间蓝色的部分为核心功能类，包括四个类。的作用有两个，一个是以原始网页为输入，建立一个是存储分好的网页块（在我们的系统中，每一个网页块就叫做一个并记录间的组织架构。指代一个每个身就是一个的对象。肩负网页分块的重任，从网页中识别出所有语义块。它依赖于前面的两个类。依赖于，它在分好的块的基础上，判断各个块的类型，提取正文信息。这个类是整个块最核心的类，目前功能只是初步实现，还有很大的改进空间，将来也可以根据功能将其分割成多个类。 00448174 朱磊本科毕业论文 13 2、中上部绿色的部分为块的评测和演示类，包括个类。是评测类，用来评测心类的实现效果。当前实现的是对网页正文信息提取的评测，评测需要接受人工标记的网页或网页集为输入。评测算法的细节见后文。演示类，用来查看前可以查看网页分块的效果，也可以查看主题信息提取的效果。 3、最上面黄色的部分为块的应用类，包括，它们都是利用分好的网页块实现的一些算法，比如基于法，基于网页消重算法，以及基于网页分类算法。 4、左下方灰色的部分为块依赖的外部类接口，包括中文切词类及图中没有的编码转换类等。 5、中下部红色的部分为块直接的下游模块，包括和。页分块算法算法主体在中。参见在第二章相关研究里提到的，除了基于视觉的算法之外，大部分基于语义的算法都是利用签及其包含的文字信息的特性来给网页分块的。并且由于大多数论文的着重点在于分块后的内容提取上，所以对分块算法本身着墨不多。综合各篇论文里提到的分块方法，我设计实现了法。这一算法首先的一大特点就是实用性强。所谓实用性强是指适合在实际系统中使用，效率高，定义完整。我详细分析了定的式规范，将所有规范的签根据法的需要分类，完整地列出了所有对网页分块起重要作用的标签，而不是像所有已有论文那样仅仅象征性地列举出几个签。分类后的详细签清单如下： 00448174 朱磊本科毕业论文 14 1、超级标签（简称为 S 型标签）：这种标签可以被直接认定是一个网页块的根标签，在算法过程中一旦遇到这种标签，就可以直接将其加入网页块池。包括： 2、大标签（简称为 B 型标签）：这种标签通常都代表一个网页块，只不过有时其内部内容过少，需要跟其他节点合并成一个网页块，或者在特殊情况下其内部没有可见字符。所以在算法过程中，遇到这种标签，就判断其单独作为一个网页块的条件是否已经成熟，如成熟，则将其加入网页块池。包括：这里需要注意的是像个标签也作为 B 型标签，原因是这样可以防止分块之后网页内部文字信息的遗漏，因为最终即使有遗漏，也会至少包含在个最后把关的门神标签手中。 3、排版标签（称为 L 型标签）：这种标签能影响到网页的显示效果，改变文字布局。如果一颗树中包含多个 L 型标签，则该子树单独成块的可能性增加。包括： P, 4、显示标签（称为 D 型标签）：这种标签数量最多，都是对文字的显示方式做微幅的调整，如改变字体、颜色、粗细等等。由于它们的存在与否不改变网页布局，所以不影响网页分块。包括： A, B, I, Q, S, U, O:00448174 朱磊本科毕业论文 15 5、附属标签（简称为 A 型标签）：这种标签从属与上述四种标签的某一种，同时有些也出现在了前面四种里面。由于它们一般不单独出现，对网页布局的影响体现在了其属主标签中，所以在法中也不予考虑。包括： 6、定制标签（称为 C 型标签）：因为不同的应用中，对网页分块会有些不同的要求。比如我们实验室的组在进行新闻网页的数据挖掘的工作中，需要使用到网页分块，但是他们特别需要提取该新闻网页的发布日期和时间，而这部分内容通常是在新闻标题与新闻正文之间的一小行文字，正常的网页分块程序并不会将其单独提取成一个网页块。所以我添加了定制标签，由用户指定，它可以是普通的标签如“ ，也可以是正则表达式，凡是其内部文字满足该正则表达式的 S 型、 B 型和 L 型标签，都将被单独提取为网页块。例如：在明确了各签的类别之后，利用各标签节点的类别信息和内部文字长度，以及其子标签节点的类别信息，对底向上遍历，在遍历的过程中不断判断出新的网页块，并加入网页块池中，当遍历到最上部的节点时，算法结束，网页分块完毕。法的核心伪码如下： _ 某单个网页构建的制标签 (C 型 )节点列表 1 用叶子节点，也就是文字节点建立一个当前节点队列，开始自底向上遍历。 2 取当前节点队列的第一个节点。 3 如果遇到 S 型节点，则立即将此节点加入网页块池。 4 如果遇到 C 型节点，则立即将此节点加入网页块池。 5 如果遇到 B 型节点，则判断该节点内部的文字长度是否已超过阈值，或00448174 朱磊本科毕业论文 16 者该节点内部的 L 型节点比例是否超过阈值，如果满足上述两个条件之一，则将此节点加入网页块池；否则将其内部文字长度信息和自身信息向父节点传递，然后将父节点加入当前节点队列，回到 2。 6 如果遇到 L 型节点，则将其内部文字长度信息和其自身信息向父节点传递，然后将父节点加入当前节点队列，回到 2。 7 如果遇到 D 型或 A 型节点，则将其内部文字长度信息向父节点传递，然后将父节点加入当前节点队列，回到 2。 8 当前节点队列为空时，遍历结束，算法终止。 _ 网页块池中的网页块是以格式存储，而中包括原来的树的构和其他相关信息，同时在上述遍历的过程中，即使有的网页块从构上来说包含在更高层的网页块之下，但在也消除了包含关系，所有网页块都互相独立，互不包含。页主题内容提取算法主体在中。采用了基于规则和基于语义分析相交的方法，也就是分别用基于文本相似度的方法和基于方法判断每个网页块的类型（是不是主题块），然后对它们求交集，只有两个方法共同认定的主题内容块才能最终被认定。法的核心伪码如下： _ 第一步，基于文本相似度的

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

【毕业学位论文】（Word原稿）大规模网页模块识别与信息提取系统设计与实现

文档简介

温馨提示

最新文档

评论

【毕业学位论文】（Word原稿）大规模网页模块识别与信息提取 系统设计与实现

文档简介

温馨提示

最新文档

评论

相关文档

【毕业学位论文】（Word原稿）大规模网页模块识别与信息提取系统设计与实现