【毕业学位论文】科技数据源的自动化集成与分析研究_第1页
【毕业学位论文】科技数据源的自动化集成与分析研究_第2页
【毕业学位论文】科技数据源的自动化集成与分析研究_第3页
【毕业学位论文】科技数据源的自动化集成与分析研究_第4页
【毕业学位论文】科技数据源的自动化集成与分析研究_第5页
已阅读5页,还剩58页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

北京理工大学硕士学位论文 I 摘要 科技信息存储形式种类多变,同时科技信息的数据具有来源广泛、种类繁多和增长迅速的特点。然而,由于系统实现时间以及实现技术上的差异,使得在不同的系统中间存有大量异构的数据源。异构数据源的存在给不同系统之间实现数据的互访带来了很大的不便。此外,在科研过程中,经常需要根据特定的主题,有针对性的获取数据并得到分析结果。 本论文中选取了中国、美国和欧洲专利数据库、息作为科技数据源。针对特定研究领域制定相应的检索策略,根据检索策略从中国、美国和欧洲专利数据库上获取专利详细信息;为了对专利发明人和申请人所做的研究工作进行进一步研究,需要以此作为检索条件从 索引擎上检索海量信息,并通过 息抽取、正则提取、 文本分类等方式获取有效信息。 对抽取的信息进行数据清洗和目的数据存储,实现数据集成。 通过上述研究工作,实现了对不同数据源的同时访问,以及对面向主题的科技数据源的自动集成与分析。能够全面地监视专利文献、重点网站,发现国内外研究活跃的科学技术领域、重要的科学家和技术专家、重要的研发机构等,对科研工作起到一定的参考作用。 关键词: 数据集成 ;数据获取;信息抽取;数据清洗 北京理工大学硕士学位论文 he of of of of to of in a of to In it is to to eb as to it In to do on it by eb to it of of eb be & D be an in 京理工大学硕士学位论文 录 第1章 绪论 . 1 究背景及意义 . 1 内外研究现状及发展趋势 . 2 究内容 . 4 究框架 . 6 第2 章 相关技术及理论研究 . 8 据源 . 8 据源类型及其特点 . 8 据源的异构性 . 9 据集成 . 9 据集成的定义 . 9 据集成面临的技术难点 . 10 据清洗 . 11 索引擎工作原理 . 11 . 12 则表达式 . 13 本自动分类 . 15 文分词与停词 . 15 征选择 . 15 重计算 . 17 页自动分类算法 . 18 第3章 自动化集成与分析模型 . 20 据集成的常用体系结构 . 20 动化集成与分析模型设计 . 24 北京理工大学硕士学位论文 4章 模型方法研究 . 28 向主题的数据获取 . 28 . 29 页正文提取 . 31 . 33 于. 34 本自动分类 . 36 据清洗与目的数据存储 . 39 据质量 . 39 据清洗过程 . 40 据集成的目的数据存储 . 42 第5 章 实证研究与分析 . 44 据获取 . 44 则表达式抽取与文本分类 . 45 据清洗与目的数据存储 . 49 验结果可视化 . 49 结论 . 54 参考文献 . 56 致谢 . 59北京理工大学硕士学位论文 1 第 1 章 绪论 究背景及意义 源中包含了大量的异构信息和服务,遍布于 的 务器将各种异构的数据集成在一起,形成了一个全球性的信息共享环境。随着术的迅速发展和应用 需求的不断深入,科技数据源存储的数据量快速上升,为了充分利用各系统内已有的科技数据资源,越来越多的用户希望能够同时访问和处理来自多个数据源的数据。 然而,由于系统实现时间以及实现技术上的差异,使得在不同的信息系统中间存有大量异构的数据源。关系数据库和面向对象的数据库,这些数据库都有良好的数据模型,而且还包括半结构和非结构的数据,如数据的存储格式上看,在本质上表示相同信息的数据,在不同的数据源中也可能会被定义为不同的存储格式,如字段名称定义、字段类型定义的差异等。 异构数据源的存在给不同信息系统之间实现数据的互访带来了很大的不便。目前,几乎所有的大型商业应用,如电子商务、虚拟企业等,都是基于类系统采用浏览器/应用服 务器/数据库服务器的三层应用程序模式,系统中重要的业务数据则保存在数据库中。另外,由于所有权的限制,集成系统不可能对这些数据信息往往被发布到网页上,形成 据。同时,很多遗留系统的数据都是无结构的图片、文本文件、视频等。 本论文中研究的科技数据源指的是中国、 美国和欧洲专利数据库、 网页信息。专利数据库本身的存储形式是结构化的数据库, 可是专利信息通过网络发布之后成为了半结构化的数据; 网页信息指的则是通过些信息的存储形式有些属于半结构化的数据,有些则属于非结构化的数据,这些数据跟前者比起来结构化程度更低,给数据获取和集成工作带来了很大困难。 在科研过程中,经常需要根据特定的主题,有针对性的获取数据并得到分析结果。在本文中,针对研究领域制定相应的检索策略,根据检索策略从中国、美国和欧洲专利数据库上获取专利详细信息; 为了对专利发明人和申请人所做的研究工作进行进一步研究, 需要以此作为检索条件从京理工大学硕士学位论文 2 并通过则提取等方式获取有效信息。 通过上述方式,实现了对不同数据源的同时访问。通过对这些数据源的结构和内容进行分析、评价,采用自动化的数据获取技术,实现对面向主题的科技数据源的自动集成与分析,能够全面地监视专利文献、重点网站,发现国内外研究活跃的科学技术领域、重要的科学家和技术专家、重要的研发机构等,对科研工作起到一定的参考作用。 内外研究现状及发展趋势 数据集成的研究开始于上个世纪七十年代中期, 其发展过程可以划分为两个主要阶段。 第一阶段主要以多库系统的研究为主1多库系统的研究分为三大类:第一类是采用物理上分布、逻辑上集中的系统结构,系统有个全局的数据模式,在这样的系统结构中,各个结点缺少自治性,难以管理和集成3;第二类是联邦数据库系统是一种逻辑和物理上都分布的结构, 其中每个结点有自己的联邦模式, 而不是唯一的全局数据模式,由于不再受制于全局模式,结点的自治性得到加强,数据库系统的集成、扩充和重新配置也变得较为方便4;第三类是 人倡导的多库语言数据集成方法, 这种系统结构既无统一的全局模式, 也无局部的联邦模式, 结点自治性更强,但用户必须接受一种新的数据语言,并且透明性较差5。总之,上述这三类方法都是针对多库系统提出的,仅仅局限于数据库中数据的集成。 第二阶段主要以多数据源集成的研究为主5。九十年代中期,随着计算机网络的广泛普及和传统的数据集成技术已经越来越无法适应人们获取更多数据的需要。在这样的环境下,要求数据集成系统能够实现对数据库中的数据和非数据库中的数据的同时集成,实现对传统数据和多媒体数据的同时集成,以及实现对已有数据源中的数据和随时加入的新数据源中的数据的同时集成。 数据集成系统必须具有可扩展性,可以实现数据源的“即插即用” 。因此,数据集成的研究从多库集成转向了多数据源集成7。 异构数据源集成系统与多库系统相比,数据集成的范围明显扩大了。多库系统主要是对数据库中的数据进行集成,这些数据一般都具有固定的数据模式,而异构数据源集成系统除了要集成结构化的数据外, 还需要集成来自结构化数据没有独立的结构描述信息,如文北京理工大学硕士学位论文 3 本数据。而半结构化数据虽有结构描述信息,但数据与其结构描述之间的关系却很松散,如。 随着人们的注意力从多库集成转向多数据源集成, 一些公司和研究机构逐渐开始着手研究通用的数据源集成系统,具有代表性的有 司的 B、坦福大学研制的夕法尼亚大学开发的 验室和 同开发的 国内东南大学研制的3等。 (1)B:将表格型 数据(包括关系数据)看成 是“行集”对象。然而,“行集” 是针对表格式数据提出的, 并不适合于表示非表格式的或自描述的数据。 (2)系统采用传统的面向对象数据模型作为公共数据模型, 将存放于多个数据源中的传统数据和多媒体数据集成为一个全局模式。由于多媒体数据是很难用数据模式来进行详细描述的,所以这种方法显然不能作为一种通用的数据集成方法。 (3)采用一种自描述的数据模型 为集成系统的公共数据模型,用基于逻辑的语言为集成系统的视图定义语言,便灵活地处理数据之间的异构性。然而,要表现在路径的正则表达式的表达复杂,数据结构的表达也很复杂,使得查询只能为一些非常熟悉系统的专业人士构造。 (4)由宾夕法尼亚大学开发的,它是生成 装器的 具包,基于带有包装器(中间件体系结构(。许应用程序员使用描述性的声明语言来建立包装器,编译为 件并可以作为更大型的应用程序的一部分。其主要贡献包括: (1)包装器分3层,包括检索、抽取和映射: (2)包装器的所有部件都是完全声明性的; (3)整体结构都可以从 面中抽取出来而不是各组成部分的结构; (4)带有可视化向导的工具包可以帮助用户定义抽取规则并在使用前测试包装程序; (5)生成的包装器可集成于任何(5)是一个基于 系结构的典型的数据集成系统。结构能够将映射表北京理工大学硕士学位论文 4 示为一般的树变换。够集成多种异 构数据源(从传统的关系数据库系统到半结构化的 储)。其主要贡献在于: (1)数:介绍了一种可操作的代数模型。 这个代数的表达能力足以囊括现有半结构化的(2)源描述语言:用一种完全(例如, 允许利用源的所有查询能力,不需要应用程序员费力)的方式来展示如何使用 数包装全文本查询或结构化查询语言(如 (6)国内东南大学研制的它使用对象集成模型(0为数据集成的公共模型,提出了一种基于对象代数的查询语言 时引入模板和动态字典的概念统一描述各种异构数据源的模式,不通过扫描数据库,而是利用局部动态字典的模板操作构造集成系统全局动态字典,为查询的分解和优化奠定了基础。 在未来的一段时间内, 异构数据源集成研究的热点是建立一种跨越信息网格( 信息网格就是要利用现有的网络基础设施、协议规范、用户提供一体化的智能信息平台,其目标是创建一种架构在这个平台上,信息的处理是分布式、协作和智能化的,用户可以通过单一的入口访问所有信息。信息网格追求的最 终目标是能够做到服务点播(n 一步到位的服务(s 14。 究内容 本论文通过对中国、 美国和欧洲专利数据库、 网页信息的数据源特征的研究,实现对这几种异构数据源的自动获取,并对获取的数据进行数据清洗与集成。本论文研究的主要内容如下: (1)获取面向主题的多数据源 面向主题的多数据源包括中国、美国和欧洲专 利数据库、检索到的国、美国和欧洲专利数据均属于网络文献数据库。网络文献数据库这种数据源结构非常复杂,不规则性极强。网络文献数据库涉及多个数据库,形式和内容十分广泛,要访问和分析这些数据是一项非常具有挑战性的工作。此外,从 检索到的信息无序性更加明显,对这些数据的获取工作也会有相当大的难度。 本论文按照特定的研究主题,以中国、美国和欧洲专利数据,以及与之相关北京理工大学硕士学位论文 5 的其它网页数据为主进行研究,需要获取的数据既包括结构化数据,半结构化数据,也包括非结构化数据。结构化数据和半结构化数据指专利数据库中的数据,包括中国、美国和欧洲专利数据,这些数据存储的格式是结构化的,可是我们获取的是些数据是对科研成就的重要衡量,是本论文研究中不可或缺的部分。非结构化数据主要指站上的数据,包括与所查询内容有关的各种信息。这些网页数据具有丰富多样、时效性强、更新速度快等特点。以上几种数据分别来自不同的数据源,互为补充,保证了数据的全面性和准确性。 不同的数据源有不同的特征,通过对这些数据源的结构和内容进行分析、评价,分别获取相应的数据源信息。 主要包括:分析各个数据源的大量的异构数据中发现隐含的规律性的内容,获取大量源文件;对获取的网页源文件进行正文提取。 (2)国、美国和欧洲专利数据、网页信息等详细信息都是以们分布于已经获取的大量网页源文件中,并不能直接供研究使用。为了提取出研究所需要的有效信息,必须对其进行面所包含的非结构化或者半结构化的信息中识别用户所感兴趣的数据,并将其转化为更结构化、语义更清晰的格式,其目的是识别 档中数据的语义,并建立映射关系。通过分析这些数据源详细信息页面的源文件结构,判定出有效信息的特征关键词的位置, 制定有效的抽取规则抽取出所需要的有效信息,并能对主要包括:网页结构分析;判定特征关键词的位置;正则表达,制定抽取规则;文本自动分类。 (3)数据清洗和目的数据存储 在数据集成的过程中,数据清洗和数据质量一直是一个非常关键的问题,它直接影响到数据表达的准确性。在多数据源的集成过程中,每个数据源往往由特定的应用程序创建、配置和维护,以满足特定的服务需求。因此和这些数据源相关的数据管理系统、采用的数据模型、数据模式的设计和实际数据等各个方面都存在很大程度的异构性。此外,每个数据源中都可能包含脏数据,不同数据源对同一数据可能存在不同的表示形式、数据重复或者数据冲突。因此相同的数据质量问题在多数据源集成之后会比在单数据源的情形下表现的更为复杂和严重。 除北京理工大学硕士学位论文 6 此之外,在多数据源情形下,数据清洗将面临许多新的问题,比如结构冲突、命名冲突、重复记录等。 由于所获取的数据都是由机器自动完成,因而必然存在数据冗余、错误。通过网络自动获取专利、网页源文件时,会遇到网络中断重复获取的情况,这样就产生了冗余数据。另外,获取的信息中有些是对研究没有用处的。因此这部分主要进行的是数据的清洗和融合,通过数据清洗得到符合研究要求的干净数据,将之集成到本地数据库。 主要包括:分析“脏数据” ;定义数据清洗策略;数据集成的目的数据存储。 究框架 本论文从中国、美国和欧洲专利数据、网页信息的特点入手,分析这几种数据源的特征,总结出异同点,构建自动化集成与分析模型,运用相关技术对其进行自动集成,并选取某个特定主题进行实证研究,得到分析结果。图 文研究框架 前期文献调研 第 1 章 绪论 第 2 章 相关技术及理论研究 第 3 章 自动化集成与分析模型 模型方法研究和实证分析第 4 章 模型方法研究 第 5 章 实证研究与分析 面向主题的数据获取 息抽取 数据清洗与目的数据存储结论分析结果可视化 获取数据,形成专题数据库 北京理工大学硕士学位论文 7 本论文主要分为6章: 第 1 章 介绍了论文的研究背景及意义、国内外研究现状、主要研究内容以及本论文的研究框架。 第2章 介绍了本文中涉及到的相关技术及理论。 第3章 以面向主题的数据为主体,构建了自动化集成与分析模型。 第 4 章 在第 3 章提出的整体模型基础之上,分别对模型的不同模块进行分析和研究,对数据获取、息抽取、数据清洗与目的数据存储等方法进行了研究。 第 5 章 在本文的实证分析部分,根据特定的主题,获取主题数据,对其进行抽取和清洗后集成到本地数据库。最后,在已建立模型的基础上对结果进行分析,将分析结果呈现给用户。 结 论 总结了本文所做的研究工作,提出了今后的改进设想。北京理工大学硕士学位论文 8 第 2 章 相关技术及理论研究 据源 据源类型及其特点 数据源就是可以向外界提供数据信息的地方。数据源千差万别,传统上有关系型数据库、面向对象数据库和对象关系数据库。随着上数据越来越多,包含的数据也是各式各样,如文本文件、为了能方便对各种各样的数据进行集成处理,对数据进行分类是很有必要的。根据数据与其模式的关系,可以把数据分成三种类型:结构化(据、非结构化 (据和界于两者之间的半结构化(据15。表 据源类型 数据源类型 特点 举例 结构化数据 数据一般都 具有稳定的数据模式,存储数据时严格按照预先定义的模式来存储 关系数据库;据库;对象关系数据库 非结构化数据 没有统一的 数据模式,不能用结构化的数据模型来描述 传真、声音、图形、图像文件 半结构化数据 结构隐含或 无规则、不严谨的自我描述型数据,界于严格结构化数据和完全非结构化数据之间 件、词典、已有本体库 (1)结构化数据 是指那些有着严格模式的数据,包括关系 数据库,据库以及对象关系数据库中的数据。这些数据最大特点是数据模式和数据完全分开,数据一般都具有稳定的数据模式,存储数据时严格按照预先定义的模式来存储。 (2)非结构化数据 是指完全没有格式的数据,这样的数据以字符流形式存在,如:传真、声音、图形、图像文件等,尽管每一种类型的文档本身都有一定的格式,但总的来说是无结构的文件数据, 它们没有统一的数据模式, 不能用结构化的数据模型来描述。 (3)半结构化数据 对于半结构化数据的定义,数据库界还没有一个统一的定义,一般认为半结构化数据是指那些结构隐含或无规则、不严谨的自我描述型数据,这样的数据界北京理工大学硕士学位论文 9 于严格结构化数据和完全非结构化数据之间。目前存在较多的半结构化数据是件、词典、已有本体库等。 据源的异构性 数据源的异构问题一直是各种数据集成技术研究的重点。 数据异构主要分为三个层次:系统异构、语法异构和语义异构16。 系统异构主要是指不同软硬件环境及不同操作系统中数据所存在的差异性。比如,数据可能存储于微型机、大型机或工作站上;使用的操作系统可能是语法异构主要是指不同数据模型及不同结构的数据源中数据所存在的差异性。比如,层次模型、关系模型或网状模型的 数据源中的数据;半结构化 同种数据模型的数据源之间, 比如采用的数据类型也不是完全一致的。 语义异构主要是指不同数据源中的数据在语义表示方面所存在的差异性。 造成语义异构的原因主要有以下几个方面:(1)不同的信息源使用多种术语表示同一概念;(2)同一概念在不同的信息源中表达不同的含义;(3)各信息源使用不同的结构来表示相同或相似的信息;(4)各信息源中的概念之间存在着各种联系,但因为各信息源的分布自治性,这种隐含的联系不能体现出来。 据集成 据集成的定义 近几十年来,由于科学技术的迅猛发展和信息化的强力推进,使得人类社会所积累的数据量已经远远超过了过去的总和,数据的采集、存储、处理和传播的数量也与日俱增。由于开发时间或开发部门的不同,往往有多个异构的、运行在不同的软硬件平台上的信息系统同时运行,这些系统的数据源彼此独立、相互封闭,使得数据难以在系统之间交流、共享和融合,从而形成了“信息孤岛” 。 “信息孤岛”造成系统中存在大量冗余数据、垃圾数据,无法保证数据的一致性,从而降低信息的利用效率和利用率。随着信息化应用的不断深入,信息交互的需求日益强烈,急切需要对已有的信息进行整合,联通“信息孤岛” ,共享信息。 实现数据共享, 可以使更多的人更充分地使用已有数据资源, 减少资料收集、数据采集等重复劳动和相应费用。但是,在实施数据共享的过程当中,由于不同用户提供的数据可能来自不同的途径,其数据内容、数据格式和数据质量千差万北京理工大学硕士学位论文 10 别,有时甚至会遇到数据格式不能转换或数据转换格式后丢失信息等棘手问题,严重阻碍了数据在各部门和各软件系统中的流动与共享。 因此, 为解决这一问题,人们开始关注数据集成研究。 数据集成就是对信息系统环境中自治和异构的多处局部数据源中的信息进行有效的集成,实现各信息子系统间的信息共享:即将原有信息系统中信息不一致、缺少数据交换共享的、新建应用信息系统等的异构分布的各个自治的数据库进行集成,建立主题数据库,完善整个数据环境17。 数据集成的根本任务是提供用户对多种异构数据源透明、一致和实时访问。透明性是屏蔽底层数据源的差异,让用户感觉数据来自一个大的数据源;一致性是消除数据源之间存在的结构异构和语义异构; 实时性则指访问到的数据是最新更新过的。 据集成面临的技术难点 数据集成面临的技术难点很多,主要表现在以下方面18 (1)异构性 被集成的数据源通常是独立开发的,数据模型具有很大的异构性,这就给集成带来了很大的困难。这些异构性主要表现在:数据语义、相同语义数据的表达形式、数据源的使用环境等。 (2)分布性 数据源是异地分布的,依赖网络传输数据,这就存在网络传输的性能和安全性等问题。 (3)自治性 各个数据源有很强的自治性,它们可以在随意改变自身的结构和数据,给数据集成系统的鲁棒性提出挑战。 (4)对用户的透明性 对于集成系统的全局用户,集成的复杂性应该是不可见的,用户应能选择最适合的用户接口和查询语言,同时不需要知道数据是来自于哪个系统。同时,每个局部数据源的用户并不因为集成系统而改变他们的常规操作, 即每个被集成的数据源的局部管理系统应尽可能保持自治性。 (5)完整性 异构数据源数据集成的目的是为应用提供统一的访问支持。 为了满足各种应用处理(包括发布)数据的条件,集成后的数据必须保证一定的完整性,包括数据北京理工大学硕士学位论文 11 完整性和约束完整性两方面。数据完整性是指能够完整提取数据本身。约束完整性,约束是指数据与数据之间的关联关系,是唯一表征数据间逻辑的特征。保证约束的完整性是良好的数据发布和交换的前提,可以方便数据处理过程,提高效率。 (6)性能 网络时代的应用对传统数据集成方法提出了挑战,提出了更高的标准。一般说来,当前负责集成的应用必须满足快速适应数据源改变和低投入的特性。 (7)集成内容限定 多个数据源之间的数据集成,并不是要将所有的数据进行集成,那么如何定义要集成的范围,就构成了集成内容的限定问题。 据清洗 数据清洗(C) 就是检测数据集合中存在的错误和不一致,并利用人工或自动化工具将其剔除或者改正以提升数据质量的过程。 数据清洗注重数据的质量,其目的是尽可能地去除“脏数据”以保证数据的正确性。 “脏数据”主要有不完整的数据、错误的数据、重复的数据三大类21。 数据清洗过程必须满足如下几个条件:检 测并且除去单数据源和多数据源数据中所有明显的错误和不一致;尽可能地减小人工干预和用户的编程工作量,而且要容易扩展到其他数据源;应该和数据转化相结合;要有相应的描述语言来指定数据转化和数据清洗操作,所有这些操作应该在一个统一的框架下完成22。 目前,数据清洗的相关研究主要集中在以下几个方面23 (1)数据异常检测算法; (2)通用、扩展性的数据清洗框架; (3)针对特殊类型“脏数据”的清洗算法 ,如缺损数据、相似重复记录清洗算法; (4)模式冲突解决方法; (5)针对海量数据集进行并行、增量处理的数据清洗算法。 索引擎工作原理 搜索引擎是一个网络应用软件系统。 它能够接受用户通过浏览器提交的查询词或者短语, 在一个可以接受的时间内返回一个和该用户查询匹配的网页信息列北京理工大学硕士学位论文 12 表。现代大规模高质量搜索引擎一般采用三段式的工作流程,即:网页搜集、预处理和查询服务26。图 索引擎三段式工作流程 (1)大规模搜索引擎服务的基础应该是 一批预先搜集好的网页(直接或者间接) ,这些网页不会主动送到系统,而是需要由系统去抓取。搜集方式有两种: 定期搜集:每次搜集替换上一次的内容,称之为“批量搜集” 。 增量搜集:开始时搜集过一批,往后只用进行下面的操作:搜集新出现 的网页;搜集那些在上次搜集后有过改变的网页;发现自从上次搜集后已经不再存在了的网页,并从库中删除。 (2)得到海量的原始网页集合后,需要 建立一个合适的数据结构。现行最有效的数据结构是“倒排文件” (。倒排文件是用文档中所含关键词作为索引,文档作为索引目标的一种结构(类似于普通书籍中,索引是关键词,书的页面是索引目标) 。从网页集合形成倒排文件的过程就是一个“预”处理的过程。主要包括四个方面:关键词的提取, “镜像网页”或“转载网页”的消除,链接分析和网页重要程度的计算。 (3)预处理过程得到的是对原始网页集 合的一个子集的元素的某种内部表示,这种表示构成了查询服务的直接基础。然而,还需要把得到的内部表示的集合生成一个列表,这个列表才是要返回给用户的最终查询结果,这是服务子系统的主要工作。 息抽取 息抽取(称为 将 7。由于 的信息大多是以 档的形式出现,且 档主要是用于浏览,而不是用于数据操作和应用的,所以 重点放在如何将分布在 面中的某些特定信息抽取出来,转化为结构化的形式,存在数据库中供用户查询、分析使用。 息抽取的一个直接应用就是帮助人们在纷繁复杂的 息海洋中搜集 预处理 服务 北京理工大学硕士学位论文 13 快速准确地查找所需要的信息,加快人们获取信息的速度,从而提高查找效率。另外,半结构化数据抽取所得到的结构化信息可以直接被其它的应用程序利用,进一步完成信息搜索 (、数据挖掘(、机器翻译(、文本摘要(后续有广阔的应用价值和前景。 息抽取的方式主要有以下几种:基于自然语言处理方式,基于包装器归纳(式,基于于于8。 则表达式 在编写处理字符串的程序或网页时, 经常会有查找符合某些复杂规则的字符串的需要。正则表达式(是 用于描述这些规则的工具。正则表达式提供了一种从 字符集合中搜寻特定字符串的机制。它可以让用户通过使用一系列的特殊字符构 建匹配模式,然后把匹配模式与数据文件、程序输入等目标对象 进行比较, 根据目标对象中是否包含匹配模式,执行相应的程序。比如表达式 “ 描述的特征是“一个a和任意个b ,那么符 合这个特征29。 正则表达式可以用来: (1)验证字符串是否符合指定特征,比如验证是否是合法的邮件地址; (2)用来查找字符串,从一个长的文本中查找符合指定特征的字符串,比查找 固定字符串更加灵活方便; (3)用来替换,比普通的替换更强大,用于在文档中使 用匹配模式来标识特定文字,然后将其删除或进行替换。 正则表达式主要有如下几类字符30: (1)元字符 元字符代表着单词的开头或结尾, 也就是单词的分界处。正则表达式中有一些元字符,是正则表达式匹配的基础。常 用元字符如表 表 用元字符 代码 说明 . 匹配除换行符以外的任意字符 w 匹配字母或数字或下划线或汉字s 匹配任意的空白符 北京理工大学硕士学位论文 14 代码 说明 d 匹配数字 b 匹配单词的开始或结束 匹配字符串的开始 $ 匹配字符串的结束 (2)字符转义 利用正则表达式匹配元字符本身时,必 须使用来取消这些字符的特殊意义。 (3)重复 重复操作符, 描述了查找一个特定字符的次数。 表 用重 复字符 代码 说明 * 重复零次或更多次 + 重复一次或更多次 ? 重复零次或一次 n 重复 n 次 n, 重复 n 次或更多次 n,m 重复 n 到(4)字符类 匹配字符、数字时,可以指定 一个范围。比如 0表的含意与(5)反义 匹配不属于某个能简单定义的字符类的字符,比如想查找除了数字以外,其它任意字符都行的情况,需要用到反义。表 用反 义字符 代码 说明 W 匹配任意不是字母,数字,下划线,汉字的字符 S 匹配任意不是空白符的字符 D 匹配任意非数字的字符 B 匹配不是单词开头或结束的位置 x 匹配除了 匹配除了 几个字母以外的任意字符 W 匹配任意不是字母,数字,下划线,汉字的字符 北京理工大学硕士学位论文 15 本自动分类 网页自动分类可以有效地组织和管理海量的用户能够快速、准确地获得所需要的信息。但是,由于网页格式的特殊性,在自动分类之前,需要进行“净化”处理,将网页转变成普通文本。得到的文本还需要形式化处理,把它表示成计算机可以识别的数据结构。 目前较成熟的文本表示方法是向量空间模型(在该模型中,通常采用词作为特征项,文本空间被看作是一组由特征项向量组成的向量空间,每个文本 d 都可以映射为此空间的一个特征向量),.,()(21 。其中示对应特征项分量权值。特征项可以取字、词或短语,文本分类算法一般采用词作为特征项表示文本。所以,把中文文本表示成特征向量前,需要先进行文本信息的词条切分处理,提取出特征项序列。直接由分词得到的向量一般维数会非常巨大, 因此需要对向量进行特征选择以降低维度。降维以后就可以生成特征向量,建立文本向量空间,进而实现训练或分类31。 文本自动分类主要有两种方法:一种是基于训练集的文本分类方法;另一种是基于分类词表的文本分类方法。 基于训练集的文本分类方法更多的是来自计算机或人工智能研究领域, 而基于分类词表的文本分类方法则更多的是来自情报领域32。 文分词与停词 英文等西方语言的单词之间多以空格作为自然分界符,不需要进行分词处理。中文的最小单位是字,而在中文信息处理的许多重要领域如文本分类、文本检索与自动标引等都需要在词的基础上进行处理。但是中文文本中字与字之间、词与词之间并没有明显的切分标志,需要使用中文分词技术,让计算机自动地把中文的词与词之间的分界线找出来。因此,中文分词技术是中文信息处理技术的基础。 目前常用的分词方法有: 基于字符串匹配的分词算法、 基于统计的分词算法、基于理解的分词算法33。 征选择 目前,文本的表示主要采用向量空间模型( 向量空间模型就要涉及到选取什么作为特征项的问题,一般可以选择字、词或词组, 目前学术界普遍认为选北京理工大学硕士学位论文 16 取词作为特征项要优于字和词组。 因此,要将文本表示为向量空间中的一个向量,就首先要将文本分词,由这些词作为向量的维数来表示文本,用词频来表示特征项对应的向量分量。 与普通分类问题相比,文本向量空间是一个高维、稀疏空间,文档集中包含的不同词条数以万计, 但对每个具体的文档而言, 非稀疏的维可能也会有上千个。直接由分词得到的特征向量有以下特点:表示文 本的特征向量的维数一般都很大;特征项的出现频率不均衡,常用词频率高,冷僻词汇频率低。特征向量的噪音如此之多,会严重影响分类的精度。 词条选择的最简单、 最实用的方法就是使用禁用词典来去除一些与文档语义内容明显无关的词条。禁用词典一般包括标点和特殊符号,在文章中仅起到结构作用的虚词,如介词、副词、连词等,另外还有一些在整个语料中都出现频率很高,而且在每篇文档中出现频率大致相等的词条,对于这些词,应该从特征集中去掉。 这种词条选择方法可以达到粗略降维的目的, 但是去除的词条数目有限(仅数百个),因此,还有必要进行特征选择。 特征选择的目的就是由高维向量产生与之 相近且维数小得多的特征子集。通过降维处理,得到数量上尽量少、噪音少、与其所属类别语义相关且含义尽量明确的特征向量。该过程不仅降低了向量的维数,提高了分类效率,而且减少了噪音特征的干扰,从而提高了分类精度。 所谓特征选择就是指根据某个特征评估函 数计算各个特征的评分值,然后按评分值排序,选取若干个评分最高的作为特征词。 文本分类中,用于特征提取的统计方法有:文档频率(、信息增益方法(互信息方法(2 统计量方法(。正确的特征选择是分类算法 正确分类的前提,当选定分类算法,特征选择在文本分类中起着重要作 用,能够降低向量维数,简 化计算,对分类正确率有着决定性的影响34。 (1)文档频率(F)

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论