农业信息垂直搜索引擎研究报告_第1页
农业信息垂直搜索引擎研究报告_第2页
农业信息垂直搜索引擎研究报告_第3页
农业信息垂直搜索引擎研究报告_第4页
农业信息垂直搜索引擎研究报告_第5页
已阅读5页,还剩16页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、农农 业业 信信 息息 垂垂 直直 搜搜 索索 引引 擎擎 研研 究究 报报 告告 所所 在在 院院 系系 计算机技术与工程学院计算机技术与工程学院 学学 科科 专专 业业 农业信息化农业信息化 研研究究生生姓姓名名 宋宋 玲玲 指指 导导 老老 师师 高高 静静 2013-10-12 目录目录 目录目录 .1 第一章第一章 垂直搜索引擎综述垂直搜索引擎综述 .2 1.1 搜索引擎的发展.2 1.2 搜索引擎工作原理.3 1.3 垂直搜索引擎定义.5 1.4 垂直搜索引擎的特点.5 1.5 垂直搜索引擎的典型列子.6 第二章第二章 农业信息垂直搜索引擎农业信息垂直搜索引擎 .8 2.1 国内外

2、发展现状.8 2.1.1国外农业搜索引擎的研究现状与发展.8 2.1.2国内农业搜索引擎的研究现状与发展.9 2.2 农业信息搜索引擎主要特点.9 2.3 农业信息搜索引擎结构.10 第三章第三章 农业信息垂直搜索引擎的关键技术农业信息垂直搜索引擎的关键技术 .13 3.1 信息抽取技术.13 3.2 信息过滤技术.14 3.2.1 布尔模型.15 3.2.2 向量空间模型.15 3.2.3 潜在语义模型.15 结语结语 .16 参考文献参考文献 .17 第一章第一章 垂直搜索引擎综述垂直搜索引擎综述 1.1 搜索引擎的发展搜索引擎的发展 搜索引擎(SearchEngines)就是指在 Web

3、 环境中能够响应用户提交的搜索请 求,返回相应的查询结果信息的技术和系统,是在互联网上可以查询网站或网 页信息的工具。它包括信息抓取、信息处理和用户查询三部分。搜索引擎的服 务方式分为两种:目录服务和关键字检索服务。目录服务是由分类专家将网络 信息按照主题分成若干个大类,用户可以根据分类清晰地找到自己所需要的内 容;关键字检索服务可以查找包含一个或多个特定关键字或词组的 WWW 站点。 搜索引擎是互联网的第二大核心技术,涉及到信息检索、人工智能!计算机网络、 分布式处理、数据库、数据挖掘、数字图书馆、自然语言处理等多领域的理论 和技。所以具有综合性和挑战性 1990 年以前,没有任何人能实现搜

4、索互联网的功能。互联网发展早期,信 息量较少,互联网用户多为专业人士,那时查找信息要相对容易。伴随互联网 爆 炸性的发展,普通网络用户想找到所需的资料简直如同大海捞针。这时为满足 大 众信息检索需求的搜索引擎便应运而生了。所有搜索引擎的祖先,都可以追溯 到 1990 年由蒙特利尔 MeGill 大学学生 AlanEmtage,PeterDeutseh,Billwheelan 发 明的 Arehie(ArehieFAQ)。虽然当时 WorldWideWeb 还未出现,但因为当时网络 的主要用途是传输文件,网络中的文件传输还是相当频繁。由于大量的文件散 布在各个分散的 FTP 主机中,查询起来非常

5、不便,因此 AlanEmtage 想到了开 发一个可以以文件名查找文件的系统于是便有了 Archie。 1993 年,美国内华达 SystemComputingServiCeS 大学开发了一个与 Arehie 非常相似的搜索工具,这个搜索工具既能够检索文件也能够检索网页。 1994 年 4 月,斯坦福(Stanford)大学的两名博士生:DavidFilo 和美籍华人 杨致远(GerryYang)共同创办了超级目录索引 Yahoo,并成功地使搜索引擎的概 念深入人心,从此搜索引擎进入了高速发展时期。 1998 年,斯坦福大学的两位博士生 LarryPage 和 SergeyBrin 开发出了现

6、在 世界上最大的搜索引擎一代:oogle。通过对 20 多亿网页进行整理,Google 可 为世界各地的用户提供所需的搜索结果,而且搜索时间通常不到半秒,现在, Google 每天需要为世界各国用户提供 1.5 亿次查询服务。 1997 年 10 月 29 日,北大天网正式在 CERNET 上向广大 Internet 用户提供 Web 信息导航服务,它是由北大计算机系网络与分布式系统研究室开发的国家 “九五”重点科技攻关项目“中文编码和分布式中英文信息发现”的研究成果。 受到学术界广泛好评。 2000 年 1 月,两位北大校友,前工 nfoseek 资深工程师李彦宏与加州大学伯 克利分校博士后

7、徐勇在北京中关村创立了百度(Baidu)公司,历经 5 年的高速发 展后,在近两年时间里,百度高居全球网站流量前八名的位置,已经成为全球 十大网站之一。百度每天接受着超过一亿人次来自各个方面的内容检索请求。 中国 9400 万网民几乎每天使用 1 次百度。 “有问题百度一下”已经成为中国网 络流行语之一。 2002 年,中国搜索(原慧聪搜索)正式进入中文搜索引擎市场,在一年多的 时间里,就发展为全球著名的中文搜索引擎服务商,为新浪、搜狐、网易、 TOM 等知名门户网站提供搜索引擎技术。慧聪搜索引擎的优势是从人工审核网站信 息 源和设置禁查词两个方面入手,有效地过滤了不良信息,降低了垃圾信息的含

8、 量。 在互联网实时新闻搜索方面,慧聪也实现了网络新闻的实时检索。目前,出现 了 大量多方向的搜索引擎系统,搜索引擎进入了快速发展阶段。 1.2 搜索引擎工作原理搜索引擎工作原理 从结构上分析来看,一个搜索引擎由抓取器、索引器、检索器和用户接口 等 四个部分组成。 1.抓取器 抓取器的功能是在互联网中漫游,发现和搜集信息。它常常是一个计算机 程 序,日夜不停地运行。它要尽可能多、尽可能快地搜集各种类型的新信息。同 时 因为互联网上的信息更新很快,所以还要定期更新已经搜集过的旧信息,以避 免 死连接和无效连接。 抓取器搜集的信息类型多种多样,包括 HTML、XML、Newsgroup 文章、 F

9、TP 文件、字处理文档、多媒体信息。 抓取器的实现常常用分布式、并行计算技术,以提高信息发现和更新的速 度。 商业搜索引擎的信息发现可以达到每天几百万网页。 2.索引器 索引器的功能是理解抓取器所抓取的信息,从中抽取出索引项,用于表示 文 档以及生成文档库的索引表。 索引项有客观索引项和内容索引项两种:客观项与文档的语意内容无关, 如 作者名、URL、更新时间、编码、长度、链接流行度(LinkPopularity)等等;内 容索引项是用来反映文档内容的:如关键词及其权重、短语、单字等等。内容 索引项可以分为单索引项和多索引项(或称短语索引项)两种。单索引项对于英 文来讲是英语单词,比较容易提取

10、,因为单词之间有天然的分隔符(空格);对 于中文等连续书写的语言,必须进行词语的切分。 在搜索引擎中,一般要给单索引项赋与一个权值,以表示该索引项对文档 的 区分度,同时用来计算查询结果的相关度。使用的方法一般有统计法、信息论 法 和概率法。而多索引项的提取方法有统计法、概率法和语言学法。 索引表一般使用某种形式的倒排表(InversionLISt),即由索引项查找相应的 文档。索引表也可能要记录索引项在文档中出现的位置,以便检索器计算索引 项之间的相邻或接近关系(proximity)。 索引器可以使用集中式索引算法或分布式索引算法。当数据量很大时,必 须 实现即时索引(InstantJnde

11、xing),否则不能够跟上信息量急剧增加的速度。索引 算法对索引器的性能(如大规模峰值查询时的响应速度)有很大的影响。一个搜 索引擎的有效性在很大程度上取决于索引的质量。 3.检索器 检索器的功能是根据用户的查询在索引库中快速检出文档,进行文档与查 询 的相关度评价,对将要输出的结果进行排序,并实现某种用户相关性反馈机制。 4.用户接口 用户接口的作用是输入用户查询、显示查询结果、提供用户相关性反馈机 制。 主要的目的是方便用户使用搜索引擎,高效率、多方式地从搜索引擎中得到有 效、 及时的信息。用户接口的设计和实现使用人机交互的理论和方法,以充分适应 人 类的思维习惯。 从搜索引擎的工作流程来

12、看看,可以看做三步:从互联网上抓取网页一建 立 索引数据库一在索引数据库中搜索排序。 从互联网上抓取网页 利用能够从互联网上自动收集网页的 Spider 系统程序,自动访问互联网, 并沿着任何网页中的所有 URL 爬到其它网页,重复这过程,并把爬过的所有 网页收集存放到 URL 库中。 建立索引数据库 由分析索引系统程序对收集回来的网页进行分析,提取相关网页信息(包 括 网页所在 URL、编码类型、页面内容包含的关键词、关键词位置、生成时间、 大小、与其它网页的链接关系等),根据一定的相关度算法进行大量复杂计算, ,得到每一个网页针对页面内容中及超链中每一个关键词的相关度(或重要性), 然 后

13、用这些相关信息建立网页索引数据库。 在索引数据库中搜索排序 当用户输入关键词搜索后,由搜索系统程序从网页索引数据库中找到符合 该关键词的所有相关网页。因为所有相关网页针对该关键词的相关度早己算好, 所以只需按照现成的相关度数值排序,相关度越高,排名越靠前。最后,由页 面生成系统将搜索结果的链接地址和页面内容摘要等内容组织起来返回给用户。 1.3 垂直搜索引擎定义垂直搜索引擎定义 垂直搜索引擎概念的提出,就是相对前面介绍的通用搜索引擎的信息量大、 查询不准确、深度不够等提出来的新的搜索引擎服务模式,通过针对性的为某 一特定领域、某一特定人群或某一特定需求提供的有一定价值的信息和相关服 务。 可以

14、简单的说成是搜索引擎领域的行业化分工。 垂直搜索引擎本身的特点是“专、精、深” ,且具有行业色彩,相比较通 用 搜索引擎的海量信息无序化,垂直搜素引擎则显得更加专注、具体和深入。垂 直搜索引擎已成为新的研究、开发领域,并将向智能化、个性化、精确化、专 业化、交叉语言检索、多媒体检索等适应不同用户需求的方向发展,目前已经 引起了世界各国计算机科学界和信息产业界的高度关注。垂直搜索引擎为用户 提供的并不是上百甚至上千万相关网页,而是范围极为缩小、极具针对性的具 体信息。因此,特定行业的用户更加青睐垂直搜索引擎,是垂直搜索引擎的长 期、稳定的群体。 由于垂直搜索引擎专注于服务行业用户,拥有广泛!精深

15、的行业资源,所 以 具有很好的经济价值和广泛发展前景。在应用上,垂直搜索引擎呈现出面向主 题 垂直搜索引擎发展趋势,特点是:分类细致明确、数据全面深入、更新及时。 针对某一特定行业或某一主题进行目录的细化分类,结合机器抓取只与行业 相关的信息、力求做到本行业信息多而精。 1.4 垂直搜索引擎的特点垂直搜索引擎的特点 从采集方式看,通用搜索引擎以被动方式为主,搜索引擎和被采集的网页 没有约定的、标准的格式。企业搜索则以主动方式为主,被采集的各种数据等 都和企业搜索引擎有着约定好的采集接口和安全接口;垂直搜索引擎采用被动 和主动相结合的方式,通过主动方式,有效采集网页中标引的元数据,整合上 下游网

16、页资源或者商业数据库,提供更加准确的搜索服务。 从采集深度,动态网页采集的优先级数据库信息采集来看,通用搜索引擎 采用广度优先的策略,所以采集深度要求不高,而垂直搜索和企业搜索需要挖 掘出行业内所有相关的网页信息,所以往往采用深度优先的策略,同时由于行 业内的一些有商业价值的信息采用动态发布的方式,如供求信息等,所以垂直 搜索对动态网页的采集优先级较高。 由于信息在互联网是海量的,非结构化的信息需要经过结构化的梳理后才 能更好的展现。而垂直搜索引擎和普通的网页搜索引擎最大的区别是对网页信 息进行了结构化信息抽取,也就是将网页的非结构化数据抽取成特定的结构化 信息数据,例如网页搜索是以网页为最小

17、单位,视频搜索则是以视频为最小单 位,而垂直搜索是以结构化数据为最小单位。然后将这些数据存储到数据库, 进行进一步的加工处理,例如;去重、分类、合并等,最后分词、索引再以搜 索的方式满足用户的需求。整个过程,数据由非结构化数据抽取成结构化数据, 经过深度加工处理后以非结构化的方式和结构化的方式返回给用户。 从信息检索看,垂直搜索引擎不但能对网页信息中结构化信息进行检索, 而且能提供结构化和非结构化信息结合的检索方式。从检索结果的排序方式看, 通用搜索主要通过 PageRank 算法来实现;企业搜索大多采用检索内容和检索词 的 相关度来实现;而垂直搜索的排序要求更加多样化,例如:按时间排序、按相

18、 关 度排序等。 垂直搜索引擎是专门用来检索某一主题范围或某一类型信息,追求专业性 与 服务深度是它的特点。这种高度目标化、专业化的搜索引擎的优势在于针对性 强, 对特定范围的网络信息的覆盖率相对较高,有明确的检索目标定位,有效地弥 补 了综合性搜索引擎对专门领域及特定主题信息覆盖率过低的问题。同时,能够 把 具有相同兴趣点的人们集中在一个主题内,不仅集中提供各种专业资源,而且 给 大家提供一个相互交流、共享经验和教训的场所,展望行业发展前景的机会和 场 合。相比较综合搜索引擎的海量信息无序化,垂直搜索引擎则显得更加专注、 具体和深入。 1.5 垂直搜索引擎的典型列子垂直搜索引擎的典型列子 (

19、1)爱看图标网,中文图标搜索引擎(http:/ 目前收录了 10000 多个图标,功能还不错,可以按照图标系列、分类、色 系、关键字、图标标题等搜索;你可以查看每一个图标的作者信息、尺寸大小、 图像文件格式、色系、所属分类等信息。每一张图标都提供 png 格式下载,大 多数图标同时还提供 ico 格式下载。 (2)豆丁网,中文文档搜索引擎(http:/ 豆丁网号称收录了一亿多文档,是最大的中文文档库,提供针对文档标题、 简介、内容的关键字检索功能,并且支持 Word、PDF、PPT、Jpg 等 30 多种文 件格式。 第二章第二章 农业信息垂直搜索引擎农业信息垂直搜索引擎 2.1 国内外发展现

20、状国内外发展现状 随着信息高速的发展,搜索引擎成为人们获取信息的重要途径。随着农业 信息化进程的推进,农业信息资源开发日显重要。作为国家信息资源的重要组 成部分,农业信息资源是一种基础行、战略性的资源,对推动我国农业信息发 展尤 为重要。要从众多农业信息中寻找自己所需要的信息部分,最便捷的方式就是 提供一个搜索引擎,农业搜索引擎便应运而生。 谷歌、百度等综合搜索引擎经过 20 多年的发展已经达到了很高的水平,其 搜索结果基本上可以满足用户需求,且这些搜索引擎的性能仍在根据用户的需 要在进行不断优化。对于农业方面的信息,这 2 种搜索引擎都能提供海量的信 息,供农业领域查询。但这 2 种搜索引擎

21、在搜索时的信息量大、查询不准确、 深度不够以及专业化、智能化等方面存在弊端。针对这种情况,一些人提出了 垂直搜索引擎的新概念,垂直搜索引擎是搜索引擎的细分和延伸,是对行业信 息资源、结构化和非结构化数据、专业业务需求进行深层次整合,定向分字段 抽取数据进行加工处理后形成有价值的信息,再将这些信息以专业化个性化的 服务提供给用户。农业搜索引擎就是利用垂直搜索引擎这项新技术而发展起来 的专门针对农业领域而开发的系统,通过农业搜索引擎查询到的农业信息会更 直接、更快捷、更专业。 2.1.1 国外农业搜索引擎的研究现状与发展国外农业搜索引擎的研究现状与发展 全世界范围来说,农业搜索引擎多种多样,下面以

22、美国为例介绍几种比较 重要的农业搜索引擎:美国农业网络信息中心;WEB-AgriSeareh; AgrisurfSeareh 和 Agriseape Seareh。美国农业网络信息中心 AGNIC 是美国国家农业图书馆与 一些大学、研究机构以及政府机构自愿组成的联合体。AGNIC 建有多个较为系 统和完整的与农业相关的数据库,并将数据库分为 WWW、GOPHER、FTP 3 种格式,并提供简单检索、高级检索和词表检索 3 种检索方式。 WEB-AgriSeareh 创建于 1998 年,它开设的网站主要提供农业搜索引擎、 农业期刊导航和农业站点导航。 AgrisurfSeareh 是美国一家专

23、门从事农业搜索引擎服务的网站。该网站除 了提供农业搜索引擎服务外,还提供关于农业的新闻组服务、农业政策信息服 务。 Agriseape Seareh 创建于 1994 年的美国普林斯顿主要提供农业与相关产业 的导航服务。其目标是发展成为农业信息、农业贸易和农业技术的信息中心。 国外众多的农业搜索引擎的出现与发展,为我国农业搜索搜索引擎的发展与进 步提供了众多借鉴和参考经验。 2.1.2 国内农业搜索引擎的研究现状与发展国内农业搜索引擎的研究现状与发展 我国的农业搜索引擎起步较晚,但发展迅速。目前国内农业搜索引擎主要 有:“农搜”()、搜农(www.S)、华农在线 (www.Chinanong.

24、Com)、中国农业科技信息网农业网站搜索引擎(www.Cast net cn /ssyq)等。2007 年国内首个农业搜索引擎农搜(www. agri-sou. com)上线, “农搜”拥有 600 万个农业合作网站,是目前全球数据量最大的中文农业搜索 引擎,它实现了全文检索+语义检索的智能检索引擎。而搜农(www. Sounong. net)是第 1 个面向我国农业企业、农民大户、农业专业技术协会以及广大农业科 技人员提供专题搜索服务的垂直搜索引擎。与传统的搜索引擎相比,它能更加 贴近农业领域的需求,更加符合农业用户的需求信息。中国“搜农”采用了基 于网页主体内容的索引,极大地提高了其数据更

25、新速度,同时也大大提高了查 全率和查准率。华农在线利用 HNC 自然语言语义分析技术实现信息处理的应 用,实现了在农业行业的垂直搜索应用,将互联网设计到的各行业各类主管部 门的农业信息进行整合,为涉农人员提供了精确化、智能化的信息服务,号称 农业网站中的导盲犬。 除以上几种较晚专业的农业搜索引擎外,我国还出现了一些农业搜索的网 站,例如农业搜索中国农业电子商务网(http: /www. 3nong. cc /wz /search. asp)、超农网农业搜索(http: /www.086ny. com /soso /)、中国农业信息化中 国农村致富网(http: /www. chinannn.

26、com /)、环球农业搜索(http: /www. ny188. com /search /company.html)、农业搜索安徽农网(http: /so. ahnw. gov. cn /)、农业 搜索(http: /www. sonong. cn /)、三农搜索网(http: /www. 3nss. com /Portal/De- faul.t aspx)等,这些网站都为农业信息检索提供了便利条件。 2.2 农业信息搜索引擎主要特点农业信息搜索引擎主要特点 (1)搜索内容主要关注农业相关信息领域,利用“三农”相关的词汇表进行信 息检索控制,并对农业相关的关键词进行信息挖掘。 极大的提高了农

27、业信息检 索的命中率。 (2)由于采用农业相关信息的过滤算法,使检索到的信息专业性比较强,而且 信息数量更少,从而可以对引擎检索到的信息进行分类标引和进一步的整理, 提高搜索引擎信息检索的质量,据此建立一个农业相关的高质量的主题索引 数据库。 (3)由于采用农业主题信息过滤 ,采集的数,据规模较小#缩短了用户检索信 息的平均等待时间,同时搜索引擎可以采用比通用引擎更加复杂的检索和信息 挖掘算法,进一步提高了用户搜索农业相关信息的准确度。 2.3 农业信息搜索引擎结构农业信息搜索引擎结构 农业信息搜索引擎的结构主要分为网页信息采集、内容识别、内容评价、 信息存储和 检索服务五个部分。 首先由网络

28、机器爬虫负责 Internet 上有关农业信息相关网页的采集工作。 在对农业相关信息数据收集的开始阶段,根据专家提供的农业相关网站,编辑 网络机器爬虫的初始种子站点列表。并站点列表加入到网络机器爬虫的 URL 链 接队 列中。然后由网络机器爬虫根据侦测到的当前网络状况,使用多个爬虫和多线 程的方式同步下载网页信息, 并保存为爬虫的特定网页文本文件。 网页文件 下载完成后,根据域名对所有采集的网页文本进行信息分析和处理。首先提取 其中的网页文本信息和 URL 链接, 然后把 URL 作为新的种子信息再添加到 网络机器爬虫的搜索对列末尾。针对提取的网页文本信息,使用相关的算法进 行农业主题内容的识

29、别和评价,在该项处理过程中,预先设定了一些关键词, 并针对这些关键词分配了相应的权重, 通过特定算法并根据关键词和关键词的 权重对网页文本信息内容进行相关度计算,对于符合农业信息相关的网页文本 保存到农业信息搜索引擎的数据库中。 最后系统提供 Web 搜索服务,用户输 入相应的搜索关键字,系统在数据库中搜索相应的内容,然后显示在搜索结果 中。 软件结构及数据流程图如图所示。 农业信息搜索引擎结构及数据流图 各模块说明如下: (1)网页信息采集模块 网页信息的自动采集是利用网络爬虫软件程序, 从一个给定的初始的 URL(Uniform Resource Locator)链接地址为基础,使用 In

30、ternet 网络标准协 议(如 http 协议)发出请求,访问相关网页,并将网页下载到本地服务器中进行 分析处理。对于所有搜索到的网页中的链接,网络爬虫可以访问更多的网页, 这个过程就叫爬行。这些网页中的网址会被存入数据库等待抓取,所以跟踪网 页链接是搜索引擎网络爬虫发现新网址的最基本方法。 (2)内容识别模块 页面内容识别模块是将上述利用网络爬虫获取的网页进行在加工#提取出网 页中的文字内容和超文本连接(URL)并将相关的超文本连接反馈到网络爬虫 的 URL 对列中,以便进一步扩大网页的搜索范围。 (3)页面内容评价模块 页面内容评价模块对于获取的网页内容,利用布尔模型或代数模型对所获 得

31、的网页与主题目标进行相关程度评价,识别出与农业信息相关的有价值的网 页内容。在对网页内容进行评价时,依照事先设定的农业信息相关的关键词表 和权重,针对每一个网页内容中的关键词进行相关度计算,评价过程中的关键 词匹配算法选用 KMP 算法,该算法结构简单,效率高,时间复杂度为 O(m+n) 。算法利用模式字符串串 T 的 Next 函数,求 T 在主字符串串中第 pos 字符之后 的位置,其中 T 非空,pos 大于等于 1,并且 pos 小于等于字符串 S 的长度, 算法函数描述如下。 对每个关键词,通过 公式计算出该关键字的加权值,其中 Ci 表示关键词表中第 i 个元素在该网页内容中出现的

32、次数,Wi 表示关键词的 权重。 对于网页内容信息与农业信息主题的相关度计算使用公式 r=t/(t+1),如 果计算的相关度数值大于 0.5 时,表示该网页内容与农业相关,否则视为无关。 (4)信息存储模块 上述已经完成内容相关度计算的网页信息,使用倒排的形式建立索引,这 种索引记录了关键词在不同网页中出现的频度,然后按照相应的技术规范,把 索引和网页相关信息保存到搜索引擎数据库,以便搜索服务提取数据。 (5)Web 检索服务 Web 检索服务也就是搜索引擎的用户界面,当用户在搜索页面输入关键词 查找农业相关信息时,搜索引擎会在上面保存的农业信息数据库中进行查找, 如果找到与用户请求的内容相关

33、的网站时,使用一定的算法根据网页中关键词 的匹配程度计算出各网页内容信息的相关程度,然后根据此信息排序,按顺序 将搜索到的所有网页链接和描述返回给用户. 第三章第三章 农业信息垂直搜索引擎的关键技术农业信息垂直搜索引擎的关键技术 垂直搜索引擎和普通的网页搜索引擎的最大区别是对网页信息进行了结构 化信息抽取,也就是将网页的非结构化数据抽取成特定的结构化信息数据,然 后将这些数据存储到数据库,进行进一步的加工处理。整个过程中,数据由非 结构化数据抽取成结构化数据,经过深度加工处理后以非结构化的方式和结构 化的方 式返回给用户。其核心是信息抽取和信息过滤。 3.1 信息抽取技术信息抽取技术 信息抽取

34、技术也有多种分类方式,根据各种工具采用的原理可分为基于自 然语言处理方式的信息抽取、包装器处理归纳方式的信息抽取、基于 Ontolgoy 方式的信息抽取和基于 HTML 结构的信息抽取 4 类。 以下着重介绍一下面向农业主题的信息抽取。对于自由式文档,多数采用 了自然语言处理的方法,这些技术通常以词性标注和语义标注作为过滤器,来 构建短语与句子成分间的关系,并以此导出基于句法语义约束条件的过滤规则。 这些约束条件有助于判断同一个文档中的相关信息。以 NLP 为基础的工具通常 适合提取主要由类似电报风格的自由文本组成的网页,例如蔬菜列表、种子出 售广告、研讨会通知等。包装器的归纳工具从一组训练样

35、例中归纳出基于分隔 符的抽取规则。这些工具和基于 NLP 的工具之间最大的差别在于,它们并不依 赖于语言约束,而是依赖于数据的格式化特征。这个特点决定了这种工具比基 于 NLP 的工具更适合于抽取 HTML 文档。基于 Ontolgoy 方式的信息抽取结果 准确,仅需要本体库的构建,而目前互联网上的大多数网页都是 HTML,且基 于 HTML 结构的信息抽取又十分容易;面向农业主题的信息抽取模块是针对经 过主题过滤模块过滤得到的农业 HTML 网页数据进行信息抽取,从网页的某些 非结构化数据中抽取出特定的结构化的信息数据。大多数的农业搜索引擎系统 提取数据信息分为 2 步。从网页中先通过标签将整个网页信息进行简单提取(图 3-1);通过农业本体信息抽取来将简单抽取的数据进行 3 次信息抽取,保证了信 息抽取的准确性(图 3-2) 图 3-1 图 3-2 3.2 信息过滤技术信息过滤技术 Web 文本内容过滤有基于内容性和实效性的特点,基于这 2 个特点的衡量 信息过滤的标准是过滤精度和过滤速度。目前常用的基本信息过滤方法有 3 种。 3.2.1 布尔模型布尔模型 布尔模型(Boolean)是基于集合论和布尔代数的一种简单检索模型, Boolean 模型定义索引术语只有出现或者不出现在某一篇文档中 2 种状态,这样 就导致

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论