农业网站元数据管理信息系统的研究.doc_第1页
农业网站元数据管理信息系统的研究.doc_第2页
农业网站元数据管理信息系统的研究.doc_第3页
农业网站元数据管理信息系统的研究.doc_第4页
农业网站元数据管理信息系统的研究.doc_第5页
已阅读5页,还剩5页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

郑州航空工业管理学院信息描述课程论文 信息管理与信息系统 专业 71 班级题 目 农业网站元数据管理信息系统的研究 姓 名 曹丛 学号 110497101 指导教师 武利红 二 一二 年 五 月 六 日内 容 提 要近年来,我国农业网站的发展非常迅速,中国农业科学院农业信息研究所针对农业专业用户研究并开发了一个农业专业搜索引擎一一“农搜”,为了提高“农搜”的查准率,迫切需要设计和实现一个农业网站元数据管理信息系统,为“农搜”的页面抓取提供更准确地网站信息描述,为有效地描述、定位、保存、评估、检索农业网站奠定基础。本文首先对农业网站以及“DC”元数据进行研究与分析,初步设计了针对农业网站资源描述的元数据标准。根据该标准,考虑“农搜”的需求确定了农业网站的网站级和栏目级内容的描述方法,并在此基础上探索了有关元数据自动提取的算法。设计并实现了一个农业网站元数据管理信息系统。本文研究成果如下:l、通过参考分析国内外元数据标准(主要是DC元数据、中文元数据标准框架),结合农业网站的特点,初步设计了农业网站元数据标准。2、为了满足“农搜”的应用需求,在农业网站元数据标准的基础上,进一步做了扩展和具体化,设计了一套完整的描述和管理网站以及网站栏目的元数据项。3、结合基于HTML规则和SDD网页语义分析两种方法,分析了网站元数据管理系统所涉及的每一个元数据,初步设计了元数据自动提取的算法。4、设计并实现一个BS模式的农业网站元数据管理系统。关键词信息描述,元数据标准,DC,农业网站,自动提取,管理信息系统AbstractIn recent years,ChinaS agricultural web sites having been developing very quicklyThe Agricultural Information Institute of The Chinese Academy of Agricultural Sciences has developed an agricultural professional search engine一一”nong SOU”for professional agricultural usersIn addition,the MIS established the valid foundation of description,location,preservation,assessment and retrieval for agricultural sitesThe paper researched and analysis the agricultural site and ”DC” meta-data firstly, preliminarily designed the metadata standard of agricultural web sites resourced ascriptionAccording to the standard,explicated the descriptive content method of web sites level and columns level based on the requirements of ”nong SOU”for agricultural websitesIn the research achievements areas follows:1By consulting metadata standards at homeland abroad combining the characteristics of theatric cultural websites,preliminarily designed the metadata standard for agricultural web sites2In order to meet the application need sofa ”nong SOU”,expanded and subdivided the standard to Goatee further3Depending on the HTML rules and method about these manticAnalysis of WebPages analyze diver metadata involved in the website metadata management system4Designed and implemented a metadata management system for agricultural websites in the BSmodeKeywordInformation description,The standard of Metadata,DC,agricultural websites,automatically extract, management information system1研究背景(1)搜索引擎技术应用日益广泛,但目前检索效果不尽如人意,虽然查全率已基本满足要求,但查准率有待提高。虽然搜索引擎的使用越来越广泛,但检索效果仍然不能满足人们曰益增长的需要,现阶段的搜索引擎的查询主要是以关键字为主,采用逻辑运算符,查询的结果主要依据是文章中是否包含关键字,且结果表现形式简单,大多是以列表的形式,根据某种优先级排序。由于网页基数的庞大和增长过于迅速,查询结果往往数以万计,用户需要经过多次查询或翻页才可能查到所需的信息。用户在搜索引擎上进行信息查询时,并不十分关注返回结果的多少,主要是看结果是自己的需求吻合。传统的搜索引擎的问题不是结果太少,而是返同结果太多,目前解决查询结果过多的方法主要有三种:一是通过各种方法获得用户没有在查询语句中表达出来的真正用途,包括使用智能代理跟踪用户检索行为,分析用户模型;使用相关度反馈机制,使用户告诉搜索引擎哪些文档和自己的需求相关(及其相关的程度),哪些不相关,通过多次交互逐步求精,这一方向的研究成果为智能化搜索引擎或个性化搜索引擎;二是用正文分类技术将结果分类,使用可视化技术显示分类结构,用户可以只浏览自己感兴趣的类别。三是在进行站点类聚或内容类聚1,减少信息的总量。自2005年以来,由中国农业科学院农业信息研究所多媒体技术研究室研发的农业专业搜索引擎已经过两次升级,逐渐向成熟、专业的搜索引擎靠拢,不仅成功收集了农业领域近70万网页信息,而且具备Lucerne全文检索与SDD语义检索两套检索引擎;在此基础上,将数据搜集技术、用户建模技术、个性化推荐与个性化检索技术融合在一起的,集前台个性化推荐和个性化检索,后台用户行为推荐与用户模型维护等功能为一体的搜索引擎个性化服务系统也研发了出来,可以说,“农搜”已经较为成熟,而个性化研究使“农搜成为了一个智能搜索引擎。(2)元数据在信息检索中发挥着越来越重要的作用近年来,元数据的应用范围不断扩大,其在信息检索领域的研究也不断深入,从功能上讲,元数据作为“关于数据的数据”,既为各种形态的数字化信息单元和资源集合提供规范、普遍的描述基准和方法,又为分布的、由多种数字化资源有机构成的信息体系(如数字图书馆)提供整合的工具与纽带,因此,它在飞速增长的网络资源的组织与利用中正发挥着日益重要的作用2。元数据可解决标引大量不同形式的数据而无需数量庞大的网络带宽的问题。标引得到的是代表性数据,而非信息对象本身。如何利用这点提高搜索引擎的查准率和效率,这是本文要思考的问题,前面提到的方法中,无论是通过搜索引擎智能化还是将搜索结果正文分类,其手段都是通过各种方式对抓取的网页进行处理,以达到更准确搜索的作用,在本文简单的称之为网页的后处理。前面已经提到,提高查准率还有一种方法进行站点类聚或内容类聚。它指的是搜索引擎智能化的将所返回的网页分类,但现阶段这一技术还不成熟,但如果在网络蜘蛛抓取前提取网站元数据并进行网页筛选,去除对用户无用的信息,那么搜索引擎的索引速度将更快,而且查准率也将提高,本文中把这部分工作称之为网页的前处理3。这也是本文研究的目标之一。(3)元数据的研究与发展已进入一个繁荣时期,但农业网站元数据的研究还缺乏一个标准,设计农业网站元数据标准并建立网站管理系统有助于更好的管理网站元数据信息。元数据的研究越来越深入,越来越广泛,国际上已有对7类资源公认通片j的元数据标准,如都柏林核心元数据创始行动小组(DCMI)研制的DC元数据、美国联邦地理图像数据委员会的数字化地理空间元数据内容标准等都已经较为成熟并得到广泛认可。国内有许多研究单位或个人进行元数据研究,或介绍国外的各种元数据格式和元数据生成工具,或探讨DC元数据等与MARC的映射关系,对DC与XML的结构等进行比较,这些已取得了初步的研究成果。国家图书馆在充分调研MARC、美国国会图书馆元数据集、澳人利亚国家图书馆元数据集的基础上,初步拟定了包含近80个数据项的中文核心元数据集4。有许多人引进国外先进经验并结合其所研究资源的特性推出了具体资源的元数据标准,并设计了系统。但关于农业网站的元数据标准还未出现,文本在分析DC元数据标准等国外标准和北京大学数字图书馆总结的一套规范和指导各类元数据标准的设计制定规则和方法中文元数据标准框架的基础上,结合农业网站的特点,尝试着推出了农业网站元数据标准,并实现了一个基于BS模式的管理信息系统。(4)网站数量与日俱增,网站元数据的自动提取工作日益迫切网站数量的增长越来越快,人工录入虽然准确率高,但消耗了大量的人力和时间。国内外有许多关于WEB信息提取和语义分析的研究,虽然HTML文档的内容“机器不可理解”,但分布于文档中的元数据仍然可以依据规律实现自动提取5。“HTML文档的元数据”是指关于该文档的特征数据和说明性数据,比如文档的标题、出版者等。这些元数据一般内嵌于文档之中,但其分布具有一定特征,主要体现在:元数据往往具有特定的显示格式和次序;有些元数据所在的上下文中有特定的提示词或引导词;文档的meta标记中包含元数据6。另外,农搜”的SDD检索模块可计算文档向量之间的夹角余弦相似度,从而具有了一定的语义检索功能,这些基础使农业网站元数据的自动提取成为可能。2研究目的与意义本文希望通过对农业网站元数据的研究,在实验室已有技术基础上,构建一个集管理已知农业网站和发现未知农业网站为一体的网站管理信息系统,并通过系统中的网站元数据信息,“农搜”可以更加有目的性地抓取网页,提高索引的效率和搜索的准确性。研究的意义在于提高“农搜”的查准率和有效管理网站的元数据信息7。通过元数据使网站信息集中,减少对多余信息的收集和分析,提高“农搜”的查准率和检索效率,达到更好的为专业用户服务的目的。此外,农业网站标准的建立为描述农业网站建立了规范,为较好的描述、定位、保存、评估、检索农业网站奠定了基础。3论文主要研究内容本文主要依据对DC元数据的研究,结合农业网站的特点,设计出能较好描述农业网站的元数据标准,并在此基础上结合“农搜”的需求设计并实现农业网站元数据管理信息系统。此外,就元数据自动提取问题做了初步的研究。主要研究内容包括如下三个方面:(1)农业网站元数据标准的研究元数据,是关于数据的数据,或者说是关于数据的结构化数据。在网络环境下,元数据已经成为信息资源的描述、发现、管理、互操作的主要手段。为了使计算机理解网站,必须对网站进行计算机可理解的描述。近年来,我国农业信息网站的发展非常迅速,据不完全统计,目前已有各类农业网站超过l万个,静态网页数百万以上,如何对这些网站进行描述、分类,即如何能使程序理解那些内容是需要的,那些内容对现阶段是无用的。这个问题需要借助于层次分明的元数据来描述,使计算机能快速理解并进行提取、检索、更新等管理工作。(2)元数据自动提取的研究对于WEB文档,可以有3种方法来获取其中的元数据:一是从HTML文档的mgta标记中直接获取;二是通过人工阅读文档,归纳出元数据:三是根据规律或某种相似度算法自动提取元数据。现阶段的网站,主动提供元数据的很少,且大多并不是本文研究所需要的;完全用人工阅读的方法虽然比较精确,但耗费大量人力和时间。由于表达WEB页面信息的HTML标记语言存在着与生俱来的缺陷,HTML标记只能告诉浏览器如何显示它所定义的信息,却不能包含任何语义,用HTML语言所描述的WEB页面经过浏览器解析后只适合人们浏览,不适合计算机来进行语义上的处理,所以网站元数据自动提取的研究是本文的难点之一。本文拟在SDD算法和“农搜”开发实践经验的基础上,通过HTML标记解析器和网页相似度计算等网页分析技术自动提取大部分元数据。(3)农业网站元数据管理信息系统的设计与实现为了管理、发现农业网站,依据农业网站元数据标准,结合“农搜”的需求,通过原型法设计并实现了农业网站元数据管理信息系统。通过用户登录、网站管理、栏目管理、元数据提取等模块实现了网站元数据管理功能。待系统完全实现后,通过检索、修改等各项管理功能来检验系统的管理功能,通过对随机网页的处理来检验系统自动发现网站以及元数据的自动提取功能。4研究的思路(1)通过网站信息的前处理来提高“农搜”的查准率为了提高“农搜”搜索的准确性和智能性,“农搜”团队研究了向量空间模型(VsM)、隐含语义索引(LSI)、个性化检索与推荐等模型,并将研究结果投入到实际应用中去。但由于网页基数的过于庞大、HTML语言的不规范性以及中文处理的复杂性,搜索的准确性和搜索引擎后台的处理速度必然受到影响,本文的出发点是认为“农搜”抓取网页前的处理工作(前处理)与抓取后对网页的处理、索引等工作(后处理)同等重要,如果在后台处理网页前能准确的对网页进行分析,减少不必要的信息,就能减轻后台处理的负担,提高搜索引擎的查准率。“农搜”是一个专业搜索引擎,它设计的目的是服务农业相关人员或对农业信息有所需求的人员,它与Google、Baidu等商业搜索引擎有很大的不同,专业搜索引擎对应的数据库不求最全,但求查询结果的准确性,农业专业用户搜索“苹果”关键字,检索系统应该将“苹果植物”的信息反馈给用户,而不应将“苹果计算机”的信息排到前列。(2)在都柏林核心元素集(DC)的基础上设计农业网站元数据丁根度8认为,针对各种信息资源分别制定适当的元数据标准,为它的管理、发现、定位、获取提供一种实际而简便的方法,是数字图书馆建设中首先要开展的工作。本文研究的元数据管理信息系统也需要先确定元数据标准。都柏林核心元素集(DC)产生于1995年。由15个基本元素构成。由于它具有简练、易于理解、可扩展、能与其他元数据形式进行桥接等性能,能较好的解决网络资源的发现、管理和控制问题,使它成为一个较好的网络资源描述元数据集,已经成为美国国家标准,并正在逐步成为世界公认的标准9。本文研究的对象是农业网站,元数据的标准主要参考DC元数据和中文元数据标准框架,元数据设计的核心要求是根据农业网站的特点,尽可能创建高效率的元数据元素。除了一些不能限定值的元素(如简介)之外,有些元素可以采用受控词表来提高描述的准确性和加强属性的含义。(3)通过分析HTML标记以及分析网页之间的相似度可以提取一部分元数据本文研究的可自动提取元数据大致分为两类:一种是指关于该文档的特征数据和说

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论