网络信息挖掘利用与现代信息服务.doc_第1页
网络信息挖掘利用与现代信息服务.doc_第2页
网络信息挖掘利用与现代信息服务.doc_第3页
网络信息挖掘利用与现代信息服务.doc_第4页
网络信息挖掘利用与现代信息服务.doc_第5页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

网络信息挖掘利用与现代信息服务摘要 本文分析了传统网络信息查询方式的局限性,介绍了网络信息挖掘技术的现状、发展趋势,XML语言的技术特点,并结合实际情况论述了现代信息服务中对网络资源利用的几种趋势。关键词 网络信息挖掘 XML 整合 专业化 个性化Network Information Discovery and Modern Information ServiceAbstract the article analyzes the localization of traditional search method about network information, introduces the status of network information discovery and XML, and discusses the trend of exploitation of network resource in modern information service.Keywords Network information discovery; XML; Combination; Specialization; Individuation1 引言网络,是一个巨大的信息资源载体,包括了非常丰富的内容。网络技术和海量存储技术的发展,导致网络信息以几何级数迅速增长。除了数量巨大,网络信息还包括以下特点:类型多样;变化频繁;结构复杂;质量参差不齐。这些特点导致巨大的信息资源无法被充分利用。长期以来,为了提高网络资源的利用律,从成千上万、杂乱无章的信息中提取出自己所需要的知识,人们开始有目的的对网络信息进行挖掘。2 HTML及搜索引擎的局限性Internet上的大部分资源, 是由HTML(HyperText Markup Language 超文本标记语言)所构成的网页。在IE中,点击“查看”,选择“源文件”,会弹出一个记事本,记事本上的代码就是该网页的HTML源文件。HTML是网页制作的标准语言,无论是什么样的网页制作工具,都提供直接以HTML的方式来制作网页的功能,即使使用dreamweaver等图形界面方式的工具来制作网页,后台生成的都是HTML文件。HTML是一种标记语言,通过标记(Tag),将文字、图片等信息组合在一起,并按一定的格式显示出来。HTML的用途是通过构造网页框架以显示数据。所以,它仅仅对数据进行了显示,并不能正确描述数据的属性,从而对知识的发现带来了一定困难。搜索引擎曾经是互联网用户查找信息的主要方式。然而时至今日,搜索引擎早已不能满足人们的需要。深究其局限性,除了各种客观原因(死链接过多,重复信息过多,搜索出的网页信息已变动等),其实质在于搜索引擎对信息的检索仅仅采用机械的关键字符匹配,所以有时甚至无法处理在用户看来是非常简单的常识问题,更不能处理各种领域的专业知识。由于搜索引擎缺乏知识处理能力和理解能力,绝大部分的互联网用户感到应当出现更有效的、准确的知识发现技术。3 网络信息挖掘技术现状与发展趋势网络信息挖掘是指从大型网络中挖掘出数据信息之间潜在的规律和知识。在大型网络中,存在着海量的数据。数据是对客观事物的描述,是字符、数字、文本的集合。人们对数据进行分析,找出数据之间的关系,就形成了信息。从网络信息中寻找知识,就是从海量的数据信息中理解其模式。面对浩如烟海的网络信息,怎样才能省时省力又找到有用的知识,人们不断探索新的技术。3.1 网络信息采集系统目前,国内许多信息技术公司都推出了自己的网络信息采集产品。在搜索引擎已不再能满足人们需要的今天,越来越多的单位和个人纷纷购买这类软件,以解决网络信息的获取问题。这些软件系统虽然名称略有差别,但功能却大同小异。基本上都是采用:实时信息采集工具+数据库(SQL Server或其它)+Web发布。用户在采集工具中添加目标站点和网页,自行设置监控时间和挖掘深度,采集数据统一存入本地数据库中,Web发布模块提供数据信息的统一发布、导航和检索功能。网络信息采集系统具有以下优势:采集工具可以避免相同信息的重复抓取,过滤广告、版权等无用信息,采集到的内容比搜索引擎搜索出的内容要精确。系统提供分类训练工具,用户根据自己的分类需求、数据特点设定分类结构、特征样本,分类训练工具通过学习,能够实现自动分类。对于发布的信息,用户可以查阅本地数据库中经过过滤的内容,也可以直接调看原始网页。采集到的信息被存储在本地数据库中,避免了原始网站上的信息更迭给用户查询带来的困难。不足之处在于:网络信息采集系统最初的设计只是针对大型门户网站,这些网站结构雷同,信息比较容易获取,但是要对各种结构复杂的网站信息进行挖掘,需要对软件本身进行修改或二次开发。分类训练工具进行自动分类之前,需要学习各种特征样本,其学习的实质是从特征样本中抽取出关键词汇,由于当前许多不同学科之间存在较大的相关性,不同专业领域也会出现相同的专业词汇,所以自动分类一开始不会特别准确,只是通过长时间学习,准确性会越来越高。网络信息采集系统虽然还不太完善,但长期使用会形成与用户业务相关且内容丰富的信息资料库,是当前比较流行的挖掘方式之一。3.2 XML与语义网络挖掘技术要解决的问题不仅是从网络中获取知识,还应致力于将获取知识的中间环节最大限度的精简。前面提到的信息采集系统,是目前比较现实可行的方法,但还不能从根本上解决网络信息的利用问题。为使知识挖掘达到最佳效果,更好、更快的从网络信息中提炼出知识,互联网底层的数据必须经过严格的组织和管理,以形成理解用户请求的较为智能化的语义网络。XML(eXtensible Markup Language,可扩展标记语言)的出现,使语义网络的建设成为可能。互联网中的大部分数据信息,最初都被存放在数据库中,按其意义存放在相应的字段里。但是,一旦这些数据从数据库中调出来组成HTML网页,由于HTML存在前文所述的局限性,这些原本有意义的数据信息就变成了无特定意义的HTML标记组合。用户必须通过自己的头脑分析这些数据,从而导致信息处理速度减慢,直接影响网络知识挖掘效果。在这种情况下,出现了一种新的标记语言XML 。那么,XML与HTML有什么差别呢?请看下面这个例子: 职工列表 职工1姓名:唐迪单位: 中物院科技信息中心电话: (0816)xxxxxxx职工2姓名:汪波单位: 中物院科技信息中心电话: (0816)xxxxxxx person.xml 唐迪 中物院科技信息中心 (0816)xxxxxxx 汪波 中物院科技信息中心 (0816)xxxxxxx 上面的代码中,第一段使用的是HTML,第二段是XML。XML看上去和HTML非常相象,但细心的人会发现这里的标记代表的不再是显示格式,而是对于职工信息数据的语意解释。简言之,XML的用途是描述数据,而非显示数据。其显示数据主要依靠CSS或XSL。XML普遍取代HTML将成为互联网发展的趋势。互联网联盟(W3C)设计出XML这种可以描述数据属性的语言,以替代HTML这种只能显示数据的语言,也是在为网络知识挖掘打下基础。在XML的网络环境下,可以开发出相应的知识发现系统,来发现看似不相关的数据信息之间潜在的联系。4网络资源利用与现代信息服务 网络信息挖掘的最终目的,是为用户提供信息服务。对于从事图书情报工作的单位,除了要解决网络知识的获取问题,还需要根据用户的需求将网络资源进行加工利用,提供服务。当前对网络信息的利用呈现出整合、专业化、个性化几大趋势。4.1 网络资源整合随着信息时代的来临,许多高校图书馆、情报信息单位都在深入开展信息化建设,各种外购数据库和自建数据库越来越多。这些数据库,都自带检索系统,有着不同的格式和查询方式,用户使用时,需要对各种数据库逐一检索。这样不仅耗费了大量的时间,也使得对计算机操作不熟悉的用户使用起来十分不便。因此,对网络数据库的资源整合显得非常必要。异构资源统一检索技术,能够调用多种数据库的检索引擎,为用户提供统一的检索结果。有利于提高资源的使用效率,也为用户查询节省了时间和精力。异构统一检索的工作流程是这样的:当用户进行检索时,在统一检索平台中输入检索条件、并选择调用哪些源检索引擎,统一检索模块会将用户的检索请求解释成源检索引擎的本地化格式,在各种源检索引擎中进行检索。检索结果显示模块负责所有源检索引擎检索结果的去重、合并、输出等处理工作,再将最后的结果呈现给用户。以本单位的信息资源建设为例,中物院科技信息港引进了西文文摘数据库十余种,另有中国期刊网全文数据库、中国优秀博硕士学位论文全文库、书生之家和自建数据库(如:强激光与粒子束等公开出版物和其它内部资源)等。为使我院科研工作者能够方便快捷的使用这些资源,我们引进了清华同方异构统一检索平台(USP),实现了对多个数据库的同时检索,并提供基于浏览器/服务器(B/S:Browser/server)方式的统一查询,使用户感受到统一的网络资源体系。4.2 专业学科信息门户和特色学科数据库网络信息专业化处理的目的,是根据不同学科用户的需求对网络中的相关信息资源进行更有针对性、更深入的揭示,为用户提供更专门、专深的信息服务。由于许多网络数据库的内容都具有广泛性、综合性的特点,网络信息专业化处理更有助于专业用户省时省力的获得所从事领域的高质量信息。专业学科信息门户,就是将特定领域的信息资源集成为一个整体,为用户提供统一的知识服务体系。它的内容包括:特定专业领域的电子刊物、数字图书、科技报告、学位论文、学术会议文集,与专业相关的科研院所、学术团体、科技网站的信息导航,并由信息工作者提供各种形式的服务。建设特色学科数据库,将本单位或本地区的特色资源收集、整理、入库,对信息化建设有着重要的意义。一方面,国内的数据库资源相对较少,开展特色学科数据库建设将弥补国内数据库资源的不足。另外,科研单位的研究方向都具有自身特色,外购数据库有时已不能满足科研工作者的需要,建设特色学科数据库有利于相同领域内各单位之间的交流与资源共享。以我院为例,中物院下属科研所12个,并承办有计算物理学报、强激光与粒子束、爆炸与冲击、高压物理学报、含能材料、信息与电子工程等公开学术刊物,具有比较丰富且具自身特色的信息资源。2006年,中物院科技信息中心将开展中物院特色学科数据库建设,在共建共享的原则下,统一收集院属各单位的学术成果和其它学术资源,有计划有分工的进行分类建库,以实现对具有中物院特色学术资源的开发利用,并建立我院与院外单位之间非涉密学术成果的交流机制。许多高校也自建了有自身特点的电子资源,如四川大学的皮革数据库等。4.3 个性化信息服务个性化信息服务是根据用户的专业、兴趣、研究方向等个性需求,为用户提供主动的、交互式的信息服务过程。过去的信息服务方式受条件制约,大部分是被动式的,网络技术的蓬勃发展,为开展主动式信息服务创造了有利条件。在良好的网络环境和软件环境下,信息工作者能够方便的与用户建立互动关系,为用户提供一对一、一对多的个性化服务。据了解,一些情报信息部门已经开展了个性化服务工作,但由于目前还处于起步阶段,所以不同单位的服务手段也不一定相同。下面对本单位在这方面的尝试做简单介绍。中物院科技信息中心于2004年建立了自己的个性化信息服务系统,2005年已试运行一年。我们的系统能够实现以下基本功能:为用户提供了一个基于Web的服务平台,用户进行注册、登陆后可以填写和修改自己的个性需求,并可以与管理员互相留言、进行交流。在获取信息的过程中,用户可以利用检索平台自行检索,也可以进行定制。定制信息有两种选择:一是用户自己填写定制要求(包括关键词、最大推送条数、推送周期等),由系统自动检索自动推送,无须人工干预,并且每次推送信息不重复。二由用户填写定制内容,管理员进行分析,制定检索策略

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论