第二章-网络信息的组织与管理-兼谈搜索引擎的发展趋势_第1页
第二章-网络信息的组织与管理-兼谈搜索引擎的发展趋势_第2页
第二章-网络信息的组织与管理-兼谈搜索引擎的发展趋势_第3页
第二章-网络信息的组织与管理-兼谈搜索引擎的发展趋势_第4页
第二章-网络信息的组织与管理-兼谈搜索引擎的发展趋势_第5页
已阅读5页,还剩34页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第二讲网络信息的组织与管理兼谈搜索引擎的发展趋势本讲内容大纲网络信息的特点搜索引擎对网络信息的组织与管理搜索引擎的未来发展趋势网络信息与传统信息的差异信息的产生——增长迅速,数量巨大,发布自由,来源广泛信息的传播——存储数字化,传播网络化信息的结构——内容丰富,形式多样,种类繁多信息的使用——流通性广,时效性强,不稳定性搜索引擎对网络信息的分类与管理第一代搜索引擎的探索—目录搜索典型代表:YahooYahoo!目录检索

/可浏览式的分类主题目录,覆盖广泛、层次丰富、类目详尽,共14个大类,大类下若干小类.专家参与建立

主题分类精确,范围广泛

查准率高

检索实例查找——网上论文信息的网页Yahoo!目录(最高层目录)二级目录三级类目四级类目SiteListing目录搜索帮助搜索引擎对网络信息的分类与管理目录搜索分类体系的特点以主题为中心或主题与学科结合两种分类方式(图1)优点:不仅直观,而且包容性强特点:突出热点,与日常生活相关弱化学科专业性搜索引擎对网络信息的分类与管理目录搜索分类体系的缺点1、这个分类体系是由文献的管理者人为的给出来的,用户并不一定清楚,或者说普通用户并不一定理解,这样就有可能找不到想要的信息。2、手工分类的成本太大、效率太低,不能适应快速增长的网上信息资源管理的需要。

搜索引擎对网络信息的分类与管理第二代搜索引擎技术

—关键词表第二代搜索引擎在看到了第一代搜索引擎的弊端后,创新性地提出了页面重要性分析技术pageranking技术和超链分析技术等,将最重要的页面优先呈现给用户。

关键词分类方法的优点

Google并不对文献进行分类,而是从文献中识别出“关键字”来,然后建立倒排索引。也就是说文献是用一组关键字列表来表示的,这就是网络资源的数据模型。这种分类管理的优点在于:计算机可以自动地完成,无需人工干预,这使得大规模的搜索成为可能。用户不需要额外的负担,只需要敲入适当的关键字就可以了。用户获得了前所未有的信息体验。

缺点同时并存。。。在这里“关键字”仅仅是出现在网页中的符号而已,它所指代的语义并没有被使用。页面分析所依据的也是存在于页面之间的链接关系,它不能表示这些页面本身包含什么信息。这就决定了搜索引擎还不能还好地处理页面信息的语义,因此,目前搜索引擎出现了一系列的困难。。。重复信息太多,有用信息太少。。。搜索引擎未来的发展趋势信息搜索的多维化搜索引擎正逐步扩展搜索信息的维度以满足用户日益扩张的搜索欲望,维度扩展体现在信息的载体、类型、传播方式等方面的扩展,以下是一些常见的信息维度:

信息的格式:web页、图片、PDF文档、MSOffice文档、Flash、Mp3等。

信息的类型:资讯、图书、地图、学术、大学、博客等。

信息的传播方式:计算机、手机、PDA等。搜索引擎未来的发展趋势搜索引擎的“智能化”搜索引擎对自然语言的学习能力更为强大,从语言学的角度,分析用户关键词的语境、个人搜索喜好等因素,将更准确的信息提供给用户。

自然语言的优势在于,一是使网络交流更加人性化,二是使查询变得更加方便、直接、有效。

搜索引擎未来的发展趋势搜索引擎未来的发展趋势更专业化的垂直主题搜索引擎网络信息的浩如烟海综合性搜引的力不从心检索结果的筛选耗时耗力

垂直主题的搜索引擎以其高度的目标化和专业化在各类搜索引擎中占据了一系席之地,比如象股票、天气、新闻、旅游等类的搜索引擎,具有很高的针对性,用户对查询结果的满意度较高。

更专业化的垂直主题搜索引擎

典型:去哪儿(/)“去哪儿”旅游信息搜引示例搜索引擎未来的发展趋势注重“人”的优点,P2P形式?

第三代搜索引擎的“社会性”

peertopeer(点对点)用“人”的力量弥补技术的不足初级探索:百度知道雅虎知识堂

搜索引擎未来的发展趋势注重“人”的优点,P2P形式?现在与未来?问答型社交站点的兴起

Quora:/知乎:/

搜索引擎未来的发展趋势对深层信息的挖掘所谓深层搜索是指搜索那些放在数据库中的信息。目前的搜索引擎主要处理普通的网页(称为浅层网页),对于深层网页的信息难以搜索,而据说这样的信息是普通网页的500倍。显然,如何能够将搜索引擎的触角深入到数据库里去,是下一代搜索引擎所关心的。

深层信息的挖掘的尝试常用学术搜索引擎介绍

GoogleScholar介绍11个常用学术搜引推荐:/s/blog_5c019b410100egjq.html一、人文社科资源的检索利用学术型搜索引擎的利用

Google学术搜索:

http://Shttp://S是Google于2004年11月推出的用来专门搜索学术文章的搜索引擎,涉及多个领域,其中包括人文社科资源。它可以搜索到网上与输入的关键词相关的学术性期刊论文、书籍、文摘等。文献源自学术出版物、大学及网上学术论文。搜索结果可关联我馆的书目信息与电子文献资源。了解有关某一领域的学术文献;某一作者的著述,并提供书目信息。按被引用次数排序可获取PDF原文按作者姓名检索

author:wujianzhong

Scholar检索示例:获取馆藏信息Scholar检索示例:获取全文Scholar检索示例:搜索引擎未来的发展趋势实时信息搜索——社交网站信息的挖掘

Google的实时信息搜索功能(暂时关闭)Bing的SocialSearch:/social

专门的社交信息实时搜索引擎——Topsy

搜索引擎未来的发展趋势更深入地对网络信息进行分析、处理

Google推出的Googletrends就是提供给用户经过二次加工的信息,第三代搜索将更为深入的对信息进行分析处理。搜索引擎由单纯对互联网信息的搜索转化为有思想、有性格的智能服务型搜索。

对检索信息的二次分析:Googletrends附:网络信息的组织标引与管理要素用于电子资源定位与存取的856字段元数据(dataaboutdata)-组织和发现信息资源的数据

在图书馆与信息界,元数据被定义为:提供关于信息资源或数据的一种结构化的数据,是对信息资源的结构化的描述。其作用为:描述信息资源或数据本身的特征和属性,规定数字化信息的组织,具有定位、发现、证明、评估,选择等功能.都柏林核心元素集(DublinCoreElementsset)表对都柏林核心15个元素的归类资源内容描述类元素知识产权描述类元素外部属性描述类元素题名(Title)创作者(Creator)日期(Date)主题(Subject)出版者(Publisher)类型(Type)描述(Descr

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论