网络信息资源与利用_第1页
网络信息资源与利用_第2页
网络信息资源与利用_第3页
网络信息资源与利用_第4页
网络信息资源与利用_第5页
已阅读5页,还剩6页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1Internet 历史与发展(因特网、国际互联网)1. ARPANet (1969 年,美国国防部研制)2. NSFNet(1985 年美国国家科学基金会建立,1989 年取代 ARPANet)3. Internet(1990 年后迅速普及)国内与 Internet 直接联网的四大网络1.中国教育科研网(CERNET)2.中国科技网(CSTNET)3.中国公用计算机互联网(CHINANET)4.中国金桥信息网(CHINAGBNET)Internet 的入网方式1.通过局域网方式2.通过 ISP 接入( ISP 是提供 Internet 入网服务的机构)拨号接入:计算机、Modem、电话线、ISP 帐号。 ( ADSL)专线接入:租用数据专线或光缆、DDN等以及配套网络设备。ADSL(Asymmetrical Digital Subscriber Line,非对称数字用户环路 ):是一种能够通过普通电话线提供宽带数据业务的技术,是目前极具发展前景的一种接入技术。ADSL 素有“网络快车” 之美誉,因其下行速率高、频带宽、性能优、安装方便、不需交纳电话费等特点而深受广大用户的喜爱,成为继 Modem、ISDN 之后的又一种全新的、更快捷、更高效的接入方式。Internet 的管理1.TCP/IP 协议:是计算机网络协议中最核心的两个协议。TCP 是传输控制协议,处理由于路径不同及其它可能原因造成的数据包颠倒、数据丢失、数据失真等问题。 IP 是网际协议,利用路由算法解决路由选择的问题。 2.IP 地址:是 Internet 上每台主机和用户终端的识别标识。 IP 地址在全球范围内都是唯一的。 IP 地址的表示:33.域名系统(DNS):例:结构为:主机名.机构名.网络名.最高域名常用网络名:com(商业机构)、edu( 教育机构)、mil( 军事部门) 、gov(政府部门) 、org(非盈利组织) 、net( 网络服务商 )最高域名:cn( 中国 )、uk(英国 )、jp(日本)美国享有国家域名默认权。4.客户机/服务器(client/server)模式服务器:是指向全球 Internet 用户提供信息和服务的高性能计算机,包括 Web 服务器、邮件服务器、文件传输服务器。客户机:是指连接在服务器上的工作站(网络终端) 。客户机通过有关程序(如浏览器等)向服务器发出指令或请求,服务器进行处理后将结果返回。 Internet 提供的主要服务电子邮件服务( E-mail)文件传输服务(FTP)远程登录(Telnet)电子论坛( Electronic Forum )信息查询服务( Archie、Gopher、WAIS,WWW)1.电子邮件服务( E-mail)E-mail 地址格式:用户名电子邮件服务器名如:常用电子邮件软件:Outlook Express, Eudora, Foxmail 等,可管理多个邮件帐号,直接收发邮件。 (将邮件 pop 到本地)Internet 提供的主要服务2.文件传输服务(File Transfer Protocol,FTP):是以其遵守的文件传输协议 FTP 而命名的。FTP 是 Internet 上文件传输的各种规程的集合。通过 FTP,用户可将本地文件上载给远程主机(upload) ,更多情况是从远程主机上下载 (download)文件。(包括文本、图像、声音、多媒体、软件或数据文件等)3.远程登录(Telnet):是指本地计算机通过 Internet 访问远程计算机上的硬件资源、软件资源和信息资源的过程。对于限制公开访问的远程主机,登录时要输入用户名和密码。随着 www 的普及, Telnet 已少有使用。4.电子论坛( Electronic Forum ):是Internet 用户在网上讨论交流的一种形式,又称新闻组(Newsgroop)或专题讨论组(Usenet)。电子公告版(Bulletin Board System,BBS)与专题讨论组功能相似,但其规模小得多,且 BBS 上的观点只留在本地服务器上。Internet 提供的主要服务5.信息查询(检索)服务:在 E-Mail、FTP和 Telnet 基础上开发的,比较知名的工具有 Archie、Gopher、WAIS 等,目前大多数 INTERNET 用户通过 WWW 浏览和 WWW 信息检索工具查询和使用网络信息资源。WWW 概述万维网(World Wide Web,WWW):又称环球网、全球网,起源于 1989 年欧洲粒子物理研究中心,采用 HTTP(超文本传输协议)在 Internet 上提供全球范围的多媒体信息服务。1993 年 1 月,因特网上约有 50个 WWW 服务器在工作,1999 年高达300 万个。现在 WWW 有等同于 Internet的趋势。超文本(Hypertext)包含两个含义:1.是信息的表达形式不局限于文字,还可以是图像、动画、视频、音频、动态数据、软件等非文本文件;2.是网页文件内部包含链接(link)。超文本标记语言:(Hyper Text Markup Language,HTML)是制作 Web 页面的语言,用来标记网页的标题、段落、链接、字体、颜色、表格等,并由浏览器来解释这些标识。1 HTML 编辑器:Frontpage、DreamWeaver 、Netscape Composer统一资源定位器(Uniform Resource Locator,URL):用来描述信息资源的类型和在网上的位置,即网址。URL 格式:/zhaosheng/yjs/index.html协议:/文件所在服务器名/目录路径和文件名浏览器(Browser):是使用 WWW 资源的客户软件。常用的浏览器有:2 网景公司的 Navigator Communicator3 微软公司的 Internet Explorer(IE)Web 检索工具:是指提供万维网信息查询的计算机系统。工作原理:1.信息采集:利用网络自动搜索软件Robot 或 Spider,以一个 URL 清单为向导,定期对 Internet 上的网页进行扫描搜索,记录下网页的有关事项。2.数据标引:对采集到的网页信息数据,Robot 等会自动抽取表达网页主题意义的词作为关键词来构建数据库索引。有的网络检索工具同时采用人工标引。Web 检索工具3.数据组织:标引后的网页数据形成检索工具数据库中的一条条记录,每条记录对应于一个网站或一个网页。记录内容包括网页标题、摘要或关键词、网址、网站网页与输入关键词的相关程度等 。4.检索功能:布尔算符检索(AND + 、OR | 、NOT -) ,截词检索,词组检索 ,自然语言检索、概念检索、分类浏览,检索限定,语种翻译,自动排序等。Web 检索工具的类型1.搜索引擎(search engine)自动搜索采集网页信息,自动标引,数据量大,关键词检索功能强,查全率高,查准率低。典型:Google2.目录型检索工具(Web directory,catalog)以分类目录检索为主,接受网站推荐,人工参与网页信息的筛选标引,查全率低,查准率高。代表:Yahoo!、搜狐多数检索工具同时具有关键词检索和目录浏览功能。Web 检索工具的类型3.多元搜索引擎(metasearch engine)通过统一的用户界面,可同时查询多个独立的 Web 检索工具,然后对这些结果进行加权等处理后返回给用户。例如: Metacrawler、Turbostart 等;4.天网搜霸:强大的搜索引擎集成工具。5.飓风搜索通:整合近百个各类搜索引擎,包含简体中文,繁体中文,软件,音乐,股票,新闻等类别的全方位互联网信息检索工具。国外著名通用搜索引擎Yahoo!()Google()Lycos()Excite()AltaVista()Infoseek()HotBot()Yahoo! Yahoo!的两位创始人大卫费罗(David Filo) 和杨致远(Jerry Yang),美国斯坦福大学电机工程系的博士生,于1994 年 4 月建立。 Yahoo!(雅虎)是最早最著名的目录型检索工具,在全球共有 24 个网站,12种语言版本。 (参见雅虎中国)检索途径:1.分类浏览:分为 14 个大类,每个大类下又分若干子类。2.专题链接:与 Shopping、Yellow Pages、 Maps News、Sports 等专题信息链接。3.简单检索:直接输入检索词4.高级检索GoogleGoogle 的释义:Google 是由英文单词“googol”变化而来。 “googol”是美国数学家 Edward Kasner 的侄子 Milton Sirotta 创造的一个词,表示 1 后边带有 100 个零的数字。Google 使用这个词代表公司想征服网上无穷无尽资料的雄心。两位斯坦福大学的博士生 Larry Page 和 Sergey Brin 在 1998 年创立了 Google。Google 开发出了世界上最大的搜索引擎,提供了最便捷的网上信息查询方法。通过对 30 多亿网页进行整理,Google 可为世界各地的用户提供适需的搜索结果,而且搜索时间通常不到半秒。现在,Google 每天需要提供 2 亿次查询服务。Google 特点:界面非常简洁,速度极快;检索网页数量达 24 亿,搜索引擎中排名第一;支持多达 132 种语言;包括简体和繁体中文;具有“手气不错”、 “网页快照”、图片搜索、新闻组搜索等功能。运算符:空格表示逻辑“与”;减号“”表示逻辑“非”;“OR”表示逻辑“或”;对短语或句子搜索时必须加英文引号。中文通用搜索引擎4 百度( )5 搜狐()6 新浪()7 网易()使用搜索引擎注意事项分类体系的差异类目设置和划分不一:如教育大类,新浪分出 44 个下位类;搜狐有 34 个;网易只有 24 个。类名表述的不同:如新浪用 “计算机”;网易用“电脑”。关键词标引高级搜索中运算符的使用空格(AND) 、且将一个检索提问同时发送给多个搜索引擎,同时检索多个数据库,再经过聚合、去重之后输出检索结果。因而又被称为 simultaneous unified search index (SUSI)。3、元搜索引擎的特色和评价目前运营的元搜索引擎各具特色,功能各有侧重,完全理想的尚不多见。评价一个元搜索引擎主要从 4 个方面进行。(1)所集成搜索引擎的数量和名称(2)检索提问的输入及处理(3)其他检索选项,如等侯时间、检索作业方式和其他检索参数等。(4)检索结果的处理4、元搜索引擎的主要缺欠(1)常常严格限制从别的个别搜索引擎检索到的记录的数量(有时只有项)(2)检索式过于复杂时难以进行转移(3)在多数情况下,对五大搜索引擎,它们只能检索其中的两三个5、元搜索引擎的适用性通常在下列几种情况下比较适合使用元搜索引擎(1)在查询极不明确时(2)想检索的感兴趣的网站少于个时(3)检索只使用一个单词或词组时(4)搜索的记录多数出现在较小的搜索引擎上时(二) 常用的元搜索引擎(次重点)1、常用的桌面元搜索引擎目录国内比较流行的桌面元搜索引擎有飓风搜索通和网际狂搜,可由网上下载。2、常用的 All-in-One 式元搜索引擎比较有代表性的 All-in-One 式元搜索引擎有iTools,Hotbot,CUSI,www.usask.ca/cusi/cusi.html3、常用的并发式元搜索引擎Dogpile,Vivisimo,www.VMetaCrawler,Profudfsion,搜星, (一)图像的检索(次重点)1、图像检索的原理(1)基于文本的图像检索技术该技术是利用文本方式描述图像的特征,如绘画作品的作者、年代、流派、尺寸等。这种技术目前在因特网图像信息检索系统中占主导地位。用来帮助图像分析、标引的 Web 文档内容包括:图像的文件名及其网址;图像的替代文字;图像周围的文字;图像所在页面的标题;图像的超链接;图像所在网页彼此间的链接。(2)基于内容的图像检索技术对图像的内容语义,如图像的颜色、纹理、布局等进行分析和检索的图像检索技术。此技术出现于 20 世纪 90 年代初期。该技术用于因特网图像信息的检索克服了基于文本的图像检索技术存在的缺陷。2、基于文本的图像搜索引擎(1)I容量大、速度快、无用信息和死链接较多。 检索方法:一般搜索和高级搜索。 结果显示:缩略图。 (2)AllTheWeb 多媒体搜索一流的多媒体搜索功能,收录了图像、音频、视频等多种。检索方法:提供一般检索和高级检索。在高级检索界中可以选择文档大小和颜色来进行限制检索。结果显示:一次检索结果提供缩略图还有其他比较有代表性的图像搜索引擎,如http:/ GI3、基于内容的图像搜索引擎基于内容的图像搜索引擎还处于研制阶段,目前属于真正意义上的基于内容的图像搜索引擎还不是很多,比较有代表性有:QBIC,VisualSEEK 的 WebSEEK, : 8008/(二)音频文件的检索(一般)1、 音频文件检索原理音频检索比较简单的办法是把音频作为一种不透明的数据集合来处理,仅涉及它的文件名、文件格式和采样等外部特征。这种方法和基于文本的图像检索是相似的。用基于外部特征方法来实现歌曲的检索,在实际应用中取得了很好的效果,但它的局限性在于,它只适合歌曲检索,而对其他类型的检索要求就无能为了,比如用户要根据一体贴曲子的旋律片断来找整曲以及其他旋律相似的曲子,这种检索方式就无法解决了。基于内容的音频检索系统可以解决这一问题。基于内容的音频检索主要包括的检索方式有:基本属性检索、相似性、声音/感知特性检索、主观特性检索、示例检索。2、 基于文本的音频搜索引擎M,CNET D,Kazaa Media Desktop (MP3 only),音乐极限,3、基于内容的音频搜索引擎上海交通在学音乐数据库检索系统ThemeFinder,第七章 学术信息的网上检索与获取(一)综合性学术信息检索系统(重点)1、国外检索系统(1)ISI Web of Knowledge,该系统由美国 Thomson Scientific 创建,收录文献类型有学术期刊、技术专利、会议录、化学反应、研究基金及网站资源等。收录学科范围有自然科学、工程技术、社会科学、艺术与人文科学信息资源。该系统的检索功能提供跨库联全检索和资源无缝整合两大功能。在检索技巧上,ISI Web of Knowledge 在大小写、运算符、通配符、括号的检索途径规则与通用规则方面基本相同。(2)OCLC 的 FirstSearch 检索系统FirstSearch 是由美国 OCLC 创建的。OCLC( Online Computer Library Center,INC) 是一个非赢利,成员制的在线计算机图书馆服务和研究机构,也是世界上最大的文献信息服务机构之一。包括期刊论文、图书、专利、政府报告、报纸、学位论文、会议论文、视频音频等文类型。学科范围包括艺术和人文学科,工程和技术等综合性学科。目前通过该系统可检索 70 多个数据库,其中 30 多个可检索到全文。(3)Proquest,/umi/该系统由美国 ProQuest Information and Learning Company 创建和开发。收录文类型包括期刊论文和报纸,收录学科范围广,涵盖艺术与人文、工商业、计算机与因特网、经济与贸易、教育、科学与数学等。(4)EBSCOhost该系统收录学科范围为综合性。文献类型包括期刊、报纸、参考工具、网络资源等。(5)Springer Link,收录学科主要是理工科类。收录文献类型有电子期刊、电子书、电子丛书、多媒体。2、中文检索系统(1)CNKI 平台,收录范围包括自然科学、工程技术、人文与社会科学等。收录文献类型有期刊、博士硕士论文、报纸、图书、7会议论文。(2)NSTL 网络服务系统,(3)CSDL,(4)CALIS,(二)各学科信息资源的获取(一般)1、社会科学信息资源检索工具(1)Social Science Information Gateway (SOSIG), http:/sosig.esrc.bris.as.uk(2)社会科学研究网 Social Science Research Network (SSRN), 2、教育信息检索工具(1)ERIC Web Site ERIC 数字图书馆 (2)The Educators Reference Desk,(3)College Net,(4)Peterson,3、经济学信息检索工具(1)EconWPA,4、工程技术信息检索工具(1)Ei Village2,(2)中国工程技术信息网(CETIN), 第八章 参考信息的网上检索(一)网上参考信息定义和类型(次重点)批人名、地名、机构、事件、统计数据等一类数据、事实信息,是人们在工作研究和目常生活中经常要查考、引用的信息。网上参考信息源的主要类型:百科知识检索网站、人物信息检索网站、地理信息检索网站、时事、新闻信息检索服务、机构信息检索网站、语词信息检索网站、统计信息检索网站。(二)各类型网上参考信息源的代表网站 (一般)1、不列颠百科全书网站(Encycolpedia Britannica Online) ,2、Marquis Whos Who, 3、Mapblast,4、Google news, 5、World of learning online, 6、D ,7、UNESCO Institute for Statistics,(一)因特网上的信息资源(次重点)网上有什么样的信息:政府信息、科研信息、教育信息、文化信息、休闲娱乐信息。网上不太可能有的信息:如有并企业公司的战略、发展规划,商业、贸易秘密;商业性库和大多数有版权的印刷资料等。因特网上信息资源的特点及信息利用价值因特网信息的特点:无限性和广泛性,多样性,共享性,新颖性,无序性。因特网信息的优越性:价廉,新颖、深入,广泛直接交流,非正式和自由发表园地。第四章 目录型网络检索工具 (一) 目录型网络检索工具概述(重点)1、目录型网络检索工具原理因特网上的目录型检索工具一般称为网络目录(Web Directory),它是由网络开发者将网络资源收集后,以某种分类法进行组织整理,并和检索法集成一种可供分类浏览和检索的等级结构式目录。网络目录一般是通过引导网络用户的查询概念来帮助用户找到所需的网络信息。 2、目录资源的收集和分类( 1)收集网络目录一般采用人工或半自动方式采集和存储网络信息。 ( 2)分类网络目录通常是按网络资源的主题性质进行分类,以某种分类体系为依据,将信息资源分为若干领域的主题范畴,然后再细分为各学科专题目录,最后列出具体的相关网站(资源) ,形成一个由信息链组成的树状结构,即总目 专题目录 链接 文本。 目录资源的收集和分类优点是人工方式建立的查询工具其检索信息的准确性较高;缺点是收集信息的效率及全面性低于自动方式。目前,部分网络资源目录利用自动功能或者由用户递交的方式来丰富和补充资源。 3、网络目录结构一个网络目录包括许多层,最高层(一级)目录页总是将因特网资源分成最大范围、最普通的主题范畴。主题链接到第二层目录(另一个页面) ,然后在第二层目录再分出子目录,一般到第四级。4、网络资源目录分类方法(1)主题分类法一个主题充当一个类目,类目象主题词表一样按字顺排列,一个类目又可分为若干细目,同位类的细目也是按字顺排列。主题分类法的优点是以事物分类, 与些事物相关的内容全部集中在一起;对交叉学科的主题提示非常有利。缺点是此分类法容量小, 对网络资源的覆盖率极为有限。(2)学科分类法以知识分类为基础、按照学科性质及从属、层次关系来组织网络资源,类目排序以字顺为标准。学科分类法按照学科性质来组织网络资源。比主题分类法有更大的容量,内容更有针对性,学术性,符合研究人员的要求。(3)图书分类法网上的虚拟图书馆多用图书分类法,目前采用的主要有杜威十进分类法(DDC) 、国际十进分类法(UDC) 、国会图书馆分类法(LCC)和中国图书馆分类法。图书分类法的特点是:以科学体系为基础,体系宠大,容量上占优势; 网络用户对其了解较多;版本更新及时,能满足动态的网络信息分类;有机读版本,网络资源目录可以直接套用。 (4)分面组配法这种分类法的原理首先确定几个分类标准,即分面,再确定每个分类标准中的若干特征值,即类目,每一分面的类目与其他分面的类目分别再组配,形成许多组配类目,达到细分的目的。多用于地图检索专业工具。(二) 网络资源目录介绍(次重点)国外著名的网络资源目录Yahoo! , Galaxy, VL, BUBL LINK, Dmoz, LII国内著名的网络资源目录雅虎中国,搜狐分类目录,新浪分类目录重点了解 Yahoo! , Galaxy, VL 和BUBL LINK 的特点和使用方法。1、Yahoo! 1994 年创建,是最早最著名的目录型网络检索工具,也是最流行的网络资源目录。收录范围包括网站、Web 页、新闻组、FTP 等资源。在专题安排上,即包括了学术资源,也包括了大量的非学术资源和许多娱乐资源。分类特点以主题为基础。具有关键词检索功能评价:目录分类比较合理,层次深,类目设置好,克服单纯由搜索软件动完成分类的缺陷,增强分类的条理性。它的分类体系和搜索模式对网络检索的发展产生了巨大的影响。 2、Galaxy 编制: 1994 年创建。最初动因是开发用于电子商务的大型目录指南服务。目录特点:其目录链接了因特网上的数千个站点,它不但提供分类目录查询,也具备一定的检索功能主题递交:通过表格操作向该服务器提交增补主题内容的建议。评价:由专家使用人工智能等最佳技术组织信息,目录分类更加细致合理。3、The www Virtual Library (VL) 编制:VL 是老资格的 Web 目录,由松散的志愿者联盟来管理和维护。收录范围:主要收集各学科专业领域网络信息。目录特点:参照美国国会图书馆主题词表对网页加以组织。检索方法:主要通过目录的导引和浏览,检索者最终调出不再含任何链接的文献类文本。评价:该系统称得上是专业性网络信息资源目录的集大成之作。在世界范围内影响广泛,内容不得经常更新,具有很高的学术性。 4、BUBL LINK ,http:/bubl.ac.uk/link编制:源于 1990 年,目前发展成为英国一项重要的国家网络信息服务,主要为高等教育团体服务。收录范围:覆盖了所有学术领域的经过选择的网络资源目录。目录按照杜威十进分类法(DDC)的体系组织编排。检索功能:按 DDC 分类浏览;按主题字顺浏览;输入检索词检索。评价:目录体系庞大,用户检索容易、快捷,查找的结果更相关。 (三)网络资源目录与搜索引擎的比较(重点)网络资源目录与搜索引擎适用不同的检索需求。网络资源目录主要适用于:用户进行较宽泛的主题浏览和检索;用户尚未形成很精确的检索概念时。 与搜索引擎比较,网络目录具有下列的特点:网络目录中的网页是由专家人工精选得来的,故网页内容丰富,学术性强;分类浏览方式直观易用,适合多数网络用户和新手;当用户检索目的不明确,检索词不确定时,分类浏览方式更为有效;有较高的查准率。网络资源目录的局限是:受人工标引的限制,搜索范围较搜索引擎要小许多;收录的网页数量和标引浓度相对不足;难以控制主题等级类目的质量。第五章 元搜索引擎(一)元搜索引擎概述(重点)1.元搜索引擎的概念 元搜索引擎(metasearch engine ,megasearch engine 或 unified search engine) 又称为集合式搜索引擎。它是将多个搜索引擎集成在一起,并提供一个统一的检索界面。2、元搜索引擎的分类 元搜索引擎按运行方式的差异可以为桌面元搜索引擎和在线搜索引擎,其中前者的代表是各类搜索软件,而后者按照功能又可以划分为 All-in-One 式元搜索引擎和并行检索式元搜索引擎。桌面元搜索引擎不是通过网上调用方式在线使用,而是直接在用户的计算机上运行,相当于用户自己拥有一个元搜索引擎。(2) All-in-One 式元搜索引擎又称搜索引擎元目录,它将主要的搜索引擎集中起来, 并按类型或按检索问题等编排组织成目录,帮助、导引用户根据检索需求来选择适用的搜索引擎。 (3)并行检索式元搜索引擎将多个搜索引擎集成在一起,提供一个统一的检索界面;且将一个检索提问同时发送给多个搜索引擎,同时检索多个数据库,再经过聚合、去重之后输出检索结果。因而又被称为 simultaneous unified search index (SUSI)。3、元搜索引擎的特色和评价目前运营的元搜索引擎各具特色,功能各有侧重,完全理想的尚不多见。评价一个元搜索引擎主要从 4 个方面进行。 ( 1)所集成搜索引擎的数量和名称(2)检索提问的输入及处理(3)其他检索选项,如等侯时间、检索作业方式和其他检索参数等。(4)检索结果的处理4、元搜索引擎的主要缺欠8(1)常常严格限制从别的个别搜索引擎检索到的记录的数量(有时只有项)(2)检索式过于复杂时难以进行转移(3)在多数情况下,对五大搜索引擎,它们只能检索其中的两三个5、元搜索引擎的适用性 通常在下列几种情况下比较适合使用元搜索引擎(1)在查询极不明确时(2)想检索的感兴趣的网站少于个时(3)检索只使用一个单词或词组时(4)搜索的记录多数出现在较小的搜索引擎上时(二) 常用的元搜索引擎(次重点)1、常用的桌面元搜索引擎目录国内比较流行的桌面元搜索引擎有飓风搜索通和网际狂搜,可由网上下载。2、常用的 All-in-One 式元搜索引擎比较有代表性的 All-in-One 式元搜索引擎有iTools,Hotbot,CUSI,www.usask.ca/cusi/cusi.html3、常用的并发式元搜索引擎Dogpile,Vivisimo,www.VMetaCrawler,Profudfsion, 搜星, 第六章 多媒体信息检索(一)图像的检索(次重点)1、图像检索的原理(1)基于文本的图像检索技术该技术是利用文本方式描述图像的特征,如绘画作品的作者、年代、流派、尺寸等。这种技术目前在因特网图像信息检索系统中占主导地位。用来帮助图像分析、标引的 Web 文档内容包括:图像的文件名及其网址;图像的替代文字;图像周围的文字;图像所在页面的标题;图像的超链接;图像所在网页彼此间的链接。(2)基于内容的图像检索技术对图像的内容语义,如图像的颜色、纹理、布局等进行分析和检索的图像检索技术。此技术出现于 20 世纪 90 年代初期。该技术用于因特网图像信息的检索克服了基于文本的图像检索技术存在的缺陷。2、基于文本的图像搜索引擎(1) I容量大、速度快、无用信息和死链接较多。 检索方法:一般搜索和高级搜索。 结果显示:缩略图。 (2) AllTheWeb 多媒体搜索一流的多媒体搜索功能,收录了图像、音频、视频等多种。检索方法:提供一般检索和高级检索。在高级检索界中可以选择文档大小和颜色来进行限制检索。结果显示:一次检索结果提供缩略图 还有其他比较有代表性的图像搜索引擎,如http:/ GI3、基于内容的图像搜索引擎基于内容的图像搜索引擎还处于研制阶段,目前属于真正意义上的基于内容的图像搜索引擎还不是很多,比较有代表性有:QBIC,VisualSEEK 的 WebSEEK, : 8008/(二)音频文件的检索(一般)音频文件检索原理音频检索比较简单的办法是把音频作为一种不透明的数据集合来处理,仅涉及它的文件名、文件格式和采样等外部特征。这种方法和基于文本的图像检索是相似的。用基于外部特征方法来实现歌曲的检索,在实际应用中取得了很好的效果,但它的局限性在于,它只适合歌曲检索,而对其他类型的检索要求就无能为了,比如用户要根据一体贴曲子的旋律片断来找整曲以及其他旋律相似的曲子,这种检索方式就无法解决了。基于内容的音频检索系统可以解决这一问题。基于内容的音频检索主要包括的检索方式有:基本属性检索、相似性、声音/感知特性检索、主观特性检索、示例检索。2.基于文本的音频搜索引擎M,CNET D,Kazaa Media Desktop (MP3 only),音乐极限, 3、基于内容的音频搜索引擎上海交通在学音乐数据库检索系统ThemeFinder, 第七章 学术信息的网上检索与获取(一)综合性学术信息检索系统(重点)1、国外检索系统(1) ISI Web of Knowledge,该系统由美国 Thomson Scientific 创建,收录文献类型有学术期刊、技术专利、会议录、化学反应、研究基金及网站资源等。收录学科范围有自然科学、工程技术、社会科学、艺术与人文科学信息资源。该系统的检索功能提供跨库联全检索和资源无缝整合两大功能。在检索技巧上,ISI Web of Knowledge 在大小写、运算符、通配符、括号的检索途径规则与通用规则方面基本相同。(2) OCLC 的 FirstSearch 检索系统FirstSearch 是由美国 OCLC 创建的。OCLC( Online Computer Library Center,INC) 是一个非赢利,成员制的在线计算机图书馆服务和研究机构,也是世界上最大的文献信息服务机构之一。包括期刊论文、图书、专利、政府报告、报纸、学位论文、会议论文、视频音频等文类型。学科范围包括艺术和人文学科,工程和技术等综合性学科。目前通过该系统可检索 70 多个数据库,其中30 多个可检索到全文。(3)Proquest,/umi/该系统由美国 ProQuest Information and Learning Company 创建和开发。收录文类型包括期刊论文和报纸,收录学科范围广,涵盖艺术与人文、工商业、计算机与因特网、经济与贸易、教育、科学与数学等。(4) EBSCOhost该系统收录学科范围为综合性。文献类型包括期刊、报纸、参考工具、网络资源等。(5) Springer Link,收录学科主要是理工科类。收录文献类型有电子期刊、电子书、电子丛书、多媒体。2、中文检索系统(1) CNKI 平台, 收录范围包括自然科学、工程技术、人文与社会科学等。收录文献类型有期刊、博士硕士论文、报纸、图书、会议论文。(2) NSTL 网络服务系统,(3) CSDL,(4) CALIS,(二)各学科信息资源的获取1、社会科学信息资源检索工具(1) Social Science Information Gateway (SOSIG), http:/sosig.esrc.bris.as.uk(2)社会科学研究网 Social Science Research Network (SSRN), 2、教育信息检索工具(1) ERIC Web Site ERIC 数字图书馆 (2) The Educators Reference Desk,(3) College Net,(4) Peterson,3、经济学信息检索工具(1)EconWPA,4、工程技术信息检索工具(1) Ei Village2,(2)中国工程技术信息网(CETIN), 第八章 参考信息的网上检索(一)网上参考信息定义和类型(次重点)人名、地名、机构、事件、统计数据等一类数据、事实信息,是人们在工作研究和目常生活中经常要查考、引用的信息。网上参考信息源的主要类型:百科知识检索网站、人物信息检索网站、地理信息检索网站、时事、新闻信息检索服务、机构信息检索网站、语词信息检索网站、统计信息检索网站。识记: 网上参考信息源的类型。(二)各类型网上参考信息源的代表网站 (一般)1、不列颠百科全书网站(Encycolpedia Britannica Online) ,2、Marquis Whos Who, 3、Mapblast,4、Google news, 5、World of learning online, 6、D,7、UNESCO Institute for Statistics,3、阅读完每章教材后,应将以前的作业题认真复习一遍,要求熟练掌握!并独立完成老师安排的 4 套复习模拟题,注意答题技巧和答题方法。考试大纲要求掌握的章节第一章 因特网信息资源(8 分)第二章 因特网信息检索概论(17 分)第三章 搜索引擎(17 分)第四章 目录型网络检索工具(14 分)第五章 元搜索引擎(14 分)第六章 多媒体信息检索(11 分)9第七、八章 学术信息的网上检索与获取(11 分)第九章 参考信息的网上检索(8 分)第一章 因特网信息资源(一)因特网上的信息资源(次重点)网上有什么样的信息:政府信息、科研信息、教育信息、文化信息、休闲娱乐信息。网上不太可能有的信息:如有并企业公司的战略、发展规划,商业、贸易秘密;商业性库和大多数有版权的印刷资料等。因特网上信息资源的特点及信息利用价值因特网信息的特点:无限性和广泛性,多样性,共享性,新颖性,无序性。因特网信息的优越性:价廉,新颖、深入,广泛直接交流,非正式和自由发表园地。第四章 目录型网络检索工具 (一) 目录型网络检索工具概述(重点)1、目录型网络检索工具原理因特网上的目录型检索工具一般称为网络目录(Web Directory),它是由网络开发者将网络资源收集后,以某种分类法进行组织整理,并和检索法集成一种可供分类浏览和检索的等级结构式目录。网络目录一般是通过引导网络用户的查询概念来帮助用户找到所需的网络信息。 2、目录资源的收集和分类( 1)收集网络目录一般采用人工或半自动方式采集和存储网络信息。 ( 2)分类网络目录通常是按网络资源的主题性质进行分类,以某种分类体系为依据,将信息资源分为若干领域的主题范畴,然后再细分为各学科专题目录,最后列出具体的相关网站(资源) ,形成一个由信息链组成的树状结构,即总目 专题目录 链接 文本。 目录资源的收集和分类优点是人工方式建立的查询工具其检索信息的准确性较高;缺点是收集信息的效率及全面性低于自动方式。目前,部分网络资源目录利用自动功能或者由用户递交的方式来丰富和补充资源。 3、网络目录结构一个网络目录包括许多层,最高层(一级)目录页总是将因特网资源分成最大范围、最普通的主题范畴。主题链接到第二层目录(另一个页面) ,然后在第二层目录再分出子目录,一般到第四级。4、网络资源目录分类方法(1)主题分类法一个主题充当一个类目,类目象主题词表一样按字顺排列,一个类目又可分为若干细目,同位类的细目也是按字顺排列。主题分类法的优点是以事物分类, 与些事物相关的内容全部集中在一起;对交叉学科的主题提示非常有利。缺点是此分类法容量小, 对网络资源的覆盖率极为有限。(2)学科分类法以知识分类为基础、按照学科性质及从属、层次关系来组织网络资源,类目排序以字顺为标准。学科分类法按照学科性质来组织网络资源。比主题分类法有更大的容量,内容更有针对性,学术性,符合研究人员的要求。(3)图书分类法网上的虚拟图书馆多用图书分类法,目前采用的主要有杜威十进分类法(DDC) 、国际十进分类法(UDC) 、国会图书馆分类法(LCC)和中国图书馆分类法。图书分类法的特点是:以科学体系为基础,体系宠大,容量上占优势; 网络用户对其了解较多;版本更新及时,能满足动态的网络信息分类;有机读版本,网络资源目录可以直接套用。 (4)分面组配法这种分类法的原理首先确定几个分类标准,即分面,再确定每个分类标准中的若干特征值,即类目,每一分面的类目与其他分面的类目分别再组配,形成许多组配类目,达到细分的目的。多用于地图检索专业工具。(二) 网络资源目录介国外著名的网络资源目录Yahoo! , Galaxy, VL, BUBL LINK, Dmoz, LII国内著名的网络资源目录雅虎中国,搜狐分类目录,新浪分类目录重点了解 Yahoo! , Galaxy, VL 和BUBL LINK 的特点和使用方法。1、Yahoo! 1994 年创建,是最早最著名的目录型网络检索工具,也是最流行的网络资源目录。收录范围包括网站、Web 页、新闻组、FTP 等资源。在专题安排上,即包括了学术资源,也包括了大量的非学术资源和许多娱乐资源。分类特点以主题为基础。具有关键词检索功能评价:目录分类比较合理,层次深,类目设置好,克服单纯由搜索软件动完成分类的缺陷,增强分类的条理性。它的分类体系和搜索模式对网络检索的发展产生了巨大的影响。 2、Galaxy 编制: 1994 年创建。最初动因是开发用于电子商务的大型目录指南服务。目录特点:其目录链接了因特网上的数千个站点,它不但提供分类目录查询,也具备一定的检索功能主题递交:通过表格操作向该服务器提交增补主题内容的建议。评价:由专家使用人工智能等最佳技术组织信息,目录分类更加细致合理。3、The www Virtual Library (VL) 编制:VL 是老资格的 Web 目录,由松散的志愿者联盟来管理和维护。收录范围:主要收集各学科专业领域网络信息。目录特点:参照美国国会图书馆主题词表对网页加以组织。检索方法:主要通过目录的导引和浏览,检索者最终调出不再含任何链接的文献类文本。评价:该系统称得上是专业性网络信息资源目录的集大成之作。在世界范围内影响广泛,内容不得经常更新,具有很高的学术性。 4、BUBL LINK ,http:/bubl.ac.uk/link编制:源于 1990 年,目前发展成为英国一项重要的国家网络信息服务,主要为高等教育团体服务。收录范围:覆盖了所有学术领域的经过选择的网络资源目录。目录按照杜威十进分类法(DDC)的体系组织编排。检索功能:按 DDC 分类浏览;按主题字顺浏览;输入检索词检索。评价:目录体系庞大,用户检索容易、快捷,查找的结果更相关。 (三)网络资源目录与搜索引擎的比较(重点)网络资源目录与搜索引擎适用不同的检索需求。网络资源目

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论