chapter1绪论_搜索引擎.ppt_第1页
chapter1绪论_搜索引擎.ppt_第2页
chapter1绪论_搜索引擎.ppt_第3页
chapter1绪论_搜索引擎.ppt_第4页
chapter1绪论_搜索引擎.ppt_第5页
已阅读5页,还剩100页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、信息检索,陈珂锐 计算机与信息工程学院,教学目录,绪论 lucene框架基础 经典搜索算法 lucene应用实例 发展前沿,从课程中能得到什么?,了解搜索引擎运行原理 了解lucene框架的核心类 快速的在信息系统中创建搜索模块,Chapter1 绪论-目录,搜索引擎的产生 搜索引擎的概念 搜索引擎工作原理 搜索技术的分类 开源的搜索引擎介绍,搜索引擎的产生,搜索引擎的概念,搜索引擎(search engines)是www环境下一种信息检索的工具。它利用某种软件(如网络“蜘蛛”spiders)对互联网上的信息进行自动跟踪和发掘,把收集到的所有网页进行分类存储和标引,并向用户提供查询入口。用户通

2、过这个查询入口在浩如烟海的信息海洋中找到自己所需的信息。,搜索引擎工作原理,我的世界你不懂!,搜索引擎的分类(1),根据信息覆盖范围及适用用户群分类 综合性搜索引擎 如:Baidu、Google、Yahoo、AltaViasta、Infoseek 专用性搜索引擎 如:Scirus科学搜索引擎、Softseek提供软件查找,MapBlast查找地图信息。,搜索引擎的分类(2),按组织信息方式分类 目录式搜索引擎 如:Yahoo、搜狐、 About 、 Looksmart 全文搜索引擎 如:AltaVista、百度、InfoSeek、 Lycos 智能搜索引擎 如:FSA 、Eloise 和 FA

3、QFinder。,搜索引擎的分类(3),按搜索范围分类 独立搜索引擎 如:百度、Google、Yahoo、Altavista 元搜索引擎 如:DogPile、 MetaCrawler、 Mamma,开源的搜索引擎介绍(1),开源的搜索引擎介绍(2),中文常用搜索引擎_综合搜索引擎中文 百度中文搜索引擎: Google中文搜索引擎: 搜狐搜狗搜索: 雅虎: 新浪: 网易 : TOM搜索: 北大天网搜索引擎: 奇虎 ,开源的搜索引擎介绍(3),国外英文常用搜索引擎_综合搜索引擎英文 Google 以搜索精度高、速度快成为最受欢迎的搜索引擎,是目前搜索界的领军人物。 Fast/AllTheWeb 总

4、部位于挪威的搜索引擎后起之秀,风头直逼google。 AltaVista 曾经的搜索引擎巨人,目前仍被认为是最好的搜索引擎之一。 Overture 最著名的搜索引擎广告商,竞价排名的始作俑者,也是全文搜索引擎。 Lycos 发源于西班牙的搜索引擎,网络遍布世界各地。 HotBot 隶属于Lycos Networks,搜索结果来自其他搜索引擎及目录索引。,找工作的搜索引擎: google学术搜索: google图书搜索: 比价购物搜索引擎: 博客与RSS搜索引擎: 中客 博客中国 八方 人脉搜索引擎: 交友,找工作, 商机 人物、软件 论坛搜索引擎:,开源的搜索引擎介绍(4),The Music

5、 Finder http:/www.music- Singingfish(只能搜寻声音和录像) 旅行TripAdvisor 图像搜索引擎: 图像词典 商业搜索引擎Business 生意定向搜索引擎。 DailyStocks 可以了解被查询公司存货的信息已经相关的新闻报导,研究, 引述和其他数据。 FMLX 英国定向的关于公司,存货数据,分析和研究的搜索引擎。 eBizSearch 关于电子商务的文章和报告。,开源的搜索引擎介绍(5),RSS源RSS feed搜索引擎 单个站点: 新华网: 天极网: 计世网: 网典: 搜索引擎: 中文RSS搜索引

6、擎: 八方搜索引擎 博客中国 feed,订阅数据源和单篇看天下 feed,订阅数据源看天下搜索引擎: 单篇RSS Search Engine 周博通RSS导航,开源的搜索引擎介绍(6),新闻类检索工具 Google资讯中国版 百度新闻搜索 中搜新闻搜索 雅虎资讯 搜狗新闻搜索 爱问新闻搜索 网易新闻搜索 新华网搜索 搜网综合新闻搜索,开源的搜索引擎介绍(7),图片类检索工具 百度图片搜索 Google图片搜索 雅虎图片搜索 中搜图片搜索 搜狗图片搜索 图像词典 网图 Virage(,开源的搜索引擎介绍(8),地图搜索引擎 搜狗地图 百度地图 爱问本地搜索 中搜地图 我要地图网 Google地图

7、 图行天下 网上电子地图 MapBlast( Topozone(,开源的搜索引擎介绍(9),音乐搜索引擎 百度MP3搜索 雅虎MP3搜索 中搜Mp3搜索 搜狗音乐搜索 SoGua 搜网MP3强力音乐大搜索 其他:各种音乐网站,开源的搜索引擎介绍(10),论坛搜索引擎 Google网上论坛 奇虎论坛社区搜索 Teein 中文论坛搜索引擎 中搜论坛-全球中文论坛门户 Chinabbs.Com 帖子搜索(非全文) SOSO论坛搜索,开源的搜索引擎介绍(11),FTP资源搜索引擎 天网 星空搜索 FTPSearch ,开源的搜索引擎介绍(12),邮件列表搜索引擎 万维网联盟邮件列表检索服务http:/

8、/search/mail/public Catalist Title ,开源的搜索引擎介绍(13),BT搜索引擎 BT特工 BT China 联盟 飞客BT搜索引擎 贪婪大陆-动漫搜索频道 BT下载工具: BT资源: BT China 联盟搜索引擎:射手网(字幕下载) 电骡emule,开源的搜索引擎介绍(14),BLOG搜索引擎 FeedSearch Grassland Souyo 利用其他搜索引擎,例如Google,Baidu等等, keyword inurl:blog ,开源的搜索引擎介绍(15),元搜索引擎 MetaCrawler () Profusion() Mam

9、ma() Dogpile() Vivisimo() Search(,开源的搜索引擎介绍(16),PK,开源的搜索引擎介绍-百度(1),百度() 百度,全球最大的中文搜索引擎、最大的中文网站。2000年1月创立于北京中关村。百度搜索引擎具有高准确性、高查全率、更新快以及服务稳定的特点。,开源的搜索引擎介绍-百度(2),Baidu 的简单搜索技巧 以空格表示逻辑“与” 在百度查询时不需要使用符号“AND”或“+”,百度会在多个以空格隔开的词语之间自动添加“+”。如:“云南 旱灾 图片” 以“-”表示逻辑“非” 百度支持“-”功能,用于有目的地删除某些无关网页,但减号之前必须留一空格。 例如:图书馆

10、 公共图书馆,开源的搜索引擎介绍-百度(3),以“|”表示逻辑“或” 使用“A|B”来搜索“或者包含词语A,或者包含词语B”的网页。 如:毛泽东|毛主席,开源的搜索引擎介绍-百度(4),In intitle:在网页标题中搜索 在一个或几个关键词前加“intitle:”,可以限制只搜索网页标题中含有这些关键词的网页 关键词B intitle:关键词A,开源的搜索引擎介绍-百度(5),利用利用intitle查找论文直接找特定论文 除了找论文网站,我们也可以直接搜索某个专题的论文。看过论文的都知道,一般的论文,都有一定的格式,除了标题、正文、附录,还需要有论文关键词,论文摘要等。其中, “关键词”和

11、“摘要”是论文的特征词汇。而论文主题,通常会出现在网页标题中。 例:关键词 摘要 intitle:物流,开源的搜索引擎介绍-百度(6),利用intitle语法查询别人的收藏夹 IE浏览器的收藏夹导出后,网页的标题(title)是bookmarks。百度的intitle语法可以把搜索范围限定在网页标题内。所以,用intitle语法可以查询别人的收藏夹,结果应该都是精品,没有哪个人会把垃圾放到自己收藏夹的。 实例:小说 intitle:bookmarks 查找小说的精彩站点,开源的搜索引擎介绍-百度(7),url是Uniform Resource Locator(统一资源定位符)的缩写,简单地说,

12、就是地址栏里的东西 格式:关键词A inurl:关键词B(关键词A与inurl之间要用空格隔开) 意思是在url中含有关键词B的网页中,寻找关于关键词A的信息 这句话说的好,“网页url中的某些信息,常常有某种有价值的含义”。只要善于观察,多多使用,你就会发现inurl语法非常有用。,开源的搜索引擎介绍-百度(7),例1:找关于photoshop的使用技巧,可以这样查询:photoshop inurl:jiqiao 上面这个查询串中的“photoshop”,是可以出现在网页的任何位置,而“jiqiao”则必须出现在网页url中。 注意,inurl:语法和后面所跟的关键词,不要有空格。,开源的搜

13、索引擎介绍-百度(7),问情 inurl:mp3搜索戏说乾隆的主题曲 inurl:liyuchun查找李宇春的信息 第一章 inurl:lianchengjue查询小说连城诀,开源的搜索引擎介绍-百度(8),site的用法 有时候,您如果知道某个站点中有自己需要找的东西,就可以把搜索范围限定在这个站点中,提高查询效率。 注意,“site:”后面跟的站点域名,不要带“http:/”;另外,site:和站点名之间,不要带空格。,开源的搜索引擎介绍-百度(8),在著名的软件下载站找软件 由于网站质量参差不齐,下载速度也快慢不一。如果我们积累了一些好用的下载站(如天空网,华军网,电脑之家等),就可以用

14、site语法把搜索范围局限在这些网站内,以提高搜索效率。 例: 网际快车 site:,开源的搜索引擎介绍-百度(8),cnkikw site:在教育网内搜索cnkikw 摄影 site:在hao123中找摄影的网站,开源的搜索引擎介绍-百度(9),“开始连接”、“正在连接”搜索免费电影 网络上有很多热心人提供免费电影的下载地址。为了表明真实可靠,把下载过程也同时附上。现在最流行的下载工具是flashget和迅雷。 Flashget下载开始就是“正在连接”,迅雷则是“开始连接”。所以,可以用想找的电影名字,加上“开始连接”或者“正在连接”,来寻找免费电影。 检索式形式如:“电影名 开始连接”、电

15、影名 正在连接”、“电影名 (开始连接 | 正在连接)” 举几个例子: 哈利波特4 开始连接 阿育王 (正在连接 | 开始连接),开源的搜索引擎介绍-百度(10),Baidu的特色搜索 百度快照 百度搜索引擎已先预览各网站,拍下网页的快照,为用户贮存大量的应急网页。点击每条搜索结果后的“百度快照”,可查看该网页的快照内容。以搜索“甲型h1n1流感”为例。,开源的搜索引擎介绍-百度(11),专业文档搜索() 百度支持对Office文档(包括Word、Excel、Powerpoint)、Adobe PDF文档、RTF文档进行了全文搜索。 要搜索这类文档,在普通的查询词后面,加一个“filetype

16、:” 。“Filetype:”后可以跟以下文件格式:DOC、XLS、PPT、PDF、RTF、ALL。其中,ALL表示搜索所有这些文件类型,开源的搜索引擎介绍-百度(11),例: 查找关于网络技术的课件 格式: 网络技术 filetype:ppt,开源的搜索引擎介绍-百度(12),精确匹配双引号和书名号 如果输入的查询词很长,百度在经过分析后,给出的搜索结果中的查询词,可能是拆分的,给查询词加上双引号,就可以达到这种效果。 例如,搜索京师范大学研究生院,加上双引号后,输入“北京师范大学研究生院”,获得的结果就全是符合要求的了。,开源的搜索引擎介绍-百度(12),书名号是百度独有的一个特殊查询语法

17、。加上书名号的查询词,有两层特殊功能: 一是书名号会出现在搜索结果中; 二是被书名号扩起来的内容,不会被拆分。 例如;查电影“手机”,如果不加书名号,很多情况下出来的是通讯工具手机,而加上书名号后,手机结果就都是关于电影方面的了。,开源的搜索引擎介绍-百度(13),百度国学() 是百度与国学公司合作推出的针对中国传统文化方面的专业搜索,提供了大量的丰富的古典名著、历史资料、人名书名等,所有在线资源都是免费的。 提供上起先秦,下至清末历代文化典籍的检索和阅读;包括经、史、子、集、蒙学及其他。,开源的搜索引擎介绍-百度(14),Baidu的高级检索,开源的搜索引擎介绍-百度(15),百度其他常用搜

18、索功能 新闻搜索 贴吧搜索 MP3搜索 百度知道 百度百科 视频搜索 图片搜索,开源的搜索引擎介绍-谷歌(1),二、Google(.hk/) 特点:世界上第一大的网络搜索引擎;有庞大的数据库;用户界面相当好;并且具有一定的大写、名词识别能力的快速搜索引擎。 口号:确解用户之意,切返用户之需,开源的搜索引擎介绍-谷歌(2),基本检索 Google用空格来表示逻辑“与”的操 Google自动使用“and”进行查询。如果您想缩小搜索范围,只需输入更多的关键词,只要在关键词中间留空格就行。,奥运会 中国 金牌,开源的搜索引擎介绍-谷歌(3),Google用大写的“OR” 来表示逻辑“或”操作 例如:想

19、搜集“二氧化钛” 文献方面的资料,可以在检索框里输入“二氧化钛 OR TiO2”。,开源的搜索引擎介绍-谷歌(4),Google用“-”表示“非”操作 用于有目的地删除某些无关网页,但减号之前必须留一空格。 例如:搜索郑州的相关信息(除河南财经政法大学以外) 检索式:郑州 河南财经政法大学OR河南财大,开源的搜索引擎介绍-谷歌(5),“.”数字范围搜索 想要查找数字?通过数字范围可以搜索包含指定范围内的数字的结果。只需在搜索框内向搜索字词后面添加两个数字,并将其用两个英文句号分开(无空格)即可。您可以使用“数字范围”设置从日期 (Willie Mays 1950.1960) 到重量( 5000

20、.10000 kg 卡车)的各种范围。不过,请务必指定度量单位或其他一些说明数字范围含义的指示符。 例如,要搜索关于2008-2009的政府信息公开的信息,开源的搜索引擎介绍-谷歌(6),不区分英文字母大小写 Google 搜索不区分英文字母大小写。所有的字母均当做小写处理。 例如:搜索“google”、“GOOGLE”或“GoOgLe”,得到的结果都一样。,开源的搜索引擎介绍-谷歌(7),短语搜索 在 Google 中,可以通过添加英文双引号来搜索短语。双引号中的词语在查询到的文档中将作为一个整体出现。 这一方法在查找名言警句或专有名词、搜索文章时显得格外有用。一些字符可以作为短语连接符。G

21、oogle 将“-”、“”、“.”、“=”等标点符号识别为短语连接符。 这里的“”是半角符号,也就是英文的引号 例:“冬天来了,春天还会远吗”,检索结果页面,开源的搜索引擎介绍-谷歌(8),定义:查看字词或词组的定义 举例:输入:定义 纳米 输入: Define:www,开源的搜索引擎介绍-谷歌(9),查找某类型的文件 Google已经可以支持13种非HTML文件的搜索。除了PDF文档,Google现在还可以搜索Microsoft Office (doc, ppt, xls, rtf) 、 Shockwave Flash (swf)、PostScript (ps)和其它类型文档。 例如:如果您

22、只想查找 关于元数据规范的PDF文件,而不要一般网页,只需搜索“元数据规范 filetype:pdf”。,元数据规范 filetype:pdf,其 他 搜 索 符 号,开源的搜索引擎介绍-谷歌(10),可以看出, 利用Google的“高级搜索”,可以做到:将搜索范围限制在某个特定的;网站中排除某个定网站的网页;将搜索限制于某种指定的语言; 查找链接到某个指定网页的所有网页;查找与指定网页相关的网页等。,开源的搜索引擎介绍-谷歌(10),信息需求类型:直接查找具体数值;查找相关专业的重要网站 例如:查找与化学科学信息门户相类似的网页(,开源的搜索引擎介绍-谷歌(11),特色搜索-类似网页 单击“类似网页”时,Google 侦察兵便开始寻找与这一网页

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论