版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、搜索引擎原理与检索技巧搜索引擎原理与检索技巧第1页搜索引擎概念搜索引擎: 就是在Internet上执行信息搜索专门站点,它们能够对主页进行分类与搜索。假如输入一个特定搜索词,搜索引擎就会自动进入索引清单,将全部与搜索词相匹配内容找出,并显示一个指向存放这些信息连接清单。搜索引擎原理与检索技巧第2页搜索引擎分类搜索引擎按其工作方式主要可分为三种:全文搜索引擎(Full Text Search Engine) 如:Google、Baidu、Yahoo、Bing目录索引类搜索引擎(Search Index/Directory) 如:搜狐、新浪、网易、Yahoo元搜索引擎(Meta Search En
2、gine) 如:搜索引擎原理与检索技巧第3页全文搜索引擎工作原理全文搜索引擎是经过从互联网上提取各个网站信息(以网页文字为主)而建立数据库中,检索与用户查询条件匹配相关统计,然后按一定排列次序将结果返回给用户,所以他们是真正搜索引擎。全文搜索引擎都拥有自己检索程序(Indexer),俗称“蜘蛛”(Spider)程序或“机器人”(Robot)程序,并自建网页数据库,搜索结果直接从本身数据库中调用。搜索引擎原理与检索技巧第4页全文搜索引擎工作原理搜索引擎自动信息搜集功能分两种。一个是天天二十四小时不间断地,搜索引擎主动派出“蜘蛛”程序,对一定IP地址范围内互联网站进行检索,一旦发觉新网站,它会自动
3、提取网站信息和网址加入自己数据库;另一个是提交网站搜索,即网站拥有者主动向搜索引擎提交网址,它在一定时间内(2天到数月不等)定向向你网站派出“蜘蛛”程序,扫描你网站并将有关信息存入数据库,以备用户查询。因为近年来搜索引擎索引规则发生了很大改变,主动提交网址并不确保你网站能进入搜索引擎数据库,所以目前最好方法是多获得一些外部链接,让搜索引擎有更多机会找到你并自动将你网站收录。搜索引擎原理与检索技巧第5页全文搜索引擎工作原理当用户以关键词查找信息时,搜索引擎会在数据库中进行搜寻,假如找到与用户要求内容相符网站,便采取特殊算法通常依据网页中关键词匹配程度,出现位置/频次,链接质量等计算出各网页相关度
4、及排名等级,然后依据关联度高低,按次序将这些网页链接返回给用户。搜索引擎原理与检索技巧第6页全文搜索引擎工作原理关于网站搜索更新频率: baidu搜索能够设定网站更新频率和时间,普通对于大网站更新频度很快,而且会专门开设独立爬虫进行跟踪,不过baidu是比较勤奋,中小网站普通也会天天更新。所以,假如你希望自己网站更新得更加快,最好是在大型分类目录(比如yahoo sina 网易)中有你链接,或者在baidu自己相关网站中,有你网站超链接,在或者你网站就在一些大型网站里面,比如大型网站blog。搜索引擎原理与检索技巧第7页全文搜索引擎工作原理关于采集深度 baidu搜索能够定义采集深度,就是说不
5、见得baidu会检索你网站全部内容,有可能只索引你网站首页内容,尤其对小型网站来说。关于对时常不通网站采集 baidu对于网站通断是有专门判断,假如一旦发觉某个网站不通,尤其是一些中小网站,baidu将自动停顿往这些网站派出爬虫。搜索引擎原理与检索技巧第8页谷歌搜索排名技术对于搜索来说,谷歌强于baidu,主要原因就是谷歌愈加公正,而baidu有很多人为原因(这也符合我国国情),谷歌之所以公正,源于他排名技术Page Rank。很多人知道Page Rank,是网站质量等级,越小表示网站越优异。其实Page Rank是依靠一个专门公式计算出来,当我们在谷歌搜索关键词时候,页面等级小网页排序会越靠
6、前,这个公式并没有些人工干预,所以公正。Page Rank最初想法来自于论文档案管理,我们知道每篇论文结尾都有参考文件,假如某篇文章被不一样论文引用了屡次,就能够认为这篇文章是篇优异文章。同理,简单说,PageRank 能够对网页主要性做出客观评价。PageRank 并不计算直接链接数量,而是将从网页 A 指向网页 B 链接解释为由网页 A 对网页 B 所投一票。这么,PageRank 会依据网页 B 所收到投票数量来评定该页主要性。另外,PageRank 还会评定每个投票网页主要性,因为一些网页投票被认为含有较高价值,这么,它所链接网页就能取得较高价值。搜索引擎原理与检索技巧第9页谷歌搜索排
7、名技术Page Rank公式这里省略,说说影响Page Rank主要原因1、指向你网站超链接数量(你网站被他人引用),这个数值越大,表示你网站越主要,通俗说,就是其它网站是否友情链接,或者推荐链接到你网站; 文章起源 2、超链接你网站主要程度,意思就是一个质量好网站有你网站超链接,说明你网站也很优异。3、网页特定性原因:包含网页内容、标题及URL等,也就是网页关键词及位置。搜索引擎原理与检索技巧第10页目录索引工作原理目录索引,顾名思义就是将网站分门别类地存放在对应目录中,所以用户在查询信息时,可选择关键词搜索,也可按分类目录逐层查找。如以关键词搜索,返回结果跟搜索引擎一样,也是依据信息关联程
8、度排列网站,只不过其中人为原因要多一些。假如按分层目录查找,某一目录中网站排名则是由标题字母先后次序决定(也有例外)。当前,搜索引擎与目录索引有相互融合渗透趋势。搜索引擎原理与检索技巧第11页目录索引工作原理与全文搜索引擎相比,目录索引有许多不一样之处。首先,搜索引擎属于自动网站检索,而目录索引则完全依赖手工操作。用户提交网站后,目录编辑人员会亲自浏览你网站,然后依据一套自定评判标准甚至编辑人员主观印象,决定是否接纳你网站。其次,搜索引擎收录网站时,只要网站本身没有违反相关规则,普通都能登录成功。而目录索引对网站要求则高得多,有时即使登录屡次也不一定成功。尤其象Sina这么超级索引,登录更是困
9、难。搜索引擎原理与检索技巧第12页目录索引工作原理另外,在登录搜索引擎时,我们普通不用考虑网站分类问题,而登录目录索引时则必须将网站放在一个最适当目录(Directory)。最终,搜索引擎中各网站相关信息都是从用户网页中自动提取,所以用户角度看,我们拥有更多自主权;而目录索引则要求必须手工另外填写网站信息,而且还有各种各样限制。更有甚者,假如工作人员认为你提交网站目录、网站信息不适当,他能够随时对其进行调整,当然事先是不会和你商议。 搜索引擎原理与检索技巧第13页主要全文搜索引擎介绍Google(http:/www.谷歌.com/)Google成立于1997年,几年间快速发展成为世界范围内规模
10、最大搜索引擎。Google数据库现存有42.8亿个Web文件,天天处理搜索请求已达2亿次,而且这一数字还在不停增加。Google借用Dmoz(/)分类目录提供“网页目录”查询(http:/www.谷歌.com/dirhp?hl=zh-CN&tab=wd&ie=UTF-8&oe=UTF-8&q=),但默认网站排列次序并非按照字母次序,而是依据网站PageRank分值高低排列。搜索引擎原理与检索技巧第14页baidu(/) baidu是国内最早商业化(早期为其它门户网站提供搜索服务,现在竞价排名更是日进斗金)全文搜索引擎,拥有自己网络机器人和索引数据库,专注于汉字搜索引擎市场,除有网页搜索外,ba
11、idu还有新闻、MP3、图片等搜索,并在底推出“贴吧”、按地域搜索等功效。搜索引擎原理与检索技巧第15页检索技巧分析检索主题选择适当搜索引擎抽取适当关键词正确结构检索式及时调整检索策略搜索引擎原理与检索技巧第16页分析检索主题了解查询目标和要求,确定需要 信息类型(全文、文本、图像、声音等) 查询方式(浏览、分类检索、关键词检索等) 查询范围(全文、网页、标题、FTP、软件、外文等) 查询时间搜索引擎原理与检索技巧第17页选择适当搜索引擎 要选择适当检索工具时,就要先了解所要使用搜索引擎GOOGLE www.谷歌.cn 特点:有庞大数据库,提供全方面结果信息,比如,文章日期,大小等等。可搜索全
12、部网站,快速有效搜索到自己所需内容,是一个快速、强大搜索引擎,它含有足够响应能力来处理任何极度复杂搜索,用户界面相当好。而且含有一定大写、名词识别能力快速搜索引擎,它数据库是最大,能找到别搜索引擎所不能找到东西。搜索引擎原理与检索技巧第18页选择适当搜索引擎雅虎 Yahoo! 是一个涵盖全球120多亿网页(其中雅虎中国为12亿)强大数据库,拥有数十项技术专利、精准运算能力,支持38种语言,近10,000台服务器,服务全球50%以上互联网用户搜索需求。 搜索引擎原理与检索技巧第19页选择适当搜索引擎baidu baidu搜索引擎拥有当前世界上最大汉字搜索引擎,总量超出3亿页以上,而且还在保持快速
13、增加。baidu搜索引擎含有高准确性、高查全率、更新快以及服务稳定特点,在汉字搜索方面,baidu甚至比GOOGLE更胜一筹。搜索引擎原理与检索技巧第20页选择适当搜索引擎搜狐分类目录 / 50,000主题分类,500,000优选网站,人工精选分类 Google 网页目录 http:/www.谷歌.com/dirhp?hl=zh-CN&tab=wd Google 网路目录内容是依据Open Directory,经由全球各地义务编辑人员精心挑选,再由 Google 著名网页级别技术(专利申请中)分析,让网页依照其主要性先后排列出,并透过网页介绍里横线长度,来标明此网页主要程度。 网易搜索分类目录
14、 / 一个由网上志愿人员编辑分类网站目录。 新浪搜索分类目录 / 由新浪搜索专业编辑挑选和分类网站结果。 搜索引擎原理与检索技巧第21页抽取适当关键词怎样抽取关键词:使用名词或物体做关键词检索式中使用2-3个关键词要注意同义词、近义词、相关词或同一术语不一样表示方式。如,internet、 web 、www 、the net 对固定短语,用“”括起来进行检索,以提升检索准确度。如,“worle wide web”搜索引擎原理与检索技巧第22页及时调整检索策略扩大检索范围:检索结果为0或太少时,就需要扩大检索范围使用同义词、近义词或相关词降低最不主要概念词,或使用较普遍词,或改用上位词。利用一些
15、搜索引擎自动扩检功效进行相关检索。使用多个搜索引擎。搜索引擎原理与检索技巧第23页及时调整检索策略缩小检索范围:假如得到检索结果太多,或检索结果不相关,则需要缩小检索范围。使用布尔逻辑使用词组检索使用高级检索语法搜索引擎原理与检索技巧第24页布尔逻辑检索布尔逻辑: 是指适用AND、OR或NOT等运算符查找含有某种词语或特定组配形式那些网页(统计)。格式:关键词A AND(空格)关键词B 例:查找胰岛素治疗糖尿病 胰岛素AND(空格) 糖尿病 搜索引擎原理与检索技巧第25页布尔逻辑检索 格式:关键词A OR(|)关键词B(|前面必须有空格) 例:查找电脑 电脑 OR(|)计算机格式:关键词A N
16、OT(-)关键词B(减号前面必须有空格) 例:查找佳能产品(相机除外) 佳能 NOT(-)相机搜索引擎原理与检索技巧第26页词组检索使用双引号(在输入法半角状态中输入) 当您输入较长查询词时,搜索引擎会依据查询词字符串做拆字处理。若您需要得到准确、不拆字搜索结果,可在查询词前后加上双引号。 比如:华南师范大学考研 与 “华南师范大学考研” 搜索引擎原理与检索技巧第27页高级搜索语法Intitle(在GOOGLE中是allintitle) intitle意思是全部搜索结果网页标题中都要包含“关键词A”。 格式:关键词B intitle:关键词A(多个个关键词中最主要词放此)只适用在baidu中
17、allintitle:关键词A用于GOOGLE中例:查找相关温总理访日融冰之旅方面信息 温家宝 融冰之旅 与intitle:温家宝融冰之旅 又例:查找圆明园历史 因为“圆明园”这个词非常关键,假如选择”圆明园 历史“这个搜索式不如选”历史 intitle:圆明园“(结果是:在全部标题中包含”圆明园“这个词网页中寻找出现”历史“这个关键词结果)搜索引擎原理与检索技巧第28页高级搜索语法Inurl(在GOOGLE中是allinurl) url是Uniform Resource Locator(统一资源定位符)缩写,简单地说,就是地址栏里东西。意思是在url中含相关键词B网页中,寻找关于关键词A信息
18、。格式:关键词A inurl:关键词B(关键词A与inurl之间要用空格隔开) 例:图书馆 inurl:lib搜索引擎原理与检索技巧第29页高级搜索语法SITE site是限定在某个网站内搜索关键词A格式:关键词A site:(即某个域名/网站)例:在新浪网中查找相关融冰之旅信息 融冰之旅 site:搜索引擎原理与检索技巧第30页高级搜索语法FILETYPE filetype 是限定搜索结果文件类型。互联网上,存在大量非网页格式资料,如word文件、pdf文件等。filetype是专门特定格式文件。格式:关键词A filetype:文件格式后缀名例:入党申请书 filetype:doc,搜索结
19、果全都是word文件。 搜索引擎原理与检索技巧第31页Google中其它功效翻译:Translate.谷歌.cn在线文档处理 :Docs.谷歌.com搜索引擎原理与检索技巧第32页搜索引擎发展趋势一个好搜索引擎,不但数据库容量要大,更新频率、检索速度要快,支持对多语言搜索,而且伴随数据库容量不停膨胀,还要能从庞大资料库中准确地找到正确资料搜索引擎原理与检索技巧第33页搜索引擎发展趋势提升搜索引擎对用户检索提问了解。为了提升搜索引擎对用户检索提问了解,就必须有一个好检索提问语言。为了克服关键词检索和目录查询缺点,现在已经出现了自然语言智能答询。用户能够输入简单疑问句,比如“怎样能杀死计算机中病毒”,搜索引擎在对提问进行结构和内容分析之后,或直接给出提问答案,或引导用户从几个可选择问题中进行再选择。自然语言优势在于,一是使网络交流愈加人性化,二是使查询变得愈加方便、直接、有效。就以上面
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 富士康培训中心课件
- 家长控烟知识培训
- 2026年护工长期服务合同正式模板
- 2026年建筑施工安全管理合同
- 2026年税务注销清算代理合同模板
- 图书代销合同2026年退换货政策
- 2026年设备买卖合同协议
- 2026年农业种植托管合同协议
- 2026年经济作物栽培合同
- 2026年场地使用租赁合同协议
- 2025年山西省中考英语试卷真题(含答案详解)
- TD/T 1036-2013土地复垦质量控制标准
- 《FPC材料介绍》课件
- 燃气行业工作危害分析(JHA+LEC)评价记录表
- 四川省遂宁市射洪县九年级2024-2025学年(上)期末化学试卷(含答案)
- 2025-2030中国器官芯片行业市场发展趋势与前景展望战略研究报告
- 安全生产与员工情绪管理
- 医院医疗保险费用审核制度
- 村卫生室医疗质量相关管理制度
- 【苏州工学院智能建造研究院】2025中国低空经济产业链全面解析报告
- 中小学校园中匹克球推广策略与实践研究
评论
0/150
提交评论