版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第一章搜索引擎概述,主要内容,1.1搜索引擎概念1.2搜索引擎开发历史1.3搜索引擎分类1.4搜索引擎信息检索模型1.5搜索引擎设置核心技术1.6中文搜索引擎发展趋势,1.1搜索引擎概念,基本知识,搜索引擎实际上不搜索互联网。搜索引擎实际上是预配置的web索引数据库。真正意义上的搜索引擎通常是指在互联网上收集数千万到数十亿个网页,为网页上的每个单词(关键字)建立索引数据库的全文搜索引擎。如果用户找到关键字,搜索结果将查找页面内容中包含关键字的所有网页。搜索引擎的原理可以分为四个阶段:从internet捕获网页、构建索引数据库、在索引数据库中对搜索进行排序、处理和排序搜索结果。在internet
2、上捕获网页使用可在internet上自动收集网页的Spider系统程序自动访问internet,然后沿所有网页的所有URL上传到其他网页,重复牙齿过程并重新收集上传的所有网页。分析搜索引擎的原理、索引数据库构建索引系统分析程序收集的网页、提取相关网页信息(网页所在的URL、编码类型、页面内容中包含的关键字、关键字位置、创建时间、大小、与其他网页的链接关系等),并根据特定的相关性算法执行多种茄子复杂的计算,从而可以逐页查看每个网页。搜索引擎的原理,在索引数据库中搜索排序用户输入关键字搜索时,搜索系统程序会在web索引数据库中查找与该关键字匹配的所有相关网页。所有相关网站都已经计算了对牙齿关键词的
3、相关性,所以现成相关也只需按数字排序。相关性越高,排名越高。最后,页面生成系统配置搜索结果的链接地址和页面内容摘要等,并将其返回给用户。搜索引擎原理,搜索结果处理排序所有相关网页相应关键字的相关信息都记录在索引库中。您可以将相关信息和网页级别组合在一起,形成相关程度值,然后对其进行排序。相关性越高,排名越高。最后,页面生成系统配置搜索结果的链接地址和页面内容摘要等,并将其返回给用户。1.2搜索引擎发展史,1994年初,Washington大学的学生Brian Pinkerton牙齿启动了他的小项目Web Crawler(Brian Pinkerton Announces the avail a
4、bility of Web Crawler)1994年1月,第一个可搜索和浏览的分类目录EINet Galaxy(Tradewave Galaxy)上线了。除了web搜索外,还支持Gopher和Telnet搜索。1994年四月,斯坦福大学的两位博士学生,美国籍中国人杰瑞杨和大卫菲洛共同创立了雅虎!1994年七月20日,数据杨怡54,000的Lycos正式发布。除了关联排序之外,Lycos还提供了前缀匹配和字符相似限制。Lycos首次在搜索结果中使用网页自动摘要。infoseek(Steve Kirsch announces free demos of the infoseek search e
5、ngine)是另一个重要的搜索引擎。因波塞克回袭雅虎!Lycos的概念,通过熟悉的用户界面和广泛的附加服务成为强大的搜索引擎。1995年,第一个元搜索引擎出现了。用户只需提交一次搜索请求。元搜索引擎在转换处理后提交给多个预先选择的独立搜索引擎,集中处理每个独立搜索引擎返回的所有查询结果,然后将其返回给用户。1995年,十二月DEC的AltaVista问世,许多创新功能迅速达到了当时搜索引擎的顶峰。AltaVista是第一个支持自然语言搜索的搜索引擎,AltaVista是第一个实现高级搜索短语的搜索引擎。1995年九月二十六日,加州伯克利分校CS助教埃里克布莱尔,博士生Paul Gauthier
6、创立了Inktomi。截至1998年10月,谷歌只是斯坦福大学的一个小项目BackRub。1995年,Larry Page博士开始学习搜索引擎设计,1997年九月15日注册的域名在Sergey Brin和Scott Hassan,Alan Steremberg的共同参与下开始提供Demo。1999年二月,谷歌完成了从阿尔法版到贝塔版的蜕变。1999年,五月挪威科技大学Fast发布了自己的搜索引擎Fast the web。Fast的目标是创建世界上最大、最快的搜索引擎,Fast the web的web搜索支持ODP自动分类、Fast和pdf搜索,支持多语言搜索,北大天网是国家“95”重点技术公关
7、项目“中文编码和分布式中文和英语信息发现”2001年八月B搜索引擎beta发布,2001年十月22日百度搜索引擎正式发布,集中搜索中文。1.3搜索引擎分类、搜索引擎根据工作方式可以分为三大类:全文搜索引擎目录索引类搜索引擎(搜索索引/目录)元搜索引擎(元搜索引擎)、全文搜索引擎、通过从internet提取的每个网站的信息(基于web文本)建立的数据库中搜索与用户查询标准匹配的相关记录,然后按特定的排序顺序将结果返回给用户。目录查找搜索引擎,目录查找有搜索功能,但严格意义上不是实际的搜索引擎。只是按目录分类的网站链接列表。用户无需关键字(Keywords)查询,只需分类目录即可查找所需信息。与全
8、文搜索引擎的区别在于,网站是手动创建的,通过“手动方式”进行分类。与全文搜索引擎不同,不是收录网站上的所有文章和信息,而是先将该网站分类,然后记录部分摘要信息。(约翰f .肯尼迪、美国电视电视剧、美国电视电视剧、元搜索引擎和元搜索引擎在接受用户查询请求的同时搜索多个其他引擎,并将结果返回给用户。)。著名的元搜索引擎包括InfoSpace、Dogpile、Vivisimo等,是中文元搜索引擎中的代表性北斗搜索。对于搜索结果排序,有时可以按源引擎(如Dogpile)直接对搜索结果排序,或根据自定义规则(如Vivisimo)对结果重新排序。1.4搜索引擎信息检索模型、布尔逻辑模型、布尔信息搜索是最简
9、单的信息检索模型。用户使用布尔逻辑关系构建和提交查询。搜索引擎根据预设的逆推文件确定查询结果。标准布尔逻辑模型是二进制逻辑,可以使用逻辑字符“and”、“or”、“not”构建关键字表达式。布尔信息检索模型的调查率高,准确度低。目前,大多数搜索引擎使用布尔逻辑搜索模型,查询结果通常不执行关联排序。将模糊逻辑运算添加到模糊逻辑模型、查询结果处理中,将检索到的数据库文档信息与用户的查询要求和模糊逻辑进行比较,并根据相关优先级对查询结果进行排序。模糊逻辑模型可以克服布尔信息检索模型的结果在查询中的无序问题。例如,查询“搜索引擎”时,有很多关键字“搜索引擎”的文档将按以前的位置排序。向量空间模型、向量
10、空间模型使用搜索项目的向量空间表示用户的查询要求和数据库文档信息。查询结果根据向量空间的相似性排序。向量空间模型易于生成有效的查询结果,提供相关文档的摘要,对查询结果进行分类,为用户提供准确的信息。,基于概率模型、贝叶斯概率论原理的概率模型利用相关反馈的归纳学习方法获得匹配函数。这是一个更复杂的搜索模型。(阿尔伯特爱因斯坦、美国电视电视剧(Northern Exposure)、构建1.5搜索引擎的关键技术、信息收集和存储技术、信息收集和存储通常分为两种茄子方法:手动和自动化。手动使用传统的信息收集、分类、存储、组织和检索方法。研究人员调查、筛选、分类、存储网站。专家手动创建关键字索引,然后将索
11、引信息存储在计算机的相应数据库中。自动方式通常由网络机器人完成。“网络机器人”是在互联网上搜索网站或网页的自动运行软件。信息字典处理技术、信息字典处理包括信息格式支持和转换、信息过滤等。当前internet上的信息发布格式多种多样,因此搜索引擎必须支持多种档案格式。实际上,所有搜索引擎都支持HTML格式,对其他档案格式的支持最多可以支持200种以上的档案格式,具体取决于搜索引擎。信息索引技术,信息索引是创建文档信息的特征记录,使用户能够快速搜索所需信息。编制索引主要涉及以下几个茄子问题:用于信息语分割和语法分析的词性标记和相关自然语言处理搜索词索引搜索结果处理技术,1.6中文搜索引擎的发展趋势
12、,中文搜索引擎的发展趋势,1目录分类结构支持和全文搜索2搜索方法多样性,查找工具完备3不仅提供受控语言搜索,自然语言搜索4还提供自动库搜索5提供多媒体搜索功能6自动识别多种汉字编码7搜索结果的相关性8附加服务功能, 提供全面的信息服务,介绍1.7主要搜索引擎,Google搜索,1 Google的功能和特点,(1)介面简洁,(2)资源丰富,内容广泛,(3)相关,(4)技术先进,搜索结果准确,排序公正,(5)搜索快速特性:(1)界面简单。雅虎的网站介绍相当简洁严谨,一般用较少的字进行客观描述,没有与主观评论或广告类似的夸张语言。网站界面友好和人性化。(2)分类清单准确合理。中文雅虎!提供规范、科学
13、、水平丰富的中文网站分类目录,通过很多工程师手工编制,在分类方面比其他网站更准确、更合理。雅虎(雅虎!)搜索,(3)大量数据,内容丰富。(4)反应快,准确度高。分类是通过电脑专家手动完成的,因此所收网页经过筛选和系统组织,质量高,条理强,搜索结果接近用户的信息需求。(5)功能齐全。雅虎!提供多种查询功能。用户可以通过单击“目录”按钮进入按目录查询的方式。输入关键字后,单击“搜索”按钮,即可立即获得所有相关网站的目录。百度搜索,1核心技术:超链接分析超链接分析技术是下一代搜索引擎的核心技术,被世界主要搜索引擎广泛采用。学界引用的一篇论文越多,说明它越好,学术价值就越高。超连结分析是对链接网站的数量进行分析,以评估链接网站的质量,确保用户在百度上搜索时,更受用户欢迎的内容排名能上升
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 电子设备装接工安全专项测试考核试卷含答案
- 雕塑翻制工岗前技能掌握考核试卷含答案
- 墨锭制作工班组评比评优考核试卷含答案
- 残疾人就业辅导员岗前绩效目标考核试卷含答案
- “智阅小帮手”综合辅助数字化应用建设项目采购文件
- 空压机操作工安全技能培训课件
- 2026年保险行业客户档案管理知识测试题
- 2026年环保电价及垃圾焚烧发电电价补贴审核测试题
- 2026年外贸业务竞聘面试题库
- 2026年技术合同认定登记及税收优惠练习题
- 湖北烟草招聘面试全攻略:面试技巧与题目解析
- 桥式起重机安全检查表
- 2025年全国行政执法人员执法资格考试必考题库及答案
- 留样样品管理办法
- GB/T 45711.2-2025皮革撕裂力的测定第2部分:双边撕裂
- 药品进货查验管理制度
- 乡镇医院科研管理制度
- 湖南省三支一扶招聘考试真题2024
- 《GPCR信号转导》课件
- TCFLP0026-2020散装液体化学品罐式车辆装卸安全作业规范
- 大数据知识产权法课件
评论
0/150
提交评论