版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、网络搜索引擎的开展及使用技巧研究网络搜索引擎的开展及使用技巧研究1搜索引擎技术开展史从搜索引擎所采取的技术来说,可以将搜索引擎技术的开展划分为4个时代。1.1分类目录的时代这个时代也可以称为导航时代,Yah和国内ha123是这个时代的代表。通过人工搜集整理,把属于各个类别的高质量网站或者网页分门别类罗列,用户可以根据分组目录来查找高质量的网站。这种方式是纯人工的方式,并未采取什本文由论文联盟搜集整理么高深的技术手段。采取分类目录的方式,一般被收录的网站质量都较高,但是这种方式可扩展性不强,绝大局部网站不能被收录。1.2文本检索的时代文本检索的一代采用经典的信息检索模型,比方布尔模型、向量空间模
2、型或者概率模型,来计算用户查询关键词和网页文本内容的相关程度。网页之间有丰富的链接关系,而这一代搜索引擎并未使用这些信息。早期的很多搜索引擎比方AltaVista、Exite等大都采取这种形式。相比分类目录,这种方式可以收录大局部网页,并可以按照网页内容和用户查询的匹配程度进展排序。但是总体而言,搜索结果质量不是很好。1.3链接分析的时代这一代的搜索引擎充分利用了网页之间的链接关系,并深化挖掘和利用了网页链接所代表的含义。通常而言,网页链接代表了一种推荐关系,所以通过链接分析可以在海量内容中找出重要的网页。这种重要性本质上是对网页流行程度的一种衡量,因为被推荐次数多的网页其实代表了具有流行性。
3、搜索引擎通过结合网页流行性和内容相似性来改善搜索质量。Ggle率先提出并使用PageRank链接分析技术,并大获成功,这同时引进了学术界和其他商业搜索引擎的关注。后来学术界陆续提出了很多改良的链接分析算法。目前几乎所有的商业搜索引擎都采取了链接分析技术。采用链接分析可以有效改善搜索结果质量,但是这种搜索引擎并未考虑用户的个性化要求,所以只要输入的查询恳求一样,所有用户都会获得一样的搜索结果。另外,很多网站拥有者为了获得更高的搜索排名,针对链接分析算法提出了不少链接作弊方案,这样导致搜索结果质量变差。1.4用户中心的时代目前的搜索引擎大都可以归入这个时代,即以理解用户需求为核心。不同用户即使输入
4、同一个查询关键词,但其目的也有可能不一样。比方同样输入苹果作为查询词,一个追捧不iPhne的时尚青年和一个果农的目的会有相当大的差距。即使是同一个用户,输入一样的查询词,也会因为所在的时间和场合不同,需求有所变化。而目前搜索引擎大都致力于解决如下问题:如何可以理解用户发出的某个很短小的查询词背后包含的真正需求,所以这一代的搜索引擎称之为以用户为中心的一代。为了可以获取用户的真实需求,目前搜索引擎大都做了很多技术方面的尝试。比方利用用户发送查询时的时间和地理位置信息,利用用户过去发出的查询词及相应的点击记录等历史信息等技术手段,来试图理解用户此时此地的真正需求。2网络搜索引擎的开展趋势2.1个性
5、化搜索互联网的开展已经进入了新的阶段,即以用户为中心的阶段。如何通用用户的网上行为建立用户的个人模型,并基于此提供精准的个性化效劳成为各种研究的重点。搜索引擎也不例外,个性化搜索即是为理解决这个问题而提出的技术领域。对于搜索引擎用户来说,由于其个人兴趣不同,即使是同一个查询词,也可能其搜索意图迥异。如用用户发出查询Ajax,假如这个用户是计算机工程人员,那么很有可能希望查找的是技术资料;而假如这个用户是个球迷,那么很可能希望查找的是了阿贾克斯球队的信息。所以即使是一样的查询词,如何为不同的用户提供个性化的搜索结果,成为衡量搜索引擎搜索质量非常重要的标准。2.2社会化搜索随着Faebk的逐日流行
6、,社交网络平台和相关应用占据了互联网的主流。社交网络平台强调用户之间的联络和交互,这对传统的搜索技术提出了新的挑战。传统搜索技术强调搜索结果和用户需求的相关性,社会化搜索除了相关性外,还额外增加了一个维度,即搜索结果的可信赖性。对于某个查询,相关的搜索结果可能成千上万,但是假如是处于用户社交网络内其他用户发布的信息、点评的评论或者验证过的信息那么更可依赖,这是与用户的心理亲密相关的。社会化搜索即结合了这种相关性和可依赖性,为用户提供更准确、更值得信任的搜过结果。社会化搜索的本质是信息过滤与推荐,即对用户的疑问,社会化搜索系统推荐适宜的人来答复用户疑问,或者通过社交关系过滤掉不可依赖内容,推荐可
7、依赖内容。根据其他用户和提问者的关系,社会化搜索系统重点关注4类关系:直接有社交联络的成员,比方熟人或者朋友;有一样兴趣的成员;用户所参加网络社区的成员;领域专家。直接具有社交联络的成员对搜索者具有直接影响力,比方购物搜索时对产品品牌的评价;有一样兴趣的成员那么形成了有效的信息过滤者或者推荐者;搜索者所在社区的成员从本质讲也是有一样兴趣的成员,对于搜索者的问题可以开有效的信息过滤和推荐;而领域专家那么对问题的解答具有权威性。通过结合或者分别使用以上4类社区成员的信息,社会化搜索系统可以给搜索者提供适宜的答复者或者值得依赖的信息。2.3实时搜索随着Tittet、微博等微信息发布的个人媒体平台逐步
8、兴起,对搜索引擎的实时性要求日益进步。微博平台和传统的信息平台比方网页、博客、新闻等相比,有其特殊性。其中一个突出的特点是时效性强,越来越多突发事件的首次发布出现的微博平台上,比方某地地震或者社会事件,这是有其必然性的。实时搜索与传统的网页搜索有很大差异。实时搜索的核心强调快,即用户发布的信息可以第一时间被搜索引擎发现、索引并搜索到。传统搜索引擎在实现机制上很难到达这一点,所以实时搜索在搜索引擎的爬虫、索引系统和搜索结果排序方面都有自己独有的特点。在索引构建方面,实时搜索要求第一时间对新发布的内容进展索引,即用户发布那么信息可搜。这对传统的索引机制提出了挑战,要求索引系统支持在建立索引的过程中
9、,也可以提供搜索效劳。在搜索结果排序方面,实时搜索也有其特点,除了内容相关性要求外,时间因素是搜索排序中首要的考虑因素,很多实时搜索系统默认按时间顺序排序,即最新发布的信息排在前列。对于一个完善的实时搜索排序算法来说,一般重点考虑以下4方面的因子:1内容相关性:信息是否与用户查询主题相关。2时效性:发布时间越近的信息,其搜索排名应该越靠前。3信息重要性:越重要或者越流行的信息排名应该越靠前,作为重要性或者流行性的判断指标有很多,比方信息发布来源是否可靠微博中信息发布者的重要性、被转发次数多少、被评论次数多少等都可以作为判断指标。4社交性:一般来说,微博平台同时也是一个社交平台,微博用户的关注人
10、和被关注人表达了这种社交性。排序时,应该将搜索结果的社交性表达出来,即用户关注人发布的信息排名应该靠前。2.4挪动搜索随着智能的快速开展,基于等挪动设备的搜索日益流行。挪动设备对搜索应用的需求与P等不同,主要源于其与P相比资源的有限性,比方的屏幕较小,可显示区域不多;存储和计算资源才能较弱;设备翻开网页的速度较慢;输入较为烦琐等。所以针对挪动设备的搜索需要根据等挪动设备自身的特点,开发合适其资源和设备的搜索应用。使用搜索与P搜索一样,由3个步骤组成:用户输入查询,搜索引擎提供搜索结果信息,用户点击翻开感兴趣的页面。考虑到挪动设备的资源有限,在这3个步骤都要考虑如何增加用户的体验。对于用户输入查
11、询这一环节来说,因为输入难度比桌面设备大,不够便捷,包括挪动设备中的中文输入法由于资源所限,智能性缺乏,所以对于挪动搜索来说,如何让用户输入更便捷是最主要的问题。由于挪动设备屏幕较小,如何在这么上的展示面积早让用户更快、更直接地找到答案至关重要。所以,挪动设备搜索对搜索的精度及搜索结果的展示方式要求更高。假如用户在搜索结果的摘要区域无法获得答案,就必须点击网页,查看页面内容,以搜索引擎目前的搜索精度来看,这步多多少少是难免的。既然如此,目的网页往往内容很多,包含导航栏、广告栏、大量图片等既消耗带宽资源,又与用户搜索内容无关的信息,所以在这上步骤,挪动搜索的问题就转化成了如何提供应用户页面中最重
12、要、最相关的局部。搜索系统可以为用户提供加工过的目的页面,通过分析目的网页的构造,自动提取重要内容,只将这局部内容展示给用户,有效增加用户体验。3网络搜索引擎的使用技巧21世纪是信息社会,由于Internet的广泛应用和开展,世界范围内的信息交流、信息资源共享成为现实,网络已成为人们进展交流、获取信息的重要途径。但因特网上的信息内容庞杂,缺乏统一的组织和管理,使用者只有掌握一定的搜索技巧,才能准确、及时、有效地获取自己所需的信息,实现网络信息存在价值,进步信息资源使用效率。3.1选择适宜的搜索引擎不同的搜索引擎特点不同,优势不一,信息覆盖范围也有所差异,合理的方式应该是根据检索目的和详细要求选
13、择不同的搜索引擎。假如需要查找综合性、概括性的主题概念,或是对检索准确度要求较高的课题,可以使用目录式搜索引擎。假如需要检索特定的信息,或是较为专、深、详细或类属不明确的课题,应该用关键词索引式搜索引擎。3.2适当使用垂直搜索引擎一个搜索引擎很难搜集所有主题的网络信息,很难将各主题都做得准确而又专业。垂直搜索引擎是相对通用搜索引擎的信息量大、查询不准确、深度不够等提出来的新的搜索引擎效劳形式,通过针对某一特定领域、某一特定人群或某一特定需求提供的有一定价值的信息和相关效劳。其特点就是专、精、深,且具有行业色彩,相比拟通用搜索引擎的海量信息无序化,垂直搜索引擎那么显得更加专注、详细和深化。比方股
14、票、天气、新闻等类的搜索引擎,具有很高的针对性,用户对查询结果的满意度较高。3.3使用元搜索引擎采用不同的搜索引擎,检索效果的不同,在一个搜索引擎上找不到的信息却可能在另一个搜索引擎上找到,每个单一搜索引擎的搜索范围只能到达整个资源的3050%,查准率不到50%。所以,用户常常要切换多个搜索引擎进展检索,并要理解多个搜索引擎,这给用户带来了不便。元搜索引擎通过一个统一用户界面帮助用户在多个搜索引擎中选择和利用一个或多个适宜的搜索引擎来实现检索操作,并将检索结果集中统一处理,以统一的格式提供应用户,是对分布于网络的多种检索工具的全局控制机制,查全率和查准率都比拟高。3.4提炼准确的搜索关键词使用
15、搜索引擎进展信息搜索,最重要的是关键词的选择,关键词选择得准确与否直接影响到检索效果的好坏。因此,用户提供的关键词必须能准确表达自己的检索意图。尽量不要选择常用词汇进展搜索,尽量不要使用自然语言,尽量使用多个页不是一个关键词。3.5使用限制指令限制指令把检索限制在某些指定的字段内,限制了检索词在数据库中出现的位置,以进步检索效果。如:使用site命令指定在某个特定的网站内查找相关信息,使用inurl命令指定仅在网页的url搜索,使用intitle命令指定仅在网页的title中搜索,使用filetype命令指定搜索文件的特定类型,等等。3.6尽量使用高级搜索大多数搜索引擎都提供高级搜索功能,其选项在默认值、灵敏性、定位准确性等方面都优于普通搜索功能。利用高级搜索中的选项限制可以有效且更加方便地控制检索结果的范围,可以省去用户自行设定检索式的费事。搜索引擎提供的范围限制类型大体有分类范围、
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 安全专工岗位职责培训课件
- 2025年教育行业用户画像构建
- 压强教学课件2025-2026学年人教版物理八年级下学期
- 安全风险预控管理办公室工作职责培训
- 责任平分协议书
- 货物仓储责任协议书
- 质保金转让协议书
- 购房分期还款协议书
- 2025年木工机械安全操作规范培训
- 2025年电力生产技术科专工安全职责培训
- 24秋国家开放大学《当代中国政治制度》形考任务1-4参考答案
- 中国抗癌协会:乳腺癌全身治疗指南(系列十)
- 2024丨抖音生活服务平台通案
- 医院检验科实验室生物安全程序文件SOP
- 《罗茨鼓风机》课件
- 学前课程与幸福童年
- 化工安全设计
- 瓦特改良蒸汽机课件
- 第七版apa格式参考文献模板
- 《大学生军事理论教程》第三章
- 广西建设领域专业技术人员三新技术网络培训考试题目及答案
评论
0/150
提交评论