




已阅读5页,还剩5页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
专业:通信工程 学号:222014275 姓名:王佳静 考核方式:考查DLMU创新信息使用技术结课论文通信工程王佳静2220142795创新信息使用技术结课考核论文模板须知:本模板用于2015-2016学年第一学期选修创新信息使用技术课程的全体学生结课考核,共四个题目,内容涉及了创新信息获取、管理、分析、分享利用四大方面,学生根据自身实际情况任选做一道,每道题要求附图和引用参考文献,总字数不少于2000字。在简要介绍搜索工作原理基础上,结合自己使用搜索引擎(常规搜索、高级搜索、命令搜索)解决学习、生活或创新项目中所遇问题的实例,详细比较目前四大主流搜索引擎(百度、谷歌、360、必应)优缺点,并根据自己的搜索经验,针对目前搜索引擎的不足,提出将来希望改进的方向。格式要求:宋体小四、1.5倍行间,图文并茂,不少于2000字,附思维导图论文内容框架,按GB7714格式附参考文献自1990年出现了世界上第一个真正意义的网页后,网页数目的增长呈指数形式,每过不到9个月的时间网页总数就会翻一番。网络的快速发展给人们的生活学习和工作带来了很多信息,同时也带来了问题,这就是用户如何在信息的海洋中找到需要的资料。这时,搜索引擎的需求就出现了,这使搜索引擎成为人们查询Web信息不可缺少的工具。一、搜索引擎工作原理搜索引擎的基本工作原理包括如下三个过程:首先在互联网中发现、搜集网页信息;同时对信息进行提取和组织建立索引库;再由检索器根据用户输入的查询关键字,在索引库中快速检出文档,进行文档与查询的相关度评价,对将要输出的结果进行排序,并将查询结果返回给用户1。互联网搜索引擎通常由54-主要环节构成,分别为网页信息的抓取、网页内容分析、网页索引建立、网页检索结果排序、网页检索工具与接口,主要功能模块结合其他中文信息处理和信息检索技术,完成整个网页的搜索引擎。1网页信息抓取构建搜索引擎首先要从网上获取网页数据,这种信息抓取功能由网络爬虫(蜘蛛)(spider)来完成。每个独立的搜索引擎都有自己的网页抓取程序爬虫。爬虫Spider顺着网页中的超链接,从这个网站爬到另一个网站,通过超链接分析连续访问抓取更多网页。被抓取的网页被称之为网页快照。2网页内容分析要实现搜索引擎,网络蜘蛛得到的网页内容只是最基本的前提,这些网页内容必须要进行分析才能用于建立索引。网页内容分析由两层面的任务,分析网页内部的基本信息和对网页内容的结构进行识别。最终的目的都是提取有效数据,过滤垃圾信息。在分析的同时还要进行网页排重,避免相同的结果同时出现。3网页索引建立经过分析的网页内容需依靠文本索引技术,才能实现信息的有效检索和查找。用户输入关键词进行检索,搜索引擎从索引数据库中找到匹配该关键词的网页;为了用户便于判断,除了网页标题和URL外,还会提供一段来自网页的摘要及其他信息。2二、四大主流搜索引擎简介1.百度是目前全球最优秀的中文信息检索与传递技术供应商之一。百度搜索引擎由 4 部分组成:蜘蛛程序、监控程序、索引数据库、检索程序。搜索引擎使用了高性能的“网络蜘蛛”程序自动地在互联网中搜索信息,搜索范围涵盖了中国大陆、香港、台湾、澳门、新加坡等华语地区以及北美、欧洲的部分站点。百度搜索引擎拥有目前世界上最大的中文信息库3。2.Google被公认为全球最大的搜索引擎,也是互联网上5大最受欢迎的网站之一,。1998 年 9 月,美国斯坦福大学的两名研究生拉里佩吉和谢尔盖布林开始测试他们设计的 Google 搜索引擎。目前,每天都有7 000万用户登录 Google 网上搜索引擎,这一网站已在全球范围内拥有无数的用户。用户不仅能够通过 Google 访问 2 400 万个中文页面,还可以访问其全部目录中超过10 亿的 Web 文件4。32015年360搜索推出独立品牌好搜。好搜(原360搜索)号称是最干净、安全、可信任的搜索引擎。包含 网页、 新闻、 问答、 视频、 图片、 音乐、 地图、 良医、 雷电、 百科、 购物等多项搜索产品。好搜搜索属于全文搜索引擎,这是目前广泛应用的主流搜索引擎,例如谷歌、搜狗等。2012年8月16日,奇虎360低调推出综合搜索,360拥有强大的用户群和流量入口资源,这对其他搜索引擎将极具竞争力,引擎索引的优质网页数量超过数百亿,网页搜索速度和质量都已领先业界。360是免费安全的首倡者,认为互联网安全像搜索、电子邮箱、即时通讯一样,是互联网的基础服务,应该免费5。4.必应作为最贴近中国用户的全球搜索引擎,是微软公司于2009年5月28日推出的全新搜索引擎服务。中国存在着大量具有英文搜索需求的互联网用户。但中国以前几乎没有搜索引擎,可为广大用户带来更好的国际互联网搜索结果体验。凭借先进的搜索技术,以及多年服务于英语用户的丰富经验,必应致力于更好地满足中国用户对全球搜索特别是英文搜索的刚性需求,实现稳定、愉悦、安全的用户体验,为中国用户提供了美观、高质量、国际化的中英文搜索服务6。三、四大主流搜索引擎的使用经验及比较(一)搜索界面比较分别打开百度、必应、360的搜索界面(谷歌无法打开),360与百度的页面相似,有醒目的标志和长条搜索栏、一些搜索热点和所在地的天气状况。而必应的界面最为美观简洁,以美图为背景,并且有一些小框可以了解相关更多内容。三种页面除明显的搜索长条外,还有图片、视频、词典、地图等分类。从界面来看,必应的界面胜出。(二)搜索速度比较在学习生活中解决问题的时候,搜索的速度非常重要,我们希望搜索引擎能尽量节省我们的时间,从而提高我们的效率,在简单实验之后我发现好搜的速度要快于百度,而百度的速度要快于必应。(三)搜索结果比较1.为了比较各搜索引擎的搜索结果,我分别输入了 “四六级考试”、“电子商务趋势”、“习马会”、“Angelababy”等不同领域关键词,根据各引擎搜索的结果数量进行了记录:好搜百度必应英语四六级考试约9,620,000个约34,200,000个1,320,000 条电子商务趋势约40,100,000个约25,000,000个3,720,000 条习马会约19,100个约1,440,000个776,000 条Angelbaby约2,830,000个约10,500,000个3,210,000 条、可以看出,从搜索结果数量上,百度最多。但是百度搜索结果每页都是广告置顶,不利于快速寻找到有用的信息。好搜的搜索结果时间不够新,必应搜索结果虽然数量少但广告少,时间较新。值得说明的是,在搜索关键词“习马会”时,各搜索引擎搜索结果数量十分的多。通过进一步分析,我发现事实上与该关键词相关的不足400条,之后的结果毫无相关性。这说明仅仅考查一个搜索引擎的结果数量是不够的,还需要人工地对结果的相关性进行分析。2. 为了了解搜索结果相关性,我查到了某网站对六大搜索引擎的相关性评价与死链率如下图(分别搜索两个关键词,搜索引擎和电子商务,对前四十个结果进行评分。相符的记2分,结果不相符、结果重复或者页面无法打开的记0分,基本相符的记1分。并对无法打开页面进行统计,得出死链率。),7图中虽然没有必应与360的比较,但其结果还是有很重要的意义:根据结果,总体上来说:Google和百度在结果的相关性上稍胜一筹,说明在技术上还是有所领先。对于Google存在死链接率较高,在一定程度上是根据我国法律法规和政策的所限定的,而其它搜索引擎在相关性与死链率上相差不大。MSN搜索中文的功能亟待加强。另外搜狗与中搜的搜索结果重复率偏高。(四)搜索图片、视频和地图比较图片搜索对比,必应依然是简洁大方,而百度仍旧将广告放到第一排。虽然必应浏览图片的方式很方便漂亮,但是它也同时在下方打开了查看图片来源的网站,大大的拖慢了网速,如果点开看图片综合表现最差的应该还是属于百度了,右侧的广告依然是那么多并且图片小,好搜和必应看图时背景都自动变暗。但是根据我自己的搜索经验和从同学们口中得知的经验,谷歌一次只能看一张图。视频搜索中,必应还是一如既往的简洁明了,谷歌却是广告链接满天飞,百度此时又显得中规中矩了。地图搜索对比,必应在地图搜索上,过于简单,好搜、谷歌和百度都一股脑的又把它们的广告和推广齐上阵,但是好搜的地图搜索一般,谷歌的卫星地图功能非常强大。(五)更多比较资料1.通过下表,可以了解到谷歌和百度 的检索功能上的相似与不同之处:四种搜索引擎的检索8Google百度天网Openfind检索方式关键词检索、支持二次检索,分类目标是 ( 包括 150 万个网页),网页推荐功能关键词检索支持二次检索相关检索关键词检索,支持二次检索,分类目录 ( 包括 300 万个网页)关键词检索,定题检索通报逻辑检索检索符与、或、非空格 O R -与、或、非空格 -与、或、非& -与空格 或者用 A N D精确检索支持 ( 用双引号)支持不支持支持截词检索不支持不支持F T P 搜索中使用:* 无限右截词? 只截一个字符不支持字段检索Intitle:inurl:intext:inanchor :intitle:inurl:不支持不支持限制检索限制网域或网站、限制文件类型、限制检索语种、限制网页更新时间、指向某一网站的链接 ( link )限制网域或网站、 指向某 一 网 站的 链 接( link)F T P 搜索中: 限制文件大小、 限制文件日期、限制文件类型、限制网站范围限制检索语种扩检功能类似网页检索网站类聚检索网站类聚检索网站类聚检索2.在检索方式上百度可以使用字词结合的检索方式。并且支持多种高级检索语法,并且支持主题型检索。百度搜索引擎拥有目前世界上最大的中文信息库而Google的使命是整合全球信息,使人人皆可访问并从中受益。Google允许以多种语言进行搜索,在操作界面中提供多达30余种语言选择,该服务初期采用二级域名,整合了百度搜索、谷歌搜索内容,可实现平台间的快速切换。360不仅掌握通用搜索技术,而且独创PeopleRank算法、拇指计划等创新技术。目前已建立由数百名工程师组成的核心搜索技术团队,拥有上万台服务器,庞大的蜘蛛爬虫系统每日抓取网页数量高达十亿;必应这款搜索引擎中“年龄”小,但微软的名号实在令人不敢小看,上线仅一月有余便抢占了不少市场份额,几乎它的“一举一动”都能为敏感的用户们所捕捉,并马上成为众人焦点。而在功能和用户体验上,必应毫不输给同类产品,并有多项创新功能,给人耳目一新的感觉。与Windows 8.1深度融合的超级搜索功能,以及崭新的搜索结果导航模式等。用户可登录微软必应首页,打开内置于Windows8操作系统的必应应用,或直接按下Windows Phone手机搜索按钮,均可直达必应的网页、图片、视频、词典、翻译、资讯、地图等全球信息搜索服务。四、搜索引擎的不足与改进方向1搜索的信息不具有时效性,往往置顶的消息确实多年以前的信息,数据更新速度慢,更新周期长,消失的网页不能及时被剔除,因而出现死链接较多,大多数引擎对于死链接也没有予以注明,浪费用户宝贵的检索时间; 2.搜索引擎不能完全理解用户的意图。它只能根据用户输入的关键字在已存在的信息中进行搜索,它不会进行思考不能根据用户的问题产生合乎逻辑的答案9;3.搜索专业性知识得到的结果太少,使用户在学习上或是创新研究中遇到问题后很难查到相关资料;4.要么输出的检索结果数量能上千条,相关的、有效的信息却很少,无法对检索结果相关性进行排序,使用户基本上是在被动接受返回序列;5.在检索功能方面,主要缺陷是不能将关键词检索和主题分类检索结合起来,多数搜索引擎不能提供概念检索;6.最后一点就是搜索引擎的广告控制问题,大幅广告和置顶的广告篇目会减少使用者对该引擎的好感,甚至影响用户的使用;针对以上出现的搜索引擎不足之处,我希望搜索引擎能在未来的发展中做出如下改进:1提高信息查询结果的精度,排除重复性内容,提高检索的有效性与相关度;2. 搜索器可在多台机器上相互合作、相互分工进行信息发现,以提高信息发现和更新速度;剔除死链接10;3.加上排序功能,有多重排序结果供用户选择,满足用户的检索意图; 4.智能化、智慧化,可以分析用户输入的语境,产生更准确的结果;5.知识丰富化,专业化,线上学术资源极大丰富化;6.广告机制与用户体验优化;六、结语目前搜索引擎领域的商业开发非常活跃,各大搜索引擎公司都在投巨资研制搜索擎系统,同时也不断地涌现出新的具有鲜明特色的搜索引擎产品,搜索引擎正从单一式的页面搜索逐渐向集合式、延展性的方向发展,人性化的界面设计、功能性的拓展、资源的整合正给我们搜索引擎注入更多的发展契机。我相信随着四大搜索引擎的竞争加剧,可以推动搜索引擎技术的不断发展和完善,更高效和人性化的搜索引擎产品将会出现更智慧和更有特色的检索模式会出现,并再次推动互联网的高速发展。思维导图论文内容框架:1好搜百科. 搜索引擎基本工作原理/doc/1403770-1483972.html 2015.2王玉芳, 毛晓菊, 桑健. 搜索引擎工作原理浅析J. 中国电子商务. 2010(9):81-2.3巩曰亮. 搜索引擎的工作原理与发展现状J. 科技情报开发与经济. 2002(05):17-8+20.4好搜百科. google/doc/108804-114835.htmlJ. 2015.5好搜百科. 好搜/doc/5329048-5564221.html
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025-2030中国AI制药算法验证及临床合作与生物医药IPO前景分析
- 2025-2030VR武术模拟训练系统商业化应用评估报告
- 企业日常行政文档标准化模板
- 2025年中国储能中的功率调节系统行业市场全景分析及前景机遇研判报告 - 网
- 2025年erp试题及答案
- 2025年准则条例试题及答案
- 智能电网密钥保护机制-洞察及研究
- 2025年学历类自考中外文学作品导读-心理学参考题库含答案解析(5套试卷)
- 碳中和养殖模式-洞察及研究
- Unit 4 Last Weekend Lesson1(教学设计)-2023-2024学年人教新起点版英语五年级下册
- 食品行业标准化管理体系
- 快递驿站合作合同协议
- 街道文体中心管理制度
- 初中历年会考试卷及答案
- T-CNAS 18-2020 成人住院患者跌倒风险评估及预防
- 系统功能使用说明及教程
- 课件:《马克思主义基本原理概论》(23版):第五章 资本主义的发展及其趋势
- 2025年轻型民用无人驾驶航空器安全操控(多旋翼)理论备考试题(附答案)
- 2025年护士执业资格考试题库(精神科护理学专项)护理法律法规试题汇编
- 测绘地理信息从业人员保密知识培训
- 医院行风岗前培训
评论
0/150
提交评论