




已阅读5页,还剩41页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
搜索引擎简介,互联网信息检索原理、使用方法及技巧著作:Zhang,各大搜索引擎,搜索引擎与互联网,互联网发展互联网与搜索引擎搜索引擎的发展,互联网发展历史,互联网发展历史起源于美国国防部 APRA网 1950年1974年TCP/IP协议1980年代欧美快速发展;1991年 建立基于Http、Html超文本,超链接技术网络1993年中国科技网正式连接到internet1996年中国公用计算机互联网(CHINANET)正式商用90年代后飞速发展;2012年,世界网民数量超过25亿人。,亚洲互联网发展(1997-2012),中国互联网发展,中国互联网发展,互联网与搜索引擎,浩瀚网络中的指南针图来自【 】,搜索引擎发展,第一代:人工分类目录搜索1994年4月Yahoo目录诞辰1996年搜狐搜索第二代:是基于关键(字)词搜索【成熟技术】1994年7月,Lycos上线1995年华文搜索引擎,蕃薯藤1995年第一个元搜索引擎Metacrawler1998年10月;Google诞生2000年百度创立2004搜狗搜索第三代搜索引擎的主要特征是基于自然语言搜索发展中 Google;Bing等,搜索引擎列表,网站自带搜索,各大网站内嵌搜索技术BBS维基百科新浪CNKIIEEEEI,搜索引擎市场占用率排名,百度 中国市场占有率82%;第二大搜索引擎2010 Google退出大陆, 2009 百度61%Yandex 俄国市场占有率60%,搜索引擎原理,第一代搜索技术目录检索技术;通过人工建立检索目录,把网站归类。缺点是明显的,数据更新滞后,检索繁琐。第二代搜索技术基于关键词及全文检索技术缺点,信息量过大,检索一个信息,返回可能好几百万条数据;需要信息排序。第三代搜索技术语义网络、本体技术智能化更容易、更专业、更准确,第一代搜索技术,目录检索原理近似于图书馆标签目录检索,通过人工建立检索目录,把网站归类,以便检索。缺点是明显的,数据更新滞后,检索繁琐。人工建库,数据更新滞后,检索繁琐。,Yahoo 目录式检索,第二代搜索技术,基于关键词技术,扫描搜索关键词,阅读页面全文,抽取信息以供检索;缺陷是返回的信息太多,信息过载。检索一个信息,返回可能好几百万条数据,不过通过各种技术,筛选数据,把有用信息提前。,第三代搜索技术,语义网络、本体技术;智能化;更容易、更专业,搜索引擎基本原理,信息搜集 信息整理 接受查询 搜索信息,怎么快速的从上100亿个网页里找出匹配的网页的呢?,建立一份索引库,从索引库检索数据,搜索引擎基本原理,信息搜集网页使用HTML HTTP技术【互连互引】【形成WWW网络】从有限个网页开始,递归链接到互联网上所有到其他网页。(90%网页有链接)实现:网络蜘蛛 web spider深度优先广度优先,WWW万维网 HTML 及 HTTP,搜索引擎基本原理,信息整理-分词技术及全文检索原理:文章由词组构成的,文章分词后并对词语建立索引。这是搜索引擎的基础技术。类似于图书索引专业书籍索引(摘自经济学-萨缪尔森),倒排序索引(用词语反查文献),假设有3篇文章,file1,file2,file3,文件内容如下: file1 (单词1,单词2,单词3,单词4.)file2 (单词a,单词b,单词c,单词d.)file3 (单词1,单词a,单词3,单词d.)建立的倒排索引就是这个样子:单词1 (file1,file3)单词2 (file1)单词3 (file1,file3)单词a (file2, file3),分词技术,英文分词去除高频无用词(a an the and or this . )还原词语原型复数转换,buses-bus;caps-cap各种时态转换为原词,例如 given-give;books-book,took-take)中文分词中文分词中文词语无分割符号,不能直接分词举例:中华人民共和国,虽然一个词,但计算机难以区分。示例:中华人民共和国(中华 - 华人 人民 民共 共和 合国 )示例:(中 中华 中华人 中华人民 中华人民共和 中华人民共和国 华人 华人民 人 人民 人民共和 人民共和国 民 民共 共和 共和国),网页排序技术,简化的检索过程由关键词检索网页根据页面因素+关键词密度等计算网页等级通过排序算法调整网站网页排名输出结果,由关键词 查询网页,计算网页排名,输出结果,网站排名技术-PageRank算法,PageRank算法【GOOGLE创始人LARRY PAGE设计】基于从许多优质的网页链接过来的网页,被引用多的,必定还是优质网页,来判定所有网页的重要性。简单的说,一个高等级的页面可以使其他低等级页面的等级提升。,PageRank算法(示意),创建邻接矩阵A Aij=1表示从i到j有链接0, 1, 1, 1, 1, 0, 1; 1, 0, 0, 0, 0, 0, 0; 1, 1, 0, 0, 0, 0, 0; 0, 1, 1, 0, 1, 0, 0; 1, 0, 1, 1, 0, 1, 0; 1, 0, 0, 0, 1, 0, 0; 0, 0, 0, 0, 1, 0, 0; 转移矩阵 B,0, 1 5 , 1 5 , 1 5 , 1 5 , 0, 1 5 ; 1, 0, 0, 0, 0, 0, 0; 1 2 , 1 2 , 0, 0, 0, 0, 0; 0, 1 3 , 1 3 , 0, 1 3 , 0, 0; 1 4 , 0, 1 4 , 1 4 , 0, 1 4 , 0; 1 2 , 0, 0, 0, 1 2 , 0, 0; 0, 0, 0, 0, 1, 0, 0; ,迭代计算: =,X1 = X2 + * X3 + *X5+ *X6,(示意),迭代计算第一次迭代:,PageRank算法, =,X1 = 0.303514,X2 = 0.38286,X3 = 0.32396,X4 = 0.24297,X5 = 0.41231,X6 = 0.10308,X7 = 0.13989,迭代结果:,存储技术(分布式存储),储存大量信息并实现快速查询分布式文件系统GFS-Google File SystemGFS专门为Google的核心数据即页面搜索的存储进行了优化。数据使用大到若干G字节的大文件持续存储,而这些文件极少被删除、覆盖或者减小;通常只是进行添加或读取操作。NOSQL检索和关系数据库不一样(关系型数据库的典型实现主要被调整用于执行规模小而读写频繁)优势在于扩展性和性能;巨量文档建立索引、高流量网站的网页服务。BigtableHbase,GOOGLE数据中心,GOOGLE数据中心,GOOGLE数据中心,打造自己搜索引擎【开源】,网络蜘蛛Heritrixlarbin检索引擎LuceneNutch中文分词IKAnalyzerictclas4j,检索信息的方法与技巧(GOOGLE,适合其他),分析检索内容,找出关键词人工分词检索(不能全依赖计算机分词)同义词检索 加 (中文有限制,英文可以)加减法 + - 增加关键词 减去关键词双引号强制检索限定网站 找文件 filetype:pdf利用缓存【网页会消失掉,缓冲页面就很重要】结果太多,增加限制关键词查找英文信息【数据源比中文规模大】专业检索源,检索 【fast】,检索【fast】Fast 近义词 自动处理quick speed,rapid等词,检索【fast -fast】FAST近义词 但不含FAST,检索【王伟】王伟-使用最多的名字之一,检索【王伟 site:】 限制在北京大学网站内检索,检索【王伟 site: +东莞】增加蕴含 东莞 的网页,检索【萨缪尔森 经济学 十九版】更多的关键词,以便定位,检索【”广州市解放路”】强制检索 广州市解放路 不划分关键词,其他检索,/ 声音检索图片检索 安卓 goggles 二维码检索 百科检索 维基百科检索互动百
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025挖掘机租赁合同范本模板
- 工地持续供货合同范本
- 疫情点对点包车合同范本
- 仓储与运输合同范本
- 茶叶销售合同范本
- 美容产品合作合同范本
- 2025鞋类生产外协合同
- 2025授权销售合同协议范本
- 物业防水补漏合同范本
- 水果产品合同范本模板
- 血液中乙醇的测定顶空气相色谱法
- 物业承接查验移交资料清单
- 工信部规《通信建设工程安全生产操作规范》
- 社会组织内部规范化治理课件
- 农村公路建设标准
- GB/T 13825-2008金属覆盖层黑色金属材料热镀锌层单位面积质量称量法
- GA/T 1237-2015人员基础信息采集设备通用技术规范
- 红十字急救培训-包扎课件
- 药物分析实验注意事项课件
- 沙盘游戏治疗课件
- 甘肃省烟花爆竹经营许可实施标准细则
评论
0/150
提交评论