




免费预览已结束,剩余1页可下载查看
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
搜索引擎的分词机制(木木长官)長官(4651130) 14:57:53今天我来给大家讲下 搜索引擎的分词机制長官(4651130) 14:57:58准备下 马上就开始 長官(4651130) 15:00:36在搜索引擎中 用户提交的搜索内容会被后台提交到数据库与数据库中的数据来对比,从中调出相应的数据。(这些东西做程序的可能了解)与普通网站的站内搜索类似長官(4651130) 15:01:38下面举例:比如你想要搜索的是 “京珠高速的火车出轨并且无一人伤亡 天上也掉下冰雹”这个语句的时候長官(4651130) 15:02:40如果搜索引擎 直接用 你段话与数据库中的数据来对比。肯定搜索不出来任何数据。因为 这个是我自己随便写的。長官(4651130) 15:03:26但是搜索引擎又不能叫客户搜索不到东西,所以他们用到了中文分词 和英文分词長官(4651130) 15:03:42今天主要说中文 英文以后在说長官(4651130) 15:04:50当它用了分词后,用过动易CMS系统的朋友,应该知道。他们采集后的数据,会把标题分割成2个字一组的关键词。長官(4651130) 15:04:58比如:京珠高速的火车出轨并且无一人伤亡 天上也掉下冰雹長官(4651130) 15:05:55这个标题 动易的分词机制是这么分:京珠|珠高|高速|速的|的火|火车|车出|出轨|轨并|并且|且无|无一|一人|人伤|伤亡|亡天|天上|上也|也掉|掉下|下冰|冰雹它把每个字前一个和后一个自动组合,虽然不合理,但是有一定的技术含量在里面。長官(4651130) 15:06:39之所以 把词拆分开,就是为了与数据库中的相应数据来对比長官(4651130) 15:08:10搜索引擎可以这样做分词(前提是因为数据库中有相应的数据库,还有临时数据库!这些后面有介绍)長官(4651130) 15:09:03京珠|高速|的|火车|出轨|并且|无一人|伤亡|天上|也掉|下|冰雹長官(4651130) 15:09:35也可以这样分長官(4651130) 15:10:42京珠高速|的|火车出轨|并且|无一人|伤亡|天上|也|掉下|冰雹長官(4651130) 15:11:51怎么个分词方法是根据搜索引擎的数据库与算发有直接的关系長官(4651130) 15:12:22比如 百度搜索引擎長官(4651130) 15:13:23这样可以简单的看出他是怎么分的長官(4651130) 15:13:27長官(4651130) 15:14:45京珠高速|的|火车出轨|并且无一|人伤亡|天上|也掉下冰雹長官(4651130) 15:16:02京|珠|高速|的|火车|出轨|并且|无|一人|伤亡|天上|也掉下冰雹長官(4651130) 15:17:22下面来看看百度搜索引擎中的分词的理解与实践長官(4651130) 15:17:48長官(4651130) 15:18:15大家可以看到 这个是百度中的分法(不能一概而论)長官(4651130) 15:19:07可以看出 我在上面所规划出的词長官(4651130) 15:19:10長官(4651130) 15:16:02京|珠|高速|的|火车|出轨|并且|无|一人|伤亡|天上|也掉下冰雹長官(4651130) 15:19:13这个来長官(4651130) 15:19:41長官(4651130) 15:20:01而第二个呢長官(4651130) 15:20:08就与上面有些出入了長官(4651130) 15:21:08这些就是在 数据库中 所存的数据 也可以说是字典長官(4651130) 15:21:17/s?wd=%BE%A9%D6%E9%B8%DF%CB%D9%B5%C4%BB%F0%B3%B5%B3%F6%B9%EC%B2%A2%C7%D2%CE%DE%D2%BB%C8%CB%C9%CB%CD%F6+%CC%EC%C9%CF%D2%B2%B5%F4%CF%C2%B1%F9%B1%A2&cl=3長官(4651130) 15:21:26大家可以打开这个地址看一下長官(4651130) 15:21:28一会在看哦 長官(4651130) 15:23:20当 这站上的某个页面上出现了我刚才搜索的语句,搜索引擎把他分词,当查寻不到的时候,引擎中还会在把分过的词,或者原句在从新的分词長官(4651130) 15:23:54也就是相当于比如搜索的是某个成语長官(4651130) 15:24:37胸有成竹 东山再起長官(4651130) 15:25:02刚刚我用的是只能ABC打出来的長官(4651130) 15:25:49直接拼音出来 胸有成竹 东山再起 这两个就能直接打出来。搜索引擎的数据库 原理是类似 長官(4651130) 15:26:45比如你刚刚搜索的是 胸有成竹 这个成语長官(4651130) 15:27:04/s?wd=%D0%D8%D3%D0%B3%C9%D6%F1&lm=0&si=&rn=10&ie=gb2312&ct=0&cl=3&f=12長官(4651130) 15:27:29長官(4651130) 15:27:57百度中主要是先用这个词来与数据库中的数据来对比長官(4651130) 15:29:01如果 数据库中的数据有这个词 那么就先从这写词开始,然后在晒选,根据百度的规则,竟价等 来顺序的显示数据長官(4651130) 15:29:40/s?ie=gb2312&bs=%D0%D8%D3%D0%B3%C9%D6%F1&sr=&z=&cl=3&f=8&wd=%D0%D8%D3%D0+%B3%C9%D6%F1&ct=0長官(4651130) 15:30:06当中间出现空格的话 胸有 成竹長官(4651130) 15:30:39这就自动当成2个词语来算長官(4651130) 15:30:36長官(4651130) 15:31:35当你搜索拼音的时候 为什么岢鱿窒嘤氖菽?長官(4651130) 15:31:57/s?wd=tiananmen&cl=3長官(4651130) 15:32:22長官(4651130) 15:32:42因为他们的数据库中有拼音对比中文的数据库長官(4651130) 15:33:10cpu(330327631) 15:33:30长官图片出不来長官(4651130) 15:33:54長官(4651130) 15:34:15现在 本来搜索的是拼音tiananmen 而排在前面的是中文的,这就是百度讨厌的地方,因为他想怎么做就怎么做 長官(4651130) 15:35:00/s?ie=gb2312&bs=%B3%C2%B9%DA%CF%A1&sr=&z=&cl=3&f=8&wd=%C4%E3%BA%C3%B6%C8&ct=0長官(4651130) 15:35:27長官(4651130) 15:35:43还有错别字纠正長官(4651130) 15:37:21他这些,也是从数据库中来对比的。个人认为他们是在临时的数据库。当一个词搜索量高的时候,这个词就会写入临时数据库中,来对比長官(4651130) 15:38:06下面简单的介绍下GG的長官(4651130) 15:38:54/search?hl=zh-CN&q=%E4%BA%AC%E7%8F%A0%E9%AB%98%E9%80%9F%E7%9A%84%E7%81%AB%E8%BD%A6%E5%87%BA%E8%BD%A8%E5%B9%B6%E4%B8%94%E6%97%A0%E4%B8%80%E4%BA%BA%E4%BC%A4%E4%BA%A1+%E5%A4%A9%E4%B8%8A%E4%B9%9F%E6%8E%89%E4%B8%8B%E5%86%B0%E9%9B%B9&meta=&aq=f長官(4651130) 15:39:07还是上面那句话,京珠高速的火车出轨并且无一人伤亡 天上也掉下冰雹長官(4651130) 15:40:00大家可以看到 GG的中文确实不如百度做的好長官(4651130) 15:40:16長官(4651130) 15:41:03这些搜索字词都已标明如下:京并且无天上也掉下这些搜索字词仅在指向此网页的链接中出现: 珠 高速 火车 出轨 一人 伤亡 冰雹 長官(4651130) 15:41:17这些是GG中标明的長官(4651130) 15:42:28京珠|高速|的|火车|出轨|并且|无一人|伤亡|天上|也掉|下冰雹(掉下)(冰雹)这些是我之前所根据自己的思维来划分的词長官(4651130) 15:43:46搜索引擎中 还有一个重点就是 長官(4651130) 15:45:03当这个词出现的时候 他们做的是 从左到右或者是 从右到左 这么判断分析長官(4651130) 15:46:08/s?ie=gb2312&bs=%CC%EC%CC%EC+%D7%AC%C7%AE&sr=&z=&cl=3&f=8&wd=%CC%EC%CC%EC%D7%AC%C7%AE&ct=0長官(4651130) 15:46:15/s?ie=gb2312&bs=%CC%EC%CC%EC%D7%AC%C7%AE&sr=&z=&cl=3&f=8&wd=%D7%AC%C7%AE%CC%EC%CC%EC&ct=0長官(4651130) 15:46:49大家可以看这两个词的 相关网页数量是相同的 都是4,120,000篇長官(4651130) 15:48:00以上就是搜索引擎中的分词机构注明:以上信息全是我个人经过这几年从体验中判断的,并不表示一定的正确性長官(4651130) 15:48:14長官(4651130) 15:48:00以上就是搜索引擎中的分词机制注明:以上信息全是我个人经过这几年从体验中判断的,并不表示一定的正确性長官(4651130) 15:48:16打错字了長官(4651130) 15:49:42补充一下 如果你搜索完天天赚钱这个词后,在和天天 赚钱这两个词对比一下,如果
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025-2030儿童艺术培训市场增长动力与发展方向调研报告
- 2025-2030儿童编程机器人行业产品创新与教育政策影响及市场扩张预测报告
- 2025-2030儿童注意力训练产品技术专利布局与市场壁垒报告
- 2025-2030儿童教育机器人行业市场需求与产品迭代分析报告
- 2025-2030儿童护眼产品市场科技含量与消费决策因素分析报告
- 2025-2030儿童戏剧教育课程开发与表演能力培养体系研究报告
- 2025-2030儿童情绪管理培训市场家长支付意愿与课程有效性评估研究报告
- 2025-2030儿童家居用品市场设计理念与安全标准及渠道变革分析报告
- 企业品牌形象设计工具及规范模板
- 人才服务保证水平承诺书7篇范文
- 城投公司成本控制管理制度
- 万亨工业科技(台州)股份有限公司年产500万套逆变器及配件、800万套新能源汽车控制器配件技改项目环评报告
- 防止触电事故的安全技术措施
- 娃哈哈企业财务分析报告
- 破碎承包协议合同协议
- 非洲猪瘟防控措施课件
- 禁毒禁烟教育主题班会
- 交通运输公司安全生产目标考核奖惩制度
- 蛛网膜囊肿的治疗与护理
- 外卖站长个人工作总结
- 中医基础理论经络培训课件
评论
0/150
提交评论