百度相关性评估培训资料:主题匹配度打分1_第1页
百度相关性评估培训资料:主题匹配度打分1_第2页
百度相关性评估培训资料:主题匹配度打分1_第3页
百度相关性评估培训资料:主题匹配度打分1_第4页
百度相关性评估培训资料:主题匹配度打分1_第5页
已阅读5页,还剩8页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

百度内部文档,未经允许,请勿转发1百度相关性评估培训:主题匹配度打分目录1 什么是主题匹配度打分 22 主题匹配度打分的步骤 23 主题匹配度评分标准 .23.1 主题匹配度 4 档 完全匹配 .23.2 主题匹配度 3 档 比较匹配 .33.3 主题匹配度 2 档 部分匹配 .43.4 主题匹配度 1 档 很少匹配 .43.5 主题匹配度 0 档 完全不匹配 .54 打分注意事项 .54.1 Query 多义判分 54.2 页面转义判分 64.3 标题匹配,页面内容差判分 .64.4 命中边框判分 64.5 作弊页判分 74.6 权限问题判分 74.7 死链判分 74.8 搜索结果页判分 75 平台注意事项 .85.1 页面异常,直接打开 URL 查看 85.2 需要抛弃的情况 85.3 需要备注的情况 86 主题匹配度打分与五个维度 86.1 时效性 86.2 有效性 86.3 丰富度 96.4 便捷性 96.5 权威度 97 不同类别的 Query 判断 97.1 URL 查询 .97.2 人名 107.3 资源满足类 107.4 网络小说 107.5 问答类 117.6 Key-Value 类 117.7 原文类 Query .118 本篇小结 .118.1 主题匹配度打分标准纲要 .118.2 主题匹配度打分流程图 .12百度内部文档,未经允许,请勿转发21 什么是主题匹配度打分主题匹配度打分,指评估 Query 表述的意思(主题)和页面表述的意思(主题)的匹配程度,即判断 Query 主题和页面主题是否一致及多大程度上一致。用不同的分值表示二者匹配的程度,这里使用的五个分值依次是 4、3、2、1、0。 Query,也可称查询词、关键词、搜索词,指用户为进行查找而在搜索框中输入的字词。本文中出现的 Query,用“【” 、 “】 ”括起来,如【搜狐】 、 【周杰伦 MP3】 。 Term,指 Query 中的一个词。如【搜狐】 ,搜狐为一个 Term;【北京二手房】 ,北京为一个 Term,二手房为另一个 Term。 URL,也称为网页地址,本文所说的页面即 URL 对应的网页结果。2 主题匹配度打分的步骤评估过程的四个步骤:(1)根据 Query 表述的意思确定 Query 主题;(2)根据页面表述的意思确定页面主题;(3)判断 Query 主题和页面主题是否匹配以及多大程度上匹配;(4)选择合适的分值。3 主题匹配度评分标准标准概要: 4 档完全匹配 3 档比较匹配 2 档部分匹配 1 档很少匹配 0 档完全不匹配3.1 主题匹配度 4 档完全匹配(1)页面主题和 Query 主题完全匹配,页面标题不需要完全匹配。【孕妇最适合的水果】/view/c5a6a81cfad6195f312ba654.html标题是“最适合孕妇吃的水果”,虽然标题与 Query 不完全一致,但二者在主题上完全匹配。【迅雷 点任务就崩溃】/question/270053204.html 标题是“迅雷一点任务就崩溃”,页面内容也是围绕这个主题展开,对于主题匹配标注,不必考虑页面内回答是否真实有效地解决了问题。(2)页面主题比 Query 主题略小,但页面主题占 Query 查询需求的较大比重。【周杰伦】/singerlist/%D6%DC%BD%DC%C2%D7.html页面主题是周杰伦的歌曲列表,是 Query 主题的主要需求方面。百度内部文档,未经允许,请勿转发3【南京新城市广场美食】/d47103547.htm 页面主题是南京新城市广场中餐馆,中餐馆是美食的主要方面。【招聘 赶集网】/zhaopin/ 页面为赶集网上海招聘。这种 Query 本身包含地域需求,类似的有【天气预报】 ,页面出北京天气预报,可认为是 Query 主题的主要方面。(3)Query 主题比页面主题略小,且 Query 主题是页面中的主要属性。属性指用来描述某个实体的一种特征,如地名、邮编、手机号码等。【电影宿醉的英文名称】/movie/xiju/suzui2/页面主题介绍了该电影的各个属性,英文片名是主要属性之一。【武汉大学出版社电话】/huangye/info145160/ 页面主题是武汉大学出版社的联系方式,电话是其主要属性之一。(4)原文 Query:页面精确匹配 Query,且能唯一的确定某一篇文章。原文 Query:用户通过一句话来精确查找所需的整篇原文。不限于文章,可包括:诗词歌赋、文言文、各类文件、歌词、帖子、试卷中的某道题,关键是完整包含这句话的文章只有固定的一篇。【这是 1996 年,霍懋征在政协第八届全国委员会常委会第 16 次会议上】/rollnews/2010-02/17/content_628689.htmQuery 与新闻中的图片标题精确匹配,确定了固定的一篇新闻。【关于建立统一的企业职工基本养老保险制度的决定】/jyysr/zcfg/t20050714_35691.htm /view/fcd0112c453610661ed9f4f0.html 以上两条 URL 都是通过 Query 精确匹配而确定的固定的一篇文章。3.2 主题匹配度 3 档比较匹配(1)页面主题比 Query 主题偏小,但页面主题对 Query 主题起重要作用。【幻灯片在线制作】/content-642178.html 页面主题是一款幻灯片在线制作工具,是 Query 主题的重要方面。【将进酒 李白】/view/c33f021352d380eb62946d53.html 页面主题是将进酒教案,是 Query 主题的重要方面。【快递查询】/ 页面是圆通快递查询,是 Query 主题的重要方面。(2)Query 主题比页面主题偏小,只和页面的一部分匹配,其余部分是 Query 主题的常见扩展或自然外延。 页面中的属性页面主题Query 主题 扩展或外延部分百度内部文档,未经允许,请勿转发4【灵魂和元神的区别】/wenda/thread?sort=wsmopts&tid=1f9c1b025e559b79页面主题是“神识,元神,灵魂,阿那耶识的解释” ,Query 主题与其中的“灵魂、元神”匹配,页面其他部分与“灵魂、元神”属于同类概念,看作 Query 主题的常见扩展。【种植牙对身体有伤害吗】/html/news/20114/176881.htm Query 主题与页面中“种植牙的副作用 ”匹配,页面其他部分“种植牙的定义及优点”伴随“种植牙的副作用”一起出现,看作 Query 主题的自然外延。3.3 主题匹配度 2 档部分匹配(1)页面主题比 Query 主题明显偏小,是 Query 查询需求的次要方面。【淘米网】/p20110520000643.html页面主题是淘米网一条相关新闻,是 Query 主题的次要方面。【圆通快递】/2009/09/20/yuantong.html 页面主题是一位客户对圆通快递的评论,是 Query 主题的次要方面。(2)Query 主题比页面主题明显偏小,只和页面的一部分匹配,其余部分与 Query 主题领域相关。【关于丽江句子】/userlog30/229208/archives/2009/1140778.shtml页面主题是走进丽江教学设计,页面内有少量关于丽江的句子,其他部分也是围绕丽江。【姚市余姚市城东路 88 号】/web8/5680.shtml页面主题是多家企业信息列表,Query 与其中的一条信息匹配,其余部分与 Query 领域相关,同属联系方式。(3)页面主题是 Query 主题的扩展或外延,语义重心发生偏离。【宝安区 福利中心】 /1529/index.html 页面主题是“宝安区福利中心宝馨颐养院的联系方式” ,语义重心是宝馨颐养院,而不是福利中心。【如何经营安利】/wushuq1366/diary/item/10051578.html 页面主题是如何成为安利经营者,是 Query 主题的扩展,但语义重心偏离“如何经营” 。3.4 主题匹配度 1 档很少匹配(1)页面主题和 Query 主题基本不相关,页面仅有很少部分和 Query 相关的信息 。【绍兴市韩彬翔】/s/blog_4c9259c60100fzre.html页面中仅提到这个人的身份。【临安人民广场】/c/2010-03-18/055717234114s.shtml页面仅仅是提到了这个地方。(2)页面主题和 Query 主题领域相关,但丢失了重要的限定成分。【南开大学艺术理科 2010 年录取分数线】百度内部文档,未经允许,请勿转发5/shownews.asp?newsid=1154 页面内容是南开大学 2010 各省录取分数线,但和艺术无关。【4399 疯狂过山车游戏第 9 关全攻略】/xyxgl/201004-24-67147.html 页面是这个游戏,但没有第 9 关。(3)页面主题和 Query 主题领域相关,但是 term 间关系不符合需求。 【上海到广州软座的火车时刻表】/train/train-show-80-321-KT-1.html 页面内容是广州到上海的火车时刻表。【qq 语音,对方能听能说,但我放歌对方却听不见】/question/181646204.html?push=ql页面内容是“对方听不到我说的话,但能听到我放的歌”,与 Query 需求不符。3.5 主题匹配度 0 档完全不匹配(1)重要 term 被拆散,命中页面相互无关的部分,term 之间没有联系。 【夏枯草菊花茶】/mianmo/2308.html页面中夏枯草菊花茶被拆成两个部分,之间没有联系,而 Query 夏枯草菊花茶作为一个整体。【詹姆斯 9 投 0 中】http:/3/sports/nba/zhuqiang/news?aid=11603211&mid=7B4JUj&vt=2%3D&m=1 页面主题是“皮尔斯 10 投 0 中 遭詹姆斯完爆” ,重要 term 被拆散。(2)丢失重要 term ,导致页面不符合需求。【prada 眼镜半框 1bo-101】/item-taobao-402015.html 页面主题是 Prada 服装,丢失了重要 Term“眼镜” 。【山西省阳泉市 2009 年高二会考试题】 /down/2006-1/23/61694.shtml 页面主题是仙游一中 2005 年物理试题,丢失了地点和年份等重要 Term。(3)核心 term 严重转义导致结果完全不相关。【你知道潜水艇吗?它在军事上的作用可大呢】/xiaozhaojiu126/ 页面中“潜水艇”为地漏的品牌名,严重转义。【章丘游军】/view/33122.htm 页面中命中的“游军” ,指李渊时代游散的军队,而 Query 是章丘名叫游军的人。4 打分注意事项4.1 Query 多义判分【艺龙】/, “艺龙旅行网” ,名为“艺龙”的公司网站,完全匹配, 4 分;/, “艺龙动漫” ,另一个“艺龙”的公司网站,完全匹配,4 分;百度内部文档,未经允许,请勿转发6/view/4826474.htm, “艺龙动漫的实训基地 ”限定为实训基地,比主题“艺龙”略小,但是 Query 主题的一个重要方面,3 分。同理, 【卓越】 ,结果出“卓越信通公司”与“卓越亚马逊”等同公司名的在主题匹配度上是认为没有差异的,页面出公司官网都可给 4 分。4.2 页面转义判分按转义程度给分,最高不超过 2 分:(1)轻微转义:转义后仍能部分保留 Query 本身的含义,给 1 分或 2 分【正大光明】/davidyangcn/ ,结果出“正大光明博客” ,为轻微转义结果,给 2 分。/ 同名博客,但博客中无内容,降档打分,1 分。【正大光明博客】/davidyangcn/, 则为主题完全匹配结果,给 4 分;/ ,若博客同名但无内容,给 2 分。(2)严重转义:转义后的页面完全失去了 Query 本身所表达的意思,给 0 分【东微】/article/2011/0210/A20110210822712.shtml,结果出“马东微博” 则属于严重转义,给 0 分。4.3 标题匹配,页面内容差判分页面标题与 Query 主题匹配,但页面内容差,常见的有以下几种情况: (1)有问无答或答非所问【在家里发生的事作文 350 字】/question/133694901 ,提问与 Query 匹配,但无回答,2 分(2)Query 是找某个账号的博客,页面中账号匹配,但是博客无内容【正大光明博客】/ ,同名博客,但博客无内容,2 分。4.4 命中边框判分页面主题与 Query 主题不匹配,命中边框内结果的最多标注 1 分。【谁告诉我主要是为了给自己拍照 买卡西欧 TR150】/question/402382660.html 在页面下方“相关内容”中有相关问题链接,主题匹配度给 1 分。在主题匹配度标注项目中,判断依据是页面主题和 Query 主题的匹配程度,页面主题不相百度内部文档,未经允许,请勿转发7关,就算边框链接中的内容再好,打分也不会高。4.5 作弊页判分(1 )作弊页,为了提高搜索引擎检索命中率,在网页中故意穿插与网页内容不相关的关键词或大量堆积某些关键词;网页中加入搜索引擎可识别但用户看不见的隐藏文字,如使用同背景色文字、超小字号文字、滥用图片等低质页面;网页中故意制造大量链接指向某一固定网址,上述情况都属于网页作弊。(2 )作弊分为轻微作弊和恶劣作弊两种情况。轻微作弊是指网页虽有不相关的关键词穿插其中,但不影响用户获取信息,主题匹配度标注中,轻微作弊页进行正常打分,不考虑作弊的影响。恶劣作弊是指网页作弊情况严重,网页结果对用户完全无帮助,主题匹配度标注中,恶劣作弊页打分为 0,备注 “恶劣作弊” 。(3 )恶劣作弊页实例: /p/m/923658624 /zuigeili/blog/item/cf1efdeb45b868c5b21cb1ea.html 恶劣作弊页的主题匹配度为 0 分,注意打分后,需要在备注下拉菜单中选择 “恶劣作弊” 。4.6 权限问题判分打开页面直接是登录页,遇到需要登录才能看页面内容的情况,此类页面由于无法判断实际页面的主题匹配度,请在打分项中选择“抛弃” ,同时在备注下拉菜单中选择“权限” 。【2011 成人学位英语考试时间】/dispbbs.asp?boardid=55&ID=65610674.7 死链判分死链, “死掉”的链接。包括两类,一是标准的出错页面,如 404(未找到文件) 、500(服务器内部错误) 、401(未授权) 、403(禁止访问) 、连接被重置等;二是页面主体提示说页面不存在、内容已转移、已删除、域名过期或出售、空间被关闭、网站要备案等。 死链的处理方式和权限页面类似,请在打分项中选择“抛弃” ,同时在备注下拉菜单中选择“死链” 。4.8 搜索结果页判分搜索结果页一般以标题列表形式出现,用户需要二次点击页内标题链接,才可看到具体页面。搜索结果页的判分不需要点开页内具体标题,而是通过各标题综合匹配程度来进行判分,若页面中标题均与 Query 匹配,那么则认为二者主题匹配程度高,可给 4 分、3 分;页面中部分标题与 Query 匹配,可给 2 分、1 分;页面中标题均与 Query 无关的,则认为完全不匹配,给 0 分,以下是常见的几种搜索结果页: 【郭晶晶】 百度新闻列表搜索结果页 页内新闻标题相关,3 分 【N8】 泡泡网站内搜索结果 泛需求,页内标题整体来看与 Query 主题部分匹配,2 分 【加勒比海盗 4】 谷歌新闻列表搜索结果页 页内新闻标题无命中,仅仅提到,1 分 【临汾高客时间表】 新浪乐居论坛搜索结果页 页内标题无关,0 分对于一些资源类 Query 会有很好的站内搜索结果,如:【数据恢复软件】/sort/1329.html 4 分百度内部文档,未经允许,请勿转发8【周杰伦 mp3】/search?key=%E5%91%A8%E6%9D%B0%E4%BC%A6 4 分同时在打分后,在备注下拉菜单中选择“检索页”。5 平台注意事项5.1 页面异常,直接打开 URL 查看若抓取的页面异常空白、结构错乱、页面主体空白等,请直接点击平台左上侧的URL,根据浏览器中新打开的页面来判断。如图所示:5.2 需要抛弃的情况若平台结果为死链或受权限限制的登录页面,需要打分中选择“抛弃”选项,同时需要备注“死链”或者“权限” 。5.3 需要备注的情况目前平台备注下拉菜单里有 4 个选项,分别是“恶劣作弊 ”、 “权限” 、 “死链” 、 “检索页” ,遇到这 4 种情况请在进行打分后,在备注里点击相应的选项。6 主题匹配度打分与五个维度6.1 时效性主题匹配度打分不受页面资源的时效性影响。 若 Query【戛纳电影节】 ,未指明哪一届,页面主题是任意一届戛纳电影节,都认为二者主题匹配好。若 Query 中明确指明时间,如【2011 年戛纳电影节】 ,结果出第 64 届,认为主题匹配度好;结果出第 62 届,则认为主题匹配差。【戛纳电影节】/special/00033BPT/62th_cannes.html 第 62 届,Query 重要方面,3 分/f/m/cannes64/index.shtml 第 64 届, Query 重要方面,3 分【2011 戛纳电影节】同样的上面两个结果,结果 1 丢失了重要的限定成分,认为仅领域相关,判为 1 分,结果2 完全匹配判为 4 分。百度内部文档,未经允许,请勿转发96.2 有效性主题匹配度打分不受页面资源的有效性影响。用户搜某软件下载,主题匹配度打分不需要进行真正地下载看下载的软件是否免费、是否带病毒、是否是目标软件而不是其他软件等,而只要确认了页面主题是目标软件下载,资源究竟是否有效不影响主题匹配度打分。【跑跑卡丁车下载】/ol/index1483.html ,中关村在线的跑跑卡丁车下载,4 分。【跑跑加速外挂】/tianji404140.html ,论坛软件需回复下载,4 分。6.3 丰富度主题匹配度打分不受页面资源丰富度影响。即仅提供 1 篇范文的页面和提供 2 篇以上范文的页面,只要页面主题均与 Query 匹配,主题匹配度打分没有区别。【一件难忘的事】/a/nanwangdeyijianshi/2010/0114/447.html ,4 分;/question/152842992.html ,4 分。6.4 便捷性便捷性,指从打开页面开始,到寻找到所需信息、达到最终目的,所要花费的时间和成本。便捷性对主题匹配没有影响。【高考满分作文“风沙渡”让小吃店“风沙渡”红了】/GB/15026918.html /edu/2011-06/29/c_121597458.htm 同一篇新闻,结果 1 不用翻页即可阅读全文,结果 2 将一篇新闻分成了好几页,用户需要翻页才可完成阅读,但是对于主题匹配度打分,只要页面主题和 Query 主题匹配了,便捷性不影响打分,这两个结果均判为 4 分。6.5 权威度权威性考察的是内容发布在不同网站、或内容贡献者的身份给用户的不同感觉。对于主题匹配度来说,权威度不影响打分。【胃病 治疗】/question/259284412.html?an=0&si=1 百度知道结果/il_sii_624.htm 专业疾病治疗网站结果主题匹配度打分不考虑权威度上的差异,二者均为 4 分。百度内部文档,未经允许,请勿转发107 不同类别的 Query 判断7.1 URL 查询URL 查询作为一种特定形式的 Query 需求,页面为 Url 目标网站,可给 4 分,其他页面最多不超过 2 分: 【】 / 目标网站 4 分; / 搜狐网站的 wap 入口,是 Query 主题的次要方面,2 分; / 网站价值、流量分析页面,对用户帮助很小,1 分; / 页面 title 命中 Url,但实际页面与主题完全不匹配, 0 分。7.2 人名人名类 Query 不做普通人与名人区分,博客、微博、社交网络等的个人页面,以及人物专题、作品集,4 分;关于该人名的贴吧、新闻专题集合等,3 分;人的某条新闻(一般名字出现在新闻的标题中) ,2 分;新闻中仅仅提到该人名(指新闻标题中未出现,仅在正文中提到) ,1 分;其他完全不匹配情况, 0 分。 【马丽丽】 /view/750716.htm 百科介绍、个人简历、微博、博客, 4 分 /f?kw=%C2%ED%C0%F6%C0%F6 马丽丽贴吧,给 3 分 /system/2010/05/12/052503539.shtml 马丽丽的新闻报道,2 分 /p/1421751880 页面仅仅提到该人名,1 分 【郭晶晶】 /view/53064.htm 郭晶晶百科,4 分 /f?kw=%B9%F9%BE%A7%BE%A7&fr=ala0 郭晶晶贴吧,3 分 /ent/culture/2012-03-06/090654198.html 郭晶晶新闻,2 分 /p/1428953662 贴吧的某贴,主题是吴敏霞,提到了郭晶晶,1 分7.3 资源满足类Query 明确查找资源,如下载视频,页面没有提供下载资源,例如搜“宫锁心玉下载”,出结果是“宫锁心玉剧情”,或者是“宫锁心玉在线观看”,可按照降档的方式来标,例如 4-3, 3-2。最低到 2, 因为虽不可下载但比仅仅的领域相关要好很多。Query 求电影,页面实际给了预告片;视频 Title 与 Query 一致,但需要安装插件才能观看,虽无法判断实际视频是否真实有效,但均不影响打分。【宫锁心玉下载】 /html/tv/hepai/guochan/20110223/31012.html 下载资源,4 分; /playlist/p/a65393.html 在线观看, 3 分; /episode/GongSuoXinYu-11279/0/ 分集剧情,2 分; 注意以下两种情况: 【电影 马文的战争】/playlist/id/6375616/ 页面是电视剧 马文的战争,与电影马文的战争存在一定的关联,领域相关,比完全不匹配的情况要好,给 1 分。 百度内部文档,未经允许,请勿转发11【碟中谍 2】 /playlist/p/l6279918i26016380.html 豆单名字是碟中谍2,页面实际视频 title 是甄子丹的“情逢对手” ,需要仔细对照视频 title,给 0 分。7.4 网络小说网络小说不用区分是否为同名小说,不用区分是否为首发站,不用区分是否为收费小说 【侯卫东官场笔记】 /files/yuanchuang/201102/1528.html 小说列表首页,4 分;/view/3605885.htm 百科介绍,豆瓣专题,作为重要方面,3 分; /files/yuanchuang/201102/1528/6394.html 具体的某一章节,3 分; /16975/142946588/ 书籍相关购买信息,次要方面,2 分; /ROLLNEWS/2012/01/1320151662319.html 文中仅提到,1 分。 7.5 问答类问答类 Query 的主题匹配度判分注意 3 点: (1)页面问题是否与 Query 一致;(2)问题是否得到回答,答案是否与问题相关,是围绕问题回答的。(3)问题与 Query 匹配,有问无答以及答案与问题不相关的情况,给 2 分;若页面问题较Query 主题偏小或偏大,对于有问无答或者答案较差的情况,给 1 分。 【钟馗是怎么死的】 /question/77982197.html 4 分; 【女主角漂亮的电影】 /qu

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论