版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
数据挖掘——推荐系统推荐系统推荐系统可以向用户建议有用的物品,如购买什么物品、听什么音乐、在网上浏览什么信息推荐系统微软研究报告曾估计,A有30%的网页浏览量来自于推荐A.Sharma,J.M.Hofman,D.J.Watts,“EstimatingtheCausalImpactofRecommendationSystemsfromObservationalData,”
Proc.16thACMConf.EconomicsandComputation,2015,pp.453–470.
A提供图书的平均评分,以及购买过某本特定书籍的用户购买的其他书籍的列表推荐系统Netflix也广泛应用推荐系统,通过现实电影的预测评分帮助用户决定款看哪部电影Netflix首席产品官NeilHunt表示,Netflix80%以上的电影观看都是通过推荐生成的,而且Netflix推荐系统每年产生的价值超过10亿美元。C.A.Gomez-UribeandN.Hunt,“TheNetflixRecommenderSystem:Algorithms,#Business|Value,andInnovation,”
ACMTrans.ManagementInformationSystems,vol.6,no.4,2016,pp.1–19.推荐系统Netfilx成立于1997年,是一家在线收费视频网站,提供视频点播、流媒体服务、视频推荐等。由ReedHastings创立在Blockbuster租碟,超期归还被黑40美元逾期费由按件计费向会员制转变现有推荐系统CinematchNetflix大赛,改进Cinematch第一届大赛开始于2006年,把现有推荐系统的准确率提高10%,奖金100万美金2009年,一个七人团队获奖BPC(BellKor'sPragmaticChaos)对Cinematch算法的改进10.06%开赛后的几个月,算法准确性提高了5%一年多时,较好的答案已经非常接近9%推荐系统第一次比赛,Netflix公开了大约1亿个1-5的匿名影片评级,数据集仅包含了影片名称。评价星级和评级日期,没有任何文本评价的内容。第一个Netflix大奖解决了为提供了50个以上评级的观众准确的预测他们的口味下一个百万大奖目标是,为那些不经常做影片评级或者根本不做评级的顾客推荐影片,要求使用一些隐藏着观众口味的地理数据和行为数据来进行预测。推荐系统推荐系统通常包含三类数据要推荐的物品或内容系统用户的基本信息用户对物品或者信息的偏好显式用户反馈:喜欢/不喜欢、评分、评论隐式用户反馈:购买、浏览、收藏……推荐方法分类推荐方法通常包含三种基于人口统计学的推荐(Demographic-basedRecommendation)基于内容的推荐(Content-basedRecommendation)根据系统用户的基本信息发现用户的相关程度根据推荐物品或内容的元数据,发现物品或者内容的相关性基于协同过滤的推荐(CollaborativeFiltering-basedRecommendation)根据用户对物品或者信息的偏好,发现物品或者内容本身的相关性,或者是发现用户的相关性基于内容的推荐利用用户已知的偏好、兴趣等属性与物品内容属性相匹配,以此为用户推荐新的感兴趣物品基于内容的推荐基于内容的推荐一般包含以下三步:物品表示:为每个物品抽取一些特征来表示此物品学习用户特征:利用一个用户过去喜欢(及不喜欢)的物品特征数据,学习出此用户的喜好特征生成推荐:通过比较用户特征与候选物品的特征,为此用户推荐一组相关性最大的物品。基于内容的推荐物品表示结构化特征:e.g.一个电影的特征有演员、导演、类型、主题等非结构化特征:e.g.向量空间模型(VSM)大多数情况下,物品表示是从网页、电子邮件、新闻或产品描述中抽取的文本基于内容的推荐学习用户特征学习用户特征的问题可转化为一个二元分类任务:每一个物品都根据用户的偏好被分成感兴趣(c+)或不感兴趣(c-)最近邻方法朴素贝叶斯决策树算法线性分类算法基于内容的推荐优点用户独立性:基于内容的推荐仅使用当前用户提供的评分来构建用户特征,而协同过滤方法需要其他用户的评分,来发现该用户的近邻。透明性:通过显式列出使得物品出现在推荐列表中的内容特征或描述,可以解释推荐系统是如何工作的。新物品:在新物品没有任何用户评分的情况下,基于内容的推荐系统也可以进行推荐。基于内容的推荐缺点
物品特征抽取一般很难过度特化:无法发现一些出人意料的物品,系统建议的物品与用户特征高度匹配的时候,给用户推荐的也会是与已有评分物品相似的物品。无法为新用户生成推荐:在真正理解用户偏好切给出准确推荐之前,需要收集足够的评分,当只有很少的评分可用时,系统无法提供可靠的推荐。基于协同过滤的推荐
如果你现在想看个电影,但你不知道具体看哪部,你会怎么做?问问周围的朋友,看看最近有什么好看的电影推荐协同过滤根据用户对物品的偏好,发现物品或内容本身的相关性,或者是发现用户的相关性,再基于这些关联性进行推荐我们一般更倾向于从口味比较类似的朋友那里得到推荐基于协同过滤的推荐可以分为两个子类:基于近邻的推荐基于用户的推荐(UserCF)、基于物品的推荐(ItemCF)基于模型的推荐基于近邻的协同过滤20世纪90年代中期,协同过滤通常使用基于用户的推荐1998年,A推出了基于物品的协同过滤算法,使推荐系统能够基于上百万的商品为数百万用户提供推荐服务。随后,基于物品的推荐在网络上被广泛使用在不同的产品中,包括Youtube、Netflix和很多其他产品。2003年,GregLinden、BrentSmith和JeremyYork将该算法发表在“IEEEInternetComputing”,论文名称为“ARecommendations:Item-to-ItemCollaborativeFiltering”
基于用户的推荐(UserCF)TheMatrixTitanicDieHardForrestGumpWall-EJohn5122Lucy15255Eric2?354Diane4353
Eric是否要看电影Titanic?基于近邻的协同过滤
基于用户的推荐
基于近邻的协同过滤
基于用户的推荐
基于近邻的协同过滤预测Eric对电影Titanic的评分,使用Lucy和Diane这两个近邻用户对这部电影的评分,假设这些近邻与Eric相近权重分别为0.75和0.15,则预测评分为基于用户的推荐TheMatrixTitanicDieHardForrestGumpWall-EJohn5122Lucy15255Eric2?354Diane4353基于近邻的协同过滤
基于物品的推荐(ItemCF)Eric通过已经看过的电影决定Titanic对他是否合适,他发现对Titanic评分的人也对电影ForrestGump和Wall-E给予相近评分,由于Eric也喜欢这两部电影,因此他认为自己也会喜欢TitanicTheMatrixTitanicDieHardForrestGumpWall-EJohn5122Lucy15255Eric2?354Diane4353基于近邻的协同过滤基于物品的推荐
基于近邻的协同过滤基于物品的推荐TheMatrixTitanicDieHardForrestGumpWall-EJohn5122Lucy15255Eric2?354Diane4353
使用两个近邻Eric对Titanic的评分进行预测,Titanic的相似项目ForrestGump和Wall-E的相似权重分别为0.85和0.75,则预测评分可计算为基于近邻的协同过滤如何计算用户或物品之间的相似度权重?
评分标准化基于近邻的协同过滤余弦相似度计算相似度
基于近邻的协同过滤皮尔逊相似度计算相似度
用户相似度物品相似度基于近邻的协同过滤Top-K过滤:不论远近,只取最近的K个作为其近邻。k近邻选择方法阈值过滤:保留相似度权重大于给定阈值的近邻。基于近邻的协同过滤一个用户可能只给少量物品最高分,而一些用户会对自己喜欢的物品都给予最高分。评分标准化可将近邻评分进行标准化转换均值中心化Z-score标准化评分标准化能够将不同的个人评分标准转换到更一般的整体评分标准。基于近邻的协同过滤通过与平均分的比较决定一个评分为正还是为负,移除了针对平均评分的不同感受而导致的偏差均值中心化
对新物品的评分预测调整为对基于物品的推荐而言,均值中心化后的预测评分为基于近邻的协同过滤均值中心化
TheMatrixTitanicDieHardForrestGumpWall-EJohn2.5-1.5
-0.5-0.5Lucy-2.61.4-1.61.41.4Eric-1.5
0.51.50.5Diane0.25-0.751.25-0.75
虽然Diane对Titanic和ForrestGump的评价分数为3分,但用户平均中心化评分结果显示其对于电影的偏好是负值,因为她的评分总体上高于所有用户的整体平均分。用户均值中心化基于近邻的协同过滤Z-score标准化不仅考虑对平均评分不同感受导致的偏差,还考虑个人评分范围不同带来的差异。Z-score标准化基于用户的预测评分同样地,基于物品的预测评分基于近邻的协同过滤效率:基于物品的推荐,大部分计算(如批量构建相关项目)可离线完成,并通过一系列的查询快速生成推荐基于用户的推荐vs基于物品的推荐准确性:对于用户数量大于物品数量的推荐系统(如A),基于物品的推荐方法更加准确,而对于物品数量远大于用户数量的推荐系统(如新闻、博客或微内容),基于用户的推荐更加准确解释性:基于物品的推荐方法易于证明推荐的合理性,预测中用到的近邻物品列表以及相似度权重,都可作为推荐结果的解释提供给用户。惊喜度:基于用户的推荐能够产生更加新颖的推荐。基于近邻的协同过滤当物品内容不完全或难以获得时,仍可通过其他用户的反馈来进行推荐。优点基于用户的推荐和基于物品的推荐以用户对物品的评价为基础,而不仅仅依赖可能会干扰判断的内容可推荐内容差异很大的物品基于近邻的协同过滤基于历史数据进行推荐,对新物品和新用户都有“冷启动”问题。缺点基于近邻的协同过滤对稀疏数据敏感:数据稀疏时,两个用户或物品之间很难有相同的评分,预测评分时仅使用了很少量有限的近邻。覆盖受限:仅仅被近邻用户评价过的物品才会被推荐;有些用户没有共同评分但依然有相似爱好。基于模型的协同过滤隐式语义模型(LFM)隐语义模型(LFM,LatentFactorModel)通过对用户和物品的因式分解(MF,MatrixFactorization),找到各自的隐含特征,进而将二者联系起来。每个用户都有自己的偏好,如张三喜欢小清新、带有吉他伴奏、王菲等因子,如果一首歌带有这些因子,则可将这首歌推荐给该用户,也就是用因子去连接用户和音乐不能靠由单个人的主观想法建立起来的分类标准对全部用户喜好进行标准化。基于模型的协同过滤隐式语义模型(LFM)
基于模型的协同过滤隐式语义模型(LFM)用户因子矩阵P物品因子矩阵Q数据来源:互联网基于模型的协同过滤首先建立用户的评分矩阵求解分解方案数据来源:互联网基于模型的协同过滤隐式语义模型(LFM)
梯度下降法求解
LFMvs基于近邻的协同过滤LFM和基于近邻的协同过滤算法比较1.UserCF和ItemCF的空间复杂度较大。2.离线计算时间两者相当,LFM会更加费时,但是没有质的差别。3.LFM给用户推荐列表结果比较慢,不适合实时系统。如果应用在实时系统,也是先用别的方法给用户一个小的结果集合,然后LFM再优化排序。4.ItemCF有很好的推荐理由,UserCF和LFM则没有。5.数据集稀疏的时候LFM的性能会明显下降。推荐系统评估评分预测准确度均方根误差(RMSE)平均绝对误差(MAE)推荐系统评估排序预测令
是预测得到的推荐列表,而
是用户真实的产品偏好列表,则推荐结果的查全率和查准率分别为推荐系统评估覆盖率令系统的用户集合为,商品集合为,推荐系统给每个用户推荐一个长度为的商品列表,则覆盖率为一些算法可能提供高质量的推荐,但只推荐一小部分具有大量数据的物品覆盖率描述推荐系统对网站平台上长尾商品的挖掘能力推荐系统评估多样性多样性描述推荐结果中商品两两之间的不相似性,以覆盖用户多个方面的兴趣点,增加用户找到感兴趣产品的概率。假设定义商品和之间的相似度,则用户的推荐结果集合的多样性可定义为:推荐系统整体的多样性可由所有用户推荐结果的多样性的平均值得到:推荐系统评估新颖性和惊喜度如果用户没有听说过推荐列表中的大部分物品,则说明该推荐系统的新颖性较好。可通过推荐结果的平均流行度获得新颖性,如果推荐结果中物品的平均热门程度较低,则推荐结果拥有较高的新颖性。如果推荐结果和用户的历史兴趣不相似,但让用户很满意,则可以说这是一个让用户惊喜的推荐推荐的新颖性仅仅取决于用户是否听说过这个推荐结果。一般定性通过推荐结果与用户历史兴趣的相似度和用户满意度来衡量惊喜度推荐系统总结推荐方法基于人口统计学的推荐基于内容的推荐基于协同过滤的推荐基于用户的推荐基于商品的推荐基于语义模型的协同过滤推荐系统评估测度RMSEMAE查全率查准率覆盖率多样性新颖性和惊喜度数据挖掘——信息检索内容安排信息检索基本概念信息检索模型文本预处理索引建立搜索结果排序信息检索测度搜索引擎广告互联网发展历程1987年,中国第一封电子邮件AcrosstheGreatWallwecanreacheverycornerintheworld.1993年,第一个图形浏览器mosaic诞生1991年,TimBerners-Lee将超文本引入互联网WWW雏形,HTTP传输协议,Web服务器技术1992年,美国提出“信息高速公路计划”1994年,全球主机超过300万台1995年,超过600万台2002年,互联网泡沫破裂互联网发展历程1996年10月,北京中关村大街(白颐路)路口一夜之间竖起一面广告牌子,上书:“中国人离信息高速公路还有多远?——向北1500米。”
——瀛海威时空
(InfoHighWay)张树新:“进入瀛海威时空,你可以阅读电子报纸,到网络咖啡屋同不见面的朋友交谈,到网络论坛中畅所欲言,还可以随时到国际互联网上走一遭……”信息产业是中华民族崛起于世界的一个重要机会互联网发展历程1995年,Yahoo、InfoSeek、FastSearch、AltaVista、Excite成立互联网Web站点数超过100万1998年,Google成立英文搜索引擎2000年Adwords2011年图像搜索2000年,Baidu成立中文搜索引擎搜索引擎发展分类目录的一代Yahoo,hao123人工收集整理,高质量网站分门别类文本检索的一代AltaVista、Excite采用信息检索模型,计算查询关键词与网页文本内容的相关程度用户中心的一代,多场景搜索(多媒体数据、地理数据)理解用户需求为核心不同用户,返回结果不同同一用户,返回结果也不同链接分析的一代Google、Baidu引入网页之间链接的分析搜索引擎的目标更全商业搜索引擎索引网页的覆盖范围只占互联网页面的一部分更快一个检索的平均响应时间小于0.5秒更准核心竞争力排序技术用户研究搜索的核心问题用户真正的需求是什么?用户查询的平均长度2.7个单词同一查询词,不同用户同一用户,不同时间和地点哪些信息是和用户需求真正相关的?信息匹配的过程基于关键词的相关性更准信息发布者的情况不知道信息可能是矛盾的信息搜索过程信息检索InformationRetrieval两条主线后台抓取文档,建立索引前台分析用户查询条件信息检索形式关键词查询KeywordQueries用户将查询意图用一个或若干个关键词表达希望查询到包含所有查询关键词的文档用户输入“数据存储”,“存储数据”布尔查询BooleanQueries查询允许用户使用一些布尔操作符AND、OR、NOT“数据OR存储”信息检索形式短语查询PhraseQueries这种查询一般是包含一个短语或者句子用双引号表达短语查询“数据存储的关键技术”近似查询ProximityQueries用户希望得到更为宽泛的查询结果允许查询结果中出现查询短语中的查询词,查询词之间可以有其他词间隔的文档数据存储的关键技术信息检索形式自然语言查询NaturalLanguagesQuestions用户通过自然语言表达查询要求检索系统会在理解用户查询意图的前提下进行查询“问答系统”(Q&ASystems)信息检索模型不同的信息检索模型决定了文档和查询条件的表达方式布尔模型空间向量模型统计语言模型文档和查询条件是一系列关键词的集合关键词之间的顺序以及关键词在文档中的位置不会影响计算结果信息检索模型给定一个文档集合D={d1,d2,…,dN}di表示第i个文档。V={t1,t2,…,tM}是一组各自不同的词所构成的词汇表(Vocabulary)ti表示第i个特定的词。每个dj中的词ti都有一个相应的权重
ij。D中的每一个文档都可以表示成一个维度为M的向量布尔模型如果一个词ti出现在文档dj中,权重
ij=1如果一个词ti不出现在文档dj中,权重
ij=0查询词是被布尔运算符所组合在一起的系统判断每一个文档与查询条件的关系精确匹配空间向量模型VectorSpaceModel(Salton,1975)RepresenttextdocumentsasvectorsFirstusedinSMARTInformationRetrievalSystemTF-IDFModelWordsegmentationTermFrequency,tiindocumentdjDocumentFrequency,tiinalldocuments.统计语言模型一种以概率为基础的模型较多应用于自然语言处理以及语音识别中文本预处理停用词移除stopwordremoval词干提取stemming处理数字、连接词停用词移除在语言表达中常常出现,但对于表达具体语义没有太多含义,通常可以忽略的单词英文表达中,冠词、介词以及连词都属于停用词a,about,an,are,as,at,be,by,for,from,how,in,is,of,on,or,that,the,these,this,to,was,what,when,where,who,will,with中文表达的,在,和,通常,了,是,为,有,这,多,与,以词干提取许多种语言中,对于同一种词有着不同的表达方式主要针对英文一个名词具有单数和复数两种形式如果不进行处理,将使得系统的查全率降低“buy”,“bought”,“buying”等词,词干提取会将它们统一转化为“buy”一种较为常用的英文词干提取算法是由MartinPorter等人提出的一个动词可能有不同的时态,进行时,过去时,将来时等词干提取词干提取保证了较好的查全率进一步降低了索引的难度和所占用的空间降低检索系统的查准率网络检索中,查准率往往更为重要如何进行词干提取时保证检索结果的查准率不相关的文档会被当做相关文档检索出来处理连接词state-of-the-art将其中的连字号转化为空格,转化为“stateoftheart”将其中的连字号直接删除,转化为“stateoftheart”这样的两种方式在一些检索系统中都会被索引检索系统在设计连字号移除的规则时,也要针对一些特殊情况设计特殊的规则网页预处理辨别不同字段在HTML中,字段出现在不同的域中,标题、元数据、正文等。在不同域中出现的字段权重是不同的标题中出现字段的权重应高于正文中的相同字段辨别锚文本锚文本通常能够准确的概括和描述所指向的网页的信息移除HTML标签网页内容形式多样,包含了诸如广告、导航等大量信息辨别主要内容块搜索索引网络搜索和传统的信息检索的主要功能是找到符合用户查询条件的文档或网页这样的一种方法在处理小规模检索数据时是有效的一个较为直观的想法是遍历存储中的所有文档或网页,依次判断这些文档或网页是否包含检索条件中的关键词,进而将符合要求的查询结果返回给用户搜索索引时间换空间在存储中建立起索引结构,从而加快检索和查询的速度后台时间换前台时间一种流行的索引方法是倒排索引(InvertedIndex)当前搜索引擎中十分重要的一种索引方法倒排索引倒排索引的形式是一张列表,该列表包含了每一个不同的词和包含该词的文档可以利用倒排索引在固定时间内找到包含查询词的文档给定文档集合D={d1,d2,…,dN},其中每一个文档包含一个特定的ID号倒排索引倒排索引主要包含两个部分第一部分是一个词汇表V,这个词汇表中包含了文档集合D中所包含的不同词idj表示第j个文档的ID,fij表示词ti出现在文档j中的频率,o1表示词ti第一次出现时的偏移量(如在文档中所处的词的位置),ok是词ti第k次出现时的偏移量第二部分是每个词ti都对应一组倒排列表记录,这个记录存储了包含词ti的文档ID,以及一些其他的信息倒排索引假设有3个英文文档,对应的ID分别是id1,id2和id3。id1:Dataminingispowerful.id2:Usepowerfulminingapplications.id3:Miningsystemisacomplexsystem.id1:Dataminingpowerful.
123id2:Usepowerfulminingapplications。1234id3:Miningsystemcomplexusefulsystem.12345我们将停用词“a”,“is”和“and”去掉,暂不进行词干提取操作。此时每个词的偏移量为:倒排索引词汇表V={applications,complex,data,mining,powerful,system,use,useful}词倒排索引Applications<id2,1,[4]>Complex<id3,1,[3]>Data<id1,1,[1]>Mining<id1,1,[2]>,<id2,1,[3]>,<id3,1,[1]>Powerful<id1,1,[3]>,<id2,1,[2]>System<id3,2,[2,5]>Use<id2,1,[1]>Useful<id3,1,[2,4]>基于倒排索引的检索搜索词汇表当检索系统得到用户的查询条件之后,它需要在词汇表中搜索每一个查询词使用B树、哈希或者二叉搜索等算法进行快速的检索如果词汇表的规模为M(即|V|=M),那么检索一个查询词的时间复杂度可以达到O(logM)基于倒排索引的检索结果合并如果查询条件中包含多个词,那么就需要进行结果的合并在倒排索引中查到每一项之后,需要合并每一项取得它们之间的交集计算排名根据相关度函数给每个文档计算相关度,并将所有得到的文档排名示例查询“PowerfulMining”得到如下两个倒排索引同时包含这两个关键词的文档id1和id2Powerful:<id1,1,[3]>,<id2,1,[2]>Mining:<id1,1,[2]>,<id2,1,[3]>,<id3,1,[1]>分别计算两个文档与查询条件的相关性。考虑到两个关键词之间的顺序和距离,第二个文档的相关性要高于第一个文档id2:Usepowerfulminingapplications.id1:Dataminingpowerful.倒排索引的建立依次扫描文档集合中每个文档的每个词查找在索引中是否已经有这个词如果有这个词,则将这个文档的ID号和对应偏移量记录到索引中。如没有这个词,则在索引中新生成一个叶子节点,用来表示这个新词,并将这个文档的ID号和对应的偏移量记录到这个新的节点上。倒排索引的建立id1:Dataminingpowerful.
123id2:Usepowerfulminingapplications。1234id3:Miningsystemcomplexusefulsystem.12345搜索结果排序最为经典的一种网页排名方法是PageRank,已在社会网络分析中介绍。另一种经典算法为HITSHITS算法是英文HypertextInducedTopicSearch首字母缩写HITS算法是与查询相关的当用户提交一个查询请求时,HITS算法首先得到检索系统返回的相关页面,并依此为基础,从链入链接和链出链接两个角度扩展出两个页面集合,并计算页面的评级权威等级(Authorityranking)中心等级(Hubranking)HITS权威网页和中心网页一个有权威(Authority)的网页,意味着这个网页一定拥有数量众多的链入链接。有权威的网页会包含重要或者权威的信息,会得到许多外部网页的信赖和引用一个中心(Hub)的网页,意味着这个网页一定拥有数量众多的链出链接,这些链接分别指向不同的权威网页。一个中心网页作为某个特定话题的组织和集成者,它会指向许多和这个话题相关的权威网页。HITSHITS算法的核心思想是中心网页和权威网页之间存在互相促进的关系好的中心网页一定会有很多的链出链接指向好的权威网页好的权威网页也一定会包含很多好的中心网页的链入链接HITS当用户提交查询条件q之后,检索系统会检索到相关网页,并根据网页的相关性将检索结果排序。HITS算法一般选取排名在前200的网页,这些网页与查询条件q的相关性较高。这些网页所形成的集合称作为根基W。HITS对W进行扩展将指向W集内部的网页和W集所指向的外部网页加入W,形成扩充后的网页集合,在这里记为S,称作基集对于W中的每一个网页,为限制最终扩充形成的集合S的规模,HITS算法一般只需要将50个指向它的外部网页加入W中。HITS计算S中每个网页的权威分值和中心分值。假设待考察的网页数目为n,S所形成的有向图为G=(V,E),其中V是有向图的节点集合(网页集合),E是有向图中的有向边集合。假设L是有向图的邻接矩阵HITS每个网页都有一个权威分值a(i),也都有一个中心分值h(i)。按HITS算法的核心思想,这两种分值之间是相互促进的将所有网页的权威分值构成列向量a=(a(1),a(2),…,a(n))T,所有网页的中心分值构成列向量h=(h(1),h(2),…,h(n))THITSak和hk分别代表第k次迭代时的权威分值向量和中心分值向量,初始时,a0=h0=(1,1,1,…,1)T为保证迭代过程中权威向量和中心向量足够小,每一步迭代结束之后需要将这两个向量归一化,如果两次迭代之间的差异小于预设定的向量时,迭代停止。HITSHITS算法的优点根据用户搜索内容来计算网页的评级,能够提供更加相关的权威页面和中心页面抵御作弊能力较差HITS算法的不足网页可修改自身的链出链接而影响HITS算法的效果形成基集S时加入了大量的外部网页,可能会包含与搜索话题不相关的内容初始值敏感效率问题其他搜索结果排序方法相关性Apple按查询结果与查询条件的相关程度排序多样性查询结果之间差异性代表查询条件的多个方面代表性查询结果能够反映整个查询内容代表性信息提取现有查询结果排序方法难以满足代表性Top-kTop-k查询结果代表性信息代表性信息提取文本聚类将搜索结果划分成不同类别类内相似,类间不同每一类提取中心点作为该类搜索结果的代表元Doc.文本聚类代表性信息子集Doc.Doc.Doc.Doc.Doc.Doc.Doc.Doc.Doc.Doc.Doc.Doc.Doc.Doc.Doc.Doc.Doc.Doc.代表性信息提取提取中心点作为代表元在线商品评论提取Comprehensive提取结果的全面性,表达所有的featureCharacteristic不同的feature上用户表达的情感比例不同考虑时间、有用性六条评论,在三个特征上[f1+,f1-,f2+,f2-,f3+,f3-]的分布为[4/6,2/6,4/6,0/6,2/6,4/6],提取结果为{r4,r5,r6},它的分布为[2/3,1/3,2/3,0/3,1/3,2/3]信息检索测度查准率Precision查全率Recall平均查准率AveragePrecision查全率衡量检索出的文档中相关文档占所有相关文档的比例查全率反映查询结果中是否涵盖全部相关文档查全率越高,查询结果中相关文档的比例越高如果查全率为1,则该检索系统将所有与查询条件相关的文档均检索出来,这也是最为理想的情况查准率衡量检索出的文档中的相关文档占本次所有检索出文档的比例反映了检索的噪音情况查准率越高,查询结果中不相关文档比例越低查准率为1,说明本次检索结果中所有检出的文档均为相关文档,没有任何噪音查全率与查准率理想情况下查全率和查准率均越高越好事实上这两者在某些情况下是矛盾的一个将文档集合中所有文档返回为结果集合的系统有100%的查全率,但是查准率却很低如果一个系统只能返回唯一的文档,会有很低的查全率,但却可能有100%的查准率F-measure将查全率和查准率综合起来的一个评测指标查全率和查准率的调和平均F1-measure平均查准率在网络搜索中,系统会根据相似度以及其他指标给出一个文档的排名,因此也会有一些指标被用来评价相应的排名结果。给定一个文档集合D,D中所有文档数量为N。给出一个查询条件q,检索系统根据查询结果与查询条件之间的相似度分数,给出查询结果的排名情况Rq,这个排名情况如下所示:平均查准率可以对排序Rq中的每一个文档计算查全率和查准率第i个文档的查全率是从第1到第i个文档中相关文档数量在Rq中相关文档数量的占比排在第i位的文档的查准率是从第1到第i个文档中相关文档数量比上当前的位置数i平均查准率一个文档数据集D,包含18个文档。一个用户输入一个查询条件q,已知其中有9个文档是与查询条件q相关排名是否相关Precision(i)Recall(i)1是1/1=100%1/9=11%2是2/2=100%2/9=22%3是3/3=100%3/9=33%4是4/4=100%4/9=44%5是5/5=100%5/9=56%6是6/6=100%6/9=67%7否6/7=86%6/9=67%8是7/8=88%7/9=78%9否7/9=78%7/9=78%10否7/10=70%7/9=78%11是8/11=73%8/9=89%12是9/12=75%9/9=100%13否9/13=69%9/9=100%14否9/14=64%9/9=100%15否9/15=60%9/9=100%16否9/16=56%9/9=100%17否9/17=53%9/9=100%18否9/18=50%9/9=100%平均查准率在实际的网络查询中,查全率往往是很难计算的一种可行的方案为用户提供代表性查询结果大多数用户只会浏览查询结果的前十几条查全率对于网络检索的意义并不是很大代表性信息可以反映原始信息的大多数内容代表性信息本身的内容冗余比较小搜索引擎广告传统广告市场电视、广播、报纸、户外广告,……传统的媒体电视CNN,NBA,CCTV,……报纸人民日报,WallstreetJournal,……网络时代的第一代新媒体门户网站Sina,Yahoo,163,Sohu,AOL,MSN,……网络时代的第一代新媒体网络时代的第一代新媒体第一代媒体的主要创新开辟的新的媒体市场主要广告业
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 采购部门供货商遴选制度
- 采购销售售后管理制度
- 采购需求流程管理制度
- 采购预算计划编审制度
- 采购验收管理制度模板
- 金融行业采购管理制度
- 第7章 解答题书写步骤专练30道(必考点分类集训)(学生版)-人教版(2024)七下
- 6.3连乘、连除(课件)-2025-2026学年二年级上册数学青岛版
- 人教版小学语文一年级下册期末考试测试卷
- 《自然选择的证明》阅读专项练
- 烹饪化学基础知识考试题库(含答案)
- 园林绿化养护投标方案(技术标)
- 药品生物技术专业人才培养方案建设调研报告
- 木工三级安全教育
- AutoCAD2020教程课件完整版
- GB/T 4956-2003磁性基体上非磁性覆盖层覆盖层厚度测量磁性法
- GB 12476.5-2013可燃性粉尘环境用电气设备第5部分:外壳保护型“tD”
- 新编教育社会学课件
- 2022年海南省农垦投资控股集团有限公司招聘笔试试题及答案解析
- 自考《现代设计史》(05424)考试复习题库(汇总版)
- 陕西省科学技术奖提名通用项目汇总表
评论
0/150
提交评论