




已阅读5页,还剩159页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
信息内容安全 任延珍武汉大学计算机学院空天信息安全与可信计算教育部重点实验室 上节回顾 3 信息获取 信息分析 表示理解识别 信息管控 分级过滤阻断审计取证还原 被动主动 第二章网络信息内容获取技术 本讲提要 一 网络信息内容获取模型二 搜索引擎技术三 数据挖掘技术四 信息推荐技术五 信息还原技术 1 1互联网信息类型 网络信息发布形式 现代信息传播方法 网络信息量 截至2011年12月底 中国网站数量为230万 中国网页数量为866亿个 平均每个网站的网页数是5588个 平均每个网页的字节数是28 6KB 网络信息类型 网络媒体形态广播式媒体新闻网站 论坛 博客交互式媒体搜索引擎 多媒体点播 网上交友 网上招聘 电子商务 网络购物 网络信息类型 网络媒体信息 互联网网站公开发布的信息 网络用户通常可以基于通用网络浏览器获得互联网公开发布的信息 网络通信信息 除了使用浏览器之外的专业客户端软件 实现与特定点的通信或进行点对点通信时所交互的信息 网络信息类型 发布信息类型文本信息 比例最大图像信息音频信息视频信息 网络信息类型 媒体发布方式直接匿名浏览 公开发布信息需要身份认证的网络信息发布 网络信息类型 网页形态静态网页动态网页 含 或输入参数的URL 网络信息类型 信息交互协议网页浏览 HTTP文件传输 ftp电子邮件 foxmail outlook聊天工具 qq 微信 MSN多媒体交互工具 skype rtsp rtp 网络通信信息 专业客户端软件电子邮件 foxmail outlook聊天工具 qq 微信 MSN多媒体交互信息 skype 1 1网络信息内容获取模型 一 网络信息内容获取模型 图2 1网络环境下的信息内容获取模型 2 1网络信息内容获取模型 信息检索 InformationSearch IS 是信息的需求者主动地在网上搜寻所需要的信息 1951年 CalvinMooers首次提出了 信息检索 InformationRetrieval IR 概念 1 并给出了信息检索的主要任务 即协助信息的潜在用户将信息需求转换成一张文献来源信息列表 而这些文献包含对用户有用的信息 目前通常使用搜索引擎技术完成信息检索功能 2 1网络信息内容获取模型 信息推荐 Informationrecommendation 又称为信息推送 InformationPush 是指网络信息服务系统从网上的信息源或信息提供商获取信息 并通过固定的频道向用户发送信息的新型信息传播系统 2 1网络信息内容获取模型 信息交互是一种双向的信息交流 在信息交互的过程中 信息获取的个体可以通过所交流的信息满足认知上和情感上的信息需求 2 1网络信息内容获取模型 信息浏览方式相当于传统情况下的阅读 观看 倾听等获取信息的行为 1 2网络媒体信息获取原理 网络媒体信息获取原理 网络信息获取范围 理论上可以覆盖整个国际互联网 网络媒体信息获取理想流程 网上采集算法 网上采集算法 又称为网络爬虫 WebCrawler 网络蜘蛛 WebSpider 或Web信息采集器 是一个自动下载网页的计算机程序或自动化脚本 是搜索引擎的重要组成部分 1 3网络媒体信息获取的分类全网信息获取定点信息获取 1 全网信息获取 搜索引擎 大型内容服务提供商google百度Yahoo单次全网信息获取一般需要数周乃至数月时间网站提供Sitmap 提高搜索效率获取 显示 排名PageRank 2 定点信息获取 全网信息检索存储空间要求大 难以保障信息获取的时效性定点获取 重点关注的特定网络区域深入搜索定期轮询搜索 3 基于主题的信息获取和元搜索 元搜索引擎又称多搜索引擎 它可以同时查找多个单搜索引擎的www站点 按其搜索机制可分为并列式和串行式 并行式元搜索引擎指将查询要求同时发向各个独立的搜索引擎 然后将结果按特定的顺序提供给用户 串行式元搜索引擎 1 是将查询要求先发给某个独立的搜索引擎 待其返回结果再将请求发给另一个搜索引擎并行式元搜索引擎运行模式好 搜索时间短 国内元搜索引擎 搜魅网 someta 马虎聚搜 佐意综合搜索 chinazss 比比猫 bbmao 3 基于主题的信息获取和元搜索 高级检索功能 提高检索的质量使用布尔逻辑符检索最后更新页面 时间检索 域名过滤 DomainFilter 成人过滤 AdultFilter 语言选择 LanguageSelection 结果展示 ResultsDisplay 排序 网络媒体信息获取的技术难点 网络媒体信息 形态各异 信息类型多样 针对完全异构的网络媒体信息 对信息提取的全面性和时效性提出了更高的要求 拒绝服务 部分网络媒体选择屏蔽过于频繁的 来自相同客户端的信息获取操作 降低访问频率更换客户端信息 网络通信信息获取方案 网络通信 电子邮件 即时通信软件 金融客户端 视频点播信息获取过程网络通信信息镜像网络交互数据重组通信协议数据恢复网络通信信息存储 1 3网络通信信息获取原理 网络通信信息获取方案 网络通信信息获取流程 本讲提要 一 网络信息内容获取模型二 搜索引擎技术三 数据挖掘技术四 信息推荐技术五 信息还原技术 二 搜索引擎技术 据调查统计显示 全球以中文为母语的人口占总人口的22 以上 2011年底中国网民人数已经超过5亿人 中文网页数量已经占到了全球网页数量的15 以上 搜索引擎已成为中国网民使用最为频繁的互联网应用 庞大的中文用户群 丰富的中文网页资源和中文信息处理特有的难度 以及搜索引擎作为互联网基础工具的重要地位 极大地推动了中文搜索引擎的研究和开发 二 搜索引擎技术 中文搜索引擎的发展最早见于 748工程 中的汉字情报检索清华大学的 中国学术期刊 光盘版 2001年 百度搜索从2003年开始 中文网络信息服务的四大门户网站 新浪 搜狐 网易和腾讯 陆续推出了自己的搜索引擎服务 二 搜索引擎技术 中文搜索引擎的关键技术 网页内容分析网页索引查询解析相关性计算 二 搜索引擎技术 一个通用搜索引擎包括网上采集 索引 查询 排级和提交等算法 相关概念参见表2 1 本讲提要 一 网络信息内容获取模型二 搜索引擎技术2 2 1网上采集算法2 2 2排级算法2 2 3讨论搜索引擎与垃圾信息关系三 数据挖掘技术四 信息推荐技术五 信息还原技术 2 2 1网上采集算法 网上采集算法 又称为网络爬虫 WebCrawler 网络蜘蛛 WebSpider 或Web信息采集器 是一个自动下载网页的计算机程序或自动化脚本 是搜索引擎的重要组成部分 2 2 1网上采集算法 工作原理 2 2 1网上采集算法 按照系统结构和实现技术 大致可以分为以下几种类型 通用网络爬虫 GeneralPurposeWebCrawler 聚焦网络爬虫 FocusedWebCrawler 增量式网络爬虫 IncrementalWebCrawler 深层网络爬虫 DeepWebCrawler 实际的网络爬虫系统通常是几种爬虫技术相结合实现 网络媒体信息获取原理 1 初始URL集合2 信息获取3 信息解析4 信息叛重 2 2 1网上采集算法 爬虫算法 1 初始URL集合 跟随网页内嵌链接逐级递归便利互联网络 2 信息获取 根据来自网络地址集合或URL队列中的每条网络地址信息 确定获取内容所采用的信息发布协议 基于特定协议的网络交互机制 向信息发布网站请求所需内容 HTTP文本信息获取范例 随着信息媒体形态的增加 信息交互协议的增加 实现信息获取的操作复杂度和网络交互重构难度呈指数级增长 2 信息解析 根据不同通信协议的具体定义 从网络响应信息相应位置提取发布信息的主体内容信息关键字段信息来源信息标题信息失效时间信息最近修改时间 3 信息解析 HTTP HTML 4 信息判重 主要基于网络媒体信息URL与内容摘要两大元素 实现信息采集 存储的与否判断 URL判重 在信息采集操作启动之前进行是否已经采集是否已经过期内容摘要判重 采集信息存储时进行MD5 从爬虫的角度对互联网进行划分 爬虫URL抓取策略 深度优先遍历策略宽度优先遍历策略反向链接数策略PartialPageRank策略OPIC策略大站优先策略 深度优先遍历策略 指网络爬虫会从起始页开始 一个链接一个链接跟踪下去 处理完这条线路之后再转入下一个起始页 继续跟踪链接遍历的路径 A F GE H IBCD 宽度优先遍历策略 指网络爬虫会先抓取起始网页中链接的所有网页 然后再选择其中的一个链接网页 继续抓取在此网页中链接的所有网页 遍历路径 A B C D E FGHI 反向链接数策略 反向链接数 一个网页被其他网页链接指向的数量 反向链接数表示的是一个网页的内容受到其他人的推荐的程度 因此 很多时候搜索引擎的抓取系统会使用这个指标来评价网页的重要程度 从而决定不同网页的抓取先后顺序 在真实的网络环境中 由于广告链接 作弊链接的存在 反向链接数不能完全等同的重要程度 因此 搜索引擎往往考虑一些可靠的反向链接数 PartialPageRank策略 对于于已经下载的网页 连同待抓取URL队列中的URL 形成网页集合 计算每个页面的PageRank值 计算完之后 将待抓取URL队列中的URL按照PageRank值的大小排列 并按照该顺序抓取页面 OPIC策略 该算法实际上也是对页面进行一个重要性打分 在算法开始前 给所有页面一个相同的初始现金 cash 当下载了某个页面P之后 将P的现金分摊给所有从P中分析出的链接 并且将P的现金清空 对于待抓取URL队列中的所有页面按照现金数进行排序 大站优先策略 对于待抓取URL队列中的所有网页 根据所属的网站进行分类 对于待下载页面数多的网站 优先下载 2 2 1网上采集算法 推荐参考文档 数学之美 吴军 第9章图论与网络爬虫 本讲提要 一 网络信息内容获取模型二 搜索引擎技术2 2 1网上采集算法2 2 2排级算法2 2 3搜索引擎与垃圾信息关系三 数据挖掘技术四 信息推荐技术五 信息还原技术 2 2 2排级算法 网页排级是对搜索结果的分析 使那些更具 重要性 的网页在搜索结果中的排名获得提升 从而提高搜索结果的相关性和质量网页排级 网页的 重要性 网页普及度评分 2 2 2排级算法 两种应用最广 最成功的排级算法 HITS 2 2 2排级算法 PageRank 2 2 2排级算法 PageRank 原理 民主表决核心思想 在互联网上 如果一个网页被很多其它网页所链接 说明它受到普遍的承认和信赖 那么它的排名就高 2 2 2排级算法 PageRank 图的基本概念 度 degree 指和该顶点相关联的边数 在有向图中 度又分为入度和出度 入度 in degree 以某顶点为弧头 终止于该顶点的弧的数目称为该顶点的入度出度 out degree 以某顶点为弧头 起始于该顶点的弧的数目称为该顶点的出度在某顶点的入度和出度的和称为该顶点的度例如 a 中Vo的入度为1 出度为2 度为3 2 2 2排级算法 PageRank 2 2 2排级算法 PageRank 2 2 2排级算法 PageRank 入度 in degree 出度 out degree 页面t被访问到的概率 即其PageRank值 影响因子 dampingfactor 取 2 2 2排级算法 PageRank 网页数量过大问题的解决稀疏矩阵MapReduce 2 2 2排级算法 PageRank 优点 1 直接高效 2 主题集中PageRank算法存在的缺陷如下 1 完全忽略网页内容 干扰挖掘结果 2 结果范围窄 3 影响因子与网页获取数量缺乏科学性 PR PageRank 网页级别 PR外部链接的数量外部链接的质量 PR PageRank 网页级别 用来表现网页等级的一个标准 级别分别是0到10 是Google用于评测一个网页 重要性 的一种方法PR值越高说明该网页越受欢迎 越重要 例如 一个PR值为1的网站表明这个网站不太具有流行度 而PR值为7到10则表明这个网站非常受欢迎 或者说极其重要 一般PR值达到4 就算是一个不错的网站了 2 2 2排级算法 HITS HITS HITS Hyperlink InducedTopicSearch 算法是由康奈尔大学 CornellUniversity 的JonKleinberg博士于1997年首先提出的 为IBM公司阿尔马登研究中心 IBMAlmadenResearchCenter 的名为 CLEVER 的研究项目中的一部分 HITS算法是链接分析中非常基础且重要的算法 目前已被Teoma搜索引擎 作为链接分析算法在实际中使用 1 Hub页面与Authority页面 Hub页面 枢纽页面 和Authority页面 权威页面 是HITS算法最基本的两个定义 Authority 页面 是指与某个领域或者某个话题相关的高质量网页 比如搜索引擎领域 Google和百度首页即该领域的高质量网页 比如视频领域 优酷和土豆首页即该领域的高质量网页 1 Hub页面与Authority页面 Hub 页面 指的是包含了很多指向高质量 Authority 页面链接的网页 比如hao123首页可以认为是一个典型的高质量 Hub 网页 2 2 2排级算法 HITS 图2 4Hub页与Authority页关系 HITS Hyperlink InducedTopicSearch 核心概念 枢纽值 HubScores 页面上所有导出链接指向页面的权威值之和权威值 AuthorityScores 所有导入链接所在的页面的枢纽值之和这两个值是相互依存 相互影响的 2 2 2排级算法 HITS HITS算法的目的即是通过一定的技术手段 在海量网页中找到与用户查询主题相关的高质量 Authority 页面和 Hub 页面 尤其是 Authority 页面 因为这些页面代表了能够满足用户查询的高质量内容 搜索引擎以此作为搜索结果返回给用户 2 2 2排级算法 HITS 基本假设1 一个好的 Authority 页面会被很多好的 Hub 页面指向 基本假设2 一个好的 Hub 页面会指向很多好的 Authority 页面 算法基本思想 相互增强关系 2 2 2排级算法 HITS算法 具体算法 可利用以上两个基本假设 以及相互增强关系等原则进行多轮迭代计算 每轮迭代计算更新每个页面的两个权值 直到权值稳定不再发生明显的变化为止 2 2 2排级算法 HITS算法 1 构建根集合2 扩展集合Base 2 2 2排级算法 HITS算法 3 计算扩展集base中所有页面的Hub值 枢纽度 和Authority值 权威度 3 4排序 结果输出 优点 1 知识范围扩大 2 搜索时部分地考虑了页面内容 挖掘结果科学性大大增强不仅应用在搜索引擎领域 而且被 自然语言处理 以及 社交分析 等很多其它计算机领域借鉴使用 并取得了很好的应用效果 2 2 2排级算法 HITS 存在的问题 1 计算效率低 实时性差与查询相关的算法 2 主题漂移 3 易被作弊者操纵结果作弊者可以建立一个很好的Hub页面 再将这个网页链接指向作弊网页 可以提升作弊网页的Authority得分 4 结构不稳定在原有的 扩充网页集合 内 如果添加删除个别网页或者改变少数链接关系 则HITS算法的排名结果就会有非常大的改变 2 2 2排级算法 HITS HITS算法与PageRank算法比较 1 HITS算法是与用户输入的查询请求密切相关的 而PageRank与查询请求无关 所以 HITS算法可以单独作为相似性计算评价标准 而PageRank必须结合内容相似性计算才可以用来对网页相关性进行评价 2 HITS算法因为与用户查询密切相关 所以必须在接收到用户查询后实时进行计算 计算效率较低 而PageRank则可以在爬虫抓取完成后离线计算 在线直接使用计算结果 计算效率较高 HITS算法与PageRank算法比较 3 HITS算法的计算对象数量较少 只需计算扩展集合内网页之间的链接关系 而PageRank是全局性算法 对所有互联网页面节点进行处理 4 从两者的计算效率和处理对象集合大小来比较 PageRank更适合部署在服务器端 而HITS算法更适合部署在客户端 HITS算法与PageRank算法比较 5 HITS算法存在主题泛化问题 所以更适合处理具体化的用户查询 而PageRank在处理宽泛的用户查询时更有优势 6 HITS算法在计算时 对于每个页面需要计算两个分值 而PageRank只需计算一个分值即可 在搜索引擎领域 更重视HITS算法计算出的Authority权值 但是在很多应用HITS算法的其它领域 Hub分值也有很重要的作用 HITS算法与PageRank算法比较 7 从链接反作弊的角度来说 PageRank从机制上优于HITS算法 而HITS算法更易遭受链接作弊的影响 8 HITS算法结构不稳定 当对 扩充网页集合 内链接关系作出很小改变 则对最终排名有很大影响 而PageRank相对HITS而言表现稳定 其根本原因在于PageRank计算时的 远程跳转 网页排名 推荐参考文档 数学之美 吴军 第10章PageRank google的明主表决式网页排名技术 本讲提要 一 网络信息内容获取模型二 搜索引擎技术2 2 1网上采集算法2 2 2排级算法2 2 3搜索引擎与垃圾信息关系三 数据挖掘技术四 信息推荐技术五 信息还原技术 2 2 3搜索引擎与垃圾信息关系 2 2 3搜索引擎与垃圾信息关系 BernardJ Jansen和AmandaSpink的研究结果显示 大约80 的用户只需要搜索结果前3页 为了让广大的网络用户能够看到自己的页面 网站管理者和网页制作者就想方设法让其站点和页面变得有名 以期用户在进行相关内容查询时 目标网页排在结果集的最前面 为此 搜索引擎优化 SearchEngineOptimization 应运而生 2 2 3搜索引擎与垃圾信息关系 搜索引擎优化 SearchEngineOptimization 搜索引擎优化师 SearchEngineOptimizer SEOer 利用工具或其他手段 使目标网站符合搜索引擎的搜索规则 从而获得较好的排名 2 2 3搜索引擎与垃圾信息关系 2 2 3搜索引擎与垃圾信息关系 SEO可分为两类具有良好素养和道德观念的SEO 他们力图通过优化网站结构 提高页面质量等方法使自己的网页获得好的排名 通过寻找 捷径 提高网页的排名 往往是垃圾信息的制造者 2 2 3搜索引擎与垃圾信息关系 垃圾信息制造手段包括提高排名 Boosting 技术关键字垃圾 termspamming 链接垃圾 linkspamming 隐藏 Hiding 技术对所使用的Boosting技术进行隐藏 尽量不让用户和网络采集器发现主要技术包括内容隐藏 contenthiding 伪装 cloaking 和重定向 redirection 如何提高PR Google在网站抓取的页面数 数目越多 Pagerank值越高 但通常Google并不会主动抓取你的网站的所有页面 尤其是网址里带有 的动态链接 如何提高PR 最笨的办法是把网站所有的页面都提交给Google 更好的办法是制作一个静态Html页面 通常被称作 网站地图 或 网站导航 它里面包含你要添加的所有网址 然后把这个静态页面提交给Google 影响PR的因素 1与pr高的网站做链接2内容质量高的网站链接3加入搜索引擎分类目录4加入免费开源目录5你的链接出现在流量大 知名度高 频繁更新的重要网站上6google对PDF格式的文件比较看重7安装Google工具条8域名和title标题出现关键词与meta标签等9反向链接数量和反向链接的等级 提高PR的方法 1 增加网站内容质量 不仅要保持原创性 而且要保证质量 良好的内容不仅有利于用户体验 而且有助于提升搜索引擎对网站友好度 内容的收录和网站权重 2 登录搜索引擎和分类目录 以及友情链接 如果能获得来自PR值不低于4并与你的主题相关或互补的网站的友情链接 且很少导出链接 那样效果更好 3 写一些高质量的软文 发布到大型网站 如果得到大家的认可 你的网址会被无数的网站转载 这种方法对于提高PR值效果最好 4 搜索引擎收录一个网站的页面数量 如果收录的比例越高 对提高PR值越有利 提高PR的方法 5 提供有价值的网站内容 并进行SEO优化 对提高PR值也非常的重要 6 最好使网站被三大知名网络目录DMOZ Yahoo和Looksmart收录 如果能被收录 对PR值的提高非常的迅速 7 与高PR值网站链接 最好找同行业网站进行友情链接 其次要防止链接欺骗以及PR值劫持的网站 2 2 3搜索引擎与垃圾信息关系 搜索引擎和网络垃圾信息制造者之间的斗争像一场 军备竞赛 本讲提要 一 网络信息内容获取模型二 搜索引擎技术三 数据挖掘技术2 3 1数据挖掘技术历程2 3 2Web挖掘技术2 3 3Web文本挖掘技术四 信息推荐技术五 信息还原技术 2 3 1数据挖掘技术历程 1989年8月 IJCAI1989开展 在数据库中发现知识 KnowledgeDiscoveryinDatabase KDD 的研讨会 标志着数据挖掘成为一个新领域 1995年 美国计算机年会 ACM 提出了数据挖掘 DataMining DM 概念 2 3 1数据挖掘技术历程 数据挖掘 DataMining DM 概念 通过从数据库中抽取隐含的 未知的 具有潜在使用价值信息的过程 数据挖掘的对象早就不限于数据库 而可以是存放在任何地方的数据 包括互联网上的信息内容 2 3 1数据挖掘技术历程 数据挖掘技术统计分析类知识发现类其他数据挖掘技术Web数据挖掘分类系统可视化系统空间数据挖掘分布式数据挖掘 本讲提要 一 网络信息内容获取模型二 搜索引擎技术三 数据挖掘技术2 3 1数据挖掘技术历程2 3 2Web挖掘技术2 3 3Web文本挖掘技术四 信息推荐技术五 信息还原技术 2 3 2Web挖掘技术 Web挖掘技术网络知识发现 knowledgediscoveryinWeb KDW 涉及数据库 机器学习 统计学 模式识别 人工智能 计算机语言 计算机网络等多个领域从大量非结构化 异构的Web信息资源中发现兴趣性 interestingness 的知识 包括概念 模式 规则 规律 约束及可视化等形式的非平凡过程 2 3 2Web挖掘技术 Web挖掘过程 1 资源发现 2 信息选择与预处理 3 综合过程 4 分析过程 2 3 2Web挖掘技术 2 3 2Web挖掘技术 本讲提要 一 网络信息内容获取模型二 搜索引擎技术三 数据挖掘技术2 3 1数据挖掘技术历程2 3 2Web挖掘技术2 3 3Web文本挖掘技术四 信息推荐技术五 信息还原技术 2 3 3Web文本挖掘技术 Web文本挖掘技术从Web文档和Web活动中发现 抽取感兴趣的 潜在有用的模式和隐藏的信息的过程 Web文本挖掘与普通的平面文本挖掘既有类似之处 又有其自身的特点 每条记录包含字符少 而文本数量巨大BBS Weblog等形式的网页越来越多地出现了带有个人情感色彩的文章 言论大量不规范用语 网络流行语等 2 3 3Web文本挖掘技术 Web文本挖掘 定义指从大量文本的集合C中发现隐含的模式p 如果将C当作输入 p当作输出 那么Web文本挖掘的过程就是从输入到输出的一个映射 Web文本挖掘 过程 本讲提要 一 网络信息内容获取模型二 搜索引擎技术三 数据挖掘技术四 信息推荐技术2 4 1信息推荐概念和形式化定义2 4 2信息推荐算法五 信息还原技术 四 信息推荐技术 四 信息推荐技术 信息推荐与信息检索的区别 有什么重要的股市信息 有什么好的旅游景点 附近有什么好的餐厅 Alice 这么多商品信息 到底该买那个呢 这么多商品信息 到底该买那个呢 这么多商品信息 到底该买那个呢 有什么重要的股市信息 这么多商品信息 到底该买那个呢 有什么好的旅游景点 附近有什么好的餐厅 有什么好的旅游景点 这么多商品信息 到底该买那个呢 附近有什么好的餐厅 有什么好的旅游景点 有什么重要的股市信息 这么多商品信息 到底该买那个呢 附近有什么好的餐厅 有什么好的旅游景点 有什么重要的股市信息 这么多商品信息 到底该买那个呢 附近有什么好的餐厅 有什么重要的股市信息 这么多商品信息 到底该买那个呢 附近有什么好的餐厅 有什么重要的股市信息 这么多商品信息 到底该买那个呢 四 信息推荐技术 四 信息推荐技术 四 信息推荐技术 应用 本讲提要 一 网络信息内容获取模型二 搜索引擎技术三 数据挖掘技术四 信息推荐技术2 4 1信息推荐概念和形式化定义2 4 2信息推荐算法五 信息还原技术 2 4 1信息推荐概念和形式化定义 Resnick和Varian在1997年给出了信息推荐的非形式化定义 26 利用电子商务网站向客户提供商品信息和建议 帮助用户决定应购买什么产品 模拟销售人员帮助客户完成购买过程 2 4 1信息推荐概念和形式化定义 信息推荐有三个组成要素 推荐候选对象 用户 推荐方法 对象 用户 推荐算法 对象 对象 对象 对象 用户 用户 用户 用户 2 4 1信息推荐概念和形式化定义 信息推荐系统的形式化定义 设C是所有用户 user 的集合 S是所有可以推荐给用户的商品对象的集合 效用函数u 用以计算对象s对用户c的推荐度 如提供商的可靠性vendorreliability 和产品的可得性 productavailability 即R是一定范围内的全序的非负实数 信息推荐要研究的问题就是找到推荐度R最大的那些对象 即 2 4 2 4 1信息推荐概念和形式化定义 根据实际面对的问题不同 用户和对象的度量与采样可以使用不同的属性和特征 推荐算法研究的中心问题是效用度u的计算 并非遍历CXS的整个空间 而是分布到一个流形子空间 manifold 上 本讲提要 一 网络信息内容获取模型二 搜索引擎技术三 数据挖掘技术四 信息推荐技术2 4 1信息推荐概念和形式化定义2 4 2信息推荐算法五 信息还原技术 2 4 2信息推荐算法 信息推荐 content basedrecommendation根据用户已选择的对象 推荐其他类似属性的对象作为推荐 属于Schafer划分中的Item to ItemCorrelation方法 基于内容推荐 2 4 2信息推荐算法 对象内容特征 Content s 以对象的文字描述为主 用户的资料模型ContentBasedProfile c 取决于机器学习方法结合对象内容特征和用户资料模型 最终的效用函数定义如下 u c s score ContentBasedProfile c Content s Score的计算有不同的方法 例如可以使用向量夹角余弦的距离计算方法 最后得到的u数值用于排序对象 将最靠前的若干个对象推荐给用户 基于内容推荐 2 4 2信息推荐算法 信息推荐 collaborativefilteringrecommendation推荐相似用户所选择的对象是推荐系统中最为成功的技术之一 协同过滤推荐 2 4 2信息推荐算法 基本思路是 找到与当前用户相似的其他用户 计算对象s对于用户的效用值 利用效用值对所有s进行排序或者加权操作 找到最适合的对象 协同过滤推荐 四 信息推荐技术 2 4 2信息推荐算法 左图是根据客户在系统订单记录由系统采用某种算法推荐商品的一个实际结果图 2 4 2信息推荐算法 协同过滤推荐又可分为两类 启发式方法 heuristic basedormemory based 基于模型的方法 model based 协同过滤推荐 2 4 2信息推荐算法 基本思路是 使用与新用户c相似的用户c 对一个对象的评价来预测s对新用户c的效用 进而判断是否推荐s给c 启发式方法 2 4 2信息推荐算法 计算用户之间的相似度 对所有与用户相似的用户对对象的评分进行聚合计算 以得到对新用户的效用的统计预测方法 启发式方法 2 4 2信息推荐算法 2 8 2 9 2 10 启发式函数例子 2 4 2信息推荐算法 基本思路是 利用用户c对众多对象的评分来学习一个c的模型 然后使用概率方法对新的对象s的推荐效用进行预测 基于模型的方法 2 4 2信息推荐算法 信息推荐 基本原理 通过组合各种推荐技术 避免或弥补各推荐技术的弱点 提升推荐的效果 组合推荐 2 4 2信息推荐算法 组合推荐 后融合组合推荐 中融合组合推荐 前融合组合推荐 2 4 2信息推荐算法 基本思路 融合两种或两种以上的推荐方法各自产生的推荐结果 判断使用其中的哪个推荐结果更好 属于结果层次上的融合最简单的做法就是分别用基于内容的方法和协同过滤推荐方法产生一个推荐预测结果 然后用某种方法组合其结果 后融合组合推荐 2 4 2信息推荐算法 基本思路 以一种推荐方法为框架 融合另一种推荐方法 中融合组合推荐 基于内容推荐方法 协同过滤方法 协同过滤方法 基于内容方法 2 4 2信息推荐算法 基本思路 直接融合各种推荐方法 前融合组合推荐 推荐系统框架 协同过滤方法 基于内容方法 2 4 2信息推荐算法 例如 文献 31 将用户和对象的特征都放到一个统计模型中计算效用函数 研究者使用用户属性z 对象属性w及交互关系x来计算效用r 对象j对于用户i的效
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 证券投资顾问述职报告
- 2026届广东省梅州市梅江实验中学化学九上期中预测试题含解析
- 2026届山东省牡丹区胡集中学化学九上期中综合测试试题含解析
- 2026届云南省文山县九年级化学第一学期期中学业质量监测模拟试题含解析
- 物业工程维修培训
- 小米配件产品培训
- 房产中介个人年终总结
- 幼儿教育政策法规解读
- 广东省广州市黄埔区2026届九年级化学第一学期期中联考试题含解析
- 挂号收费年度工作总结
- 搅拌桩机使用说明书
- LY/T 1063-2008全国森林火险区划等级
- GB/T 4852-2002压敏胶粘带初粘性试验方法(滚球法)
- 2023年高考全国1卷理科数学和答案详解(word版本)
- GMP质量体系状态标志、标识编制及管理规程
- 情绪压力管理-情绪压力管理课件
- 万科物业管理服务工作手册
- 简单的电动车代理合同模板
- DDI辅导员工迈向成功-辅导领导力系列
- 竞选大学心理委员ppt模板
- 煤矿井筒装备安装方案
评论
0/150
提交评论