




已阅读5页,还剩3页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
_基于内容的新闻推荐系统项目课题基于内容的新闻推荐系统功能描述 网络媒体中, 新闻资讯的数量以近乎爆炸的速度增长, 使广大网络新闻的读者受到“ 信息过载”和“ 信息迷航”问题的困扰 。个性化新闻推荐系统可以通过分析用户使用习惯, 识别用户兴趣点,将用户感兴趣 的新 闻资讯推荐给用户 , 过滤他们不感兴趣的内容 ,而我所作的这个推荐推荐系统就是为了有效地缓解上述问题。 基于内容的新闻推荐系统:它将计算得到并推荐给用户一些与该用户已选择过的项目相似的内容。例如,当你在网上看新闻时,你总是阅读与IT相关的文章,那么基于内容的新闻推荐系统就会给你推荐一些热门的IT方面的文章。 方法描述基于内容的推荐(Content-based Recommendation)是建立在项目的内容信息上作出推荐的,而不需要依据用户对项目的评价意见,更多地需要用机器学习的方法从关于内容的特征描述的事例中得到用户的兴趣资料。 内容过滤主要采用自然语言处理、人工智能、概率统计和机器学习等技术进行过滤。通过相关特征的属性来定义项目或对象,系统基于用户评价对象的特征学习用户的兴趣,依据用户资料与待预测项目的匹配程度进行推荐,努力向客户推荐与其以前喜欢的产品相似的产品。在基于内容的推荐系统中,项目或对象是通过相关的特征的属性来定义,系统基于用户评价对象的特征,学习用户的兴趣,考察用户资料与待预测项目的相匹配程度。用户的资料模型取决于所用学习方法,常用的有决策树、神经网络和基于向量的表示方法等。基于内容的用户资料是需要有用户的历史数据,用户资料模型可能随着用户的偏好改变而发生变化。要实现内容推荐系统总体来说要经过4个大的步骤: 1、搜集数据,2、过滤数据,3、分析数据,4 输出结果。 技术难点难点1:如何实现新闻正文的过滤下载。难点2:如何对新闻进行量化,并提取出关键词,最后完成数学建模。难点3:如何利用基于内容的推荐技术为每个用户建立用户模型。 难点4:如何用编程语言实现这些软件功能,这便是该软件设计过程中最最困难的一个难题。 一般在一个个性化推荐系统中,用户对已经看过的对象依据感兴趣程度进行评分,推荐系统根据用户对已查看对象的评分情况,预测用户对未查看对象的评分,并将用户未查看对象按照预测评分的高低排序,呈现给用户。抽象地看,推荐系统是预测用户对未查看对象评分的系统。而推荐系统对未查看对象的评分方法即为推荐算法。而主要的推荐算法有三类:、协同过滤的推荐方法、基于内容的推荐方法、混合的推荐方法。、协同过滤是利用集体智慧的一个典型方法。 协同过滤一般是在海量的用户中发掘出一小部分和你品位比较类似的,在协同过滤中,这些用户成为邻居,然后根据他们喜欢的其他东西组织成一个排序的目录作为推荐给你。 比如说,如果你现在想看个电影,但你不知道具体看哪部,你会怎么做?大部分的人会问问周围的朋友,看看最近有什么好看的电影推荐,而我们一般更倾向于从口味比较类似的朋友那里得到推荐。这就是协同过滤的核心思想。 协同过滤相对于集体智慧而言,它从一定程度上保留了个体的特征,就是你的品位偏好,所以它更多可以作为个性化推荐的算法思想。二、协同过滤的实现步骤:1)、收集用户偏好 而要从用户的行为和偏好中发现规律,并基于此给予推荐,如何收集用户的偏好信息成为系统推荐效果最基础的决定因素。用户有很多方式向系统提供自己的偏好信息,而且不同的应用也可能大不相同,比如说:用户行为类型作用评分显式通过用户对物品的评分,可以精确的得到用户的偏好投票显式通过用户对物品的投票,可以较精确的得到用户的偏好转发显式通过用户对物品的投票,可以精确的得到用户的偏好。如果是站内,同时可以推理得到被转发人的偏好(不精确)保存书签显示通过用户对物品的投票,可以精确的得到用户的偏好。标记标签显示通过分析用户的标签,可以得到用户对项目的理解,同时可以分析出用户的情感:喜欢还是讨厌评论显示通过分析用户的评论,可以得到用户的情感:喜欢还是讨厌2)、找到相似的用户或物品 当已经对用户行为进行分析得到用户喜好后,我们可以根据用户喜好计算相似用户和物品,然后基于相似物品进行推荐,这就是最典型的 CF 的分支之一基于物品的 CF。3)、计算推荐基于物品的 CF 比如说,对于物品 A,根据所有用户的历史偏好,喜欢物品 A 的用户都喜欢物品 C,得出物品 A 和物品 C 比较相似,而用户 C 喜欢物品 A,那么可以推断出用户 C 可能也喜欢物品 C。 物品 C 比较相似,而用户 C 喜欢物品 A,那么可以推断出用户 C 可能也喜欢物品 C。基于物品的 CF 的基本原理 、基于内容的推荐方法 它是将与用户过去感兴趣的对象相似的对象推荐给用户,该方法是对协同过滤的延续和发展,主要借鉴了信息抽取和信息过滤的研究成果,依据被推荐项目的内容特征来进行推荐。、混合的推荐方法。 它则是以上两种方法的综合体。 可见,要想做一个个性化的新闻推荐系统,最理想的是运用协同过滤推荐方法。 但是, 智能推荐大都基于海量数据的计算和处理,然而在海量数据上高效的运行协同过滤算法以及其他推荐策略这样高复杂的算法是有很大的挑战的。 相对于智能推荐,只要求实现基本的推荐功能的新闻推荐系统来说,基于内容的推荐方法比较合适。在使用该方法的系统中,被推荐对象使用其内容的特征进行表示,推荐系统通过学习用户的兴趣,将用户模型与被推荐对象进行相似度比较来实现特征提取。而文本类的内容,其特征相对来说较易提取,而且最为普遍的网络新闻正是文本新闻。所以,在文本要描述的网络新闻系统中,采用基于内容的推荐方法,效果相对较为显著。 基于内容推荐机制的基本原理 首先我们需要对新闻的元数据有一个建模,这里只简单的描述了一下新闻的类型;然后通过新闻的元数据发现新闻间的相似度,因为类型都是“文化,科教”新闻 A 和 C 被认为是相似的新闻;最后实现推荐,对于用户 A,他喜欢看新闻 A,那么系统就可以给他推荐类似的新闻 C。 这种基于内容的推荐机制的好处在于它能很好的建模用户的口味,能提供更加精确的推荐。但它也存在以下几个问题:1 需要对物品进行分析和建模,推荐的质量依赖于对物品模型的完整和全面程度。在现在的应用中我们可以观察到关键词和标签(Tag)被认为是描述物品元数据的一种简单有效的方法。2 物品相似度的分析仅仅依赖于物品本身的特征,这里没有考虑人对物品的态度。3 因为需要基于用户以往的喜好历史做出推荐,所以对于新用户有“冷启动”的问题。 新闻推荐系统结构图新闻采集模块: 主要负责从互联网上采集新闻资讯信息,主要以国内知名新闻门户类网站作为其新闻源。比如说:搜狐、新浪、新华网、凤凰网等。在本项目中仅以凤凰网作为新闻源。它采集到新闻后,将正文内容从页面中提取出来,保存到数据库中。作为一个比较实用的新闻推荐系统,就因该保持推荐的新闻的新,亦即在此模块还应该负责管理系统中活跃的新闻,若某一新闻的发布时间超过一定的时效则视为过期,并标记为已归档,而不会出现在以后的推荐列表中。新闻推荐模块: 主要负责响应用户请求,生成新闻推荐列表,并将列表返回给用户。在改模块中使用的算法便是基于内容的推荐算法,此外,在推荐结果中,还会将最新的新闻整合到推荐列表中,因为最新的新闻是依据时间排序的,而内容具有随机性。资源调度模块: 主要负责监控系统当前负载情况,按照算法调整新闻数据保持的时间时效,从而保证新闻的实时性,并控制新闻的数量;此外还要调用推荐算法进行计算和关于相似度的计算。 用户在浏览新闻的过程中,其使用习惯主要包括使用时间、阅读的新闻分类(国际、社会、科教、IT、医疗等等)、每天新闻阅读时间和次数等等信息,而这些信息都应该呗记录到用户数据库。然后,由用户建模模块进行数据分析,并最终生成用户模型保存在用户模型数据库中。 该模块还必须定时运行,从而不断更新用户模型,从而使得用的兴趣转移能够实时反映到用户模型中。 监视系统资源,根据负载情况实时调整计算资源的分配,从而保持系统稳定的响应时间。 对于用
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025云南昆明西山英才教育培训学校招聘30人备考考试题库附答案解析
- 2025年蚌埠市梅桥中学劳务派遣教师招聘(第四批)备考考试题库附答案解析
- 2025四川省红十字基金会招聘1人备考考试题库附答案解析
- 2025浙江绍兴市人民检察院 绍兴市司法局市级人民监督员选任75人笔试备考题库及答案解析
- 2025年新昌县总工会公开招聘工会社会工作者1人备考考试题库附答案解析
- 四川纵连横建设工程检测有限公司公开招聘工作人员考试参考试题及答案解析
- 2025江西吉安市青原区两山发展集团有限公司及下属子公司面向社会招聘32人备考考试题库附答案解析
- 2025版胆结石症状诊断及护理要点
- 游戏业界全景剖析
- 微纳机器人装配-洞察及研究
- 2023年重庆市大渡口区春晖路街道阳光社区工作人员考试模拟试题及答案
- 全国各大媒体的报料热线电话号码
- 数控heidenhain说明书TNC直接提供两种加工孔模板的循环
- GB/T 42453-2023信息安全技术网络安全态势感知通用技术要求
- JJG 860-2015压力传感器(静态)
- GB/T 22231-2008颗粒物粒度分布/纤维长度和直径分布
- GB/T 18253-2000钢及钢产品检验文件的类型
- GB 5009.3-2016食品安全国家标准食品中水分的测定
- 液化气站安全生产目标考核与奖惩记录
- 高中生励志奋斗与梦想课件
- 《中职地理》配套教学课件
评论
0/150
提交评论