【《基于算法个性化新闻系统设计与实现》10000字(论文)】_第1页
【《基于算法个性化新闻系统设计与实现》10000字(论文)】_第2页
【《基于算法个性化新闻系统设计与实现》10000字(论文)】_第3页
【《基于算法个性化新闻系统设计与实现》10000字(论文)】_第4页
【《基于算法个性化新闻系统设计与实现》10000字(论文)】_第5页
已阅读5页,还剩16页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1-基于推荐算法个性化新闻推荐系统设计与实现摘要随着互联网的发展,人们获取信息的方式,产生了极大的改变,逐步改变了阅读纸质媒体的习惯,互联网成为了新闻信息的主要传播方式。互联网所容纳的信息量大、内容丰富、信息及时,同时为了满足人们各自兴趣如娱乐新闻,时政新闻等,互联网上产生了无数的信息来源。但与此同时,互联网上有太多的信息,阻止人们及时获得最重要和必要的信息。因此针对不同人群的个性化的新闻和推荐系统具有重要的应用价值。将通过爬虫获得的新闻标题和链接进行分类和去重,并结合推荐算法向用户推荐他们感兴趣的新闻。考虑到这一点,本论文将研究如何充分利用推荐系统向用户推荐他们需要的信息。关键词:个性化新闻推荐系统协同过滤python爬虫目录1绪论1研究背景及意义1研究现状1论文研究内容22个性化推荐系统综述32.1个性化推荐系统32.2推荐算法32.3推荐算法面临的问题和挑战82.4python爬虫技术83个性化推荐算法93.1个性化推荐算法93.2相似度计算方法9TopN推荐方法134系统的设计与实现144.1系统需求分析144.2系统总体设计144.3系统详细设计154.4功能界面展示16结论19参考文献201绪论1.1研究背景及意义当今社会,信息化发展越来越好,互联网网络等发展迅速,用户可以从各种各样的地方公众号、网站等来得到各种各样的信息。虽然,我们可以在互联网的各个地方查询到自己想要得到的信息。此时,如何从丰富多样的信息中准确、高效地找到并筛选出用户真正感兴趣的内容就变得越来越重要了。基于此背景,个性化推荐技术应运而生。用户在网站上可以进行如浏览,评论,点赞,购买等的行为,个性化推荐技术可以通过分析其在网站上的行为来得出该用户的兴趣偏好,然后就可以在网站中找到用户真正喜欢的内容,大大节约了用户找到自己感兴趣内容的时间和经历。1.2研究现状1.2.1国外研究现状Tapestry邮件系统是推荐系统历史上首次应用协同效率概念的系统,该概念是20世纪90年代由Goldberg等人提出的。该系统的目的根据用户阅读邮件的习惯来对用户的未读邮件进行整理,以此来提高用户阅读和处理邮件的效率,节省用户精力。Tapestry允许访客根据自己的喜好决定邮件的类型,并根据电子邮件卡等决定是否读取邮件。该系统不能根据公众的偏好推荐。虽然塔布斯特里技术有许多许多的缺点,但是最重要的作用给了我们一个解决此类问题的新想法。紧接着一个名为MovieLens视频推荐网站建立,使得推荐系统的发展进入了一个新的阶段,该网站让每一个用户对其在该网站上看过的视频都打一个分数,然后系统可以根据用户的评分向用户推荐其他的视频让用户观看。网络监控系统是自定义查询系统中最常见的系统,它首先询问用户的首选项和特性,然后向用户提供最感兴趣的链接。WebWatcher人员并不要求用户反映他们的偏好,而是一个改进的系统,它要求所访问的页面反映他们的偏好。以满足其潜在和真实需求,同时强调所建议的商业应用的价值。1.2.2国内研究现状豆瓣是我们国家第一个在系统中应用推荐系统的网站,在该网站用户可以对其在豆瓣网上看过的内容将那些评分。豆瓣网站可以根据用户对其网站上的内容的行为来判断用户是否喜欢该内容,同时还可以推测出用户真正感兴趣的东西。豆瓣就像是一个新的社区网站。评价某个内容的人数越多,其他还没有看过这个内容的用户就会有更大的概率看到这个内容,推荐的概率就会提高。百度新闻的新闻上的用户可以根据自己的兴趣,选择自己兴趣的新闻类型提交到系统中,系统则可以根据用户提交的新闻类型,向用户推荐最正确、个性化的新闻。今日头条,吸引眼球的2012年上市至今为止,头条新闻的加入人数超过5亿名,其对社交数据用户的挖掘,包括朋友关系,兴趣,历史记录的形成,随着使用者对分析模型,对使用者的兴趣的增加,用户对兴趣的地图也将发生变化。在对用户的浏览器、评论、收藏、转播等行为进行分析和学习后,结合用户的阅读位置、阅读时间、阅读习惯等,积累属性,完成用户模型,进一步净化推荐。1.3论文研究内容本文主要的工作内容是了解掌握python爬虫技术和个性化新闻推荐系统的设计与实现。主要研究了推荐算法的分类原理现状、python爬虫的基础理论并且可以熟练掌握,并将本论文的重点放在设计和实现个性化新闻推荐系统上面。(1)技术与理论基础研究对个性化推荐的相关概念、理论与技术进行研究,了解各个推荐算法的优点,缺点,原理,为后续工作奠定基础。研究并掌握python爬虫技术,了解爬虫背景,工作原理,并且可以熟练掌握。爬取新京报网站上的新闻数据并保存到文件中。(2)关键推荐技术的研究与推荐模型的设计通过对目前存在的个性化推荐技术进行比较、选择,采用协同过滤算法和基于内容的推荐算法进行融合。采用python爬虫技术来获得想要得到的新闻内容所在的网站的新闻数据,了解并采用协同过滤推荐算法和基于内容的推荐算法,并对其基本思想、实现算法等深入研究。2推荐系统综述2.1推荐系统概述研究推荐系统的目的主要是从互联网上越来越多的信息中快速准确的发现用户真正需要的内容。个性化的推荐系统与传统的搜索引擎之间有着十分巨大的差别,其中最根本的区别是,搜索是由用户来起决定性作用的。需要用户提出的明确要求。用户输入几组关键问题选择查询结果或根据选择的查询结果再次进行搜索等,主要关心的问题是查询结果之间的关系及查询结果的顺序。推荐是主导系统的行为,用户的要求可以说模棱两可。系统通过给提供给用户提供内容列表,来发现用户的需求,重点是发掘用户喜好,建立兴趣爱好模式。还有根据结果预测并推荐的对象。推荐系统主要由系统中的用户,待推荐给用户的内容和如何推荐这些内容算法组成。首先,根据用户对系统中内容的行为分析出用户的喜好,然后通过推荐算法推荐对象。由此可知推荐算法是整个推荐系统中最重要的一环。2.2推荐算法在整个推荐系统中,推荐算法选择的好坏起着十分巨大的作用。现在的推荐算法还不存在一个统一的分类标准,主流的推荐算法有如下几类:基于关联规则的推荐、基于内容的推荐、基于聚类的推荐、协同过滤推荐、基于知识的推荐以及对他们进行综合产生的组合推荐算法。本节将详细介绍其中的几种常用推荐算法。2.2.1基于关联规则的推荐算法关联规则算法(Rule-basedrecommendation)是所有的推荐算法中数据挖掘领域中重要的一个部分,它可以在众多数据中发现分析出物品和物品之间的关联规则。然而,基于规则的推荐方法有如下的缺点:随着推荐系统中物品越来越多,发现物品与物品之间的关联就会越来越困难,需要的分析也会越来越多;规则不能根据数据的变化而动态更新。随着系统的应用,物品与物品之间的关联的种类也会越来越多,推荐系统也会越来越复杂。还有就是随着物品的增加,物品的名称也会越来越相似,这推荐系统发现物品与物品之间的关联规则也会越来越困难。随着系统应用越来越广泛,系统中用户和内容的规模越来越大,推荐系统也会变得越来越复杂,推荐系统性能受到很大影响。还有就是系统中物品越来越多的时候,有着相似名称的物品也会越来越多,这时候利用基于关联规则的推荐算法的话,物品之间的关联规则就会越来越难发现,推荐系统性能大幅降低。2.2.2基于内容的推荐算法基于内容的推荐(Content-basedrecommendation)主要是根据用户在网站上的对系统中内容的行为来分析出用户偏好。基于内容的算法的优点如下。基于内容的推荐算法构建的推荐系统不会产生冷启动问题,主要是因为当系统上新时,系统就可以根据上新内容的特点将其推荐给系统中对其感兴趣的用户。基于内容推荐的算法还不会产生数据稀疏性问题,是因为该算法不会用到用户的评分数据。基于内容推荐的有以下缺点。当网站上的物品难以用准确的关键词来描述时,使用这种推荐算法的系统性能将会特别低。并且在该推荐系统得知用户的偏好之后就只会给用户推荐这一类或者几类东西。还有就是用户过系统中的内容即使产生了某种行为,也不能确定该内容是他感兴趣且符合其编号的内容,推荐质量堪忧。2.2.3基于人口统计信息的推荐算法基于人口统计信息的推荐是通过用户在系统上注册时提供的个人信息来对系统中的所有用户进行推荐,并且认为属于相同类的用户会有相似的兴趣偏好,以此来推荐。该算法不依赖于过去用户的记录,而是利用用户在加入时提交的个人信息来推荐,叫做人口统计信息(人口统计信息)。2.2.4协同过滤推荐算法协同过滤(Collaborativefiltering,CF)推荐算法是把具有相同偏好的用户作为一个集体,向该集体的其他用户推荐该用户的偏好。这种推荐算法可以向用户推荐其根本没有看过的东西,可以拓展用户偏好,发现用户潜在感兴趣的东西。协同过滤推荐算法主要有以下两大类。基于用户的协同过滤推荐算法,基于内容的协同过滤推荐算法。相似度计算在协同过滤算法中,相似度的计算方法有着举足轻重的地位。协同过滤算法主要有如下三种相似度计算方法。用户u和v的余弦相似度为: 公式1其中分别为用户u和用户v所对应的评分向量。两个项目的余弦相似度为:公式2其中分别为项目和项目所对应的评分向量。余弦相似度度有着计算十分简单的优点,主要是该方法把用户参与评价过的项目分数记成0分。由此这种相似度计算方法并不准确。但是由于各个用户都有自己独特的打分方式,因此该相似度计算方法也就并不准确。由此修正余弦相似度计算方法应运而生,该方法考虑到了用户独特打分方式的问题。代表用户和共同评价过的项目集,代表用户评价过的项目集,代表用户评价过的项目集;代表用户对项目a的评分,代表用户对项目a的评分;和分别代表用户和用户的对系统中评分过的内容的评分平均值。用户的修正余弦相似度的计算公式为:公式3两个项目的修正余弦相似度为 公式4皮尔逊相似度计算公式为: 公式5两个项目的皮尔逊相似度为: 公式评分预测和Top-N推荐用户可能对所有物品打分,评分预测简单来说就是根据用户在推荐系统中的打分习惯来估计其还没有评分过的内容,主要有三种方法。第一种方法为直接平均法。基于用户的预测评分公式为: 公式7其中为用户u对未打分项目的预估评分,为用户u的K个相似用户设物品的K个相似物品集合为,则用户u对未打分物品的预估评分为: 公式8第二种加权平均法,为用户u和用户v的相似度。 公式9基于物品的评分预测如下式,其中为物品和物品的相似度。 公式10第三种方法是用户评分偏移加权平均法。基于用户的评分预测如下式,其中为用户v评分平均值。 公式11基于物品的评分预测如下式,其中为用户评分平均值。 公式12Top-N推荐是根据与该用户有相似偏好的用户来预测的。用户对物品的兴趣公式为: 公式基于用户的协同过滤和基于项目的协同过滤对比一是基于用户的协同过滤算法反应的某一类人了能感兴趣的内容,以项目为基础的协同过滤计算法则可以根据用户的偏好个性化的推荐系统中的内容,发挥作用并且得到的仅仅是用户自己的偏好。从电子商务网站的情况看,如果购买有关挖掘资料的书籍,推荐学习机器的书籍是件好事,但推荐好的书籍并不适合自己。因此,电子商务领域更适合用基于项目的协同过滤算法来构建推荐系统进行商品推荐第二,以项目为基础的协同过滤算法,适用于物品相对固定的领域,而基于用户的协同过滤算法则适用于用户相对固定的领域。基于项目的协同过滤计算所有物品的相似度储存在数据库中,这里的计算量随着推荐系统的扩大就会变得越来越大,不适合更新。基于项目的协同过滤算法适合选择与物品相似的固定领域。例如,电子商务领域,随着购物者的急剧增加,商品的数量和种类是固定的。如果采用以项目为基础的协同过滤算法,相似度表的更新次数减少,而且还可以得到新加入网络购物中心的用户的推荐,可以缓和冷启动现象。基于用户的协同过滤算法适合个性化的新闻推荐领域,因为每一天都会有各种各样的新闻出现,前一天很多人关心的新闻,一天后又会出现大家都关注的新闻,所以每天都出现大量的新闻量,这时用户人数和关心相对固定。以用户基础协同过滤法在一定程度上缓解了新闻冷却现象,只要用户关注某个新闻,就可以根据该算法将其介绍给邻居。2.2.5混合推荐算法在实际应用中,无论是什么样的推荐技术,都会遇到各种问题。于是,一些研究者开始提出将两种及以上的推荐算法结合起来来做推荐系统,让他们可以取长补短,以提高推荐系统的性能和推荐质量,提高推荐结果的准确率。2.3推荐算法面临的问题与挑战随着推荐系统应用时间越来越长,我们也发现了协同过滤算法的不足。主要有如下问题2.3.1冷启动问题冷启动问题主要分为以下两大类问题。用户冷启动的问题如何让向一个刚进入系统的用户推荐系统中的内容。主要是因为一个新用户进入系统,没有用户对系统中内容的行为,无法分析出起的兴趣偏好,无法对该用户进行个性化推荐。项目冷启动问题是指如何把一个刚进入系统的内容推荐给可能对其产生兴趣的人。2.3.2数据稀疏性问题随着推荐系统中用户越来越多,内容越来越多,用户之间在选择内容的时候,选择相同内容的概率就会非常低。由此,数据稀疏性问题逐渐显现。2.3.3可扩展问题基于用户的协同过滤中用户相似度计算的时间复杂度为,其中为用户数,为每个用户平均所关注的项目数。随着推荐系统中用户的数量和用户的丰富,计算相似度也变得越来越困难。2.4python爬虫技术爬虫技术是一种可以获取网站上特定信息的一段程序。在本系统的设计和实现中,它主要负责爬取网站上的新闻,并将其分类并存储到本地文件中。3个性化推荐算法3.1个性化推荐算法一般来说,在推荐系统中,用户在网站上的行为有两种表现形式,即显示行为数据,通过用户对项目的评分来体现;隐式行为数据通过用户对项目的浏览等行为来体现。项目分数显示用户直接喜爱的事项的显示数据。隐式行为数据通过聊天工具、回帖、留言板等间接表现出关心。在个人化的新闻推荐领域,新闻较短,而且很少在使用者看完一篇报道后评分,因此,往往获得隐式行为数据,因此对信息的兴趣通过“隐匿新闻”数据表现出来。第二章的相似度度量方法有如下缺点:在某些情况下计算相似度不准确,还有某些情况相似度无法计算,还有第二章的计算相似度的方法不适用于集中数据等,由此得出,这种方法效果不理想。目前的相似度计算方法中,每个方法都存在数据稀疏性的缺点。数据稀缺性问题本质上是由于用户精力有限,不能阅读所有让用户感兴趣的新闻。新闻数虽然多了,但是可以根据自己的内容分类,各领域的总数也比较固定。因此可以将你的新闻兴趣转化为对新闻类型的兴趣。一般来说,两个人都浏览了两种不同的新闻,但在军事方面,两位报道在一定程度上说明了二人的相似性。因此,两个用户在数据稀少、无法计算用户间的相似度时,可以从新闻类别的角度发现用户的相似度,也可以提高计算准确度,最终提高推荐品质。本文的焦点是如何应用新的相似度的计算方法,解决个性化新闻推荐面临的数据稀疏性的缺点,提高新闻推荐质量。3.2相似度计算方法首先采用LDA主题模型训练新闻,得到新闻主题特征向量和用户主题特征向量,然后生成用户模型和新闻模型,接着根据本论文提出的相似度计算方法计算出用户间相似度和新闻间相似度,取出最相似的前K个用户作为用户的邻居,取出最相似前K个新闻作为新闻的邻居,然后将其推荐给用户。下面详细阐述相似度计算流程。3.2.1用户建模和新闻建模=1\*GB2⑴用户建模用户模型包括行为特征数据和内容特征数据两个部分。用户行为特征数据包括用户在设定时间段内产生的浏览、评论、点赞等行为新闻id和时间t,数学表示形式为: 公式14式中代表用户在时间对新闻产生了行为。内容特征数据为该用户在设定时间段内产生行为的所有新闻主题特征向量的算术平均值,即用户的主题特征向量,该值代表了用户行为在k个主题下的种分布情况,较好反映了用户的兴趣,数学表示形式为: 公式15式中是用户产生行为的新闻集合,为新闻集合对应的新闻主题特征向量集合,为新闻主题个数,自然数下标1是主题序号,为新闻的主题特征向量。=2\*GB2⑵新闻建模与用户模型类似,新闻模型包括两部分:行为特征数据和内容特征数据。行为特征数据为新闻在设定时间内被用户浏览、评论、发布的用户id和时间t数学表示形式为;内容特征数据为新闻的主题特征向量,假设训练新闻的主题个数为k,数学表示形式为。根据第二章提到的基于内容的推荐算法的优点,则可以在推荐系统中引入该算法,来解决协同过滤推荐系统的数据稀疏性问题。当用户在系统中的行为很少时,可能无法计算用户相似度。则可以从他们看过的内容在来计算内容以此来完成推荐。3.2.2用户相似度计算用户相似度计算主要计算用户的行为相似度和内容相似度。(1)行为相似度如3.2.1节所述,用户行为特征数据表示形式为(其中代表新闻特征数据,t代表时间特征数据)。用户和用户的Jaccard相似度为:公式16式中分别代表用户和用户产生行为的新闻集合。同时,考虑时间因素,如果两个不同的用户浏览评论某个新闻的时间相似,那么两个用户之间的相似性很大,这里采用形式。这样用户和用户的行为相似度计算公式为: 公式17式中,为用户u对新闻产生行为的时间,为用户v对新闻产生行为的时间。系数是相似度时间参数且。更进一步,由于网站中的热门榜单上的新闻对于用户相似度的贡献没有其他新闻对用户相似度的贡献大。例如,两个用户都看过关于疫情期间的新闻,很难说明其兴趣相似,因为很多用户都会关注重大新闻事件。另外,由于人气新闻对用户的相似性做出贡献大,所以热门榜单上的新闻对用户的相似性做出贡献的情况更多。例如两人都看过关于疫情发生时间的报道,很难认为有相似性。相反,如果两人都看到了“最近发展的推荐领域”的报道,就说明两人对推荐技术非常感兴趣,因此关注程度相差无几。因此可以对上述用户相似度公式中每个新闻赋予惩罚因子。其中,为对新闻产生行为的用户集合,也可称为该新闻的热度。在热门榜单越靠前位置的新闻,该新闻对用户间的相似度贡献越少,没有在热门榜单上的新闻,该新闻对用户间的相似度贡献越大。公式为即 公式18式中,表示对新闻产生行为的用户集合(2)内容相似度由于内容特征数据为向量表示形式,两个用户u和v的内容相似度,采用余弦相似度,公式为 公式19式中,分别为用户u和用户v的主题特征向量最终用户相似度为: 公式20式中,系数是通过多次实验才能确定的一个参数,其数值取值范围为[0,1],当为0时,相似度计算仅考虑内容特征数据,当为1时,相似度计算仅考虑行为特征数据。3.2.3新闻相似度计算与用户相似度计算类似,新闻相似度计算也是由行为相似度和内容相似度组成。下面详细阐述新闻相似度计算流程。I按照下述公式计算两篇新闻和j的行为相似度: 公式21式中和分别为对新闻和新闻产生行为的用户集合,为用户产生行为的新闻集合和分别为用户对新闻和用户u对新闻产生行为的时间,系数是相似度时间参数,与用户行为相似度公式中系数对应,其数值取值范围为[0,1],新闻行为相似度计算公式考虑了时间特征。II按照下述公式计算两篇新闻的内容相似度,即余弦相似度 公式22式中,和分别为新闻和新闻的主题特征向量。III这两篇新闻的最终新闻相似度计算公式为: 公式23式中,系数是由实验确定的加权因子,与用户行为相似度公式中系数对应,其数值取值范围为[0,1]。3.3Top-N推荐方法Top-N推荐有两种,一种是基于用户的推荐;另一种是基于项目的推荐。基于用户的个性化推荐:1)实际推荐系统中比较常用Top-N推荐。因为推荐给用户的新闻是否正确的判断标准是:用户是否喜欢,而不是其看完新闻后对该新闻的评分。本论文在传统Top-N推荐基础上加入时间特征,使得新闻推荐结果具有时效性。计算最近时间段内用户对其未产生行为的每篇新闻的偏好的公式为: 公式24式中,为用户的最相似的个用户集合,即用户的邻居,为对新闻产生行为的用户集合,两个用户和的最终用户相似度,为当前时间,为用户对新闻产生行为的时间,系数为推荐时间参数,其取值范围[0,1]。若邻居用户对新闻产生行为的时间越近,则用户对新闻的兴趣也就月浓厚,推荐给用户的可能性也就越来越高,也就是邻居用户最近产生行为的时间对用户推荐结果影响较大。2)根据最近时间段内设定用户对其未产生行为的新闻的感兴趣程度,再然后对这些新闻的感兴趣程度进行递减顺序存储在数据库中,再选取其中偏好值高的多个新闻作为用户基于用户的个性化新闻推荐列表。基于项目的个性化推荐1)计算最近时间段内用户对其未产生行为的每篇新闻的偏好值的公式为: 公式25式中为新闻的个相似新闻集合,即新闻的邻居,m(u)为用户u产生行为的新闻集合,新闻和新闻j的新闻相似度,1为当前时间,为用户u对第j篇新闻产生行为的时候的具体时间是什么时候,系数为推荐时间参数,与基于用户个性化推荐公式中相对应,其取值范围[0,1]。2)根据最近时间段内用户对其围在系统中产生行为的细纹的相似度进行计算,将其按照相似度递减的顺序进行排列。再选取其中偏好值高的多个新闻作为用户基于项目的个性化新闻推荐列表。4基于协同过滤的个性化新闻推荐系统的设计与实现4.1系统需求分析本系统的目标是可以将系统中符合用户偏好的内容推荐给用户,为此有以下几个方面需要着重考虑:准确性:推荐结果能满足用户偏好实时性:及时向用户推荐新闻新颖性:可以多向用户推荐一些其他类型的新闻高效性:能够满足多个用户同时在线的需要冷启动问题:要求系统可以改善冷启动问题4.2系统总体设计基于协同过滤的个性化新闻推荐系统要要是三个部分的功能,一个是数据库,一个是推荐部分,一个是网页部分,各个系统的主要功能如下:数据库部分主要是记录通过python爬虫技术爬取的网页上的新闻,记录用户的个人信息,还有就是记录用户在网页上进行的各种行为。推荐部分主要有基于用户的协同过滤和基于内容的推荐算法相结合的方式来构建推荐系统。网页部分则可以向用户展示系统界面。4.3系统详细设计4.2.1数据库设计数据库主要包括新闻表,用户表,日志表,个性化推荐表四个表新闻表主要包括新闻编号,新闻标题,网址链接,发布新闻时间,新闻分类,新闻正文,图片链接等信息。序号字段字段类型默认值允许空值是否主键外键1编号Idint(11)无否主键2标题Namevarchar(50)null是否3网址Sitevarchar(50)null是否4发布时间timetimestampCURRENT_TIMESTAMP否否5类型typeVarchar(10)null否否6正文contentVarchar(500)null否否7图片链接imgURLVarchar(100)null是否表新闻表用户表主要包括用户的编号,用户名称,登录密码,用户电话,性别的信息序号字段中文名字段英文名类型(宽度、精度)默认值允许空值是否主键/外键1用户名usernameint(11)无否主键2密码passwordvarchar(50)null是否3电话phonenumbervarchar(50)null是否4性别sexvarchar(50)null否否表用户表日志表存储用户的行为,主要是浏览,评论,点赞等行为。序号字段中文名字段英文名类型(宽度、精度)默认值允许空值是否主键/外键1记录编号Record_idvarchar(11)无否主键2用户编号User_idvarchar(50)null是否3新闻编号News_idvarchar(50)null是否4行为编号Event_idvarchar(50)null否否5记录时间Create_timeTimestampCURRENT_TIMESTAMP否否表日志表个性化推荐表由用户编号,推荐新闻编号,创建时间等信息。序号字段中文名字段英文名类型(宽度、精度)默认值允许空值是否主键/外键1用户标号Use_idvarchar(100)无否主键2新闻编号News_idvarchar(100)null否否3创建时间create_timetimestampCURRENT_TIMESTAMP否否个性化推荐表4.4功能界面展示4.3.1登录界面展示如果用户已经在系统中完成注册,输入用户注册的用户名和密码就可以进入推荐系统;若用户未注册,则通过点击界面的去注册按钮跳转到注册页面。登录界面如下图1所示:图1登录图注册界面如图2所示,主要包括用户名、用户设置的密码、用户真实姓名、性别、手机号等信息。点击注册按钮跳转到登陆界面。图2注册图4.3.2登录用户首页显示图3登录界面图4.3.3推荐新闻界面图4推荐新闻表结论随着信息化进程加快和互联网迅猛发展,互联网上的信息越来越多,如何获取用户真正感兴趣的信息成为了当今社会真正感兴趣的问题,并且亟待解决。个性化推荐技术应运而生,较好解决了上述问题,它根据用户历史行为记录,推测用户兴趣,进而推荐个性化信息。在诸多推荐方法中,协同过滤以其简单高效能够处理复杂数据,而得到广泛应用。本论文总结了个性化推荐技术研究现状,详细分析了协同过滤推荐技术的工作流程和瓶颈问题。再阅读文献和论文的基础上,采用了基于用户的协同过滤算法并穿插了基于内容的推荐算法来写此系统。数据稀疏性的问题得到了改善,但是本系统的新闻和用户个数都偏少,需要后续在更大规模的数据集上再来进行验证。参考文献1武建新,张志鸿.融合用户评分与显隐兴趣相似度的协同过滤推荐算法[J].计算机科学,,:1-9.2何婧,胡杰.融合矩阵

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论