




已阅读5页,还剩3页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基于贝叶斯网络的电影评级预测童燕翔(南京航空航天大学 计算机科学与技术学院,南京 210016)摘要在日常生活中,人们经常去看电影. 但不同的人喜欢的类型不一样,有人喜欢战争片,有人喜欢艺术片,有人喜欢爱情片等等.本论文利用贝叶斯网络算法预测某个用户对某个电影的评级分数。关键字 推荐系统,贝叶斯网络,电影评级 中图法分类号 TP391 文献标识码 AMovie Rating Prediction Based on Bayesian NetworkYanxiang Tong Computer Science and Technology, Nanjing University of Aeronautics and Astronautics,Nanjing,ChinaAbstractIn daily life, people often go to see the movies, but different people like different types, some people like watching war movies, some people like art films, some like romance, etc. In this paper, we may predict the rating for a movie of a certain user by using Bayesian network algorithm.Keywords recommendation system, Bayesian network, movie rating1引言在挑选电影的时候,我们经常会感到不知所措。很多时候,我们都会参考专业电影影评网站给的评分来选择电影,如豆瓣,通过对电影的评分,类型等的搜索,这些网站就会给你推荐一些你可能会喜欢的电影。本论文就是选取了网络中的电影数据,通过贝叶斯网络达到预测电影评级分数的目的,从而更好的为观影人推荐适合的电影。1.1 数据集683个用户,1682部电影,数据集共有100,000 个评级信息,评级分为1-5(颗星) ;每个用户有5个属性,每部电影有24个属性。(用户文件u.user, 电影文件u.item)。训练集格式(90000):user id | item id | rating,其中user id 范围为 1 到 943 ,item id 范围为 1 到 1682,评价以星等(1至5)來表示。测试集格式(10000):user id | item id,其中user id 范围为 1 到 943 ,item id 范围为 1 到 1682,没有评价 用户属性:user id | age | gender | occupation | zip code 电影属性:movie id | movie title | release date | video release date | IMDb URL | unknown | Action | Adventure | Animation | Childrens | Comedy | Crime | Documentary | Drama | Fantasy | Film-Noir | Horror | Musical | Mystery | Romance | Sci-Fi |Thriller | War | Western | 2数据预处理我们运用Weka做预测分析,而提供的数据集不符合数据格式要求,所有我们必须对原数据做预处理。步骤如下:1) 将源数据集user,item,train,test用UtraEdit打开,搜索所有的”|”和“|”,将它们替换为“,”,然后将文件另存为CVS文件。2) 将四个CVS文件另存为XLS文件,利用网站程序将四个文件XLS文件上传到SQL Sever2005数据库中。3) 利用数据库的查询语句,将train、test的id与另外两个的文件相互连接生成新的两个train和test的XLS文件。然后在把生成的train_combine.xls和test_combine.xls另存为CSV文件。4) 然后利用Weka将CVS文件转化为ARFF文件,除去不需要的属性,并将数据集的属性离散化。5) 将train_combine.cvs和test_combine.cvs合并为data.cvs,将它导入到Weka中转为ARFF文件,将该文件的文件头分别替换train_combine.cvs和test_combine.cvs。这样做事保证训练集和测试集的属性设置保持一致。最后选用的属性集如下表所示:属性名Weka类型userIdnominalitemIdnominalAgeNominalGendernominalOccupationnominalunknownnominalActionnominalAdventurenominalAnimationnominalChildrennominalComedynominalCrimenominalDocumentarynominalDramanominalFantasynominalFilm-NoirnominalHorrornominalMusicalnominalMysterynominalRomancenominalSci-FinominalThrillernominalWarnominalWesternnominal3贝叶斯网络分类器贝叶斯网络是一个带有概率注释的有向无环图,图中的每一个结点均表示一个随机变量,图中两结点间若存在着一条弧,则表示这两结点相对应的随机变量是概率相依的,反之则说明这两个随机变量是条件独立的。网络中任意一个结点X 均有一个相应的条件概率表(Conditional Probability Table,CPT),用以表示结点X 在其父结点取各可能值时的条件概率。若结点X 无父结点,则X 的CPT 为其先验概率分布。贝叶斯网络的结构及各结点的CPT 定义了网络中各变量的概率分布。贝叶斯分类器是用于分类的贝叶斯网络。该网络中应包含类结点C,其中C 的取值来自于类集合( c1 , c2 , . , cm),还包含一组结点X = ( X1 , X2 , . , Xn),表示用于分类的特征。对于贝叶斯网络分类器,若某一待分类的样本D,其分类特征值为x = ( x1 , x2 , . , x n) ,则样本D 属于类别ci 的概率P( C = ci | X1 = x1 , X2 = x 2 , . , Xn = x n) ,( i = 1 ,2 , . , m) 应满足下式:P( C = ci | X = x) = Max P( C = c1 | X = x) , P( C = c2 | X = x ) , . , P( C = cm | X = x ) 而由贝叶斯公式:P( C = ci | X = x) = P( X = x | C = ci) * P( C = ci) / P( X = x)其中,P( C = ci) 可由领域专家的经验得到,而P( X = x | C = ci) 和P( X = x) 的计算则较困难。应用贝叶斯网络分类器进行分类主要分成两阶段。第一阶段是贝叶斯网络分类器的学习,即从样本数据中构造分类器,包括结构学习和CPT 学习;第二阶段是贝叶斯网络分类器的推理,即计算类结点的条件概率,对分类数据进行分类。这两个阶段的时间复杂性均取决于特征值间的依赖程度,甚至可以是NP 完全问题,因而在实际应用中,往往需要对贝叶斯网络分类器进行简化。根据对特征值间不同关联程度的假设,可以得出各种贝叶斯分类器,Naive Bayes、TAN、BAN、GBN 就是其中较典型、研究较深入的贝叶斯分类器。4 试验过程和结果4.1 数据上传和查询连接利用网站,通过网页操作将四个数据集导入到数据库中,如下图1所示:在本地选择所要上传的XLS文件,然后点击“upload”实现上传,“Delete”可以轻松实现将刚才上传的表格进行删除,从而减少对数据库的操作。图1 数据集上传系统如图2所示为将数据集导入到数据库中形成四张相应的表,对这四个表进行查询就可以实现将所有需要的属性依据train文件和test文件的userId、itemId相链接。查询语句如下:-train resultselect train.userId,train.itemId,rating,age,gender,occupation,zipCode,movieTitle,unknown,action,adventure,animation,childer,comedy,crime,documentary,drama,fantasy,filmNoir,horror,musical,mystery,romance,sciFi,thriller,war,western from train left join users on train.userId=users.userIdleft join item on train.itemId=item.movieId-test resultselect test.userId,test.itemId,age,gender,occupation,zipCode,movieTitle,unknown,action,adventure,animation,childer,comedy,crime,documentary,drama,fantasy,filmNoir,horror,musical,mystery,romance,sciFi,thriller,war,western from test left join users on test.userId=users.userIdleft join item on test.itemId=item.movieId查询结果见图2。图2 在数据里建立表格图3 查询实现表格链接4.2 利用weka进行预测电影有五个评分等级,在Weka中,我们把电影的rating分成5类,这样预测电影评分等级就转化为了电影评评分分类预测。然后利用Weka中贝叶斯网络分类器进行分类。因为测试数据集并没有给出rating的值,所有我们当其为缺省值,一般结果显示时为“?”,也因此我们无法得出MSE5 总结本文主要利用贝叶斯网络对所有的属性进行建模,从而预测测试集的电影评分等级。因为没有原分类结果进行比较,所以无法比较出该方法的可靠性。在进行实验的时候也发现其他的可利用的方法。Bayesian 网络技术利用训练集创建相应的模型,模型用决策树表示,节点和边表示用户信息,训练得到的模型非常小,所以对模型的应用非常快,这种方法适合于用户的兴趣爱好变化比较场合。聚类技术具有相似兴趣爱好的用户分配到相同的簇中,聚类产生之后,根据簇中其他用户对商品的评价预测目标用户对商品的评价,由于聚类过程离线进行,所以在线的推荐算法产生推荐的速度比较快。关联规则技术在零售业得到了广泛的应用,关联规则挖掘可以发现不同商品在销售过程中的相关性,基于关联规则的推荐算法根据生成的关联规则模型和用户当前的购买行为产生推荐,关联规则模型的生成可以离线进行,因此可以保证有效地推荐系统的实时性要求。基于以上的了解,本文所提出的方法还有待改进和优化。致谢非常感谢在试验的过程中同学们给予的帮助。参考文献1 Breese J, Hecherman D, Kadie C. Empirical analysis of predictive algorithms for collaborative filtering. In: Proceedings of the 14th Conference on Uncertainty in Artificial Intelligence(UAI98). 1998.43-52.2Goldberg D,Nichols D,Oki BM, Terry D. Using collaborative filtering to weave an information tapestry. Communication of the ACM. 1992.35(12):61-70.3 Resnick P, Iacovou N, Suchak M, Bergstrom P, Riedl J. Grouplens: An open architecture for collaborative filtering of netnews. In:Proceeding of the ACM CSCW94 Conference on computer-Supported Cooperative Work 1994.175-186.4 Shardanand U, Maes P. Social information filtering: Algorithms for automating “Word of Mouth”. In: Pro
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年安全生产知识重点题及解析
- 2025年数字孪生应用技术员初级面试预测题
- 2025年安全检查表考试题及答案
- 2025年客户服务团队负责人面试题及解答指南
- 2025年旅游行业市场营销经理招聘面试预测题集
- 2025年质量检验员考试题及答案
- 2025年无人机巡检港口航道笔试题库大全
- 2025年宠物宠物行为分析师中级模拟试卷
- 2025年金融工程师专业技术资格考试试题及答案解析
- 2025年建筑材料工程师资格考试试题及答案解析
- 《MATLAB数值计算基础与实例教程 》课件-第10章 其他数值计算的优化问题
- 【完整版】2025年二级建造师《建筑实务》考试真题及答案
- 水库维修承包合同协议书范本
- 2025年浙江省中考英语真题(解析版)
- 2025年广西中考道法真题卷含答案解析
- 2025年国企中层干部竞聘笔试题及答案
- 华师大版(新)七年级上册数学全册教案(教学设计)及教学反思
- 二级医院评审自评自查表
- 工程罚款通知单模版
- 多联体筒仓滑模施工技术分享
- T∕CGMA 033002-2020 压缩空气站节能设计指南
评论
0/150
提交评论