版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
01目录CONTENTS案例数据集介绍及常见预处理02推荐系统所用库03数据加载04数据划分案例数据集介绍及常见预处理1PartMinimalistwindAIMovieLens是一个基于Web的研究型推荐系统,从1997年秋季开始运行,用于接收用户对电影项目的评分,并提供相应的电影推荐列表。MovieLens数据集通过MovieLens网站,从1997年9月19日到1998年4月22日,共汇总了来自943个用户对1682部电影的100000个评分。案例数据集介绍及常见预处理1.MovieLens数据集介绍MinimalistwindAI本案例主要使用其中的ml-100k数据集。主要用到三个部分:u.data(评分)u.item(电影信息)u.user(用户信息)案例数据集介绍及常见预处理1.MovieLens数据集介绍图MovieLens数据集文件目录情况MinimalistwindAI由于案例使用的数据集是经过预处理过的,我们可以直接拿来使用,但事实上,我们一般拿到的数据都是原始数据,可能会遇到异常数据、缺失值、噪声值等一些情况,这时候就需要对这些数据进行处理,否则就会降低后期训练模型的精度。案例数据集介绍及常见预处理2.数据完整性不足及一般应对方法MinimalistwindAI常见的缺失值处理方法包括(但不局限于):案例数据集介绍及常见预处理2.数据完整性不足及一般应对方法忽略数据人工填写缺失值使用全局固定值填充使用属性的中心度量(如均值、中位数)进行填充使用与给定元组属于同一类的所有样本的属性均值或中位数填充使用回归、决策树等工具进行推理推荐系统所用库2PartMinimalistwindAISurprise(SimplePythonRecommendationSystemEngine)是一款推荐系统库,是scikit系列中的一个。简单易用,同时支持多种推荐算法(基础算法、协同过滤、矩阵分解等)。推荐系统所用库推荐系统所用库Surprise库如何安装?一般情况可以直接用:建议使用Anaconda的方式安装:数据加载3PartMinimalistwindAI数据加载,由Reader和Dataset两个类来提供功能,具体的思路是由Reader提供读取数据的格式,然后Dataset按照Reader的设置来完成对数据的载入。数据加载Reader类和Dataset类数据加载代码实现代码解析:01行:从Surprise库中导入Dataset和Reader两个包。02行:解析数据。其中,line_format:定义每行格式,默认空格分割;sep:设置分隔符。03行:加载数据。数据划分Part4数据划分在机器学习中,通常将数据集划分为训练数据集、验证数据集和测试数据集。它们的功能分别为:训练数据集(TrainDataset):用来构建机器学习模型。验证数据集(ValidationDataset):辅助构建模型,用于在构建过程中评估模型,为模型提供无偏估计,进而调整模型的超参数。测试数据集(TestDataset):评估训练完成的最终模型的性能。1.数据划分原理图三类数据集在模型训练和评估过程中的使用顺序数据划分常见数据集划分方法:留出法1.数据划分原理K-折交叉验证法自助法数据划分train_test_split()函数是交叉验证中常用的函数,其功能是用来随机划分样本数据为训练集和测试集的,当然也可以人为的切片划分。因此我们可以看出,train_test_split()函数的优点就是随机客观的划分数据,减少人为因素。2.train_test_split()函数数据划分3.代码实现代码解析:01行:从surprise.model_selection中导入划分数据集函数train_test_split()。02行:划分训练集和测
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2023年母婴保健助产技术考试考点速记配套试题及对应答案
- 2021教科版三年级科学第二单元《水》期中模拟卷 尖子生满分冲刺专用
- 2024安平志臻小升初历年真题+押题卷答案解析
- 华峰重庆氨纶2025招聘笔试必考题型及对应答案
- 2024年省市属市政院笔试原题及逐题解析
- 2026年九年电功率测试题及答案
- 2026年云南特岗生物短期备考专用模拟题及超详答案解析
- 家庭自治协议书受保护
- 消防与中国石油联勤协议书
- 早恋错误反省协议书
- 文创产品设计-课件
- FZ∕T 73029-2019 针织裤行业标准
- JJG 455-2000工作测力仪行业标准
- 宠物腹部手术-肠管切除和端端吻合术
- 第5课+家族の写真+课件 【知识精讲精研】 初中日语七年级人教版第一册
- 克罗恩病诊断与治疗新指南详解
- 苏教版高一化学《化学能与电能的转化》单元复习学案
- 江苏省手术分级目录(2023)word版
- 朱良春虫类药治疗疑难杂症的经验体会
- YS/T 10-2008阳极焙烧炉用多功能机组
- DB4403-T 87-2020 园林绿化管养规范-(高清现行)
评论
0/150
提交评论