版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
电影数据分析(多项式回归)
课堂小结重点机器学习算法应用过程一元线性回归异常值(噪声)归一化数据集的切分难点归一化处理、可视化思考模型评估:如何判断模型好不好?作业线上客观题实验报告知识点图谱1802-1801-董露丹film.txt中存储了放映时间与票房数据知识回顾异常值处理:删除范围缩放:归一化数据集的切分:训练集与测试集数据筛选:
条件df['日均票房/万']<5000。fromsklearnimportlinear_model
x=df[['放映天数']]y=df[['日均票房/万']]
regr=linear_model.LinearRegression()
regr.fit(x,y)y_pred=regr.predict(x)数据预处理:preprocessingminmax_scale。模型选择:model_selectiontrain_test_split。salary.csv中存储了工龄与工资数据知识回顾dataset=pd.read_csv('salary.csv',delimiter=',’)x_train=dataset[['Year’]]y_train=dataset[['Salary’]]regr=linear_model.LinearRegression()regr.fit(x_train,y_train)基本步骤:数据读取数据清洗数据类型转换奇异值处理归一化数据集切分模型训练模型预测可视化循序渐进实验难点:可视化进阶x_min=x.values.min()-0.1
x_max=x.values.max()+0.1
x_new=np.arange(x_min,x_max,0.01).reshape(-1,1)plt.scatter(x_new,regr.predict(x_new),s=3,color='red',linewidth=1,label=u"线性回归")plt.show()c=‘颜色可选’marker='点的样式’cmap='颜色变化’alpha=“透明度”linewidths=“线宽”s='点的大小'产生序列:
最小值、最大值、步长确定等间隔的数据。参数salary.csv中存储了工龄与工资数据数据集切分dataset=pd.read_csv('salary.csv',delimiter=',’)x_train,x_test,y_train,y_test=train_test_split(dataset[['Year']],dataset[['Salary']],train_size=0.7)regr=linear_model.LinearRegression()regr.fit(x_train,y_train)y_pred=regr.predict(x_test)上机时间:20min分步完成:可视化进阶数据集切分实验报告步骤1-2回归分析多项式回归多元线性回归文本数据:标签映射项目:电影数据分析与预测(多项式回归)多项式回归多元回归分析练习:多元、多项式回归分析主要教学内容多项式回归多项式回归任意一个函数至少在一个较小的范围内都可以用多项式任意逼近,因此在比较复杂的实际问题中。一元多项式回归只涉及一个自变量和一个应变量应变量与自变量呈曲线拟合关系应变量与自变量的关系可以用一个多项式方程表示前面已经对放映天数与票房进行了线性拟合,但结果不尽如人意。什么参数最重要?项目应用:多项式回归(分析)poly=PolynomialFeatures(degree=3)
xt=poly.fit_transform(x)
polymodel
=linear_model.LinearRegression()
polymodel.fit(xt,y)plt.scatter(x,y,color='black')
plt.scatter(x,polymodel.predict(xt),color='green',linewidth=1,label=u"多项式回归")
plt.legend(loc=2)模型应用与可视化预测:
使用训练好的模型预测原始数据输入。构造多项式:
猜一猜degree用来指定什么?建立多项式特征:
为输入x构建多项式特征。项目应用:多项式回归(可视化)要求1:可视化如右图格式要求2:添加线性回归线思考:poly=PolynomialFeatures(degree=3)?要求3:要求2*2四个子图,分别degree=2,3,4,5上机时间:25min分步完成:多项式回归可视化曲线比较不同degree实验报告步骤3-4一元VS多元线性回归票房只与放映天数有关吗?导演演员电影类别….上映时间电影评价国别体裁多元线性回归前面已经对放映天数与票房进行了线性拟合,但票房是多因素相关的多因素分析:日均票房、放映天数、影片类型(爱情)对评分的影响一、数据准备df[‘评分’]=df[‘评分’].astype(float)
df[‘是否为爱情片']=df['影片类型'].str.contains('爱情').astype(str)
name_to_type={'True':'1','False':'0’};
df['影片类型(爱情)']=df['是否爱情片'].map(name_to_type);(1)得出判断结果:
判断是否含有爱情两字。(2)设立映射规则:
规则的格式。(3)执行映射:
使用设立的规则对一列进行映射。二、数据分析:多元线性回归fromsklearnimportlinear_model
x_train,x_test,y_train,y_test=train_test_split(df[['影片类型(爱情)’,'放映','日均票房/万’]],df[['评分’]],train_size=0.8,test_size=0.2)
regr=linear_model.LinearRegression()
regr.fit(x_train,y_train)#系数、截距
print('系数:',regr.coef_)
print('截距:',regr.intercept_)(1)系数:
几维?(2)截距:几维?一、数据准备:标签映射fromsklearn
importpreprocessing
#对电影类别进行数值化处理
le=preprocessing.LabelEncoder()
new_df['影片类型(爱情)']=le.fit_transform(new_df['是否爱情片'])Sklearn中的数据预处理:LabelEncoderfit_transform:什么时候出现过?三、数据预测与可视化展现importmatplotlib.pyplotasplt
plt.rcParams['font.sans-serif']=['SimHei']
plt.rcParams['axes.unicode_minus']=Falsey_pred=regr.predict(x_test)#显示预测值与测试值plt.plot(range(len(y_test)),y_test,'green',label=u"测试值")
plt.plot(range(len(y_pred)),y_pred,'red',linew
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 肉牛犊牛初乳饲喂技术方案
- 小麦储存水分控制管理方案
- 项目计划书模板
- 设备维护保养操作指引
- 实木地板打蜡保养操作规范手册
- 西瓜花叶病毒病预防控制规程
- 拔罐疗法操作安全规范指南
- 传统拔罐放血临床应用规范
- 风电场防冰覆方案
- 日光温室黄瓜控秧促果技术规范
- 2026云南昆明供电局项目制用工招聘48人笔试模拟试题及答案解析
- 全胃切除病人全程营养管理中国专家共识(2026版)
- 2026年四川成都市中考地理试卷含答案
- 2025-2026 学年人音版初中音乐八年级下册全册知识点梳理
- 2026年版闲鱼卖货实战手册(选品+定价+爆款打造完整攻略)
- “十五五”规划纲要应知应会100题及答案
- 限额以下小型工程常见安全隐患指导手册(2026版)
- 年龄相关性黄斑变性课件
- 小水电生态流量监测项目招标文件
- 2025年云南省中考生物试卷真题(含标准答案及解析)
- 血管源性头晕/眩晕诊疗
评论
0/150
提交评论