考核成绩分类_第1页
考核成绩分类_第2页
考核成绩分类_第3页
考核成绩分类_第4页
考核成绩分类_第5页
已阅读5页,还剩3页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、Logistic RegressionThe data我们将建立一个逻辑回归模型来预测一个学生是否被大学录取。假设你是一个大学系的管理 员,你想根据两次考试的结果来决定每个申请人的录取机会。你有以前的申请人的历史数据, 你可以用它作为逻辑回归的训练集。对于每一个培训例子,你有两个考试的申请人的分数和 录取决定。为了做到这一点,我们将建立一个分类模型,根据考试成绩估计入学概率。#三大件import numpy as npimport pandas as pdimport matplotlib.pyplot as plt%matplotlib inlineimport os#path = data

2、 + os.sep + LogiReg_data.txtpdData = pd.read_csv(F:W究课程机器学习宇迪系列python数据分析与机器学习实战- 全-E唐宇迪-机器学习课程资料机器学习算法配套案例实战梯度下降 dataWLogiReg_data.txt, header=None, names=Exam 1, Exam 2, Admitted)pdData.head()pdData.shapepositive = pdDatapdDataAdmitted = 1 # returns the subset of rows such Admitted = 1, i.e.the se

3、t of positive* examplesnegative = pdDatapdDataAdmitted = 0 # returns the subset of rows such Admitted = 0, i.e.the set of negative* examplesfig, ax = plt.subplots(figsize=(10,5)ax.scatter(positiveExam 1, positiveExam 2, s=30, c=b, marker=o, label=Admitted) ax.scatter(negativeExam 1, negativeExam 2,

4、s=30, c=r, marker=x, label=Not Admitted) ax.legend()ax.set_xlabel(Exam 1 Score)ax.set_ylabel(Exam 2 Score)rflrtplotlibB1;errt, Tt at ftdtdjg】艮rflrtplotlibB1;errt, Tt at ftdtdjg】艮U pdb.set_trace();theta, iter, costs, grad, dur = descent(data, theta, batchSize, stopType, thresh, alpha) name = Original

5、 if (data:,12).sum() 1 else Scaled name += data - learning rate: ( - .format(alpha)if batchSize=n: strDescType = Gradientelif batchSize=1: strDescType = Stochasticelse: strDescType = Mini-batch ().format(batchSize) name += strDescType + descent - Stop:if stopType = STOP_ITER: strStop = iterations.fo

6、rmat(thresh)elif stopType = STOP_COST: strStop = costs change .format(thresh) else: strStop = gradient norm .format(thresh)name += strStopprint (*nTheta: - Iter: - Last cost: :03.2f - Duration: :03.2fs.format( name, theta, iter, costs-1, dur)fig, ax = plt.subplots(figsize=(12,4)ax.plot(np.arange(len

7、(costs), costs, r)ax.set_xlabel(Iterations)ax.set_ylabel(Cost)ax.set_title(name.upper() + - Error vs. Iteration) return theta不同的停止策略设定迭代次数#选择的梯度下降方法是基于所有样本的n=100runExpe(orig_data, theta, n, STOP_ITER, thresh=5000, alpha=0.000001)OCB0.65data. leamon: istt. le-Ofi - Gradient drecent OCB0.65data. leamo

8、n: istt. le-Ofi - Gradient drecent - Slap: ECCO Lt edtimuTheta: -D.DDD27J27 0. DtHDEEZ . 003761 - Ptei 5000 - Last cort D. 63 - Duration L. LBsarray f -Cl OT27127.H OJT既32, 0. OD37bT L J4WD5DD01D0O3000RzcrationsORIGINAL DATA - LEARNING RAT巳】E-脆-GRADIENT DESCENT * STOP: 5000 ITERATIONS Error vs. Iter

9、ation根据损失值停止设定阈值1E-6,差不多需要110 000次迭代根据梯度变化停止设定阈值0.05,差不多需要40 000次迭代runExpe(orig_data, theta, n, STOP_GRAD, thresh=0.05, alpha=0.001)*0 rigina.1 data - 1 eztrning rate: . DO - Gr ajdi mt ifeicent - Stop gradisit noni -05Ib&ti -盅务CBMCig il 0272692 LL0L&39O - It&r: 0015 - Lat cost. Hd - Durstim HI T9sm

10、J -l.;:;ELO?. 0.: : DD1 - Jtm-bat th (L6) dcrcEDt - Stop. 1ECCO Lt-Eatiims- Thfita -1.0352224 Q, 口16龄的 D.ni&IS4 - Tter: 150M - L笙t s亦 0.57 - Dijratim- L44s匹工wU T35座24, o. oiettesn8. o. 012 )涅 FUQMAL 口AT A - LEARNING RATE: U,tXJl - MlMl-BRTCHlW) 口E$CEN- STOP: 150Qd ITERATION 三-Errw g. ItwrHimQ2QDU400

11、06DODBOCDLODaCL2ODOUODOLHaO浮动仍然比较大,我们来尝试下对数据进行标准化将数据按其属性(按列进行)减去其均值, 然后除以其方差。最后得到的结果是,对每个属性/每列来说所有数据都聚集在0附近,方 差值为1from sklearn import preprocessing as pp scaled_data = orig_data.copy()scaled_data:, 1:3 = pp.scale(orig_data:, 1:3) runExpe(scaled_data, theta, n, STOP_ITER, thresh=5000, alpha=0.001)它好多了!原始数据,只能达到达到0.61,而我们得到了 0.38个在这里!所以对数据做预 处理是非常重要的精度#设定阈值def predict(X, theta):return 1 if x = 0.5 else 0 for x in model(X, theta)scaled_X = scaled_data:, :3y = scaled_data:, 3predictions = predict(scaled_X, th

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论