全文预览已结束
付费下载
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
考试模拟样题 数据分析应用 一一 计算题计算题 共共 2 2 题题 100 0 100 0 分 分 1 1 移动公司想结合用户通话行为 推荐相应套餐 或者结合用户现有套餐移动公司想结合用户通话行为 推荐相应套餐 或者结合用户现有套餐 优化用户套餐 提供个性化套餐 从而对客户进行精准营销 增加客户粘优化用户套餐 提供个性化套餐 从而对客户进行精准营销 增加客户粘 性 为此 移动公司收集了下列数据 移动公司收集到的数据包含下列字性 为此 移动公司收集了下列数据 移动公司收集到的数据包含下列字 段 段 变量名称 变量标签 Customer ID 用户编号 Peak mins 工作日上班时 间电话时长 OffPeak mins 工作日下班时 间电话时长 Weekend mins 周末电话时长 International mins 国际电话时长 Total mins 总通话时长 average mins 平均每次通话 时长 datadata 移动用户细分聚类移动用户细分聚类 xlsx xlsx 请你根据这些客户数据 进行数据的预处理 数据预处理过程中可以根据请你根据这些客户数据 进行数据的预处理 数据预处理过程中可以根据 现有变量构造新变量进行分析 预处理之后选择合适变量进行分析 分析算现有变量构造新变量进行分析 预处理之后选择合适变量进行分析 分析算 法自行选择 写出分析思路和过程 通过数据分析对客户进行细分 将客户分法自行选择 写出分析思路和过程 通过数据分析对客户进行细分 将客户分 为为 5 5 类 并为移动公司提供客户精准营销的相关建议 请写出分析的流程并类 并为移动公司提供客户精准营销的相关建议 请写出分析的流程并 刻画最后细分之后的客户的特点和相刻画最后细分之后的客户的特点和相应的营销建议 应的营销建议 正确答案 正确答案 分析过程 分析过程 根据题目可以选取聚类方法对客户进行细分 这里选取根据题目可以选取聚类方法对客户进行细分 这里选取 k k meansmeans 聚类方法进行聚类方法进行 分析 分析 1 1 对数据进行预处理 主要查看数据的相关性 通过查看相关系数矩阵看对数据进行预处理 主要查看数据的相关性 通过查看相关系数矩阵看 到到 peak minspeak mins 和和 total minstotal mins 相关性很高 所以对变量进行了处理 只相关性很高 所以对变量进行了处理 只 选取其中一个 然后构造一个新的变量选取其中一个 然后构造一个新的变量 peak mins total minspeak mins total mins 对这些 对这些 变量进行聚类分析 由于新构造的变量取值与其他变量取值范围相差较变量进行聚类分析 由于新构造的变量取值与其他变量取值范围相差较 大 因此 在聚类分析时 选择标准化处理之后的数据进行聚类大 因此 在聚类分析时 选择标准化处理之后的数据进行聚类 datahoopdatahoop 可以在分析时默认进行标准化处理 可以在分析时默认进行标准化处理 2 2 对数据进行聚类分析 选取变量为 对数据进行聚类分析 选取变量为 peak mins total minspeak mins total mins offpeak minsoffpeak mins weekend minsweekend mins international minsinternational mins total minstotal mins average minsaverage mins 3 3 根据聚类结果分析每一类客户在现有变量上的特征 这里选取平均值作根据聚类结果分析每一类客户在现有变量上的特征 这里选取平均值作 为参考依据 为参考依据 4 4 得到聚类分析描述结果为 卷面上可以不用加颜色 列出数据即可 得到聚类分析描述结果为 卷面上可以不用加颜色 列出数据即可 可以选择标准化之后数据 也可以选择标准化之前数据进行描述统计 可以选择标准化之后数据 也可以选择标准化之前数据进行描述统计 这里选取了标准化之前的数据 这里选取了标准化之前的数据 1 1 从图中可以看出 第一类用户几乎所有指标都最高 只有平均通话时长从图中可以看出 第一类用户几乎所有指标都最高 只有平均通话时长 较低 因此第一类用户属于高端商用用户 较低 因此第一类用户属于高端商用用户 第二类用户在所有指标上属于中等偏上 所以第二类用户属于中高等商用用第二类用户在所有指标上属于中等偏上 所以第二类用户属于中高等商用用 户 户 第三类用户在所有指标上处于中等水平 所以第三类用户属于中等商用用户 第三类用户在所有指标上处于中等水平 所以第三类用户属于中等商用用户 第四类用户只在平均通话时长上高 其他指标均偏低 说明第四类用户属于常第四类用户只在平均通话时长上高 其他指标均偏低 说明第四类用户属于常 聊用户 聊用户 第五类用户在所有指标上均较低 因此第五类用户属于低端用户 第五类用户在所有指标上均较低 因此第五类用户属于低端用户 1 1 移动公移动公司可以针对这五种用户推荐不同的套餐 高端用户推荐各项指标司可以针对这五种用户推荐不同的套餐 高端用户推荐各项指标 偏高 套餐费用也偏高的套餐 中端用户和中高端用户可以较高端用户偏高 套餐费用也偏高的套餐 中端用户和中高端用户可以较高端用户 偏低一点进行套餐推荐 常聊用户可以推荐符合常聊特点的套餐 比如偏低一点进行套餐推荐 常聊用户可以推荐符合常聊特点的套餐 比如 通话次数优惠类套餐 低端用户可以推荐资费便宜的套餐 通话次数优惠类套餐 低端用户可以推荐资费便宜的套餐 2 2 通过游戏用户相关行为数据预测用户通过游戏用户相关行为数据预测用户是否会付费是否会付费 某游戏公司 根据收集的某游戏公司 根据收集的 20162016 年上半年的用户行为数据对用户是否会付年上半年的用户行为数据对用户是否会付 费进行预测 根据预测结果对可能付费用户进行精准营销 费进行预测 根据预测结果对可能付费用户进行精准营销 该公司一共收集了用户的编号 以及用户的注册时间和最后一次登录时该公司一共收集了用户的编号 以及用户的注册时间和最后一次登录时 间 以及用户退出时的等级还有用户是否付费等数据 间 以及用户退出时的等级还有用户是否付费等数据 数据及数据类型解释数据及数据类型解释 游戏训练数据游戏训练数据 xlsx xlsx 游戏测试数据游戏测试数据 xlsx xlsx 游戏预测数据游戏预测数据 xlsx xlsx 请根据原始请根据原始数据 对数据进行预处理 包括对类别型变量进行数值化处数据 对数据进行预处理 包括对类别型变量进行数值化处 理 重新构造新的变量 然后根据原始数据 自行选择变量和分析算法进行理 重新构造新的变量 然后根据原始数据 自行选择变量和分析算法进行 分析 数据提供包含训练数据 测试数据 预测数据 其中测试数据的模型检分析 数据提供包含训练数据 测试数据 预测数据 其中测试数据的模型检 验结果的计算提供了相应的验结果的计算提供了相应的 excelexcel 表格 表名为 测试数据结果计算 只需把表格 表名为 测试数据结果计算 只需把 测试结果拷贝到第二类数下面 相应的指标即可计算出来 写出分析过程和测试结果拷贝到第二类数下面 相应的指标即可计算出来 写出分析过程和 思路 并且根据模型进行预测 思路 并且根据模型进行预测 正确答案 正确答案 解析解析 根据题目选用分类算法对游戏用户是否付费进行分析根据题目选用分类算法对游戏用户是否付费进行分析 1 1 数据预处理 数据预处理 从原始数据中可以看出从原始数据中可以看出 leve endleve end is payeris payer active daysactive days avg session cntavg session cnt 这几个变量可以直接选入进行分析 对这几个变量可以直接选入进行分析 对 于于 install dateinstall date 和和 last login datelast login date 由于是日期型数据 因此选择用由于是日期型数据 因此选择用 last login datelast login date install dateinstall date 得到的相差的天数来代表游戏用户的活得到的相差的天数来代表游戏用户的活 跃时长 跃时长 OsOs 是文本型 因此需要提前进行处理 转化为数值型数据 本是文本型 因此需要提前进行处理 转化为数值型数据 本 次处理把取值设为 次处理把取值设为 Android ios 1 0 原始数据不存在缺失值 通过描述分析原始数据发现付费玩家和非付费玩家数原始数据不存在缺失值 通过描述分析原始数据发现付费玩家和非付费玩家数 据比例为据比例为 0 87 10 87 1 因此样本比较均衡 不需要调整样本 因此样本比较均衡 不需要调整样本 1 1 数数据分析 由于采用分类算法进行分析 样本比较均衡 因此可以采用据分析 由于采用分类算法进行分析 样本比较均衡 因此可以采用 逻辑回归进行分析 也可以采用神经网络进行分析 可自行选取 本次逻辑回归进行分析 也可以采用神经网络进行分析 可自行选取 本次 采用给定的训练集数据进行数据分类分析 采用给定的训练集数据进行数据分类分析 2 2 根据样本的测试集数据得到模型测试结果为 参照模型的根据样本的测试集数据得到模型测试结果为 参照模型的 AccuracyAccuracy precision recallprecision recall 和和 F1F1 scorescore 的值 的值 Accuracy 0 86666667 Precision Recall F1 score 1 0 85483871 0 828125 0 84127 0 0 875 0 895348837 0 885057 通过分类分析结果可以看出逻辑回归模型的准确率和召回率都较高 模型的准通过分类分析结果可以看
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 培训机构欠费协议书
- 合作经营装修协议书
- 员工绩效发放协议书
- 员工成长托管协议书
- 培训机构住宿协议书
- 外卖工具转让协议书
- 医院联盟协议书范本
- 医院合同用工协议书
- 合伙开酒吧合同范本
- 合作处理垃圾协议书
- 2026中国精准营养个性化定制服务商业模式可行性报告
- 4.1中国的机遇与挑战(课件)-2025-2026学年统编版道德与法治九年级下册
- 2025海南大华会计师事务所(特殊普通合伙)海南分所人才招聘笔试考试备考试题及答案解析
- 2025年11月广东深圳北理莫斯科大学附属实验中学面向2026年应届毕业生招聘教师15人笔试考试参考试题及答案解析
- 学术论文标准格式规范
- 2025年国家工作人员学法用法试题库及参考答案
- 低氘水对3D皮肤模型抗衰老效果的机制研究
- 重性精神病家庭护理知识
- 2025贵州贵安商业资产运营管理有限公司招聘11人考试笔试参考题库附答案解析
- 循证护理教学20章
- 2025年山东颐养健康产业发展集团有限公司权属企业社会招聘考试笔试模拟试题及答案解析
评论
0/150
提交评论