大数据分析及应用期末课程报告.doc_第1页
大数据分析及应用期末课程报告.doc_第2页
大数据分析及应用期末课程报告.doc_第3页
大数据分析及应用期末课程报告.doc_第4页
大数据分析及应用期末课程报告.doc_第5页
已阅读5页,还剩8页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

云南大学软件学院期末课程报告Final Course ReportSchool of Software, Yunnan University个人成绩序号学号姓名成绩123学期: 课程名称: 大数据分析及应用 任课教师: 实践题目: 小 组 长: 联系电话: 电子邮件: 完成提交时间:2015年 1 月 4 日作业截止时间:2015年 1 月 4 日2015-2016学年上学期 大数据分析及应用 成绩考核表年级: 专业: 学号: 姓名: 本人所做工作: 指标内容分值指标内涵及评估标准得分技术路线的可行程度10合理可行,具体且有创新合理可行,具体基本合理可行不够合理或不够具体程序或系统设计思路10程序或系统思路非常清晰、运行正确程序或系统思路基本清晰、运行正确程序或系统思路清晰、环境配置错误无法运行程序或系统思路不清晰,程序无法运行小组成员的工作量(每个人分别打分)15高出平均要求工作量的15%以上高出平均要求工作量达到平均要求工作量低于平均要求的工作量理论知识应用水平15用理论知识对程序设计方法、思路和代码进行详尽、准确地分析和总结用理论知识对程序设计方法、思路和代码进行较准确地分析和总结理论知识应用一般理论知识差达到预期目标的程度10完全达到基本达到无法预见未能达到团队合作精神10很强的团队合作精神合作情况良好合作情况一般合作不好,各自为政报告撰写质量(30分)5报告非常完整报告比较完整完整程度一般报告不完整5逻辑结构清晰逻辑组织较好逻辑组织一般逻辑不清5内容非常丰富内容较丰富内容一般内容欠缺5文字表达非常好文字表达较好文字表达一般文字表达差,意思不明了5图表制作非常专业化图件制作良好图件制作一般图件制作效果差5整体效果很好整体效果良好整体效果一般整体效果差综合得分(满分100分)评语2015-2016学年上学期 大数据分析及应用 成绩考核表年级: 专业: 学号: 姓名: 本人所做工作: 指标内容分值指标内涵及评估标准得分技术路线的可行程度10合理可行,具体且有创新合理可行,具体基本合理可行不够合理或不够具体程序或系统设计思路10程序或系统思路非常清晰、运行正确程序或系统思路基本清晰、运行正确程序或系统思路清晰、环境配置错误无法运行程序或系统思路不清晰,程序无法运行小组成员的工作量(每个人分别打分)15高出平均要求工作量的15%以上高出平均要求工作量达到平均要求工作量低于平均要求的工作量理论知识应用水平15用理论知识对程序设计方法、思路和代码进行详尽、准确地分析和总结用理论知识对程序设计方法、思路和代码进行较准确地分析和总结理论知识应用一般理论知识差达到预期目标的程度10完全达到基本达到无法预见未能达到团队合作精神10很强的团队合作精神合作情况良好合作情况一般合作不好,各自为政报告撰写质量(30分)5报告非常完整报告比较完整完整程度一般报告不完整5逻辑结构清晰逻辑组织较好逻辑组织一般逻辑不清5内容非常丰富内容较丰富内容一般内容欠缺5文字表达非常好文字表达较好文字表达一般文字表达差,意思不明了5图表制作非常专业化图件制作良好图件制作一般图件制作效果差5整体效果很好整体效果良好整体效果一般整体效果差综合得分(满分100分)评语摘要I小组成员分工II1. 引言11.1 课题研究背景和研究现状11.1.1 课题研究的背景和目的11.1.2 课题研究的现状11.2 课题的研究意义和主要工作21.2.1 课题的研究意义21.2.2 课题的主要工作21.2.3 课题的结构安排31.3 开发工具及开发环境31.4本章小结32 算法描述92.1 DB-SCAN算法92.1.1 算法原理92.1.2 算法模型及伪代码102.2 LR算法102.2.1算法原理102.2.2算法模型及伪代码112.3 贝叶斯算法102.3.1算法原理102.3.2算法模型及伪代码112.4 本章小结153 数据质量及统计分析173.1 数据质量分析173.2 签到数据统计213.3 本章小节 234 聚类挖掘实验174.1 数据集说明174.2 挖掘技术及方法214.3 聚类结果分析 234.4本章小结255 预测分析实验175.1 数据集说明175.2预测技术及方法215.3 算法1预测结果对比分析 235.3.1热点区域数量预测105.3.2热点区域位置预测115.4 算法2预测结果对比分析 235.3.1热点区域数量预测105.3.2热点区域位置预测115.5 预测算法之间的对比分析 235.6本章小结256 可视化展示266.1 第一个月每周的聚类结果展示276.2第二个月每周的聚类结果展示296.3 测试数据的每天聚类结果展示307 总结及展望30参考文献531引言2算法描述说明:列举所使用的算法名称,原理及实现的伪代码。聚类算法统一用DB-SCAN,预测算法根据每组制定的不同算法进行描述。3数据质量及统计分析说明:(1)数据质量分析主要是针对昆明四区POI_ALL.xls文件,从如下几个方面进行评估。第一、POI名称是否完整和清楚,比如:名称只为“昆明”, “昆明市”等就属于不完整,标识性不强等质量问题。此部分用表格完成,并将表格划为直方图。第二、地址缺失。第三、电话号码缺失。第四、电话号码错误。表3-1 POI名称质量不规范性表IDPOI名称数量1昆明22昆明市4表3-2 POI名称质量不规范比例名称不规范数量名称总量比例1620000.3%21994200099.7%图3-1 POI名称质量不规范性统计(2)统计分析主要是针对昆明四区POI_ALL.xls文件和kunming_7-11_all.xls两个文件。POI_ALL.xls文件:A. 按类别名称分组统计签到数和签到用户数TOP10的POI点,将统计结果绘制为表格和直方图。B. 根据POI的经纬度坐标和昆明市四区的范围,统计四个区(五华区、盘龙区、西山区和官渡区)按类别名称分组统计签到数和签到用户数TOP10的POI点,并将统计结果绘制为表格和直方图。表3-3 高等院校签到数TOP 10的统计表IDPOI名称签到数1云南大学1002昆明理工大学8010财经大学10表3-4高等院校签到用户数TOP 10的统计表IDPOI名称签到用户数1云南大学1002昆明理工大学8010财经大学10表3-5五华区高等院校签到用户数TOP 10的统计表IDPOI名称签到用户数1云南大学1002昆明理工大学8010财经大学10给出对应的直方图kunming_7-11_all.xls文件:A. 统计每个月,每周工作日和休息日,每天的用户签到数量,将统计结果绘制为表格和直方图。B. 按四个区(五华区、盘龙区、西山区和官渡区)统计每个月,每周工作日和休息日,每天的用户签到数量,将统计结果绘制为表格和直方图。C. 根据POI的经纬度坐标和用户签到的经纬度坐标,统计按类别名称分组签到数和签到用户数TOP10的POI点附件有多少对应的用户签到数量,并将统计结果绘制为表格和直方图。D. 根据POI的经纬度坐标和用户签到的经纬度坐标,统计按类别名称分组和四个区的签到数和签到用户数TOP10的POI点附件(两者距离最大为25m)有多少对应的用户签到数量,并将统计结果绘制为表格和直方图。表3-6 2015年7月-9月用户签到数统计表月份签到数7月50008月80009月6000表3-7 2015年7月每周用户签到数统计表周次签到数110002500316004900表3-8 2015年7月各周次工作日和休息日用户签到数统计表周次工作日签到数休息日签到数11020234表3-9 2015年7月每天用户签到数统计表7月1日7月2日7月3日7月4日7月5日7月6日7月7日10207月8日7月9日7月10日7月11日7月12日7月13日7月14日7月15日7月16日7月17日7月18日7月19日7月20日7月21日7月22日7月23日7月24日7月25日7月26日7月27日7月28日7月29日7月30日表3-10 高等院校签到用户数TOP 10的统计表IDPOI名称签到用户数1云南大学1002昆明理工大学8010财经大学10表3-11 五华区高等院校签到用户数TOP 10的统计表(距离25m)IDPOI名称签到用户数1云南大学1002昆明理工大学8010财经大学10注意:以上对两个文件的分析都可以用Modeler实现。但需要把每一个对应的数据流截图到统计表格上方,并标识其名称。4聚类挖掘实验说明:聚类挖掘需要给出每个月,每周,每周的工作日和休息日、每天以及每小时的聚类挖掘结果。不需要将聚类结果加载到地图上。可用表4-1和图4-1所示的方法进行展示。表4-1 2015年7月1日时段6:00-6:59聚类热点结果统计表编号聚类热点范围(经纬度坐标最大-最小值所形成的区域)签到用户数1经度1,纬度1;经度2,纬度2;经度3,纬度3;经度4,纬度4300226010152图4-1 2015年7月1日时段6:00-6:59聚类热点结果图此外,聚类结果需要按照如下目录进行存储和说明:1先创建每个月的文件夹;2. 再创建每个月下每天的文件夹;3. 在每天文件夹下创建每个时段的文件夹。如图4-2a所示。a. 每个时段文件夹图4在每个时段下,生成所有的聚类文件,每个聚类生成一个文件,文件命名如图b所示。每个文件的内容如图c所示。b一个时段下的聚类文件和聚类效果图c聚类结果示意图注意:聚类结果包括4列:时间,经度,纬度,所属聚类编号。图4-2 聚类热点结果保存图5预测分析实验1、根据前面2个月的签到数据聚类结果的数量和位置预测测试集在每天、每个时段可能的数量和位置。2、用DBSCAN算法计算测试集所形成的数量和位置。3、将预测结果与实际结果进行比较,根据要求分析误差,并将误差结果绘制为折线图。4、

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论