




免费预览已结束,剩余38页可下载查看
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
学生时空行为大数据分析系统,轨迹聚类分析,答 辩 人: 指导老师:,研究背景与现状,设计与实现,总结,3,4,1,2,目录,概要设计,研究背景、意义与现状,PART 1,人是数据的生产者,数据也推动着对人行为的研究。,01数据 校园WiFi全覆盖,产生了海量的时空数据。,03 意义 对于高校信息化建设、学生健康发展、学生科学管理、学校资源优化配置等 都有独特意义。,02 研究 挖掘时空数据潜在信息, 分析学生时空行为特征, 并预测学生的其他行为。,1.1 研究背景,云,无线服务引擎,AC,业务 数据库,无线定位计算引擎,地图服务器,AP,GIS平台,1.2 研究现状,时空数据基本特征 时序性、空间差异性、时空紧耦合、结构复杂 轨迹数据处理方案 轨迹数据聚类和异常轨迹检测 时空数据分析应用 交通流量监控、地点热区发现和用户行为模式 ,Hadoop是应用最为广泛的开源方案!,概要设计,PART 2,数据收集,数据清洗、 转换、映射,数据处理,可视化,大数据处理流程,2.概要设计,轨迹聚类分析子系统的整体框架,2.概要设计,2.1 数据层-数据分析,原数据ER图,2.1 数据层-Hive,Hive中所有的原始数据都存储在 HDFS文件中。,Hive与MySQL在创建表时的区别。 列分隔符和行分隔符;可直接指定文件路径。,Hive将SQL语句转化成一个或多个MapReduce作业。 通过作业调度,进行分布式数据批处理。,2.2分布式计算层数据处理,分布式计算层概要设计图,2.3业务展示层系统需求功能,业务展示层系统需求功能模块图,设计与实现,PART 3,3.1,3.2,设计与实现,数据清洗,数据处理与可视化,3.1 数据清洗,3.1.1 数据筛选,定位数据 2018年3月龙湖校区2017级新生WiFi定位数据 建筑数据 龙湖校区的建筑、楼层数据 用户数据 2017级学生的脱敏信息,3.1 数据清洗,接口: ,多线程模拟请求,更新字段回填到库。 synchronized来控制线程安全。 ArrayList rows 用于封装从数据库批量读取的定位记录。,3.1.2 填补缺失字段bid,GIS平台,建筑ID BID,经纬度 latitud, Longitude,轨迹聚类分析系统,01,02,03,04,05,校园热点区域提取,基于校内建筑楼群的人员分布,行为相似推荐,学生轨迹迁徙,归寝率计算,06,基于校内建筑楼层的人员分布,3.2 数据处理与可视化,3.1.1 校园热点区域提取,1)时间分段 划分为四个时间段,形成四个数据样本: 0:00-6:00、6:00-12:00、12:00-18:00、18:00-24:00 2)筛选有效数据 针对每个时间段,筛选出有效数据样本。 去重:确保每个用户在不同建筑的定位只获取一个有效定点。,GROUP BY xh, bid, timeslicing,3.1.1校园热点区域提取cont.,3) K-means聚类算法,3.1.1 校园热点区域提取cont.,3) K-means聚类算法,k值多次试验得出(6,10,11,11)。 k个聚类中心初始值设定为主要k个建筑坐标,有效降低算法迭代次数。,3.1.1 校园热点区域提取cont.,4) 散点图与聚类后的热力图对比,3.1.2 学生轨迹迁徙,1)有效轨迹数据整理 以单个用户一天内的依次途径兴趣点集合为一条完整的轨迹记录。 从筛选的样本数据整理出所有的完整轨迹。,3.1.2 学生轨迹迁徙cont.,2)分段轨迹聚类算法 把整条轨迹进行切分,化为多个分段轨迹,就分段轨迹进行聚类分析,研究兴趣点之间的人员迁徙状况。,3.1.2 学生轨迹迁徙cont.,分段轨迹聚类示意图,3.1.2 学生轨迹迁徙cont.,分段轨迹聚类结果表,3.1.2 学生轨迹迁徙cont.,3)可视化,3.1.3 行为相似推荐,WiFi定位数据 定时获取校园网在线用户位置信息的日志性记录数据,蕴含了用户的位置活动变化。,学生时空行为相似 根据用户的地点关联行为特征,进行分析,获取行为相似人群,进行预测与推荐。,地点关联行为特征 个人定位的经纬度所属建筑物。 不同的校内建筑物定为不同兴趣点(假定一个建筑一个功能)。 行为:用户在不同的建筑物视为多种行为。,3.1.3 行为相似推荐cont.,算法模型引用:,Word2Vec 2013年,Google开源了一款用于词向量计算的工具。是一种用于自然语言处理的训练词向量的算法模型。,n元语法模型(n-gram model) 假设一个词只与周围n个词有关,而与文本中的其他词无关。,3.1.3 行为相似推荐cont.,定位数据运用于Word2Vec 解决用户时空行为相似问题 一种行为的所有用户(学号) 分词处理后一段语言文字 每个用户(学号) 每个关键词 用户之间的亲密程度 关键词相近概率,Skip-Gram模型,3.1.3 行为相似推荐cont.,3.1.3 行为相似推荐cont.,1)构造语料,语料构造示意图,2)学习语料、训练模型 样例查询如下:,3.1.3 行为相似推荐cont.,2)关联可视化,3.1.3 行为相似推荐cont.,3.1.4 归寝率计算,归寝率用于表示学生晚上过寝的情况。,3.1.5 基于校内建筑楼群的人员分布,统计出一天内(四个时间段)建筑楼群的使用情况。 把建筑楼群主要分为六大类: 教学楼实验楼、组团楼、院系楼、图书馆、体育娱乐(体育馆,餐厅,学生活动中心,工业训练中心,商务中心)、公寓。,3.1.5 基于校内建筑楼群的人员分布cont.,3.1.6 基于校内建筑楼层的人员分布,总 结,PART 4,4.总结,根据我校时空数据特征,提炼出一套基本的时 空数据处理流程及数据挖掘算法。设计并实现了学 生时空行为-轨迹聚类分析系统。,基于真实数据的课题实践,工作特色,基于在线地图的数据可视化:基于中原工学院南区 三维、二维地图,智能算法的应用:K-means聚类算法、Wor
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 商场卫生安全教育培训课件
- 2025年电子商务行业社交电商发展前景研究报告
- 南京市2025江苏南京仲裁委员会办公室招聘1人笔试历年参考题库附带答案详解
- 2025长航货运有限公司芜湖分公司招聘3人(二安徽)笔试参考题库附带答案详解
- 2025福建漳州市芗江人力资源服务有限公司招聘4人笔试参考题库附带答案详解
- 2025湖北神农架国有资本投资运营(集团)有限公司招聘12人笔试参考题库附带答案详解
- 2025广东佛山市三水海江昇平建设工程有限公司招聘企业工作人员27人(第一批)笔试参考题库附带答案详解
- 2025年福建省高速技术咨询有限公司招聘75人笔试参考题库附带答案详解
- 2025年宣城广德经济开发区投资开发集团有限公司招聘25人笔试参考题库附带答案详解
- 2025年合肥东新融媒科技有限公司招聘5人笔试参考题库附带答案详解
- 村干部饮水安全培训总结课件
- 安全生产治本攻坚三年行动半年工作总结
- 单招备考科学方案
- 《工程勘察设计收费标准》(2002年修订本)
- 隧道开挖施工讲解课件
- 第三单元名著导读《朝花夕拾之二十四孝图》-部编版语文七年级上册
- 最新人教版四年级英语上册课件(完美版)Review of Unit 5
- 掌骨骨折查房课件
- 大学食堂装饰装修方案
- 工资结清证明(模板)
- 矿山档案(台帐) 表格参照模板参考范本
评论
0/150
提交评论