jsjds2016-24693基于智慧校园卡的大数据分析与可视化动态展示作品设计说明书_第1页
jsjds2016-24693基于智慧校园卡的大数据分析与可视化动态展示作品设计说明书_第2页
jsjds2016-24693基于智慧校园卡的大数据分析与可视化动态展示作品设计说明书_第3页
jsjds2016-24693基于智慧校园卡的大数据分析与可视化动态展示作品设计说明书_第4页
jsjds2016-24693基于智慧校园卡的大数据分析与可视化动态展示作品设计说明书_第5页
已阅读5页,还剩38页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、基于智慧校园卡的大数据分析与可视化动态展示 设计说明书参赛编号:24693参赛学校:上海大学参赛成员:吴婷 龚成 金安琪2021 年 5 月 9 日1简介31.11.2作品创意/项目背景3项目实施计划32总体设计42.1系统功能.2功能概述4功能说明42.2系统软硬件平台.2系统开发平台(含开源/第工具)5系统运行平台作品特色83详细设计说明103.1系统结构设计.23.1.3技术架构10功能模块设计10关键功能/算法设计103.2数据结构设计123.2.1数据121. 数据库122. 文件.3.13接口

2、(模块接口、系统间接口)13关键数据结构143.3系统界面设计.23.3.3界面设计风格14主要功能页面15Web页面结构设计错误!未定义书签。456系统安装及使用说明40总结41附录4名词定义42参考资料42源代码.421简介1.1作品创意/项目背景在大数据,步入大学的我们学生,甚至是老师,已经与一卡通有着密不可分的关系。每一次刷卡的背后,都隐藏着数据的奥秘。比如刷一卡通的地点、刷一卡通的时间、通过一卡通消费的金额等,都会暗示出一个人乃至一群人的消费水平、生活习惯以及各方面潜在的规律。基于以上认识,我们的项目旨在通过分析与一卡通有关的数据了解每位和一卡

3、通有关的校园人每年利用一卡通消费数据(以月为进行统计)以及每位校园人在一年每一天的同一时间消费情况等来找出校园人背后消费的奥秘。1.2项目实施计划【介绍作品创作过程中的分工、设计制作进度安排等。】吴婷龚成金安琪2016.1.1-2016.1.18了解题意并理清思路、找准处理数据的方向2016.1.19-2016.2.20学习利用 python处理数据学习利用数据库处理数据学习利用 D3.js、hcharts 处理数据绘图2016.2.20-2016.3.20集中处理分析数据2016.3.28提交作品2总体设计【本章对系统实现的功能、开发技术和应用环境进行介绍。】2.1系统功能2.1.1功能概述

4、【概述系统实现的主要功能,包括系统性能。需给出系统功能的框架结构图,样例如图 1 所示。】该系统主要以分析处理数据为主,通过对消费地点、一卡通刷门禁的时间、个人以及群体消费金额等,来发现和一卡通有关的校园的生活习惯等方面的规律,进而对现实生活提出指导建议。消费地点门禁时间消费金额刷卡地点食堂受欢迎程度特殊生活习惯个人消费习惯生源地点食堂管理水平相似人群关系网暂停任务各消费地点物价高低结束任务图 1 系统功能框架图2.1.2功能说明【对系统功能分层逐一详细说明。注意此处给出的是从用户角度看到的功能。】【消费地点】:1、统计人流量或人均消费金额等可以判断出一个食堂的受欢迎程度;2、刷卡机上有操作与

5、否的,对食堂管理有指导意义;3、对消费地点降低物价或是多提供服务窗口等有指导意义。【门禁时间】:1、对某个人长期的生活习惯加以了解进而判断其性格等特点;2、若其中几个人的刷门禁时间接近的几率很高,可判断其几人的亲密程度或者相关的程度。【消费金额】:1、对一个人的的消费进行跟踪统计,可判断其消费习惯;2、若存在一部分人的消费所对应时间与大部分人的习惯不一致,则可推断原因。若与智慧校园一卡通数据分析学校上课时间有关,则可对学校排课时间提供指导建议;3、若两人的消费金额很相近且消费时间近似度很高,则可推断出这个人的关系网,比如室友、等关系。【刷卡地点】:1、如果在周末经常有刷校门门禁的,可在一定程度

6、上推断出学生的生源地为上海等;2、刷卡地点有很多,除了门禁,还有澡堂、教学楼澡堂和可以判断人群对该种设备的需求度,可在一定程度上增加或是减少该项服务。教学楼的属性可以判断群的专业信息。2.2系统软硬件平台2.2.1系统开发平台(含开源/第工具)【介绍系统开发所使用的软件和硬件环境,包括所用到的开源平台、第给出使用操作系统的名称、生产厂家、版本号等。工具。给出所用开源平台的、版本,该平台提供的功能。如关键算法的实现或部分实现调用了第工具或源代码,请标出其出处,写明已实现的功能。给出使用数据库的名称、生产厂家、版本号等。如使用了多种数据库,则要说明如何实现相互之间的关联。给出使用的硬件设备,型号、

7、生产厂家等。】操作系统:Windows7、Windows10 开源平台:Pycharm、notepad+、数据库:SOL sever 2008开发软件:Python 2.7.11硬件设备:Lenovo Y50,华硕超极本2.2.2系统运行平台【介绍系统运行时需要的软件和硬件环境。指明系统是集中式还是分布式的,说明设备的部署要求。提供系统通信网络的详细描述, 示系统组件是如何连接的。说明每台硬件设备上部署的系统软件,包括版本要求】。表2.3【介绍作品完成所用到的各项,包括开发技术和理论技术。】2.3.1【python 简介】Python 是一门跨平台的开源、的解释型语言,同时也支持伪编码以进行优

8、化和提高运行速度,还支持使用 Py2exe 工具将 Python 程序转换为 exe 可执行程序以使得可以在没有安装Python 解释器和相关依赖包的平台运行;Python 同时支持命令式编程、函数式编程和面向对象编程,语法简洁清晰,并且拥有大量的几乎支持所有领域应用开发的成熟扩展库;最后,Python 就像胶水一样,可以把多种不同语言编写的程序融合到一起实现无缝拼接,更好地发挥不同语言和工具的优势。2.3.2【抽样算法介绍】采样算法是学习中比较常用,也比较容易实现的。常用的采样算法有以下几种:1、单纯随机抽样(simple random sampling)将总体全部观察编号,再用抽签法或随机

9、数字表随机抽取部分观察组成样本。优点:操作简单,均数、率及相应的标准误计算简单。缺点:总体较大时,难以一一编号。python 代码实现:def RandomSampling(dataMat,number):try:slice = random.sample(dataMat, number)return sliceexcept:print 'sample larger than population'2、系统抽样(systematic sampling 搜索)又称机械抽样、等距抽样,即先将总体的观察按某一顺序号分成 n 个部分,再从第一部分随机抽取第 k 号观察,依次用相等间距,

10、从每一部分各抽取一个观察组成样本。优点:易于理解、简便易行。缺点:总体有周期或增减趋势时,易产生偏性。python 代码实现:def systematicSampling(dataMat,number):length=len(dataMat)k=length/numbersample=i=0if k>0 :while len(sample)!=number:sample.append(dataMat0+i*k)i+=1return sampleelse :return RandomSampling(dataMat,number)3、整群抽样(cluster sampling)总体分群,再

11、随机抽取几个群组成样本,群内全部优点:便于组织、节省经费。缺点:抽样误差大于单纯随机抽样。4、分层抽样(stratified sampling)先按对观察指标影响较大的某种特征,将总体分为若干个类别,再从每一层内随机抽取一定数量的观察,合起来组成样本。有按比例分配和最优分配两种方案。优点:样本代表性好,抽样误差减少。以上四种基本抽样方法都属单阶段抽样,实际应用中常根据实际情况将整个抽样过程分为若干阶段来进行,称为多阶段抽样。各种抽样方法的抽样误差一般是:整群抽样单纯随机抽样系统抽样分层抽样5、蓄水池抽样简介:蓄水池抽样算法随机算法的一种,用来从 N 个样本中随机选择 K 个样本,其中 N 非常

12、大(以至于 N 个样本不能同时放入内存)或者 N 是一个未知数。其时间复杂度为O(N),包含下列步骤 (假设有一维数组 S, 长度未知,需要从中随机选择 k 个元素, 数组下标从码如下:1开始),伪代array Rk;integer i, j;/ result/ fill the reservoir arrayfor each i in 1 to k doRi := Sidone;/ replace elements with gradually decreasing probabilityfor eachi in k+1 to length(S) doj :=if jrandom(1, i)

13、;/ important: inclusive range<= k thenRj := Sifidone算法首先创建一个长度为 k 的数组(蓄水池)用来存放结果,初始化为 S 的前 k 个元素。然后从 k+1 个元素开始迭代直到数组结束,在 S 的第 i 个元素,算法生成一个随机数 j1,i, 如果 j <= k, 那么蓄水池的第 j 个元素被替换为 S 的第 i 个元素。算法正确性证明:定理:该算法保证每个元素以 k / n 的概率被选入蓄水池数组。证明:首先,对于任意的 i,第 i 个元素进入蓄水池的概率为 k / i;而在蓄水池内每个元素被替换的概率为 1 / k; 因此在第

14、 i 轮第j 个元素被替换的概率为 (k / i ) * (1 / k) = 1/ i。 接下来用数学归纳法来证明,当循环结束时每个元素进入蓄水池的概率为 k / n.假设在 (i-1) 次迭代后,任意一个元素进入 蓄水池的概率为 k / (i-1)。有上面的结论,在第 i 次迭代时,该元素被替换的概率为 1 / i,那么其不被替换的概率则为 1 - 1/i = (i-1)/i;在第 i 此迭代后,该元素在蓄水池内的概率为 k / (i-1) * (i-1)/i = k / i. 归纳部分结束。因此当循环结束时,每个元素进入蓄水池的概率为 k / n. 命题得证。算法的局限性:蓄水池算法的基本

15、假设是总的样本数很多,不能放入内存,暗示了选择的样本数 k是一个与 n 无关的常数。然而在实际的应用中,k 常常与 n 相关,比如我们想要随机选择 1/3(k = n / 3),这时候就需要别的算法或者分布式的算法。的样本6、吉布斯抽样吉布斯采样是生成马尔科夫链的法,生成的马尔科夫链可以用来做蒙特卡洛,从而求得一个较复杂的多元分布。吉布斯(Gibbs)抽样可以在给定协方差数据和参数的先验分布条件下获得结构方程参数的后验分布样本。参数的点估计、区间估计和标准误就可以用这些样本数据计算吉布斯采样的具体做法:假设有一个 k 维的随机向量,现想要构造一条有 n 个样本的 k 维向量(n 样本马尔科夫序

16、列),那么(随机)初始化一个 k 维向量,然后固定这个向量其中的 k-1个元素,抽取剩下的那个元素(生成给定后验的随机数),这样循环 k 次,就把整个向量更新了一遍,也就是生成了一个新的样本,把这个整体重复 n 次就得到了一条马尔科夫链。参考文献:蓄水池抽样:http:/news/view/1d1ec162.4作品特色【重点介绍本作品在创意、开发实现、应用等方面的亮点,有特色的功能,团队重点解决的问题等。】【作品的创意】:在分析处理数据的过程中,每当发现一个有有关联的各种数据,并发掘出很多有趣的现象。的数据点,我们会着重关注进一步加以分析与之比一部分人群的有凌晨刷卡消费的,这就很令我们项目组成

17、员好奇其刷卡的途径以及刷卡的目的;比的人的消费到下半年七月份之后就消失了,是否可以判断该人已经离校(毕业、休学等任何可能的情况)【特色的功能】:我们通过数据分析出的结果,可以对现实提出指导意义,比如,学校的排课时间是否可以调整, 食堂的物价是否可以下调,学校的澡堂数量是否可以增加、服务时间是否可以延长,学校是否根据个人特殊的消费习惯开设特色服务比如夜间美食屋等。【团队重点解决的问题】:在大数据的前提下,如何快速处理数据、筛选出我们需要的数据是一个问题。而且在一开始,面对这么多数据,无从下手,不知可以从何处开始加以分析。之后在与同学的讨论交流下,找到了方向、找到了目标。3详细设计【对系统或子系统

18、实现方法进行详细说明。】3.1系统结构设计3.1.1技术架构,B/S、C/S 平台和移动平台,说明选用该技术的原因。使用【说明系统实现采用的的关键开发技术框架说明。】Html, CSS原因:一:大多浏览器支持,低版本也没问题 。我看点这方面的资料,是为了做应用(有三个方案,这个是备用方案),可以开发响应式,可以脱离开发平台进行跨平台。在 Html5 网页中引入 Modernizr,就能让 IE 支持 HTML5 新元素。HTML5 样板文件快速开发(ht) 。二:布局、省时省力在 CODE 上查看代码片派生到代码片。3.1.2功能模块设计【给出系统开发的功能模块结构图,并说明系统按照什么原理进

19、行划分,系统将由哪些部分, 或层次组成。用图的形式将各个模块之间的调用关系说明清楚。如果采用面向过程的开发技术,给出主要的函数结构和调用关系图;如果采用面向对象的方法进行设计,模块调用关系图相当于包(package )图。】系统模块有首页、馆消费、体育馆消费、艺术中心消费、以及消费情况分析。3.1.3关键功能/算法设计【给出系统关键功能的实现流程图或算法设计流程图,功能优化的技巧等。数据库系统如使过程也应在此进行介绍。用了#-*- coding: UTF-8 -*- import numpy as np import datetimeimport matplotlib.dates import

20、 pylab as pl import csvimport rewith open("") as f:reader = csv.reader(f)cfile = open("D:/Python/project/ls.txt","w")for row in reader:if( re.match(r'201501(.*?)',row1,re.M|re.I):cfile.write(row0+" "+row1+" "+row2+" "+row3+" &q

21、uot;+row4+" "+row5+""+row6+"n")import numpy as np import datetimeimport matplotlib.dates import pylab as pl import csvimport refrom openpyxl import Workbookwith open("D:/Python/project/bf.csv") as f: wb = Workbook()ws = wb.activereader = csv.reader(f) for row

22、in reader:if(re.match(r'201501(.*?)',row1,re.M|re.I): ws.append(row0, float(row1),float(row2),row3,float(row4),row5,row6+"n")wb.save("D:/Python/project/m1.xlsx")#-*- coding: UTF-8 -*-import csv import refrom openpyxl import Workbookwith open("D:/Python/project/bf.csv

23、") as f: wb = Workbook()ws = wb.activereader = csv.reader(f) for row in reader:#if( re.match(r'YQSH20(.*?)|YQSH210(.*?)|YQSH211(.*?)|YQSH212(.*?)',row3,re.M|re.I):#地点的查找if( row0 ="XLHZQXPQ"):#查找人ws.append(row0, float(row1), float(row2),row3,float(row4),row5,row6+"n")

24、wb.save("D:/Python/project/m1.xlsx")and re.match(r'YQSH100(.*?)|YQSH101(.*?)',row3,re.M|re.I) df=pd.read_csv('D:/Python/project/df.csv') frame=pd.DataFrame(df)print(df.head) print(frame'ACCESSTIME',frame'NODEDSC') tup=frame'ACCESSTIME'print (tup)x=fr

25、ame1y=frame2 plt.plot(x,y,'ro')3.2数据结构设计【一般而言数据分为数据及内部逻辑数据,而前两类数据是系统和外部系统之间,以及系统内部模块间交换用的,内部逻辑数据是模块内为了实现一定的逻辑功能而设计的。】我们从原本的 CSV 文件提取想要的数据,没有原本 CSV 文件的数据结构,消费数据和消费数据对应表相对应,这两张表格起来,获取想要的信息。主要以消费数据的数据结构处理数据,并加以处理,做出相应的表格。3.2.1【数据数据是指系统产生的需长期存放在介质上的数据,一般系统都将重要数据存放在介质上,且存放在介质上的数据往往其他系统也可以到。根据1. 数

26、据库方式的不同又可以分为数据库和文件等方式。】【使用 Visio 或直接使用数据库管理系统建立系统数据库的数据对象模型。画出建立的逻辑数据模型 E-R 图,给出数据字典,即列表说明数据库中每个表及视图的字段、主键、外键、约束和索引等,如表 1 所示。门禁地点门禁日期门禁时间编号门禁消费消费地点消费日期消费金额消费时间消费地点表 1 个人消费数据表数据表名: costID中文描述:个人消费数据表字段名称字段描述数据类型长度是否允许空缺省值备注date消费日期date10N000000索引time消费时间time10N00:00:00索引cost消费金额float50NNULLaddress消费地

27、点varchar50NNULL一卡通校园人表 2 个人门禁对应表2. 文件【如果方式为文件,应给出文件的路径及方式,完整清楚地说明文件名规则。对存放在文件中的数据格式和含义应进行说明。从“消费数据.csv”文件中筛选出个人的消费数据以该校园人的学号转码命名,以xlsx文件格式,存放在 python 工程的 data 目录下。到处的文件如下图所示:表头分别对应:学号、消费日期、消费时间、刷卡机编号、消费金额、级别该下图所示信息为 12 级某学号为 XLHZQXPQ 的博士生在 2015 年 1 月的部分消费。3.2.2接口(模块接口、系统间接口)【包含系统间或者模块间用来交换信息用的数据,它是系

28、统接口或者模块接口的一部分,是系统间或者模块间交换信息的桥梁。交换数据方式也可以分为共享数据(共享文件,共享内存等)、通讯协议、参数传递、抛异常等方式。无论采用何种方式必须详细说明数据(协议)的格式及含义。用 python 导入并csv 格式的文件,进而加工处理筛选出需要的数据,将其导出为 xlsx数据表名: addressID中文描述:个人门禁对应表字段名称字段描述数据类型长度是否允许空缺省值备注date门禁日期date10N000000索引time门禁时间time10N00:00:00索引address门禁地点varchar50NNULL文件进一步处理,生成图像。3.2.3关键数据结构【指

29、关键信息在内存中的数据概念数据模型(即类图)。结构。如果采用面向对象的程序设计,这里应该给出就是3.3系统界面设计3.3.1界面设计风格页面上方是菜单栏进行导航,下方是各个分析的结果,包含数据和图表。主页面标题是本次项目的名称。争锋页面色系偏暖,页面布局简洁育馆消费、浴室消费、艺术中心消费、还有一些,操作便捷。菜单栏分别有馆消费、体学生的消费数据,都可以进行。3.3.2主要功能页面主页面列出了我们分析的数据图表,以及相应的分析,只要点击相应的数据分析,就能转到想对应的页面,可以看到图表与文字相结合的叙述,使用户对数据分析有一个完整的了解。消费金额与生活习惯首先,我们筛选出某位博士

30、生同学一年中每月消费总额:根据二月和八月的数据,可以推断出该博士生在寒暑假在学校的时间非常少。其他月份的消费也几乎出于正常水平。接着,我们对该博士生一年内每天消费数据都显示在同一张表格中:横坐标为一天的时间,从零点到 24 点;纵坐标为消费金额。该数据取自 2015 年,即为该博士生一年的消费金额与时间散点图。通过图片,我们意外发现,该博士生出现了一次凌晨四点刷卡消费的!是什么样的 pos 刷卡机会在凌晨四点就提供服务,而又是什么原因导致该博士生会在凌晨四点出门刷卡消费?!带着疑问,我们进行了如下的图像处理。我们发现这个博士生在夜间 12 点左右有消费,是在益新水果行机,这个地方我们不是十分了

31、解,我们推测这是一个自动收货点,因为我们在其他人的消费中也发现了在深夜有在这个地方的消费。一般在深夜是有消费的,可以推测在这么晚时间还有消费的人,一定很晚睡觉。但是这些深夜消费只是偶然的,在众多数据之中,可以被忽略,但是从这个不同寻常的消费中,我们可以推测出这个博士生应该是住在校内的,而且在晚上 10 点之后的消费也很多,应该是睡得较晚的人,而且喜欢在晚上吃零食。这是某的月消费金额趋势,通过数据可发现,该在八月之后再无消费,加之我们查找数据发现在相同时间段的其他地方也无刷卡,可判断该生已毕业。这种情况的发现可体现出毕业人群的特点,可以此为依据判断学生毕业时间。接下来,老师、本科生、的消费金额趋

32、势放在一张表格中:我们发现如下规律:1、老师的在一年中每月的消费金额比较均匀,学生波动较大。2、一般看来,学生消费比老师要略多,我们猜测老师可能会经常回家吃。带着疑问,又分析了老师的日消费散点图:老师的作息真是规律,而且老师的早饭时间比较早,中午和晚上的时间分布可能与教课时间有关系,这里不做评估。但是换法统计该老师的日消费数据,又得到的现象:该老师三月是没有晚餐消费的,而且该老师在暑假仍保持着和平时一样的消费习惯,可推测三月对他的不一样的意义,可能一直回家吃饭;而暑假在学校带学生做项目的可能性也是极大的。老师的饮食习惯很规律,但是学生就不一样了:可以说,该本科生白天的刷卡时间没有非常规律的现象

33、,可推测其作息随着课程的开课时间,有时需要早起,需要刷晨跑,消费早餐的刷卡时间就早一点;若是没有早课不需要早起,就在需要上课的时间之前起床吃早饭消费。就连中午和晚上的时间,也不是很有规律。众所周知,一个人的饮食习惯对一个人的健康是非常重要的,年轻的时候不规律饮食,可能的增长,毛病就会一点一点显现出来危害我们的健康。随着学校的课表中午没有休息时间,十一点四十下课,后的十二点十分就会继续上课,虽说选课自由可以不选那个时间,但是有的专业课的时间是定下来的必须要选的,不仅学生吃不好饭,老师也是。所以,在此我们诚恳的呼吁学校教务处多给我们一点点中午的时间,哪怕晚上上课会更晚一点,我们也需要好好吃一段饭!

34、继续着,我们又发现一个不是“大数据”的数据:该的消费很少,只有 100 条左右,将改的消费换式统计:以日期为横坐标,时间为纵坐标,可看出在 2015 年的消费不怎么在学校待着,一放假就很早就回家,应该是上海学生。主要集中在寒假前,而且该为什么说他不经常在学校待着呢,因为一个正常在学校吃喝玩耍的学生的日常应该是这样的:每个月均匀分布,多有爱而类似于这种少了下半年数据的, 就是前面提到的毕业了的同学,或者当兵也是有可能的。分析了好多个例,这些个例放在一张图表中,加以比对:由此可见,学生群体,不管是本科生、还是博士生,大家的消费趋势都是大同小异的,集中在一、四、五、九、十二等月份。或许学校可以利用学

35、生的这一特点,在这几个月多办一些美食活动,而在淡季多办一些促销活动,达到双赢!这位学生是 09 级的本科生,我们从他的消费中可以看出,他已经不在学校居住,只有在毕业时和一月份左右回过学校,而且也不记得自己有这么长一段时间的没有还书的情况。应该是之后在办毕业手续的时候,学校通知他的,这时他才不得不还这么多的滞留金,这对他来说也是一笔不小的经济损失。建议校馆可以以通知的方式,滞留金较高的同学。从这个同学在益新的消费,可以看出这个人在益新食堂窗口的选择上偏向于一个窗口,我们无法确切得知这是哪个窗口,但是我们也可以推测出这个人在事物的选择上是有偏好的,进一步也可以推测出当一个食堂的一个窗口的事物吸引了

36、一个人之后,这个人会有很大概率再次来这个窗口用餐。在图中可以看出,其他窗口的选择较为平均,说明这个人在选择食物时也会考虑平衡一些,营养均衡一些。而对于食堂来说,美味可口的佳肴绝对是吸引人选用的最大利器。宝山馆滞纳金缴费对于给出的消费文件,使用 Python 对宝山馆滞纳金缴费数据进行了分析,首先根据 设 备 对 照 表 检 索馆 滞 留 金 刷 卡 设 备 对 应 的 设 备 ID 号 :XAZHK00009|1060830|ZHK00073|ZHK00024|ZHK00026|ZHK00028|ZHK00030|ZHK00072|ZHK00010|ZHK00022再根据消费数据

37、表检索出每一个刷卡,图表展示如下:(一)从以上两个图中我们可以看出:1.2.本科生延期还书所占比重最大,其次是。老师和博士生的比重相当。从图中可以看出成员的信誉由高到底依次是(二)从上图我们可以看出1.全校学生中,不管是本科生、还是老师,当欠款金额达到 20 元之后都会较主动得将图书归还。少部分人有超过 50 元的现象。大部分人的欠款金额集中在 0-20 元之间,占总人数的 95.43%2.经过统计筛选出来的数据,我们得知有欠款的人数共有:9600 人欠款金额在 0-20 元人数:9162 人占总人数的 9162/9600=95.43%根据上海大学馆的规章制度(http:/w/shulib/a

38、bout/policy#3)凡逾期违约的资料每册每天收取违约金0.10 元。假设每个人平均有 4 本书超期,一天的滞留金为 0.4,欠款 20 元即超期 50 天。这种现象将使馆滞留,不利于共享,同时将会使同学们养成不诚信的习惯。因此,建议学校改善违约金制度,超期的前 15 天,资料每册每天收取违约金0.10 元,超过 15 天0.20 元。这样大部分人将会在超期的前两周集中归的部分,资料每册每天收取违约金还,有利于的充分共享。(三)纵坐标:一个年级的滞留金总额横坐标:年级从上图中我们可以看出:13 级 14 级滞留金总额最多,其次是 12 级和 11 级,由于 13 级和 14 级大部分都是

39、在校生,因此借书机会,滞留现象也更加严重。而 12 级大部分都已经开始实习,因此借书次数相对较少,超期现象也相对较少。(四)从图中可以看出:1.2015 年 1 月、7 月、8 月数据相对较少,其中 2 月、3 月、7 月、8 月晚上的数据明显很少, 由此现象我们可以推断这段时间学校处于放假状态,但是依然有部分学生在学校学习,借阅。2.上海大学馆的开发时间是每天 8:00-22:00,从图中可以看出有少部分同学是在 8:00 之前归还,人数:32,总人数:9600 人,占总人数的 0.3%。3.针对早起还书的 32 位同学,我们对这些同学进行抽样,分析了其中一名学号为 XQWNAXXQ的同学的

40、所有消费数据,得出以下表格:大部分同学的作息如下表所示:从两个图我们可以看到,一般同学在早晨 6:00 左右没有刷卡,而学号为 XQWNAXXQ的同学 6:00 左右就有很多,因此我们可以推断该同学具有早起的习惯。我们可以看出:这位同学具有早起的习惯。(五)这位学生是 09 级的本科生,我们从他的消费中可以看出,他已经不在学校居住,只有在毕业时和一月份左右回过学校,而且也不记得自己有这么长一段时间的没有还书的情况。应该是之后在办毕业手续的时候,学校通知他的,这时他才不得不还这么多的滞留金,这对他来说也是一笔不小的经济损失。建议校馆可以以通知的方式,滞留金较高的同学。(六)我们发现这个博士生在夜

41、间 12 点左右有消费,是在益新水果行机,这个地方我们不是十分了解,我们推测这是一个自动收货点,因为我们在其他人的消费中也发现了在深夜有在这个地方的消费。一般在深夜是有消费的,可以推测在这么晚时间还有消费的人,一定很晚睡觉。但是这些深夜消费只是偶然的,在众多数据之中,可以被忽略,但是从这个不同寻常的消费中,我们可以推测出这个博士生应该是住在校内的,而且在晚上 10 点之后的消费也很多,应该是睡得较晚的人,而且喜欢在晚上吃零食。(七)艺术中心根据以下设备 ID,我们得出下列表格:ART00001|ART00002|ART00003|ART00004从上表我们可以看出,上海大学艺术中心的消费博士生

42、消费最少。主要是本科生和,其中,从上述表格我们可以看出艺术中心每个月的消费基本稳定,每个月的消费金额集中在0-100 元的居多,也有少数月份金额较高,比如 1 月份,由于上海大学每年 1 月份都会举办新年音乐会,因此去艺术中心练习的人会比平时时水平。,消费数据也就比超出平在上海大学每个年级的人数基本相等,但是从上图可以看出去艺术中心的学生中大部分是低年级的学生,年级越高消费金额越少,去的次数越少。我们可以由此推断,低年级的学生课余时间比高年级的时间更加充裕。除此之外,14 级的人数是最多的,超过了 15 级,这是由于数据是 2015 年一整年的,但是 15 级学生刚刚进入学校,时间较短,消费数

43、据相对较少是非常合理的。从上图我们可以看出,从 8:00-22:00 每个时间段都有很多消费,由此可以推断,去艺术中心的学生非常多,学生需求很大。为了进一步满足学生的需求,提高学生的艺术修养,可以考虑适当增加艺术中心乐器,扩大规模。(八)体育项目从上述三育馆的图表可以看出:1) 由于本科生的人数本身就多于其他的人,所以本科生人数基本上都占最多的人,但在训练馆的消费中看出,的人数大与本科生,可以看出对排球,冰球和篮球的要略大于本科生。2) 纵向比较的话,在训练馆的消费分布都要高于其在另外两个地点的人数分布,而网球管的消费相比较其他两个运动项目略低,可以推断出老师打网球的人数不多。3) 博士生和其

44、他的人在各个场地的消费都差不多,在此就不做出什么结论。从上述数据可以看出:1) 体育馆消费的主力军是 13 级和 14 级,因为级 9 月份新生入学,而 12 级除了在游泳馆的消费的是 15 年的,所以 11 级毕业,15,其他的数据都要明显低于 13,14 级的,这也许与 12 级的同学体育课在 2015 年已经不开设了,并且与 12 级同学也了一些就业的等等。在此我们建议学校还是要给大三的学生开一些体育课程,维持同学们运动的积极性。2) 从游泳数据可以看出无论是 12,13,14 级的同学参与度都很高,可以看出游泳是一项大家都喜爱的运动,我们学校可以继续发挥同学们的积极性,并且增加泳池的开

45、放时间。3) 在训练馆消费上 14 级的同学略高于 13 的同学,其中的因素也许是这些在训练馆开设的项目在 14 级同学心目中收到好评,积极性略高。(九)浴室从这张洗澡的时间的分布图可以看出,校内浴室消费从早上十点左右开始就有人还款,可以看出这时浴室并没有开,但是就有人开始还款。然后从下午四点开始,还款开始增加,这时也正是浴室开放的时候。此后人数开始增加,直到九到十点浴室开始出现一个小浴室即将关闭的时候,也是最后一节课下课的时候,这两个原因导致还款人数的,这时也是。还有一点就是还款金额在 05 元和 40 到 50 元这个区间,我们推测这和人的习惯有关系,有一小部分人习惯在花掉一点钱之后就马上

46、充满,或者是这个人很久么有使用洗澡卡了,不知道洗澡卡中的余额是多少,在的时候顺便就充值了。还有一种就是在余额就快用尽的时候充值,这也是大多数人的习惯,因为没有人会一直关系自己的洗澡卡里有没有钱。4系统安装及使用说明系统就是网页,打开后,点击菜单上的内容即可转到所在的页面。菜单上的内容有首页、馆消费、体育馆消费、艺术中心消费、以及消费情况分析。操作简洁,页面布局。5总结其实一开始,面对大数据的我们,是手无足措的。找不到方向,不知道从何下手。后来,我们小组成员多在一起交流,在一起讨论,一起查阅资料,启发了很多,脑洞也开了好多:我们从消费数据与个人生活习惯、消费数据与人群之间关系、馆还书引出的指导政

47、策、体育馆刷卡、浴室刷卡等,来尽可能多地判断数据背后隐藏的涉及到人的性格、部门的管理等各方面问题,令人深思。我们一开始用 python 处理数据的时候重重,由于数据文件太大不能用 python 导入、不会以 excel 格式导出、 csv 格式文件如何连接数据库、D3.js 如何处理 csv 文件并生成可视化图像这些都是我们的问题,需要一个一个解决。按照计划,每人负责一个部分的学习,最后集中起来一起处理数据是最理想的。但是计划赶不上变化,集中在一起的时候一边做一边一起学习,感觉互相讨论着会进展很快。事实也确实是这样,我们一边讨论着 python 的导入导出以及数据结构,一边对数据进行画图分析,

48、确实也发现了很多值得我们深入挖掘的点。比如,我们会发现一个人的消费活动在晚上比较活跃是不是可以判断有一部分人群的存在会促进夜间营业额的提升?比如,我们发现馆的还书缴费是不是可以调整超期还款的政策以保证馆得到更好的流通?比如,我们发现一个人在学校就餐的次数与价格是不是可以进一步推断这个人的?顺着这个思路我们一步一步挖掘下去,果真是发现了很多好玩的现象。不仅引起我们深思, 提出了我们感觉理想化的建议,还让我们更加认清了一卡通,认清了大数据,认清了数据挖掘!真是受益匪浅!6附录6.1名词定义【列出本文档中用到的可能会引起的专业术语、定义或缩写的原文。】6.2参考资料【列出设计说明书中的文献或资料,资料的作者、标题、样例如下。】和日期等信息,1 蓄水池抽样:http:/news/view/1d1ec166.37源代码#-*- coding: UTF-8 -*- imp

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论