




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、水用量数据预测模型建立和用户分类名称:水用量数据预测模型建立和用户分类简述:(1)基于居民用户历史水用量数据,解决以下问题:分析出居民用户的水用量的规律;对用户进行分类;找出其中不合理用水的居民用户;可根据规律预测用户未来一段时间的用水量。(2)基于大用户历史用水量数据,解决以下问题:分析出大用户的水用量规律;对用户进行分类;当规律不匹配时进行提醒;根据规律预测用户未来一段时间的用水量。1、小用户数据1.1 数据预处理原始数据表中包含很多字段,需要删除无用字段。其次水表可能出现故障,导致读数有问题,如水表读书为负值等一些问题。(1)去除重复记录,将CST_ID、CAI_ID、CXD_NEW_R
2、EADING、CXD_USAGE和CXD_DATE相同的记录进行去重操作。(2)将CXD_USAGE小于0的记录赋值为0;(3)时间转换,数据库中数据毫秒格式存储,为了方便对日期进行操作,故需要将时间转换为yyyy/MM/dd的格式,其转换过程如下所示:(4)校验CXD_USAGE值是否正确,这里通过KETTLE将当天CXD_NEW_READING与前一天CXD_NEW_READING进行求差,然后将差值与CXD_USAGE对比,如果他们差值较大,说明CXD_NEW_READING读书有误或CXD_USAGE有误,则需要进行校验操作,其过程如下图所示:转换结果如下图所示:(5)对(4)所得结果
3、进行去除无效值操作,将前一天后一天读数差值与CXD_USAGE比较,若差值大于10则删除该记录;若当天读数比前一天读书小,则说明读数有问题删除该记录;(6)求每个用户的用水量之和、平均值和标准差。(7)求每个用户周一到周七用水量的平均值,如下图所示:结果如下图所示:(8)合并记录,将总和、均值、方差和每周的的平均用水量合并到一个表中,通过简单的SQL语句便可以完成,UPDATEUSER_VALA,USER_WEEKB-SETA.AVG_SUN=B.AVG_WEEK-WHEREA.CST_ID=B.CST_IDANDB.WEEK=7; 结果如下图所示:1.2 聚类分析K-means:k-mean
4、s 算法接受参数 k ;然后将事先输入的n个数据对象划分为 k个聚类以便使得所获得的聚类满足:同一聚类中的对象相似度较高;而不同聚类中的对象相似度较小。聚类相似度是利用各聚类中对象的均值所获得一个“中心对象”(引力中心)来进行计算的。K-means算法是最为经典的基于划分的聚类方法,是十大经典数据挖掘算法之一。K-means算法的基本思想是:以空间中k个点为中心进行聚类,对最靠近他们的对象归类。通过迭代的方法,逐次更新各聚类中心的值,直至得到最好的聚类结果。假设要把样本集分为c个类别,算法描述如下:(1)适当选择c个类的初始中心;(2)在第k次迭代中,对任意一个样本,求其到c个中心的距离,将该
5、样本归到距离最短的中心所在的类;(3)利用均值等方法更新该类的中心值;(4)对于所有的c个聚类中心,如果利用(2)(3)的迭代法更新后,值保持不变,则迭代结束,否则继续迭代。该算法的最大优势在于简洁和快速,综上所述,K-means可以对用户的用数量进行聚集。(1)通过Weka打开数据,通过下图可以看出大部分用户的用水频率是相差不大的,少数用户用水频率较高,达到99.98%,少数用户用水频率较低,个别用户基本不用水。(2)在Cluster选项卡里选择SimpleKmeans,设置参数numClusters为4,并且忽略到其它属性,点击“Start”,得到如下结果。从图中可以看出Cluster3中
6、的用户用水频率较高,说明其用水是比较规律的,Cluster1用水频率较低,说明是基本不用的,Cluster0是一段时间用,一段时间不用的,Cluster2是偶尔用一下的。(3)用户聚类分组结果如下图所示:1.3 用户用水规律分析数据库中有很多CXD_USAGE为0的用户,和每天用水量较大的用户,由于是分析用户整体的用水规律,所以这里只对正常用户的用水情况进行分析。时间是对用户用水规律分析的重要因素,所以这里以周、年对用户进行分析。(1)对原数据进行清洗,取出不符合规律的数据。然后求出每个用户,每周一到周七的平均用数量,过程如下:数据如下图所示:(2)使用K-Means算法进行聚类分析,设置K=
7、7,结果如图所示,从图中可以看出,Cluster3每周用水量较大,Cluster4每周用水量偏小。(4)随机抽取30个用户对其每周用水量的均值进行分析,从图中可以看出,用户周六、周日用水量相对偏大,周五用水量相对偏低。1.3 用水预测(1)用户每天用水预测通过上面聚类分析,发现Cluster3中用户用水是比较规律的,所以选取Cluster3中数据集作为测试样本。操作如下: a.读取数据b.转换为时间序列c.user1、user2、user3时间序列图像分别如下图所示:d.从上面分析,整个曲线处于大致不变的水平,且随机变动在整个时间序列范围内也可以认为是大致不变的,所以该序列可以大致被描述为一个
8、相加模型,因此我们可以使用简单指数平滑法进行预测。我们采用R中的HoltWinters()函数,为了能够使用HoltWinters中的指数平滑,我们需要进行参数设置:beta=FALSE和gamma=FALSE,预测结果如下图:e. 以上三张图可以看出User1、User2、User3的alpha参数的估计值约分别为0.1370064、0.06724179、0.05665951,User2、User3非常接近0,说明该序列比较平稳。 f.画出预测值和实际值,效果如下图所示:从之前的alpha和上图,可见我们预测的过于平滑,效果并不好,所以接下来使用ARIMA对未来一周用水量进行预测通过以上步骤
9、得到三个模型,分别为ARIMA(2,0,1),ARIMA(0,0,1),ARIMA(2,0,2),forecast使用以上三个模型对未来一周用水量进行预测:User1未来7天实际用水量为0.252, 0.245, 0.256, 0.242, 0.244, 0.210, 0.261User3未来7天实际用水量为0.452, 0.465, 0.506, 0.342, 0.486, 0.520, 0.368从上可以看出,预测误差即残差基本是不自相关。因为上图中在滞后1-20阶(lags 1-20)中样本自相关值都没有超出显著(置信)边界。1) 再利用LB检验,验证有没有确切地信息显示此模型不合理:从上看,p为0.19,基于上面两个检测,所以我们推断在滞后1-20阶(lags 1-20)中没有明显证据说明预测误差是非零自相关的。1) 为了调查预测误差是否是平均
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 《2025音乐作品使用许可合同》
- 定金买地合同范本
- 话费代充合同范本
- 供热委托经营合同范本
- 破碎矿石加工合同范本
- 砌墙的劳务合同范本
- 农村迷信阴阳合同范本
- 移动公司合作合同范本
- 电梯设备转让合同范本
- 水电装修合同范本6
- 路基压实度检验汇总表
- 2022年版《义务教育信息科技技术新课程标准》试题与答案
- 绘本:《幼儿园的一天》
- 2023年高考作文备考之广东重点中学六校四联“鲁侯养鸟”分析
- 公路工程项目管理大纲
- GB/T 34557-2017砂浆、混凝土用乳胶和可再分散乳胶粉
- 半导体制造工艺基础之扩散工艺培训课件
- 溶剂油MSDS危险化学品安全技术说明书
- SURPAC软件地质建模操作步骤
- 新北师大单元分析六上第六单元《比的认识》单元教材解读
- 福建升辉鞋业有限公司年加工EVA鞋底385万双、TPR鞋底65万双、PVC鞋底60万双项目环评报告表
评论
0/150
提交评论