版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、水用量数据预测模型建立和用户分类名称:水用量数据预测模型建立和用户分类简述:(1)基于居民用户历史水用量数据,解决以下问题:分析出居民 用户的水用量的规律;对用户进行分类;找出其中不合理用水的居民用 户;可根据规律预测用户未来一段时间的用水量。(2)基于大用户历史 用水量数据,解决以下问题:分析出大用户的水用量规律;对用户进行 分类;当规律不匹配时进行提醒;根据规律预测用户未来一段时间的用 水量。1、小用户数据1.1数据预处理原始数据表中包含很多字段,需要删除无用字段。其次水表可能 出现故障,导致读数有问题,如水表读书为负值等一些问题。(1)去除重复记录,将 CST_ID、CAID、CXD_N
2、EW_READING、CXD_USAGE和CXD_DATE相同的记录进行去重操作。(2)将CXD_USAGE小于0的记录赋值为0;(3)时间转换,数据库中数据毫秒格式存储,为了方便对日期进行 操作,故需要将时间转换为yyyy/MM/dd的格式,其转换过程如下所 示:字段述径(4) 校验 CXD_USAGE值是否正确,这里通过 KETTLE将当天CXD_NEW_READING 与前一天 CXD_NEW_READING 进行求差, 然后将差值与CXD_USAGE对比,如果他们差值较大,说明CXD_NEW_READING 读书有误或 CXD_USAGE有误,则需要进行 校验操作,其过程如下图所示:分
3、前十与后天差直转换结果如下图所示:Indexes CarisiTainte | TriggersOats吕ariptGrants | Synonyms |PartitiDns | Subpartitions Sta ts/ize | ReferEntial |Used ByColumnsPoides:兰 CXD_ID CAIJDCST_1D CX&_MEW_READIMG CXD.USAGE CXD.DATE NEW.CSTIDMEW_REA01MGMEW.DATENEW MINUS38220210311361.00302012/8/15311361-0032012/8/16債3B220310
4、311361.00302012/8/16311361.0032012/B/17038220410311361.00302012/B/17311361如2012/8/18038220510311361.0030.012012/8/lfl311361.0172012/8/190a013&2206ia31136L0L702012/8/IS3113Q1.0172012/8/20038220710311361.01702012,.B/i0311361.D172Q12/8/21035220310311361.017020L2/S/21311361.017 2012/8/22038220910311361.
5、01702012/8/22311361.0172012/S/23038221010311361.01702012/B/23311361.017ZGlZ/fl/24038221110311361.Q1702012/B/243113C1-0172CHW25038221210311361.01702012/8/25311361.0172012/B/2603S22I31031136LQL702012/B/2631B&L0172012/8/27038221410311361.01702012/8/27311361.D172012/8/2803B22151031136L0L702012/B/3S31136
6、1.0172012/3/29Q38221610311361.01702012,.8/29311361.D17201 ?/fi/300)Sort by Primary Key IDescI Read OriyI _ AliEd Re fresh(5) 对(4)所得结果进行去除无效值操作,将前一天后一天读数差 值与CXD_USAGE比较,若差值大于10则删除该记录;若当天读数 比前一天读书小,则说明读数有问题删除该记录;(6) 求每个用户的用水量之和、平均值和标准差*flS同ORACLE求紅平均*方差增力匚序列玮出#1CSTJDSubjectIS1ALL_UMCXD.USAGE2ALLAVGCXD
7、.USAGE甲均3VARIANCECXD.USAGEORAC LE(7) 求每个用户周一到周七用水量的平均值,如下图所示: 1 亘玉E1 目计算器排序记录分组勘瞬!1表输出结果如下图所示:=IDCST_IDAVG_WEEKWEEK* |68668492110,30756866949211u-za6歸石70492110.32768671492120,3941石 7242120.415268673492120.402368&74Q-H5冲6867S492125石吕石7石49212O.37T7石492120.37768678492130.15116咅石79492130.0992&8680-49213
8、0-089368601492130.097q68632492130.097568683-42130,0876(8)合并记录,将总和、均值、方差和每周的的平均用水量合并到 一个表中,通过简单的SQL语句便可以完成,UPDATE USER_VAL A, USER_WEEIB- SET A.AVG_SUN=B.AVG_WEEK- WHEREA.CST_ID=B.CST_ID AND B.WEEK=7;结果如下图所示:10CSTJDAU.&UMAULAVGVAR1WCAVG.MONAVGJUEAVG.WEOAVG.THUAVG.HUAVG.SATAVG_SUN1512-5140-167049962诟a
9、ie?0.184&1&10,147ai43015&231104了07尊0-232昶畑0CL2J90.21&31W5537-5560-1750470J4M辆CH爲时2am01昴4D-044硒9D.O46awM翻咖5阿1$31107DL339OJ07OKg吐04010l393D.361D.3A2E3110B775.476DJ550.244D-267DJ530-.252BJfiS0.252DJ37D.256731109719.69DJ340.1S6D_261DJ250.2Z7D_23Ji0.219DJ2SD.244B3L11057.B340J020.126D.019D.0220山19D-0170.0
10、22DJD1ED.D269311110.5600.005D.001n0D000-103111275&.O24BJS!aaisQ.226DJ440.24D-22S2511131113丄曲站0-(3血104D.0690.06亦了0.064DL0660.D62123111464乳射0J140.1A1D-286ALIM61抽0.1916L射0.229站3L11S560.910.2140.2D.1S70.1B30.19$D.1320.1214311163SW20.1270.104167.1170.125an?0.11&0.1170.131531117W-20000000001.2聚类分析K-means:
11、 k-means算法接受参数k ;然后将事先输入的n个数 据对象划分为k个聚类以便使得所获得的聚类满足:同一聚类中的 对象相似度较高;而不同聚类中的对象相似度较小。 聚类相似度是利 用各聚类中对象的均值所获得一个“中心对象”(引力中心)来进行计算的。K-means算法是最为经典的基于划分的聚类方法,是十大经典数 据挖掘算法之一。K-means算法的基本思想是:以空间中k个点为中 心进行聚类,对最靠近他们的对象归类。通过迭代的方法,逐次更新 各聚类中心的值,直至得到最好的聚类结果。假设要把样本集分为c个类别,算法描述如下:(1)适当选择c个类的初始中心;(2)在第k次迭代中,对任意一个样本,求其
12、到 c个中心的距离, 将该样本归到距离最短的中心所在的类;(3)利用均值等方法更新该类的中心值;(4)对于所有的c个聚类中心,如果利用(2)(3)的迭代法更新后, 值保持不变,则迭代结束,否则继续迭代。该算法的最大优势在于简洁和快速,综上所述,K-mea ns可以对用户的用数量进行聚集。(1)通过 Weka打开数据,通过下图可以看出大部分用户的用水频 率是相差不大的,少数用户用水频率较高,达到99.98%,少数用户用水频率较低,个别用户基本不用水。Selectmd 宜ttribuUame: CZD_U5AGE_FREType: ITumericMissing: 0 (0%)Iiistinet:
13、 26567Unique: 21286 (46%)Stati e tic:ValueM i ni mum0Maximum1MearL0.647StdDev0.369Cls; CID.USAGEJRE dhn) Vi rail All0.5(2)在 Cluster 选项卡里选择 SimpleKmeans,设置参数 numClusters为4,并且忽略到其它属性,点击Start,”得到如下结果。从图中可以看出Cluster3中的用户用水频率较高,说明其用水是比较规律的,Clusterl用水频率较低,说明是基本不用的,ClusterO是一段时间用,一段时间不用的,Cluster2是偶尔用一下的。Nu
14、mber of iterations:Witliin cluster sum of squared errors: 198.59710349279902Initialseaming points randam):ClusterClusterClusterCluster0: 0.5709341; 0.0075472: Q.4471543: 0.70&SS2Hi93in? values globally replaced with icean./n-cdeFinal cluster centroids:2Lu3tsr#Attribute(5563,0) (22270,0)2XDFREO.460-1
15、630-04730.39eQ.9541Full Data0146556.0)S635.0J (1DL17.D)Time tak皀豆 ud build mfldel (full training: Q23 seccndan Model and evaluation on training setCluatered Iasrance3B636 ( 1)1011? ( 221)5563 ( 12%)22270 ( 4E讦30clusterlcluster3Plot: c_xb_daily_analysis_clustered1cluster2clusterOPlot: c_xh_daily_anal
16、y,sis_clustered0.5:cluster1cluster2cluster3clwterO(3) 用户聚类分组结果如下图所示:Sdata0,10,31103,0.166617,0.198981,0.803641,clusterO1,10f31104,0,229805,0.237598,0.593992,clusterO 2, 10,31105,0.1747 58,0.170015, 0.77048 llusterO3,10,31106,0.044289,0.093391,0.332684,cluster2 4,10,31107,0388 991,0.305920.871291*clu
17、吕5,10,31108.0.254756,0.243554,0.818003,clusterO 6t10,31109,0.233971,0,18612,0.804941,clusterOI, 10,31110, 0,019662,0,126223,0.032609,cluster 1| 8r10,31111,0.000186,0.005089,Oe00266,01056X1 9,10,31112,0.250671,0.257841,Oe856764,cluster3 10,10,31113,0*062844,010415,047612?*cluste工2II, 10,31114,0-21350
18、6Z 0160738,0856859*clusters 12,10,31115,0.192767,0.214263,0.811796,clusterO 13,10,31116,0,127461,0.104358,0.801724,clusterO 14,10,31118,0.504442,0.388314f0.911862,cluster3 15,10,31119f 0.000405, 0.0068 8 8, 0.005312,clusterl 16,10,31120,0.177817,0.17153,0.784626,clusterO 17,10,31121,0*000586z 0-00 6
19、69,0.023873,clusterl 18,10,31122,0,181172, 0.3577f 0.420146,cluster219,10,31123,0,259995,0.21818 9r 0915446r cluster320,10, 31124, 0.07 5215,0.138 416,0.343 974, cluster2 21,10,31125,0.225752,0,216043,0.915199,cluster3 22,10,31126,0*066425,0.124707,0.678244,clusterO 23,10,31127f 0*082125,0.122359,04
20、 037 83ClustQr21.3用户用水规律分析数据库中有很多CXD_USAGE为0的用户,和每天用水量较大的 用户,由于是分析用户整体的用水规律,所以这里只对正常用户的用 水情况进行分析。时间是对用户用水规律分析的重要因素, 所以这里 以周、年对用户进行分析。(1)对原数据进行清洗,取出不符合规律的数据。然后求出每个用户,每周一到周七的平均用数量,过程如下:戲存列排睜记录罔X用水的=均IIORACLE数据如下图所示:CST_rDALL_SUMALL_AVGVARIAWCA7G_I0NATG_TUEAVC_T/EDA.VG_THCJATQ_FRIAVC_SATAVG_SUN31103512
21、*514G 1670, 1990+208C, 1670.1310. 161G 1470. 1430. 15631L0t707. 340. 23d 2330+ 232a 227Q; 23Q+ 236G 2390.229Q+ 21631105537. 5560. 175CUTo.a 164脚0,1660,1620. 1590,16731106136.3220. 0440. 0930,0590. 0460,040” Ml0. 0390. 0350,051311071184.9260. 3890. 3073950. 3990. 3910.4010. 3530. 3610.38231108775. 47
22、60. 2550. 244=工Z670. 2530. 252工Z650. 2520. 2370, 25631109719.6940. 2340. 1860, 2610. 2250. 2270” 2330. 2190. 2280. 2t43111057. 8840. 020.1260, 0190. 0220. 0190. 0170. 0220. 0130. 02631112756, 0240. 2510. 2560. 31G0. 2430. 2260.2440. 240. 22 S0. 25131L13199. 5360. 0630.1040.0690. 060. 0610.0570. 0640
23、. 0660.06231114643. 940. 2140.1610.286o. ioa0.1980.1970.1910.195工229311155S0. 910. 1930. 2140.20. 1670. 1330.2040.1690. 1920. 13231 LI 6384. 4220. 1270.1040. 167a nr0. 1250. 1170.1190. 1170. 1331 Li 81522. 4060. 504ft. 33BCL 5010. 4590. 4=740. 5060. 505仇 4=370. 599(2)使用K-Means算法进行聚类分析,设置 K=7,结果如图所示,
24、从图中可以看出,Cluster3每周用水量较大,Cluster4每周用水量偏小。Nuaber of itftraElons: 110Within cluster sum of 甘gudr皂1 err口上吕:34660E57g.2:Cl.2::S2Initial star ting points (randioa):Cluster 0: 0.26,0.176,0.169,0.165,0.165,0.lea,0.246Cluster 1 0,0,0.004,0.001,0.002,0.012,0Cluster 2: 0.142,0.112,0.135,0.135,0.271,0.141,0.237
25、Cluster 3: 0.177,0.201,0.262,0.224,0.31PD.352P0.256Cluster 4: fl.DC40.00-6,0.003,0.004,0.009,0.007,0.013Cluacer 5: 03輛44。437433437號2田4Cluster 6: 0.23fi#0.22P0.215,0.24,0.204,0.202,0.213Missing values globally replaced with mean/inDde:Final cluster centroids:Cluster#AttributeFull Da工aQ123456(40S4B.D)
26、(630.0)(95oe.a)(8568.0)(1970.D*(9253-0)(689,0)(4030.0)AVG_MOH0.24980.36640,02930.2470.678S0.14060,95950.5039AVG_7UED.2307Q.3310.0290.2247ar63690.1296Q.sm0.40SAVG_WED0.23B70.34550.0290.22960.66710.1320,93250.4945碌_IHU0.23790.340.2204Cr722Q+132C.95G0.4S44AVG_FRID+2170.37690.0320.2910*77590-1401i.nes0.
27、5207AV_SAT0.22310.31EC0*02790.2145Q+3530+930.4543AVG SUN0.23620.3430.02B90.234eD.63480-134E0*91950.4731Time taken g build jr.adel (full 匸raininj data) : 3.51 secondsMedel and evaluation on training setCluatered Instances0630(16%)1950(231)2ess(21%)3190(5%)49253(23)565(彊64030(10%)(4) 随机抽取30个用户对其每周用水量的
28、均值进行分析, 从图中可以看出,用户周六、周日用水量相对偏大,周五用水量相对偏低。一同用水量均值貼心州-AyG.MON ATUE斗*G.THU =AVG_FW稠少T1.3用水预测(1)用户每天用水预测通过上面聚类分析,发现Cluster中用户用水是比较规律的,所以选 取Cluster3中数据集作为测试样本。操作如下:a.读取数据 user! nserlvaL userlval110 2340.3120.2700.1510 975CL 2S30.2320.2570.2490 1730 1330.1BO13Q,Q5542专20-3200.1640,127O 0804Q2弓Q. Q93a. lae0
29、,2470.1470,0192S0.1S50.0330.0533.0350 . OS60.0S30.1120.070.1130.0130.161O. OSS1370.1400.0570.238O.lfll0去50-1550.1520.1800.2650.1350-0910.158(491o 3se03280.1710.0160 0580 1200.1090.1230.127a 1160 2210 plot(userlval)b.转换为时间序列 userlseries U3et23exie3 user33亡工工皂曰 - ts(U3er3val) |c.userl、user2、user3时间序列图
30、像分别如下图所示:一,I a尿 R Graphics: Device 2 (ACTIVE)s匸SLsn40120100180604020Tim廃 R Graphics: Device 2 (ACTIVE)50100150Time益 R Graphits: Dfvic# 2 (ACTIVE)q -| E IIpCS-d. 从上面分析,整个曲线处于大致不变的水平,且随机变动在整个时间序列范围内也可以认 为是大致不变的,所以该序列可以大致被描述为一个相加模型,因此我们可以使用简单指数平滑法进行预测。我们采用R中的HoltWinters()函数,为了能够使用 HoltWinters中的指数 平滑,我们
31、需要进行参数设置:beta=FALSE和gamma=FALSE,预测结果如下图: userlforecasC userIfDiecastHole-Winters exponential jmoaching without trend And wichaut seasonal componSCall:HoltWintex? (x =beta = FALSE,= FALSESmoothing parameters:alpna: 0.L3700S4beta : FALSEgainra: FALSECoefficients;ra 0.260B109I U3r2f orecat user2fozecas
32、tHolt-Winters exponencial moahing without trend 負nd without seasonal campan$Call:Holtwinters(x = userseciesr fceta = FALSE, gamra = FALSESmoothing paraiKeers:alpha: 0.06724179beca : FALSEgairrr.a.: FA1SECoefficients;,1 0*708B65 uer3forecast user3forecastHolt-Winter3 exponential STLOothLng withcmt tr
33、end and without seasonal ccmponCall iHoltWinters (x = userSserie beta = F孔匸SEf garnrta FALSE)SirjODthing pszair.eters :alpha: 0*05665951beca : FALSEgairjTA: FALSECoefficients:a 0.4621452Ie. 以上三张图可以看出Userl、User2、User3的alpha参数的估计值约分别为 0.1370064、0.06724179、0.05665951 , User2、User3非常接近0,说明该序列比较平稳。f. 画出预
34、测值和实际值,效果如下图所示: plot(userIforecast) plot(user2crca3t) plot(user3fcrecast)屣 R Graphics Device 2 (ACTIVE)Holt-Winters filtering蘿 R Graphics-1 Device 2 (ACTIVE)I o 二 80NO 口骂匚JpmE鲁qoHolt-Winters filteringI50曉 R(3rflphi: Devi autoarina(userlseriea)Series : LiserlseriesARIMA(2,0f1 with nonzero meanCoeffic
35、ients:arlar2malintercept1.0373-0.1209-G.S1330.2123b . e.0.17130.1OS20.14560.0229sigina esturated as O 01503 : lag likelihood95 7呂AIC-181.57AICc=-181,130IC=-1.83 autD.arina(user2series)Series: U3er25e工工亡sAHIMA0,0f1 with on-seroCcefficieta:Ml intercept0.14730*75330.0172estimated as 0 0354 : log lik亡li
36、h口。日三4巳AIC=-72.96 AICc=-72.B BIC=-63.79 auto ,ariina (user35eries)Series: user3series(2 r0r2) witn nan-zero ir.eanCoefficients:aila工2iralrr.a2intercept1-370-03903-14920,90-590.弓哼29.e * O 095So.oas0.09470*09820.01333igmaA2 estimated a吕 0 0312-9 ; log lilcelihoc且9AIC=-65.79 Al=-65*00BIC=-48.S2i通过以上步骤得
37、到三个模型,分别为 ARIMA(2,0,1) ,ARIMA(0,0,1) ,ARIMA(2,0,2) , forecast使用以上三个模型对未来一周用水量进行预测:R R Graphk: Device 总(ACTIVE)| 口 | 回 use*_arimeforecasi:Point ForecastLo w QHi 30LO 95Hi 95120.2657S390.11265600.42G90220.02950465730.51007291430*247060.085703620*4077115G.00047327230.4929191440*24104090.079089240.40299
38、35-0.006G4429770.43B726Q1450.23795250.075404140.400S009-0.01043771S0.45654fie0.23S43390.072420370.39S47S-0.013673B0920,48474171470,2331950.05930770.3965543-0,0166-5S6S750.-5S307S31430,23117660,05430200,39467300.0191754403.43152SCUserl 未来 7 天实际用水量为 0.252, 0.245, 0.256, 0.242, 0.244, 0.210, 0.261光 R Graphics: Dwc? 2 ACTIVE)匸 | 回Foreca
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 护理查房中的护理研究
- 2026年量子经典混合计算架构设计与应用场景
- 2026年电池壳体再生金属与再生塑料应用
- 2026年好房子建设与去库存工作有机结合催化剂效应解析
- 2026年消防安全逃生自救培训
- 特殊需要儿童的特征及教育策略
- 2026年社区防溺水
- 循环系统护理的评估方法
- DB15-T 3559-2024 规模化猪场商品猪养殖技术规范
- 护理人员职业发展与继续教育
- 2025年广东省深圳实验学校中学部中考三模英语试卷(含答案)
- 杭州民政局离婚协议书
- 中华服饰之美课件
- 初中美术教学中AI应用的实践体会与思考
- 电气化铁路安全知识57课件
- 子女关系抱养协议书范本
- 2025年常州机电职业技术学院高职单招(数学)历年真题考点含答案解析
- 六年级上册数学分数、百分数应用题分类总结练习题
- 全员育人导师制制度、考核方案、实施方案
- 山东省潍坊市潍城区达标名校2025届中考化学模拟试卷含解析
- 《瑞生弹性蛋白》课件
评论
0/150
提交评论