下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、 基于大数据技术的电费风险分析 吴军英+辛锐摘 要:近年来大数据技术迅猛发展,在电商、金融等行业取得了巨大成效。国家电网公司十三五规划目标,广泛应用“大云物移”技术,推动公司管理变革和运营模式创新,推动电网创新发展高效运作。国网河北省电力公司基于大数据技术对电费风险展开分析,对数据来源进行了梳理,并探讨了大数据的采集、存储、处理及分析展示的技术。通过应用场景分析直观展现电费回收情况,发现电费风险问题。关键词:电费回收 电费风险 大数据 数据集市 聚类:tp39 :a :1674-098x(2017)03(a)-0121-02国家电网公司十三五
2、规划目标,广泛应用“大云物移”技术,推动公司管理变革和运营模式创新,推动电网创新发展高效运作。随着智能电网1-3的深入发展,电力大数据已经成为学术研究和企业发展所关注的热点领域,国内外大学、研究机构、it企业、电力公司均已开展了相关方面的研究应用。目前公司精细化管理需要对电费情况进行实时监控,及时发现存在的风险点,调整降低风险,提升企业收益。当前主要采取人工从系统导出数据,工作量大,工作效率低下,并且由于传统系统数据量庞大,经常出现无法导出数据等问题,给日常工作带来很大不便。1 电费风险数据来源电费作为电力公司收益的直观数据,体现了公司经营管理的成果。如何有效地降低电费风险,提升电费回收率,成
3、为当前公司经营管理工作的重点。电费风险来源于电费回收情况,电费回收由发行电费、实收电费、预收电费、欠费电费等几部分组成。日常工作中实收电费由预收结转、欠费缴费等几类业务情况产生,流转较为复杂,因此,此次主要从发行电费、预收电费和欠费电费3个方面入手进行分析。1.1 用戶信息用户分为考核用户、高压用户、低压非居民用户和低压居民四大类。此次主要针对存在电费回收风险较大的用户进行分析,低压居民用户大多为预付费,且管理比较系统化,风险相对较低,此次暂不分析,主要分析剩下的三大类用户。1.2 电费信息电费风险主要通过电费回收情况分析呈现,电费回收主要从发行电费、预收电费和欠费电费几方面体现,所以需要提供
4、用户每月产生的发行电费、预收以及欠费电费数据信息。1.3 供电单位通过分析不同供电单位的电费回收情况,对比各单位的电费回收风险,说明发现供电单位对电费回收风险有一定影响,可以有效借鉴较好的工作经验,制定整改办法,降低供电单位的电费回收风险。1.4 行业类别通过分析用户在不同行业下的电费回收情况,说明不同行业对电费回收风险的影响程度,一定程度上反映了用户行业管理上的不足之处,从而强化管控,降低电费风险,提升电费回收率。1.5 电压等级通过对不同电压等级用户的电费情况分析,发现不同电压等级用户的回收情况有差异,说明电压等级对电费风险有影响。可以从电压负荷、容量、稳定性等各方面分析发现问题,降低电费
5、风险。2 电费风险关键技术hadoop是一个由apache基金会所开发的分布式系统基础架构,hadoop实现了一个分布式文件系统(hadoop distributed file system),简称hdfs。hdfs有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。该平台基于hadoop架构搭建实现,沿用国网大数据平台的数据仓库工具hive。图1为平台技术架构。2.1 数据采集系统采用kafka,sqoop两种技术来实现电费、用户以及所
6、需信息的数据采集整合,为业务场景分析提供数据支撑。kafka是一种高吞吐量的分布式发布订阅消息系统。它的目的是通过hadoop的并行加载机制来统一线上和离线的消息处理,也是为了通过集群机来提供实时的消费。因此,通过kafka技术实现应收电费及欠费电费数据的实时采集。sqoop是一个用来将hadoop和关系型数据库中的数据相互转移的工具。它类似于其他etl工具,使用元数据模型来判断数据类型并在数据从数据源转移到hadoop时确保类型安全的数据处理。sqoop专为大数据批量传输设计,能够分割数据集并创建hadoop任务来处理每个区块。因此,通过sqoop技术实现用户、预收电费等信息的离线数据采集整
7、合。2.2 数据存储数据存储使用数据仓库hive和postgresql数据库联合实现。发挥各自优势,为场景分析提供数据保障。hive用来存放数据采集的第一手数据,将采集到的源端数据存储至hdfs文件系统中。postgresql作为数据集,用来存放从数据仓库hive中抽取到的数据,并且按照国网cim模型的标准域存储,用来存放业务场景分析所需的数据。它通过kettle技术实现完成。2.3 数据计算及分析数据计算采用spark技术来满足业务场景实时分析的需求。spark是uc berkeley amp lab所开源的类hadoop mapreduce的通用并行框架,spark能更好地适用于数据挖掘与
8、机器学习等需要迭代的mapreduce的算法,适用于需要多次操作特定数据集的应用场合。算法上,此次分析主要使用聚类算法,按照需求将不明确的数据实现分门别类,辅助日常监测工作。采用具有代表性的k-means算法,它是很典型的基于距离的聚类算法,采用距离作为相似性的评价指标。通过使用聚类等算法,对业务进行深入挖掘分析,最终以玫瑰图、热力图、雷达图等专业分析图形展示,配备一定的表格展示数据,使分析结果显得更加直观。3 应用场景分析应用场景从系统采集数据,经由噪声处理、分析挖掘最终实现展现。图2为分析挖掘流程,其关键技术包括噪声数据处理、业务数据分析、基于距离计算的聚类分析。噪声数据处理和业务数据分析
9、是按照业务需求,对数据进行初步筛选处理的过程,实现数据挖掘计算;聚类分析是根据欧式距离公式及误差平方和准则实现聚类中心点选择与分类,实现对未知分类数据的类别划分,主要应用于供电单位间、行业间以及电压等级间的电费回收情况对比分类,划分为较好、一般和较差3类。针对较差类别的情况进行深入分析,发现管控薄弱环节,进行整改完善。应用场景围绕电费回收情况开展,包括发行电费、预收电费和欠费电费3类,根据业务主题划分电费回收整体情况分析、预收电费分析和欠费电费分析,其中电费回收情况中包含发行电费、预收电费和欠费电费3类电费的数据信息。此次分析以日为单位实时监控,以月为单位分析电费回收情况,可监控分析每日的电费回收情况,对应分析当月1日截止到监控日的电费回收走势情况,通过供电单位、行业、电压等级多维度分析电费回收情况,发现回收情况弱点,从业务侧深入分析发现风险点,制定整改措施,降低风险,达到提升效益的目的。4 结语未来的电费风险依托于大数据技术实现实时监控,通过分析电费回收情况,进一步深化、挖掘潜在的风险,为电网经营管理提供实时多样化的数据,为公司的精益化管理提供支撑,从而提升企业经济效益。参考文献1 余贻鑫,
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 建材管材团购合同范本
- 大量收购油菜合同范本
- 平台管理合作合同范本
- 承接建筑拆除合同范本
- 承包森林砍伐合同范本
- 伟大的悲剧合集五教案
- 一年级语文上册这边风景独好教案
- 五年级语文晏子使楚教案人教新课标版
- 我要的是葫芦公开课案例试卷教案
- 高中物理传感器的应用二新人教版选修教案
- 血液净化中心(透析室)年度述职报告
- 教科版(2024)二年级科学上册期末综合质量调研卷(含答案)
- 2025年合肥安徽潜晟城市运营管理有限公司公开招聘工作人员考试题库必考题
- 新生儿气道管理临床实践指南(2025版)
- 酒吧消防安培训
- 养老院消防培训方案2025年课件
- Smaart7产品使用说明手册
- 包装班组年终总结
- 瓷砖工程验收课程
- 2025 小学二年级数学上册乘法口诀对口令练习课件
- 专升本旅游管理专业2025年旅游学概论试卷(含答案)
评论
0/150
提交评论