大数据分析技术在电网实际生产中的应用与研究

发表时间:2020/7/1   来源:《工程管理前沿》2020年第26卷8期   作者:贾博 李斌 刘思尧
[导读] 文章在分析公司数据管理现状、电网发展需求的基础上,提出了采用大数据技术构建电力大数据分析平台,实现数据资源的集中管理和统一分析展现,提升公司的“数据资产化”管理进程。
        摘要:随着各类业务应用系统的不断深化应用,对数据分析提出了更高的要求,虽然公司已经采用传统技术构建有非结构化、海量、电网GIS等数据管理平台,但这类平台扩展性不强,针对这些有价值的数据尚未进行有效的计算处理及分析挖掘。文章在分析公司数据管理现状、电网发展需求的基础上,提出了采用大数据技术构建电力大数据分析平台,实现数据资源的集中管理和统一分析展现,提升公司的“数据资产化”管理进程。
关键词:大数据;计算处理;分析挖掘;数据资产化
0.引言
        国家电网公司及各省市公司经过“SG186”工程、“SG-ERP”等信息化建设洗礼后,已初步积累了大量的原始数据。但目前在运的非结构化平台、海量平台、电网GIS平台等多采用的是传统技术手段进行构建,数据存储、分析处理能力欠缺。电网终端数据采集已基本实现,在大数据时代的潮流下,针对这些有价值的数据如何进行有效存储、处理及分析,深入挖掘数据资产的潜在价值,以服务于电网发展和社会发展。为解决以上问题,本文讨论了大数据分析在电力企业中的应用建设,以充分发挥各类运营数据的全面集成和深度融合,消除信息壁垒,实现数据中心的整合升级,全面提升大数据基础支撑能力。
1.现状与需求分析
1.1现状
1.1.1数据管理现状
        伴随着大数据时代的到来,公司积极探索开展大数据的分析应用。当前公司在数据、技术等方面已具备一定的大数据应用基础,也取得了一些应用成效。
        在数据方面,通过信息化SG186和SG-ERP工程建设,公司已经具备了大数据分析应用的数据基础,主要表现在以下三个方面:一是公司三集五大两中心运营管理体系及其支撑系统已全面建成,实现业务大集中和数据大集中。二是公司已经建成一体化企业级信息平台,建立SG-CIM模型,基本建成公共数据资源池。三是公司数据中心已管理结构化数据、非结构化数据、海量历史/准实时数据、电网GIS数据、电网统一视频数据、营销基础数据和用电信息采集系统数据数量巨大,且以每日GB级的速度增长。
        在技术方面,公司已经开展大数据平台总体设计,采用X86架构,引入分布式技术,整合优化重构非结构化数据中心、公共数据组件和智能分析决策平台,构建公司级大数据平台。在数据整合、数据存储、数据计算、数据分析等方面开展了关键技术选型验证,积累了丰富的技术经验。
1.1.2数据管理存在的问题
        虽然公司在数据积累、关键技术等方面已经具备良好的基础,但与互联网及金融电信等行业的大数据应用相比较,还存在相应的短板和局限,主要体现在:
        一是数据质量不高。目前公司在数据获取的颗粒度,数据准确性、完整性、及时性等均存在问题。同时数据标准不一致,不同专业系统的数据无法进行有效的融合,导致跨专业的大数据分析工作无法有效进行。
        二是数据共享存在壁垒。当前各专业产生了大量数据,这些数据除了为本专业服务外,也可为其它专业服务,产生跨专业的应用价值。但由于各专业数据共享存在障碍,存在数据重复存储且不一致现象。
        三是数据存储扩展性不强。现有的数据存储方式,多数采用集中式数据库,扩展性不强。尤其是非结构化数据中心目前面临扩展性差和成本高的问题。
1.1.3电网创新发展需要
        为贯彻落实国家电网公司和省委、省政府决策部署,必须以加快“两个转变”为主线,全面应用“五位一体”机制,促进“三集五大”体系高效运转。目前,“三集五大”体系运行中还存在数据分散、业务系统间信息不共享、数据重复录入等问题,亟待解决。
1.2需求分析
1.2.1大数据上升为国家战略
        国家电网公司作为特大型能源行业,是关系国民经济命脉和国家能源安全的骨干企业。为适应大数据与互联网技术磅礴发展的时代机遇,国家电网公司提出了“能源互联网”的发展战略,以特高压电网为骨干网架(通道)输送清洁能源、建设全球互联泛在的坚强智能电网为目标,将应用云计算、物联网、移动互联、智能穿戴、图像模式识别等大数据技术,增强输变电设备状态的智能感知与实时评价、设备精准定位、故障自动预警等能力,优化大电网分布部署与集中协调的控制模式,跨入电力工业4.0时代。
1.2.2大数据是信息技术发展的趋势
        随着SG-ERP建设的推进,公司完成了结构化数据管理平台、非结构化数据管理平台、海量历史/准实时数据管理平台、电网GIS平台的建设和投运,积累了大量的数据资源,电网业务数据从总量和种类上都已颇具规模,具备了良好的数据基础,并初步实现了企业级数据资源整合及共享利用。
        1)结构化数据管理平台负责存储包括横向共享数据、纵向级联数据、指标分析数据、主题分析数据、数据仓库数据、数据集市数据等,数据存储量级达到TB级,年增长率约50%。
        2)非结构化数据管理平台负责存储包括各种主流格式的办公文档、图片、XML、HTML、各类报表、图像和音频等,数据存储量级将达到PB级。
        3)海量历史/准实时数据管理平台负责调度SCADA、用电信息采集系统、输变电设备状态监测系统等系统准实时数据的接入,数据存储量级将达到TB级。
        4)电网GIS平台负责存储电网资源图形数据、属性数据、拓扑数据,存储量级达到PB级。
1.2.3大数据助推公司与电网创新发展
        大数据服务经济社会发展。通过将人口调查信息、用户实时用电信息和地理、气象等信息全部整合,设计“电力地图”。通过完善“电力地图”,能更准确地反应该区经济状况及各群体的行为习惯,以辅助地方政府和投资者的决策,为城市和电网规划提供基础依据。
        大数据支撑能源互联网建设,推动国家能源综合开发。能源互联网将互联网与风能、太阳能等可再生能源结合,便捷地实现能源共享。将能源生产端、能源传输端、能源消费端的数以亿计的设备、机器、系统连接起来,通过整合运行数据、天气数据、气象数据、电网数据、电力市场数据等,进行大数据分析、负荷预测、发电预测、机器学习,打通并优化能源生产和能源消费端的运作效率,需求和供应将可以进行随时的动态调整。
        大数据丰富电力增值业务。利用电力行业数据可给用户提供更加丰富的增值服务内容。通过给用户提供其各月份分时明细用电视图,可让用户了解自身用电习惯并能根据需要进行调整,同时也使得电力收费过程更透明。
2.大数据分析建设方案
2.1总体架构
        公司大数据应用的主要技术应落地为大数据平台,定位为面向公司大数据应用的配置开发、运行和维护的统一平台。综合考虑公司信息化基础设施及业务应用现状,大数据平台应以分布式存储为核心,提供面向实时流动数据处理的流数据处理,并基于此提供业务数据融合贯通、深加工及数据服务功能。
2.2功能架构
        大数据平台功能架构如下图所示。大数据平台包括数据整合层、数据存储层、数据计算层、数据分析层、数据服务层,以及数据安全、数据管理、管理配置等功能,提供数据存储、计算、分析、展示能力,支撑业务应用建设。
图 1 大数据平台功能架构
2.3数据架构
        大数据平台数据分为结构化数据和非结构化数据,业务系统结果数据、文档资料、视频数据等为非结构化数据,主数据、大数据分析结果等为非结构化数据。其中业务数据可按照SG-CIM模型主题域进行存储结构划分,数据架构图如下:

图 2 大数据平台数据架构
2.4技术架构
        公司大数据平台技术以集成成熟开源产品为主,对现有的可重用的SG-ERP组件进行提升改造,并通过自主研发完善安全机制和运维管理功能。下图是大数据平台的技术架构:
图 3 大数据平台技术架构
2.4.1数据接入
        数据采集是将各类数据从外部数据源导入(清洗、转换)大数据存储系统,以备计算、分析的过程。数据集成从时效角度可分成实时、非实时,从数据量角度分成批量、增量,从数据类可分成结构化数据、半结构化数据、非结构化数据。针对不同类型、不同时效要求的数据,需采多种不同的采集、集成技术。

图 4 数据接入框架
2.4.1.1关系数据采集与处理技术
        大数据平台中的数据通常采取分布式存储技术进行海量数据存储,数据主要来源于公司现有的关系数据库、数据仓库。因此需要利用关系数据库与分布式存储同步技术实现不同存储机制下的数据双向同步。关系数据库与分布式存储同步技术目前应用比较成熟,基于本次大数据平台建设选型,采用了基于Hadoop生态系统中的Sqoop组件,Sqoop可以根据不同的数据采集特点基于开源产品进行定制化开发。当前支持Oracle,Mysql,Hdfs,Hive并发互相交换,Sqoop采用命令行的方式调用,容易与现有的调度监控方案相结合,版本成熟,应用广泛。
2.4.1.2文件采集与处理技术
        大数据平台的数据更多的来自于之前无法有效处理的各类文件,如系统日志、数据交换文件、现场检修照片、远程监视的视频等。在文件采集与处理技术中目前一些技术工具比较成熟,具有较好的扩展性,可靠性,可管理性,具有容错故障恢复模式。基于本次大数据平台建设选型,采用了基于hadoop生态体系中的Flume组件,Flume可以实时的将分布在不同节点、机器上的文本数据收集装载到HDFS、Hive或HBase中。
2.4.1.3实时数据采集技术
        电力系统中传感器等设备产生的数据量很大且变化速度快,具有很严格的处理时效性要求。需要分布式的实时数据高速同步,采集及处理分析技术。
        实时数据的接入方式可采取不同的技术路线。方式1是从现有海量实时数据中心准实时导入数据,方式2是传感器实时数据直接导入大数据平台。这两种方式下都存在着实时数据量大,无法有效地直接存储到大数据平台的问题,必须对实时数据进行预处理、分析只保存有价值的数据。基于本次大数据平台建设选型,采用了消息队列Kafka(Apache开源)接收来自不同实时源的数据,后端采用流处理(Spark Streaming)技术对实时数据进行分析,只保存实时分析结果。
2.5物理架构
        大数据平台集群主要由数据接入集群、数据存储计算集群、服务接口集群组成。数据接入集群部署包括分布式消息队列、流计算节点以及其他数据交换节点等服务。数据存储计算集群包括了数据存储、计算、分析集群。服务接口集群包括R语言服务、ODBC/JDBC服务、Web HTTP/REST服务、FTP服务、NFS服务等。

图 5 大数据平台物理架构
3.建设成效
3.1馈线短期负荷预测
        建立负荷预测模型,利用95598用户信息、用电采集信息、线损情况、气象数据等外部数据,结合用户投诉举报、频繁故障停电、低电压台区分布情况等数据,采用关联分析技术,进行日、周负荷预测。指导安排日调度计划和周调度计划,包括确定机组起停、水火电协调、联络线交换功率、负荷经济分配、水库调度和设备检修等。
3.2输变电设备家族缺陷认定
        利用家族性缺陷信息(设备类型、家族性缺陷设备相关要素、对设备状态的影响、家族性缺陷处理意见等)、设备台账、缺陷情况、故障情况、试验诊断报告或解体检查情况等数据,建立疑似家族缺陷辨识模型,对设备大数据进行挖掘分析,采用文本分析、分类技术进行数据综合分析,辅助进行家族缺陷认定工作。提高家族缺陷检出水平,确保电网运行安全、稳定,从而提升供电服务满意度,提升企业社会形象。
3.3用电信息征信体系服务
        基于电力客户基本信息、历史用电记录、缴费情况、缴费能力、用户窃电信息、有序用电等数据,通过对各类数据进行统计分析,运用层次分析法、模糊综合判断法等方式,建立客户信用评价模型,分析客户信用变化趋势和潜在风险,引导客户增强信用意识。基于不同的信用等级客户,结合客户诉求、消费偏好等因素,采取相应的针对性服务与措施,提升客户服务水平,进一步降低电费回收风险。
4.结论
        通过大数据平台的建设,实现公司各类运营数据的全面集成和深度融合,全面提升大数据基础支撑能力,逐步实现数据中心的整合升级,构建全景信息模型,消除数据隔阂。使大数据平台具备数据资源存储、计算、分析、查询、质控、管理、审计等功能,成为公司内部权威的大数据应用、研究的共享平台,提升公司内外部数据资源整合处理和价值挖掘水平,促进公司“数据资产化”管理进程和业务创新。
         参考文献:
        [1]朱碧钦,吴飞,罗富财.基于大数据的全业务统一数据中心数据分析域建设研究[J].电力信息与通信技术,2017(2):91-96.
        [2]毋毅,赵康.基于大数据平台的电网全业务数据分析域研究[J].电脑知识与技术,2016,12(34):15-17.
        [3]严霄凤,张德馨.大数据研究[J].计算机技术与发展,2013,23(4):168-172.
        [4]杨锐.大数据环境下动态数据仓库的应用研究[J].电子技术与软件工程,2015(2):215.
        [5]施惠娟.可视化数据挖掘技术的研究与实现[D].上海:华东师范大学,2010.
        [6]黄文思,许元斌,邹保平,等.基于大数据的线损计算分析研究[J].电气应用,2015(20):79-84.
        [7]王健宗.面向大数据的高性能计算框架研究[C]//2013全国高性能计算学术年会论文集,2013..
        [8]黄文思,郝悍勇,李金湖,等.基于决策树算法的电力客户欠费风险预测[J].电力信息与通信技术,2016,14(1):19-22.
        [9]郝悍勇,黄文思,林燊,等.用户感知度模型分析及其在客户服务领域的应用[J].电力信息与通信技术,2016,14(1):33-37.
        [10]陈毅波,陈乾,睦建新.基于大数据技术的电网运营分析决策系统研究[J].电力信息与通信技术,2015,13(8):128-131.
        [11]赵云山,刘焕焕.大数据技术在电力行业的应用研究[D].电力行业信息化年会,2013(30):57-62.
        [12]秦小强.电力大数据基础体系架构与应用浅述[J].工程技术:引文版,2016(1):11-11.
        [13]刘阳.浅析大数据背景下电力行业数据应用[J].华东科技:学术版,2015(5):244-244.
        [14]彭小宁.数据仓库与数据挖掘技术[J].怀化学院学报,2002,21(2):34-38.
        作者简介:贾博(1983年----),男,宁夏吴忠人,工程师,管理学学士,从事信息系统建设及管理工作,
        李斌(1985年----),男,宁夏银川人,工程师,工学学士,从事信息系统建设及管理工作,
        刘思尧(1987年----),女,宁夏银川人,工程师,工学学士,从事信息系统建设及管理工作,
投稿 打印文章 转寄朋友 留言编辑 收藏文章
  期刊推荐
1/1
转寄给朋友
朋友的昵称:
朋友的邮件地址:
您的昵称:
您的邮件地址:
邮件主题:
推荐理由:

写信给编辑
标题:
内容:
您的昵称:
您的邮件地址: