简述自动化运维及其在电力IT运维中的实践应用

发表时间:2020/8/12   来源:《电力设备》2020年第10期   作者:陈晨1 刘雪2 赵国俊3
[导读] 摘要:电力行业信息系统运维工作日渐复杂,人工运维将逐步被趋于自动化的运维方式所替代。
        (1.云南电网有限责任公司信息中心  云南省昆明市  650217;2.作云南云电同方科技有限公司  云南省昆明市  650217;3.云南云电同方科技有限公司  云南省昆明市  650217)
        摘要:电力行业信息系统运维工作日渐复杂,人工运维将逐步被趋于自动化的运维方式所替代。本文主要简述了IT运维管理、自动化运维的基本内容,探讨了建立自动化运维管理体系的一般步骤;分析了电力行业目前运维管理方面存在的问题,并对自动化运维在电力行业IT运维中的实践应用情况进行了介绍。
        关键词:电力系统;IT运维;自动化;
        IT运维管理是指IT部门通过制度的制定、流程的管理和先进的技术等手段对系统运行的软硬件环境、系统依托的网络环境、程序和进程的综合化管理。其主要管理内容包括:监控系统网络终端、网关、服务器、OS等基础设施和系统软件;监控数据库等应用支持软件和服务管理;监控业务系统并对相应数据进行统一存储、备份及恢复等管理操作;监控系统内部逻辑资源和物理资源的运行情况。
        目前,随着信息时代的持续发展,IT运维管理技术在不断进步,已经成为IT服务中的重要组成部分。面对日益复杂的业务和个性化的用户需求,不断扩展的IT应用运维需要越来越定制化的运维模式,来保障IT服务的灵活便捷、安全稳定、智能高效,这种模式标志着IT运维已经进入了一个全新的发展阶段——自动化运维[1]。IT运维自动化是指基于流程化的框架,将事件与IT流程相关联,一旦被监控系统发生性能超标或宕机,会触发相关事件以及事先定义好的流程,可自动启动故障响应和恢复机制。自动化工作平台还可帮助IT运维人员完成日常的重复性工作(如备份、杀毒等),提高IT运维效率。同时,IT运维的自动化还要求能够预测故障、在故障发生前能够报警,让IT运维人员把故障消除在发生前,将所产生损失减到最低。相比传统运维,其优势在于提高流程的可控性和运维效率、提高运维透明度、减少风险、减少成本。从最初的几台服务器发展到庞大的数据中心,原始的人工运维已经无法满足技术、业务、管理等方面的要求,标准化、自动化、体系化、全过程管理被IT运维人员逐步重视起来,自此,自动化运维已经成为一种共识,逐渐被广泛的研究和应用。当然,自动化不仅仅只是代替人工操作,更重要的是深层次、全局分析,关注的是如何在有限的运维条件下实现高效、稳定运维与服务最优化、成本最小化。自动化运维对IT运维的影响,已经不仅仅是设备代替人的关系,而是发展到了面向客户服务驱动IT运维决策的层面,成为IT运维最高层面的重要属性之一。相比传统运维,自动化运维有着显而易见的优势:首先,IT运维流程的自动化能够提高流程的可控性,可以基于业务需求来制定个性化的流程,能够提高运维过程的透明度,减少人为错误;其次,作为一种主动运维的方式,通过建立高效地IT运维机制,在故障发生之前就进行预警,IT运维的效率大大提高;再次,自动化运维系统和各种自动化运维工具的应用,提升业务保障能力,减少人的工作,从而大大减少运维的成本。
        要想实现IT运维的自动化,需要建立IT运维自动化管理体系,基本步骤包括:
        第一步先建立IT运维的自动化监控和管理平台。通过监控工具,实现对用户操作规范的约束和对服务器、数据库、中间件等IT资源的实时监控,通过自动监控实现故障、异常综合处理和集中管理,例如:自动触发对应用系统的例行巡检,形成巡检报告;自动对系统补丁进行同步分发与升级、数据备份、自动查杀病毒等工作;
        第二步,建立故障事件自动触发流程,通过建立自动工单式流程,当发生异常或超出预定指标阀值时触发相应的事件,通知相关运维人员来进行处理,从而提高IT运维响应及处理速度;
        第三步,规范事件跟踪管理流程,强化运维力度;对故障、事件进行全过程跟踪管理,建立运维日志并定期进行分析、追踪溯源发现问题。分析业务规律,建立事件规范化处理指南,减少IT运维操作的人为性、随意性,强化运维的执行力度;
        第四步,设立IT运维关键性原则,定义出IT运维的关键流程,对事件区分优先级,关键事件优先处理。
        近年来,电力行业在人们的社会生活、生产中发挥的作用越来越显著,我国电力企业发展迅速,电力信息化程度不断提高。信息系统运维成为了信息系统稳定运行、提高企业信息化程度的重要保障。电力企业通过多年的信息化实践工作,信息系统运维已经实现了从人工运维到计算机管理。但是面对越来越复杂的业务系统和越来越多样化的运维需求,目前的运维工作依然存在很多不足。


        ◆运维人员被动、效率低
        电力信息系统运维[2]目前依然是处于“半自动化”的运维状态,大部分的运维工作依然是在故障、报错出现后由使用者上报给运维人员进行处理,缺乏运维服务管理的主动性,难以对信息系统可能出现的问题预测、分析并进行有效的规避。
        ◆运维成本过高,效率较低
        由于运维工作的被动,信息系统运维需要依赖大量的技术支持工程师,由此产生了较高的人力成本以及相应的管理费、运行维护费等。同时,信息系统使用中,问题出现后需要使用者自行上报,依靠运维人员人工查询、定位,问题的处理需要根据事件管理流程层层递进,并由一线客服人员跟踪闭环,涉及到大量的人员以及沟通协调工作,造成运维工作效率低下。
        ◆运维风险
        在IT运维过程中,只有当事件已经发生并已造成业务影响时才能发现和着手处理,这种被动“救火”不但使IT运维人员终日忙碌,运维过程中的不可控性也会增高,人为出错的概率变大而且常常会出现连锁反应,导致运维的风险加大。
        随着电力行业信息化建设工作的持续推进,信息化运维服务已实现了对整个应用系统及综合技术平台的集中监控、集中维护与集中管理。通过对标业界领先实践,加强运维的风险管控,建立信息化运维服务保障体系,规范全网信息运维服务,提高运维质量,实现了运维服务从传统的人工故障应答处理模式向更为先进的主动故障检测管理方式的转变,运维模式越来越趋于自主化、智能化。近年来电力企业的信息化建设中,运维自动化技术也逐步应用在各个方面:
        ◆在信息化运维服务体系建设中,以“大运维、大服务”为目标,建立服务一站式、管理流程化、作业标准化、队伍专业化、平台一体化的信息化运维服务保障体系,规范管理信息运维服务,提升服务质量及用户满意度,为自动化运维的应用打好基础;
        ◆IT集中运行监控系统作为电力企业信息化规划中的重点建设目标,实现对网络设备、安全设备、主机、数据库、中间件、应用系统等信息系统的集中监控,促进运维工作的监控自动化、分析智能化。通过配置标准的IT监控报警策略,在定期的综合检测和分析中触发告警信息,并通过智能终端,将IT集中监控预警信息直接发送到运维人员手机终端,从而支持运维的快速响应,提高运维效率;
        ◆在IT服务支持管理方面,目前已经建立了统一的信息运维服务保障体系,以全网统一的IT服务热线为窗口建立IT服务呼叫中心,依靠ITSM系统进行自动流转分配处理并实现对事件、问题的闭环管理,提高运维效率。同时针对自助服务进行了研究开发,实现部分问题的客户自主上报和自动处理;
        ◆在IT运维管理方面,主要体现在巡检管理上,通过企业级信息系统自动化功能测试技术支持项目的建设,实现对信息系统功能的定制化自动巡检,运维人员只需维护巡检脚本和配置自定义巡检任务,巡检系统就能够自动测试信息系统各项功能、自动生成巡检日报,在巡检过程中,脚本执行不通过还可自动发送短信通知给运维人员。未来的调度指挥、值班监测等功能也将逐步完善,从而进一步提升运维服务管理水平。
        ◆在开发自动化运维工具[3]方面,电力企业致力于打造IT桌面运维助手,集中实现配置管理、安全监控、远程协助、推广宣传、公告通知、信息推送、自动查杀与终端安全防护等功能,与IT服务管理应用形成业务上的高度集成。
        自动化是IT运维工作的升华,IT运维自动化不单纯是一个维护过程,更是一个管理的提升过程,是IT运维的最高层次,也是未来的发展趋势。在电力行业的十三五信息化规划中,信息化运维服务体系框架是信息化运维服务体系的重要支柱,框架的主要部分包括:IT基础设施、一体化数据采集及准入标准、配置管理数据库、IT服务管理、集中统一的IT运维服务等。依托IT技术的不断发展,根据信息化发展规划,电力企业在信息系统运维自动化上还将不断的进行探索和应用。
        参考文献:
        [1]刘俊 IT自动化运维的研究[M].江苏:软件应用,2018
        [2]戈丹,李永臣,李婷婷等  新形势下电力企业营销系统运维管理体系研究[J].水电能源科学,2011(10):210-213
        [3]姜晓涛,张梅 电力信息网运检自动化工具实践 《数字技术与应用》,2016年.07期
投稿 打印文章 转寄朋友 留言编辑 收藏文章
  期刊推荐
1/1
转寄给朋友
朋友的昵称:
朋友的邮件地址:
您的昵称:
您的邮件地址:
邮件主题:
推荐理由:

写信给编辑
标题:
内容:
您的昵称:
您的邮件地址: