齐超1 孙巍2
1.大唐黑龙江发电有限公司 150078;
2.国网黑龙江省电力有限公司电力科学研究院 150030
摘要:为解决传统电能质量数据处理方法准确性低和复杂度高的问题,本文提出一种基于符号近似聚合(Symbolic Aggregate Approximation,SAX)的电能质量数据符号化处理方法。采用主成分分析法对电能质量数据进行特征提取,构建电能质量数据的快速递归表达。通过分段线性拟合(Piecewise Linear Fitting, PLF)方法对电能质量特征序列其进行降维处理,形成符号化表示。利用符号距离度量方法计算电能质量特征序列符号化表示间的距离,实现电能质量数据的相似聚类。仿真算例分析结果表明所提方法具有准确和高效的优点。
关键词:电能质量;数据处理;符号化表示;SAX
1 引言
随着电网向能源互联和清洁高效的方向不断完善和发展,系统中电能质量的监测、分析和治理等愈发受到重视,电能质量数据呈指数级增长,对相应的数据处理方法提出了更高要求[1]。电能质量数据处理可实现对电网谐波畸变、电压偏差、不平衡、频率偏差等参数的全面计算和分析,以便实施控制,保证电网的安全稳定运行。因此,如何准确和高效地计算与分析电能质量数据具有重要意义。
科学合理的数据处理方法是开展电能质量相关研究的基础。文献[2]采用大数据分析方法对暂态电能质量指标进行评估,具有较快的计算速度。然而,该方法对数据库更新的依赖性会影响评估的准确性。文献[3]提出基于距离度量的数据处理方法,利用二次回归模型分割时间序列,描述每段子序列的数据特征,通过动态时间弯曲距离求解子序列间的距离之和。该方法虽然比较准确,但计算过程繁琐,速度慢。文献[4]在LabVIEW开发环境下搭建一种电能质量监测系统,能够快速智能地完成电能质量数据的计算和分析操作,但可能由于实际场景的不同导致该系统现场应用不便。文献[5]利用支持向量机方法对电能质量数据进行处理和分析,根据电能质量历史数据构建时间序列的回归模型,提取模型特征,测量所建立模型的相似程度,从而实现对电能质量扰动的分类。该方法充分利用历史数据的规律性提升数据处理的准确性,但计算过程复杂、效率低,并且需要收集大量历史数据,难以实现。
为了克服以上方法的不足,本文提出一种基于符号近似聚合(Symbolic Aggregate Approximation,SAX)的电能质量数据符号化处理方法,提取电能质量数据特征,降低数据维度,以符号化表示描述原始时间序列,根据符号距离度量时间序列间的相似程度,从而实现电能质量数据的相似聚类。该方法不仅具有良好的计算准确性,而且数据处理速度快、效率高。
2 电能质量数据处理的具体方法
2.1 电能质量数据特征提取
(1)主成分分析
主成分分析是一种统计学方法,其原理是将高维度的数据转化为少数几个对数据具有描述作用的特征序列,并且特征序列间相互独立,实现数据降维,提升计算效率[6]。
电能质量数据涵盖谐波畸变、电压偏差、不平衡、频率偏差等多项指标,由于不同指标数据的量纲差异,同时避免某项指标数据因为量级较大影响综合计算结果,需要对电能质量数据进行标准化处理。
设有电能质量数据集,通过不同特征变量的均值过滤对应原始数据,标准化处理过程为:
(1)
其中,为某项指标数据集,为不同指标变量的均值,表示指标变量数量。
经均值化处理,电能质量数据集的协方差矩阵的对角元素并非都是1,表示指标间不同的变异程度。
(2)数据特征提取
在电网运行过程中,不同工况下监测和存储的电能质量数据不断积累。通常情况下,依据统计学原理设计的电能质量数据处理方法为相对静止的,不适于实际应用。
递归主成分分析是在采集新数据后,依据历史电能质量数据的统计量,对所有数据重新进行标准化处理,以降低计算代价,得到整体电能质量数据的协方差矩阵及其特征值、特征相量,实现特征提取[7]。
假设存在组、个样本及由个特征变量构成的电能质量数据矩阵,其特征均值可描述成:
.png)
2.2 SAX符号化表示
SAX是一种将原始时间序列转化为离散的符号化表示方法,能够在保持数据整体特征的基础上,实现数据降维和压缩,降低计算复杂度,提高数据处理效率[8]。
SAX将某长度为的时间序列转变为长度为的符号串,代表分段后子序列个数。已知时间序列,则SAX符号化表示过程为:
(1)正规化
对原始时间序列X进行标准化处理,转换为特征序列[9],获取序列:
(10)
其中,用于描述序列中的任意时刻的观测值;用于描述序列中全部观测值的平均值;用于描述序列全部观测值的标准差。
(2)数据降维
采用分段线性拟合(Piecewise Linear Fitting, PLF)方法[10],将长度是的时间序列分割成长度是的序列,所有子序列的均值如下:
(11)
经PFL处理,在保持原始时间序列整体特征的基础上,对数据体量进行了大幅度压缩。
(3)符号化表示
由于时间序列近似满足高斯分布,可将其分割成个等概率区间。在PFL系数值低于最低断点值的情况下,将其映射成符号;在PFL系数值高于最低断点值,低于次低断点值的情况下,将其映射成符号。相同区间的时间序列值可通过同一符号进行描述,最终获取的符号化表示可描述成。
2.3 电能质量数据处理
本节通过关于符号之间距离的度量方法对电能质量数据进行处理,利用矩阵对相应符号间的距离进行描述
.png)
(a)SAX图
.png)
分析表2可以看出,本文方法覆盖率可达97.25%,准确率可达94.42%,明显优于支持向量机方法,且计算速度更快,平均误差更低。
4 结论
本文提出一种基于SAX的电能质量数据符号化处理方法,采用PLF对时间序列进行分段线性转换,提取每段子序列的电能质量数据特征,进而建立数据特征的符号化表示,并利用符号间的距离度量方法实现电能质量数据的相似聚类。经仿真算例验证,所提方法在准确性和计算效率方面具有优势。
参考文献
[1] 林顺富, 谢潮, 汤波, 等. 数据挖掘在电能质量监测数据分析中的应用[J]. 电测与仪表, 2017, 54(9): 46-51.
[2] 张华赢, 朱正国, 姚森敬, 等. 基于大数据分析的暂态电能质量综合评估方法[J]. 南方电网技术, 2015, 9(6): 80-86.
[3] 钟庆, 刘峰, 王钢, 等. 电能质量监测数据中间距离法聚类分析[J]. 电力系统及其自动化学报, 2016, 28(8): 69-73.
[4] 王东楼, 何怡刚, 谢丰, 等. 基于LabVIEW的电能质量分析与远程监测系统[J]. 电源技术, 2016, 40(4): 881-884.
[5] 景皓, 庞先海, 李晓峰, 等. 基于改进支持向量机的电能质量扰动分类[J]. 现代电子技术, 2016, 39(10): 138-141.
[6] 宋伟, 张帆, 叶阳东, 等. 基于SAX方法的时间序列分类问题的多阶段改进研究[J]. 计算机工程与科学, 2016, 38(5): 988-996.
[7] 白堂博, 张来斌, 王旭铎, 等. 基于SAX的关联规则挖掘方法在故障诊断中的应用[J]. 石油机械, 2017, 45(1): 70-74.
[8] 于燕平, 林涛. 基于分形特征提取的电能质量数据挖掘[J]. 计算机应用与软件, 2016, 33(11): 24-27.
[9] 周刚, 燕飞. 一种电能质量异常数据剔除的有效方法[J]. 广东电力, 2014, 27(5): 56-60.
[10] 王耀金, 蒋驰, 蔡乾, 等. 基于分段线性拟合的测向精度优化方法[J]. 数字技术与应用, 2018, 36(8): 47-48.
[11] 王磊, 王秋莎, 吴丽红, 等. 基于主成分分析与信息熵的电能质量综合评估[J]. 陕西电力, 2015, 43(8): 55-58.
第一作者简介:齐超(1988—),男,工程师,
主要研究方向为火力发电厂生产运行管理。