1. 网站地图
  2. 设为首页
  3. 关于我们


基于 CatBoost 的电力物联网运行风险预测方法 研究

发布时间:2022-11-21 13:48
目 录
摘 要 I
Abstract II
第1 章 绪 论 1
1.1课题背景及研究的目的和意义 1
1.2课题研究现状与存在的问题 2
1.2.1国内外研究现状 2
1.2.2存在的问题 3
1.3课题研究内容 3
1.4论文结构安排 5
第2 章 相关理论与方法 7
2.1电力信息物理社会融合系统(CPSS) 7
2.2过采样方法 8
2.3特征选择方法 9
2.4集成学习方法 9
2.4.1集成学习算法概述 9
242 Bagging 算法和 Boosting 算法 10
2.5本章小结 11
第3章 风险数据的融合与平衡化处理 12
3.1引言 12
3.2风险数据的融合与平衡化处理 12
3.2.1电力物联网运行风险数据的定义 12
3.2.2基于随机矩阵的数据融合 13
3.2.3基于ADASYN的数据不平衡处理 14
3.2.4风险数据的融合与平衡化处理步骤 15
3.3仿真实验及结果分析 16
3.3.1搭建拓扑模型 16
3.3.2数据集 17
3.3.3数据平衡性分析 21
334 ADASYN过采样处理 21
3.3.5过采样算法对比 23
3.4本章小结 24
第4 章 风险预测最优特征子集选择 25
IV
4.1引言 25
4.2基于 ReliefF-S 算法的最优特征子集选择 25
4.2.1ReliefF 算法适用性分析 25
4.2.2ReliefF-S 算法基本原理 26
4.3实验及结果分析 27
4.3.1最优特征子集选择 27
4.3.2模型性能分析 30
4.4本章小结 32
第5 章 基于集成学习的风险预测方法研究 33
5.1引言 33
5.2基于 BO-CatBoost 的电力物联网运行风险预测模型 33
5.2.1CatBoost 算法适用性分析 33
522基于贝叶斯优化的CatBoost算法 34
5.2.3风险预测模型构建流程 35
5.3实验及结果分析 36
5.3.1风险预测方法评价指标 36
5.3.2参数寻优 37
5.3.3模型性能分析 38
5.3.4算法对比分析 41
5.4本章小结 42
结 论 43
参考文献 45
攻读硕士学位期间发表的论文及其它成果 49
东北电力大学学位论文原创性声明和使用权限 50
《中国优秀博硕士学位论文全文数据库》和《中国学位论文全文数据库》投稿声明. . . . . . . . . . 51 致 谢 52
第1 章 绪 论
1.1课题背景及研究的目的和意义
在智能电网深入推进的形势下,电力系统的数字化、信息化、智能化不断发展,带来 了更多的数据源[1,2]。电力物联网是对电力系统所有链路中无处不在的海量信息实现全面 感知的网络,它通过大数据、云计算、5G移动通信、智能城市和区块链等现代化技术与 智能电网深度集成,打开信息孤岛,实现了人与物的广泛互联[3,4]。电力物联网是国家电 网公司建成具有中国特色国际领先的能源互联网企业的重要战略支撑,本质上是电力系统 在信息物理融合的基础上,新融入了一些与社会相关的要素(如非电力领域的物体、人类 活动、自然环境、政府政策等),形成了电力信息物理社会融合系统[5-7]。然而,信息-物 理-社会的融合将导致电力物联网运行环境复杂多样,终端设备接入类型与数量激增,使 其在各个环节都容易受到外界风险的干扰[8-10]。而且,电力物联网能量流、数据流、业务 流的耦合特性逐渐加强,也使得信息、物理、社会侧的交互耦合特性日趋复杂,任何层面 的信息、物理、社会扰动都可能影响电力物联网整体安全可靠运行[11]。仅从单一角度进 行风险分析易导致风险排查不彻底,而风险极易传播和扩散,易引发不可忽视的影响[12]。 因此,在分析电力物联网运行风险时综合考虑信息、物理和社会侧因素十分必要。
电力物联网在运行过程中面临的风险呈现种类多样化和范围扩大化等特点,设备故 障、恶意攻击、人为失误等风险都会影响电力物联网稳定运行[13]。在电力信息物理社会 融合的背景下,风险具有一定的传播性,若不及时排查处理,可能会造成一系列的跨空间 连锁故障,严重时甚至会导致灾难性的停电事故[14]。而越早地发现风险,查明原因,就 能及时采取措施进行修复和防范,从而降低风险损失[15]。但风险具有随机性强、不易被 发现、形成原因复杂等特点,仅靠常规的人工排查、概率统计和电气机理分析难以快速排 除风险[16]。随着广域量测系统的覆盖以及大数据和人工智能技术的发展,电力物联网运 行时产生的海量数据被有效采集,这为基于机器学习的风险分析提供了一定的数据支撑。 因此,从数据挖掘的角度出发,采用机器学习方法对电力物联网运行时存在的风险进行有 效预测,以便及时采取措施进行防范,对保障电力物联网安全稳定运行具有重要意义。
因此,本文在开展电力物联网运行风险预测研究时,综合考虑电力信息、物理和社会 侧的风险因素,设计一种基于集成学习的电力物联网运行风险预测方法,充分挖掘出电力 物联网运行数据中潜藏的信息。通过特征选择、数据不平衡处理、参数优化等方法解决风 险预测模型精度低、速度慢等问题,使构建的风险预测模型在故障发生前就能及时预测出 电力物联网面临的各类安全风险,以便找出薄弱环节加以改进,为电力物联网的安全决策 提供有力辅助。
- 1 -
1.2课题研究现状与存在的问题
1.2.1国内外研究现状
电力物联网的运行状态是实时变化的,设备故障、人为失误、极端天气和网络攻击等 都可能是系统发生风险的诱因。当电力物联网某一处发生风险时,如果不及时发现并切除, 可能会快速传播引起一系列的连锁问题,严重时会导致整个电网受到影响和损失。因此开 展风险预测对维护电力物联网的安全具有重要意义。长期以来,国内外研究者在风险预测 方面也做了大量的研究工作,从方法进行梳理可大致分为以下两个方面:
(1) 基于概率分布的风险预测 基于概率分布的风险预测是通过一些概率分布模型和风险损失函数来考虑发生连锁
故障的可能性和严重程度,从而预测未来电力系统可能的发展趋势[17]。文献[18]综合考虑 了风险的不确定性和耦合性,提出了一种基于BP神经网络的分层风险评估方法,利用不 同风险区间对应不同的风险发生概率来评估单一风险,考虑风险耦合,利用综合概率序列 来评估多重风险。文献[19]综合考虑信息、物理侧风险,提出了一种面向协同攻击的风险 评估和防御资源分配方法,从攻防博弈的角度出发,在多目标协同信息攻击场景中设计了 一种电力系统风险评估公式并构建攻防博弈模型,对评估出的不同风险进行防御。文献[20] 利用图论分析、可用性概率模型、攻击图度量等方法,针对微电网系统不同层中的漏洞问 题,提出了一种电力 CPS 风险评估标准,使用多准则决策技术将这些因素集成到单个度 量中,然后用Choquet积分来计算评估值。文献[21]结合传统的风荷载受力模型,设计了 一种输电线路塔线系统失效概率计算公式,可求解并预测出输电线路塔线系统的失效概 率,增强输电线路在台风灾害下的防灾能力。文献[22]通过分析大量的历史量测数据来设 计回归算法并预测风险,基于对量测数据的一致性分析结果判断预测值和实际值的偏差, 若偏差值超过预先设定的阈值,则认为该数据存在风险且对电力系统造成了一定的影响。 文献[23]通过构建概率分布模型来评估新能源电力系统中的小干扰失稳风险,提出了一种 基于高维模型表达方法的小干扰失稳概率计算方法,用来快速、准确地评估电力系统中的 小干扰失稳风险。
综合上述各种基于概率分布的风险预测方法,是通过构建概率分布模型或者设计风险 评估函数来预测风险,在一定程度上可以评估电力系统当前的运行状态与预测未来发生风 险的概率,便于为电网人员提供一定的决策支撑。然而,该类方法一般对应于电力系统中 特定的拓扑结构或运行方式,运行方式改变会对预测结果产生影响。而且电网中的风险评 估没有特定的指标,有些方法中的阈值需要人为给定,概率分布模型的数学原理也较为复 杂,计算时间长,不能较好地满足实时预测的要求。
(2) 基于机器学习的风险预测 基于机器学习的风险预测是采用机器学习算法来构建模型,通过训练现有的历史量测
- 2 - 数据,使模型可以分析未来的实时量测数据并对可能发生的风险进行预测。文献[24]提出 了一种基于 SVM 组合分类器的电力系统暂态稳定预测方法,首先通过训练数据得到多个 SVM 分类器,然后综合多个 SVM 的概率输出,最终得到组合分类器的预测结果,实现 了对远离稳定边界故障风险的快速准确筛选。文献[25]提出了一种基于马尔科夫链的电力 CPS 风险区域预测方法,通过考虑同一网络中节点间负荷重构的影响以及耦合网络之间 的相互依赖性,建立了电力 CPS 风险区域预测模型,该模型可准确地反映实际系统风险 的传播过程。文献[26]提出了一种基于机器学习的电网安全风险智能评估系统,基于深度 学习方法提取动态安全风险特征,并采用主流机器学习算法构建动态安全风险评估模型, 用来快速评估电网的动态安全风险和预测高风险场景。文献[27]综合考虑了区域、时间和 气象等因素,提出了基于改进的机器学习算法和薄弱点辨识方法,实现了对配电网数据的 相关性分析和故障风险等级的预测,对降低配电网故障和风险发生的概率起到一定作用, 有利于配电网的高效运行。文献[28]采用机器学习方法对在线开放电气干扰数据进行数据 挖掘,开发了一个预测电气干扰类型的系统,所提出的系统可对电气干扰进行有效分类。 文献[29]综合考虑了气象信息、设备运行信息、地理信息等空间多源异构信息,使用拟合 优度法在6种机器学习算法中建立了组合模型,对台风灾害下杆塔损毁风险进行预测与评 估。
随着电力系统中广域量测系统的覆盖,实时获取数据的能力不断成熟,基于机器学习 的风险预测已成为电力物联网风险分析的主流研究方法。而如何更好地利用人工智能、大 数据等先进技术从海量数据中获取有用信息,并采用更精准的模型、更快速的预测方法是 风险分析的主要研究方向。
1.2.2存在的问题
当前对电力物联网运行风险预测的研究主要存在两点不足:
(1) 目前的研究方法中,基于概率分布的风险预测方法过于复杂,不能较好地满足 实时预测的要求。而利用机器学习方法挖掘数据进行风险预测是目前的主流方法,但预测 的精度和效率还有待提升。
(2) 目前的研究大多以信息侧和物理侧为核心进行分析,容易忽略社会侧风险对电 力物联网运行的影响。在电力信息物理社会融合的背景下,若风险分析不全面,易导致风 险排查不彻底,而风险极易传播和扩散,容易造成不可忽视的影响。
1.3 课题研究内容
近年来,广域量测系统被广泛应用于电力系统中,采集到的大量数据为机器学习算法 提供了一定的数据支撑,这为电力物联网运行风险预测模型的训练提供了充足的知识,有 利于提升风险预测模型的精度和泛化能力[30-32]。在电力信息、物理、社会融合的基础上,
- 3 -
 
“数据”成为连接信息、物理和社会空间的重要载体[5],从海量数据中获取有用信息就显 得至关重要。因此,本文从数据挖掘的角度出发,综合考虑电力信息、物理、社会侧因素, 基于集成学习算法设计了一种电力物联网运行风险预测方法。该方法包括:风险数据的融 合与平衡化处理,风险预测最优特征子集选择,以及基于集成学习的风险预测方法研究。
主要研究思路如图 1-1 所示。
 
图 1-1 电力物联网运行风险预测研究流程
主要研究内容如下:
(1)风险数据的融合与平衡化处理
电力物联网运行风险本质上是由信息、物理和社会侧三个空间的风险所决定的,因此, 风险预测要综合考虑电力信息、物理、社会侧的风险数据。而电力物联网运行数据中风险 样本占比很少,使模型不能进行充分学习,会导致后续预测精度下降,甚至会在对风险进 行预测时造成误报。因此,在模型训练前有必要对来自电力信息、物理、社会侧的多源数 据进行有效的数据处理。
针对上述问题,本研究通过引入影响电力物联网运行安全的信息、物理、社会侧的多 源风险数据,以时间序列为基准进行数据融合,基于随机矩阵理论构建融合电力信息、物 理、社会风险的多维数据集;然后,基于自适应综合过采样(ADASYN)方法对融合后 的数据进行数据不平衡处理,根据计算数据不平衡度自动生成和真实样本高度相仿的伪样 本,构建出平衡数据集,克服某些类别样本数量过低引起的训练精度过低,造成风险预测 模型性能不稳定的弊端。
(2)风险预测最优特征子集选择
过采样处理后的电力物联网运行风险平衡样本集仍呈现数据量大,数据维数高的特
点,且存在很多冗余、无关甚至对电力物联网运行风险预测产生干扰的特征,使得直接利 用平衡样本集不能精确地预测出电力物联网面临的风险,甚至会增大模型的时间开销,影
响训练性能。因此,在构建模型前进行有效的特征选择十分必要,这对减少数据冗余,提 升模型精度和降低后续模型时间资源开销具有重要意义。
针对上述问题,本研究提出了 ReliefF-S 算法对处理后的电力物联网风险平衡样本集 进行最优特征选择,以便减少数据冗余。ReliefF-S算法在对样本进行相关性和冗余度评 估时,综合考虑特征对分类的贡献值和特征相互之间的相关度进行数据删减,可更好地适 用于处理电力物联网风险预测中的数据筛选问题。 ReliefF-S 算法可在原始数据维度的基 础上显著降低数据维度,减少模型训练时间,对后续提升模型效率起到一定的作用。
(3)基于集成学习的风险预测方法研究 准确、及时地预测出电力物联网运行时面临的风险类别对电网人员及时隔离风险、排 除故障起到一定的辅助作用。因此在模型设计上,应该主要关注模型对风险预测的时间、 精度和对未知数据中的风险预测性能问题。传统 CatBoost 模型可以通过合并多个分类器 来提升分类性能,但模型性能会受关键参数影响,而手动调参具有一定的盲目性,容易丢 失参数最优解,且消耗时间过长,会影响风险预测模型的精度。
针对上述问题,本研究设计了基于BO-CatBoost的电力物联网运行风险预测模型。首 先以对称树为基分类器构建 CatBoost 模型,然后找出影响模型性能的关键参数,以 CatBoost模型性能作为训练目标,将目标优化函数和参数优化区间传入到贝叶斯优化函数 中,不断执行贝叶斯优化算法对参数进行调整,直到找到使模型性能达到最优的参数组合。 最后,以BO-CatBoost模型为核心,结合数据的融合与平衡化处理、特征选择方法给出一 套完整的电力物联网运行风险预测方案。
1.4 论文结构安排
本课题主要针对电力物联网运行风险预测问题展开研究,共分为5章,各章节的主要 内容如下:
第1章:绪论。首先,从课题研究的背景、目的及意义出发,分析了国内外研究学者 在风险预测方面所做的工作以及存在的问题;然后,根据存在的问题引出本文的研究内容; 最后,给出论文的整体结构安排。
第2 章:相关理论及方法。主要对本文所用到的方法和重点概念进行介绍,包括电力 信息物理社会融合系统、过采样方法、特征选择方法和集成学习方法。
第3 章:风险数据的融合与平衡化处理。首先对风险数据进行定义并通过仿真获取数 据集;然后基于随机矩阵理论对电力信息、物理、社会侧的数据进行融合;最后基于 ADASYN 方法对训练集中的少数类样本进行过采样处理,实现数据的平衡化处理,为后 续模型的训练学习做铺垫。
第4章:风险预测最优特征子集选择。提出ReliefF-S特征选择算法,通过ReliefF算 法计算特征对分类的贡献值,通过 Spearman 算法计算特征间的相关度,联合考虑特征对 分类的贡献值和特征间的相关度对冗余特征进行删除。实验证明, ReliefF-S 算法不仅有
- 5 -
效降低了数据维度,也有效降低了模型的复杂度。
第5章:基于集成学习的风险预测方法研究。建立基于BO-CatBoost的电力物联网运 行风险预测模型。首先以对称树为基分类器,构建 CatBoost 集成分类器,然后引入贝叶 斯优化方法寻找模型最优参数,代替传统的手动调参,实现对电力物联网运行风险的准确 预测,进一步提升模型的整体性能。
结论对本课题的研究内容进行了归纳总结,并分析了本课题所做研究存在的不足,对 今后在电力物联网运行风险分析的研究方向进行了展望。
第2 章 相关理论与方法
2.1电力信息物理社会融合系统(CPSS)
近年来,信息技术的发展实现了电力系统中信息流与能量流的协同互动,电力信息物 理融合系统(Cyber-Physical-System, CPS)是综合物理环境、计算系统和通信网络的多维 复杂系统,它通过通信技术、计算机技术和控制技术的协同,实现电力系统的实时感知、 动态控制与智能决策[33,34]。而电力信息物理社会融合系统(Cyber-Physical-Social-System, CPSS)是在电力信息物理融合系统的基础上,进一步融入了社会层的信息,包括人类社 会的实体活动,经济发展、政府决策和外部环境等,将研究范围扩展到了社会层面,是融 合信息空间、物理空间和社会空间的多维复杂系统[4,5,35,36]。
在电力信息物理社会融合系统中,物理层是指与电力系统直接相关,由发电、变电、 输电、配电和用电等环节组成的电能生产与消费系统。信息层则与计算通信系统相关,由 各种通信设备网络、安全保护装置、自动控制装置以及监控自动化、调度自动化系统组成。
社会层则受能源政策、气象影响、政治因素、人为因素、经济发展等多方面因素驱动。它
 
 
图 2-1 电力信息物理社会融合系统示意图
(1)社会层与信息层之间的关系:社会层信号需通过信息层传播,信息层功能是社 会层关系的载体,信息层的故障也会阻碍社会层信号的传播,社会层可直接实现对信息层 的操控,也可通过信息层作用于物理层。
 
(2) 信息层与物理层之间的关系:信息层可实现对物理层的有效调控,但信息层的 故障和网络攻击也会对物理层产生不良影响,物理层设备的稳定运行是信息层设备正常工 作的基础保障。
(3) 物理层与社会层之间的关系:物理层资源是社会层交互活动的基础,物理层的 安全运行会影响社会层,社会层的活动也可直接影响物理层,它的需求是物理层的电能传 输的驱动力,社会层的活动方式与开放程度又会影响物理层资源的利用途径和效率。
2.2过采样方法
在电力物联网运行数据中,风险数据占比是极少的,可能上万条数据中才会出现几条 风险数据,所以在研究风险预测问题时,数据中就存在着数据不平衡现象,即正常运行状 态的数据所占比例较大,而风险数据比例相对较少。机器学习模型在训练不平衡数据时, 会因为对少数类样本的学习不足而导致模型在面对未知数据时预测精度偏低,甚至容易发 生误报。而过采样可以解决数据不平衡问题,因此,在模型训练之前有必要对训练集中的 少数类样本做过采样处理。
过采样技术是一种常见的数据预处理方法,通过对整体样本进行均衡化分析,然后对 少数类样本进行处理,可通过某种算法规则(随机采样、 SMOTE、 ADASYN 等)来构造 出新的训练数据集,使少数类样本的数量与多数类样本的数量处于同一数量级,最终各类 样本的数量达到平衡。过采样示意图如图 2-2 所示。欠采样算法是通过对多数类样本进行 删减达到数据均衡化的一种数据预处理方法,和欠采样算法相比,过采样算法可以避免丢 失重要样本信息,因此被广泛使用[37,38]。
c ☆ * O O O Q 犬o O O ☆ 0*0 *0* 0* 0 0 0 0*0*0 0
☆☆占。啜。☆★咅° 江咲選誤?:。。
O t)^?o
原始数据 过采样后数据
图 2-2 过采样示意图
为了降低后续模型对各类风险预测的误报率,本文设计基于ADASYN方法对数据集
中的不平衡度进行量化分析。若数据不平衡即对少数类样本数据进行过采样,实现少数类
- 8 -
样本数量的提升,得到平衡样本集,用于后续模型的训练。克服某些类别样本数量过低引 起的模型训练精度低,性能不稳定的弊端。
2.3特征选择方法
电力物联网运行过程中产生的数据量十分庞大,且属性众多,可能存在较多冗余、无 关甚至对电力物联网运行风险预测产生干扰的特征,使得直接利用原始数据集不能较好地 预测出风险,会降低风险预测模型的精度。因此,从众多特征中筛选出与电力物联网运行 风险相关的特征十分必要,这对减少数据冗余,降低模型复杂度和后续时间资源开销具有 重要意义。
对于机器学习算法来说,样本质量的好坏是决定模型训练精度的关键因素。为了有效 提升样本质量,通常需要对数据进行处理,而特征选择就是数据处理时一种常用方法。它 是从原始的多维特征集中筛选出关键特征使得某种评价指标达到最优化,可实现冗余数据 的剔除并有效降低数据维度[39,40]。特征选择方法一般分为三种:包装法、过滤法和嵌入法。 包装法是将学习器的性能作为筛选特征集的评价标准,多次训练学习器,根据评价标准来 筛选特征,会有较大的计算开销。嵌入法是将特征选择与学习器的训练过程结合,在训练 过程中自动进行特征选择,但特征选择性能容易受分类器的影响。过滤法是基于一些衡量 指标对数据中存在的特征进行评分,通过设定评分阈值或者需要的特征个数来自动筛选特 征,但可能导致算法陷入局部最优[41,42]。
为了筛选影响电力物联网运行安全的关键风险特征从而降低后续模型训练的复杂度, 本文设计了 ReliefF-S 方法,联合考虑特征与类别之间的相关度和特征相互之间的相关度 来更大程度地减少数据冗余。一方面,合理降低数据维度,实现数据的去冗余处理。另一 方面,有利于降低模型的复杂度与提升风险预测精度。
2.4集成学习方法
2.4.1集成学习算法概述
集成学习(Ensemble learning)算法是目前较火的一类机器学习算法,算法的基本思 想是通过训练数据得到多个不同的弱学习器,然后采用一定的组合策略,最终形成一个强 学习器。集成学习算法框架如图 2-3 所示。相比较单一模型,集成学习算法挖掘数据信息 更充分,预测结果更加准确、可靠[43]。
 
 
 
在集成学习算法框架中,每个弱学习器通过训练样本数据后可对新的测试样本进行预
测,强学习器则可以基于多个弱学习器,通过某种组合策略输出一个最优预测结果。弱学 习器可以是相同的,也可以是不同的,可以根据不同的场景选取不同的集成策略。集成学 习算法较深度学习算法的优势是模型复杂度低,训练时间短,而且可以实现并行计算。
2.4.2Bagging 算法和 Boosting 算法
目前应用广泛的集成学习算法主要有两种,一种是 Bagging 算法,一种是 Boosting 算法,两者的主要区别是弱学习器学习样本的生成方式不同。其中,Bagging算法是一种 并行化集成方法,多个弱学习器可同时生成,并且彼此之间不存在依赖关系,而Boosting 算法是多个弱学习器必须串行生成并且存在强依赖关系[44]。
 
Bagging 算法原理如图 2-4 所示。在选择训练样本集时, Bagging 算法采用的是有放 回的随机抽样策略,每次抽样可以得到一个数据子集,依次将各个数据子集输入到弱学习 器中进行训练学习,再通过某种组合策略组合弱学习器就可以得到最终的强学习器。
- 10 -
 
Boosting 算法的基本原理如图 2-5 所示。首先,通过初始权重获得第一个数据子集。 然后,利用这个数据子集训练出一个弱学习器,再基于弱学习器的分类误差重新计算权重, 即调高学习误差率高的训练样本权重,使弱学习器在下一轮学习中着重关注学习误差率高 的样本,按照顺序依次迭代,不断提高学习器的性能。最后,赋予学习精度高的弱学习器 较大权值,依次将多个弱学习器通过加权组合成一个强学习器。
2.5本章小结
本章主要介绍研究中所用的相关理论与方法,首先详细介绍了什么是电力信息物理社 会融合系统,并阐述了电力信息、物理、社会层之间的交互关系。然后对电力物联网运行 风险预测研究中用到的具体方法进行了介绍。先分析了处理不平衡数据时需要用到的过采 样方法,然后分析说明了特征选择方法,最后对集成学习算法原理进行了介绍,并分别介 绍了 Bagging算法和Boosting算法,为电力物联网运行风险预测研究的设计与实现提供了 理论基础。
- 11 -
第 3 章 风险数据的融合与平衡化处理
3.1引言
在电力物联网运行风险预测的研究中,已有的方法大多侧重于研究电力信息层、物理 层的安全风险,较少考虑到社会层的安全风险。但社会环境复杂多样,一些极端天气、人 为误操作等因素都会影响电力物联网设备的正常运行[45-47],故需考虑社会层中影响电力物 联网运行安全的因素,并结合信息物理系统,综合分析电力物联网面临的复杂风险。但电 力物联网长期运行过程中,发生风险的概率很低,导致采集到的数据中存在严重的数据不 平衡现象,即正常状态数据占比较大,而风险数据相对较少,容易引起风险预测模型误报 率过高的问题。
本章通过搭建仿真拓扑模型,仿真并抽取电力物联网运行的信息、物理、社会层多源 风险数据,以时间序列为基准进行数据融合,基于随机矩阵理论构建融合电力信息、物理、 社会风险的多维数据集。采用 ADASYN 方法对训练集进行数据不平衡处理,采样生成规 定数量的风险类伪样本,实现数据的平衡化处理,克服某些类别样本数量过低引起的模型 训练精度低,性能不稳定的弊端。该算法较传统研究方法综合考虑了电力信息、物理、社 会侧风险,并通过过采样方法平衡了样本集,使风险预测模型的性能更加稳定、可靠。
3.2风险数据的融合与平衡化处理
3.2.1电力物联网运行风险数据的定义
风险是指威胁电力物联网稳定运行的各种复杂因素,风险管控对电力物联网的安全稳 定运行至关重要。随着电力物联网中信息物理社会系统的融合,信息、物理、社会侧彼此 交互,互相影响,任何层面的扰动都可能影响电力物联网的安全可靠运行,虽然电力物联 网具有一定的自愈能力,可自动调节使系统恢复到正常状态,但一些风险若不及时管控, 也可能会引发一系列的连锁故障,甚至引起大面积的停电事故。所以及时排查风险,进行 风险预测研究对减少停电事故的发生和提高供电质量具有重要意义。
影响电力物联网稳定运行的风险因素众多,本文是从数据挖掘的角度对风险进行研 究,所以要重点关注电力物联网运行时所能采集到的数据以及外界便于获取的数据。为了 便于研究,本文从电力信息、物理、社会的角度出发,着重考虑影响电力物联网运行的以 下几类风险:
(1)物理侧风险数据
随着电力系统中广域量测系统的覆盖,电力物联网运行时产生的海量数据被有效采
- 12 -
集。输电线路的短路风险是电力物联网运行时最容易发生也最常见的风险,线路短路,会 对输电线路的电压造成影响,从而导致更大面积的输电线路损坏,产生严重的危害。电力 系统中线路两端均配置 PMU 同步相量测量装置,可获取线路的三相电流和电压相量、线 路功率等实时数据并发送到数据处理中心[48,49],为后续风险分析提供了一定的数据支撑, 所以物理侧重点研究各类短路风险。
(2) 信息侧风险数据 在电力信息、物理、社会融合的背景下,信息侧和物理侧连接紧密,相互依赖,信息
侧风险可由攻击者从信息侧发起,通过网络连接传递到物理侧,使得物理侧元件设备故障, 引起物理侧电网的波动,严重时会引起停电并带来一定的经济损失。电力物联网的智能监 控系统可以采集到信息侧的数据,为后续风险分析提供了一定的数据支撑,所以信息侧重 点研究恶意的网络攻击风险。
(3) 社会侧风险数据 在电力信息物理社会融合系统中,社会侧的影响因素众多,且随机性强。社会侧的活
动可直接影响物理侧,人为失误和极端气象都会直接对物理侧设备造成一定的影响,所以 将其看成社会侧风险,若风险引起关键电力设备故障,则容易引发停电事故,造成一定的 经济损失。随着气象卫星、雷达和超级计算机等技术的发展,气象数据被有效采集;人为 误操作风险也容易模拟并获取数据。所以社会侧重点研究气象风险和人为误操作风险。
3.2.2基于随机矩阵的数据融合
随机矩阵理论(Random matrix theory, RMT)是一种新兴的大数据分析方法,主要用 来处理多维数据。它可以将各类数据集成到高维矩阵中,在宏观上对数据进行研究分析, 从概率和统计角度研究矩阵的特性和数据的分布情况。随机矩阵理论不需要构建物理模 型,可将各类数据进行综合考虑,便于从高维角度认识复杂系统[50,51]。
在电力信息物理社会融合的角度分析电力物联网的运行风险时,需综合考虑多种因 素。在构建随机矩阵时,需要根据具体的研究目的和可利用的数据资源来选取数据进行数 据分析。通过构建随机矩阵,可将不同维度的数据集成到高维矩阵中,便于从整体研究数 据。
采用随机矩阵理论从电力信息、物理、社会三个角度对电力物联网运行风险进行综合 分析。在任意一段时间内,电力信息、物理、社会侧中的任何一个特征采集到的量测数据 可以构成一个列向量,如信息侧的第i个特征采集到的数据可以表示为X =(石,xi2,…xNy。 分别抽取信息、物理、社会侧的量测数据构成原始数据集Dataset,如公式(3-1)所示。
‘ Dc = { X, X,…,X”}
Dataset = ^Dp = {y1, y2,…,y”} (3-D
、Ds = {zi, Z2,…,Zn }
在构建完电力信息、物理和社会侧的完整数据集后,以时间序列为基准,对同一时间
- 13 -
 
不同空间的数据进行融合。数据融合时,选择其中一个数据文件中的时间序列为基准,该 文件称为基准文件,其他数据流文件的参数都要统一到这一时间基准上来。按照时间序列 将信息、物理、社会侧构建好的数据集集成到一起,构造出高维随机矩阵 D ,如公式(3-2) 所示。
X11 x21 . .. xn1 y11 y21 . .. yn1 z11 z21 . .z”1
D= X12 x22 . .. xn2 y12 y21 . .. yn2 z12 z21 . .z”1 ( 3-2)
_ X1N x2 N . .. xnN y1 N y2N . .. ynN z1 N z2N . .ZnN _
 
该矩阵即为融合了电力信息、物理和社会侧运行风险的完整数据集。
3.2.3基于 ADASYN 的数据不平衡处理
自适应综合过采样算法(adaptive synthetic sampling approach, ADASYN)是一种常用 的数据处理方法,其以密度分布为标准来自动决定训练集中少数类样本需生成的合成样本 数量。ADASYN基于少数类样本的概率分布对少数类样本进行自适应插值(过采样),实 现对少数类样本的扩充,其中考虑了样本的分布信息,避免了样本的简单随机复制,从而 使数据达到均衡[52]。该算法的执行流程如图 3-1 所示。
 
图 3-1 ADASYN 算法流程图
ADASYN 算法执行的具体步骤如下:
(1)将原始数据划分成训练集和测试集,计算训练集样本中的不平衡度。把少数类 样本记为ms,多数类样本记为mt,计算不平衡度的公式如(3-3)所示。
m
d = ,d g (0,1) (3-3)
ml
- 14 -
 
(2) 计算需要合成的样本数量G,如公式(3-4)所示。当b=1时,G为少数类样本 和多数类样本的差值,此时合成数据后的多数类样本和少数类样本正好达到平衡。
G = (mi_叫)*b,b e [0,1] ( 3-4)
(3) 对于每个少数类样本Xi,找出其K个近邻点,将每个少数类样本周围多数类样 本的分布情况表示为rt,如公式(3-5)所示。
r 二 (3-5)
iZ
其中,M表示K个近邻样本点中多数类样本的数量;Z为规范因子,确保r构成一 个分布;少数类样本Xi周围的多数类样本越多,其生成的分布的值也就越高。
(4) 计算每个少数类样本需要合成的样本数目,如公式(3-6)所示。
gi = r xG (3-6)
(5) 生产合成样本s,,如公式(3-7)所示,其中(X” -xt)表示n维空间的差向量,A 为随机数。
s = X + (X - X )xA,Ae[0,1] ( 3-7)
按照上述步骤重复合成少数类样本,直至满足步骤(4)所需要合成的样本数目为止。 ADASYN 算法利用少数类样本的密度分布来自动决定每个少数类样本需要合成的样本数 量,可有效获得充足的和原始数据高度相仿的伪数据,在数据端可有效解决数据不平衡对 机器学习算法训练精度的影响。
3.2.4风险数据的融合与平衡化处理步骤
风险数据的融合与平衡化处理步骤如图3-2所示。
 
由图 3-2 可知,本文从电力信息物理社会融合的角度分析,对电力物联网运行风险数 据进行了定义,基于随机矩阵理论构建了融合电力信息、物理、社会风险的数据集,然后 划分训练集和测试集,设计ADASYN方法对训练集中的不平衡度进行量化分析,若数据 不平衡则对数据中的少数类样本进行过采样,实现少数类样本数量的提升,最终得到平衡 的训练样本集。将平衡的训练样本集用于后续集成学习算法的训练,可以克服少数类样本 数量过低引起的模型因学习不足而导致的训练精度低,性能不稳定的弊端。最后再用测试 集验证后续集成学习算法的性能。
3.3 仿真实验及结果分析
3.3.1搭建拓扑模型
本文利用RT-LAB与OPNET联合仿真来获取电力信息、物理和社会侧的风险数据, 仿真实验平台如图3-3所示,后续实验主要使用编译工具Python3.7平台实现。
 
 
图 3-3 仿真实验平台
RT-LAB 是一套实时仿真系统,可与 MATLAB/Simulink 集成,实现模型编辑、可视 化、数据采集及测试程序等,它的灵活性和可扩展性能有效解决各种复杂仿真和控制问题。 OPNET 是一个网络仿真技术软件包,它能够准确地分析拓扑模型的性能和行为,通过拓 扑结构中的信号控制单元在任意位置设置网络干扰,并采集数据进行统计,可用来仿真信 息侧风险数据。
利用 RT-LAB 搭建一个小型的电网 16结点拓扑结构,如图 3-4所示。其中,橙色元 件表示电源,红色元件表示断路器,绿色元件表示输电线路,黄色元件表示变压器。可以 在拓扑结构中设置不同的故障单元来模拟不同的风险进而生成风险数据。
- 16 -
 
 
3.3.2数据集
本课题主要通过RT-LAB与OPNET的联合仿真,模拟信息、物理、社会侧风险影响 下电力物联网的运行状态变化来获取数据,在模拟风险时,将故障过程和故障恢复过程产 生的数据都视为风险数据。其中主要模拟并采集 8 种状态下电力物联网运行所产生的数 据。 8 种状态分别是电力物联网正常运行状态、单相短路状态、双相短路状态、两相接地 短路状态、三相短路状态、虚假命令注入状态、人为误操作状态和极端气象状态。模拟 8 种状态的具体描述如下:
(1)正常运行状态:电力物联网正常运行,不存在风险。
(2)物理侧风险:①单相短路状态:物理电网两结点间三相输电线路发生单相接地 短路,最为常见,可能产生过电压,发生跳闸。②双相短路状态:物理电网两结点间三相 输电线路发生两相短路,发生短路线路的电压、电流会发生剧烈变化,危害电力系统的稳 定运行。③两相接地短路状态:物理电网两结点间三相输电线路中发生两相接地短路,对 系统和设备危害极大。④三相短路状态:物理电网两结点间三相输电线路发生三相短路, 危害最大,可能使部分用户的供电受到破坏,导致用电设备不能正常工作。
(3)信息侧风险:虚假命令注入状态,即攻击者有预谋的篡改继电保护装置的跳闸 命令,产生错误的动作信号,操作控制器误动作,致使电网控制中心做出错误判断。
(4)社会侧风险:①人为误操作状态:人为因素造成误操作事故,如工作人员因失 误而违规拉闸,导致设备损坏或电网停电。②极端气象状态:极端天气可能对电力设备的
- 17 -
安全运行造成威胁,进而引发故障风险。
在仿真物理侧风险数据时,可以直接在RT-LAB搭建好的拓扑模型中选择结点设置故 障单元来模拟风险并采集数据。如在某结点处设置两相接地短路风险,在仿真过程中,两 相接地短路产生的电流波形图如图3-5所示。
 
 
图 3-5 两相接地短路电流波形图
由图3-5可以看出两相接地短路时电流的变化,仿真的两相接地短路过程会经历从正 常运行到发生两相接地短路,然后有一个恢复过程,最后再恢复到正常运行状态。这些过 程产生的数据都可以被有效采集,其中,将故障过程和故障恢复过程产生的数据都视为风 险数据。
在仿真信息侧风险数据时,可在 RT-LAB 中的某结点处设置信号控制单元,然后在 OPNET 中通过代码输入来模拟信息命令攻击,使带有通信功能的断路器强制动作、不动 作或延迟动作。
在仿真社会侧风险数据时,模拟人为误操作事故时,可直接在RT-LAB中模拟因失误 而违规拉闸,导致设备损坏的状态;在模拟极端气象风险时,可根据文献[53]提出的气象 条件对输电线路参数的影响结论来模拟极端气象风险。在中国气象网下载到同时段的社会 侧气象数据,并将其中的温度20弋、风速0m/s和覆冰厚度0mm作为基准气象条件,在 该基准气象条件下,导线的基准电路参数如表3-1所示。
表 3-1 导线的基准电路参数 [53]
参数类别 基准参数
零序电阻/(Q/km) 0.2911
零序电抗/(Q/km) 0.8947
零序电容/(F/km) 6.5819*10-9
正序电容/(F/km) 1.1809*10-8
根据文献[53]设置一种特殊气象状态:温度-5°C、风速七级风15m/s、覆冰厚度30mm。 在此气象条件下输电线路参数值与基准参数的参数变动对比情况如表3-2所示。
- 18 -
 
表 3-2 特殊气象条件下的线路参数及变动百分比[53]
参数类别 特殊气象时的输电线路参数值 参数变动百分比(%)
零序电阻/(Q/km) 0.3023 3.8
零序电抗/(Q/km) 0.8773 1.9
零序电容/(F/km) 7.2450*10-9 10.1
正序电容/(F/km) 1.2995*10-8 10.1
在仿真时,即可参考表 3-2 所示的特殊气象时输电线路参数值,在某结点附近调节参 数来模拟由气象变化引起的社会侧风险。在此种风险下,也可加入一定的冲击(如给定一 瞬时的冲击电流信号)来模拟恶劣天气下的线路击穿而产生的故障数据。
在利用RT-LAB与OPNET联合仿真模拟不同风险来获取电力信息、物理和社会侧的 风险数据时,以 0.01s 为时间间隔,采集了 210s 共两万多条数据。分别选择不同结点模 拟不同风险,在 15~16.5s 期间设置单相短路风险;在 45~45.5s 期间设置双相短路风险; 在 75~76.5s 期间设置两相接地短路风险;在 120~120.5s 期间设置三相短路风险;在 150~151s 期间设置虚假命令攻击注入风险;在 195s~195.5s 时设置人为违反规程拉闸来模 拟人为误操作风险;在 200~200.5s 时调节特殊气象条件下的线路参数来模拟社会侧的气 象风险。
不同风险对电力物联网运行状态的影响不同,运行产生的数据也不一样,数据采集过
程如图 3-6 所示。
 
图 3-6 数据采集过程
电力信息、物理、社会侧之间彼此融合、相互影响,电力社会侧和信息侧的风险都会
影响到物理侧电力设备的运行。 RT-LAB 是高性能电力实时仿真平台,仿真结果准确,功 能强大,通过 RT-LAB 与 OPNET 联合模拟不同风险产生的仿真数据集符合电力物联网的 实际运行规律,仿真采集到的电力物联网运行数据和风险数据与真实的电力物联网运行数 据和风险数据相比具有类似的变化趋势,因此适用于本文的实验验证。
得到电力信息、物理、社会侧的数据后,以采集的时间序列为基准,基于随机矩阵理
- 19 -
 
论将信息、社会侧的数据融合到物理侧的数据集中,得到多维完整数据集,如表3-3所示。
表 3-3 电力物联网运行风险完整数据集
时间
(s) 物理侧 信息侧 社会侧
Node1-V1
(V) Node1-I1 ...
(A) Node14-V2 …
(V) ..攻击信号 开关状态 气压
(hPa) 覆冰厚度...
(mm)
0. -1.06 -106.4 ... 0.01 … . 0 0 976.2 0 ...
0.01 -0.3 -30.08 . -1967.75 . 0 0 976 0 .
0.02 -0.02 -2.16 . 903.13 . 0 0 976 0 .
0.03 -0.45 -45.21 . 913.4 . 0 0 975.7 0 .
0.04 0.72 71.88 . -2713.06 . 0 0 974.8 0 .
0.05 -0.8 -80.44 . 1353.93 . 0 0 973.7 0 .
150.31 -5039.08 -3.9E-11 . -0.19 . 1 0 970.5 0 .
150.32 8152.5 4.01E-11 -0.19 1 0 970.4 0 .
150.33 -8154.35 -2.5E-11 -0.18 1 0 970.5 0 .
195.2 -0.62 -2.4E-11 0.17 0 1 970.8 0 .
195.21 -5038.1 -4E-11 0.06 0 1 970.5 0 .
195.22 8153.4 4E-11 -0.18 0 1 970.5 0 .
195.23 -8153.4 -2.5E-11 0.34 0 1 970.6 0 .
200 -0.542 1.9E-11 0.21 0 0 970.5 30
200.01 -0.54 1.9E-11 -0.17 0 0 970.5 30
表 3-3 即为融合了电力信息、物理和社会侧风险因素的完整数据集,其中 Node 表示 各结点。该数据集共包含 118 个特征,其中包括物理侧采集的 16 个结点的三相电流与三 相电压等物理量特征,以及信息侧的攻击命令特征和开关状态和气象特征等。
为便于后续模型的学习和训练,根据仿真时间对数据集按照模拟的8种风险进行数据 标注,每种状态用一个标签表示,标注结果见表 3-4。
表 3-4 电力物联网运行风险数据标注结果
数据类型 时间 类别标签
正常数据 0-15s,21-45s,47-75s,81-120s,122-150s,154-195s,205-210s 0
单相短路风险 15-21s 1
双相短路风险 45-47s 2
两相接地风险 75-81s 3
三相短路风险 120-122s 4
虚假命令攻击注入风险 150-154s 5
人为误操作风险 195-200s 6
气象风险 200-205s 7
 
 
3. 3. 3数据平衡性分析
基于随机矩阵理论构建好电力物联网运行风险的多维风险数据集后,对数据进行整体
0.98%
2.94%
0.98%
0.98%
2.45%
3.05%
(a) 原始数据中各类别数目 (b) 原始数据中各类别比例
图 3-7 原始数据统计图
图3-7(a)为原始数据中各类别的数目,图3-7(b)为原始数据中各类别的比例。由上图 可以看出,电力物联网运行风险数据集中,各种类别的样本数量存在着明显的不平衡问题, 类别 0 即电力物联网正常运行状态的数据样本占比高达 85.69%,数量明显高于其他类的 风险样本。正常运行状态数据的数量较多,而风险类别的数据相对较少,这会影响后续集 成学习算法模型的训练,使训练出来的分类器对少数类别样本的预测性能差而导致分类器 的性能下降,因此有必要对少数类样本做过采样处理。
3.3.4ADASYN 过采样处理
若对全体样本进行过采样,会导致严重的过拟合问题,即模型在训练样本中性能表现 很好,但在测试样本中表现不佳。因此,需拿出一定比例的数据样本充当测试集来验证后 续模型性能,所以按照7:3的比例划分训练集和测试集,并对训练集中的少数类样本进行 过采样处理,使模型在训练时有充足的数据样本进行学习。过采样处理时采用 ADASYN 方法,可实现自动将少数类样本数量过采样至和样本数最多类的样本数量持平,训练集中 的各类样本经ADASYN过采样后的数据统计图如图3-8所示。
- 21 -
 
 
(a) 过采样后训练集中各类别数目
图 3-8 过采样后训练集数据统计图
由图3-8可知,经ADASYN算法过采样处理后,训练集中的少数类别的样本数量明 显增多,各类样本的占比已经趋于平衡。
训练集中的数据经ADASYN算法处理后,形成了融合电力信息物理社会侧运行风险 的平衡数据集。为了分析过采样对风险预测模型的提升程度,通过 CatBoost 算法分别对 数据平衡前后的数据集进行训练,并用测试集对模型风险预测性能进行验证,得到数据平
衡化处理前后的风险预测结果的混淆矩阵如图 3-9 所示。
 
 
图 3-9 数据平衡化处理前后风险预测的混淆矩阵
上图的混淆矩阵中,左侧数字表示真实标签,下方数字表示预测标签,从左上到右下 对角线上的值表示该类别样本被预测正确的概率,非对角线上的值表示实际类别和预测类 别之间的误报率。由上图的可以看出,数据平衡化处理后的大部分类别预测的正确率均有 一定程度的提升,如图3-9(a)中,原始数据训练的模型预测的风险类别2、4、7的正确率 偏低,分别为86%、87%和95.9%。由图3-9(b)可知,数据平衡化处理后,风险类别2、4、 7 预测的正确率分别提升到了 93%、 89.9%和 96.5%,误报率也明显下降。因此,数据不 平衡处理对提升少数类样本预测的正确率和降低模型风险预测的误报率具有重要作用。
- 22 -
 
3.3.5过采样算法对比
设计过采样算法的对比实验,常用的过采样方法包括SMOTE算法、ADASYN算法 和随机采样(RandomOverSampler)算法等。以CatBoost模型作为标准,按照7:3的比例 划分训练集和测试集,将训练集中的数据进行过采样处理,分析对比原始数据+CatBoost、 SMOTE+CatBoost、RandomOverSampler+CatBoost 和 ADASYN+CatBoost 这四种过采样算 法。将不同的过采样算法处理后的数据输入CatBoost模型中进行训练,然后用测试集验 证模型,得到不同风险类别预测的正确率对比图如图3-10所示。
~原始数据+CatBoost
— RandomOverSampler+CatBoost
SMOTE+CatBoost
令一 ADASYN+CatBoost
图3-10过采样算法对比图
由图3-10可以看出,上述过采样方法+CatBoost方法预测的正确率相比于原始数据 +CatBoost方法来说,大部分类别都有一定程度的升高,而ADASYN算法更具有一定的 优势,说明在构建风险预测模型前对数据进行过采样处理十分必要。测试集验证不同过采 样算法下各类别预测的正确率变化结果见表3-5。
表 3-5 不同过采样算法下各类别预测的正确率变化结果
风险
类别 原始数据
+CatBoost(%) RandomOverSampler
+CatBoost(%) SMOTE+
CatBoost(%) ADASYN+
CatBoost(%)
0 99.6 ;0.3 ;0.6 ;0.2
1 96.6 ;0.6 不变 不变
2 86 t 6.7 t 6.5 t7
3 97.1 不变 t 1.1 t 1.1
4 87 t 2.7 t 2.2 t 2.2
5 96.1 t 1.6 t 2.1 t 2.3
6 96.1 不变 不变 不变
7 95.9 ;1.2 t 0.6 t 0.6
 
表 3-5 体现了 CatBoost 模型训练不同过采样算法处理后的数据和原始数据后,对各
- 23 - 类别预测的正确率变化结果。由表3-5可知,相比于另外两种算法,随机采样的效果最差, SMOTE 算法和 ADASYN 算法的效果相当。大部分类别预测的正确率均有一定程度的升 高,但ADASYN算法的效果更好一些,如类别2即双相短路风险预测的正确率可提高7%, 类别5即虚假命令攻击注入风险预测的正确率可提高2.3%。但类别0即正常运行数据预 测的正确率都稍有下降,说明过采样方法对少数类样本预测的正确率的提升更加敏感,可 能会对多数类样本预测的正确率稍有影响,但整体上对提升模型的稳定性具有重要作用。
平衡数据集中可能还含有一定的冗余和无关特征,需要进行特征选择来进一步减少冗余, 从而提升模型预测的正确率。
3.4本章小结
本章分析了原有风险预测研究的不足以及数据不平衡问题对风险预测造成的不利影 响,并对电力物联网运行风险数据进行了定义,有针对性地提出了一种风险数据的融合与 平衡化处理的方法。该方法基于随机矩阵理论将电力信息、物理、社会侧数据进行有效的 融合,然后基于 ADASYN 方法对少数类风险样本进行过采样处理。通过仿真实验搭建了 拓扑模型并生成了部分数据集,然后通过实验证明过采样算法的必要性并设计算法对比实 验,可知数据平衡化处理可有效提升少数类样本预测的正确率并降低误报率,整体上对提 升风险预测模型的稳定性具有重要意义。
- 24 -
第 4 章 风险预测最优特征子集选择
4.1引言
随着大数据技术和人工智能技术的发展,实时获取电力物联网运行数据的能力也在不 断增强。但获取的海量数据中可能会存在一些冗余、无关数据,若不进行数据处理直接用 来挖掘学习,会浪费计算资源并影响风险预测的准确率。而在研究电力物联网运行风险时, 提高风险预测的及时性和准确性又是至关重要的,否则会影响排查效率甚至会导致风险的 进一步传播。
针对上述问题,本文基于 ReliefF-S 特征选择方法来实现特征的去冗余操作。首先通 过特征对各个类的近距离样本的区分能力,赋予特征不同的权重来评估特征对分类的贡献 值,筛选出贡献值较大的 k 个特征。然后引入 Spearman 相关系数分析特征间的相关度来 进一步删减冗余特征,构成风险预测最优特征集。一方面,实现数据降维来降低模型复杂 度,另一方面,实现去冗余处理,提升模型的风险预测精度。
4.2基于 ReliefF-S 算法的最优特征子集选择
4.2.1ReliefF 算法适用性分析
随着物理电网与信息、社会系统的高度融合,电力物联网运行过程中不断产生了海量、 实时的数据。但运行数据中也存在很多冗余和无关的特征,如物理侧的电气物理量之间可 能存在某种关联而可以互相推导,社会侧的气象特征中可能存在一些与电力物联网运行无 关的特征。冗余过多会对数据挖掘产生一定的影响,甚至会增大机器学习算法的训练成本 和模型复杂度。因此,在模型训练前对数据进行特征选择来删减冗余数据就显得十分必要。
ReliefF 是一种公认的效果较好的过滤式特征选择方法,它可以根据特征对近距离样 本的区分能力来赋予各个特征对分类的贡献值,贡献值越大,则该特征的分类能力越强。 按照贡献值的大小对不同特征进行排序,通过设定阈值可以筛选出对分类贡献值大的特 征,并将贡献度小的特征删除,从而降低数据维度,减少数据冗余。
ReliefF 算法的优点是利用特征对分类的影响来评估特征权重,可以独立于后续的机 器学习算法,不会受机器学习算法的影响。同时,对数据类型没有限制,全局搜索更优, 运算效率更高,能够应对大规模的数据[54,55],适用于处理电力物联网运行风险预测中的数 据筛选问题。
- 25 -
4.2.2ReliefF-S 算法基本原理
ReliefF 算法适用于处理多类别问题,但它仅评估了每个特征对分类的贡献值,只要 对分类起积极作用的特征都可能被保留下来,而忽略了每一对特征之间的相关关系,可能 会造成特征间的相互冗余。所以在ReliefF算法的基础上,引入Spearman相关系数分析特 征间的相关度来解决这一问题。基于 ReliefF-S 算法联合考虑特征与类别之间的相关关系 和特征间的相关关系实现对风险特征的去冗余操作,以便最大程度地减少冗余,最终得到 最优风险特征集合。ReliefF-S算法的流程图如4-1所示。
 
 
图 4-1 ReliefF-S 算法流程图
ReliefF-S 算法的执行步骤如下:
步骤1:在样本集中随机选择一个样本S,首先搜索与S同类别的k个最近邻样本 Lj( = 1,2,...,k),计算在特征Y下样本S,与L7之间的距离S(Y),公式如(4-1)所示;然 后再搜索与S不同类别的k个最近邻样本Mj(c)(j = 1,2,...,k),计算在特征Y下样本S,与 Mj(c)之间的距离D(Y),公式如(4-2)所示。
k
S(Y)=》diff (Y, S’,L) (4-1)
j=1
k
D(Y) = E diff (Y, S’, Mj (c)) (4-2)
j=1
步骤2:计算在给定特征Y下两个样本&和S2之间的距离,计算公式如(4-3)所示。
- 26 -
 
")-y)1,特征F是连续的
max(Y ) - min(Y )
0,特征F是离散的,且&(卩)=S2(Y) (4-3)
1,特征Y是离散的,且S1(Y)丰S2(Y)
步骤3:不断更新特征Y的权重,在特征Y下,若样本S与其同类别样本的距离小于 该样本与其不同类别样本之间的距离,则表明该特征的分类能力强,应赋予该特征较大权 重。按照这种思想不断迭代n次来更新权重,将各个特征的平均权重作为最终权重,更新 权重W(Y)的公式如(4-4)所示。
W(Y) = W(Y)-空 + 总肆)^(O * 皿)[
nk nk
其中,class(S)表示样本S’的类别,P(c)表示该类别的比例,P(class(St))表示随机 选取样本S’类别的比例,经归一化处理后,每个特征权重的取值范围为[0,1]。
步骤 4:计算任意两个特征之间的相关性系数来判断特征间的相关性,公式如(4-5) 所示。
 
其中,Y,和丫』为表示任意特征,Yif和Y]f表示这两个特征的观察值,Y和Yj则表示k 个观察值的平均值。两个特征间相关性的取值范围为[-1,1],取值越接近 1,表示特征之
间的相关性越强。
步骤 5:根据设定的权重阈值删除权重低的特征,然后在保留的特征中,挑选强相关
性特征中对分类贡献值小的特征进行删除。
4.3 实验及结果分析
4.3.1最优特征子集选择
过采样只是增加了少数类样本的数量,并没有降低数据维度。原始数据中共有 118 列特征,数据维度相对较高,高维数据中可能含有冗余特征,会增加模型的复杂度,导致 模型的训练时间变长。因此,在构建模型前有必要对数据进行特征选择来减少冗余。原始 数据特征及描述见表 4-1,主要包括的是物理侧采集到的 16 结点的三相电压和三相电流 属性,信息侧的攻击命令属性和社会侧的人为开关状态和各种气象属性等118 列特征。
- 27 -
表 4-1 原始数据特征及描述
特征 特征描述
Node_1_V_1 — Node_16_V_1 1到16结点的A相电压
Node_1_V_2— Node_16_V_2 1 到 16 结点的 B 相电压
Node_1_V_3— Node_16_V_3 1到16结点的C相电压
Node_1_I_1 — Node_16_I_1 1到16结点的A相电流
Node_1_I_2— Node_16_I_2 1到16结点的B相电流
Node_1_I_3— Node_16_I_3 1到16结点的C相电流
攻击命令 虚假命令注入攻击
开关状态 人为因素导致的开关误操作
气压、风速、温度等 各类气象特征
本章在第三章的基础上进行,利用平衡样本集进行实验,验证RelieF和ReliefF-S算 法。因为ReliefF算法是通过设置特征对分类的贡献阈值来自动筛选特征,为了找到最佳 特征数并衡量出模型的综合性能,以CatBoost模型在测试集上的F1-Score作为目标函数, 按照所筛选特征的比例来设置贡献阈值并筛选特征,每筛选一次采用CatBoost算法在默 认参数下对风险预测的性能进行验证,得到不同阈值下的算法性能对比如表4-2所示。
表 4-2 不同贡献阈值下 ReliefF 与 ReliefF-S 的性能对比结果
贡献 ReliefF+CatBoost ReliefF-S+CatBoost
阈值 特征数 F1-Score 训练时间 特征数 F1-Score 训练时间
1 22 88.64% 104s 14 87.36% 80s
0.6 38 93.06% 167s 29 92.55% 130s
0.55 42 94.69% 181s 37 94.09% 159s
0.52 53 95.42% 200s 49 95.38% 189s
0.5 68 95.44% 266s 60 95.67% 217s
0.48 80 95.25% 295s 69 95.36% 269s
0.4 94 95.38% 329s 83 95.48% 312s
0.1 106 94.92% 354s 95 95.03% 332s
 
已知利用CatBoost模型处理未经特征选择的平衡样本集时,训练时间为440s,模型 在测试集上的F1-Score为94.87%。由表4-2可以清晰地看出ReliefF和ReliefF-S算法在 不同阈值下的性能对比。当特征数较少时,模型的训练时间较短,但模型的性能不高,随 着特征数的增加,模型的训练时间和性能均有一定程度的提高-ReliefF-S算法相比ReliefF 算法来说,更适合用于高维数据。当贡献阈值设置为0.5时,模型的性能达到最优,此时 可通过 ReliefF-S 算法筛选出 60 列特征,相比于原始特征维度降低了 49%。此时模型的 F1-Score为95.67%,比ReliefF提高了 0.23%,比特征选择前模型的F1-Score提高了 0.8%。 模型的训练时间为217s,比ReliefF缩短了 49s,比特征选择前缩短了 223s。由此可见, ReliefF-S算法相比于ReliefF算法效果更好,且可有效降低数据维度,对模型的性能提升 具有重要意义。
ReliefF-S筛选特征的过程如下:当ReliefF算法中的贡献阈值设置为0.5时,可自动 从 118 列特征中筛选出 68 列特征。得到特征对分类的贡献值如图 4-2 所示,同时,用
- 28 -
Spearman 方法分析所选特征间的相关性,得到特征间的相关性结果如图 4-3 所示。
I丨特征贡献值
 
10 20 30 40 50 60 70 80 90 100 110
特征贡献值
图 4-2 68 列特征对分类的贡献值
图4-2可以看到原始特征中筛选出的 68 列特征以及特征对分类的贡献值,其中,横
坐标表示特征对分类的贡献值,纵坐标为筛选出的特征,按各个特征对分类贡献值的大小
从上往下依次排列。
 
图4-3 可以直观的看出 68 列特征间的相关性,特征间相关性越强,特征系数越大,
- 29 -
 
特征相关性矩阵中的颜色也越深。筛选相关性系数大于0.9的特征,然后将特征对分类贡 献值相对较小的看成冗余特征进行删除,此时可从68列特征中筛选出60列特征,最终所 筛选出的特征即为风险预测的最优特征子集,结果如图 4-4所示。
II —征贡献值
 
特征贡献值
图4-4 ReliefF-S特征选择结果
由图4-4可知,上述筛选出的60列特征即为最优特征子集,相比特征选择之前特征 维度降低了 49%,有效剔除了无关特征和冗余特征。风险预测的最优特征子集包含的最 优特征TOP10分别是:攻击命令、开关状态、温度、相对湿度、Node_3_V_1、覆冰厚度、 Node_1_V_1、Node_4_V_1、Node_2_V_1、Node_4_V_2,这些特征为电力物联网运行风 险预测的关键特征。筛选出的特征涉及到电力信息、物理和社会侧,也说明了综合考虑信 息、物理、社会侧风险进行电力物联网运行风险预测的必要性。
4.3.2模型性能分析
通过ReliefF-S算法筛选出60列最优特征子集后,为了量化分析特征选择对风险预测 模型的提升程度,利用CatBoost算法分别对特征选择处理前后的数据集进行训练,并用 测试集对模型风险预测性能进行验证。以验证模型后得到的精确率、召回率、 F1-Score、 模型的训练时间和预测时间作为分析模型整体性能的评价标准。其中,精确率主要针对预 测结果,表示真正例样本占被预测为正例的样本的比例;召回率主要针对原样本,表示样 本中的正例有多少被预测正确了; F1_Score 可同时考虑精确率和召回率,是精确率和召 回率的调和平均值;宏平均结果是对每个类别的精确率、召回率和F1_Score加和求平均; 加权平均结果是是对宏平均的一种改进,它把每一类样本数量占样本总数量比例作为权重 来进一步求平均值,这样侧重于考虑数据集中各类别样本的不均衡问题,更能反映出在数
- 30 -
 
据不平衡情况下的模型性能。
特征选择处理前后模型的整体性能对比如图 4-5 所示,各类别的预测效果对比如图
4-6 所示。
 
(a) 模型加权平均结果对比 (b) 模型宏平均结果对比 (c) 模型时间性能对比
图4-5 特征选择前后模型整体性能对比
图4-5从整体上对特征选择前后的模型性能进行了对比分析,其中,蓝色柱状图是利 用第三章处理完的平衡样本集进行实验得到的结果,绿色柱状图是在平衡样本集的基础上 利用特征选择后的样本集进行实验得到的结果。由图4-5(a)可以看出,特征选择后,模型 的加权平均结果中的精确率、召回率和F1_Score分别提升了 0.26%,0.16%和0.17%。从 图4-5(b)可以看出,模型的宏平均结果中,召回率提升了 2.26%,精确率下降了 0.44%, 但整体的F1-Score提升了 0.8%,F1-Score更能反映模型的整体性能,说明特征选择是可 以进一步提升模型整体的预测精度的。同时,从图4-5(c)可以看出,特征选择后模型的训 练时间从440s变为217s,预测时间从0.24s变为0.04s,模型的训练时间和预测时间明显 缩短,说明特征选择可有效降低模型的复杂度并提升模型的响应速度,非常有利于风险预
测。
 
 
图4-6 特征选择前后各类别预测效果对比
图4-6是利用特征选择前后的数据进行实验得到的归一化的混淆矩阵,由此可以清晰
- 31 - 的看出各类别的预测效果。其中,左侧数字是真实标签值,下方数字是预测标签值,对角 线上的数值表示该类别样本被预测正确的概率,非对角线上的数值表示实际类别和预测类 别之间的误报率。由图4-6(a)和图4-6(b)可以看出,特征选择后的风险类别1、2、4、5、 6、 7的预测正确率均有提升,且分别提升了1%、 5.3%、 8.3%、 0.7%、 0.4%和 2.9%,各 类别预测的正确率趋于均衡,模型整体的误报率明显下降,说明特征选择有利于提升模型 的稳定性。
综上所述,风险预测最优特征子集选择不仅可以实现数据的去冗余操作,而且可以极 大地缩短模型的训练时间和预测时间,对提高模型的效率和稳定性具有重要意义。
4.4本章小结
本章设计了 ReliefF-S 算法对处理后的电力物联网运行风险平衡样本集进行最优特征 选择,以便减少数据冗余。在算法设计过程中,对样本进行相关性和冗余度评估时,联合 考虑了特征与类别之间的相关度和特征相互之间的相关度,以便更大程度地减少数据冗 余,最终筛选出的特征组成了风险预测最优特征子集。通过实验进行了分析验证,证明了 ReliefF-S 算法可以有效实现电力物联网运行数据的降维处理,同时利用特征选择后的数 据训练模型也提高了模型的效率,减少了模型的训练时间,并对后续模型精度的提升起到 一定的作用。
- 32 -
第 5 章 基于集成学习的风险预测方法研究
5.1引言
目前,影响电力物联网稳定运行的各类风险众多、机理复杂,仅靠人工进行概率统计 分析不易排查风险且十分耗时。机器学习方法可以利用其高智能,高效率的特点准确、及 时地预测出电力物联网运行时面临的风险类别[56,57],对电网人员及时隔离风险、排除故障 起到一定的辅助作用。但机器学习模型的性能会受关键参数影响[58],通常需要不断调整 关键参数的值来获取最佳的参数组合。而手动调参具有一定的盲目性,容易丢失参数最优 解,且消耗时间过长,会影响风险预测模型的性能。
针对上述问题,本文在风险数据的融合与平衡化处理和特征选择的基础上,提出了一 种基于集成学习的电力物联网运行风险预测方法,设计了基于 BO-CatBoost 的电力物联网 运行风险预测模型。该建模过程包含两个模型训练学习阶段,第一阶段以对称树为基分类 器构建电力物联网运行风险预测模型;第二阶段引入贝叶斯优化算法(Bayesian Optimization)对CatBoost模型进行参数寻优,得到模型的最优参数组合,实现了电力物 联网运行风险的高精度预测。
5. 2基于BO-CatBoost的电力物联网运行风险预测模型
5.2.1CatBoost 算法适用性分析
梯度提升决策树(Gradient Boosting Decision Tree, GBDT)是一种集成学习算法,算 法的思想是每次迭代产生一个弱学习器,每个弱学习器基于上一轮弱学习器进行训练,在 训练过程中,通过降低偏差来不断提高最终强学习器的精度,将每轮训练得到的弱学习器 加权求和得到最终的强学习器[59]。
CatBoost算法是一种新兴的、基于改进梯度提升决策树的集成学习算法,它最鲜明的 优点是提出了排序提升策略来解决梯度提升决策树中存在的梯度偏差和预测偏移问题,从 而减少了过拟合的发生。同时,采用对称树为基学习器来提高模型的泛化能力和预测速度, 从而保证了模型的训练速度和预测精度。CatBoost算法mW]的主要特点如下:
(1)可处理类别型特征
CatBoost模型通常采用目标值统计的方法来处理离散型特征,先对样本集进行随机排 序,然后将类别型特征按照某种方法转换成数值型特征。假设第k个样本的第i维特征是 离散型特征,则将类别型特征转换为数值型特征的公式如(5-1)所示。
- 33 -
.工” ED {xk = xj}xy3 + aXp
x; = jDD - (5-1)
工x严{x; = x;} + a
其中,Dk表示在排序中位于第k个样本之前的部分样本集,若样本xk和样本x}在第i 维特征中属于同一类别U{x; =x;} = 1 ;若样本xk和样本x」在第i维特征中属于不同类别, 则{x; = x:} = 0。 P为添加的先验值,而a是其权重系数,它们可以减小出现频率低的类 别的噪声问题。
( 2)可解决预测偏移问题
CatBoost主要利用排序提升策略来减小梯度偏差,解决预测偏移问题。为了得到无偏 梯度估计,CatBoost会对训练集中的每一个样本训练一个单独的模型,训练时要选择不包 含该样本的其他所有样本数据进行训练,并得到对应的模型。通过计算样本数据的梯度估 计值不断对基学习器进行训练,进一步得到最终的模型,从而提高模型的泛化能力。
(3)采用贪心策略进行特征组合
CatBoost 算法会任意组合类别型特征来作为新特征,但若考虑类别型特征的所有组 合,将会导致组合的数量随类别型特征的增长而发生爆炸增长。因此,CatBoost利用贪心 策略来进行特征组合。在对决策树选择第一次分割节点时,先不考虑任何组合,在之后的 划分过程中,CatBoost会对当前树所有分割点已使用的类别型特征和数据集中的所有类别 特征进行组合,组合值会被动态转换成数值型特征。同时,CatBoost还会将树中已选定的 所有分割点看成是具有两个值的类别型特征,并像类别型特征一样参与到后续的特征组合 中。
( 4)依靠对称树进行快速评分
CatBoost使用对称树作为基学习器,对称树的特点是对于同一层的内部节点来说,分 裂标准是相同的,即分裂时选择的特征以及特征阈值是完全一致的。相比较于一般决策树, 对称树的结构更加平衡,这样不容易导致过拟合,而且处理速度快,可以极大地减少测试 时间。
综上所述,CatBoost算法的性能优越,所需的参数较少,它以对称树为基学习器,支 持类别型变量,且具有高效率、高准确性等优点。
5.2.2基于贝叶斯优化的 CatBoost 算法
CatBoost模型可以通过合并多个学习器来提升分类性能,但模型性能会受关键参数影 响,人工调参需要一定的工作量,且具有一定的盲目性,容易丢失参数最优解,从而影响 风险预测模型的精度。贝叶斯优化算法寻找最优参数时对初始样本点的数量要求少、优化 效率高,相比于网格搜索、随机搜索、遗传算法等寻参方法更具优势,更加适合模型的参 数调优。
贝叶斯优化算法主要是通过建立概率模型来寻求使目标函数最小化的值,是一种黑盒 优化算法,算法的主要思想是通过高斯回归模型对目标函数进行建模[62]。为了找到适合
- 34 -
CatBoost模型的最优参数集合,提升模型的预测精度,本文将贝叶斯优化算法与CatBoost 算法结合,构建了基于BO-CatBoost的电力物联网运行风险预测模型,具体流程如图5-1 所示,执行步骤如下。
 
图5-1基于BO-CatBoost的电力物联网运行风险预测模型
步骤1:构建CatBoost算法模型,按照一定的比例划分训练集和测试集,然后挑选 CatBoost 模型中需要优化的参数并设置参数优化区间,每个参数都可以取区间内的任意 值。
步骤2:将CatBoost算法作为训练目标,将测试集验证模型得到的准确率作为评价标 准,然后将定义好的目标优化函数和参数优化区间传入到贝叶斯优化函数中,设置初始化 点和迭代次数,执行贝叶斯优化算法不断对参数进行调整。
步骤3:判断是否达到最大迭代次数,若达到则停止迭代,输出使模型性能指标达到 最优的参数组合,否则返回步骤2继续调整参数。
步骤4:存储当前最优参数组合,将其装载到CatBoost模型中,通过训练得到最终的 预测模型。
5.2.3风险预测模型构建流程
本文在数据不平衡处理和特征选择的基础上进行了风险预测模型的构建,将经贝叶斯 优化的 CatBoost 算法作为最终的电力物联网运行风险预测模型。该模型是一个多分类模 型,最后的输出结果即代表一类风险事件或者非风险事件,具体流程如图5-2所示。首先 基于随机矩阵理论将来自电力信息、物理、社会的数据进行融合,并基于ADASYN算法 对少数类样本进行过采样处理,解决数据不平衡对算法精度的影响;然后采用 ReliefF-S 算法联合考虑特征与类别之间的相关度和特征间的相关度实现对风险特征的去冗余操作,
- 35 -
降低数据维度并提升模型训练速度;最后以对称树为基分类器构建 CatBoost 集成学习模 型,并结合贝叶斯优化算法来寻找模型最优参数,以便更好地提升模型性能。
 
图5-2 电力物联网运行风险预测模型构建流程
 
5.3实验及结果分析
5.3.1风险预测方法评价指标
在进行实验验证时,采用准确率(Accuracy)>精确率(Precision)>召回率(Recall)、 F1-Score 等作为衡量风险预测模型的性能指标,各指标的计算公式如下所示。其中, TP (真正例)表示正例样本被预测为正例;ZV (真反例)表示正例样本被预测为反例;FP (假正例)表示反例样本被预测为正例;FN (假反例)表示反例样本被预测为反例。
TP +TN
Accuracy= (5-2)
TP + FN +TN +FP
准确率是指所有预测正确的样本(包括正类和反类)占总样本的比例。
TP
Precision = (5-3)
TP+ FP
精确率是指真正例样本占所有被预测为正例的样本的比例。
TP
Recall = (5-4)
TP+ FN
- 36 -
召回率是指在所有预测为正例的样本中,真正为正例的样本占总体实际为正例的样本
的比例。 2*Precision*Recall
F1 - Score= (5-5)
Precision+Recall
Fl-Score则同时兼顾了模型的精确率和召回率,是精确率和召回率的调和平均值,可 用来衡量模型是否稳定。
5.3.2参数寻优
本章在第四章的基础上进行,主要利用选择好的最优特征子集进行实验,共包含 105318 条数据,实验环境为 Python3.7 平台。要对 CatBoost 模型进行参数寻优,首先要 确定出CatBoost模型的关键参数,因为CatBoost模型的性能主要受一些关键参数影响, 表5-1 列出了影响模型性能的关键参数。
表 5-1 CatBoost 关键参数
参数 含义 默认值
iterations 最大树数 1000
learning_rate 学习率 0.03
depth 树的最大深度 6
12 1eaf reg L2正则化系数 3.0
上表所述的关键参数中,iterations表示模型建立树的最大数量,它的值会对模型的计 算成本产生影响,默认值为 500。 learning_rate 的设置可以减少梯度步长,会影响模型训 练总时间,一般取值为 0到 1,值越小,迭代次数越多,学习速度也越慢,但全局最优会 更准确,默认值为 0.03。 depth 表示对称树的深度,它的值对模型效果和过拟合有较大影 响,默认值为 6。 l2_leaf_reg 是代价函数的 L2 正则化项的系数,它的值的设置可以减少 过拟合,默认值为 3.0。
为进一步提升 CatBoost 模型性能,结合贝叶斯优化方法来寻找模型的最优参数,在 实验中,贝叶斯优化的关键参数区间设置如表5-2所示。
表 5-2 关键参数优化区间
参数 含义 参数优化区间
iterations 最大树数 [800, 1200]
learning_rate 学习率 [0.01, 0.3]
depth 树的最大深度 [4, 10]
l2 leaf reg L2正则化系数 [1, 10]
表 5-2 列出了 CatBoost 模型中的关键参数及参数优化时要设置的优化区间。确定好 参数优化区间后,按照 7:3的比例划分训练集和测试集,用训练集来训练模型,用测试集 在模型上的准确率作为目标函数,把最大迭代次数设置为 30,开始参数寻优。经多次迭 代后,贝叶斯参数优化最后输出的最优参数集合为{depth=6, iterations=815, 12_leaf_reg=1.3, learning_rate=0.27},此时验证测试集得到的模型准确率达到最大,为99.69%,贝叶斯寻
- 37 -
优过程的可视化结果如图5-3所示。
 
89.1 L,1,I,I,1,I,T , I , I , I , I , I , I , I , I , l-l
0 2 4 6 8 10 12 14 16 18 20 22 24 26 28 30
迭代次数
图5-3贝叶斯优化算法寻参过程
由图5-3可知,横坐标为迭代次数,纵坐标为关键参数及对应的参数优化区间。从图 中可以看出,当迭代到第7 次时,模型的准确率最高,达到了 99.69%。此时对应的树的 最大深度为6,最大树数为815, L2正则化系数为1.3,学习率为0.27,此时的参数组合 即为最优参数组合。
5.3.3模型性能分析
确定好最优参数后,将最优参数组合嵌入到CatBoost模型中,得到BO-CatBoost模 型。然后训练学习特征选择后的数据,按照7:3的比例划分训练集和测试集,分别训练参 数优化前后的模型,然后用测试集验证模型,得到参数优化前后的模型性能对比图如图 5-4所示。图5-4中的上半部分是参数优化前的CatBoost模型性能,下半部分是经贝叶斯 优化后的BO-CatBoost模型性能。
- 38 -
 
 
 
 
图 5-4 参数优化前后的模型性能对比图
其中,图5-4中的(a)和(d)是ROC曲线,横坐标表示假正例的比率,即反例样本被预 测为正例的比率,纵坐标表示真正例率,即正例样本被预测为正例的比率。从左下方到右 上方的对角线将ROC空间划分为两个区域,在左上方区域的点是好的分类结果,而在右 下方区域的点则是差的分类结果。从ROC曲线中可以看出,参数优化前后模型各类别的 分类效果都很好。 ROC 曲线下的面积即为 AUC 的值, AUC 的值越接近 1,模型性能越 好。优化前模型中各类别的AUC值均为0.98以上,而优化后模型中类别1的AUC值又 提升了 0.01,说明 CatBoost 模型和 BO-CatBoost 模型都具有较好地预测精度,而 BO-CatBoost模型较优。同时,(a)和(d)图中的ROC曲线拐点都接近(0,1),说明它们在低 误报率的条件下都可以实现高精度预测,也表明 CatBoost 模型适用于解决电力物联网运 行的风险预测问题。
图5-4(b)和(e)是参数优化前后的混淆矩阵,对角线上每个小方格里的值表示该类别样 本被预测正确的概率,即该类别样本的召回率,非对角线上的值则表示该类别样本的误报 率。(e)图相比于(b)图来说,除了类别5的召回率下降0.8%外,类别4和7预测的召回率 不变,类别 0、1、2、3、6 的召回率均有一定程度的提升,且分别提升了 0.6%、1.2%、 1.7%、1.7%、1.4%,说明参数优化后的 BO-CatBoost 模型对提高各类别预测的正确率和 降低模型整体的误报率起到一定的作用。
图5-4(c)和(0是精度-召回率曲线,其中,横坐标是召回率,纵坐标是精确率,曲线 代表着精确率与召回率的关系,曲线下方的面积可以看成平均精确率,面积越大,表明模 型的性能越好。由图5-4中的(c)和(f)图中可以看出,各曲线的拐点都接近(1,1),且平均精 确率都达到95%以上,说明模型在高召回率的条件下可以获得高精度。⑴图相比于(c)图
- 39 -
 
来说,仅类别7的平均精确率下降了0.1%,类别0的平均精确率不变,类别1、2、3、4、
5、6 的平均精确率分别提升了0.4%、0.6%、0.6%、0.2%、0.2%、0.9%,说明参数优化后 的BO-CatBoost模型可在一定程度上提升整体分类的平均精确率。
CatBoost模型和BO-CatBoost模型具体的性能对比结果如表5-3所示。
表5-3 参数优化前后模型具体性能对比结果
模型 精确率 召回率 F1-Score 训练时间
0 1 0.9923 0.9961
1 0.9477 0.976 0.9617
2 0.8906 0.9828 0.9344
类别 3 0.9605 0.977 0.9687
4 0.8209 0.9821 0.8943
CatBoost 5 0.9661 0.9913 0.9785 217s
6 0.9262 0.965 0.9452
7 0.9565 0.9944 0.9751
准确率 0.9906
宏平均 0.9336 0.9826 0.9567
加权平均 0.9912 0.9906 0.9908
1 0.9821 0.988 0.9851
2 0.9831 1 0.9915
3 0.9774 0.9943 0.9858
类别 4 1 0.9821 0.991
5 0.9912 0.9826 0.9869 196s
BO-CatBoost 6 0.9722 0.979 0.9756
7 0.9778 0.9944 0.986
准确率 0.9969
宏平均 0.9854 0.9898 0.9876
加权平均 0.997 0.9969 0.9969
由表5-3可以清晰地看出各种分类指标的对比情况,BO-CatBoost模型相比于CatBoost 模型来说,整体的准确率提升了 0.6%;模型的宏平均结果中,精确率、召回率和F1-Score 分别提高了 5.18%、0.72%和3.09%;模型的加权平均结果中,精确率、召回率和F1-Score 分别提高了 0.58%、0.6%和0.61%;模型的训练时间也没有增大。说明BO-CatBoost模型 优于CatBoost模型,且整体已具有较好的性能。
本文通过数据不平衡处理、特征选择、参数优化等方法来解决风险预测模型精度低、 速度慢等问题。因为建立的是多分类模型,所以用宏平均后的精确率、召回率、F1-Score 和整体的准确率作为衡量风险预测模型的性能指标。依次将原始数据输入到CatBoost模 型中进行训练,然后将经ADASYN过采样后的数据输入到CatBoost模型中进行训练,在 过采样的基础上将经ReliefF-S特征选择后的数据输入到CatBoost模型和BO-CatBoost模 型中进行训练,并分别用测试集验证模型,得到模型性能指标的变化如图5-5所示。
- 40 -
 
 
图 5-5 模型性能变化
由图 5-5 可知,横坐标为处理流程的变化,纵坐标为模型性能,随着处理流程的递进, 模型的整体性能呈一定的上升趋势。其中,精确率虽然略有下降,但不影响 F1-Score 的 提升,F1-Score更能反映出模型的整体性能和稳定性,随着处理流程的递进,模型的 F1-Score依次提升了 0.24%, 0.8%和 3.09%,说明本文所做工作对提升风险预测模型的性 能具有重要意义。
5.3.4算法对比分析
为进一步评估算法的有效性,将特征选择后不含冗余的数据按照7:3 的比例划分训练 集和测试集,然后将训练集放入到不同的机器学习算法模型中进行训练,并用测试集进行 验证对比。对比算法包括多层感知器(MLP), K近邻分类算法(KNN),梯度提升决策
树(GBDT)和一些主流的集成学习算法:XGBoost、LightBoost、CatBoost 和 BO-CatBoost。
然后用宏平均后的精确率、召回率、F1-Score作为衡量风险预测模型的性能指标,对比结 果如图 5-6所示。同时,各类算法的训练时间和预测时间对比结果如图 5-7所示。
I I精确率(%) 匚二|召回率(%) 匚二| F1-Score(%)
 
KNN XGBoost LightBoost CatBoost BO-CatBoost
算法
5-6 各算法性能指标对比结果
- 41 -
 
由图5-6可以看出,BO-CatBoost模型性能最优,它的精确率、召回率和F1-Score可 分别达到98.54%、98.98%和98.76%。其中,MLP模型性能最差,不适用于解决此类预 测问题。BO-CatBoost方法与传统的GBDT算法相比,风险预测的平均F1-Score高出 15.03%,比 KNN 算法的平均 F1-Score 高出 6.61%。目前主流的集成学习算法 XGBoost 和 LightBoost 也具有较好的性能,平均 F1-Score 比 CatBoost 仅低 0.15%和 0.25%。 BO-CatBoost 模型的平均 F1-Score 分别比 XGBoost、LightBoost 和 CatBoost 高出 3.24%、 3.34%和3.09%。因此,BO-CatBoost算法和其他机器学习算法相比,对风险预测的精度 更高,可以更准确地预测出电力物联网运行时面临的风险类别。
 
(a) 训练时间 (b) 预测时间
图5-7 各算法时间性能对比结果 风险预测模型应具备良好的时间性能,以便快速预测出风险。图5-7是各算法时间性 能的对比结果,其中,图5-7(a)是训练时间对比,图5-7(b)是预测时间对比。由上图可知, K近邻算法的训练时间最短,但预测时间最长。LightBoost算法的训练时间也较优,但预 测时间相比于其他集成学习算法过长,不利于及时预测出风险。MLP算法预测时间也较 短,但模型性能较差。CatBoost和BO-CatBoost可实现快速预测,预测时间最优, BO-CatBoost的训练时间比CatBoost的训练时间更短,在时间性能上更优。
综上所述,基于BO-CatBoost方法构建的风险预测模型不仅能准确预测出电力物联网 运行时面临的风险类别,还可以实现快速预测,以便有针对性的及时采取措施,从而有效 保障电力物联网的安全稳定运行。
5.4本章小结
本章采用贝叶斯优化算法对CatBoost算法进行了改进,对CatBoost模型中的关键参 数进行寻优,构建了基于BO-CatBoost方法的电力物联网运行风险预测模型,该模型与前 期一系列的数据处理方法相结合构造出了一套完整的风险预测方案。实验结果表明,随着 处理流程的递进,该方案可逐步实现风险类别的高精度预测,而且本文所提出的风险预测 方法在模型性能表现上也优于其他算法,可及时、准确地预测出电力物联网运行时面临的 各类安全风险,对保障电力物联网安全稳定运行具有重要意义。
- 42 -
结 论
本文从数据挖掘的角度给出了一套电力物联网运行风险预测方法,包括风险数据的融 合与平衡化处理,最优特征子集的选择以及风险预测模型的构建几个部分。所取得的研究 结论如下:
(1) 提出了一种风险数据的融合与平衡化处理方法。通过 RT-LAB 和 OPNET 联合 搭建拓扑结构来仿真数据,然后基于随机矩阵理论以时间序列为基准进行数据融合,得到 了多维数据集。针对数据不平衡问题,基于 ADASYN 方法对融合后的训练集进行过采样 处理,并输入到 CatBoost 模型中进行训练学习,用测试集来验证模型。实验结果表明, 风险类别 2、3、4、5、7 预测的正确率分别提升了 7%、1.1%、2.2%、2.3%、0.6%,误报 率也明显下降,说明数据平衡化处理可有效解决风险预测误报率过高的问题,并可从整体 上提升风险预测模型的稳定性。
(2) 提出了基于ReliefF-S的最优特征子集选择方法。对平衡后的数据集进行去冗余 操作,联合考虑特征对分类的贡献度和特征间的相关度对冗余特征进行有效剔除,将特征 从原始的118列降低到了 60列,相比于原始数据来说,数据维度降低了 49%。利用CatBoost 模型训练学习筛选出的关键特征,训练时间从440s变为217s,预测时间从0.24s变为0.04s, 同时,模型宏平均结果中的F1-Score提升了 0.8%。由此可见,特征选择有效降低了数据 维度,解决了冗余数据导致的学习模型复杂度过高的问题,对提升模型的整体性能和效率 起到一定的帮助作用。
(3) 建立了基于BO-CatBoost的电力物联网运行风险预测模型。在数据平衡化处理 与特征选择的基础上,以对称树为基分类器,构建了 CatBoost 集成分类器,并结合贝叶 斯优化方法来寻找模型的最优参数组合,最终给出了一套完整的风险预测方案。 BO-CatBoost模型相对于CatBoost模型,整体的准确率提升了 0.6%,整体宏平均结果中 的精确率、召回率和F1-Score分别提高了 5.18%、0.72%和3.09%,说明参数优化进一步 提升了模型的性能。而且该风险预测方案可快速、准确地预测出影响电力物联网运行的风 险类别,相比于其他算法具有预测精度高、速度快的优点。
本文对电力物联网运行风险预测问题进行了一些探索和研究,但仍存在一些不足需要 完善,主要包括以下几个方面:
(1) 本文主要从数据挖掘的角度对电力物联网运行风险进行预测。未来可进一步考 虑风险在电力物联网中的传播途径和传播范围,研究各类风险行为下电力物联网的风险评 估方法,以更全面地解决电力物联网运行过程中面临的安全问题。
(2) 本文所用数据主要通过搭建拓扑结构仿真得到,然而实际电力物联网运行时难 以获取到大量的风险数据,后续应着重研究本文所提方法在不同规模、不同场景的电力物
- 43 -
联网中的适用性。
(3)在电力物联网的运行过程中,社会侧需要考虑的风险因素众多,且随机性强。 本文仅考虑了社会侧的气象风险和人为误操作的影响,后续可重点关注社会侧因素,并研 究如何更好地融合信息、物理、社会侧因素进行风险分析。
- 44 -
参考文献
[1]彭小圣,邓迪元,程时杰,等.面向智能电网应用的电力大数据关键技术J].中国电机 工程学报,2015,35(03):503-511.
[2]张宇帆,艾芊,肖斐,等.数据驱动电能质量分析现状及其支撑技术与展望J].电力自 动化设备,2018,38(11):187-196.
[3]何永贵,刘江.基于组合赋权-云模型的电力物联网安全风险评估J].电网技术,2020, 44(11):4302-4309.
[4]刘念,余星火,王剑辉,等.泛在物联的配用电优化运行:信息物理社会系统的视角J]. 电力系统自动化,2020,44(01):1-12.
[5]翟书颖,郭斌,李茹,等.信息物理社会融合系统:一种以数据为中心的框架J].大数 据,2017,3(06):85-92.
[6]Li W, Lin Z, Zhou H, et al. Multi-Objective Optimization for Cyber-Physical-Social Systems: A Case Study of Electric Vehicles Charging and Discharging[J]. IEEE Access, 2019, 7: 76754-76767.
[7]曲朝阳,董运昌,刘帅,等.基于生物免疫学方法的泛在电力物联网安全技术J].电力 系统自动化,2020,44(02):1-12.
[8]Xue Y, Yu X. Beyond Smart Grid-A-Cyber-Physical-Social System in Energy Future [Point of View][J]. Proceedings of the IEEE, 2017, 105(12): 2290-2292.
[9]时亚军,顾洁,李楠,等.基于多源数据融合的恶劣气象下10kV配变实时状态评估J]. 高电压技术,2020,46(02):448-460.
[10]Ciapessoni E, Cirio D, Kj011e G, et al. Probabilistic Risk-Based Security Assessment of Power Systems Considering Incumbent Threats and Uncertainties[J]. IEEE Transactions on Smart Grid, 2016, 7(6): 2890-2903.
[11]Wang P, Yang L T, Li J, et al. Data Fusion in Cyber-Physical-Social Systems: State-of-the-Art and Perspectives[J]. Information Fusion, 2019, 51: 42-57.
[12]丁茂生,王洪儒,王超,等.信息物理视角下能源互联网可靠性评估方法综述J].电网 技术,2021,45(02):425-436.
[13]阎博,张昊,郭子明,等.基于多源数据融合的电网故障综合分析与智能告警技术研究 与应用[J].中国电力,2018, 51(02): 39-46.
[14]王琦,李梦雅,汤奕,等.电力信息物理系统网络攻击与防御研究综述(一)建模与评估 [J].电力系统自动化,2019, 43(09): 9-21.
[15]汤奕,李梦雅,王琦,等.电力信息物理系统网络攻击与防御研究综述(二)检测与保护
- 45 -
[J].电力系统自动化,2019, 43(10): 1-9+18.
[16]张稳,盛万兴,刘科研,等.计及天气因素相关性的配电网故障风险等级预测方法[J]. 电网技术,2018,42(08):2391-2398.
[17]刘晟源,林振智,李金城,等.电力系统态势感知技术研究综述与展望[J].电力系统自 动化,2020,44(03):229-239.
[18]Chen S, Jiang Q, He Y, et al. A BP Neural Network-Based Hierarchical Investment Risk Evaluation Method Considering the Uncertainty and Coupling for the Power Grid[J]. IEEE Access, 2020, 8: 110279-110289.
[19]陈武晖,陈文淦,薛安成.面向协同信息攻击的物理电力系统安全风险评估与防御资源 分配[J].电网技术,2019, 43(07): 2353-2360.
[20]Venkataramanan V, Hahn A, Srivastava A. CP-SAM: Cyber-Physical Security Assessment Metric for Monitoring Microgrid Resiliency[J]. IEEE Transactions on Smart Grid, 2019, 11(2): 1055-1065.
[21]侯慧,耿浩,黄勇,等.基于多因素修正的台风灾害下输电线路失效预测方法[J].电力 系统自动化,2019,43(23):193-201+233.
[22]Zhao J, Zhang G, La Scala M, et al. Short-Term State Forecasting-Aided Method for Detection of Smart Grid General False Data Injection Attacks[J]. IEEE Transactions on Smart Grid, 2015, 8(4): 1580-1590.
[23]周一辰,孙佳辉,王书祥,等.基于高维模型表达方法的新能源电力系统小干扰失稳风 险评估[J].电力系统自动化,2022: 1-20.
[24]周艳真,吴俊勇,于之虹,等.用于电力系统暂态稳定预测的支持向量机组合分类器及 其可信度评价[J].电网技术,2017, 41(04): 1188-1196.
[25]Qu Z, Xie Q, Liu Y, et al. Power Cyber-Physical System Risk Area Prediction Using Dependent Markov Chain and Improved Grey Wolf Optimization[J]. IEEE Access, 2020, 8: 82844-82854.
[26]李常刚,李华瑞,刘玉田,等.大电网动态安全风险智能评估系统[J].电力系统自动化, 2019,43(22):67-75.
[27]张稳,盛万兴,杜松怀,等.基于海量数据的配电网运行分析系统架构与技术实现[J]. 电力系统自动化,2020,44(03):147-153.
[28]Omran S, El Houby E M F. Prediction of Electrical Power Disturbances Using Machine Learning Techniques[J]. Journal of Ambient Intelligence and Humanized Computing, 2020, 11(7): 2987-3003.
[29]侯慧,于士文,肖祥,等.基于空间多源异构数据的台风下输电杆塔风险评估[J].电力 系统自动化,2020,44(10):127-134.
[30]黄丹,陈树勇,张一驰.基于广域测量系统响应时间序列的电力系统暂态稳定在线判别
- 46 -
[J].电网技术,2019, 43(03): 1016-1025.
[31]Yu B, Wang Z, Liu S, et al. The Data Dimensionality Reduction and Bad Data Detection in the Process of Smart Grid Reconstruction Through Machine Learning[J]. Plos One, 2020, 15(10): e0237994.
[32]邬春明,任继红.基于人工智能的暂态稳定裕度精细化预测J].电力自动化设备,2021, 41(12):108-114.
[33]汤奕,陈倩,李梦雅,等.电力信息物理融合系统环境中的网络攻击研究综述J].电力 系统自动化,2016,40(17):59-69.
[34]郭庆来,辛蜀骏,孙宏斌,等.电力系统信息物理融合建模与综合安全评估:驱动力与 研究构想[J].中国电机工程学报,2016, 36(06): 1481-1489.
[35]薛禹胜.能源领域中的信息物理社会系统(CPSSE):对“智能电网+电力物联网”的 诠释[EB/OL] . [2019-03-14] .http://www.sohu.eom/a/303734974_403003.
[36]陈梓瑜,朱继忠,刘云,等.基于信息物理社会融合的新能源消纳策略[J].电力系统自 动化,2022:1-12.
[37]徐玲玲,迟冬祥.面向不平衡数据集的机器学习分类策略J].计算机工程与应用,2020, 56(24):12-27.
[38]Last F, Douzas G, Bacao F. Oversampling for Imbalanced Learning Based on K-Means and SMOTE[J]. Information Sciences, 2018, 465: 1-20.
[39]Chandrashekar G, Sahin F. A Survey on Feature Selection Methods[J]. Computers & Electrical Engineering, 2014, 40(1): 16-28.
[40]任家东,张亚飞,张炳,等.基于特征选择的工业互联网入侵检测分类方法J].计算机 研究与发展,2022:1-12.
[41]刘嘉诚,刘俊,赵宏炎,等.基于DKDE与改进mRMR特征选择的短期光伏出力预测[J]. 电力系统自动化,2021,45(14):13-21.
[42]Al-Ani A, Deriche M. Optimal Feature Selection Using Information Maximisation: Case of Biomedical Data[C]//Neural Networks for Signal Processing X. Proceedings of the 2000 IEEE Signal Processing Society Workshop (Cat. No. 00TH8501). IEEE, 2000, 2: 841-850.
[43]Dong X, Yu Z, Cao W, et al. A Survey on Ensemble Learning[J]. Frontiers of Computer Science, 2020, 14(2): 241-258.
[44]Krawczyk B, Minku L L, Gama J, et al. Ensemble Learning for Data Stream Analysis: A Survey[J]. Information Fusion, 2017, 37: 132-156.
[45]李振坤,王法顺,郭维一,等.极端天气下智能配电网的弹性评估J].电力系统自动化, 2020,44(09):60-68.
[46]Eskandarpour R, Khodaei A. Machine Learning Based Power Grid Outage Prediction in Response to Extreme Events[J]. IEEE Transactions on Power Systems, 2016, 32(4):
- 47 -
3315-3316.
[47]李存斌,计丽妍,赵德福,等.基于数据驱动的电力系统灾变演化及防控研究与展望[J]. 电力系统自动化,2020,44(09):1-11.
[48]王国松,唐建兴,刘明顺,等.基于PMU量测的改进耦合最小二乘线路参数辨识[J].电 力大数据,2021,24(10):63-70.
[49]刘晓军,马羽中,杨冬锋,等.基于数据相关性分析的电网故障时刻确定与故障识别方 法[J].电网技术,2022, 46(04): 1529-1541.
[50]Paul D, Aue A. Random Matrix Theory in Statistics: A Review[J]. Journal of Statistical Planning and Inference, 2014, 150: 1-29.
[51]吴茜,张东霞,刘道伟,等.基于随机矩阵理论的电网静态稳定态势评估方法[J].中国 电机工程学报,2016,36(20):5414-5420+5717.
[52]刘金平,周嘉铭,贺俊宾,等.面向不均衡数据的融合谱聚类的自适应过采样法[J].智 能系统学报,2020,15(04):732-739.
[53]黄丽娜.气象条件对架空输电线路参数的影响及校正方法研究[D].华北电力大学,2019.
[54]丁雪梅,王汉军,王炤光,等.基于改进ReliefF的无监督特征选择方法[J].计算机系统 应用,2018,27(03):149-155.
[55]Song Y, Si W, Dai F, et al. Weighted ReliefF with Threshold Constraints of Feature Selection for Imbalanced Data Classification[J]. Concurrency and Computation: Practice and Experience, 2020, 32(14): e5691.
[56]Zhang Y, Wang J, Chen B. Detecting False Data Injection Attacks in Smart Grids: A Semi-Supervised Deep Learning Approach[J]. IEEE Transactions on Smart Grid, 2020, 12(1): 623-634.
[57]程乐峰,余涛,张孝顺,等.机器学习在能源与电力系统领域的应用和展望[J].电力系 统自动化,2019,43(01):15-31.
[58]吴佳,陈森朋,陈修云,等.基于强化学习的模型选择和超参数优化[J].电子科技大学 学报,2020,49(02):255-261.
[59]Hancock J T, Khoshgoftaar T M. CatBoost for Big Data: An Interdisciplinary Review[J]. Journal of Big Data, 2020, 7(1): 1-45.
[60]Huang G, Wu L, Ma X, et al. Evaluation of CatBoost Method for Prediction of Reference Evapotranspiration in Humid Regions[J]. Journal of Hydrology, 2019, 574: 1029-1041.
[61]Prokhorenkova L, Gusev G, Vorobev A, et al. CatBoost: Unbiased Boosting with Categorical Features[J]. Advances in Neural Information Processing Systems, 2018, 31.
[62]Snoek J, Larochelle H, Adams R P. Practical Bayesian Optimization of Machine Learning Algorithms[J]. Advances in Neural Information Processing Systems, 2012, 25.
【本文地址:https://www.xueshulunwenwang.com//shuoshilunwenzhuanti/dianlixitongjiqizidonghua/5274.html

上一篇:基于复杂网络的电力通信网脆弱实体挖掘

下一篇:没有了

相关标签: