1. 网站地图
  2. 设为首页
  3. 关于我们


基于时间卷积网络的短期电力负荷预测研究

发布时间:2022-11-22 10:45
第一章 绪论 - 1 -
1.1课题研究背景和意义 - 1 -
1.1.1研究背景 - 1 -
1.1.2研究意义 - 2 -
1.2国内外研究现状 - 3 -
1.2.1传统方法研究 - 3 -
1.2.2深度学习预测方法研究 - 5 -
1.3本文主要研究内容 - 7 -
1.3.1本文解决的关键科学问题 - 7 -
1.3.2本文的研究内容 - 8 -
1.3.3本文的创新点 - 9 -
1.4本文的组织结构 - 10 -
第二章 基于传统方法的短期电力负荷预测 - 13 -
2.1引言 - 13 -
2.2短期电力负荷预测任务概述 - 14 -
2.2.1序列建模 - 14 -
2.2.2电力负荷特性 - 15 -
2.2.3电力负荷预测基本原则和要求 - 16 -
2.3传统预测方法 - 17 -
2.3.1指数平滑法 - 17 -
2.3.2差分自回归移动平均模型 - 18 -
2.4传统机器学习预测方法 - 19 -
2.4.1回归决策树 - 19 -
2.4.2支持向量机 - 20 -
2.5短期电力负荷预测数据集和预处理 - 21 -
2.5.1数据集介绍 - 21 -
2.5.2归一化处理 - 22 -
2.5.3数据扩充 - 23 -
2.6实验与结果分析 - 24 -
V
2.6.1实验平台与实验设置 - 24 -
2.6.2性能评估指标 - 25 -
2.6.3实验结果分析 - 25 -
2.7本章小结 - 28 -
第三章 基于循环神经网络的短期电力负荷预测 - 29 -
3.1引言 - 29 -
3.2循环神经网络 - 30 -
3.3长短时间记忆网络 - 31 -
3.4门控循环单元 - 33 -
3.5双向循环神经网络 - 34 -
3.6实验与结果分析 - 35 -
3.6.1实验平台与实验设置 - 35 -
3.6.2性能评估指标 - 36 -
3.6.3实验结果分析 - 36 -
3.7本章小结 - 40 -
第四章 基于时间卷积网络的短期电力负荷预测 - 41 -
4.1引言 - 41 -
4.2时间卷积网络模型原理 - 42 -
4.2.1一维卷积神经网络 - 42 -
4.2.2时间卷积神经网络 - 43 -
4.3基于并行混合激活卷积和输入注意力的时间卷积网络 - 47 -
4.3.1并行混合激活卷积 - 48 -
4.3.2输入注意力 - 49 -
4.4实验与结果分析 - 50 -
4.4.1实验平台与实验设置 - 50 -
4.4.2性能评估指标 - 50 -
4.4.3实验结果分析 - 51 -
4.4.4消融实验 - 56 -
4.5本章小结 - 59 -
第五章 总结与展望 - 61 -
5.1本文总结 - 61 -
5.2研究展望 - 62 -
参考文献 - 63 -
攻读学位期间所取得的相关科研成果 - 71 -
VI
- 73 -
第一章 绪论
1.1课题研究背景和意义
1.1.1研究背景
中国电力工业一般认为最早开始于 1882年7月上海第一台 12千瓦的机组投入生 产发电,距今已有140 年历史。在这 100多年发展中,中国电力工业取得了举世瞩目 的惊人成就:1921 年,全国用电总人数小于500 万人,不到全国人口总数的 1%,全 国发电总量也只有 2亿千瓦时;到2015 年,中国实现了全国人民100%用电;到 2020, 全国发电机装机容量已经达到 22亿千瓦,发电量达到76 000亿千瓦时,和1921 年相 比增加了 16 800 倍。最近十年以来,我国电力工业继续保持高增长趋势,发电装机累 计容量从 10.62 亿千瓦增长到 22 亿千瓦,整整多了一倍多。2020 年,我国全社会用 电平稳增长,达到了 75 110 亿千瓦时,电力消费的结构也趋于优化,第二产业用电量 比重逐步收缩,第三产业和居民用电比重逐渐增大。全国各地区用电需求也有所不同, 根据 2021 年中国能源大数据报告,东,中,西部和东北地区全社会用电增速分别为 2.1%、2.4%、5.6%和 1.6%。全国共有 27 个省(区市)用电量均为正增长,其中超过 8 个省(区)增速超过了 5% 。
随着全国用电需求的增大,国家电力基建投资也持续增加, 2020 年电力总投资 同比增长了 9.6%,达到近十年最高水平。根据 2020 年国家能源局公开的数据显示, 全国电源基本建设投资完成5 244亿元,电网建设投资完成4 699亿元。截止到2020 年,我国已经初步形成在空间上覆盖区域、省级,在时间周期上覆盖年度、月度、月 内的中长期交易及日前、日内实时电力现货交易,在交易标的上覆盖电能量、辅助服 务、可再生能源消纳权重等交易品种的市场体系结构。
党的十八大以来,中国电力工业进入新的发展阶段,逐步以节能减排和绿色可持 续发展作为电力行业发展的重要任务,不断推动电力行业向智能化、数字化和国际化 发展[1]。2009 年,国家电网总公司正式拉开我国智能电网建设的序幕,确立了总体发 展目标,即加快建设以特高压电网为骨干架和各级电网协调发展的坚强电网基础,利 用先进的通信、信息和控制技术,构建以信息化、数字化、自动化和互动化为特征的 自主创新、国际领先的坚强智能电网。2021-2026 年,智能电表与用电信息采集系统
- 1 - 建设将带来总计超过 2 000 亿元的市场需求[2]。随着智能电网的逐步建成,可以更好 的实现配电网规划,电价调控,电网的管理,节约成本,电网调度,优化能源结构和 电网和用户的互动等[3]-[10]。
1.1.2研究意义
(1)实际意义 电能作为现在人民日常生活和工业生产的主要能源,保证其可靠稳定是电力工业 中重要目标。然而,由于目前技术还无法实现电能的大规模储存,所以要尽量保证电 力系统内的发电量与负荷的消耗量达到一个动态平衡的状态,发电量不够时需要增加 发电机组的输出功率,发电量过剩时,也需要采取相应措施防止不必要的浪费。因此, 电力负荷预测对于电力系统安全稳定的运行有着极其重要的意义。而且,科学可靠的 电力负荷预测,有利于电厂工作人员制定发电计划和机组检修计划,有利于电厂降低 发电成本,有利于减少二氧化碳的排放等等。
2014 年国务院常务会议通过《关于进一步深化电力体制改革的若干意见》,意味 着从 2015 年正式开始电力体制的全面改革。新型电力市场建设作为新一轮改革的核 心内容,是电力体制改革成功与否的关键一步。电力市场有着广义和狭义之分:广义 的电力市场是指电力生产、传输、消耗和销售的综合;狭义的电力市场是电能生产者 和使用者通过协商、竞价等方式就电能相关产品进行交易。但电力市场相比较于普通 商品市场具有显著的特殊性:无仓储性、同质性、可预测性、生产资料和生活资料的 双重属性。可预测性表明电能的需求在一定周期内会以小时、日或者周为单位呈现周 期性的波动。在电力市场下,电力销售公司的签约策略、报价策略、交易策略、单个 用户经济测算等等都是以电力负荷预测的结果作为实施基础。没有一个相对精确的电 力负荷预测结果,电力售电公司甚至无法在电力市场中对电力消费者进行电能的报价, 这样的后果会导致售电公司出现“高价买低价卖”的行为,由此导致高额的偏差费用, 使售电公司蒙受巨大损失。因此,电力负荷预测的精确与否对电力售电公司来说,是 至关重要的。
(2)理论意义 时间序列是按照时间排序的一组随机变量,它通常是在相等间隔的时间段内依照 给定的采样率对某种潜在过程进行观测的结果时间序列数据,本质上反应的是某个或 者某些随机变量随时间不断变化的趋势[11]-[12]。时间序列问题的研究已经成为近几年 的研究热点问题,并且在已经应用于很多领域,比如交通管理,天气预报,医疗分类, 自动语音识别和股市股价等等[13]-[17]。电力负荷预测也属于时间序列问题研究一个范 畴,通过过去几个小时、几天、几个月或者几年的负荷数据特性,对未来几个小时、
- 2 -
几天、几个月或者几年电力负荷值进行科学预测,从而指导电力工作人员进行合理的 电力管理和日程工作安排。根据预测时间长短的不同,电力负荷预测可以分为短期预 测、中期预测和长期预测。一般来说,预测的时间越长,预测的难度越大。
本文的工作主要是基于深度学习理论技术在短期电力负荷预测任务中的研究,通 过总结目前现有深度学习预测模型存在的不足和从其他时间序列预测任务中得到的 启发,进而在本文中提出了一种全新的 PhaCIA-TCNs 短期电力负荷预测网络。深度 学习(Deep learning, DL)是机器学习中的一个领域,基础是神经网络,常用的优化 方法是误差反向传播。DL通过误差反向传播算法,能够在大型数据集中的发现错综 复杂的结构,以指导机器应如何更新其内部参数,这个参数通过上一层表示的变化, 来计算每一层的表示[18]。虽然, DL 具有很强的学习能力,但是针对一些具体问题, 深度学习模型效果并不能令我们满意,需要进行一定的改进。因此,在短期电力负荷 预测任务中,本文首次提出了并行混合激活卷积模块和输入注意力模块两个先进模块 用于PhaCIA-TCNs网络,从而提升了模型的预测精度。
1.2国内外研究现状
1.2.1传统方法研究
1.2.1.1传统预测方法
早期,由于没有先进的采集设备和成熟的技术,导致电力负荷数据收集和预测模 型建立变得极其困难。短期电力负荷预测主要还是依赖于电力专业研究人员的技术能 力和实践中大量经验,但这会导致预测的结果具有极大的主观性。传统的短期电力负 荷预测方法主要有以下两种:第一种是时间序列法,这种方法适用于有着较强规律性 的负荷序列,这个负荷序列的变化趋势和相互关系要明确和稳定,但多数的负荷序列 由于受偶然性因素的影响,其变化不太规律,导致预测结果又较大的偏差;第二种是 线性回归方法,应用比较多的是指数平滑法和自回归移动平均模型。这些模型可以考 虑到各种季节因素对负荷造成的影响,通过添加不同的权重系数来表现不同的影响, 但有个明显缺点是,线性回归模型默认各个影响因素和负荷之间是线性关系,无法处 理非线性关系,并且容易陷入过拟合[19]-[24] 。
2004年,Lu等人提出了一个ARIMA-ANN模型,由于电力负荷具有复杂性和不 确定性,因此使用自回归移动平均方法捕捉电力负荷数据的线性关系和人工神经网络 进行电力负荷非线性的预测[25]。2009年,Wei等人提出了基于时间序列思想的混合多 种方法的自回归移动平均预测模型,避免了自回归移动平均方法各方面的不足,使预
- 3 - 测模型能够更好地进行电力短期负荷预测[26]。2011年,Lee等人基于自回归移动平均 模型和Lifting Scheme来进行短期电力负荷预测任务,Lifting Scheme用来加强自回归 移动平均模型的预测精度,并把Coeflet 12 Wavelet加入到Lifting Scheme方法的每一 步中,实验结果显示提出的算法要远远优于传统的自回归移动平均模型方法[27]。 2014 年,Fard等人基于小波变换、自回归移动平均和人工神经网络方法提出了一个混合预 测模型,其中自回归移动平均用于线性内容,小波变换和人工神经网络用于非线性内 容[28]。2018年,Alberg等人在自回归移动平均方法基础上提出了两种非季节性和两种 季节性的滑动窗口算法,并且把这些算法与在线信息网络相融合[29]。
2007年,Souza等人提出了一个单变量模型来预测巴西东南部大型配电网的短期 需求,模型中使用了霍尔特-温特斯方法来预测不同负荷情形[30]。2012年,AI-Hafid等 人使用季节性的霍尔特-温特斯方法来预测每日峰值电力需求,通过在伊拉克电力数 据上实验显示具有较好的结果[31]。2013年,Abd等人使用了五种指数平滑法用于电力 负荷预测,预测时间跨度可以从一个半小时到一年[32]。2015年,Sudheer等人提出了 一种基于波形变换、三次指数平滑法和加权临近法的短期电力负荷预测模型,通过波 形变换分解原始序列,三次指数平滑法和加权临近法对分解后的序列分别进行建模[33]。 同年Eusebio等人使用带双季节性的霍尔特-温斯特方法用于葡萄牙的电力需求预测, 并提出使用简单的局部搜索法来对平滑参数的进行优化[34]。 2016 年, Mayrink 等人通 过把机器学习中的梯度提升方法引入到指数平滑法,提出了一种新的短期电力负荷预 测模型,提出的方法通过实验被证明带来了明显的预测提升[35]。
1.2.1.2机器学习预测方法
机器学习是从而数据出发,选取合适的算法,自动的归纳逻辑或规则,并根据这 个归纳的结果对新数据来进行预测。随着信息化飞速发展,机器学习的方法逐渐成熟, 在短期电力负荷预测中逐渐代替传统预测方法。相比较传统预测方法,机器学习方法 不再是基于线性模型,通过把原始样本空间映射到高维特征空间,进而可以处理大量 的非线性特征。机器学习方法最具代表性的方法是决策树回归法和支持向量回归法。
2006年,Fan等人开发了一种基于自组织映射和支持向量机的自适应两阶段混合 网络的短期电力负荷预测算法[36]。2009年,Guo等人提出一种基于模式库的负荷预测 模型,首先通过分类回归决策树根据负荷的不同特征识别出不同的负荷模式,然后建 立具有高度相似特征的电力负荷数据序列组成的模式库,最后基于模式库搭建支持向 量机预测模型[37]。2011年,Duan等人在支持向量机中融入了模糊c均值聚类和粒子 群优化,从而搭建一个混合的电力负荷预测模型[38]。2013年,Ceperic等人提出了基 于支持向量机的短期电力负荷预测模型,并进行了两个重要的改进,即优化了模型输 入生成过程和使用特征选择算法对后续模型的输入进行自动化选择,实现了对模型超 - 4 -
参数的全局优化和减少模型与操作人员的交互 [39]。 2014 年, Che 等人为了解决支持 向量机在电力负荷预测任务中核函数不匹配导致预测性能降低的问题,提出了一种新 的个体模型选择算法来帮助模型获得最优核函数[40]。Kavousi-Fard等人提出了一种基 于支持向量和萤火虫算法的混合预测模型,支持向量机主要用于解决非线性的问题, 而萤火虫算法用于优化支持向量机的参数[41]。
2016 年, Wang等人提出了一个EMD-PSO-SVR混合预测模型用于短期电力负荷 预测,其中 EMD 用于将居民用电负荷数据分解为若干个固有模态函数和一个残量, 然后使用SVR模型对固有模态函数值和残量值分别进行预测,并在SVR的建模中采 用PSO算法自动进行参数选择[42]。2017年,Chen等人提出了一种新的基于支持向量 机的预测模型,使用需求响应前两小时的环境温度作为输入变量,在四个办公楼的电 力数据上进行测试,相比较传统方法获得了更好的预测表现[43]。2020年,Tan等人提 出了一个新的基于支持向量回归的预测方法,首先把多个使用不同核函数的支持向量 回归模型通过堆叠算法合并成一个基础层,接着在把一个支持向量回归作为原模型层, 最后把两个层合并起来使用[44]。 2021 年, Phyo 等人提出了一个混合预测模型,把带 剪枝的分类回归决策树与深度信念网络相结合,其中分类回归树通过低方差的相似分 类组来观察负荷的模式,以此降低预测模型的复杂度[45]。
1.2.2深度学习预测方法研究
最近几年,深度神经网络在各项任务中都崭露头角,获得了极大成功。神经网络 对于非线性数据具有很强的自适应能力,自主学习能力和泛化能力。因此,基于深度 学习的预测模型凭借其对非线性数据优秀的特征提取能力,在短期电力负荷预测任务 中取得巨大成功。首先,与传统预测方法相比,深度学习的模型具有更强大的非线性 特征提取能力。其次,与机器学习的预测方法,深度学习的模型可以很好的提取序列 的时域特征,从而获得更好的预测表现。目前,在短期电力负荷预测中使用最多的是 长短时间记忆网络和门控循环单元,国内外大量研究基于这两个基础模型,提出了很 多有效的混合预测模型。然而,最近几年,一种全新的时间卷积神经网络被提出,相 比这以上两种网络,表现出了更优的预测性能。
2017年,由于电力负荷在不同时间维度呈现出不同的特性,例如,以天为单位或 者以周为单位,所以为了得到更好的预测结果,Saurabh Singh等人使用人工神经网络 (Artificial Neural Network)进行训练时,采取了不同时间维度电力负荷单独训练的方 法[46]。Heng Shi等人提出了把池化操作加入到循环神经网络(Pooling-based Recurrent Neural Networks) 中来学习电力负荷中的不确定因素,并且通过增加数据多样性和数 据量来解决简单增加网络深度造成的过拟合问题[47]。在预测单个能源用户中,电力负
- 5 - 荷呈现很大的不确定性,Weicong Kong等人提出了一种基于长短记忆单元的预测网络 能有效的处理这个问题[48]。Nianyin Zeng等人提出了将极值学习机(ELM)与一种新 的切换延迟PSO (SDPSO)算法相结合的混合预测模型,SDPSO算法可以很好的优 化 ELM 中的权重值,其中通过局部最佳粒子和全局最优粒子的延迟信息来更新粒子 的速度[49]。
2018 年, Lingyi Han等人针对电力负荷预测在时间维度上具有差异性的特点,提 出了适应长时间步和短时间步的两种深度学习电力负荷预测模型,分别是时间依赖的 卷积神经网络(Time-dependency Convolutional Neural Networks, TD-CNN)和基于长 短时间记忆网路的循环网络(Cycle-based Long Short-term Memory, C-LSTM)[50]。 Hyungeun Choi等人提出使用一种基于长短时间记忆网络和ResNet的短期负荷预测网 络,通过ResNet网络来提取负荷数据的潜在特征,然后传送到LSTM网络中进行训 练,此方法对于易变负荷数据有着很好的拟合结果[51]。在非住宅消费者短期负荷预测 任务中, Runhai Jiao 等人先利用 K-means 挖掘消费者消费信息和计算斯皮尔曼相关系 数,然后在输入到LSTM网络中进行预测[52]。Kunjin Chen等人提出了一种基于深度 残差网络的短期电力负荷预测模型,此外还采用了两阶段的集成策略来增强模型的泛 化能力,并且该模型还可以使用Monte Carlo dropout去实现概率负荷预测[53]。
2019年,Xin Gao等人提出了一个带有特征选择的经验模态分析的门控循环单元 网络,利用 EMD 把原始负荷数据分解成多个子序列,接着计算这些子序列与原始负 荷序列之间的 Pearson 相关系数,最后相关系数高的子序列会和原始数据一起输入到 GRU中[54]。Xiangyu Kong等人利用深度信念网络构建了一个短期负荷预测模型,并 且使用三种方法分别对深度信念网络的模型输入,模型学习能力和模型训练三个阶段 进行一个有效的提升,从而得到更好预测表现[55]。Yuan Ma等人提出了一种基于孤立 森林(Isolation Forest)和LSTM的短期负荷预测混合网络,网络中使用孤立森林算法 进行数据挖掘和筛选不正常的电力负荷数据,然后输入到 LSTM 网络中[56]。 Zhuofu Deng 等人基于多尺度卷积神经网络提出了一个带有时间策略的预测网络,其中多尺 度卷积神经网络用于提取电力负荷序列不同水平的特征,并且还设计了一种周期性编 码的时间策略可以有效提升网络的时间认知能力 [57]。
2020年,Ghulam Hafeez等人利用因式条件约束波尔兹曼机(Factored Conditional Restricted Boltzmann Machine)构建了一个深度神经网络用于短期负荷预测任务,并且 提出了一种遗传风力驱动(Genetic Wind Driven)优化算法[58]。Zhuoling Li等人利用 不共享权重的卷积神经网络和密集连接操作构建了一个深度神经网络,并使用趋势分 解策略解决了模型训练集和验证集中可能存在电力负荷数据分布不同的问题[59]。 Nadjib Mohamed Mehdi Bendaoud 等人基于卷积神经网络搭建了一个短期负荷预测模
- 6 -
型,通过输入二维负荷数据达到比传统输入一维负荷数据更好的预测结果[60]°Ye Hong 等人提出了一种添加残差网络的深度神经网络模型,可以有效的处理个体电力用户在 电力消费时具有较大的动态性和随机性的问题[61]。
2021 年, Mohammad Navid Fekri 等人针对模型离线训练时导致预测表现退化问 题,提出了一个在线自适应的循环神经网络(Online Adapting RNN),此模型可以对 新到来的数据有很好的拟合能力,并且可以被用在各种预测模式下[62]。Lianjie Jiang等 人提出了一个混合多任务信息融合深度学习(Hybrid Multitask Multi-information Fusion Deep Learning)框架,在居民电力负荷预测任务中能有效的挖掘在多个电力用户之间 的关系[63]。 Lilin Cheng 等人提出了一种 CNN-SE 的新型方法,它是在卷积神经网络 (Convolutional Neural Networks)中添加了挤压激活模块(Squeeze-and-Excitation), 能有效分析大量相关输入特征[64]。 Linfei Yin 等人提出了一种多时空尺度时间卷积神 经网络,具有减少负荷数据中的噪声误差和增强模型非线性特征学习能力等优点[65]。 Seyed Mohammad Jafar Jalali 等人使用卷积神经网络去搭建一个负荷预测模型,针对 模型中参数优化问题,提出了一个加强的灰狼优化算法(Enhanced Grey Wolf Optimizer),进而获得了更好的预测结果[66]。
1.3本文主要研究内容
1.3.1本文解决的关键科学问题
从以上国内外研究现状可以总结出,过去的十几年间,国内外电力负荷预测的研 究者们提出了很多有效的预测方法。虽然传统的预测方法在一定程度上获得了不错的 预测效果,但随着对负荷预测精度要求越来越高,传统的预测方法已经无法的满足人 们需求。随后,机器学习方法的出现在一段时间内很好的解决了传统预测方法的不足, 使得预测精度得到了提升。近几年间,随着深度神经网络技术的越发成熟,越来越多 的研究者开始把深度学习方法应用到短期电力负荷预测中来,从而获得了比传统方法 和机器学习方法更好的预测性能。随着在电力负荷预测中需要考虑的因素越来越多, 单一的预测模型的缺点也越发明显,研究人员开始使用混合模型来提升模型的表现。 目前,在短期电力负荷预测中使用最多的预测模型是基于循环神经网络的改进模型。 然而,循环神经网络本身具有不平衡的非线性处理问题,即使研究者们通过各种方法 来尽量弥补这个问题带来的影响,但是无法消除。
问题一:循环神经网络具有不平衡的非线性处理问题
当前基于深度学习的短期电力负荷模型主要是由循环神经网络及其变体作为主 干,然后添加一些数据预处理和额外模块来提升模型预测性能。例如,双向循环神经
- 7 - 网络、添加注意力机制的循环神经网络和经验模态分析的循环神经网络等。但是,循 环神经网络本身具有不平衡的非线性处理问题得不到有效解决,限制了模型预测精度 进一步的提高。循环神经网络的不平衡非线性处理问题表现在网络循环的过程中,对 于输入序列数据中位于序列前端的一些元素会一直会被处理,而位于末端的一些元素 只会被处理较少次,这会导致某些信息被丢失或者挖掘不出来,从而使得预测性能的 大大下降。本文在第四章提出了使用堆叠的膨胀因果卷积作为网络的主要结构,克服 循环神经网络带来的不平衡非线性处理的问题,同时提高了模型的预测精确度。
问题二:时间卷积神经网络收敛慢和训练慢的问题
针对问题一,使用时间卷积网络可以很好的解决循环神经网络不平衡非线性处理 问题,但是,时间卷积网络本身也存在一定的不足。时间卷积网络的是由堆叠的膨胀 因果卷积层构成,并且在每层之间还加入了跳跃连接,从而来有效的进行提取序列特 征。但是,每层中都会进行两次膨胀因果卷积操作、两次ReLU激活操作、两次正则 化操作和两次 dropout 操作。虽然,这有助于网络更好的提取序列特征,但是,这也 会导致网络的参数量大大增加,由此造成模型训练时间变长和收敛速度慢的问题。因 此,本文在第四章提出了一种全新的混合激活卷积(Parallel Hybrid Activated Convolution, PhaC)来解决这个问题。
问题三:时间卷积神经网络预测精度不够高的问题
其次,时间卷积网络虽然在输入序列数据中的所有元素时,都使用相同的次数的 非线性操作,从而保证了有效的信息处理过程,但是,这种处理方法默认为输入序列 中的各个元素具有同等的价值,从而容易忽略输入序列中的一些重要特征,导致后面 预测结果不够好。因此,我们希望预测模型可以更多的关注输入序列某些元素的信息, 例如波峰和波谷。为此,本文在第四章提出了一个新的输入注意力(Input Attention, IA)模块,通过对输入序列中的元素添加不同的权重来强化重要信息,进一步提升模 型预测精度。
1.3.2本文的研究内容
本文针对上节所阐述的三个关键科学问题,在其它时间序列任务中的使用方法的 启发下,提出了相应的改进策略。首先,针对基于循环神经网络的负荷预测模型本身 具有不平衡非线性处理问题,本文提出使用时间卷积网络作为负荷预测网络的主干; 其次,针对时间卷积网络冗余的卷积操作,本文提出并行混合激活模块来降低模型参 数量和训练时间时长;最后,针对模型预测精度不够高,本文基于时间卷积网络提出 了一个全新的输入注意力模块,来使模型更多的关注到序列中的重要信息。本文主要 研究内容如下:
- 8 -
内容一:使用时间卷积网络作为预测模型的主干解决不平衡非线性处理问题
短期电力负荷预测目前国内外的研究主要是以循环时间网络作为负荷预测模型 的主干,循环神经网络是按照时间维度堆叠的“细胞单元”工作的,每个时刻接收的 输入都不相同,序列前面的信息会随时间向后传递,而循环传递的过程中网络的参数 由于共享机制是不改变的,这就使得前面的信息会被重复处理,循环的次数越多,重 复处理的次数越多,导致信息被过度处理,造成信息的损失。其次,序列后面的信息 却得不到有效处理,最后时刻的信息仅仅只会被计算一次,导致信息浪费。因此,为 了解决上述问题,本文提出使用时间卷积网络来代替循环神经网络。顾名思义,时间 卷积网络是卷积神经网络一种,通过堆叠膨胀因果卷积层来进行特征学习,从根本上 解决了循环神经网络不平衡的非线性处理问题。
内容二:提出并行混合激活卷积解决时间卷积网络训练时间长和收敛慢的问题
从内容一中可以知道,时间卷积神经网络由于其独特的结构可以很好的替代循环 神经网络作为预测模型的主干结构,然而时间卷积网络每层的卷积层都包含两次膨胀 因果卷积操作和两次相同的非线性激活操作,增大了模型的计算量。因此,针对问题 二,本文首次提出一个新的并行混合激活卷积模块,减少了卷积层中膨胀因果卷积的 卷积次数从而使得反向传播时速度明显变快,加速网络训练。但是这会使得时间卷积 网络的学习能力有所下降,所以并行混合激活卷积模块做了如下两个改变:第一,改 变了时间卷积网络卷积层中激活操作的连接方式,使其并行排列;第二,使用两种不 同的激活函数。改进后的时间卷积网络可以通过提取输入序列中不同的非线性关系, 来弥补模型学习能力的下降。
内容三:提出输入注意力来提升时间卷积网络预测性能
近些年,注意力机制在深度学习各个领域大放异彩,为了捕捉输入负荷序列中重 要信息,本文基于时间卷积网络提出了一个新颖的输入注意力模块。针对问题三,输 入负荷序列在进入时间卷积网络之前会先经过输入注意力模块处理,这时输入负荷序 列会被计算生成一个信息权重向量,然后与输入序列相乘,使输入序列中每个元素根 据自己本身对整个序列的贡献程度获得不同的权重,其中输入序列中越重要的元素相 比其他元素会得到更大权重。
1.3.3本文的创新点
本文首先对目前在短期电力负荷预测任务中基于深度学习的循环神经网络进行 了深入分析,其次针对 1.3.1 所阐述的关键科学问题,从模型结构方面进行研究,首 次提出了基于并行混合激活卷积和输入注意力的时间卷积神经网络(Temporal Convolutional Networks with Parallel Hybrid Activated Convolution and Input Attention,
- 9 - PhaCIA-TCNs),最后通在三个公开电力负荷数据上与传统学习方法、机器学习方法 和循环神经网络方法进行比较,结果表明了本文提出的方法均取得了最好的结果。本 文主要的工作和贡献如下:
(1)本文指出了基于循环神经网络的短期负荷预测模型和时间卷积网络存在的 缺点:第一,对于采用循环神经网络作为模型核心框架的网络,会导致具有不平衡的 非线性处理问题;第二,时间卷积网络本身也有训练时间长、模型收敛慢和预测精度 不够高的问题。因此,本文提出了一种新颖的PhaCIA-TCNs短期电力负荷预测模型, 来有效的解决上述问题,从而实现了更准确的短期电力负荷预测。
(2) 本文首次提出了一种并行混合激活卷积(Parallel Hybrid Activated Convolution,PhaC)模块,以降低基于时间卷积网络模型的学习成本,同时保持优越 的特征学习能力。在此基础上,本文提出了一种输入注意力(Input Attention,IA)模 块,为输入序列的元素赋予重要权重,以帮助 PhaCIA-TCNs 网络在学习过程中更好 地关注输入序列中的重要信息。
(3) 本文在三个公共电力负荷数据集上进行了大量的验证实验,结果表明:(a) PhaCIA-TCNs 网络在短期电力负荷预测的任务中两个评估指标显著优于两种传统预 测方法、两种传统机器学习预测方法、循环神经网络及其变体和时间卷积网络;(b) 本文基于时间卷积网络提出的两个先进模块(并行混合激活卷积模块和输入注意力模 块),对于提升PhaCIA-TCNs网络的预测精度是极其有效和必要的;(c)基于并行 混合激活卷积模块的时间卷积网络比时间卷积网络训练时间更短,收敛更快。此外, PhaCIA-TCNs 网络的训练时间成本相比基于输入注意力的时间卷积网络训练时间也 会更短。
1.4本文的组织结构
本文共分为 5 章,各章的主要内容如下:
第一章:绪论。本章主要从研究背景,研究意义和研究现状三个部分对当前电力 负荷预测进行一个系统性的介绍。首先,对国家电网企业的发展历史进程进行了简单 介绍,通过列举大量公开数据表明国家电网建设对国民经济和生活有着重要的影响; 其次,详细阐述了进行短期电力负荷预测研究的实际意义和理论意义;然后,简单的 阐述了过去十几年间国内外的研究现状,主要包括传统预测方法、机器学习预测方法 和深度学习预测方法的短期电力负荷预测的研究成果;最后,阐述了本文解决的关键 科学问题、主要研究内容以及创新点。
第二章:基于传统方法的短期电力负荷预测技术。本章首先介绍了在智能电网中 短期电力负荷预测任务的应用背景,基本原则和基本要求。其次,介绍了本文短期电
- 10 -
力负荷预测任务中模型训练所使用的三个公开的数据集和数据集划分细节。接着,介 绍了两种数据预处理方法,滑动窗口法和数据归一化法。然后,本章介绍了四种传统 方法,一个是基于线性回归的差分自回归移动平均模型和指数平滑法,另一个是机器 学习的方法,即支持向量机和回归决策树。最后,针对上述四种预测模型进行了的实 验验证。
第三章:基于循环神经网络的短期电力负荷预测研究。本章首先接着,介绍了深 度学习中的循环神经网络及其变体模型,即循环神经网络、长短时间记忆网络、门控 循环单元、双向循环神经网络、双向长短时间记忆网络和双向门控循环单元。最后, 本章对第二章中的四个传统预测模型和本章中的六个预测模型进行了对比实验。通过 比较传统预测方法、机器学习方法和循环神经网络及其变体模型在公开电力负荷数据 集上的预测结果,验证了循环神经网络相比前两种方法具有更好的预测性能。
第四章:基于时间卷积网络的短期电力负荷预测研究。本章首先为了解决基于循 环神经网络的预测模型具有不平衡的非线性处理问题,提出使用堆叠的膨胀因果卷积 层代替循环神经网络层,并详细介绍了一种有效的时间卷积网络的模型结构;然后, 阐述了目前时间卷积网络工作中的一些不足,创造性的提出了基于并行混合激活卷积 和输入注意力的时间卷积网络,用于提升时间卷积网络的预测性能和减少网络参数量; 最后,通过在三个电力负荷数据集上进行对比试验和消融实验,验证了我们提出方法 的优越性和有效性。
第五章:总结与展望。首先总结了本文所做的全部研究工作内容,分析了主要研 究内容的工作成果。然后,本章还简要的指出了本文所提出改进方法仍然存在不足之 处。最后,对本文后续研究内容进行了展望。
- 12 -
第二章 基于传统方法的短期电力负荷预测
2.1引言
在智能电网中,电力负荷预测是根据历史的负荷值来对未来负荷值进行科学的预 测。通过总结第一章中的国内外研究现状,我们发现几乎所有的预测模型都是混合预 测模型,因此根据各个方法中使用的基础模型大致可以分为两类:传统方法和深度学 习方法。其中,传统方法又可以分为传统预测方法和机器学习预测方法。我们将在本 章对传统预测模型和机器学习模型进行研究。
首先,本章对短期电力负荷预测任务进行一个详细的概述。按照时间上划分,电 力负荷预测可以被分为三个任务:短期电力负荷预测、中期电力负荷预测和长期电力 负荷预测。其次,影响电力负荷模型预测精度的因素有很多,对于电力负荷本身来说, 电力负荷具有三个特性:周期性、时间性和随机性。由于电力负荷的随机性,导致电 力负荷数据不仅含有线性特征,而且还含有大量的非线性特征,需要映射到高维空间 进行处理,对模型线性和非线性处理能力都是极大的考验。此外,对于一些外部影响 因素的特征值,如温度、人口、天气和季节等,由于数据不全和获取困难,因此,本 文研究设定为单一变量预测研究,即输入序列中只包含电力负荷数据值。
然后,在传统预测模型的介绍中,本章详细介绍了指数平滑法和自回归移动平均 模型两种方法。指数平滑法中根据平滑次数的不同,可以划分为一次指数平滑法、二 次指数平滑法和三次指数平滑法。每次平滑操作后都会增加一个线性分量,从而更好 对负荷特性进行表达。差分自回归移动平均模型融合自回归模型、移动平均和差分方 法三种方法,从而可以处理非平稳序列。
其次,本章介绍了在短期电力负荷预测中应用最广泛的两个传统机器学习模型, 决策树和支持向量机。决策树是一种二叉树结构,包含根节点和叶节点,既可以用于 离散型数据,也可以处理连续性数据。在负荷预测中,决策树会通过输出最终叶子节 点上平均值或者中位数作为预测值。支持向量回归本身是一种二分类模型,但是也可 以用于处理回归问题。通过在线性函数的两边构建一个“间隔带”来计算样本损失, 然后通过使总损失最小和使间隔最大来得到优化后的模型。
最后,在模型训练和测试中,拥有一个完整和高质量的数据集对最后的模型预测 表现也非常重要。本章将在 2.5 小节对本文实验使用的三个公共的短期电力负荷数据
- 13 - 集进行详细的介绍,并给出了详细的下载地址,方便有需要的读者自行下载。当我们 在获得数据集后,一般需要对数据集进行预处理和划分工作。第一,预处理是为了消 除数据集里面的不利因素和增强有利因素,使得在后续模型训练时可以获得更好的表 现。本文使用了两种预处理方法,滑动窗口法和数据归一化法。滑动窗口法用于数据 集的扩充,使得在有限的数据量下,可以充分发挥数据集的作用。数据归一化法是为 了把数值限定在一定的范围内,从而有利于模型更快的收敛。第二,数据集的划分是 为了方便对模型进行训练和评估,本文按照7:1:2的比例把三个数据集划分为训练集、 验证集和测试集。
2.2短期电力负荷预测任务概述
2.2.1序列建模
智能电网是一种现代电力传输网络,通过信息交流技术去控制电能的生产、传输 和分配,继而维持电力系统的动态稳定。短期电力负荷预测作为智能电网中一个非常 重要的模块,通过预测模型根据历史的电力负荷信息对未来某个时刻的负荷值进行科 学的预测,来帮助电厂人员进行电力规划和帮助售电公司工作人员进行电价制定。因 此,一个精确有效的短期电力负荷预测模型最重要的就是需要保证其预测结果的科学 性和可信性,使预测的结果尽可能符合真实值变化规律。然而,由于预测存在随机性, 我们的预测模型无法做到 100%的预测精度。所以,我们需要尽量保证预测模型预测 结果在可控的范围内,避免一些非自然因素的影响,例如,错误的数据源、不合适的 预测方法和人员的操作失误等。
目前短期电力负荷预测使用的方法主要包括:传统时间序列预测法、机器学习时 间序列预测法和深度学习时间序列预测法。短期电力负荷预测本质上是一个时间序列 预测的问题,所以可以借鉴时间序列预测中的数学表达。例如,假设给定先前的负荷 观测值个数为t的情况下,需要对接下来i个负荷值给出最可信的预测。其数学表达式 如下:
yt+1,yt+2,...,yt+i-1,yt+i =F(x1,x2,...,xt-1,xt) (2.1)
其中,t e N表示当前时刻,xt e Rn表示在时间t时刻的观测值,y,+i e Rn表示在 时间t + /时刻的预测值,F(x)表示预测函数。一个预测模型的好坏是通过计算预测值 和真实值之间的误差来体现的,误差值越小代表模型的预测性能越好,反之则模型预 测性能较差。
- 14 -
2.2.2电力负荷特性
上面介绍了电力负荷预测任务中的数学表达式,接下来我们就需要来设计预测函 数,在这之前我们需要对我们输入数据特性有一定的了解。电力负荷特性是指电力负 荷从电力系统的电源吸取的有功功率和无功功率随负荷端点的电压及系统频率变化 而改变的规律。电力负荷受到外部影响因素比较多,例如季节变化、人口数量、当地 的温度、当地的电器特征和地区用电规划等。因此,在保证系统内各个因素维持一个 动态平衡的前提下,电力负荷的特性从宏观上来看主要体现为周期性,时间性和随机 性三个方面,具体如下:
a)周期性
电力负荷具有周期性,一般一个固定周期过后,电力负荷数据的曲线的变化规律 会与前一段时间比较相似,这也是搭建一个预测模型的基础。模型通过从整体上观察 历史数据特征,找到每个负荷值之间的关联,从而才能对未来一段时间给出可信赖的 预测结果。
b)时间性
电力负荷本身属于时间序列的一种,因此具有时间性的特征。短期电力负荷预测 是通过研究分析历史的电力消费规律来科学的估算未来一段时间的电力消费值,不同 的数据都有它限制的时间范围,比如用过去一个月的负荷值来预测未来一年负荷值, 明显超出了预测模型的能力,从而使得预测结果变得没有实际意义。
c)随机性
电力负荷的消耗多少主要由当地的用户需求来决定,而用户的未来用电量的多少 受到各种各样的内外在因素的影响,如消费水平和环境因素等等。这些影响因素有一 部分可以通过分析历史电力消费来预测未来情况,但是有一部分完全是没有可循的规 律,如电力线路故障和严重的自然灾害等等,这些都是属于突发情况。因此,电力负 荷一个重要的性质就算是随机性。
基于上述电力负荷特性,本文的短期电力负荷预测为单一变量的电力负荷预测, 即不考虑输入多个特征值,只输入过去一段时间的电力负荷值,然后输出接下来一段 时间的电力负荷值。由于实验环境限制无法做到在线负荷预测,因此本文的实验属于 离线实验,模型训练和测试都是在离线状态下完成的,通过收集大量历史的电力负荷 数据,然后通过数据处理把一个完整的历史负荷序列人为分割成两个部分,其前面一 段的序列当作过去,后面一段序列当作是需要预测的未来。其次,本文还会把收集到 的电力负荷数据划分为三个部分,训练集、验证集和测试集(具体划分细节见 2.5 小 节)。在完成划分后,需要保证三个数据集的相互之间没有任何信息关联,其中训练 集只用于模型训练阶段,验证集只用于判断模型是否过拟合,测试集只用于最后评估
- 15 - 模型的预测性能。本文还根据输入负荷数据的不同,把短期电力负荷预测任务分成了 日小时负荷预测任务和日总负荷预测两个任务:日小时负荷预测任务的输入是以小时 为单位的负荷值;日总负荷预测任务的输入是以天为单位的负荷值。
2.2.3电力负荷预测基本原则和要求
上节本文介绍了电力负荷的三个特性,但电力负荷预测是一个庞大的工程,需要 我们对预测各个方面进行详细的考虑,来保证预测任务的顺利进行。在进行负荷预测 之前,我们需要对电力负荷预测中的基本原则有清晰的认识,防止在预测过程中出现 重大的原则性错误,进而导致整个任务失败。其次,在搭建模型时,应遵循一些要求, 可使我们的模型获得更好的预测表现。
短期电力负荷预测应该遵循如下四个原则:(1)惯性原则。任何事物的发展在时 间上都具有连续性,电力系统也不例外。电力系统过去的状态不仅会影响现在,也会 影响未来的状态。并且电力系统越复杂,对现在和未来的影响也会越大,未来负荷受 到整个系统的约束也会变大,这有利于我们进行负荷预测。(2)相似原则。相似的电 力系统的负荷发展规律是相似的,可以通过观察其它区域电力系统的发展规律来考虑 目标电力系统的发展规律。例如,我国某两个区域具有相似的外部环境和相近的内部 电力运行系统,那么可以根据一个区域的电力系统发展规律来推测另一个区域的发展 规律。(3)相关原则。电力系统负荷的变化不是独立的,而是受各种因素影响的。相 关因素的发展规律对当前电力负荷发展规律的研究有一定的指导作用。例如,一个地 区全年的电能发展变化与季节变化密不可分,春秋气候凉爽,电能消耗较小,夏冬气 候炎热和寒冷,电能消耗就会变大。其次,电力负荷的发展也与当地的经济发展水平 和人口数量等社会因素有关。(4)概率原则。虽然可以通过考虑各种内外部因素使得 负荷预测变得相对容易,但是电力负荷本身的变化还是具有随机性,过分的追求预测 精确度不符合事物发展的基本规律。因此,在电力负荷预测中,我们需要注重的是整 体电力负荷变化的趋势,而不是关注某个时刻的值。
对应上述预测的四个基本原则,因此在搭建一个优秀负荷预测模型时需要遵循以 下四个基本要求:(1)良好的数据源。要做好电力负荷预测,首先需要搜集大量的、 全面的、准确的电力资料,并对资料进行统计学分析,去粗取精、去伪存真,只有数 据源可靠,根据数据源获得的模型才更合理和科学。(2)较小的预测误差。模型的预 测误差直接决定了最后预测结果的表现,较小预测误差意味着预测值与真实值更加接 近,更能准确的反应电力负荷变化的趋势,从而具有更好的指导意义。(3)良好的可 解释性。预测模型不是万能,往往会有好的表现,也不排除会有糟糕的表现。一个优 秀的预测模型能够在自身的表现结果中寻找出误差来源,从而指导我们探索误差存在
- 16 -
的原因和进行后续的模型改进。(4)简单的结构和较小的硬件需求。搭建的预测模型 最终是要运用到实践中去的,因此需要考虑到一些实际使用的环境。复杂或者过大的 模型对硬件要求比较高,而实际上,我们总是在有限的资源情况下来建立模型,这对 我们提出了更高的要求。
2.3传统预测方法
2.3.1指数平滑法
指数平滑法(Exponential Smoothing, ES) [67堤时间序列预测中常用的一种方法, 实际上也是一种特殊的加权移动平均法。指数平滑法具有以下两个特点:第一, ES 加 强了最近时间内观察值在预测未来值中的作用,通过对整个过去时间段内的观察值赋 予不同的权数,使得最近时间内观察值可以获得更大的权数,从而使预测值能更快的 反应序列的实际变化;第二,指数平滑法在赋予观察值权数时具有伸缩性,可以取不 同的平滑常数来改变权数的变化速率。根据所需要平滑次数的不同,指数平滑法可以 分为:一次指数平滑、二次指数平滑和三次指数平滑。三种指数平滑法可以处理的时 间序列略有不同,需要根据实际情况确定。
当时间序列无明显的趋势变化时,可以使用一次指数平滑法,其递推公式如下:
S- =7 +(1-a) si-i (2.2)
式中Si是时间步长i上经过平滑后的值,兀是这个时间步长上的实际数据,a是记忆 衰减因子。a的取值可以是0和1之间的任意值,它控制信息之间的平衡,a越大 表示对当前信息保留的越多,对历史信息“遗忘”的越快。一次平滑法计算的结果 可直接用来进行预测,即下一个预测值陥=s。
二次指数平滑法相比较一次指数平滑法,保留了趋势的详细信息,适用于具有线 性趋势的时间序列,具体公式如:
si =axi +(1-a)(si-1 +ti-1) (2.3)
ti =陆匕-Si) + (1 — 0)Li (2.4)
式中tt表示当前趋势未平滑的值。由于对趋势也做了平滑,所以当预测下一个值时, 需要增加最后的平滑趋势,即下一个预测Xi+1 = S’ +1。
- 17 -
三次指数平滑法也称为霍尔特-温特斯方法(Holt-Winters),就是在二次指数平滑 法上增加了一个季节性分量。具体公式如下:
=&(兀—P,-k) + (l —a)(si + t-J (2.5)
ti = 0 (si - si-i) + (1 ~ P] ti-i (2.6)
Pi =/( — sj + (l-刃 Pi-i (2.7)
式中Pt代表周期性,k是这个周期的长度。同理,再预测下一个值时,也需要加上周 期特征,即 E+i = Si + ti + Pi-k+i。
2.3.2差分自回归移动平均模型
差分自回归移动平均模型(Autoregressive Integrated Moving Average Model, ARI M A)是由博克思(Box)和詹金斯(Jenkins)于70年代初提出的一种时间预测分析 方法,并随后用于电力负荷预测中,通过对输入序列进行差分,可以使非平稳的序列 变得平稳[68]。ARIMA模型结合了三种基础方法:自回归(Auto Regression, AR)模 型、移动平均(Moving Average,MA)模型和差分方法。首先,我们需要建立一个AR 模型,用于描述当前值与历史值之间的关系,具体公式如下:
Xt = ai Xt-1 +a2 Xt-2 + ... + apXt - p + ut (2.8)
接着把式2.7中的随机扰动项ut替换成一个白噪声,就得到一个自回归移动平均 (Autoregressive Moving Average, ARMA)模型,可以用来处理平稳的时间序列,具 体公式如下:
Xt = ai Xt-1 +a2 Xt-2 + ... + apXt - p +St + 0tSt-1 + ... + 0qSt-q (2.9)
但是,当输入的序列为非平稳序列时,即序列会随着时间的推移而变化,就需要对其 进行差分操作。 ARIMA 的数学模型如下:
卜伞巾-LI =]1 (2.10)
式中厶为滞后算子,d e Z且d > 0,&t为零均值白噪声。ARIMA模型包含三个可调 参数:p、q和d o p为自回归项数,代表预测模型中采用时序数据本身的滞后数; q为移动平均项数,代表模型中采用的预测误差的滞后数;d为平稳序列所做的差分
- 18 -
阶数。当差分阶数d为0时,ARIMA模型就变成了 ARMA模型。ARMIA模型具体 的建立步骤如下:第一,利用相关系数图和 ADF 单位根检验法来对获得的时间序列 进行检验,对于非平稳序列需要进行d阶差分操作;第二,使用Barlett方法对时间序 列进行白噪声检验,能够适用ARIMA的模型必须是平稳非白噪声的序列;第三,根 据时间序列的自相关函数和偏自相关函数的截尾和拖尾特性来初步判断选择的模型 类型,再使用BIC准则进行定阶,确定参数p和q的阶数;第四,使用无条件最小二 乘法、极大似然估计或者相关矩估计法进行参数估计;第五,进行模型验证。
2.4传统机器学习预测方法
2.4.1回归决策树
决策树(Decision Tree)是一种强大的机器学习算法,它代表的是对象属性和对 象值之间的一种映射关系。决策树的一些生成算法有ID3、C4.5和CART。分类回归 树(Classification and Regression Tree,CART)是一种二叉树结构,仅包含条件语句的 监督式的机器学习算法。CART的内部结构特征的取值只有“是”和“否”,即只能 将一个根节点分裂成两个叶节点。根据数据类型的不同, CART 可以用于分类任务, 也可以用于回归任务。CART作为分类决策树,预测结果为离散型数据,输出该叶子 节点中所有样本所属类别最多的那一类;CART作为为回归决策树,预测结果是连续 性数据,输出该叶子节点中所有样本的均值或者中位数。
如图 2.1 所示, CART 是一种树状的结构,树的起点称为根节点,树的末端节点 称为叶节点。 CART 包含的基本过程有分裂、剪枝和树选择。 CART 的分裂过程是一 个二叉形的递归划分过程,在没有人为干预下,会一直分裂下去;CART的剪枝采用 代价复杂度剪枝,从最大树开始,每次选择训练数据熵对整体性能贡献最小的那个分 裂节点作为下一个剪枝对象,直到只剩下根节点;在选择CART的树时,使用交叉验 证法在单独的测试集上寻找预测性能最好的那棵树。
CART 在电力负荷预测中[69],常常采用和方差度量方式来处理连续值。首先,对 于输入训练集D,遍历切分变量j,对固定的切分变量扫描切分点s,最终使得下式 的到最小的解 ( j, S) :
min min 为(x-c)2min 为(兀-c2『 ex、
,v 1 m) 2 2222 丿 (2.11)
其中,R1和R2表示是划分之后的空间,c1和c2分别为R和R2的样本输出均值。最后, 通过输出最终叶子的均值或者中位数来实现预测。
 
Figure 2.1 The architecture of classification and regression tree
 
2.4.2支持向量机
支持向量机(Support Vector Machine,SVM)是由Vapnik等人提出的一种二分类 模型,在机器学习领域中应用广泛I70〕。SVM不仅可以应用于线性和非线性数据分类问 题,也可以用于线性和非线性数据的回归问题。SVM的基本思想建立一个函数,以最 大程度地扩大两个类别之间的距离。在分类问题中,SVM会尽可能使用间隔将两个类 别的数据分割开来,同时限制间隔侵犯;在回归问题中(也被称为SVR),SVR会尽 可能拟合相近的数据到间隔中,限制远离间隔的数据。由于SVR的优秀性能,已经被 应用到短期电力负荷预测中,并取得一定成功[71]。
如图2.2所示,对于一个样本数据,首先SVR会使用一个线性函数f (x) = &x + b 来拟合训练数据集,然而与用作分类器不同的是,SVR会定义一个可接受值e,认为
 
Figure 2.2 The architecture of support vector machine
 
- 20 -
 
允许存在一定的偏差,即f (x) - y|> e才开始计算损失。SVR构建了一个以f (x)为中 心,宽度为2e的间隔带,如果样本在间隔带中,则认为预测正确,反之则预测错误。 由于不在间隔带中的数据与间隔带距离不相同, SVR 对每个样本点引入了松弛变量 & > 0,相当于支付一个代价,使得约束条件变为:f(xi)-川>e +化o满足约束条件 的在间隔带内部,乙=o;不满足在间隔带内部的则乙>0,并且离间隔带越远&值越 大。若在间隔带两侧都添加松弛变量&和则优化目标公式为:
(2.12)
必-f (xl )^ e+u
st.\f (xi)-/ <e + £
点 > 0,i = 1,2,...,n
式中,C为正则化常数。可以发现这是个有条件的凸优化问题,不利于求取最优解, 需要引入拉格朗日乗子法将原问题转换为无约束条件的凸优化问题求解[7】]。
2.5短期电力负荷预测数据集和预处理
2.5.1数据集介绍
为了本文比较第二章和第四章中各个预测模型的有效性和可泛化性,本文将使用 三个公开的电力负荷数据集进行验证实验。本文下载的公开数据集分别是由美国 PJM①电力市场电力负荷数据和欧洲互联电网(ENTSO-E)②居民家庭负荷数据提供。 其中,两个数据集为PJM电力市场提供,地区代码为AP和DAY(以下定义为PJM_AP 和PJM_DAY),具体采样时间为2019.1.1-2020.12.31,—共731天。另一个数据集由 ENTSO-E提供,地区代码为AT (以下定义为ENT_AT),具体采样时间为2011.1.1- 2012.12.31,一共371天。每个电力负荷数据集为完整的两年电力负荷值,采样时间 间隔为一小时。三个公开数据集的原始数据如图3.1所示。
通常,在深度学习模型训练中,数据集在使用之前需要被划分成训练集、验证集 和测试集。通过模型在训练集上进行重复训练,来不停的优化模型的参数;验证集则 作为模型在训练中的是否过拟合的重要依据,一般当模型训练一段时间之后,需要在
①PJM 链接:https://dataminer2.pjm.com/list
②ENTSO-E 链接:https://www.entsoe.eu
-21 - 验证集上进行测试,以判断模型是否收敛和是否过拟合;测试集则用于模型最后评估 阶段,具有对模型最终性能的评价作用。本实验中三个数据集将大致按照7:1:2的比 例进行划分,具体的划分细节如表3.1所示。
划分完数据集后,需要对数据集进行一定的处理,方便完成短期电力负荷预测任 务,本文主要关注两个方面:第一,预测未来几个小时的电力负荷值;第二,预测未 来几天的每天的总负荷值。因此,本文将在第三章和第四章基于这两个任务进行模型 的比较。其中,本文将在第三章中比较传统预测方法、机器学习方法和循环神经网络, 在第四章将比较循环神经网络、时间卷积网络和PhaCIA-TCNs网络。然而,由于下载 的数据集采样的时间间隔为一小时,所以,为了完成第二个短期预测任务,需要对三 个数据进行一个求和预处理来获得每天的总负荷值。在求和之前,每个数据集共包含 (365+366)x24=17544个负荷值,求和之后会形成三个新数据集,其中每个数据集包 含 731 个负荷数据,采样间隔为一天。
 
 
图 2.3 原始电力负荷数据:( a ) PJM_AP ;(b ) PJM_DAY ;( c) ENT_AT
Figure 2.3 Raw power load data: (a) PJM_AP; (b) PJM_DAY; (c) ENT_AT
表 2.1 数据集划分细节
Table 2.1 The division of PJM and ENT datasets
数据集 训练集 验证集 测试集
PJM_AP 2019.1.1-2020.3.31 2020.4.1-2020.6.30 2020.7.1-2020.12.31
PJM_DAY 2019.1.1-2020.3.31 2020.4.1-2020.6.30 2020.7.1-2020.12.31
ENT AT 2011.1.1-2012.3.31 2012.4.1-2012.6.30 2012.7.1-2012.12.31
 
2.5.2归一化处理
收集到的电力负荷数据,有时由于电力数据与其他数据的单位不统一,不能直接 参与运算过程。其次,有些电力负荷值很大,直接输入模型中会增加模型计算的负担, 导致模型性能的下降。所以,为了确保输入值在同一范围内,并使预测网络的训练更 加轻松稳定,本文将对电力负荷数据进行标准化(Standardization)。标准化的基本思 - 22 -
想是利用均值和方差对整个数据进行归一化,然后通过尺度变换和偏移量来确保整个 网络的容量,使得处理过后的数据符合标准正态分布。
1N
(2.14)
1N
丁 =亍2匕—卩) (2.15)
x 一 入
x £ (2.16)
 
式中,N为数据集样本的数量,x,是样本中第i个负荷值,“是样本均值,是样本 方差,£是一个极小数,防止分母为0。
2.5.3数据扩充
数据扩充是通过某些方法对原数据集进行科学的操作,从而创建出和原数据集相 类似或者同分布的数据,并且这些数据可以补充到原数据中而不改变原数据集的特性。 研究表明,深度学习模型通过在更大的数据集上训练可以获得更好的表现性能。其次, 数据集的收集来之不易,科学的数据扩充是对原数据集更合理和更充分的利用,防止 造成数据集的使用浪费。在短期电力负荷预测任务中,是通过输入一段历史负荷序列 来对未来一段序列进行预测,并不需要输入全部历史数据,因此,可以引入滑动窗口 法来进行数据扩充。
滑动窗口法本身是一种用于解决数组的子元素问题的方法,它通过特定大小的窗 口进行有规律的滑动,从而可以获得与窗口大小相同的子序列。滑动窗口法已经在很 多短期电力负荷预测工作中得到应用,滑动窗口法具有两个优点:(1)能够根据指定 的单位长度来框住子时间序列,从而只使用框内的序列信息;(2)通过给定窗口在整 个数据集上按时间先后进行滑动,从而保证子序列依然具有时间性。例如,假设我们 想去使用过去m小时(或者天)的负荷观测值去预测接下来n小时(或者天)的负荷 值,即滑动窗口的大小就被设置为m + n。再考虑到我们收集的负荷预测长度为L ,滑 动步长设置为1,则通过使用滑动窗口法,可以获得L -m -n +1个长度为m + n的子序 列。在每m + n个子序列中,前m个负荷值被使用作为模型的输入,后n个负荷值在模 型训练时被用来作为真实值。如图 3.2 所示,展示了一个滑动窗口法的例子,例子中 待划分序列长度L = 20,假设需要输入序列长度m = 7,预测序列长度n = 1,滑动步
- 23 - 长为1。因此,滑动窗口大小为8,根据上述计算公式,原始序列可以被划分13个子 序列集合。
 
图 2.4 滑动窗口法
Figure 2.4 Slide window
 
2.6实验与结果分析
2.6.1实验平台与实验设置
为了验证传统预测方法和机器学习方法在短期电力负荷预测任务上的表现,本章 设计了大量对比试验。本章比较了四种预测模型在两个预测任务(日小时负荷预测和 日总负荷预测)上表现结果,四种预测模型分别是自回归移动平均模型(ARIMA)、 指数平滑法(ES)、支持向量机(SVR)、回归决策树(CART)。本章验证实验使用 的数据集为本章2.5节介绍的PJM电力市场提供两个地区数据集(定义为PJM_PA和 PJM_DAY)和ENTSO-E网站提供的一个地区数据集(定义为ENT_AT)。本章实验 模型代码均是使用 python 编写,其中, ARIMA 使用 pmdarima 包搭建、 ES 使用 Statsmodels包搭建、CART和SVR使用Sklearn库搭建。硬件方面使用的CPU型号 为 Intel Core i7。
本章四个模型参数设置如下:ARIMA中p和q可选值为[0,5],d的可选值为[0,2]; ES模型中各参数分别为趋势参数trend = "add"和季节趋势参数seasonal = "add"; CART中树的最大深度设置为max_depth = None ; SVR中各参数分别为初始核函数类 型kernel = ''rbf ",核系数gama = 0.1 和惩罚项C = 100。
本章模型训练和测试细节如下:第一,ARIMA和ES没有使用训练集和验证集数 据,直接在测试集上拟合输入序列给出预测;第二,CART和SVR需要先在训练集上 进行训练,设定训练 10 次,返回每次在验证集测试的分数,选取最优参数后在测试 集上进行测试。
- 24 -
 
2.6.2性能评估指标
于无法直观的判断一个模型的好坏,因此,我们需要通过一些指标数值来帮助我 们衡量。预测精度就是衡量一个预测模型好坏的重要指标,通过计算预测值与真实值 的密集或离散程度来评估预测模型的有效性。本文通过计算真实值和预测值之间的均 方根误差(Root Mean Square Error,RMSE)和平均绝对百分误差(Mean Absolute Percent Error,MAPE)作为预测精度的定量计算。RMSE和MAPE均是衡量模型预测性的统 计指标,一般认为,当 RMSE 和 MAPE 越小时,预测精度越高。具体的计算公式如 下:
(2.17)
(2.18)
式中,N是数据集样本的数量,M是数据集样本中的第i个预测值,x是数据集样本 中的第 i 个真实值。
2.6.3实验结果分析
为了验证本章中传统预测方法和机器学习方法的预测表现,本节设计了两个短期 电力负荷预测任务,并且进行了验证试验,最后对部分结果进行了可视化操作。两个 短期电力负荷预测任务分别是:第一,日小时负荷预测任务。输入过去 48 小时的负 荷值,预测未来 24 小时的负荷值;第二,日总负荷预测任务。输入过去 7 天的总负 荷值,输入未来 2 天的总负荷值。表2.2 展示的是四种预测模型在日小时负荷预测任 务中的 RMSE 和 MAPE 结果;表 2.3 展现了四种预测模型在日总负荷预测任务中的 RMSE和MAPE结果。其中,表中ARIMA和ES为传统预测方法,CART和SVR为 机器学习预测方法。图 2.5展示的是日小时负荷预测任务在三个公开电力负荷数据集 上的部分可视化结果;图 2.6展示的是日总负荷预测任务在三个公开电力负荷数据集 上的部分可视化话结果。
首先,通过总体观察表 2.2 和 2.3 中的两个评估指标,我们可以发现两个机器学 习的方法在三个数据集上的 RMSE 和 MAPE 值都要低于两个传统预测方法。因为电 力负荷既具有周期性,也具有随机性,所以电力负荷数据不仅仅大量线性特征,而且 包含了大量的非线性特征。但是,两种传统预测方法的 ARIMA 和 ES 本身是基于线 性回归的方法,它们无法处理大量的非线性特征,因此会导致预测精度不高。但是,
- 25 -
表2.2传统方法和机器学习方法在三个数据集日小时负荷预测任务上的RMSE和MAPE结果
Table 2.2 RMSE and MAPE results of traditional methods and machine learning methods in daily
hourly load forecasting task on three datasets
模型 PJM_AP PJM DAY ENT AT
RMSE
(WM) MAPE
(% RMSE
( WM ) MAPE
( %) RMSE
( WM ) MAPE
(%)
ARIMA 1598.94 17.45 740.85 23.29 1905.18 20.23
ES 922.82 10.92 422.71 13.16 2387.68 17.96
CART 568.64 7.64 236.83 8.83 668.10 5.27
SVR 675.38 9.36 295.92 11.27 1256.15 12.74
 
表2.3传统方法和机器学习方法在三个数据集日总负荷预测任务上的RMSE和MAPE结果
Table 2.3 RMSE and MAPE results of traditional methods and machine learning methods in daily total
load forecasting task on three datasets
模型 PJM_AP PJM DAY ENT AT
RMSE
( WM) MAPE
( %) RMSE
( WM ) MAPE
( %) RMSE
( WM ) MAPE
( %)
ARIMA 30831.59 12.74 6396.27 9.99 27008.12 10.93
ES 17020.58 9.83 7635.75 12.29 36366.08 14.94
CART 15332.89 8.10 5278.73 8.36 13972.48 4.66
SVR 12685.94 7.89 4976.94 8.30 13367.22 5.23
两种机器学习的方法 CART 和 SVR 本身都具有非线性映射操作,因此既对电力负荷 的线性关系有着一定的学习能力,也对电力负荷序列的非线性特征有着较强的学习能 力,能很好的学习到电力负荷值空间分布规律。
其次,单独观察表2.2中四种方法在三个电力负荷数据上的测试结果,我们可以 发现CART有着最低的RMSE和MAPE值,其次是SVR。另外,在两个PJM的两个 电力数据集上,ES要比ARIMA有着更低的指标,而在ENT的数据集上,虽然在指 标RMSE上要高于ARIMA,但是MAPE值却低于ARIMA,可能是因为在某些时间 段内有着较差的预测,进而导致了很大的RMSE值,但是整体预测结果与真实值的趋 势比较相近,因此具有较低的MAPE值。而在日总负荷预测任务中,单独观察表2.3, SVR在三个公开电力负荷数据集上总体预测结果要比其它三个预测模型更好一点,ES 在PJM_AP和ENT_AT两个数据集上的预测结果要好于ARIMA,而在PJM_DAY数 据集上要差于ARIMA,因为不同的电力负荷数据存在不同的变化趋势和幅度,导致 模型在学习时会获得不同的结果。其次,在ENT_AT数据集上,相比SVR, CART有 - 26 -
 
 
图2.5传统方法和机器学习方法在日小时负荷预测任务上可视化结果:(a) PJM_AP; (b)
PJM_DAY;(c)ENT_AT
Figure 2.5 Visualize results of traditional methods and machine learning methods on daily hourly load
forecasting task: (a) PJM_AP; (b) PJM_DAY; (c) ENT_AT
 
图 2.6 传统方法和机器学习方法在日总负荷预测任务上可视化结果:( a )PJM_AP ;( b )
PJM_DAY;(c)ENT_AT
Figure 2.6 Visualize results of traditional methods and machine learning methods on daily total load
forecasting task: (a) PJM_AP; (b) PJM_DAY; (c) ENT_AT
着更高的 RMSE 值,但有着更低 MAPE 值,与上述一样,整体趋势更为接近,但在 某些具体的时间段存在不叫理想预测结果。
最后,总体观察可视化图 2.5 和图2.6,我们发现两种机器学习方法的预测曲线与 真实曲线更为接近,这也证明了机器学习的方法要优于传统预测方法。单独观察图 2.5 我们可以发现,相比较两种传统预测的方法,机器学习的方法与真实曲线更为接近。 观察图2.5中的(a)和(b),传统预测方法的虽然趋势大致相同,但每个时刻的负 荷值却与真实值相差甚远,很难满足我们的期望。其次观察图(c),传统方法几乎不 能很好的预测,机器学习的方法预测结果也很长差,完全达不到电力公司对预测精度 的要求。然后,单独观察图 2.6,我们可以发现在三个数据集上传统学习方法的预测结 果与真实值有着很大的差距,机器学习的方法虽然比传统方法更加接近真实值,但是 与真实的曲线趋势也有不小差距。综上所述,传统方法和机器学习的预测方法由于本
- 27 - 身因素的限制,因而不具有很好的预测结果,因此,本文将在后面两章介绍更好的预 测模型,以满足电力公司对精度的需求。
2.7本章小结
本章首先通过数学表达、电力负荷特性和研究内容三个方面,详细介绍了本文的 短期电力负荷预测任务。总结如下:第一,寻找一个数学表达,使得可以对输入历史 电力负荷序列进行分析,并对接下来一段时间的电力负荷值给出科学的预测;第二, 分析了电力负荷数据具有三个特性:周期性、时间性和随机性;第三,阐明了短期电 力负荷预测任务中的四个基本原则和四个基本要求。
其次,本章2.2节详细介绍了指数平滑法和差分自回归移动平均模型,通过引入 不同的参数来学习负荷序列的变化规律,本质这些传统模型主要还是只学习负荷序列 的线性特征。在本章 2.3 节中,本章详细阐述了两个机器学习的模型—决策树和支持 向量机,通过非线性映射操作从而可以学习非线性特征。
此外,介绍了本文中使用的三个公开的电力负荷数据集。数据集作为模型训练和 评估的基础,在进入模型之前需要对其进行一定的预处理操作。本节使用了滑动窗口 法来扩充数据集和归一化处理来保证模型训练稳定。最后,本节按照 7:1:2 的比例把 数据集划分为训练集、验证集和测试集,方便模型的训练、验证和评估。
最后,本章进行了一定的验证实验。通过观察实验结果,我们可以发现,虽然传 统预测方法和传统机器学习方法可以自动的完成负荷的预测工作,但是它们的预测精 度远远不能达到电力公司实际要求。传统预测方法是基于线性回归的方法,难以处理 负荷中的非线性特征,因而具有较差的预测性能。传统机器学习的方法虽然可以处理 非线性特征,但是不具有学习时域特征的能力。
- 28 -
第三章 基于循环神经网络的短期电力负荷预测
3.1引言
本文在上一章对传统方法进行了详细的分析,由于传统方法模型本身具有很大的 局限性,导致预测表现远远不能令人满意。指数平滑法和差分自回归移动平均模型无 法处理含有大量非线性特征的负荷序列数据,而回归决策树和支持向量机模型不能学 习到负荷序列元素之间的时间依赖关系。因此,为了获得更好的预测结果,我们将在 本章对深度学习模型开始进入深入研究。
目前在短期电力负荷预测中任务应用最广泛的深度学习模型是循环神经网络和 它的变体们,相比较传统方法,因其独特的循环结构展现出了更好的预测性能。然而, 原始的循环神经网络存在着梯度消失和梯度爆炸的问题,因此,循环神经网络的一个 变体网络长短时间记忆网络被提出。长短时间记忆网络通过引入输入门、遗忘门和输 出门,不仅解决了原始循环神经网络中梯度爆炸和梯度消失的问题,而且可以捕捉长 短时间依赖的关系。但是,长短时间记忆网络因此包含了大量的参数,导致模型训练 困难。因此,循环神经网络的另一个变体网络循环神经单元被提出。门控循环单元用 过合并输入门和遗忘门,不仅解决了原始循环神经网络的问题,而且相比较长短时间 记忆网络,模型参数量更少和收敛速度更快。但是,以上三个模型只能使用上文信息, 因此,对于一些需要使用上下文信息的任务,双向普通循环神经网络、双向长短时间 记忆网络和双向门控循环单被提出。
在本章的另一个部分为验证实验部分,本章将比较指数平滑法、差分自回归移动 平均模型、回归决策树、支持向量机、循环神经网络、长短时间记忆网络、门控循环 单元、双向循环神经网络、双向长短时间记忆网络和双向门控循环单元十种预测模型 的预测性能。在短期电力负荷预测中,往往需要预测未来几个小时和几天的负荷值, 因此本章继续设置两个预测任务,一个是输入过去48小时的负荷值预测未来12小时 的负荷值,另一个是输入过去7天的每天总负荷值预测未来2天的每天总负荷值。其 次,本章对两个方法中十个预测模型的预测结果使用RMSE和MAPE两个指标进行 了定量分析,并对部分结果进行了可视化操作。实验结果表明,相比较传统方法,循 环神经网络的方法具有更好的预测表现。
- 29 -
3.2循环神经网络
电力负荷数据属于时间序列的一种,因此,如何在预测模型中展现出时间相关性 变得非常重要。最早的神经网络结构主要有多层神经元堆叠而成,层与层之间的神经 元相互连接,然而每层的神经元则是相互独立的,因此它们只能单独的处理一个一个 的输入,在同层之间两个相邻的输入是被完全分离开的。但是,某些任务需要处理的 是序列信息,即前后输入是相关的,例如,电力负荷预测,机器翻译和动作预测等。 1990年,Elman等人通过在神经网络的每层之间加入了反馈点,使得网络具有了记忆 性,并且使用误差反向传播算法进行了训练,这也是如今最简单的包含单个自连接点 得循环神经网络(Recurrent Neural Networks, RNNs) [76]。
单个自连接点的原始RNNs如图2.8所示。图左为固定时刻的原始RNNs神经单 元结构,主要包含三层结构,分别是输入层,隐藏层和输出层。输入层负责数据输入 工作,这一层不会对数据进行任何处理;隐藏层负责特征提取工作,输入层的数据会 被添加一个权重U再传入到隐藏层中,此时隐藏层会另外添加一个新的权重W再反馈 回到隐藏层中;输出层负责输出最后结果,输出层接收隐藏层的信息并添加一个权重 V再输出结果。图右为按时间展开的原始RNNs结构,原始RNNs通过神经单元链式 连接构成,每个时刻都会接受一个输入,并且也会输出一个结果,但此时隐藏层不仅 仅会接收来自输入层的信息,也会接收来自上一时刻隐藏层保留下来的信息,相对应 的隐藏层输出时也会有两个输出通路,一个是传入到输出层进行最后的结果输出,另 一个是传入到下一时刻的隐藏层中。其中,当原始RNNs在处理一个序列数据时,每 个时刻中的权重U、V和W的值保持不变(也称作为权重共享)。通过不同时刻隐藏 层建立联系和权重共享,使得原始 RNN 可以有效的处理序列信息。对于给定输入序 列X =(兀,x2,...,兀),原始RNNs网络的内部神经单元计算公式如下:
ht =Uxt +bU +Wht-1 + bW (3.1)
yt =Vht +bV (3.2)
式中,xt表示神经单元t时刻的输入,勺表示神经单元t时刻隐藏层的状态,yt表示神 经单元t时刻的输出,bU表示权重U的偏置,如表示权重W的偏置,bV表示权重V的 偏置。
此外,由于大多数时候处理的函数是非线性的,因此一般会在原始RNNs网络中 引入激活函数来提升模型的表达能力。添加激活函数后的公式为:
- 30 -
ht = f (Uxt +bU +Wht-1 + bW ) (3.3)
yt =f (Vht +bV ) (3.4)
式中,/⑴代表激活函数。在原始RNNs中,一般常用的激活函数有Sigmoid函数、 Tanh 函数和 ReLU 函数。然而加入了激活函数后,原始 RNNs 网络会存在梯度消失。 当序列达到一定长度时,由于链式法则的原因计算梯度时就会出现非常多的乘积项, 如果此时激活函数是Sigmoid函数,那么导数的最大值为0.25 (小于1),这样就会 导致前几层梯度非常小,很难训练。原始RNNs网络也会有梯度爆炸的问题,误差的 梯度会在参数更新中积累,如果网络层之间的梯度值大于 1,那么重复相乘就会导致 梯度增长的非常快,然后导致网络权重大幅度的更新,从而导致网络变得不稳定。
 
图 3.1 循环神经网络
Figure 3.1 The architecture of recurrent neural networks
 
3.3长短时间记忆网络
长短时间记忆(Long Short-Term Memory, LSTM)网络是循环神经网络的一种变 体模型,通过在改变了循环单元中单一的乘法结构,从而解决了原始RNNs网络中梯 度消失和梯度爆炸的问题[77]。并且通过引入门控机制,使得网络可以选择性保留长期 或者短期的历史信息,从而可以拥有更好的预测表现。
如图2.9所示,相比原始RNNs网络中只有一个隐藏状态,LSTM网络增加一个 单元状态(Cell State)用来保留需要长时间记忆的信息,并且引入了三个门控机制来 控制信息的流动,即遗忘门(Forget Gate),输入门(Input Gate)和输出门(Output Gate)。遗忘门决定了上一时刻有多少信息会保留到当前时刻;输入门决定当前时刻 网络的输入有多少可以保存到单元状态中;输出门则决定单元状态中的信息可以输出 到隐藏状态中。长短时间记忆网络的记忆单元计算公式如下:
f =a(Wf [ht-1,xt] + bf) (3.5)
it =^(Wi [ = x<] + bi) (3.6)
C =Tanh (= [ht-1, xt ] + bc) G.7)
ct = f -ct-i + it -C G.8)
o’ =cr(Wo [ = xt] + bo) (3.9)
h = 0 ■ Tanh(cj (3.10)
式中xt为当前输入,ht-1为上一时刻的隐藏状态,ht为当前时刻的隐藏状态,ct-1为上 一时刻的单元状态,C;为当前时刻输入的记忆,ct为当前时刻的单元状态,ft为遗忘 门,it为输入门,ot为输出门,b为Sigmoid函数,Wf是遗忘门的权重矩阵,W-是 输入门的权重矩阵,W是当前记忆的权重矩阵,Wo是输出门的权重矩阵,bf是遗忘 门的偏值,b,是输出门的偏值,bc是当前记忆的偏值,bo是输入门的偏值。在遗忘门 的计算中,上一时刻的隐藏状态ht-1会和当前输入拼成一个更长的向量[ht-1 : xt],然 后乘上一个包含偏值bf的权重矩阵Wf,在经过一个Sigmoid函数得到遗忘门的输出 ft。输入门和输出门的计算类似于遗忘门的计算,只是分别乘上他们各自对应的权重 矩阵。当前细胞状态cz的计算中,上一时刻的细胞状态ci会乘上遗忘门的输出f^t,再 有当前记忆c;乘上输入门的输出it,在把两个值加起来就得到新的细胞状态ct,由于 遗忘门的控制可以保留很久以前的有价值的信息,又由于输入门的控制可以防止当前 没有价值的信息进入到细胞状态中。在输出计算中,当前细胞状态经过一个 Tanh 函 数后与输出门的输出ot相乘就得到当前的隐藏状态ht,ht需要被传入到下一刻的网
 
 
 
- 32 -
络中,但也可以作为当前时刻细胞向外界的输出值X。
3.4 门控循环单元
门控循环单元(Gate Recurrent Unit, GRU)是在2014年被Cho等人首次提出[78], 可以看作是普通神经网络的另一种变体。GRU保留了 LSTM网络中选择性忘记不重 要信息的特点,但它的结构却比LSTM网络简单。GRU的工作原理与LSTM网络极 其类似,都是通过门控机制来控制信息的流通,从而对未来时刻做出预测。
如图2.10所示,与LSTM网络拥有三个门控机制不同,GRU只有两个门控机制, 即一个是重置门(Reset Gate)和另一个是更新门(Update Gate)。GRU的重置门rt 用来决定之前隐藏状态的信息是否被遗忘,而更新门 zt 用来决定有多少信息需要被更 新。 GRU 内部具体计算公式如下:
Zt =b(xW + ht-1Wzh + bz ) (3.11)
rt =旷(XWrx + ht-1Wrh + br ) (3.12)
ht = Tanh(兀% + Wh (r -ht-J + bh) (3.13)
ht = zt -ht-i +(1-z)h (3.14)
式中zt和rt分别为GRU的更新门和重置门的输出,xt为当前输入,ht-1为上一时刻的 隐藏状态,ht为输出的隐藏状态,h;为当前时刻的记忆,b为Sigmoid函数,Wzx、 %、Whx和Wh为各自可学习的权重矩阵,bz、br和bh为对应矩阵的偏值。在更新 门的计算中,上一时刻的隐藏状态hi会和当前输入xt各自乘上一个权重矩阵,这个
 
图 3.3 门控循环单元
Figure 3.3 The architecture of gate recurrent unit
矩阵是可学习的,再经过一个 Sigmoid 函数得到更新门的输出 zt 。重置门的计算与更 新门一样,只是乘上的权重矩阵不同。在新的隐藏状态 ht' 计算中,当前时刻输入 xt 乘 上一个权重矩阵Wrx,前一时刻的隐藏状态乘上重置门的输出rt再乘上一个权重矩阵 Wh ,两个结果相加再经过 tanh 函数,特殊的,当 rt 接近于 0 时,当前记忆丢弃上一 时刻全部的隐藏状态而只包含当前输入的信息。在前隐藏状态h^t (也可以作为当前单 元输出)计算中,上时刻的隐藏状态ht-1乘以(1 - zt),当前记忆ht乘上zt,两者的结 果相加,特殊的,当输出为0时,ht就等于ht-1,表示全部保留上一个时刻的状态, 当 zt 输出为 1 时, ht 就等于 ht' ,表示上一时刻的隐藏状态被全部更新。
3.5 双向循环神经网络
循环神经网络,长短时间记忆网络和门控循环单元由于按时间顺序依次读取数据, 只能依据过去时刻的时序信息来预测未来的输出,但有些时序问题中,当前时刻的输 出不仅之前的信息有关,也有可能和接下来状态有关。例如,预测一句话中缺失的单 词,不仅要根据上文的信息进行预测,下文的信息也同等重要,需要全局来判断。在 电力负荷预测中,在人为制定用电计划下,电力负荷数据受到不同程度的影响。此时, 未来的信息对现在电力负荷用量就有了一定的影响作用。因此,为了模型可以充分考 虑到上文和下文的信息,双向循环神经网络(Bidirectional Recurrent Neural Networks, Bi-RNNs)被提出[79][80]。
如图 2.11 所示,双向循环神经网络相比循环神经网络在结构上并没有什么大的不 同,完全可以看作是两个并联的循环神经网络在工作,它分为一个前向的循环神经网 络和一个后向的循环神经网络组成,前向循环神经网络按输入正向时间序列,后向循 环神经网络输入逆向时间序列。对于每一时刻的输入,它会同时输入到两个循环神经 网络中,对于每一时刻的输出,它是由两个循环神经网络输出的综合结果。前向神经 网络和后向神经网络的内部隐藏层具体计算公式如下:
h = RNN(hi,xt),t e[1,T] (3.15)
ht = RNN(ht-1,Xt),t e[T,1] (3.16)
式中,xt为当前输入,ht-1为上一时刻的隐藏状态,ht为输出的隐藏状态,RNN表示 前向循环神经网络,^RNN表示后向循环神经网络。相类似的,双向长短时间记忆网络 (Bidirectional Long Short Term Memory,Bi-LSTM)和双向门控循环单元(Bidirectional Gate Recurrent Unit,Bi-GRU)也被相继提出。
- 34 -
 
Figure 3.4 The architecture of bidirectional recurrent neural networks
 
3.6 实验与结果分析
3.6.1实验平台与实验设置
为了验证循环神经网络及其变体网络在短期电力负荷预测任务上相对于传统预 测方法和机器学习方法有着重大提升,本章进行了大量试验。本章比较了十种预测模 型在两个预测任务(日小时负荷预测和日总负荷预测)上表现结果,十种预测模型分 别是自回归移动平均模型(ARIMA)、指数平滑法(ES)、支持向量机(SVR)、回 归决策树(CART)、循环神经网络(RNNs)、长短时间记忆网络(LSTM)、门控 循环单元(GRU )、双向循环神经网络(Bi-RNNs )、双向长短时间记忆网络(Bi -LSTM) 和双向门控循环单元(Bi -GRU)。本章验证实验使用的数据集为本章3.3节介绍的 PJM电力市场提供两个地区数据集(定义为PJM_PA和PJM_DAY、和ENTSO-E网 站提供的一个地区数据集(定义为ENT_AT)。本章实验模型代码均是使用python编 写,其中,ARIMA使用pmdarima包搭建、ES使用Statsmodels包搭建、CART和SVR 使用 Sklearn 库搭建、循环神经网络模型均在 Pytorch 公共深度学习框架平台上搭建, 循环神经网络模型训练使用的显卡是NVIDIA GeForce GTX 2080。
本章两个预测任务设置如下:第一,在日负荷预测任务中,模型的输入为过去 48 小时负荷值,输出为接下来24小时的负荷值;第二,在日总负荷预测任务中,模型的 输入为过去7天的总负荷值,输出长度为接下来2天的总负荷值。四个传统方法的参 数设置与第二章的实验设置相同,六个循环神经网络层数设置为4层,隐藏层数均设 置为 256,网络参数选择选择随机初始化。
循环神经网络模型先在训练集上进行训练优化参数,并在训练中使用验证集来判 断是否过拟合,当在验证集的MSE误差连续10次不下降时模型停止训练,保留训练
- 35 -
中 MSE 值最低的模型参数,最后在测试集上进行测试。日小时负荷预测训练过程中 设置的每轮训练批次为128,日总负荷预测训练过程中设置的每轮训练批次数量为16。 训练中模型损失函数使用MSE损失函数,模型初始学习率被设置为0.0001,使用Adma 优化器对网络进行优化,优化器的超参数设置为0产0.9, 02=039, €=10-8。
3.6.2性能评估指标
由于无法直观的判断一个模型的好坏,因此,我们需要通过一些指标数值来帮助 我们衡量。预测精度就是衡量一个预测模型好坏的重要指标,通过计算预测值与真实 值的密集或离散程度来评估预测模型的有效性。本文通过计算真实值和预测值之间的 均方根误差(Root Mean Square Error, RMSE、和平均绝对百分误差(Mean Absolute Percent Error, MAPE)作为预测精度的定量计算。RMSE和MAPE均是衡量模型预测 性的统计指标,一般认为,当RMSE和MAPE越小时,预测精度越高。具体的计算 公式如下:
(3.17)
(3.18)
式中,N是数据集样本的数量,X是数据集样本中的第i个预测值,x是数据集样本 中的第 i 个真实值。
3.6.3实验结果分析
为了验证上述十种预测模型的表现结果,基于两个短期电力负荷预测任务,本节 进行了大量验证试验,并对部分结果进行了可视化。表 3.1 展示的是十种预测模型在 日小时负荷预测任务中的RMSE和MAPE结果;表3.2展现了十种预测模型在日总 负荷预测任务中的RMSE和MAPE结果。表中ARIMA和ES为传统预测方法,CART 和 SVR 为机器学习方法,RNNs、LSTM、GRU、Bi-RNNs、Bi-LSTM 和 Bi-GRU 为 深度学习方法。
首先,通过总体观察两个表可以发现,循环神经网络及其变体模型在三个数据集 上的 RMSE 和 MAPE 值都要低于传统预测方法和机器学习方法。此外,两个机器学 习方法在三个数据集上的预测结果要好于两个传统学习方法的预测结果。因为电力负
- 36 -
表 3.1 传统方法、机器学习方法和六个循环神经网络在三个数据集日小时负荷预测任务上的
RMSE 和 MAPE 结果
Table 3.1 RMSE and MAPE results of traditional methods, machine learning methods and six recurrent neural networks in daily hourly load forecasting task on three datasets
模型 PJM AP PJM DAY ENT AT
RMSE
(WM) MAPE (%) RMSE
(WM) MAPE (%) RMSE
(WM) MAPE (%)
ARIMA 1598.94 17.45 740.85 23.29 1905.18 20.23
ES 922.82 10.92 422.71 13.16 2387.68 17.96
CART 568.64 7.64 236.83 8.83 668.10 5.27
SVR 675.38 9.36 295.92 11.27 1256.15 12.74
RNNs 444.88 6.47 181.19 6.59 503.30 5.01
LSTM 427.38 5.91 170.34 6.41 494.08 4.62
GRU 413.87 5.54 169.93 6.34 484.29 4.48
Bi-RNNs 427.13 5.63 173.94 6.37 481.61 4.58
Bi-LSTM 418.57 5.62 167.58 6.36 465.52 4.28
Bi-GRU 403.43 5.53 165.01 6.20 434.85 3.98
荷具有周期性和随机性,所以电力负荷数据不仅仅具有线性特征,而且包含了大量的 非线性特征。但是,传统预测方法的 ARIMA 和 ES 本身是基于线性回归的方法,无 法处理大量的非线性特征,因此导致预测精度不高。其次,机器学习的方法 CART 和 SVR具有非线性映射操作,因此既可以学习线性关系,并且对非线性特征的学习能力 也比较好,能很好的学习到电力负荷值空间分布规律。但是,CART和SVR都是通过 间接法构造出回归预测,所以对于电力负荷的时序性学习能力很差。最后,循环神经 网络及其变体模型优于传统预测方法和机器学习的方法,主要是因为循环神经网络中 有大量激活操作,拥有很好的非线性学习能力,并且由于本身的循环结构,使得历史 信息得以流通,从而可以学习到序列间的时间依赖关系。
表 3.1 为日小时负荷预测任务的定量评估结果,可以发现机器学习方法在三个数 据集上相对于传统预测方法的预测精度提升基本在 20%以上, CART 相对于 ARIMA 的提升甚至可以达到 60%以上,这充分的证明了机器学习方法在非线性序列问题中有 着更大的优势。然后,循环神经网络及其变体的预测效果均要优于两个机器学习的方 法,平均精度提升在 15%以上,相对机器学习,循环神经网络具有很强的时序学习能 力,能够从电力负荷序列中各个元素的复杂时序关系中挖掘出隐藏的时序特征,从而 达到更高的预测精度。最后,比较循环神经网络及其变体模型可以发现,双向的循环
- 37 -
表 3.2 传统方法、机器学习方法和六个循环神经网络在三个数据集日总负荷预测任务上的
RMSE和MAPE结果
Table 3.2 RMSE and MAPE results of traditional methods, machine learning methods and six recurrent neural networks in daily total load forecasting task on three datasets
模型 PJM_AP PJM DAY ENT AT
RMSE
(WM) MAPE
(%) RMSE
(WM) MAPE
(%) RMSE
(WM) MAPE
(%)
ARIMA 30831.59 12.74 6396.27 9.99 27008.12 10.93
ES 17020.58 9.83 7635.75 12.29 36366.08 14.94
CART 15332.89 8.10 5278.73 8.36 13972.48 4.66
SVR 12685.94 7.89 4976.94 8.30 13367.22 5.23
RNN 10022.14 6.26 4409.27 7.18 11534.41 4.41
LSTM 9717.93 5.98 4220.78 6.93 10828.36 4.22
GRU 9433.18 5.69 4126.99 6.62 10482.44 3.91
Bi-RNN 9896.65 6.11 4191.91 6.66 11222.94 4.31
Bi-LSTM 9560.19 5.88 3977.50 6.32 10576.91 3.86
Bi-GRU 9337.08 5.50 3960.65 6.27 10149.94 3.68
神经网络的RMSE和MAPE值都要低于单向的循环神经网络,这是因为单向循环神 经网络只能利用已经当前时刻之前的信息,而双向循环神经网络既可以使用之前的信 息也可以使用之后的信息,从而更好的学习序列的时序特征。其次,在三种基本循环 结构中,GRU的预测结果最好,RNNs的预测结果最差,相比较RNNs的单一循环结 构,LSTM网络和GRU通过引入门控机制来控制信息的流通和保存,从而提升模型 的学习能力。表3.2为总负荷预测任务的定量评估结果,从表中我们可以观察到与日 小时负荷预测任务相同的结果,再一次证明了循环神经网络相比较传统方法和机器学 习方法有着更好的预测性能。
为了更好的比较传统预测方法、机器学习方法和循环神经网络方法的实验结果, 我们对部分实验结果进行了可视化,如图3.5和图3.6。因为本章是为了证明循环神经 网络相比前两种方法拥有最好的预测表现,也为防止线条过多影响读者观察,所以本 章在循环神经网络只选择了 RMSE和MAPE最高的RNNs网络进行可视化,如需观 察其余网络的可视化结果,可以到本文的第四章的验证实验部分中获得。总体观察图 3.5和图 3.6,我们可以发现,相比传统方法和机器学习方法,普通的循环神经网络与 真实值的曲线最相近,这充分证明了基于深度学习的循环神经网络具有更好的性能。 其次,五个模型在日小时负荷预测任务上要明显好于日总负荷预测任务,因为日总负
- 38 -
 
 
图 3.5 传统方法、机器学习方法和六个循环神经网络在日小时负荷预测任务上可视化结果:
(a) PJM_AP;(b) PJM_DAY;(c) ENT_AT
Figure 3.5 Visualize results of traditional methods, machine learning methods and six recurrent neural
networks on daily hourly load forecasting task: (a) PJM_AP; (b) PJM_DAY; (c) ENT_AT
 
图 3.6 传统方法、机器学习方法和六个循环神经网络在日总负荷预测任务上可视化结果:
(a) PJM_AP;(b) PJM_DAY;(c) ENT_AT
Figure 3.6 Visualize results of traditional methods, machine learning methods and six recurrent neural
networks on daily total load forecasting task: (a) PJM_AP; (b) PJM_DAY; (c) ENT_AT
 
 
 
- 39 -
荷曲线的变化趋势明显更剧烈和震荡,所以预测难度也会增加。然后,单独观察图 3.5, 可以发现除了两种传统预测方法在ENT_AT数据集上效果较差,其余曲线和真实曲线 都有着相似趋势。整体来看各种方法对于波动比较缓慢的数据都有着不错的预测能 力。但是,我们也可以发现RNNs网络在绝大部分的时间点上与真实值更加接近。最 后,单独观察图 3.6,在三个电力负荷数据集上,各个模型也有不同的预测效果。首先 看传统预测方法,在 ENT_AT 数据集上还能有相似趋势,而在另外两个数据集上直接 无法预测,除去数据集本身的原因外,这也表明了传统预测方法极大的局限性,无法 处理大量的非线性特征。机器学习的方法明显要好于传统预测方法,至少能与真实的 趋势保持相似,但是在曲线的转折处还是要差于RNNs网络,比如在波峰和波谷处。 图3.7是RNNs、LSTM和GRU在训练中,验证集上的损失可视化结果,我们可以发 现RNNs结构最为简单,因此最快进入平缓区域。其次,GRU减少了 LSMT网络中 的门控操作次数,因此也比LSTM网络更容易收敛。
3.7本章小结
本文从本章开始进入深度学习模型的介绍,首先对深度学习方法中的循环神经网 络进行了详细的阐述,相比较第二章中的传统方法,循环神经网络通过其独特的循环 结构可以更好的捕获负荷序列之间的时间依赖关系,从而获得优秀的表现性能。但是, 原始循环神经网络存在的两个缺点,即梯度消失和梯度爆炸。因此,本章接下来接受 了循环神经网络的两个重要的变体网络—长短时间记忆网络和门控循环单元。最后, 基于双向信息流动过程,详细阐述了双向循环神经网络的工作原理。
其次,针对第二章介绍的十种模型,本章设计了对比评估实验,通过比较在测试 集上的 RMSE 和 MAPE 值,可以发现循环神经网络的预测效果明显优于传统的预测 方法和机器学习的预测方法。指数平滑法和差分自回归移动平均模型由于是基于线性 回归的方法,难以处理负荷中的非线性特征,因而具有较差的预测性能。决策树和支 持向量回归法可以把低维空间映射到高维空间,进而能有效的处理大量非线性特征, 因而获得了比传统预测方法更好的预测性能。但是,传统机器学习的两种方法不具有 学习时域特征的能力。循环神经网络同时具有处理非线性和时域特征的能力,因而具 有比前两种方法更高的预测精度。在六个循环网络中,LSTM和GRU解决了普通RNNs 网络中梯度消失和梯度爆炸问题,并且通过门控机制可以保留长时间的记忆,从而具 有更低的 RMSE 和 MAPE 值。 GRU 作为另一个变体模型,不仅吸取了 LSTM 的优 点,而且拥有更少的模型参数,因而获得了更好的表现和更快的收敛速度。此外,在 模型结构不变的情况下,双向RNNs网络因为可以利用到上下文的信息,所以在预测 精度上也会高于单向的RNNs网络。
- 40 -
第四章 基于时间卷积网络的短期电力负荷预测
4.1 引言
第三章介绍了循环神经网络及其变体模型,分别是 RNNs、LSTM、GRU、Bi-RNNs、 Bi-LSTM和Bi-GRU。然后,详细阐述了它们在电力负荷预测中的实际运用。目前国 内外的大部分研究工作都是基于RNNs网络和它的变体网络搭建的混合预测模型,并 且引入一些算法来优化模型参数或者增强模型的学习能力。虽然, RNNs 网络及其它 的变体网络在短期电力负荷预测任务中取得了一定的成功,但是,从预测结果来看仍 然不能令我们满意。这主要是因为循环神经网络本身的循环结构在学习序列的非线性 关系时,存在一个缺点—不平衡的非线性处理问题。相比较其它人工神经网络结构, 循环神经网络的成功之处在于通过内部循环结构,可以保留和利用长时期的历史信息 来进行处理,但是对于一个序列中不同元素的非线性处理次数是不同的,例如,位于 序列前端的元素在循环中会被处理很多次,而位于序列后端的元素仅仅只会被处理几 次。因此,这种处理方式会导致RNNs网络不能对于序列中的每个元素都做到有效的 非线性处理,进而限制了循环神经网络对序列信息的学习能力,并且削弱了它们的预 测性能[81][82]。
为了解决这个问题,本章将从卷积神经网络(Convolutional Neural Networks, CNNs)[83 ]角度出发,详细介绍了一个新颖的时间卷积神经网络(Temporal Convolutional Networks,TCNs) [84]。TCNs网络可以有效的解决RNNs网络中不平衡的非线性处理 问题, TCNs 网络主要包含三个部分:因果卷积模块,可以在序列元素之间建立起时 序上的联系;膨胀卷积模块,可以扩大深层网络的感受视野;跳跃连接,防止信息丢 失和加快模型收敛速度。
尽管TCNs网络已经被应用到了很多时间序列任务中,比如天气预测[89]、动作预 测[90]和时间序列分类[91],但是目前应用到短期电力负荷预测任务上的工作非常有限 [92][93],并且他们所使用的 TCNs 网络均没有经过任何改进。然而, TCNs 网络本身并 不完美,具有以下两个缺点:第一, TCNs 网络每一层网络都包含两个连续的膨胀因 果卷积操作,虽然这可以模型的学习能力,但不可避免的增加了反向传播的计算路径 和每一轮训练的时间消耗;第二,相同的非线性处理过程,使得TCNs网络可以同等 的对待序列中的每一个元素,但是某些元素相比其它元素可能包含更重要的信息,例
- 41 - 如在波峰和波谷处的负荷值。因此,本文提出了基于并行混合激活卷积和输入注意力 的时间卷积神经网络(Temporal Convolutional Networks with Parallel Hybrid Activated Convolution and Input Attention, PhaCIA-TCNs)去完成更高精确度的预测。
在 PhaCIA-TCNs 网络中,本文提出了两个创新性的改进模块,分别为并行混合 激活卷积(Parallel Hybrid Activated Convolution, PhaC)模块和输入注意力(Input Attention, IA)模块。首先,并行混合激活卷积模块被用来去替代原始TCNs网络中 的残差模块,它只使用一次膨胀因果卷积操作,从而降低了模型每轮的训练时间和加 速了模型的收敛。其次,并行的不同非线性激活操作可以有效避免减少卷积操作造成 的网络学习能力的下降。最后,我们的实验证明使用并行混合激活卷积模块不仅降低 了模型的训练时间,而且提高了模型的预测精度。
PhaCIA-TCNs另外一个创新是提出了一个输入注意力(Input Attention, IA)模块, 通过对输入序列的所有元素添加不同的权重大小,来帮助网络更容易的关注到重要信 息。输入注意力模块是由一个线性全连接层、两个非线性的全连接层和两个跳跃连接 组成,可以捕获各元素之间的依赖关系,从而来计算权重大小。我们的实验显示输入 注意力模块有助于网络获得更好预测表现。
4.2时间卷积网络模型原理
4.2.1一维卷积神经网络
LeCun等人首次提出了卷积神经网络结构(Convolutional Neural Network, CNNs) [83],并应用于图像识别和图像检测领域,因其卓越的成果,继而成为了深度学习中一 大基本网络结构。卷积神经网络主要有五部分组成:数据输入层(Input Layer)、卷 积层(Convolutional Layer)、激活函数(Activation Function)、池化层(Pooling Layer) 和全连接层(Fully Connection Layer)。卷积神经网络根据卷积维度可以分为一维卷积 神经网络、二维卷积神经网络和三维卷积神经网络,由于时间卷积神经网络只使用了 一维卷积操作,本文将在这里只详细介绍一维卷积操作,而二维卷积操作和三维卷积 操作这里不在叙述。
一维卷积神经网络是卷积神经网络针对序列数据特性提出的,将时间理解为图像 的长或者宽,剩余的特征共同当作一个维度。一维卷积操作是在给定的序列中按照一 定大小的窗口提取出局部一维子序列段,然后与权重向量进行点积,最后输出到新序 列上的一个特定位置。如图4.1所示,序列为S= [5,6,1,3,4,3,4,1]序列大小为8x1,卷 积核大小为2x1,权重参数w = [1,2],步长为2,则经过一维卷积操作的到序列大小
- 42 -
为4x1,例如,新序列的第一个值为17 = 1x 5 + 2 x 6。
 
 
 
 
4.2.2时间卷积神经网络
Weigh tNorm
Dilated Causal Conv
时间卷积神经网络(Temporal Convolutional Networks,TCNs)由Bai等人首次提 出[84],原始的 TCNs 网络是使用堆叠的膨胀因果卷积层来学习非线性特征,如图 4.2, 它的结构主要包含三个部分:因果卷积(Causal Convolution)、膨胀卷积(Dilated Convolution)和残差网络(Residual Connection)。因果卷积是TCNs网络的核心结构, 主要用来模拟出时间上的依赖关系,使得模型可以通过使用卷积操作来处理时间序列 数据。对于长序列数据,由于卷积层接收域的限制,需要通过增加因果卷积层来保证 充分利用历史信息,但这会增加网络的计算量。因此,膨胀卷积被引入到时间卷积网 络中,通过增大感受视野来解决接收域小的问题,并且使得网络可以有效的捕获长时
间的依赖关系。此外,为了确保序列边缘内容的有效利用,补零操作也被使用。最后, 跳跃连接的使用可以防止信息丢失和加速模型收敛。
4.2.2.1因果卷积网络
时间序列预测问题是深度学习领域中常见任务之一,由第二章第二小节可知,通 常是我们通过历史的数据进行建模,然后用于未来数据的预测。我们知道常规的神经 网络在学习这种映射关系时,通常只考虑尽可能的拟合出X的每个特征和预测y之间 的关系。不难看出这其中缺少了一个重要的因素,假如序列X={兀,x2,…,%,兀}中的元 素之间存在先后顺序的依赖关系(也就是时间上的因果关联),但是这种依赖关系并 没有在模型中显示出来。循环神经网络通过其特殊结构,把这种依赖关系作为一种约 束条件加入到了神经网络架构中,即不是一次性传入所有输入,而是按照序列中元素 先后顺序依次输入到模型中。但这对卷积神经网络来说并不适用,因此需要其它办法 来保证不会破坏数据之间的前后依赖关系。
因此,因果卷积网络被提出,并且很好的完成了这个任务。通常,在因果卷积网 络被提出之前,很多网络都包含全连接层,这恰恰违背了时间先后的基本约束条件。 全连接层使得每个元素都产生了连接,这对于时间序列是不允许的。因此,我们需要 对全连接网络的连接形式方式进行改变,即只保留那些从前往后的连接,移除其它连 接路径,这样就是使得网络满足了时间上的前后依赖关系。观察图4.3所示,为一个 输入长度为四、输出长度为四的四层的因果卷积神经网络。根据图中输入序列 X = [x” x2, x3,x4]和输出序列Y = [y2,y3,y4]可知,当输出y3时,只包含x1,x2,込的信 息而不包含x4的信息,阻断了与未来时刻信息的联系,满足了时间上的依赖关系。
 
Figure 4.3 Causal convolutional networks
 
- 44 -
因此,因果卷积被用在时间卷积网络中,用于捕捉时间上的依赖关系,如图 4.2 左边所示。因果卷积网络作为时间卷积网络一个模块,主要有两个作用:第一,保证 输入和输出的长度的一致性,即对于固定时刻来说,既有输入也有输出;第二,每个 时刻的输出仅仅只与过去时刻的输入有关,而与未来信息无关。
4.2.2.2膨胀卷积网络
上述介绍了因果卷积网路,但是,当我们观察这样网络结构时,会发现这种连接 方式具有很大的局限性,对于历史信息的覆盖范围不大。当网络层数为四层数时,每 个输出值只能与小部分输入信息相联系,导致会浪费掉很多信息。如图 4.3 所示,最 后一个输出值儿只是基于第一层4个神经元来计算的。为了解决这个问题,一种思路 是通过不断地加深网络层数,就可以逐渐扩大历史信息的捕捉视野。但是这种方法对 于比较短的序列还可以接受,但是当输入的序列很长时,网络需要非常深的层数来保 证最后输出可以利用到整个输入序列的信息,随之而来的是参数量成倍增加,并且网 络训练也变得更加困难。
 
 
(a) (b)
图4.4 (a)普通卷积网路;(b)空洞卷积网络
Figure 4.4 (a) Convolutional neural networks; (b) Dilated convolutional networks
因此,Oord等人提出采用膨胀卷积的方式来扩大因果卷积网络对历史信息的感受 视野[85]。简单来说,在卷积核的移动过程中加入步长间隔,尽可能使网络可以接收到 更多的历史信息。如图4.4所示,图(a)为一个普通的二维卷积网络,图(b)为加 入空洞后的卷积神经网络。那么在一维卷积中加入空洞操作后,如图 4.2 左图蓝色小 圈和红线连接部分,为四层的卷积神经网络膨胀卷积操作,我们在第二层和第三层加 入不同数量的空洞,这个过程也被称为膨胀卷积。对于输出%,蓝色小圈中间的粉色 小圈没有任何作用,相当于注入了“空洞”,但是在输入层的感受视野变大了。通过 加入膨胀操作后,当前的因果卷积网络就可以在网络深度不变的情况下,通过对膨胀 率d和卷积核大小k进行控制,来增大因果卷积的感受视野。如图4.2左图,当d = 1
- 45 - 和k = 2时,就为一个常规卷积操作;当d = 2和k = 2时,就扩大了感受视野。一般, 我们在网络中通常将膨胀率设置为d = 2i ( i代表网络的第几层),即膨胀率d随网络 深度呈指数增长。但是,有时在加入膨胀卷积后会导致边界溢出,这时就需要通过补 零操作来保证膨胀卷积的正常运行,如图 4.2左边中的白色小圈。
4.2.2.3残差网络
基于神经网络的深度学习在结构上有两个关键的参数—深度和宽度,它们会直接 影响到神经网络的表现。 GoogleNet 的提出证明了一定程度上拓宽网络宽度能够有效 提咼网络表达的准确性[86]。VGGNet的提出证明加深网络深度能够更为有效地提升神 经网络的性能[87]。但是,如果一味地加深神经网络的深度,则会使得神经网络的训练 变得更加困难,在反向传播过程中,非常容易出现梯度的饱和现象。此时,在继续加 深网络层数,会出现精度下降现象,这不是由过拟合造成的精度下降的现象,称之为 “网络退化”。
残差网络[88]是一种非常有效的解决“网络退化”问题的手段,通过越过相邻层学 习其权重,进而直接使用前一层的输入。残差网络中的残差连接机制有效地简化了网 络,在初始训练阶段使用了较少的层,由于减少了传播的层数,因此也可以加快神经 网络的学习速度。如图 4.5,残差模块一般分成两部分直接映射和残差映射。直接映射 为图中右边通路,残差映射为图中左边通路,一般残差映射中会有两个或几个神经网 络层构成,图中Weight层可以是卷积层也可以是其它层。一个残差块的计算公式可以 表示如下:
H(X)=ReLU(X+F(X)) (4.1)
 
图 4.5 残差网络
Figure 4.5 Residual networks
 
- 46 -
 
由于残差网络优秀的性能,因此也被使用到在时间卷积网络中,如图 4.2 右边所 示。时间卷积网络的残差模块主要结构是是两层膨胀因果卷积和两个激活操作,并且 还加入了权重正则化(Weight Normalization)与Dropout操作来防止网络过拟合。与 标准的残差网络把输入直接加到残差输出中, TCNs 网络在直接映射通路增加了一个 额外的1x1卷积操作,来确保元素加法接收到时相同维度的向量。
4.3基于并行混合激活卷积和输入注意力的时间卷积网络
 
图 4.6 基于并行混合激活卷积和输入注意力的时间卷积网络
Figure 4.6 The architecture of temporal convolutional networks with parallel hybrid activated convolution and input attention 时间卷积网络已经被使用到电力负荷预测的任务中,但目前应用非常有限。 Linfei 等人提出了一种 MTCNs 预测模型去学习电力负荷数据的非线性特征和时域特征,其 中一种多重时域空间尺度的方法被使用去降低数据的噪声和加强时间序列特征[93]。
Wang等人把lightGBM结构融入到TCNs网络中来完成短期电力负荷预测任务,其中 TCNs网络被用来捕获数据的隐藏特征和长期的时域关系,而lightGBM被用来做最后 的结果预测[94]。总结上述工作,我们发现目前在短期电力负荷预测任务中基于 TCNs 网络的改进模型都是直接使用的TCNs网络,通过使用其它方法来提升模型的预测性 能。然而, TCNs 网络本身并不完美,主要存在两点不足:第一,“冗余”的卷积操 作。每层网络都包含了两次膨胀因果卷积操作,这无疑是增大了网络的参数量;第二, 相同的非线性处理过程。对于输入序列中的每个元素都默认为具有相同的价值,因而 容易忽略掉序列中的重要信息。
因此,为了解决上述问题,本章提出了基于并行混合激活卷积和输入注意力的时
- 47 - 间卷积网络(Temporal Convolutional Networks with Parallel Hybrid Activated Convolution and Input Attention, PhaCIA-TCNs)。如图 4.6, PhaCIA-TCNs 网络利用 了堆叠的膨胀 因果卷积作为网络主干,学习输入电力负荷序列中的时间依赖关系。然而,不同于 TCNs网络,PhaCIA-TCNs网络使用并行混合激活卷积(Parallel Hybrid Activated Convolution, PhaC)模块代替了 TCNs网络中的残差结构。与TCNs网络中的残差结 构相比, PhaC 模块删除了“冗余”的卷积操作,来降低模型的网络深度,从而减少了 模型的训练时间,并且使用两个不同的并行连接的非线性激活操作来弥补模型因深度 变浅导致的非线性学习能力的损失。此外,本章首次提出的输入注意力(Input Attention, IA)模块也被加入到PhaCIA-TCNs网络中,通过对序列中的重要信息加入 高权重的方法来获得网络额外关注。综上所述,与上述相似工作不同的是我们的所做 工作对于TCNs网络结构进行了一定改进,并且可以融入到上述两个基于TCNs网络 的工作中去。
4.3.1并行混合激活卷积
本文在422节中详细介绍了 TCNs网络的残差模块,两个连续的膨胀因果卷积 操作虽然可以提升模型非线性的学习能力,但是不可避免的会使模型的参数量变得更 多,导致模型训练时间变长和收敛缓慢。因此,如图4.6右上角所示,本文首次提出 的并行混合激活卷积(Parallel Hybrid Activated Convolution, PhaC)模块只包含一个 膨胀因果卷积操作、两个并行连接的非线性激活操作、一个正则化操作和一个Dropout 操作。PhaC模块相比较TCNs网络的残差模块,减少一次膨胀经过卷积操作、一次正 则化操作和一次Dropout操作,使得网络变得更浅了,但这也必然导致网络的学习能 力下降。因此,PhaC模块把原来串联的两个相同非线性激活操作变成了并行的不同非 线性激活操作,以此来为网络增加不同的非线性特征,从而弥补网络深度变浅带来的 损失。PhaC模块具体的计算公式如下:
S1 = WeightNorm ( Dilated _ Convd (S )) (4.2)
S: = Re LU (S1 )xTanh (S1) (4.3)
S3 = Conv _1x 1( 51) (4.4)
S =Dropout ( S 2) +S 3 (4.5)
式中St为输入序列,Si+1为输出序列,Dilated _Conv为膨胀因果卷积,d为膨胀率, k为卷积核大小,WeightNorm为权重正则化,Conv为1x1卷积。首先,输入序列 St被PhaC模块中的膨胀因果卷积进行处理之后,再经过正则化处理得到暂时序列S,1。 - 48 -
然后S;会被送入到ReLU和Tanh组成的并行激活操作中获得两个结果,再相乘得到 一个被激活后的序列Si。此外,PhaC模块的边支路使用1x1卷积操作把输入序列S 处理得到S;。最后,Si会经过一个Dropout操作再与S;相加的到最后的结果S+1。
4.3.2输入注意力
注意力机制[95]是一种模仿人类认知注意力而产生的一种技术,本质是一种信号处 理的机制,目前被广泛应用到深度学习领域,并取得的令人瞩目的成就。注意力是人 类本身具有的一种能力,对于视线内的事物选择性的忽略一部分信号而重点关注有价 值的信息,这样可以帮助我们从复杂的系统中更快捷的找出我们期待的目标。基于这 样的想法,我们提出了一种基于时间卷积网络的输入注意力模块,加入到 PhaCIA- TCNs 网络中,来帮助模型更加关注输入序列中的重要信息。在电力负荷预测中,注 意力机制作为一个特殊模块已经被添加到时间卷积网络预测模型中,Shi等人提出了 一种 TCNs 网络和门控循环单元的混合预测模型,其中一个注意力层被加入到门控循 环单元中去加强关键信息的提取能力[92]。与他们工作不同的是,我们在序列输入到膨 胀因果卷积之前加入了一个输入注意力模块,来添加不同的权重到输入序列中。更重 要的,本文提出了输入注意力模块具有很强的应用性和可移植性,可以与目前基于 TCNs 网络的短期电力负荷预测模型进行融合来提升这些模型的预测性能。
如图4.6右下角所示,输入注意力模块主要包含五个部分:线性全连接层(Linear Fully Connection Layers) >两个使用ReLU和Tanh激活函数的非线性全连接层(Non- Linear Fully Connection Layers)和两个残差连接(Residual Connections)。其中,线性 和非线性全卷积网络被使用来去“理解”输入元素之间的线性和非线性的关系,而两 个残差连接被用来防止信息丢失和在训练中加速输入注意力模块的收敛。最后,处理 过的信息通过一个So仕max归一化计算后得到一个电力负荷数据概率分布向量,这个 向量会和原始数据相乘。经过输入注意力模块的处理后,输入数据中所有的信息都获 得了不同的权重,有价值的信息有着更大的权重,而不太重要的信息只获得很小的权 重。输入注意力模块具体的计算过程如下:
A = Re LU ( Linear ( S )) (4.6)
A =Tanh ( A +S ) (4.7)
A = Soft max ( A ) (4.8)
S] = A - S0 (4.9)
- 49 -
式中,Linear为线性全连接网络,ReLU和Tanh都为非线性全连接网络。S0为一个输 入电力负荷序列,依次通过一个线性全连接层和一个ReLU激活函数的非线性全连接 层,然后得到一个中间注意力向量A0。接着,A0与S0相加,在通过Tanh激活函数 的非线性全连接层之后获得注意力向量4。然后,使用Sotfmax操作对4进行归一化 处理获得权重向量A2。最后,A2与S0相乘就获得了带有权重信息的电力负荷序列。
4.4实验与结果分析
4.4.1实验平台与实验设置
本章所有实验均是以python在Pytorch公共深度学习框架平台上完成网络模型的 训练和测试,使用的显卡是 NVIDIA GeForce GTX 2080。为了评估本章所提出的 PhaCIA-TCNs对短期电力负荷的预测效果,本章依旧设置了两组实验任务,分别为日 小时负荷预测和日总负荷预测。为了评估所提出的并行激活卷积模块和输入注意力模 块对所提出模型的贡献,本章还针对所提出的PhaCIA-TCNs进行了消融实验。
在PhaCIA-TCNs网络和TCNs网络中均设置了 4层神经网络卷积层,每层的隐 藏层数为[256,256,256,256],每层卷积步长为[4,4,4,4],每层膨胀率为2i。在日负荷 预测任务中,模型的输入为过去48小时的负荷值,输出为接下来12小时和24小时 的负荷值。在周总负荷预测和周峰值负荷预测中,模型的输入为过去 7天总负荷值, 输出为接下来1天和2天的总负荷值。本章选择第三章的六个循环神经网络作为对比 模型,循环神经网络层数设置为4层,模型隐藏层数设置为256个。
本章在日小时负荷预测任务训练过程中设置的每轮训练批次为 128,日总负荷预 测任务训练过程中设置的每轮训练批次数量为16。模型训练中损失函数使用的是MSE 损失函数,学习率初始值被设置为0.0001,使用Adma优化器对网络进行优化,优化 器的超参数设置为0产0.9, 02=039, €=10-8。此外,训练时使用了早停法,每次训练 完一轮会使用验证集进行验证一次,当验证集上的MSE误差连续10次不下降时,模 型停止训练,保留MSE误差最低的模型。
4.4.2性能评估指标
由于无法直观的判断一个模型的好坏,因此,我们需要通过一些指标数值来帮助 我们衡量。预测精度就是衡量一个预测模型好坏的重要指标,通过计算预测值与真实 值的密集或离散程度来评估预测模型的有效性。本文通过计算真实值和预测值之间的 均方根误差(Root Mean Square Error, RMSE)和平均绝对百分误差(Mean Absolute - 50 -
Percent Error, MAPE)作为预测精度的定量计算。RMSE和MAPE均是衡量模型预测 性的统计指标,一般认为,当 RMSE 和 MAPE 越小时,预测精度越高。具体的计算 公式如下:
(4.10)
(4.11)
式中,N是数据集样本的数量,必是数据集样本中的第i个预测值,必是数据集样本 中的第 i 个真实值。
4.4.3实验结果分析
本章为了进一步提高模型的预测精度,首次提出了一种新颖的短期电力负荷预测 网络一PhaCIA-TCNs,通过引入了两个先进模块一并行混合激活卷积模块(Parallel Hybrid Activated Convolution, PhaC)模块和输入注意力(Input Attention, IA)模块, 来实现更优秀的预测性能。为了验证 PhaCIA-TCNs 网络的优越性能,本章实验选择 了第三章的六个 RNNs 网络(表中 RNN、 LSTM、 GRU、 Bi-RNN、 Bi-LSTM 和 Bi- GRU)和TCNs网络作为验证实验的对照网络。表4.1和表4.2展现了所有模型在三 个数据集(PJM_AP、PJM_DAY和ENT_AT)上RMSE和MAPE的定量结果。在日 小时负荷预测任务中,输入的序列为过去48小时的负荷值,输出的序列为接下来 12 小时(表中 12)和24小时(表中 24)的负荷值。在日总负荷预测任务中,输入的序 列为过去7天的每天总负荷值,输出的序列为未来 1 天(表中 1)和 2 天(表中 2) 的每天总负荷值。并且,本章为了方便读者更直观的观察到预测结果,对部分实验结 果进行了可视化操作,如图 4.7、图 4.8和图 4.9。
首先观察表4.1和4.2,我们可以发现PhaCIA-TCNs网络在两个短期电力负荷预 测任务中的 RMSE 和 MAPE 两个评价指标均低于其他七个模型,这证明了本文提出 的PhaCIA-TCNs网络比目前的RNNs网络及其变体和TCNs网络的预测结果都要好。 观察表 4.1 中的输出为未来 24 小时的各行,可以得到 PhaCIA-TCNs 网络在日小时负 荷预测任务中,要比RNNs网络及其变体中预测效果最好的Bi-GRU的RMSE值分别 低了 76.01MW、18.15MW和 71.67MW,MAPE 的值也分别低了 1.19%、0.86%和 1.07%。 同理,在日总负荷预测任务中,在输出为未来2天的日总负荷预测任务中,比 Bi-GRU 的 RMSE 值分别低了 176.44WM、202MW 和 1200.65MW,MAPE 值分别低了 0.22%、 0.23%和0.94%。这数据都充分表明了本文提出的PhaCIA-TCNs网络在两个短期电力
表 4.1 PhaCIA-TCNs、TCNs 与六个 RNNs 在三个数据集日小时负荷预测任务上的 RMSE 和
MAPE 结果
Table 4.1 RMSE and MAPE results of PhaCIA-TCNs、TCNs and six RNNs on daily hourly load
forecasting in three datasets
模型 RMSE MAPE RMSE MAPE RMSE MAPE
长度 RMSE MAPE RMSE MAPE RMSE MAPE
负荷预测任务中的都有很好的表现。
 
其次,我们还发现TCNs网络的RMSE和MAPE值都低于RNNs网络及其变体 模型,这表明TCNs网络相比RNNs网络有着更好的预测表现。观察在表4.1中RMSE 各列,当输出为未来12小时,TCNs网络比Bi-GRU的RMSE分别提升了 9.16%、 3.73%和14.99%;当输出为未来24小时,TCNs网络比Bi-GRU的RMSE分别提升了 9.26%、2.83%和3.52%。观察表4.2中RMSE各列,我们可以发现也有类似结果。因 此,从上述数据和上文分析可知, RNNs 网络及其变体存在着不平衡的非线性处理问 题,这就导致网络对输入电力负荷序列的学习能力降低。然而, TCNs 网络通过使用 堆叠的膨胀因果卷积操作克服了这种问题,通过使用相同数量的非线性操作来处理输 入序列中每个元素,以此保证输入序列中的各个元素不会被过度处理或者处理不足,
- 52 -
 
表4.2 PhaCIA-TCNs、TCNs与六个RNNs在三个数据集日总负荷预测任务上的RMSE和
MAPE 结果
Table 4.2 RMSE and MAPE results of PhaCIA-TCNs、 TCNs and six RNNs on daily total load
forecasting in three datasets
模型 RMSE MAPE RMSE MAPE RMSE MAPE
长度 RMSE MAPE RMSE MAPE RMSE MAPE
从而提升了模型的预测能力。
 
此外,观察表 4.1 和 4.2 中的 PhaCIA-TCNs 网络和 TCNs 网络的两个 RMSE 和 MAPE指标,我们发现PhaCIA-TCNs网络全部都低于TCNs网络。其中在表4.1 中, 输出未来 24 小时的日小时负荷预测任务中, PhaCIA-TCNs 网络在三个数据集上的 RMSE值比TCNs网络分别低于38.64MW、13.48MW和56.32MW,同样在输出未来 12小时的任务中,分别低了 43.46MW、13.46MW和70MW。在表4.2中,输出未来 1天的日总负荷预测任务,PhaCIA-TCNs网络在三个数据集上的RMSE值比TCNs网 络分别低于163.91MW、117.98MW和314.76MW;在输出未来2天的任务上,haCIA- TCNs网络在三个数据集上的RMSE值比TCNs网络分别低于126.11MW、75MW和 276.76MWo上述大量数据充分表明了 PhaCIA-TCNs网络的预测表现要远远好于TCNs
- 53 - 网络,这是因为PhaCIA-TCNs网络解决了 TCNs网络存在的两个不足:“冗余”的卷 积操作和相同的非线性处理过程。与TCNs网络相比,PhaCIA-TCNs网络中使用了并 行混合激活卷积模块和输入注意力模块来克服了这两个缺点。并行混合激活卷积模块 能对信息进行不同的非线性操作,从而提升模型的学习能力,并且减少了每个残差块 中膨胀因果卷积的使用次数,提高了模型的收敛速度。输入注意力模块也被使用在 PhaCIA-TCNs 网络中,通过在输入序列添加不同的权重来提升模型对重要信息的关注 度,因此不容易忽略一些重要的信息,从而获得更好的预测表现。
最后,对比表4.1 和表4.2中的各个网络输出长度的不同,可以发现当输入的负 荷序列长度不变时,随着输出负荷序列长度的增加,模型的预测性能会下降。这是因 为当输出变长时,意味着模型输出中需要包含更多的信息,这无疑使得模型预测变得 困难。所以,当模型学习能力没有提升时,这种需要输出更多信息导致预测精度的下 降就不可避免。因此,这也指导我们在满足实际需求中,输出序列越短效果越好。其 次,当确实需要输出更长序列时,要尽可能的提升模型的学习能力,来弥补这种不可 避免的精度下降的损失。
为了更直观的展现模型的预测结果,本文对8个模型在三个数据集上的部分结果 进行了可视化,如图4.7、图4.8和图4.9。每张图包含4部分内容,图(a)和图(c) 是日小时负荷预测,输入过去48小时负荷值来预测接下来24小时负荷值(图中48- 24)和预测接下来12小时负荷值(图中48-12);图(b)和图(d)是日总负荷预测, 输入过去7天的总负荷值来预测接下来2天的总负荷值(图中7-2)和预测1天的总 负荷值(图中 7-1)。总体观察图 4.7、 4.8 和 4.9,我们可以发现 PhaCIA-TCNs 网络 相比在三个数据集的每个任务上都比其它7个预测网络与真实值更加接近,并且对于 波峰和波谷预测也预测的比较好,这充分证明了了本文提出的 PhaCIA-TCNs 网络具 有更优的预测性能。观察 12 张可视化图,我们可以发现各个线条都与蓝色线条有着 相同的趋势,这表明我们的预测手段具有一定的可信度,但是每个预测模型在各个时 刻的具体数值上却有着明显的差异,越接近蓝色线条代表与真实结果更为相近。具体 观察图4.7中的(a)和(c) 12:00到20:00时间段,我们可以清晰的发现红色线条比 其它线条更高,也更加接近蓝色线条,另外,在图4.8的(a)中也有类似结果,都说 明在峰值的预测上PhaCIA-TCNs网络有着较好的结果。观察图4.7的(b)和(d)的 4 天、 12 天和 20 天三个时间点,我们发现红色线条都更加靠近蓝色线条,这表明在 波谷上也有很好的预测结果。最后,在比较每个图中(a)和(c)时,我们可以发现 当输入的过去负荷长度不变时,预测接下的时间长度越短,预测的结果更好。这也再 次表明当其它条件不变时,输出序列长度越长,模型预测性能预测越差。此外,在比 较每个图中(a)和(b)时,我们也可以发现越平稳的数据,预测效果越好。
- 54 -
 
 
 
图4.7 PhaCIA-TCNs、TCNs和六个RNNs在PJM_AP数据集上的可视化结果
1:00 4:00 8:00 12:00 16:00 20:00 24:00
(a) Daily hourly load forecasting (48-24)
le3
图4.8 PhaCIA-TCNs、TCNs和六个RNNs在PJM_DAY数据集上的可视化结果
Figure 4.8 Visualize forecasting results of PhaCIA-TCNs、 TCNs and six RNNs on PJM_DAY
 
 
Id 4d 8d 12d 16d 20d 24d Id 4d 8d 12d 16d 20d 24d
(c) Daily hourly load forecasting (4&12) (d) Daily total load forecasting (7-1)
图4.9 PhaCIA-TCNs、TCNs和六个RNNs在ENT_AT数据集上的可视化结果
Figure 4.9 Visualize forecasting results of PhaCIA-TCNs、TCNs and six RNNs on ENT_AT
4.4.4消融实验
在比较了 PhaCIA-TCNs 网络与循环神经网络和时间卷积网络在三个电力数据集 上的预测结果之后,本章还进一步评估了所提出的两个不同模块(并行激活卷积模块 和输入注意力模块)单独对PhaCIA-TCNs网络预测性能的提升作用。因此,本章对两 个短期电力负荷预测任务中的四个情形开展了相应的消融实验。在消融实验中,本文 提出的两个新的模块分别被单独添加到TCNs网络中。因此除了 TCNs网络和PhaCIA- TCNs 网络外,另外两个网络分别是:基于并行混合激活卷积的 TCNs 网络(定义为 PhaC-TCNs)和基于输入注意力的TCNs网络(定义为IA-TCNs)。表4.3展现的是 四个预测模型在日小时负荷预测任务中输入过去 48 小时预测接下来 12 小时(表中 48-12)和24小时(表中48-24) ,和在日总负荷预测任务中输入过去7天负荷值来预 测接下来1天(表中7-1)和2天(表中7-2)的负荷值。此外,本节还比较了四个模 型的部分训练时间,进一步展现本文提出的PhaC模块的优越性能。表4.4展现的是 四个模型在日小时负荷预测任务中输入过去48小时预测接下来24小时(表中48-24) 情形中的训练总时间、训练总轮次和平均每轮消耗的时间。
观察表4.3中IA-TCNs网络和TCNs网络两行,我们可以发现IA-TCNs网络有着 更低的RMSE和MAPE值,这表明IA-TCNs网络有着较好的预测结果。在输入注意 - 56 -
 
表 4.3 PhaCIA-TCNs 消融实验中在三个数据集上的 RMES 和 MAPE 结果
Table 4.3 RMSE and MAPE results in ablation studies of PhaCIA-TCNs on three datasets
模型 输入
输出 PJM_AP PJM_DAY ENT_AT
RMSE
(WM) MAPE
(% RMSE
( WM ) MAPE
( %) RMSE
( WM ) MAPE
(%)
7-1 7535.04 4.24 3278.68 5.53 8457.12 2.62
TCNs 7-2 9286.75 5.40 3833.65 6.17 9226.05 2.83
48-12 298.61 3.57 126.84 4.38 335.53 2.87
48-24 366.06 5.16 160.34 5.76 419.50 3.43
7-1 7488.82 4.19 3174.72 5.25 8245.93 2.53
IA-TCNs 7-2 9169.98 5.30 3774.99 6.19 9042.74 2.81
48-12 266.06 3.51 120.06 4.21 276.82 2.26
48-24 342.01 4.60 149.78 5.35 370.83 2.97
7-1 7452.91 4.22 3253.96 5.41 8377.93 2.58
PhaC-TCNs 7-2 9193.77 5.34 3818.84 6.17 9057.28 2.75
48-12 271.26 3.60 116.15 4.08 326.76 2.84
48-24 335.30 4.43 149.41 5.38 378.97 3.12
7-1 7371.13 4.17 3160.70 5.21 8142.36 2.47
PhaCIA-TCNs 7-2 9160.44 5.28 3758.65 6.04 8949.29 2.74
48-12 255.15 3.31 113.38 4.01 265.53 2.19
48-24 327.42 4.34 146.86 5.34 363.18 2.91
力模块的作用下,IA-TCNs网络相比TCNs网络学习特征能力有了一定提高,这主要 是因为输入注意力模块通过赋予序列中元素不同大小的权重来加强序列中的重要元 素,使得预测模型可以更好的关注到序列中的重要信息。但是,输入注意力模块作为 一个额外模块,相比较TCNs网络,IA-TCNs网络的参数量也会更多。从表4.4中, 我们可以发现 IA-TCNs 网络无论是训练的总时间还是平均每轮训练消耗时间都要高 于 TCNs 网络。
在表 4.3 中比较 TCNs 网络和 PhaC-TCNs 网络在三个数据集上两个定量指标时, 我们可以发现 PhaC-TCNs 网络有着更低的指标,这表明 PhaC-TCNs 网络有着优于 TCNs 网络的预测性能。相比较 TCNs 网络卷积模块, PhaC-TCNs 网络使用并行混合 激活卷积模块代替了原有的残差模块,这证明了本文提出并行混合激活卷积模块可以 提升模型的预测性能。不仅如此,对比表4.4中的TCNs网络和PhaC-TCNs网络训练 时间可以发现, PhaC-TCNs 网络收敛速度更快,训练总时间更少,这是因为并行混合
- 57 -
表 4.4 PhaCIA-TCNs 消融实验中在三个数据集上训练时间消耗结果
Table 4.4 Training time-cost in ablation studies of PhaCIA-TCNs on three datasets
模型 任务(48-24) TCNs IA-TCNs PhaC-TCNs PhaCIA-
TCNs
训练总时间 111.51s 124.43s 75.64s 114.51s
PJM_AP 训练总轮次 64 73 73 98
平均每轮消耗时间 1.49s 1.70s 1.04s 1.17s
训练总时间 128.05s 185.83s 90.34s 161.53s
PJM_DAY 训练总轮次 78 91 82 121
平均每轮消耗时间 1.64s 2.04s 1.10s 1.33s
训练总时间 183.49s 239.51s 149.46s 279.89s
ENT_AT 训练总轮次 109 130 151 211
平均每轮消耗时间 1.68s 1.89s 0.99s 1.32s
激活卷积模块只包含一次膨胀因果卷积操作,大大降低模型的参数量。因此,由上观 察可知,PhaC-TCNs网络不仅降低了参数量和加快了网络的训练,而且又提升了网络 的预测精度,这充分证明了并行混合激活卷积模块的有效作用。图 4.10,给出了 4个 预测模型训练时在验证集上的误差收敛结果图,我们可以看见在刚开始几轮训练中, 误差下降的非常快,越到后面越趋于平缓,最后开始有一定的震荡。比较图4.10中的
(a)和(b),我们可以发现PhaC-TCNs网络虽然拐点会滞后于TCNs网络,但是更 早的进入到平缓区,而TCNs网络还会有慢慢下降。同理,比较图4.10中的(c)和
(d), PhaCIA-TCNs网络也比IA-TCNs网络更早进入到平缓区。
最后,在表4.3中比较四个模型的两个指标,我们可以发现PhaCIA-TCNs网络均 低于另外三个模型,这是因为PhaCIA-TCNs网络同时增加了输入注意力模块和并行 混合激活卷积模块,并且提出这两个模块可以共同发生积极作用来提升网络在短期电 力负荷预测任务中预测精度。与 IA-TCNs 网络相比, PhaCIA-TCNs 网络中使用了并 行混合激活卷积模块,这再次证明了相对于TCNs网络,并行混合激活卷积模块的重 要作用。同时在表4.4中,PhaCIA-TCNs网络训练总时间和平均每轮消耗的时间也是 低于IA-TCNs网络的。与PhaC-TCNs网络相比,PhaCIA-TCNs网络添加了一个额外 的输入注意力模块,使得预测结果有了一定提升。同IA-TCNs网络一样,引入的输入 注意力模块会给模型带来参数量的增加,PhaCIA-TCNs网络在训练时间上要比PhaC- TCNs 网络更多一点。综上所述,可以总结为以下两点:第一,在短期电力负荷预测 中, PhaCIA-TCNs网络相比较TCNs网络具有更优的预测表现。第二,本文提出的两 个模块(输入注意力模块和并行混合激活卷积模块)对于 PhaCIA-TCNs 网络预测精
- 58 -
 
 
图 4.10 TCNs、IA-TCNs、PhaC-TCNs和PhaCIA-TCNs模型收敛可视化结果
Figure 4.10 Visualizatize model convergence results of TCNs, IA-TCNs, PhaC-TCNs, and PhaCIA-
TCNs
度的提升是有效的和必要的。
4.5本章小结
本章分析目前基于循环神经网络的预测网络具有不平衡的非线性处理问题,并且 详细阐述了本文改进思路和方法,提出了一种全新的基于时间卷积网络的 PhaCIA- TCNs 网络。通过在三个公开电力数据集上的两个短期负荷预测任务的评估实验验证 了本文所提出的 PhaCIA-TCNs 网络相比较 RNNs 网络及其变体和 TCNs 网络具有更 好的预测性能。首先,本章提出了使用堆叠的膨胀因果卷积作为 PhaCIA-TCNs 网络 的核心结构,解决了 RNNs网络及其变体的问题,从而提高预测模型的特征学习能力。 其次,针对TCNs网络目前存在的不足,本章提出了两种新颖的模块一并行混合激活 卷积模块和输入注意力模块。相比较TCNs网络原来的残差模块,并行混合激活卷积 模块具有两个优势:第一,更少的参数量。由于减少了一次卷积操作,使得网络减少 了大量参数,从缩短了训练时间和加快了模型的收敛速度;第二,更优的特征提取能 力。改变了原有激活操作的串联结构,使用并行连接的不同激活操作,从而提升了模
- 59 - 型的特征提取能力。其次,输入注意力模块作为PhaCIA-TCNs网络的一个额外模块, 通过添加不同权重信息,能够帮助 PhaCIA-TCNs 网络更容易的关注到重要信息,有 助于预测模型获得更好的预测性能。
- 60 -
第五章 总结与展望
5.1 本文总结
短期电力负荷预测是电力部门的一项重要工作,准确预测出未来某段时间的电力 负荷值有助于电力系统的安全经济运行和经济调度,减少电网的发电成本。我国区域 性的电力市场正在逐步建立和完善,短期电力负荷预测工作对电力市场中电价的制定 有着极其重要的指导意义。因此,短期电力负荷预测研究有着重大意义。随着深度学 习技术飞速发展,基于深度学习的短期电力负荷预测方法以优于传统预测方法和机器 学习预测方法的性能表现,在短期电力负荷预测任务中发挥了重要的作用。循环神经 网络作为一种目前比较广泛应用于短期电力负荷预测的基础核心网络,它本身和它的 一系列变体模型取得了稳定有效的预测结果。然而,由于循环神经网络本身还有一定 的问题,导致预测精度还不够高。因此,提出能够提高电力负荷预测精度的深度学习 算法具有重要的研究意义。
本文在详细介绍短期电力负荷预测研究的背景意义以及相关的国内外研究现状 的基础上,分析了当前短期电力负荷预测研究的发展趋势,针对现有的基于循环神经 网络为核心框架的短期电力负荷预测深度学习模型存在的不平衡的非线性处理问题, 提出了使用TCNs网络来替代原有循环神经网络结构。基于TCNs网络,本文提出了 一种新颖的 PhaCIA-TCNs 预测网络,来完成更高的预测精度任务。首先,针对循环神 经网络存在的不平衡的非线性处理问题,PhaCIA-TCNs网络通过使用堆叠的膨胀因果 卷积模块来处理负荷序列,保证了对序列中每个元素进行相同次数的处理,克服了序 列信息过度处理和处理不足造成的信息损失问题,提高了预测网络的特征学习能力。 在三个公开的电力负荷数据集上,相比较循环神经网络,该方法获得了更好的预测性 能表现。为了进一步实现更高负荷预测精度,本文针对TCNs网络存在的两个不足进 行改进:第一,本文提出了并行混合激活卷积模块,减少了一次膨胀因果卷积操作来 减少模型参数量,并且使用了并行的非线性激活函数来补偿参数量降低造成的学习能 力下降的问题。第二,本文提出了一种输入注意模块,来帮助PhaCIA-TCNs网络可以 更好的关注重要信息。输入注意力模块通过计算输入序列中各元素贡献程度来为贡献
- 61 - 值高的元素添加高的权重,以此使得模型可以更好学习序列的特征信息。与TCNs网 络相比, PhaCIA-TCNs 网络在三个公开的数据集上,均获得了很好的预测性能提升。 并且,通过消融实验表明,本文提出的两个模块对于 PhaCIA-TCNs 网络是有效的和 必要的。
5.2研究展望
本文针对当前基于循环神经网络及其变型的短期电力负荷算法存在的不足,就基 本结构和注意力机制两个方面的思路进行了研究改进工作,并提出了新的改进的短期 电力负荷预测模型一PhaCIA-TCNs网络。然而,本文在研究过程中,发现依然有以下 几个方面未来可以深入讨论:
(1) 目前的短期电力负荷预测模型在使用之前都需要大量历史数据进行训练,然 而某些偏远地区数据收集困难,不能满足模型训练需求。本文给出一个研究思路:是 否可以训练一个预训练的模型,当在不同地区使用时再使用少量数据进行微调就可以 进行使用。
(2) 本文所进行短期电力负荷预测为单一变量的负荷预测,即只有负荷值。在今 后的研究中,可以考虑加入其它一些数据特征来提升模型的预测能力,比如温度值、 电价和日期等。
(3) 本文研究建立在历史负荷数据上,而实际的电力负荷与当前的社会生产力和 人民生活水平息息相关,历史负荷数据的参考价值随着时间流逝慢慢变低,导致模型 需要重新训练,并且模型的预测能力也是很有限的。如何通过增量学习保持预测模型 的有效性和泛化性是未来的一个研究方向。
- 62 -
参考文献
[1]白玫.百年中国电力工业发展:回顾、经验与展望一写于纪念中国共产党成立100周年之 际[J/OL].价格理论与实践,2021: 1-7.
[2]谭雪,刘俊,郑宽,等.新一轮能源革命下中国电网发展趋势和定位分析J].中国电力,2018, 51(08): 49-55.
[3]Siano P Demand response and smart grids——A surveyJ]. Renewable and sustainable energy reviews, 2014, 30: 461-478.
[4]周京华,闫天乐,郭磊轩,等.微电网背景下电能质量分析与治理J/OL].电气传动,2021: 1
8.
[5]羌丁建,寿挺,朱铁铭,等.高压配电网规划评价指标体系与综合评价模型J].电力系统保 护与控制,2013, 41(21): 52-57.
[6]Baxevanos I S, Labridis D P Implementing multiagent systems technology for power distribution network control and protection managementJ]. IEEE Transactions on Power Delivery, 2006, 22(1): 433-443.
[7]Wang X, Shahidehpour M, Jiang C, et al. Resilience enhancement strategies for power distribution network coupled with urban transportation systemJ]. IEEE Transactions on Smart Grid, 2018, 10(4): 4068-4079.
[8]周浩,陈建华,孙维真.电力市场中的电价分析与调控J].电网技术,2004, 28(6): 37-40.
[9]Zhang Y, Huang T, Bompard E F. Big data analytics in smart grids: A reviewJ]. Energy informatics, 2018, 1(1): 1-24.
[10]Noor S, Yang W, Guo M, et al. Energy Demand Side Management within micro-grid networks enhanced by blockchainJ]. Applied energy, 2018, 228: 1385-139&
[11]Hua Y, Zhao Z, Li R, et al. Deep learning with long short-term memory for time series predictionJ]. IEEE Communications Magazine, 2019, 57(6): 114-119.
[12]Wen J, Yang J, Jiang B, et al. Big data driven marine environment information forecasting: A time series prediction network[J]. IEEE Transactions on Fuzzy Systems, 2020, 29(1): 4-18.
[13]Guo S, Lin Y, Feng N, et al. Attention based spatial-temporal graph convolutional networks for traffic flow forecasting[C]. In Proceedings of the AAAI Conference on Artificial Intelligence, 2019:
- 63 -
922-929.
[14]Hewage P, Behera A, Trovati M, et al. Temporal convolutional neural (T CN) network for an effective weather forecasting using time-series data from the local weather station[J]. Soft Computing, 2020, 24(21): 16453-16482.
[15]Lin L, Xu B, Wu W, et al. Medical time series classification with hierarchical attention-based temporal convolutional networks: A case study of myotonic dystrophy diagnosis[C]. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshops, 2019: 83-86.
[16]Song W, Cai J. End-to-end deep neural network for automatic speech recognition[J]. Standford CS224D Reports, 2015, 1-8.
[17]Guo Y, Han S, Shen C, et al. An adaptive SVR for high-frequency stock price forecasting[J]. IEEE Access, 2018, 6: 11397-11404.
[18]LeCun Y, Bengio Y, Hinton G. Deep learning[J]. Nature, 2015, 521(7553): 436-444.
[19]Gross G, Galiana F D. Short-term load forecasting[J]. Proceedings of the IEEE, 1987, 75(12): 15581573.
[20]Hippert H S, Pedreira C E, Souza R C. Neural networks for short-term load forecasting: A review and evaluation[J]. IEEE Transactions on Power Systems, 2001, 16(1): 44-55.
[21]Taylor J W, McSharry P E. Short-term load forecasting methods: An evaluation based on European data[J]. IEEE Transactions on Power Systems, 2007, 22(4): 2213-2219.
[22]Fan S, Hyndman R J. Short-term load forecasting based on a semi-parametric additive model[J]. IEEE Transactions on Power Systems, 2011, 27(1): 134-141.
[23]Liu N, Tang Q, Zhang J, et al. A hybrid forecasting model with parameter optimization for shortterm load forecasting of micro-grids[J]. Applied Energy, 2014, 129: 336-345.
[24]Wang Y, Xia Q, Kang C. Secondary forecasting based on deviation analysis for short-term load forecasting[J]. IEEE Transactions on Power Systems, 2010, 26(2): 500-507.
[25]Lu J C, Niu D X, Jia Z Y. A study of short-term load forecasting based on ARIMA-ANN[C]. In Proceedings of the International Conference on Machine Learning and Cybernetics, 2004: 31833187.
[26]Wei L, Zhen-gang Z. Based on time sequence of ARIMA model in the application of short-term electricity load forecasting[C]. In Proceedings of the International Conference on Research Challenges in Computer Science, 2009: 11-14.
[27]Lee C M, Ko C N. Short-term load forecasting using lifting scheme and ARIMA models[J]. Expert Systems with Applications, 2011, 38(5): 5902-5911.
[28]Fard A K, Akbari-Zadeh M R. A hybrid method based on wavelet, ANN and ARIMA model for short-term load forecasting[J]. Journal of Experimental & Theoretical Arti行cial Intelligence, 2014,
- 64 -
26(2): 167-182.
[29]Alberg D, Last M. Short-term load forecasting in smart meters with sliding window based ARIMA algorithms]」]. Vietnam Journal of Computer Science, 2018, 5(3): 241-249.
[30]Souza R C, Barros M, Miranda C V C. Short term load forecasting using double seasonal exponential smoothing and interventions to account for holidays and temperature effectsJ]. TLAIO II-2 do Taller Latino Iberoamericano de Investigacion de Operaciones. Acapulco, 2007, 1-8.
[31]Al-Ha行d M S, Hussein Al-maamary G. Short term electrical load forecasting using Holt-Winters methodJ]. Al-Rafidain Engineering Journal, 2012, 20(6): 15-22.
[32]Abd Jalil N A, Ahmad M H, Mohamed N. Electricity load demand forecasting using exponential smoothing methodsJ]. World Applied Sciences Journal, 2013, 22(11): 1540-1543.
[33]Sudheer G, Suseelatha A. Short term load forecasting using wavelet transform combined with HoltWinters and weighted nearest neighbor models[J]. International Journal of Electrical Power & Energy Systems, 2015, 64: 340-346.
[34]Eusebio E, Camus C, Curvelo C. Metaheuristic approach to the Holt-Winters optimal short term load forecast[J]. Renewable Energy and Power Quality Journal, 2015, 1(13): 708-713.
[35]Mayrink V, Hippert H S. A hybrid method using exponential smoothing and gradient boosting for electrical short-term load forecasting[C]. In Proceedings of the IEEE Latin American Conference on Computational Intelligence, 2016: 1-6.
[36]Fan S, Chen L. Short-term load forecasting based on an adaptive hybrid methodJ]. IEEE Transactions on Power Systems, 2006, 21(1): 392-401.
[37]Guo Y C. Knowledge-enabled short-term load forecasting based on pattern-base using classification & regression tree and support vector regression[C]. In Proceedings of the International Conference on Natural Computation, 2009: 425-429.
[38]Duan P, Xie K, Guo T, et al. Short-term load forecasting for electric power systems using the PSO- SVR and FCM clustering techniquesJ]. Energies, 2011, 4(1): 173-184.
[39]Ceperic E, Ceperic V, Baric A. A strategy for short-term load forecasting by support vector regression machines[J]. IEEE Transactions on Power Systems, 2013, 28(4): 4356-4364.
[40]Che J X, Wang J Z. Short-term load forecasting using a kernel-based support vector regression combination model[J]. Applied Energy, 2014, 132: 602-609.
[41]Kavousi-Fard A, Samet H, Marzbani F. A new hybrid modi行ed firefly algorithm and support vector regression model for accurate short term load forecasting[J]. Expert Systems with Applications, 2014, 41(13): 6047-6056.
[42]Wang X, Wang Y. A hybrid model of EMD and PSO-SVR for short-term load forecasting in residential quarters[J]. Mathematical Problems in Engineering, 2016, 1-10.
- 65 -
[43]Chen Y, Xu P, Chu Y, et al. Short-term electrical load forecasting using the support vector regression (SVR) model to calculate the demand response baseline for office buildings[J]. Applied Energy, 2017, 195: 659-670.
[44]Tan Z, Zhang J, He Y, et al. Short-term load forecasting based on integration of SVR and stacking[J]. IEEE Access, 2020, 8: 227719-227728.
[45]Phyo P P, Jeenanunta C. Daily load forecasting based on a combination of classification and regression tree and deep belief network[J]. IEEE Access, 2021, 9: 152226-152242.
[46]Singh S, Hussain S, Bazaz M A. Short term load forecasting using artificial neural network[C]. In Proceedings of the International Conference on Image Information Processing, 2017: 1-5.
[47]Shi H, Xu M, Li R. Deep learning for household load forecasting一A novel pooling deep RNN[J]. IEEE Transactions on Smart Grid, 2017, 9(5): 5271-5280.
[48]Kong W, Dong Z Y, Jia Y, et al. Short-term residential load forecasting based on LSTM recurrent neural network[J]. IEEE Transactions on Smart Grid, 2017, 10(1): 841-851.
[49]Zeng N, Zhang H, Liu W, et al. A switching delayed PSO optimized extreme learning machine for short-term load forecasting[J]. Neurocomputing, 2017, 240: 175-182.
[50]Han L, Peng Y, Li Y, et al. Enhanced deep networks for short-term and medium-term load forecasting[J]. IEEE Access, 2018, 7: 4045-4055.
[51]Choi H, Ryu S, Kim H. Short-term load forecasting based on ResNet and LSTM[C]. In Proceedings of the IEEE International Conference on Communications, Control, and Computing Technologies for Smart Grids, 2018: 1-6.
[52]Jiao R, Zhang T, Jiang Y, et al. Short-term non-residential load forecasting based on multiple sequences LSTM recurrent neural network[J]. IEEE Access, 2018, 6: 59438-5944&
[53]Chen K, Chen K, Wang Q, et al. Short-term load forecasting with deep residual networks[J]. IEEE Transactions on Smart Grid, 2018, 10(4): 3943-3952.
[54]Gao X, Li X, Zhao B, et al. Short-term electricity load forecasting model based on EMD-GRU with feature selection[J]. Energies, 2019, 12(6): 1140.
[55]Kong X, Li C, Zheng F, et al. Improved deep belief network for short-term load forecasting considering demand-side management[J]. IEEE Transactions on Power Systems, 2019, 35(2): 1531153 &
[56]Ma Y, Zhang Q, Ding J, et al. Short-term load forecasting based on iForest-LSTM[C]. In Proceedings of the IEEE Conference on Industrial Electronics and Applications, 2019: 2278-2282.
[57]Deng Z, Wang B, Xu Y, et al. Multi-scale convolutional neural network with time-cognition for multi-step short-term load forecasting[J]. IEEE Access, 2019, 7: 88058-88071.
[58]Hafeez G, Alimgeer K S, Khan I. Electric load forecasting based on deep learning and optimized by
- 66 -
heuristic algorithm in smart grid[J]. Applied Energy, 2020, 269: 114915.
[59]Li Z, Li Y, Liu Y, et al. Deep learning based densely connected network for load forecasting[J]. IEEE Transactions on Power Systems, 2020, 36(4): 2829-2840.
[60]Bendaoud N M M, Farah N. Using deep learning for short-term load forecasting[J]. Neural Computing and Applications, 2020, 32(18): 15029-15041.
[61]Hong Y, Zhou Y, Li Q, et al. A deep learning method for short-term residential load forecasting in smart grid[J]. IEEE Access, 2020, 8: 55785-55797.
[62]Fekri M N, Patel H, Grolinger K, et al. Deep learning for load forecasting with smart meter data: Online adaptive recurrent neural network[J]. Applied Energy, 2021, 282: 116177.
[63]Jiang L, Wang X, Li W, et al. Hybrid multitask multi-information fusion deep learning for household short-term load forecasting[J]. IEEE Transactions on Smart Grid, 2021, 12(6): 5362-5372.
[64]Cheng L, Zang H, Xu Y, et al. Probabilistic residential load forecasting based on micrometeorological data and customer consumption pattern[J]. IEEE Transactions on Power Systems, 2021, 36(4): 3762-3775.
[65]Yin L, Xie J. Multi-temporal-spatial-scale temporal convolution network for short-term load forecasting of power systems[J]. Applied Energy, 2021, 283: 116328.
[66]Jalali S M J, Ahmadian S, Khosravi A, et al. A novel evolutionary-based deep convolutional neural network model for intelligent load forecasting[J]. IEEE Transactions on Industrial Informatics, 2021, 17(12): 8243-8253.
[67]Taylor J W. Short-term load forecasting with exponentially weighted methods[J]. IEEE Transactions on Power Systems, 2011, 27(1): 458-464.
[68]Lee C M, Ko C N. Short-term load forecasting using lifting scheme and ARIMA models[J]. Expert Systems with Applications, 2011, 38(5): 5902-5911.
[69]Mori H, Takahashi A. Hybrid intelligent method of relevant vector machine and regression tree for probabilistic load forecasting[C]. In Proceedings of the IEEE PES International Conference and Exhibition on Innovative Smart Grid Technologies, 2011: 1-8.
[70]Cortes C, Vapnik V. Support-vector networks[J]. Machine Learning, 1995, 20(3): 273-297.
[71]徐宇颂.基于SVR组合模型的短期电力负荷预测研究[D].江南大学,2021.
[72]Nair V, Hinton G E. Recti行ed linear units improve restricted boltzmann machines[C]. In Proceedings of the International Conference on Machine Learning, 2010: 256-251.
[73]Maas A L, Hannun A Y, Ng A Y. Rectifier nonlinearities improve neural network acoustic models[C]. In Proceedings of the International Conference on Machine Learning, 2013: 3-8.
[74]He K, Zhang X, Ren S, et al. Delving deep into recti行ers: Surpassing human-level performance on imagenet classi行cation[C]. In Proceedings of the IEEE International Conference on Computer
- 67 -
Vision, 2015: 1026-1034.
[75]Srivastava N, Hinton G, Krizhevsky A, et al. Dropout: A simple way to prevent neural networks from overfitting[J]. The Journal of Machine Learning Research, 2014, 15(1): 1929-1958.
[76]Elman J L. Finding structure in time[J]. Cognitive Science, 1990, 14(2): 179-211.
[77]Hochreiter S, Schmidhuber J. Long short-term memory[J]. Neural Computation, 1997, 9(8): 17351780.
[78]Cho K, van Merrienboer B, Gulgehre Q, et al. Learning phrase representations using RNN encoderdecoder for statistical machine translation[C]. In Proceedings of the Conference on Empirical Methods in Natural Language Processing, 2014: 1724-1734.
[79]Mughees N, Mohsin S A, Mughees A, et al. Deep sequence to sequence Bi-LSTM neural networks for day-ahead peak load forecasting[J]. Expert Systems with Applications, 2021, 175: 114844.
[80]Gul M J, Urfa G M, Paul A, et al. Mid-term electricity load prediction using CNN and Bi-LSTM[J]. The Journal of Supercomputing, 2021, 77(10): 10942-1095 &
[81]Gehring J, Auli M, Grangier D, et al. A convolutional encoder model for neural machine translation[C]. In Proceedings of the Annual Meeting of the Association for Computational Linguistics, 2017: 123-135.
[82]Gehring J, Auli M, Grangier D, et al. Convolutional sequence to sequence learning[C]. In Proceedings of the International Conference on Machine Learning, 2017: 1243-1252.
[83]LeCun Y, Bengio Y. Convolutional networks for images, speech, and time series[J]. The Handbook of Brain Theory and Neural Networks, 1995, 3361(10): 515-523.
[84]Bai S, Kolter J Z, Koltun V. An empirical evaluation of generic convolutional and recurrent networks for sequence modeling[J]. ArXiv preprint, 2018, ArXiv: 1803.01271.
[85]Oord A, Dieleman S, Zen H, et al. Wavenet: A generative model for raw audio[J]. ArXiv preprint, 2016, ArXiv: 1609.03499.
[86]Simonyan K, Zisserman A. Very deep convolutional networks for large-scale image recognition. ArXiv preprint, 2014, ArXiv: 1409.1556.
[87]Szegedy C, Liu W, Jia Y, et al. Going deeper with convolutions. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2015: 448-456.
[88]He K, Zhang X, Ren S, et al. Deep residual learning for image recognition[C]. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2016: 770-778.
[89]Hewage P, Behera A, Trovati M, et al. Temporal convolutional neural (TCN) network for an effective weather forecasting using time-series data from the local weather station[J]. Soft Computing, 2020, 24(21):16453-16482.
[90]Jarrett D, Yoon J, van der Schaar M. Dynamic prediction in clinical survival analysis using temporal - 68 -
convolutional networks[J]. IEEE Journal of Biomedical and Health Informatics, 2019, 24(2):424- 436.
[91]Lin L, Xu B, Wu W, et al. Medical time series classification with hierarchical attention based temporal convolutional networks: A case study of myotonic dystrophy diagnosis[C]. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2019: 83-86.
[92]Shi H, Wang L, Scherer R, et al. Short-term load forecasting based on adabelief optimized temporal convolutional network and gated recurrent unit hybrid neural network[J]. IEEE Access, 2021, 9:66965-66981.
[93]Yin L, Xie J. Multi-temporal-spatial-scale temporal convolution network for short-term load forecasting of power systems[J]. Applied Energy, 2021, 283:116328.
[94]Wang Y, Chen J, Chen X, Zeng X, et al. Short-term load forecasting for industrial customers based on TCN-lightgbm[J]. IEEE Transactions on Power Systems, 2020, 36(3):1984-1997.
[95]Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need[C]. In Proceedings of the International Conference on Neural Information Processing Systems, 2017: 6000-6010.
【本文地址:https://www.xueshulunwenwang.com//shuoshilunwenzhuanti/dianlixitongjiqizidonghua/5287.html

上一篇:10kV配电网线损水平评估及异常用电辨识

下一篇:区域互联电网的低频振荡模态辨识与抑制研究

相关标签: