基于偏最小二乘回归的年用电量预测研究王文圣1,丁晶1,赵玉龙2,张晓明2(1.四川大学水利水电学院,四川成都610065;
2.四川省电力调度局,四川成都60016)对年用电量的预测若采用一般最小二乘回归法建模,其估计参数存在着很大的误差且物理意义明显不足。而偏最小二乘回归方法则实现了多元线性回归、主成分分析和典型相关分析的综合、克服了自变量之间的多重相关性的问题,因而更具有先进性,其计算结果更为可靠,在实际系统中的可解释性也更强,且方法简单,计算快捷。该文将偏最小二乘回归模型(PartialLeastSquareRegression,PLS)
关键词:电力系统;多元线性回归;偏最小二乘;最小二乘;年用电量预测1引言
西电东送,必须预测西部本身的用电量。准确的负荷预测,可经济合理地安排电网内部发电机组的生产计划,保持电网运行的安全可靠,降低发电成本,提高经济和社会效益。但年用电量受人口、国民生产总值、第一生产值、第二生产值及第三生产值影响。这些影响因素之间存在严重的多重相关性。
为了提高负荷预报精度,电力工作者作了大量的研究工作,尝试了各种预测方法[1~3]。回归分析法在电力负荷预测中有着广泛的用途。在建立自变量集合与因变量间的回归方程中,一般常用最小二乘法,但若自变量间存在多重相关性时,该法估计结果误差较大且不稳定。在这种情况下,应用新的估计方法是十分必要的。
瑞典化学家S.Wold教授提出的被称为第二代回归分析的偏最小二乘回归是一种新的多元统计数据分析方法。它是多元线性回归、典型相关分析和主成分分析的有机结合[4],较传统的回归分析、主成分回归具有更大的优势,从而使模型精度、稳健性、实用性都得到提高。
2偏最小二乘回归模型
2.1概述
在一般多元线性回归模型中,有一组因变量Y={y1,y2,…,yq}(q为因变量个数)和自变量X={x1,x2,…,xm}(m为自变量个数),当数据总体满足高斯—马尔科夫定理时,由最小二乘法有
式中B为估计的回归系数。
当X中的变量存在严重的多重相关性(变量本身物理意义决定了它们之间的相关性,或由样本点数量不足造成),式(1)中行列式(XTX)几乎接近于零,求解(XTX)-1时会含有严重的舍入误差,使回归系数估计值的抽样变异性显著增加。更有甚者,当X中的变量完全相关时,(XTX)是不可逆矩阵,无法求解回归系数。此时,若仍沿用最小二乘法拟合回归模型,回归结果将会出现许多反常现象,致使其精度、可靠性得不到保证。在实际工作中,变量的多重相关性是普遍存在的。偏最小二乘法就能较好地解决这类问题。
2.2偏最小二乘回归模型的思路
偏最小二乘回归是多元线性回归、典型相关分析和主成分分析的集成和发展。其思路是:首先,从自变量集合X中提取成分th(h=1,2,…),各成分相互独立;然后,建立这些成分与自变量X的回归方程,其关键在于成分的提取。与主成分回归不同的是,偏最小二乘回归所提取的成分既能很好地概括自变量系统中的信息,又能最好地解释因变量,并排除系统中的噪声干扰。因而有效地解决了自变量间多重相关性情况下的回归建模问题。
2.3偏最小二乘回归建模
当q=1时,为单变量偏最小二乘回归模型(记为PLS1);当q>1时,为多变量偏最小二乘回归模型。本文仅给出PLS1的建模过程。
(1)数据标准化处理标准化的目的是使样本点的集合重心与坐标原点重合。
(2)第一成分t1的提取
的重新调整。
从F0中提取第一个成分u1,
在此,要求t1,u1能分别很好地代表X与y中的数据变异信息,且t1对u1有最大的解释能力。根据主成分分析原理和典型的相关分析的思路,实际上是要求t1与u1的协方差最大,这是一个最优化问题。经推导有
式中r(xi,y)为xi与y的相关系数。
从t1中可以看出,t1不仅与X有关,而且与y有关;另外,若xi与y的相关程度越强,则xi的组合系数越大,其解释性就越明显。
求得轴W1后,可得成分t1。分别求F0,E0对t1的回归方程为
(3)第二成分t2的提取
以E1取代E0,F1取代F0,用上面的方法求第2个轴W2和第2个成分t2,有
(4)第h成分th[1][2][3]下一页