于之虹,郭志忠
(哈尔滨工业大学电气工程及自动化学院黑龙江省哈尔滨市150001)
针对主成分分析中利用传统方法进行特征选择的缺陷,提出了基于遗传算法的特征选择方法。文中选择反映电力系统运行状态的特征变量,建立暂态稳定评估模型;为了提高数据处理的效率,本文首先对原始数据进行了动态聚类分析;对数据进行主成分分析后,以类内类间距离判据作为适应度函数,采用二进制编码形式的遗传算法进行特征选择。通过对3机9节点和10机39节点新英格兰系统的计算,验证了所选方法的有效性。
关键词:特征选择;遗传算法;暂态稳定评估;电力系统FeatureSelectionbasedonGeneticAlgorithmforTransientStabilityAssessment
YuZhihong,GuoZhizhong
(Dept.ofElectricalEngineering,HarbinInstituteofTechnology,Harbin150001,HeilongjiangProvince,China)
Abstract:AimatthedisadvantagesconsistinginfeatureselectionbytraditionalcombinationoptimizationmethodinPCA,wepresentedanewmethodbasedongeneticalgorithmtoselecttheinputfeatures.Inourapproach,thefeaturesettodescribethesystemstateandpost-faultnetworkconfigurationchangewereselectedfortransientstabilityassessmentandtheinitialdatawaspreprocessedbydynamicclusteringanalysisfirstly.Byusingthewithin-class/between-classdistancecriterionasfitnessfunction,abinarygeneticalgorithmwasemployedtoselectaneffectivesubsetoffeaturesformthefeaturesetafterPCA,andtheinputdimensionwasreducedremarkably.Asanexample,the3-machine9-buswsccsystemandthe10-machine39-busNewEnglandsystemwereusedforsimulation.TheresultsreveaLEDthevalidityofourproposedapproach.
Keywords:featureselection;geneticalgorithm;transientstabilityassessment;powersystem
0引言
基于人工智能理论的暂态稳定评估(TSA)是一个典型的模式分类问题。影响电力系统暂态稳定的诸多因素,以及由SCADA收集到的现场海量的运行数据,在很大程度上都会导致分类器运行速度和识别能力的下降。因此,如何有效地提取和选择输入特征变量,压缩输入空间的大小以改善分类器设计,提高稳定判断的准确性已成为一个亟待解决的问题。
特征提取和选择的基本任务就是从许多特征中找出那些最有效的特征,去除与分类目标无关的或与其他特征量有较高相关性的冗余特征[1]。其中,特征提取是将原始数据构成的高维空间映射(或变换)为一个低维的样本空间;特征选择则指从一组特征中挑选出一些最有效的特征以降低特征空间维数。围绕这两项任务,本文首先采用主成分分析法对原始数据进行特征提取,将原有的高维样本空间映射为一个低维空间,然后阐述了以类内类间距离作为类别可分离判据,利用遗传算法进行特征选择的基本原理和应用实例。
1基于主成分分析的特征提取
主成分分析法(PrincipalComponentAnalysis,PCA)是模式识别中一种有效的特征提取方法,其目的是用较少数量的特征对样本进行描述,降低特征空间维度,同时保留原始数据的主要信息。对于大样本、多变量的情况,该方法尤为有效。通常,对数据集X,主成分的求解常转化为求X的协方差矩阵的特征根和其标准正交向量的问题,过程如下:
(1)对原始数据样本集X=(xij)n×p(n为样本数,p为输入特征数)进行标准化处理,得到X′,即(1)
式中μi、бi分别为特征变量xi的均值和标准差;
(2)建立标准化数据X′的协方差矩阵V,求V的k(k≤p)个不为0的特征
(4)确定主成分的个数
根据给定阀值L(在85-95之间取值),取累计贡献率对应的前m(m≤k)个主成分。
从上述过程可见,主成分分析法通过对现有样本空间进行某种正交变换组合,产生了一个新的样本空间。和原样本空间相比,新样本空间维数降低,特征变量间的相关性减小。
2利用遗传算法进行特征选择
在1中,主成分的选择是依照传统方法,在k维主成分空间中选择前m个较大特征值所对应的特征向量(主分量特征)进行计算得到的;也有人提出应选择较小特征值对应的特征向量(次分量特
这些选取方法都缺乏一般的理论支持。为此,本文提出采用遗传算法进行特征选择,利用遗传算法的全局寻优能力,搜索最优的特征组合。
遗传算法是通过模拟生物进化过程中的繁殖、变异和自然选择来求解最优化问题。利用遗传算法进行特征选择的过程为:
(1)令进化代数t=0,生成初始群体P(t)。各种遗传算法的实施过程基本类似,所不同的是针对问题的具体编码方式和适应度函数的实现过程。特征选择问题是从数据样本最初的D个特征变量中选择出其中的d个特征。在用遗传算法解决这个问题时,可采用二进制染色体编码,即用一个D位的由0或1构成的字符串表示一种特征组合,数字1表示对应的特征被选中,数字0表示对应的特征未被选中。为了加快收敛,在产生初始群体时,假设绝大多数特征变量都将被选择,对字符串中的每一位以0.9的概率取值为1。
(2)定义适应度函数。为了得到对稳定判断最有效的特征,本文采用类内类间距离判据J[1]作为适应度函数。具体定义为:
在上式中,如果表示同类样本之间距离的Sb的值越小,表示异类样本间距离的Sw的值越大,则J值越大,此时的分类效果也越好。
(3)计算P(t)中每个个体的适应度函数值。将第一次迭代具有最高适应度值的个体作为第一次迭代的最优解,记录其适应度值。对于第二次迭代以上的个体,将这一代计算所得的最大适应度值与记录适应度值相比较。若小于记录值,则记录值保持不变;若大于记录值,则将这一代具有最大适应度值的个体作为群体中的最优解,修改记录值。
(4)进行选择、交叉和变异操作,产生下一代。
(5)重复(3)-(4),直至进化代数超过给定的最大进化代数为止。特征选择的结果就为最后一次迭代后群体中的最优解。
在初始群体中,因为个体随机选取,所以其分布散度最大,随着进化的进行,群体的分布散度逐步减小,为此本文利用群体熵来刻划群体个体在进化过程中分布散度的衰减过程。
Pi为群体中第i位为1的频率,D为特征维数。
&[1][2][3]下一页