基于机器学习的分布式新能源数据预处理技术研究文献综述

 2022-11-28 16:08:15

1 文献综述

    1. 研究背景和意义

当前形势下,能源资源约束日益增强,全球减排温室气体形势日益严峻,分布式新能源的利用和发展为缓解能源危机、改善生态环境起到了重要作用。随着分布式新能源的不断发展和高比例接入,对其数据进行有效监测、辨识和挖掘的需求越来越大。分布式新能源数据对电网的各项指标具有非常显著的影响,但是由于在实际工程应用中,设备故障、人为限电、通信故障以及光伏、风电组件功率削减等多种原因,实际测得的数据经常存在数据异常、缺失、冗余和异步的现象,使得在对新能源监测数据进一步挖掘与深入分析前应对采集到的监测数据进行预处理,尽可能还原数据在检测时间段物理世界的原始信息,提高数据质量,以支持高级的数据挖掘应用,对于整个电网具有十分重要的意义。

    1. 国内外研究现状

分布式新能源数据预处理的国内外研究现状,下面将从机器学习方法、异常数据检测算法和缺失数据修复技术三个方面进行综述。

在机器学习方法上,文献[1]介绍了五类机器学习的主算法,包括决策树、人工神经网络、遗传算法、朴素贝叶斯和支持向量机,并总结归纳了各算法的适用领域和算法优劣;文献[2]综述了用于预测的不同机器学习模型,包括用于分类和数据预处理的模型,监督学习模型,非监督学习模型,和集成学习模型,以及介绍了模型的评估方法。

在异常数据检测方面,文献[3-4]采用了聚类的方法进行异常值检测。文献[3]使用K-MEANS聚类算法检测异常数据,针对传统算法中聚类个数K值难以给定、初始聚类中心难以选择两个方面的不足,对K-MEANS算法加以改进,获得了更好的性能;文献[4]通过DBSCAN算法识别出异常数据集,然后再通过LOF算法对异常数据集中的所有对象计算其局部异常程度,最后依据待检验的数据特征来判别异常数据。

文献[5-7]都是从风电机组风速-功率曲线出发对异常数据进行辨别。文献[5]分析了风电机组风速-功率异常数据的分布特征,将异常数据分为四类,根据异常数据分布特征提出基于变点分组与四分位法结合的算法;文献[6]和[7]将异常数据分为三类,针对每一类的异常数据的特点采用不同的方法,建立了分类多模型的异常检测模型,在检测方法的选取上有所不同。

文献[7-8]都采用了预测的思想,利用预测值与实测值之差进行异常检测。文献[7]提出了两种方法,一是建立Adaboost-BP和LS-SVM的组合预测模型,利用预测值与实测值得到残差序列,再用贝叶斯后验数对数比检测异常值,二是建立ARIMA预测模型,得到残差序列,对残差进行EMD分解提取特征,用隐马尔可夫模型HMM算法检验异常值;文献[8]对光伏系统的发电量进行在线的异常数据检测,使用辐照度和光伏面板温度测量值来预测PV系统交流发电量,采用了复杂度较低的简单参数模型,与实测结果进行比较,存在显著差异的认为是异常值。

文献[9-13]都利用了Copula理论进行离群点分析。文献[9]首先基于概率统计和Copula理论初筛异常数据,再基于Copula理论建立功率置信边界曲线,采用滚动时间窗法,不断更新训练样本得到收敛稳定的最佳置信等效功率边界模型;文献[10-12]绘制了风、光功率与其相关参数的散点图,结合实际工程经验将异常数据进行分类并给出判别标准,通过拟合Copula函数生成概率功率曲线,对曲线外的数据进行判别,采用的改进方法是自适应调整概率功率曲线;文献[13]在前者的基础上,考虑了风特征,包括风速升降特征和风向扇区,针对不同风特征类型的数据分别用Copula函数拟合参数,求概率功率曲线,提高识别效果。

在缺失数据修复方面,文献[14]采用马尔科夫蒙特卡洛(MCMC)多重填补算法对光伏数据进行修补,获得了比回归填补、逻辑回归、预测均数匹配法更好的修补效果;文献[15]结合了时空因素,对本机组建立了顺插和逆插结合的时间序列模型,基于数据相似度建立了相关机组缺失变量之间的线性回归方程,同样也是前向和后向结合,对时间模型和空间模型选取权重得到最终的修复模型;文献[16]提出了一种基于历史数据关联分析的填补方法,基于KNN算法,引入了灰色关联度作为相邻近的相似度量标准,采用了重复填补的思想对缺失数据进行多次迭代填补。

文献[17-21]都采用了神经网络的方法。文献[17]通过建立RBF神经网络,以k时刻温度、辐照度和k-1时刻光伏功率作为输入,预测k时刻输出功率,联合Sigma卡尔曼滤波进行数据修复;文献[18]建立了自适应BP神经网络,以风机电流、转子转速、方向为输入,功率为输出,对风电数据进行缺失处理;文献[19]用包括气溶胶指数在内的历史气象数据和光伏每小时的发电量来训练BP神经网络,然后将目标日的天气数据用作BP神经网络的输入变量,以预测光伏系统的每小时发电量;文献[20-21]通过考虑距离相关程度和功率曲线形状相似性聚类筛选相似光伏电站,以影响光伏出力的气象因素作为日特征向量,筛选相似日,建立BP神经网络,根据相似电站和相似日是否存在分三种情况训练模型,得到基于神经网络的数据修复模型。

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。