项目背景
感谢Datawhale组织这么好的春训营带我入门数据比赛,学习下来相当有收获!
本文针对的是 第三届世界科学智能大赛新能源赛道:新能源发电功率预测 的个人探索提分,现将关键改进思路整理分享。
完善代码,电站预测分开处理
首先完善代码,用一个电站的数据去预测十个电站肯定是不合理的,尤其是风电、光电混合这种情形。
写一个循环,每个电站读取自己的天气数据,构建自己的模型。
数据可视化探索
然后试图提分,进行可视化,发现数据集探索
对全部数据集里面的特征与最终发电功率绘制散点图查看特征。
风力电站
风力电站1 三个天气预报来源的关系
current data NWP_1 on power effects
current data NWP_2 on power effects
current data NWP_3 on power effects
可以发现,风电与u100的绝对值呈明显的正相关,加入特征集
光伏电站
光伏电站7 三个天气预报来源的关系
current data NWP_1 on power effects
['ghi', 'poai', 'sp', 't2m', 'tcc', 'tp', 'u100', 'v100', 'hour', 'wind_direction', 'u100abs', 'v100abs', 'wind_speed', 'poai_smooth', 'ghi_diff', 'hour_sin', 'hour_cos', 'wind_speed_lag1', 'ghi_lag1', 'wind_speed_lag2', 'ghi_lag2', 'wind_speed_lag3', 'ghi_lag3', 'wind_pressure']
可以发现数据集 ghi、poai明显与光电正相关。
此外时间也很相关,早上六点到晚上20点有可能有发电功率
这个在预测值里可以特殊处理一下
处理时间序列
当前15分钟的精度 是重复小时数据4次获得的
有些粗糙,但是我想不到从历史数据提取拟合规律的办法
构建时序特征:5:00-20:00时段标记、小时周期编码
就简单用np.interp拟合一下预测吧
风电的预测
光电的预测
分数又提高了 0.3分
还需要继续努力呀
评论记录:
回复评论: