英语原文共 7 页,剩余内容已隐藏,支付完成后下载完整资料
基于反向传播遗传算法的时间天气预报算法技术
Shaminder Singh
Punjab Technical University/Ph.D. Scholar, Kapurthala, 144601, Indian
Email: er_shaminder@yahoo.co.in
Jasmeen Gill
Punjab Technical University/Ph.D. Scholar, Kapurthala, 144601, Indian
Email: er.jasmeengill@gmail.com
摘要:基于混合反向传播的遗传算法是训练预测天气的神经网络的流行方法。这种方法的主要缺点是假设天气参数彼此独立,同时他们之间的时间关系也没有考虑。所以,在目前的研究中,提出一个基于时间序列的修改天气预测模型,用来消除在混合BP/GA方法中的问题。结果非常令人鼓舞:提出的时间天气预测模型在动态和混乱的天气状况下表现优于先前的模型。
关键词:时间天气预报;时间序列预测;人工神经网络;反向传播算法;遗传算法
1. 介绍
能够预测未来一直是人类的梦想,因为他已经意识到他所处的环境及其操纵环境的能力。预测是一种了解未来时期系统可能发生什么的现象。天气是基于时间序列的连续、数据密集和动态过程。神经网络适用于解决传统技术难以解决的非线性问题。大多数气象过程经常表现出时间和空间的变化,并且进一步受到物理过程非线性,空间和时间尺度冲突以及参数估计不确定性等问题的困扰[7]。人工神经网络具有提取过程输入和输出之间关系的能力,而无需明确提供物理学。因此,神经网络非常适合预测天气。本文介绍了一种利用两种强大的人工智能技术优势的时间天气预报模型:反向传播算法和基于时间序列预测的遗传算法。
A. 时间天气预报
时间预测或时间序列预测意味着通过将现有或过去的数据系列作为参考来预测未来数据值。形式上说,时间序列预测采用现有的一系列数据x(tn),...,x(t-2),x(t-1),x(t)并预测数据值x(t 1),x(t 2),...,x(t m)[9]。
B. 反向传播算法
使用梯度下降技术的反向传播受到缩放问题的困扰。它适用于简单的训练问题。然而,随着问题复杂性的增加,反向传播的性能迅速下降,因为梯度搜索技术倾向于陷入局部最小值,因此进行非常慢的训练[15]。如果隐藏神经元的数量增加,则误差函数的自变量的数量也增加,并且计算时间也快速增加[5]。各种研究人员已经尝试使用遗传算法解决这些问题。
C. 遗传算法
遗传算法类似于自然进化过程,其中特定物种的种群适应所考虑的自然环境,创建设计群体然后允许其进化以适应所考虑的设计环境以解决优化问题[1]。
与反向传播相比,遗传算法更适合于神经网络,因为它擅长全局搜索(不是在一个方向上),并且它适用于一群点而不是单点。其次,遗传算法使用变量的字符串编码而不是仅需要离散点处的函数值的变量,可以在不需要额外成本的情况下处理离散函数[10]。
与反向传播算法相比,遗传算法的固有并行性质使得处理更快。遗传算法的另一个优点是它易于通过硬件实现。首先,所需的精度不高。其次,如果采用二进制编码,结果可以直接反映到数字存储。最后,算术运算很简单,这对硬件实现非常有利[14]。遗传算法的这些好处鼓励研究人员将人工智能技术结合起来,以产生混合模型。
D. 混合技术
为了解决反向传播算法的问题,已经努力将其与遗传算法相结合[12]。在天气预报领域,已经使用上述技术对反向传播与遗传算法的杂交进行了研究。最新的天气预报模型强调了反向传播和遗传算法的混合,用于训练神经网络以预测天气参数,假设它们彼此独立并且不考虑它们之间的时间关系。所有这些限制都为本研究奠定了基础。
本文的其余部分安排如下:第二部分详述了所使用的材料和方法,第三部分给出了培训和测试方法,第四部分通过结果显示了所提出技术的性能,最后第五节总结了结论。
2. 数据和方法
提出的工作涉及通过遗传算法训练反向传播网络,以便通过抛弃天气参数彼此独立,没有时间关系和没有时间序列趋势的假设来融合天气预报中两种技术的优点。在天气数据中。此外,它还将尝试解决混合BP/GA技术中出现的问题,并提供完整,准确的时间序列天气预报模型,如图1所示。
图1时间序列天气预测模型设计步骤
A.数据收集
降雨预测模型设计的第一步是收集通过仪器获得的数据本研究中使用的数据是每日降雨量数据。非正规化形式的数据来自Ludhiana的旁遮普农业大学,用于卢迪亚纳的旁遮普市。
B.天气参数选择
从旁遮普农业大学卢迪亚纳(旁遮普邦)的气象部门收集的每日天气参数以及它们的测量单位如表1所示。在此设置中为预测选择的参数是平均气温(ordm;C),相对湿度(%)和每日降雨量(mm)。
表1.天气参数
序号 |
气象变量 |
单位 |
1 |
平均气温 |
ordm;C |
2 |
降雨量 |
Mm |
3 |
相对湿度 |
% |
C.N-滑动窗口
神经网络中的工作集中于从x值到当前时间预测时间序列的未来发展。形式上,这可以表述为:找到函数f(x):N→R,以便从时间t的N个时间步长获得在时间t d的x的估计,从而:
x(t d) = f(x(t),x(t-1),...,x(t-N-1)) (1)
x(t d) = f(y(t)) (2)
其中y(t)是滞后值的N元矢量。
执行时间序列预测的标准神经网络方法是使用近似神经网络架构的任何前馈函数来诱导函数f,使用一组N元组作为输入并使用单个输出作为网络的目标值[2]。图2给出了基本架构。
图2.采用N-滑动窗口的时间序列预测技术
这种方法通常被称为滑动窗口技术,因为N元组输入在整个训练集上滑动,该训练集在数学上称为移动平均值,并且作为一定时期内N个数据值的平均值逐渐计算[13]。对于数据集,由dt,dt-1,dt-2,..................,d0表示,其中dt存在且d0是第一个数据值,具有周期N的滑动窗口的移动平均值是作为
(3)
D.相关性抽取
在某些情况下,可以基于从相同参数的过去数据获得的特征来估计要预测的天气参数。但是,在某些情况下,要预测的参数也表现出对其他天气参数的强烈依赖性。在这种情况下,网络的输入还应包括从其他天气参数中提取的特征。因此,为了预测每个参数,输入变量的确定方式是这些特征包含在它们在一定时期内建立的趋势形式[8]。由于需要一些信息来访问特定特征是否适合于模型以包含在输入数据集中,所以通过将这些特征与要估计的参数相关联来进行特征的选择。可用作模型的输入特征的统计指标如下。
(a)日期号码:作为第一个输入馈送到网络,以跟踪要训练网络的日期。
(b)移动平均线:它是作为特定时期内N个数据值的平均值逐步计算的。
(c)振荡器(OSC):振荡器用于指示时间序列中存在的上升趋势或尾随趋势。它被定义为两个不同时期的移动平均线或指数移动平均线的差异:
OSC=MAN1-MAN2 (4)
其中N1和N2是不同的周期,并且N1gt;N2。
这些功能将作为网络的输入以及相关参数移动平均值,如表2所示。
表2.估算天气参数的特征
参数 |
输入 |
输出 |
平均气温 |
日非移动平均振荡器 |
平均气温 |
依赖参数 |
移动平均线(降雨量) 移动平均线(湿度) |
|
每日降雨量 |
日非移动平均振荡器 |
平均降雨量 |
依赖参数 |
移动平均线(温度) 移动平均线(湿度) |
|
相对湿度 |
日非移动平均振荡器 |
相对湿度 |
依赖参数 |
移动平均线(温度) 移动平均线(降雨量) |
E.数据归一化
在收集数据和选择天气参数之后,下一个问题是数据的标准化。神经网络通常使用标准化数据提供改进的性能。将原始数据用于网络可能会导致收敛问题[6]。因此,通过将实际值dt和最小值dmin的差除以最大值dmax和最小值之差,将所有天气数据集转换为0和1之间的值,以获得(5)中的归一化数据信号。
(5)
归一化的主要目标与权重初始化相结合,是允许压缩活动功能至少在学习阶段开始时起作用。因此,作为非线性导数的函数的梯度将始终不为零。在算法结束时,输出被非规范化为原始数据格式以实现期望的结果。
3. 方法:训练和测试
使用基于混合反向传播的遗传算法技术训练网络,如图3所示。
图3. 训练流程图
A.人口生成
在这一步,需要解决两个主要问题,即人口规模的确定和人口的初始化。由于染色体形成初始种群,因此必须指定种群大小。此参数确定任何时候人口中应该有多少染色体。群体中存在的染色体数量取决于染色体的长度。每条染色体都由一些基因组成。特定数量的权重根据染色体具有的基因数量从每条染色体中提取。这个计算如下:让网络配置为lmn。因此,待确定的权重(基因)的数量如(6)中所示。
(6)
由于每个基因都是实数,并且基因长度为d,表示权重染色体的字符串将具有C的长度,如(7)中所示。
(7)
它表示输入-隐藏-输出层的权重矩阵。初始化人口遵循两种主要方法。一个是随机生成人口。当我们没有特别将初始种群作为替代解决方案集时,遵循这种方法。另一种方法是使用一些已知的良好解决方案生成群体,并且在解决方案域固定时遵循旅行推销员问题,每个基因表示城市,染色体表示旅游计划。本研究使用随机初始化方法,因为它旨在获得用于预测输出的最佳权重集。
B. 重量提取
在混合技术可以解决任何问题之前,需要一种方法来以计算机可以处理的形式对该问题的潜在解决方案进行编码。一种常见的方法是将解决方案编码为二进制字符串(0和1),其中每个字符串表示一些方面,实际编码,其中方面的特定值以实数指定,以及字符串编码,其中每个字母代表特定的方面的解决方案。
在目前的工作中,实际编码用于编码权重的值。由于染色体是一组基因,基因表示重量,因此实数将指定神经元的权重。在基于梯度的反向传播方法中,权重被视为实数,类似于混合技术。此外,每个基因的长度在最后一节中指定为一个数字d,以便所提取的权重具有精确的d-2小数位。权重的值将从随机生成的染色体中提取,保持以下规则:如果基因G5G4G3G2G1的最高位G5是小于或等于d的数,那么权重将是G4.G3G2G1否则权重将是-G4.G3G2G1。
- 错误计算
在提取权重之后,将输入与权重的乘积相加在一起并馈送到网络以计算实际输出。将这些输出与所需输出进行比较,得到误差值。计算均方根误差而不是简单地从期望输出中减去实际输出,以消除如(8)中的负值。
(8)
其中DO是期望的输出,FO是预测输出,N是数据集中的项数。
- 适应性评估
选择个体的搜索由每个个体的适合度指导,即评估每个染色体的质量。因此,通过使(9)中的均方根误差往复来评估适应度函数。
(9)
其中RMSE是(8)中给出的均方根误差。适应度越大,选择染色体再生后代的机会就越大。
-
选择(EliteFitness比例选择)lt;
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[20532],资料为PDF文档或Word文档,PDF文档可免费转换为Word
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。