数据同化(data assimilation)是指在考虑数据时空分布以及观测场和背景场误差的基础上,在
数值模型的动态运行过程中融合新的观测数据的方法。它是在
过程模型的动态框架内,通过数据同化算法不断融合时空上
离散分布的不同来源和不同分辨率的直接或间接观测信息来自动调整模型轨迹,以改善
动态模型状态的估计精度,提高模型预测能力。数据同化是一种最初来源于
数值天气预报,为数值天气预报提供初始场的数据处理技术,已广泛应用于大气海洋领域。
数据同化是一种最初来源于
数值天气预报,为数值天气预报提供初始场的数据处理技术。已广泛应用于大气海洋领域。
由于数据同化可以应用于
地球系统科学研究的多个领域,因此不同领域专家对数据同化的内涵与外延有各自的表述。综合起来可以概括定义数据同化包括4个基本要素:模拟自然界真实过程的动力模型;状态量的直接或间接观测数据;不断将新观测的数据融入过程模型计算中、校正模型参数、提高模型模拟精度的数据同化算法;驱动模型运行的基础参量数据。
资料同化的主要任务是将各种不同来源,不同误差信息,不同
时空分辨率的观测资料融合进入数值动力模式,依据严格的数学理论,在模式解与实际观测之间找到一个
最优解,这个最优解可以继续为动力模式提供初始场,以此不断循环下去,使得模式的结果不断地向
观测值靠拢。
连续数据同化算法定义一个同化的时间窗口T,利用该同化窗口内的所有观测数据和模型状态值进行最优估计,通过迭代而不断调整模型初始场,最终将模型轨迹拟合到在同化窗口周期内获取的所有观测上,如三维变分和四维变分算法等。
顺序数据同化算法又称滤波算法,包括预测和更新两个过程。预测过程根据t时刻状态值初始化模型,不断向前积分直到有新的观测值输入,预测t+1时刻模型的状态值;更新过程则是对当前t+1时刻的观测值和模型状态预测值进行加权,得到当前时刻状态最优估计值。根据当前t+1时刻的状态值对模型重新初始化,重复上述预测和更新两个步骤,直到完成所有有观测数据时刻的状态预测和更新,常见的算法有集合
卡尔曼滤波和粒子滤波算法等。
数据同化过程主要为两个步骤的循环。第一步可以称为分析,其中实际系统的观测量与模型产生的预报值相比较/融合,得到系统状态的最佳估计。在第二步,根据观测数据和模型两者包含的不确定度信息,平衡二者得到关于未来系统状态的预报值(具体时间点由下一批观测值给出)。这就完成了一个分析-预报循环。
可以用
卡尔曼滤波器来比喻数据同化过程。其中“分析”步骤类似于观测值与它的预估值的作差;预报步骤则相当于系统状态的最优估计。数据同化与通常的最优控制过程之不同在于,其自由度数量庞大,根本无法得到其
协方差矩阵。 数据同化常用于涉及大规模时效性数据处理的过程,如现代
天气预报。