门限回归模型(Threshold Regressive Model,简称TR模型或TRM)是
汤家豪于1978年提出了
门限自回归模型后进一步将这一思想扩展到回归模型中。门限回归模型的基本思想是通过门限变量的控制作用,当给出预报因子资料后,首先根据门限变量的门限阙值的判别控制作用,以决定不同情况下使用不同的预报方程,从而试图解释各种类似于跳跃和突变的现象。其实质上是把预报问题按状态空间的取值进行分类,用分段的
线性回归模式来描述总体非线性预报问题。
门限回归模型的基本思想
预报对象y与预报因子集之间的一般门限回归模型形式为:
式中,称为门限变量,称为门限阈值。在各段回归方程中,入选的因子可以有所不同。
门限回归模型的基本思想是通过门限变量的控制作用,当给出
预报因子资料后,首先根据门限变量的门限阙值的判别控制作用,以决定不同情况下使用不同的预报方程,从而试图解释各种类似于跳跃和突变的现象。其实质上是把预报问题按状态空间的取值进行分类,用分段的线性回归模式来描述总体非线性预报问题。在直观上此法可类比于用拆线分段逼近曲线,由于应用了分段线性化的思想,因此可以充分利用线性模式的处理手段。
门限回归模型的建模方法
如果我们已知门限变量和门限阈值,则根据门限变量值是否高于门限阈值来把样本资料分为K段,分别对每一段样本用线性逐步回归来建模即可。在作预报时,根据门限变量实时资料,首先判断其属于哪一段,然后再用该段回归模式代入预报因子实时资料即可作出预报。这些都是读者熟知的常规线性
统计预报计算分析方法了。由此可见,对门限回归建模的关键是确定门限变量和门限阈值,这就是要重点讨论的问题。
根据门限回归模型的思路,当门限变量值高于或低于门阈值时,将有显著不同的预报关系。因而建模的步骤为:先找出门限变量和门限阈值,然后按此对样本分组,分段建立线性模式。门限变量的确定有两种情况,一种是基于对预报问题的物理分析,因果关系推断,指定某个变量为门限变量,另一种情况是当对预报问题的物理原因不清、完全依靠统计方法时,可采下面的方法。
我们先考虑只有一个门限阈值,即分为两段回归时的方法,然后再把它推广到一般。设有预报对象y和m个预报因子,取n个样本。从x中任取一个因子,找出样本中的最大值和最小值,求得的变化区间,在该区间内任给一个门限值记为,对每个样本,把时所有的x和y样本分作一组子样本,时所有的x和y样本分作另一组子样本,然后对这两组样本分别建
立回归方程, 于是就建立了一个门限回归模型。穷尽所有可能的因子, 即取:,对穷尽所有可能的分段,即对门阈值,在内,取尽所有可能的值,于是就可建立所有可能的门限回归模型,从中挑出效果最好的那一个,就是最优门限回归模型。
以上讨论的门限回归建模方法,在变量数和样本数很少时,是易于实现的。但当变量数和样本数较大时,其计算量就是一般微机难以完成的了。如果计算条件能充分满足,显然这种穷尽所有可能搜索的计算方案是可以建立最佳广]限回归模型的。但在计算条件不能充分满足的情况下,如何设计一些计算方案,在基于一定假设条件下,找到一个相对较好的门限回归模型,就是一个需要认真讨论的问题了。下面提供三种假设条件下的建模方案,供读者在实际工作中参考选用。
1.假设条件:门限变量和门限阈值是造成预报对象显著差异的主要因子。此时要找到这样的门限变量和门限阈值,当把预报对象分成两组时,两组预报对象间有最显著的差异,由此建立的门限回归模型,当预报关系发生改变时,预报对象有显著差异。此种情况下的计算方法为:
设有y和,取n个样本,从x中任取一个因子,把它的样本与y的样本列为下表:
找出的最大值和最小值,得出的变化区间,在该区间内给定一个门限初值,记为(上标0表示初值,下标i 表示第i个变量,括号(1)表示只有一个门限)。然后把
上表中凡满足 (j= 1,2...n)的那些预报对象样本挑出来,组成一组子样本,记为,其余作为另一组子样本, 记为。用方差分析方法,求得和这两组子样本的差异显著性检验值,记为,然后运用一维搜索来不断调整门限初值,记为。按此法可不断对y重新分组计算两组样本的差异显著性检验值,记为,于是问题归结为:对门限值寻优,使达到最大,从而求得以作为门限变量时的最大显著性指标,记为相应的门限阈值记为。
对至每个因子都如此分析,于是求得每个因子的和,i=1,2,...,m,把它们排列如下:
从中挑出F的最大者,记为,其所对应的第j个因子,就是所求得的门限变量,相应的为门限阈值。 显然,它满足对门限变量原理假设:即在所有m个自变量中,可使模型预报关系及y有最大差异的那个变量。
对门限变量及门限阈值的求法,不限于这里介绍的方差分析方法,还可运用其他方法,如最优分割法等。
找出门限变量xj和门限阈值后,下一步就是把预报对象和预报因子样本资料
按门限因子和门限阈值把满足(k = 1,2..,n)的那些预报对象和预报因子样本挑出来,组成一组子样本, 其余作为另一组子样本, 然后分别对这两组子样本作线性逐步回归,求得二段门限回归模式为:(式中,未入选因子的系数)
这一建模方法不难推广到分为L段的多元门限归模型,现把建模方法简述如下:
(1)对因子,找出最大值和最小值,在其变化区间内取L个分点,把y划分为L组,记为。运用方差分析方法,求得这L组的差异显著性检验值,记为。
(2)对区间中的L个分点,运用非线性参数寻优法,求得L个门限阈值, 记为使F达到最大。
(3)对至每一个因子重复(1)~(2)步,求得,从中找出最大值,记为,其所对应的因子即为门限变量,即为门限阈值。
(4)根据把y和的样本分成L段,分别对每一段应用线性逐步回归方法建立分段
线性回归方程,于是得到最终门限回归模式如下:
2.假设条件:当预报关系发生改变时,门限变量值间有最显著的差异。在此种情况下要找到这样的门限变量和门限阈值, 使高于门限阀值和低于门限阈值的门限变量样本值间有显著差异,由此建立的门限回归模型具有当预报关系发生改变时,门限变量值有显著差异的特性。
此时具体计算方法为:从X中任取一个因子,给定一个门限初值,把的样本值 (k = 1,...,n)中大于的那些样本分为一组,其余的作为另一组,求得两组数据的方差分析F值,记为然后应用一维搜索来不断调整门限初值,记为。
以此不断重新分组计算两组样本的差异显著性检验值记为,对门限值寻优,使达到最大,从而求得以作为门限变量时的最大显著性指标,记为,相应的门限阈值记为。以下各步骤同第-种假设条件下的计算方法,这里从略。
3.假设条件:当预报问题为时间序列问题时,即样本为时间序列样本组成。此时假设预报对象时间序列由不同周期预报关系叠加组成。于是可把预报对象时间序列样本进行周期分解。方法如下:
对Y的n年样本, 设周期为K,于是可排列成K年周期如下:
把每一列作为一组子样本,共有K组子样本。对每-组子样本的均值和方差与其他组进行比较,若存在显著性差异,即可认为该组变量所对应的年份是由不同周期预报关系造成的,因而可把该组因变量所对应的样本挑出来单独建立一个回归方程。其他样本建立另一个回归方程。在实际应用中,可对不同K值进行试验,以确定显著性最高的K年周期。
如果预报模型的突变受多个门限变量的控制,则称为多重门限回归,下面是两个门限变量, 每个门限变量一个阈值的形式:
其建模方法步骤不难仿照一个门限变量的分析方法进行推广。