队决策理论是决策群体具有共同的目标函数,但每个决策者根据各自不同而又相关的信息来做各自决策的理论。队是具有共同目标的决策群体的一种组织,队中成员之间的关系是合作而非对抗的。所有决策者为实现共同目标,在做各自的决策时应相互协调。队决策理论是经济学家在不完全信息的条件下建立经济模型时首先提出的,后来又推广到工程技术等领域。
全体决策者有一个共同的
目标函数,但每个决策者作决策时却依赖各不相同而又相关的信息的决策理论,简称队论。队是全体成员有一个共同目标的一种
组织。队中成员之间的关系是合作关系而不是对抗关系。队论是从信息结构的观点来研究决策问题的。其主要特征是,每一个决策者基于所接收到的各不相同而又相关的信息来作各自的决策。为了实现共同目标,所有决策者应协调他们的行动。
发展简史队论原是经济学家在不完全信息的约束下建立经济模型时提出来的,后来推广到工程技术和其他学科。1955年,J.马尔沙克奠定了队论的基础。他研究了在一个组织内如何协调各成员的工作。1962年,R.拉德纳把队论置于可靠的数学基础上。虽然他们两人的研究主要在静态方面,但他们得到的
结果可在形式上确定决策问题的信息结构。1972年,何毓琦和祝开景把拉德纳的工作推广到动态情况,后又进行了许多研究,扩大了研究范围,提出了一些的算法。
队决策模型队决策模型有自然状态、决策变量集合、观测信息函数集合、策略集合和损失函数等五个基本要素。
自然状态指问题的不确定成分,包括随机初始条件、测量噪声、不确定参数和随机扰动等信息。这些信息又称先验信息,用一个随机变量向量ξ=(ξ1,…,ξi,…,ξn)表示,概率分布用P(ξ)表示。n是系统状态的维数。这种信息在开始制定决策时为每个决策者已知。
决策变量集合u屌{u1,…,ui,…,um}。其中元素ui为第i个决策者的决策。ui也可以是向量,这时可将它分解为多个决策者,但他们均占有同样的信息。当同一决策者在不同时间制定多个决策时,若基于不同的信息,就应看成不同的决策者。m是决策者数目。
观测信息函数集合z屌{z1,…,zi,…,zm}。其中元素zi为第i个决策者在制定决策时所接收到的信息,包括先验信息ξ和由通信传来的其他决策者的决策信息ui。即zi是ξ和uj的函数,记为 zi=ηi(ξ,uj),j=1,2,…,m,j厵i。一般来说,这一信息与第 k个决策者接收到的信息是不同的。集合η屌{η1,…,ηi,…,ηm}称为信息结构。若zi只依赖于ξ而与其他决策者所作的决策uj无关,则zi只是ξ的函数,记为zi=ηi(ξ)。信息结构对全体决策者均为已知。
策略集合γ屌{γ1,…,γi,…,γm}。又称决策规则,相当于控制问题的控制律。其中元素 γi为第i个决策者采用的策略。第i个决策者接收了信息zi之后,必定据此作出某种决策ui,因而ui是zi的函数,记为ui=γi(zi)。这里的γi(i=1,2,…,m)称为策略。
损失函数又称支付函数、价值函数,用来评价各种决策后果所遭受的损失。它是ξ和u的函数,记为L(ξ,u)。常假定L(ξ,u)可用适当的效用单位来表示。
研究内容根据信息结构形式的不同,队论研究的问题分为静态队决策、部分嵌套动态队决策和动态队决策。
静态队决策简称静队。指第 i个决策者作决策时用到的
信息只依赖于ξ而与其他决策者的决策无关,即ui=γi(zi)=γi(ηi(ξ))。若一组策略已经给定,则损失函数可记为L(ξ,u)=L(u=γ(η(ξ)),ξ)。ξ是随机变量,对ξ取期望值,用符号Eξ表示。于是,静队要解决的问题是求γ垄(i=1,2,…,m),使目标函数J(γ)=Eξ【L(u=γ(ηξ),ξ)】为最小。这是一个确定型
最优化问题,称为正常策略型。除非问题比较简单,例如损失函数为二次型,ξ是均值为零的高斯随机变量,η(ξ)为线性函数(简称线性二次型高斯问题),γ的维数较低,否则要从整体上直接解出γ垄(i=1,2,…,m)是十分困难的。
一种限制较少的办法是假定第i个决策者已经知道所有其他决策者的策略
i,且已固定为
i呏(γ壒,…,γ壠,γ壡,…,γ奰)。这时要求对γi 项求解。于是要解决的问题是求γ垄,使J(γ)=EξL(u=γηξ),
,ξ为最小。这是一个参数
最优化问题,称为半正常策略型。因问题已被
i参数化了,半正常策略型的计算仍有一定的困难,不过这可按决策者逐个地用迭代法求解。相对于满足正常策略型的解的最优性条件而言,这种方法得到的只是必要条件而不是充分条件。R.拉德纳证明,线性二次型高斯静队问题存在线性最优决策,而且是唯一的。
部分嵌套动态队决策简称PN动队。动态指队中第i个决策者接收到的Zi依赖于第j个决策者的uj(j=1,2,…,m;j厵i),而uj的决策动作在前,Zi的接收动作在后。“动”这一个词表示决策者的动作有一个次序关系。先后关系就是因果关系,用符号“劏”表示,j劏i表示j先于i,即j的决策能影响i收到的信息,但反之不然。若有一动队的信息结构,其中第i个决策者的Zi包含了第j个决策者的Zj,便认为Zj嵌套于Zi之中。这时第i个决策者能准确知道第j个决策者所知道的事件,因而可以从Zi决定Zj。至少对部分的i、j而言,j劏i成立,而其余的并没有因果关系,这样的信息结构称为部分嵌套的信息结构(PN)。可见,若动队的PN结构是线性的,有一个明显的特性,当决策规则γ一经确定,第i个决策者前面所有第j、k…个决策者的动作uj、uk…就完全能由Zi确定。因此,如uj、uk…已分别由Zj、Zk…所确定,则在Zi中包含的其他决策者的决策信息uj、uk…便属多余,可从Zi中消去。等效的
等于Zi减去这些多余信息。对所有的i均作同样处理,结果在
(i=1,2,…,m)中除ξ外均不包含其他决策者的决策信息。这样,线性PN动队就等效地转换为静队问题。何毓琦和祝开景证明,线性二次型高斯PN动队问题存在线性最优决策,而且是惟一的。
动态队决策简称动队。指第 i个决策者接收的Zi,除ξ外还依赖于第j个决策者的决策信息uj,而不具有PN性质,记为Zi=ηi(ξ,uj),j=1,2,…,m,j厵i。动队信息结构引起两个困难。①各决策者的决策相互依赖,无限循环。即ui=γi(Zi)=γi(ηi(ξ,uj)),j=1,2,…,m,j厵i,其中uj又可记为uj=γj(ηj(ξ,ui)),i=1,2,…,m,i厵j。②策略依赖现象,使目标函数J中出现γi(γj(…))的多重复合函数项。这样,即使原给定的损失函数为二次型,也不能保证J为二次型,从而使求解困难。
虽然难以求得动队问题的最优解,但对线性二次型高斯问题而言,总可求得最优目标值的上下界。对此,先构造一个具有PN结构的辅助问题 墵,其信息
由原结构的Zi根据j劏i的每一个Zj扩充而成。对所有的i均作同样处理,变成
嵌套于
之中,从而可将墵转换为静队问题来解。解出
即可决定Zi。由于给决策者增加一些信息并不会使最优化变坏,故由墵求得的最优
目标值愭不会大于原问题的最优目标值J。设问题存在线性最优解,就比原最优解有更多的限制,故求出的最优目标值
必不会小于J。综合得愭≤J≤
。
研究动队问题的另一途径是将一个复杂的动队问题分解为若干较易求解的简单的子问题。将全体决策者集合分为互不重叠的子集,把总目标函数分成若干子目标函数,并使总目标函数等于各子目标函数之和。若任何两个子集之间不存在先后关系,则各子问题最优解的集合就是原问题的最优解。若某些子集的信息嵌套于另一些子集的信息之中,情况便较复杂,但应用PN结构概念,也可分解为互有关联的子问题,原问题的最优解也可通过子问题的最优解来表示。
队决策理论与分散控制理论有密切关系。分散控制在信息结构上与队决策相似。在这个意义下,分散控制可视为队决策的特定情况。但队论并不研究系统稳定性、极点配置、能控性、能观测性等系统理论的重要问题。