在贝叶斯
统计学中,“最大后验概率估计”是
后验概率分布的
众数。利用最大后验概率估计可以获得对实验数据中无法直接观察到的量的
点估计。它与
最大似然估计中的经典方法有密切关系,但是它使用了一个增广的优化目标,进一步考虑了被估计量的
先验概率分布。所以最大后验概率估计可以看作是规则化(regularization)的最大似然估计。
假设存在一个先验分布 ,这就允许我们将作为贝叶斯统计(en:Bayesian statistics)中的
随机变量,这样的后验分布就是:
最大后验估计方法于是估计为这个随机变量的后验分布的
众数:
后验分布的分母与无关,所以在优化过程中不起作用。注意当前验是
常数函数时最大后验估计与最大似然估计重合。
尽管最大后验估计与 Bayesian 统计共享前验分布的使用,通常并不认为它是一种 Bayesian 方法,这是因为最大后验估计是点估计,然而 Bayesian 方法的特点是使用这些分布来总结数据、得到推论。Bayesian 方法试图算出后验
均值或者
中值以及posterior interval,而不是后验模。尤其是当后验分布没有一个简单的解析形式的时候更是这样:在这种情况下,后验分布可以使用Markov chain Monte Carlo技术来模拟,但是找到它的模的优化是很困难或者是不可能的。
2、通过数值优化,如
共轭梯度法或牛顿法。 这通常需要一阶或二阶导数,必须通过分析或数值方法进行评估。
虽然MAP估计只需要温和的条件就是贝叶斯估计的一个极限情况(在0-1损失函数下),但它一般不能很好地代表贝叶斯方法。 这是因为MAP估计是点估计,而贝叶斯方法的特征在于使用分布来总结数据和绘制推论:因此,贝叶斯方法倾向于报告后验均值或中值,以及可信区间。 这是因为这些估计量分别在平方误差和线性误差损失下是最优的 - 这更能代表典型的损失函数 - 并且因为后验分布可能没有简单的分析形式:在这种情况下,可以模拟分布 使用马尔可夫链蒙特卡罗技术,而优化以找到其模式可能是困难的或不可能的。
在许多类型的模型中,例如混合模型,后部可以是多模态的。在这种情况下,通常的建议是应该选择最高模式:这并不总是可行的(全局优化是一个难题),在某些情况下甚至不可能(例如在出现可识别性问题时)。此外,最高模式可能是大多数后验的不典型。
最后,与ML估计器不同,MAP估计在重新参数化下不是不变的。从一个参数化切换到另一个参数化涉及引入影响最大值位置的
雅可比行列式。
作为上述贝叶斯估计量(均值和中位数估计量)与使用MAP估计值之间差异的一个例子,考虑需要将输入x分类为正或负的情况(例如,贷款有风险或安全) 。假设关于正确的分类方法h1,h2和h3只有三种可能的假设,后验分别为0.4,0.3和0.3。假设给定一个新实例,x,h1将其分类为正数,而另外两个将其分类为负数。使用对正确分类器h1的MAP估计,x被分类为正,而贝叶斯估计器将对所有假设求平均并将x分类为负。