在
统计学中,过拟合(英语:overfitting,或称过度拟合)
现象是指在拟合一个
统计模型时,使用过多
参数。
对比于可获取的数据总量来说,一个荒谬的模型只要足够复杂,是可以完美地适应数据。过拟合一般可以视为违反
奥卡姆剃刀原则。
当可选择的参数的自由度超过数据所包含信息内容时,这会导致最后(拟合后)模型使用任意的参数,这会减少或破坏模型一般化的能力更甚于适应数据。过拟合的可能性不只取决于参数个数和数据,也跟模型架构与数据的一致性有关。此外对比于数据中预期的噪声或错误数量,跟模型错误的数量也有关。
过拟合现象的观念对
机器学习也是很重要的。通常一个学习
算法是借由训练示例来训练的。亦即预期结果的示例是可知的。而学习者则被认为须达到可以预测出其它示例的正确的结果,因此,应适用于一般化的情况而非只是训练时所使用的现有数据(根据它的
归纳偏向)。然而,学习者却会去适应训练数据中太特化但又随机的特征,特别是在当学习过程太久或示例太少时。在过拟合的过程中,当预测训练示例结果的表现增加时,应用在未知数据的表现则变更差。
在统计和机器学习中,为了避免过拟合现象,须要使用额外的技巧(如
交叉验证、提早停止、贝斯信息量准则、
赤池信息量准则或模型比较),以指出何时会有更多训练而没有导致更好的一般化。人工神经网上的过拟合过程亦被认知为过度训练(英语:overtraining)。在treatmeant learning中,使用最小最佳支持值(英语:minimum best support value)来避免过拟合。
相对于过拟合是指,使用过多参数,以致太适应数据而非一般情况,另一种常见的现象是使用太少参数,以致于不适应数据,这则称为乏适(英语:underfitting,或称:拟合不足)现象。