在统计学中,
线性回归是利用称为
线性回归方程的最小二乘函数对一个或多个
自变量和
因变量之间关系进行建模的一种
回归分析。这种函数是一个或多个称为
回归系数的
模型参数的
线性组合。一个带有一个自变量的线性回归方程代表一条直线。我们需要对线性回归结果进行
统计分析。
给定一个
随机样本,一个
线性回归模型假设回归子Yi和回归量之间的关系可能是不完美的。我们加入一个
误差项(也是一个
随机变量)来捕获除了之外任何对Yi的影响。所以一个多变量线性回归模型表示为以下的形式:
其他的模型可能被认定成
非线性模型。一个线性回归模型不需要是
自变量的
线性函数。线性在这里表示Yi的
条件均值在参数β里是线性的。例如:模型在β1和β2里是线性的,但在里是非线性的,它是Xi的
非线性函数。
区分随机变量和这些变量的
观测值是很重要的。通常来说,观测值或数据(以
小写字母表记)包括了n个值 .我们有p + 1个参数需要决定,为了估计这些参数,使用矩阵表记是很有用的。其中Y是一个包括了观测值的
列向量,包括了未观测的随机成份以及回归量的观测值矩阵X:X通常包括一个
常数项。如果X列之间存在
线性相关,那么参数向量β就不能以
最小二乘法估计除非β被限制,比如要求它的一些元素之和为0。
样本是在总体之中随机抽取出来的。
因变量在
实直线上是连续的,
残差项是
独立同分布的,也就是说,残差是i.i.d.且服从
高斯分布。这些假设意味着残差项不依赖
自变量的值,所以和自变量(预测变量)之间是
相互独立的。在这些假设下,建立一个显示线性回归作为条件预期模型的简单线性回归。
回归分析的最初目的是估计模型的参数以便达到对数据的最佳拟合。在决定一个
最佳拟合的不同标准之中,
最小二乘法是非常优越的。