在概率论和统计学中,t-分布(t-distribution)用于根据小样本来估计呈正态分布且方差未知的总体的
均值。如果总体方差已知或者在样本数量足够多时,则应该用正态分布来估计总体均值。
历史
在
概率论和统计学中,学生t-分布(Student's t-distribution)经常应用在对呈
正态分布的总体的
均值进行估计。它是对两个
样本均值差异进行
显著性测试的学生t测定的基础。t检定改进了Z检定(en:Z-test),不论样本数量大或小皆可应用。在样本数量大(超过30)时,可以应用Z检定,但Z检定用在小的样本会产生很大的误差,因此样本很小的情况下得改用学生t检定。在数据有三组以上时,因为误差无法压低,此时可以用
变异数分析代替学生t检定。
当母群体的
标准差是未知的但却又需要估计时,可以使用学生t-分布。
学生t-分布可简称为t分布。其推导由
威廉·戈塞于1908年首先发表,当时他还在都柏林的健力士酿酒厂工作。因为不能以他本人的名义发表,所以论文使用了学生(Student)这一笔名。之后t检验以及相关理论经由
罗纳德·费雪的工作发扬光大,而正是他将此分布称为学生分布。
定义
由于在实际工作中,往往σ是未知的,常用s作为σ的估计值,为了与u变换区别,称为t变换,统计量t 值的分布称为t分布。
假设X服从标准正态分布N(0,1),Y服从分布,那么的分布称为自由度为n的t分布,记为。
分布密度函数 ,
其中,Gam(x)为伽马函数。
扩展
正态分布(normal distribution)是数理统计中的一种重要的理论分布,是许多
统计方法的理论基础。正态分布有两个参数,μ和σ,决定了正态分布的位置和形态。为了应用方便,常将一般的正态变量X通过u变换[(X-μ)/σ]转化成标准正态变量u,以使原来各种形态的正态分布都转换为μ=0,σ=1的
标准正态分布(standard normal distribution),亦称u分布。
根据
中心极限定理,通过上述的抽样模拟试验表明,在正态分布总体中以固定n,抽取若干个样本时,样本均数的分布仍服从正态分布,即N(μ, )。所以,对样本均数的分布进行u变换,也可变换为标准正态分布N (0,1)。
特征
1.以0为中心,左右对称的单峰分布;
2.t分布是一簇曲线,其形态变化与n(确切地说与
自由度df)大小有关。自由度df越小,t分布曲线越低平;自由度df越大,t分布曲线越接近标准正态分布(u分布)曲线,如图:
t(n)分布与标准正态N(0,1)的密度函数。
3.随着自由度逐渐增大,t分布逐渐接近标准正态分布。
对应于每一个自由度df,就有一条t分布曲线,每条曲线都有其曲线下统计量t的分布规律,计算较复杂。
学生的t分布(或也t分布) ,在概率统计中,在置信区间估计、显著性检验等问题的计算中发挥重要作用。
t分布情况出现时(如在几乎所有实际的统计工作)的总体标准偏差是未知的,并要从数据估算。教科书问题的处理
标准偏差,因为如果它被称为是两类:
( 1 )那些在该样本规模是如此之大的一个可处理的数据为基础估计的差异,就好像它是一定的;
( 2 )这些说明
数学推理,在其中的问题,估计标准偏差是暂时忽略的,因为这不是一点,这是作者或导师当时的解释。
置信区间
假设数量A在当T呈t-分布(T的
自由度为n−1)满足这与是相同的。A是这个
概率分布的第95个百分点。
那么
等价于
计算
下表列出了自由度为1-30以及80、100、120等t-分布的单侧和双侧区间值。例如,当样本数量n=5时,则自由度df=4,可以查找表中以4开头的行。该行第5列值为2.132,对应的单侧值为95%(双侧值为90%)。这也就是说,T小于2.132的概率为95%(即单侧),记为Pr(−∞ < T < 2.132) = 0.95;同时,T值介于-2.132和2.132之间的概率为90%(即双侧),记为Pr(−2.132 < T < 2.132) = 0.9。
这是根据分布的对称性计算得到的。
因此,
注意 关于表格的最后一行的值:自由度为无限大(n=120)的t-分布和正态分布等价。