偏态分布
统计学概念
偏态分布是与“正态分布”相对,分布曲线左右不对称的数据次数分布,是连续随机变量概率分布的一种。可以通过峰度和偏度的计算,衡量偏态的程度。可分为正偏态和负偏态,前者曲线右侧偏长,左侧偏短;后者曲线左侧偏长,右侧偏短。
定义
偏态分布(skewness distribution)指频数分布的高峰位于一侧,尾部向另一侧延伸的分布。它分为正偏态和负偏态。偏态分布的资料有时取对数后可以转化为正态分布,反映偏态分布的集中趋势往往用中位数。
种类
偏态分布分为正偏态分布和负偏态分布。
正偏态分布是相对正态分布而言的。当用累加次数曲线法检验数据是否为正态分布时,若M>Me>Mo时,即平均数大于中数,中数又大于众数,则数据的分布是属于正偏态分布。正偏态分布的特征是曲线的最高点偏向X轴的左边,位于左半部分的曲线比正态分布的曲线更陡,而右半部分的曲线比较平缓,并且其尾线比起左半部分的曲线更长,无限延伸直到接近X轴。
负偏态分布也是相对正态分布而言的。当用累加次数曲线法检验数据是否为正态分布时,若M
分组下的众数
均值大于众数时称为正偏态;当均值小于众数时称为负偏态。
在组距分组情况下,众数的计算要考虑最大频数所在组相邻组的分布,其计算公式如下:
式中,L=最大频数所在组的下限值,d=最大频数所在组的组距,=最大频数所在组的频数与上组频数之差,=最大频数所在组的频数与下组频数之差。
在组距分组条件下,中位数的计算要考虑频数的全部排序,其计算公式如下:
式中,L=频数累积到50%()所在组的下限值,d=频数累积到50%所在组的组距,Sm=频数累积到50%所在组上组的累积频数,fm=频数累积到50%所在组的频数。
偏离系数
偏态分布(skew distribution),又称歪分布,指偏离对称的变量值的频数分布,偏离程度可用偏离系数(asymmetry coefficient)表示。其公式为:
式中 代表偏度量数; 式中X 为变量值, 为样本均数,n为频数,“ ”为归并校正数,如计算过程中用组距时则须经校正,若用原始数据直接计算,可不必经“ ”的校正。若 为0,表示对称; 为正值时,曲线呈正偏态,此时曲线较长的尾部在右侧,所以也称为向右偏态;为负值时,曲线呈负偏态,此时曲线较长的尾部在左侧,所以也称为向左偏态。的绝对值越大,表示偏离越甚。检验样本偏度量数是否显著,需进行u检验。呈偏态分布的资料,有些可通过变量代换变为正态。
偏度系数反映数据分布偏移中心位置的程度,记为SK,则有
SK= (均值一中位数)/标准差.
在正态分布条件下,由于均值等于中位数,所以偏度系数等于0。当偏度系数大于0时,则为正偏态;当偏度系数小于0时,则为负偏态。
参考资料
最新修订时间:2023-11-17 21:36
目录
概述
定义
种类
参考资料