四分位数
统计学术语
四分位数(Quartile)也称四分位点,是指在统计学中把所有数值由小到大排列并分成四等份,处于三个分割点位置的数值。多应用于统计学中的箱线图绘制。它是一组数据排序后处于25%和75%位置上的值。四分位数是通过3个点将全部数据等分为4部分,其中每部分包含25%的数据。很显然,中间的四分位数就是中位数,因此通常所说的四分位数是指处在25%位置上的数值(称为下四分位数)和处在75%位置上的数值(称为上四分位数)。与中位数的计算方法类似,根据未分组数据计算四分位数时,首先对数据进行排序,然后确定四分位数所在的位置,该位置上的数值就是四分位数。与中位数不同的是,四分位数位置的确定方法有几种,每种方法得到的结果会有一定差异,但差异不会很大。
概念
分位数是将总体的全部数据按大小顺序排列后,处于各等分位置的变量值。如果将全部数据分成相等的两部分,它就是中位数;如果分成四等分,就是四分位数;八等分就是八分位数等。四分位数也称为四分位点,它是将全部数据分成相等的四部分,其中每部分包括25%的数据,处在各分位点的数值就是四分位数。四分位数有三个,第一个四分位数就是通常所说的四分位数,称为下四分位数,第二个四分位数就是中位数,第三个四分位数称为上四分位数,分别用Q1、Q2、Q3表示。
第一四分位数 (Q1),又称“较小四分位数”,等于该样本中所有数值由小到大排列后第25%的数字。
第二四分位数 (Q2),又称“中位数”,等于该样本中所有数值由小到大排列后第50%的数字。
第三四分位数 (Q3),又称“较大四分位数”,等于该样本中所有数值由小到大排列后第75%的数字。
第三四分位数与第一四分位数的差距又称四分位距(InterQuartile Range,IQR)。
示例
首先确定四分位数的位置:
Q1的位置= (n+1) × 0.25
Q2的位置= (n+1) × 0.5
Q3的位置= (n+1) × 0.75
n表示项数。
在上例中(n+1)恰好是4的整数倍,但在很多 实际工作中不一定都是整数倍。这样四分位数的位置就带有小数,需要进一步研究。带有小数的位置与位置前后标志值有一定的关系:四分位数是与该小数相邻的两个整数位置上的标志值的平均数,权数的大小取决于两个整数位置的远近,距离越近,权数越大,距离越远,权数越小,权数之和应等于1。
对于四分位数的确定,有不同的方法,另外一种方法基于N-1 基础。即
Q1的位置=1+(n-1)x 0.25
Q2的位置=1+(n-1)x 0.5
Q3的位置=1+(n-1)x 0.75
Excel 中有两个四分位数的函数。QUARTILE.EXC 和QUARTILE.INC
QUARTILE.EXC 基于 N+1 的方法,QUARTILE.INC基于N-1的方法。
引证:1.minitab软件自带“公式与方法”(methods and formulas)内,关于第一四分位数的原文如下:
1st quartile (Q1)
Twenty-five percent of your sample observations are less than or equal to the value of the first quartile. Therefore, the first quartile is also referred to as the 25th percentile. Q1 is calculated as follows:
let
w = (N+1)/4
y = the truncated integer value of w
z = the fraction component of w that was truncated away
Q1 = x(y) + z(x(y+1) - x(y))
Note: when w is an integer, y = w, z = 0, and Q1 = x(y)
关于第三四分位数的原文如下:
3rd quartile (Q3)
Seventy-five percent of your sample observations are less than or equal to the value of the third quartile. Therefore, the third quartile is also referred to as the 75th percentile. Q3 is calculated as follows:
let
w = 3(N+1)/4
y = the truncated integer value of w
z = the fraction component of w that was truncated away
Q3 = x(y) + z(x(y+1) - x(y))
Note: when w is an integer, y = w, z = 0, and Q3 = x(y)
以上引文中,w代表分位数位置,y代表位置的整数部分,z代表位置的分数部分。
2. 论四分位数的计算 (湖南工学院工商管理系 祁德军 南华大学数理学院 陈明)
(原文截图)
实例1
数据总量: 6, 47, 49, 15, 42, 41, 7, 39, 43, 40, 36
由小到大排列的结果: 6, 7, 15, 36, 39, 40, 41, 42, 43, 47, 49
一共11项
Q1 的位置=(11+1) × 0.25=3, Q2 的位置=(11+1)× 0.5=6, Q3的位置=(11+1) × 0.75=9
Q1 = 15,
Q2 = 40,
Q3 = 43
实例2
例如,设有一组经过排序的数据为:12,15,17,19,20,23,25,28,30,33,34,35,36,37
则:Q1表示下四分位数所在的位置=(14+1)/4=3.75
Q2表示中位数所在的位置=2*(14+1)/4=7.5
Q3表示上四分位数所在的位置=3*(14+1)/4=11.25
变量中的第3.75项、第7.5项和第11.25项分别为下四分位数、中位数和上四分位数。即:
Q1=0.25*第三项+0.75*第四项=0.25*17+0.75*19=18.5
Q2=0.5*第七项+0.5*第八项=0.5*25+0.5*28=26.5
Q3=0.75*第十一项+0.25*第十二项=0.75*34+0.25*35=34.25
应用
不论Q1,Q2,Q3的变异量数数值为何,均视为一个分界点,以此将总数分成四个相等部份,可以通过Q1,Q3比较,分析其数据变量的趋势。
四分位数在统计学中的箱线图绘制方面应用也很广泛。所谓箱线图就是 由一组数据5 个特征绘制的一个箱子和两条线段的图形,这种直观的箱线图不仅能反映出一组数据的分布特征,而且还可以进行多组数据的分析比较。这五个特征值,即数据的最大值、最小值、中位数和两个四分位数。即:
相关算法
将n个数从小到大排列:
Q2为n个数组成的数列的中数(Median);
当n为奇数时,中数Q2将该数列分为数量相等的两组数,每组有 (n-1)/2 个数,Q1为第一组 (n-1)/2 个数的中数,Q3为为第二组(n-1)/2个数的中数;
当n为偶数时,中数Q2将该数列分为数量相等的两组数,每组有n/2数,Q1为第一组 n/2个数的中数,Q3为为第二组 n/2 个数的中数。
最新修订时间:2024-10-28 16:25
目录
概述
概念
参考资料