在一个
统计推断问题中,如果总体分布的具体形式已知(最常见的是假定为
正态分布),则我们只需对其中含有的若干个未知参数作出估计或进行某种形式的假设检验,这类推断方法称为参数方法。但在许多实际问题中,我们对总体分布的形式往往所知甚少(如只能作出诸如
连续型分布、关于均值对称等微弱的假定),甚至一无所知。这时就需要使用不必(或很少)依赖于总体分布形式的统计推断方法,此类推断方法通常称为非参数方法(non-parametric method)。
定义
在假设检验中,如果检验统计量是不依赖于总体的分布或参数(粗略地说,就是
检验统计量中不包含总体的参数或总体参数的
估计值)的,则这种检验方法就称为非参数方法或非参数检验。与此对应的假设检验方法就可称为参数方法或参数检验。
非参数方法应用范围广,计算简便,适合处理小样本资料。但是,非参数方法与参数方法相比,灵敏性和精确度较差。非参数方法发展迅速,新的方法不断出现,这里只介绍几种简单常用的方法,旨在使读者对非参数方法有个概括的了解。
克鲁斯卡尔一沃利斯单向方差秩检验
克鲁斯卡尔一沃利斯单向方差秩检验的应用很广泛,它只要求样本是独立的,即使总体不服从正态分布或方差不等,仍可运用于多个总体是否相同的假设检验。该方法采用的是秩而不是原始观察数据,将各个样本的数据合在一起,并按从小到大的顺序排列起来,每个数据的序号就是它的秩。检验的一般步骤如下:
(1) 先将各样本的观察值按大小顺序排列,找出它们相应的秩,最小观察值的秩定为1,最大观察值的秩为n,这里n为各样本容量的总和。
(2) 耦合中的每一个观察值用彼此耦合的各观察值的平均秩来代替。例如,有三个观察值相同,相应的
秩应该为4,5,6,在这场合下,我们用秩的平均数5(即 )分别作为这三个观察值的秩。
(3) 计算如下统计量
式中 ——样本数;
——第j个样本中观察值的数目;
——第j个样本中的秩和。
(4) 如果H很大,我们就倾向于怀疑原假设:“ 个样本来自同分布的总体。”当观察值只有3组,而且每组中观察值的数目不多于5个时,可以利用“克一沃”
检验统计量的临界值表确定统计量H的显著性。
(5) 当k>3或 >5时,(1)式的统计量近似于服从自由度为(k一1)的 分布,因此,这时可将H计算值同给定的显著水平下自由度为(k一1)的 表中的数值相比较。
游程检验
游程的概念
游程检验可以用来检验一个样本是否具有随机性,也可用来检验两个总体是否具有相同的分布。
例如,有下列一组人员前来申请参加某项工作的训练,其次序按照男女性别排列。第一组前来申请的男女次序如下(序列一):
女女女女 男男男男 女女女女 男男男男
以上样本中男女申请者的总人数虽然是相同的,但其出现的次序并非随机的。如果是随机出现,男性出现与女性出现应该互相掺合,不可能按照某种规则排列,所以并非是随机样本。
假如前来申请的人员中.其男女次序如下列所示(序列二):
女男女男女男女男女男女男女男女男
很显然,这个样本也是非随机的。
游程是指一个样本中每个连续出现的某观察值的区段,每个区段包含的样本观察值的个数称为游程长度。例如,以上序列一中有4个游程,长度分别为4,其中女性为2个游程,其长度分别为4,4;男性为2个游程,其长度也分别为4,4。
通常用 表示序列中第一种类型出现的次数; 表示序列中第二种类型出现的次数; 表示游程的个数。
上例序列一中, 。
上例序列二中, 。
游程检验又称连贯性检验,应用很广泛,在生产、销售、财务,以及质量控制问题中均可应用。例如,在生产过程中,技术人员想要了解在产品生产线上是否有系列的次品出现,如采用游程检验只要随机抽取少量的产品样本进行检验就可分析产品质量。如有系统性而非偶然性的因素导致质量变动,即可及时采取措施加以预防,因而可以大大地节省费用,提高产品质量。
游程检验方法
现举例说明一个样本是否具有随机性的游程检验方法。
对于大样本来说(样本容量 和 均大于20),游程个数 的分布近似于正态分布,其平均数和标准差分别为:
则可以按照正态分布来进行检验,用下列公式计算Z值。
然后,设定显著性水平 ,将计算出的Z值同
标准正态分布的临界值加以比较。若Z值大于等于上述临界值,则不能接受原假设。若Z值介于正负临界值之间,则接受原假设。
斯皮尔曼等级相关系数
斯皮尔曼等级相关系数,用 表示,顾名思义,应以等级所构成的数据算出。利用斯皮尔曼等级相关系数,可以检验:
(1) 和 相互独立。
和 不相互独立。
(2) 与 相互独立。
的大值倾向于同 的大值相配对,即 与 存在正相关。
(3) 和 相互独立。
的大值倾向于同 的小值相配对,即 与 存在负相关。
第一种假设是双边检验,后两种假设为单边检验。检验步骤如下:
(1) 抽取由等级构成的数据。如原始数据的形式不是等级数据,那就要按大小排成等级。
(2) 待分析数据由容量为n的双变量随机样本组成。其中一个变量用X表示,设其等级为 (X的最小观察值), (X的最大观察值)。另一个变量用Y表示,设其观察值按由小到大的顺序排成的等级为: ,每一组 代表相应一对变量。
(3) 如两种等级完全正相关,则对所有的 ,应有 ;如两种等级完全负相关,则对所有的 ,应有 。
(4) 计算差距 ,表示这些配对等级对完全正相关或完全负相关的偏离程度的量度。
(5) 计算统计量
(6) 统计判断。可以证明,统计量 的取值范围在-1到+1之间。如 与 完全正相关,则 ;如 与 完全负相关,则 。当两个等级的相关程度弱于完全相关时, 将处于+1与一1之间。检验 显著性的方法与样本容量有关。如n≤30,可查斯皮尔曼检验统计量的临界值表,该表载有与每种 值相对应的 的临界值。如n>30,则可计算统计量
然后将它同给定的
显著性水平 下
标准正态分布的相应的临界值相比较,以确定其显著性。