组距式变量数列简称组距数列,是指在
变量数列中的每一个组,并不是由一个变量值来表示,而是由表明一定变动范围或表示一定距离的两个变量值所形成的数列。组距式变量数列又可分为:等距式数列与不等距式数列;开口式数列与封闭式数列等。组距数列中,每个组都有两个端点,这两个端点称为
组限。数值小的端点称为组的下限,数值大的端点称为组的上限。若一组内有上限缺下限,或有下限缺上限称为开口组;若一组内的上限、下限都齐全称为闭口组。组距数列掩盖了组内各单位的实际变量值,通常用组中值近似地代替每组变量值的一般水平。
组中值并不是各组标志值的
平均数,各组标志数的平均数在
统计分组后很难计算出来,就常以组中值近似代替。组中值仅存在于
组距数列式分组数列中,
单项式分组中不存在组中值。
组距数列是按变量的一段区间来分组的,分布在各组的实际变量值已被变量值变动的范围所取代,因此,在统计分析时,往往用组中值来反映各组实际变量值的一般水平,即用各组变量值平均水平的数值来代表。
其假定条件是:只有当变量值在各组内成均匀分布或在组距中点值两侧呈
对称分布时,组中值代表组内变量值的一般水平才具有较高代表性。
在进行
组距式分组时,组距两端的数值称为
组限。其中,每组的起点值称为下限。连续型变量中,上一组的上限同时也是下一组的下限。在分组时,凡遇到单位的标志值刚好等于相邻两组上下限数值时,一般把此值归并到作为下限的那一组。
对于第一组是 “多少以下”,最后一组 “多少以上”的开口组,组中值的计算可参照邻组的组距来决定。即:缺下限开口组组中值=上限—1/2邻组组距,缺上限开口组组中值=下限+1/2邻组组距。
例如,可以根据人口成长的生理和心理特点将人群分为婴幼儿组(0-6岁)、少年组(7-17岁)、中青年组(18-59)岁、老年组(60岁以上)等。
组距分组掩盖了各组内间的数据分布状况,为反映各组数据的一般水平,我们通常用组中值来作为该组数据的一个代表值(class midpoint)。上限与下限之间的中点数值称为组中值,它是各组上下限数值的简单平均,即组中值=(下限+上限)/2。
使用组中值代表一组数据时有一个必要的假定条件,即各组数据在本组内呈现均匀分布或在组中值两侧呈对称分布。如果实际数据的分布不符合这一假定,用组中值作为一组数据的代表就会有一定的误差。
在计算
加权算术平均数时,当频数直方图或
频数分布表的数据不是一个具体的值而是一个范围的时候,求
加权平均数时,统计中常用各组的组中值代表各组的实际数据,把各组频数看作相应组中值的权。
示例:为了绿化环境,柳荫街引进一批
法国梧桐,三年后这些树的树干的周长情况如图1所示,计算(可以使用计算器)这批法国梧桐树干的平均周长(精确到0.1cm)。