数据分组
根据统计研究的需要、将原始数据按照某种标准划分成不同的组别
数据分组是根据统计研究的需要,将原始数据按照某种标准划分成不同的组别,分组后的的数据称为分组数据。数据分组的方法有单变量值分组和组距分组两种。数据分组的主要目的是观察数据的分布特征,在进行数据分组后再计算出各组中数据出现的频数,就形成了一张频数分布表
简介
对于通过调查得到的数据,虽然经过审核、排序等整理手段给予了处理,但由于数据庞杂,还不能直接进入对数据的分析阶段。在此之前,有必要对数据进行分组处理,以反映数据分布的特征及规律。从一定意义上说,数据整理的中心任务就是分组和编制频数分布。
数据分组是根据统计研究的需要,将原始数据按照某种标准划分成不同的组别,分组后的数据称为分组数据。数据分组的主要目的是观察数据的分布特征。数据分组后再计算出各组中数据出现的的频数,就形成了一张频数分布表
对于非数值型数据就是依据属性的不同将其划分为若干组,对于数值型数据就是依据数值的不同将数据划分为若干组。分组后,要使组内的差距尽可能小,而组与组之间则有明显的差异,从而使大量无序、混沌的数据变为有序、层次分明、显示总体数量特征的资料。因为,任何总体内部单位之间都是既有共性,又存在着差异性,分组便是以这些共性与差异性的对立统一为基础的最基本的整理方法,它对于自然科学和社会科学的研究都是必不可少的。
在社会经济统计研究中,数据分组的作用在于:划分现象的类型、研究总体的结构与现象之间的依存关系。
分组原则
数据分组应遵循两个基本原则:
穷尽性原则
这一原则就是要求调查的每一单位都能无一例外地划归到某一组去,不会产生“遗漏”现象。
互斥性原则
这一原则就是要求将调查单位分组后,各个组的范围应该互不相容、互为排斥。即每个调查单位在特定的分组标志下只能归属某一组,而不能同时或可能同时归属到几个组。
分组标志
在选择分组标志时,主要有以下三个依据:
1.根据研究目的选择分组标志
同一现象由于研究目的不同,选择的分组标志也就不同,应选择与研究目的有密切关系的标志作为分组标志,才能使统计分组提供符合要求的分组资料。例如,要研究工业企业经济类型的构成,就要选择所有制这个标志。
2.选择能够反映现象本质的标志
客观现象的标志多种多样,有的标志能够揭示现象的本质特征,具有决定意义的重要标志;有的则是非本质、无关紧要的标志。只有选择那些能够揭示现象本质特征的重要标志作为分组标志,才能得到反映现象本质特征的分组资料。
3.考虑现象所处的历史条件或经济条件
社会经济现象随时间、地点、条件的不同而经常发生变化。同一分组标志在某一时期适用,在另一时期就不一定适用,在另一条件下就不一定适用。某一标志在一定历史条件下是重要的分组标志,但时过境迁,可能失去其重要意义。因此,在选择分组标志时,应考虑到现象所处的具体历史条件或经济条件,做到与时俱进。
分组方法
数据分组的方法有单变量值分组和组距分组两种。
单变量值分组
单变量值分组是把一个变量值作为一组,这种分组通常值适合离散变量,而且在变量值较少的情况使用。
组距分组
在连续变量或变量值较多的情况下,通常采用组距分组。它是将全部变量值依次划分为若干区间,并将这一区间的变量值作为一组。在组距分组中,一个组的最小值称为下限;一个组的最大值称为上限。
具体的分组步骤如下:
第1步:确定组数。一组数据分多少组合适呢?一般与数据本身的特点及数据的多少有关。由于分组的目的之一是观察数据分布的特征,因此组数的多少应适中。如果组数太少,数据的分布就会过于集中,组数太多,数据分布就会过于分散,这都不便于观察数据分布的特征和规律。组数的确定应以能够显示数据的分布特征和规律为目的。一般情况下,一组数据所分的组数应不少于5组且不多于15组。实际应用时,可根据数据的多少和特点及分析要求来确定组数。
第2步:确定各组的组距。组距是一个组的上限与下限的差。组距可根据全部数据的最大值和最小值及所分的组数来确定,及组距=(最大值-最小值)/组数。
第3步:根据分组整理成频数分布表。
数据分组体系
有时为了从不同侧面反映总体的特征,就必须运用几个标志对总体进行分组,以形成一个完整的体系,这就是数据分组体系。数据分组体系有两种不同的形式:
平行分组体系
将数据按照一个标志进行分组,就称为简单分组。将一个总体的几个简单分组按照某一规则排列起来就构成了一个平行分组体系。例如,分别按性别、专业、年级对大学生进行分组,这些简单分组排列起来,就是平行分组体系。
复合分组体系
将数据同时按两个或两个以上的标志层叠起来分组,就称为复合分组。由复合分组形成的分组系列就称为复合分组体系。例如,对工业企业先按所有制分组,在此基础上,再按规模进行复合分组,就形成一个复合分组体系。
参考资料
最新修订时间:2023-12-23 18:22
目录
概述
简介
参考资料