频率分布直方图
统计学术语
在直角坐标系中,横轴表示样本数据的连续可取数值,按数据的最小值和最大值把样本数据分为m组,使最大值和最小值落在开区间(a,b)内,a略小于样本数据的最小值,b略大于样本数据的最大值。组距为d=(b-a)/m,各数据组的边界范围按左闭右开区间,如[a,a+d),[a+d,a+2d),……[a+(m-1)d,b)。纵轴表示频率除以组距(落在各组样本数据的个数称为频数,频数除以样本总个数为频率)的值,以频率和组距的商为高、组距为底的矩形在直角坐标系上来表示,由此画成的统计图叫做频率分布直方图。
基本概念
各组频率之和的值为1,在频率分布直方图中表现为所有矩形的面积之和等于1。各组的平均频率密度是指组频率与组距的比值,是指该组内单位距离上的频率。以平均频率密度为纵坐标,取代频率分布直方图中的频率,所作的统计图称为平均频率密度直方图。平均频率密度直方图中所有矩形的面积之和等于1。也就是平均频率密度直方图中所有矩形的顶边与直方图两边界边及横轴围成的图形的面积等于1。当样本量不断增加而组距不断减小,每一组的平均频率密度就非常接近组中值处的频率密度,此时频率密度直方图的矩形顶边就非常接近一光滑曲线,该曲线就是频率密度函数曲线。简单来说:就是利用直方图反映样本的频率分布规律,这样的直方图称为频率分布直方图,简称频率直方图。
运用
频率分布直方图能清楚显示各组频数分布情况又易于显示各组之间频数的差别。它主要是为了将我们获取的数据直观、形象地表示出来,让我们能够更好了解数据的分布情况,因此其中组距、组数起关键作用。分组过少,数据就非常集中;分组过多,数据就非常分散,这就掩盖了分布的特征。当数据在100以内时,一般分5~12组为宜。
从频率分布直方图可以估计出的几个数据:
众数:频率分布直方图中最高矩形的底边中点的横坐标 。
算术平均数:频率分布直方图每组数值的中间值乘以频率后相加。
加权平均数:加权平均数就是所有的频率乘以数值后的和相加。
中位数:把频率分布直方图分成两个面积相等部分的平行于Y轴的直线横坐标。
画直方图的步骤
1.找出所有数据中的最大值和最小值,并算出它们的差(极差)。
2.决定组距和组数。
3.确定分点。
4.将数据以表格的形式列出来。(列出频率分布)
5.画频数分布直方图(横坐标为样本资料、纵坐标是样本频率除以组距)。
与频率分布直方图相关的一种图为折线图。我们可以在直方图的基础上来画,先取直方图各矩形上边的中点,然后在横轴上取两个频数为0的点,这两点分别与直方图左右两端的两个长方形的组中值相距一个组距,将这些点用线段依次联结起来,就得到了频数分布折线直方图。
科技期刊论文中频率分布直方图的编辑加工
在编辑工作中,经常会碰到带有频数(或频率)分布直方图(以下简称“直方图”)的稿件。由于作者提供的图自明性不好,需要编辑加工时修改补充,于是希望通过学习其他期刊对这种图的加工方法来指导自己的工作实践;因此,笔者收集了一些期刊上发表的直方图。在整理这些直方图的过程中,发现其中出现了不少条形图,而且直方图的表达形式也比较混乱,不便于读者阅读理解。为了使直方图的编辑加工有规范可循,学习了GB/T3358.1—2009《统计学词汇及符号第1部分:一般统计术语与用于概率的术语》中的有关内容,指出了科技期刊论文中频数(或频率)分布直方图表现形式存在的问题,给出了解决办法,并用实例作了具体说明。
直方图和条形图比较
GB/T3358.1—2009对“直方图”的定义是:频数分布的一种图形表示,由一些相邻的长方形组成,每个长方形的底宽等于组距,面积与组的频数成比例。对“条形图”的定义是:由一组宽度相同、高度与频数成比例的长方形组成的,表示名义特性频数分布的图形(注:条形图中的长方形并不需要相邻)。
根据GB/T3358.1—2009的定义的内容,对直方图与条形图进行了对比,结果如下:
1)直方图横轴上的数据是连续的,是一个范围。条形图横轴上的数据是孤立的,是具体的数据。
2)直方图用长方形的面积表示频数,长方形的面积越大,表示这组数据的频数越大;只有当长方形的底宽都相等即组距相等时,才可以用长方形的高表示频数的大小。条形图用条形的高度表示频数的大小。
3)直方图中各长方形对应的是一个范围,由于每2个相邻范围之间不重叠、不遗漏,因此直方图中的长方形之间没有空隙;而条形图中各个数据之间是相对独立的,各个条形之间是有空隙的,并不需要相邻。
直方图表达形式存在的问题
通过对收集的科技期刊论文中的频数(或频率)分布直方图进行分析,发现它们主要存在以下问题。
1)将直方图画成了条形图。
2)直方图横轴的坐标标值线不能明确地界定分组区间,有的分组区间不是半开区间。
3)直方图纵轴坐标的名称(即标目)形式多样,如分布频率/%,频率/%,频率,频数,频数/%,频数/个,样品/个,样品数/块,样品数(个),百分比/%,百分数(%),含量(%),数量(%),油气单元(个数)。频率与频数用法混乱,如该用“频数”的用成了“频率”,该用“频率”的用成了“频数”。
4)图题笼统,如“……均一化温度直方图”“……孔隙度-渗透率频率直方图”“……储集层物性分布直方图”“……孔隙度频数分布”“……包裹体测温统计图”“……孔隙度渗透率统计直方图”“沙山迎风坡不同粒级含量”“……油气水平运移距离统计”“……有机碳分布直方图”“……碳同位素对比”“……同位素分布直方图”“……孔隙类型特征”。
规范化编辑加工方法
1)横轴坐标
直方图横轴坐标反映考察对象的类别,从横轴坐标的名称(即标目)可以了解统计的是考察对象的定性特征还是定量特征,如果统计的是定量特征还需给出对应的量和单位。
如果统计的是定性特征,那么要求横轴坐标的标值线应能清楚地反映统计对象的分组情况:分组的组数(把全体样本分成的组的数量称为组数),每个分组的特征名称。
如果统计的是定量特征,那么要求横轴坐标的标值线应能清楚地反映统计对象的分组情况:分组的组数,每组的组距,分组区间的开闭情况(分组区间必须是半开区间,这样才能保证每个数据都能落入且只能落入某一个区间)。
2)纵轴坐标
直方图的纵轴坐标反映的是考察对象的频率与组距之比,只有当组距相同时,才可以用长方形的高即纵坐标的数值(即标值)表示频率(频数)的大小。由于科技期刊论文中的直方图多数都采用相同的组距,所以研究仅讨论等组距的情况。
纵轴坐标名称采用频数(落在不同小组中的数据数量称为该组的频数)或频率(频数与样本总数的比称为该考察对象的频率)来表示。各分组的频数之和等于这组数据的样本总数。0
如果是频率分布直方图,纵轴坐标标目采用“频率/%”,如果是频数分布直方图,则采用“频数”。
纵轴坐标标目是“频率/%”,那么∑fi=100。如果是“频数”,那么各统计对象的频数之和(∑ni=n)必须等于样本数据总数n。通过这种方法来初步判定作者给出的是频率还是频数分布直方图
3)图的形状
从对直方图的定义中知道,直方图是由相邻的长方形组成的图形。
利用Excel绘制直方图时,要先通过绘制柱形图,将各柱形图之间的分类间距设置为0后得到,具体步骤是:选中某一个数据系列,单击右键,在弹出的浮动选单中选择“数据系列格式”,单击“选项”选项卡,将“分类间距”设置为“0”,同时勾选“依据数据点分色(V)”复选框,按“确定”键后,柱形图之间的间隔即被取消,成为长方形相连的符合标准要求的直方图。
4)图题
图题应能反映考察对象的类别名称及图形的样式名称,而不是用笼统的图题表示。建议增加明确指示图形类型的“频数(或频率)分布直方图”的字样,这样可以与条形图明确区别开来,也便于读者检索。例如可将第2章4)中示例的图题改为“……均一化温度频数分布直方图”“……孔隙度、渗透率频率分布直方图”“……储集层孔隙度、渗透率频数分布直方图”“……孔隙度频率分布直方图”等。
5)其他
由于频数(或频率)分布直方图是一种统计图,所以要求图中应给出样本总数。当考察对象不止1个时,即横向指标反映的是多个对象的特征时,须用图例指明。
研究结论
对于直方图和条形图,应注意区分二者的不同。根据直方图编辑加工规范,可以要求作者按规范修改图件,补充必要的信息,然后编辑再作加工。如此得到的图具有自明性,方便读者阅读理解。
最新修订时间:2022-08-25 18:44
目录
概述
基本概念
运用
参考资料