生物统计(shengwu tongji,biostatistics,biometry,biometrics)含义 应用于中的数理统计方法。即用
数理统计的原理和方法,分析和解释
生物界的种种现象和数据资料,以求把握其本质和规律性。最早提出生物统计思想的是比利时数学家L.A.J.凯特莱,他试图把统计学的理论应用于解决生物学、医学和社会学中的问题。
发展简况
1866年,揭示了遗传的基本规律,这是最早运用
数理统计于生物实验的一个成功的范例(见)。1889年,在《自然的遗传》一书中,通过对人体身高的研究指出,
子代的身高不仅与亲代的身高相关,而且有向
平均值“回归”的趋势,由此提出了“回归”和“相关”的概念和算法,从而奠定了生物统计的基础。
高尔顿的学生K.皮尔逊进一步把统计学应用于生物研究,提出了实际测定数与理论预期数之间的
偏离度指数即卡
方差()的概念和算法,这在属性的统计分析上起了重要作用。1899年,他创办了《生物统计》杂志,还建立了一所
数理统计学校。他的学生W.S.
戈塞特对样本
标准差作了许多研究,并于1908年以“Student”的笔名将t-检验法发表于《生物统计》杂志上。此后,t-检验法就成了生物统计学中的基本工具之一。英国数学家指出,只注意事后的数据分析是不够的,事先必须作好实验设计。他使实验设计成了生物统计的一个分支。他的学生G.W.斯奈迪格把变异来源不同的均方比值称为
F值,并指出当值大于理论上 5%概率水准的值时,该项变异来源的必然性效应就从
偶然性变量中分析出来了,这就是“
方差分析法”。上述这些方法对于农业科学、生物学特别是的研究,起了重大的推动作用,20世纪20年代以来,各种数理统计方法陆续创立,它们在实验室、田间、饲养和临床实验中得到广泛应用并日益扩大到整个工业界。70年代,随着计算机的普及,使本来由于计算量过大而不得不放弃的
统计方法又获得了新的生命力,应用更为广泛,并在现代科技中占有十分重要的地位。
参数
一个观测对象(如一个7岁男孩)的某些性状(如身高等)的量度结果,称为一个个体。来源相同的各个个体(如各个 7岁男孩的身高值)之间的差异称为个体变异。总体是通过统计所欲了解的对象,其中的个体可以是有限的也可以是无限的。观测数据可以是计数的(离散的)(如单位面积中的昆虫数),也可以是计量的(如身高、体重、血压、
肺活量等)。总体最基本的参数有两类:表示水平的称为位置参数或型值,如
平均数、
中位数、率等;反映个体差异大小的称为
分散度参数,如
标准差、
极差等。
总体参数是一个客观存在但通常却又是未知的常数。只能用样本去估计它。这样做自然会有误差。
样本平均数,即
[1432-01]其中表示第 个个体的
观测值;为样本中的个体数,称为样本大小;∑为
求和号,∑表示的合计凡是从样本计算出来的数值都称为
统计量,它是对相应的总体值的一种估计例如是总体
均数的一种估计。若总体均数正好等于,则称为 的
无偏估计,意谓用估计虽有误差但平均来说是无偏的。此时又称 为 的期望,记作[1432-02]。
抽样
为了估计总体的参数(如均数、率、标准差等)而从其中抽出一部分个体组成供分析的样本称为抽样。
抽样方法应能防止主、客观因素造成偏性(即
系统误差),保证样本对总体的代表性。
简单随机抽样是以抽签或相当于抽签的方式从总体中抽取个体组成样本。其要点是:总体中每个个体被抽中的机会必须均等。系统抽样是将总体划分为时间或
空间顺序相等的个部分,再机械地取每一部分的第个个体组成样本,是一次随机抽定的。例如,欲抽查十分之一学生的成绩,可从0到9这10个整数中随机地抽定一个数,假设为3,则凡学生证号最后一个数是 3者均为被抽中的对象。
分层抽样是事先将总体分为不同的层次(如地区、年龄、性别等),再分别从各层次中按适当
比例抽样。用此法可以从层间差异较大的总体中获取代表性较好的样本。
整群抽样是以群体为单位进行抽样,凡抽中的单位就全面调查。此法便于实施,但
抽样误差较大,一般不可沿用基于
简单随机抽样的普通公式计算抽样误差。此外,还可以分阶段地、混合地使用上述方法。如两
阶段抽样、
多阶段抽样、分层整群抽样、多阶段等
概率抽样等。
用
样本统计量去估计
总体参数难免会有抽样误差,它的大小与个体变异(
标准差)的大小成正比;与样本含量的平方根成反比。表示抽样误差大小的统计指标是
标准误 [1434-01]或代以
统计量[1434-02] (7)相当于将每一个样本(设想有许多来自同一总体的样本)的均数(或率)看成为一个个体时的标准差,它反映了取自同一总体的不同样本之间的差异(7)式适用于
简单随机抽样和系统抽样。其他几种
抽样方法的算式较繁。
差异的
显著性 两个或两组数据相比,总会有或大或小的差异。问题是这种差异仅仅是
抽样误差的反映呢还是由于它们来自不同的总体?即是否存在着实质性差异?用统计学的术语来说,就是要判断数据间的差异是否“显著”。用
统计方法来推断差异的性质称为差异的
显著性检验。显著性检验的方法很多,基本步骤大体如下:先假定数据均来自同一总体,即假设要比较的数据并无实质性差异,称为
零假设;根据原始数据计算因抽样误差而出现此种程度差异的
概率;若甚小,则根据“
小概率事件实际上不大可能发生”这一原理否定零假设,认为“差异显著”,即这种差异从统计学的角度来看是有意义的;反之,若不算小,就不否定零假设,认为“差异不显著”,即不能排除
抽样误差范围内的波动。正确地运用显著性检验,可使实验或调查的结论建立在更科学、稳妥的基础之上,避免简单化和绝对化。
显著性水准
概率的大小只能相对而言,在生物学数据的差异
显著性检验中,已习惯用=0.05为小概率的上限。有时,为严格起见,也规定=0.01。称为显著性水准,它是当
零假设正确时却错误地将其否定(第Ⅰ类错误)的概率。但也不是 定得愈小愈好。倘若零假设是不对的却未能否定,它(第Ⅱ类错误)的概率将因规定得愈小而愈大。增大样本可以减小出现第Ⅰ或第Ⅱ类错误的概率。
非参数统计
大多数统计分析方法都建立在“数据服从某一分布(假设
正态分布的较多)“这一基本假定之上,通过
样本统计量来估计
总体参数,而真实情况大多并非如此。有很多数据并没有其相应的理论分布。这时,一般采用不依赖布法的统计方法进行分析,这类方法往往比较直观,而且计算简便。常见的,如基于秩次的统计推断方法,即将观测结果并不能直接用数据表示,而用反映大小或程度的等级或秩次表示(即秩转换)。例如,观测结果是“-”,“±”,“+”及“++”以上,排序后的等级便是1,2,3,4……许多很有效的无分布法就是基于数据或观测结果的大小顺序的。由于无分布法通常并不涉及数据分布的参数的估计和推断,所以称为
非参数方法,有些文献中亦称之为”不依赖分布“(Distribution free)的统计分析方法。
生存分析
许多生物现象的动态观察结果都比一次性的横断面观察更能说明问题。例如:
恶性肿瘤患者接受手术治疗的效果,要看他们术后经过一段时间的生存率,或者有必要描绘出在不同条件下的生存率曲线(以时间为
横轴,
生存率为纵轴),以便进行分析与比较;
器官移植的效果,要看异体器官在体内正常工作和不被排斥的时间等。生存分析的用途是广泛的。
多元分析
又称多指标或
多变量分析,是对多个观测指标同时进行综合性分析,所以比普通的一元统计分析更为全面、有效。这是40年代就已出现的一系列好方法。由于涉及较深的数学知识和很复杂的计算,妨碍了它们的普及,随着计算机和
统计软件包的日益完善,预料多元分析不久将会成为生物科学研究的常规武器。多重回归是指多个
自变量和一个因变量的回归;而多元回归是指不止一个因变量的回归。但二者常被混淆使用。它们可用于预测、指标的综合或自变量的筛选。判别分析是利用形如多重回归方程的判别函数来进行个体种类的判断或诊断。
聚类分析是将许多个体或指标按它们的相似程度来归类。对个体进行
聚类称为Q型聚类;对指标进行聚类称为R型聚类。Q型聚类和判别分析是
数量分类学的两种基本方法。趋势面是以地理上的经、纬度为自变量的
高次方程,可用于绘制研究对象在地理上的分布密度的
等高线图,亦可用于预测。
主成分分析的目的在于将许多彼此相关的指标变换成少数几个彼此独立的
综合指标,而且它们包含了原来那些指标的几乎全部
统计信息。
因子分析的计算程序与主成分分析类似,但它不是研究指标的变换,而是分析个体间的内在联系,此法为心理学家所首创,也可用于研究复杂的疾病。
统计工具
从全球范围来看,JMP Clinical, Matlab(Bioinformatics Toolbox),
R语言, SPSS, PRIMER等软件的使用较为普及,主要用户有生物统计学家、生物信息学家、基因学家以及学生等。这些软件能提供丰富强大的分析功能以及
动态图形分析,为
苗头化合物寻找、临床前研究、临床试验、流行病研究、疾病控制、公共卫生、生物统计教学等领域提供前所未有的强大、便捷、高效的分析能力。、
应用
农业科学从过去的定性研究逐渐趋向于定量化研究, 这一过程中不可缺少的是数学工具。 生物与数学相互融合产生的生物统计学在农业科学的多方面研究中发挥着巨大作用。
为了提高农产品的品质与产量,我国新引进多种粮食品种。 但新品种适宜在什么样的环境下生长、 利于作物生长的肥料品种以及施肥量的多少等问题都需要事先用生物统计学进行分析研究。除此之外,
农田生态系统中的各种害虫、杂草的生长也会对作物产生不利的影响, 农业劳作者一般通过简单喷洒农药的方法来控制。 而施用何种农药以及药剂量的多少, 既能有效消灭作物天敌又能尽量降低对农作物的损害, 同时降低经济损失等等问题, 也要依靠生物统计学进行预测和预报。
另外还有学者发现, 具备生物统计学知识可以预测一些生物现象的发生,而且准确率较高, 然而很多人对此却并不了解。 因此在相关人群中普及生物统计学的知识势在必行。