统计推断(statistical inference)是通过样本推断总体的统计方法。总体是通过总体分布的数量特征即参数 (如期望和方差) 来反映的。因此,统计推断包括: 对总体的未知参数进行估计;对关于参数的假设进行检查; 对总体进行预测预报等。科学的统计推断所使用的样本,通常通过随机抽样方法得到。统计推断的理论和方法论基础,是概率论和数理统计学。
基本介绍
统计推断(statistical inference),是指根据带随机性的观测数据(样本)以及问题的条件和假定(模型),而对未知事物作出的,以概率形式表述的推断。它是
数理统计学的主要任务,其理论和方法构成数理统计学的主要内容。
统计推断是从总体中抽取部分样本,通过对抽取部分所得到的带有随机性的数据进行合理的分析,进而对总体作出科学的判断,它是伴随着一定概率的推测。统计推断的基本问题可以分为两大类:一类是参数估计问题;另一类是假设检验问题。在质量活动和管理实践中,人们关心的是特定产品的质量水平,如产品质量特性的平均值、
不合格品率等。这些都需要从总体中抽取样本,通过对样本观察值分析来估计和推断,即根据样本来推断总体分布的未知参数,称为参数估计。参数估计有两种基本形式:点估计和区间估计。
统计推断的一个基本特点是:其所依据的条件中包含有带随机性的观测数据。以随机现象为研究对象的概率论,是统计推断的理论基础。
表述形式
在数理统计学中,统计推断问题常表述为如下形式:所研究的问题有一个确定的总体,其总体分布未知或部分未知,通过从该总体中抽取的样本(观测数据)作出与未知分布有关的某种结论。例如,某一群人的身高构成一个总体,通常认为身高是服从
正态分布的,但不知道这个总体的均值,随机抽部分人,测得身高的值,用这些数据来估计这群人的平均身高,这就是一种统计推断形式,即
参数估计。若感兴趣的问题是“平均身高是否超过1.7(米)”,就需要通过样本检验此命题是否成立,这也是一种推断形式,即
假设检验。由于统计推断是由部分(样本)推断整体(总体),因此根据样本对总体所作的推断,不可能是完全精确和可靠的,其结论要以概率的形式表达。统计推断的目的,是利用问题的基本假定及包含在观测数据中的信息,作出尽量精确和可靠的结论。
提高可靠性
个体是总体的一部分,局部的特性能反映全局的特点,但是,由于总体的不均匀性和样本的随机性,又使得样本不能精确地反映总体。因此,抽取部分个体经分析得出有关总体的结论存在着差错和不可靠。从理论上讲有两种途径可以消除和减少这种差错。
尽量均匀
总体是我们要研究的未知事物,我们往往不可能改变他的均匀性,当能够使其达到理想的均匀时,已经完全掌握了它,没有研究的必要了。
确保抽样代表性
采取适当的抽样方法确保抽样的“代表性”,可有效地控制和提高统计推断的可靠性和正确性。随机抽样的方法很多,常用的有:
简单随机抽样,是指抽样过程应独立进行并且总体中每个个体被抽到的机会均等。随机抽样不是随便抽取,随便抽取容易受到个人好恶的影响。为实现随机化,可采取抽签、掷随机数骰子或查随机数值表等办法。如从100件产品中随机抽取l0件组成样本,可以把这100件产品从l开始编号直到100号,然后用抓阄的办法任意抽出l0个编号,由这l0个编号代表的产品组成样本。此种抽样方法的优点是抽样误差小,缺点是手续繁杂。在实践中真正做到每个个体被抽到的机会相等是不容易的。
(2)周期系统抽样:
周期系统抽样,又叫等距抽样或机械抽样,即将总体按顺序编号,用抽签或查随机数值表的方法确定首件,进而按等距原则依次抽取样本。如从120个零件中取五个做样本,先按生产顺序给产品编号,用
简单随机抽样法确定首件,然后按每隔24(由120÷5=24得)个号码抽取一个,共抽取五个组成样本。这种方法特别适用于流水线上取样,操作简便,实施起来不易出现差错。但抽样起点一经确定,整个样本就完全固定。对总体质量特性含有某种
周期性变化,而当抽样间隔恰好与质量特性变化周期吻合时,就可能得到一个偏差很大的样本。
分层抽样法,即从一个可以分成不同子总体的总体中,按规定比例从不同层中随机抽取个体的方法。当不同设备、不同环境生产同一种产品时,由于条件差别产品质量可能有较大差异,为了使所抽取的样本具有代表性,可以将不同条件下生产的产品组成组,使同一组内产品质量均匀,然后在各组内按比例随机抽取样品合成一个样本。这种抽样方法得到的样本代表性比较好,抽样误差较小,缺点是抽样手续较繁,常用于产品质量检验。
这种方法是先将总体按一定方式分成多个群,然后随机地抽取若干群并由这些群中的所有个体组成样本。如按照生产过程将1000个零件分别装入20个箱中,每箱50个,然后随机抽取一箱,此箱中50个零件组成样本。这种抽样方法实施方便,但样本来自个别群体而不能均匀分布在总体中,因而代表性差,抽样误差较大。
统计假设测验
先假设真实差异不存在,表面差异全为试验误差。然后计算这一假设出现的概率,根据小概率事件实际不可能性原理,判断假设是否正确。这是对样本所属总体所做假设是否正确的统计证明,称为统计假设测验。
统计假设测验的基本步骤为:
(1)对样本所属总体提出假设(包括和);
(2)确定显著水平;
(3)在正确的前提下,依统计数的抽样分布,计算 实际差异由误差造成的概率;
(4)将算得的概率与相比较,根据小概率事件实际不可能性原理作出是接受还是否定的推断。
同名著作
基本信息
作 者: (美)卡塞拉(Casella,G.),(美)贝耶(Berger,R.L.) 著;
出版时间: 2004-2;
字 数: 824000;
页 数: 660;
开 本: 16;
纸 张: 胶版纸;
I S B N : 9787111109457;
包 装: 平装;
定价:¥39.00。
内容介绍
本书从概率论的基础开始,通过例子与习题的旁征博引,引进了大量近代统计处理的新技术和一些国内同类教材中不能见而广为使用的分布。其内容包括工科概率论入门、经典统计和现代统计的基础,又加进了不少近代统计中数据处理的实用方法和思想,例如:Bootstrap再抽样法、刀切(Jackknife)估计、EM算法、Logistic回归、稳健(Robust)回归、Markov链、Monte Carlo方法等。它的统计内容与国内流行的教材相比,理论较深,模型较多,案例的涉及面要广,理论的应用面要丰富,
统计思想的阐述与算法更为具体。本书可作为工科、管理类学科专业本科生、研究生的教材或参考书,也可供教师、工程技术人员自学之用。
目录
出版说明
序
1 Probability Theory
1.1 Set Theory
1.2 Basics of Probability Theory
1.3 Conditional Probability and Independence
1.4 Random Variables
1.5 Distribution FunCtions
1.6 Density and Mass Functions
1.7 Exercises
1.8 Miscellanea
2 Transformations and Expectations
2.1 Distributions of Functions of a Random Varible
2.2 Expected Values
2.3 Moments and Moment Generating Functions
2.4 Differentiating Under an Integral Sign
2.5 Exercises
2.6 Miscellanea
3 Common Families of Distributions
3.1 Introduction
3.2 Discrete Distributions
3.3 Continuous Distributions
3.4 Exponential Families
3.5 Location and Scale Families
3.6 Inequalities and Identities
3.7 Exercises
3.8 Miscellanea
4 Multiple Random Variables
4.1 Joint and Marginal Distributions
4.2 Conditional Distributions and Independence
4.3 Bivariate Transformations
4.4 Hierarchical Models and Mixture Distributions
4.5 Covariance and Correlation
4.6 Multivariate and Correlation
4.7 Inequalities
4.8 Exercises
4.9 miscellanea
5 Properties of a Random Sample
……
6 Principles of Data Reduction
7 Point Estimation
8 Hypothesis Testing
9 Interval Estimation
10 Asymptotic Evaluations
11 Analysis of Variance and Regression
12 Regression Models
Appendix:Computer Algebra
Table of Common Distributions
References
Author Index
Subject Index