理论统计学
统计学的一个分支
理论统计学是统计学的一个分支,它是把研究对象一般化、抽象化,以概率论为基础,从纯理论的角度,对统计方法加以推导论证,中心的内容是统计推断问题,实质是以归纳方法研究随机变量的一般规律。
概念
理论统计学是统计学的一个分支,它是把研究对象一般化、抽象化,以概率论为基础,从纯理论的角度,对统计方法加以推导论证,中心的内容是统计推断问题,实质是以归纳方法研究随机变量的一般规律。理论统计学包含的内容很多,例如统计分布理论,统计估计和假设检验理论,相关与回归分析,方差分析,时间序列分析、随机过程理论等。
统计学
统计学是通过搜索、整理、分析、描述数据等手段,以达到推断所测对象的本质,甚至预测对象未来的一门综合性科学。统计学用到了大量的数学及其它学科的专业知识,其应用范围几乎覆盖了社会科学和自然科学的各个领域。
统计学的英文statistics最早源于现代拉丁文Statisticum Collegium(国会)、意大利文Statista(国民或政治家)以及德文Statistik,最早是由Gottfried Achenwall于1749年使用,代表对国家的资料进行分析的学问,也就是“研究国家的科学”。十九世纪,统计学在广泛的数据以及资料中探究其意义,并且由John Sinclair引进到英语世界。
统计学是一门很古老的科学,一般认为其学理研究始于古希腊亚里斯多德时代,迄今已有两千三百多年的历史。它起源于研究社会经济问题,在两千多年的发展过程中,统计学至少经历了“城邦政情”、“政治算数”和“统计分析科学”三个发展阶段。所谓“数理统计”并非独立于统计学的新学科,确切地说,它是统计学在第三个发展阶段所形成的所有收集和分析数据的新方法的一个综合性名词。概率论是数理统计方法的理论基础,但是它不属于统计学的范畴,而是属于数学的范畴。
统计估计
统计估计(statistical estimation)是统计推断的一种形式,统计估计的方法是用样本的函数来估计总体的分布函数、分布参数或数字特征。例如,用样本均值估计总体均值;用经验分布函数估计总体分布函数等,参数估计与非参数估计是统计估计的两大部分。
统计估计是指推断统计中用样本资料去估计总体参数的方法。有点估计区间估计两种。
数理统计包括统计描述统计推断两部分,统计推断就是由样本推断总体,是统计学的核心内容,统计推断内容非常丰富,大致可以归纳为两大类:统计估计和统计检验。统计估计分为参数估计非参数估计、点估计和区间估计,下面只涉及参数的点估计和区间估计,参数的点估计,指用样本统计量的值估计未知参数的值。参数的区间估计就是用样本来确定一个区间,使这个区间以很大的概率包含所估计的未知参数,这样的区间称为置信区间。
点估计是直接估计总体参数的值,通常用样本数据的一个统计量作为总体参数的估计量。例如,在估计一个正态总体的平均数时,把样本数据的平均数取作总体平均数的估计量。点估计时,要求样本统计量是无偏统计量,即要求在无数次重复抽样时,这种样本统计量产生的分布的平均数等于被估计的参数。还要求这个样本分布的方差比其他无偏估计量的方差要小。区间估计是构造 一个区间,推断参数的真值以某个概率落在这个区间内。这个概率称为“区间的置信水平”。这个区间,称为“置信区间”。
假设检验
假设检验(Hypothesis Testing)是数理统计学中根据一定假设条件由样本推断总体的一种方法。具体作法是:根据问题的需要对所研究的总体作某种假设,记作H0;选取合适的统计量,这个统计量的选取要使得在假设H0成立时,其分布为已知;由实测的样本,计算出统计量的值,并根据预先给定的显著性水平进行检验,作出拒绝或接受假设H0的判断。常用的假设检验方法有u—检验法t检验法、χ2检验法(卡方检验)、F—检验法秩和检验等。
假设检验的基本思想是小概率反证法思想。小概率思想是指小概率事件(P<0.01或P<0.05)在一次试验中基本上不会发生。反证法思想是先提出假设(检验假设H0),再用适当的统计方法确定假设成立的可能性大小,如可能性小,则认为假设不成立,若可能性大,则还不能认为不假设成立。
假设是否正确,要用从总体中抽出的样本进行检验,与此有关的理论和方法,构成假设检验的内容。设A是关于总体分布的一项命题,所有使命题A成立的总体分布构成一个集合h0,称为原假设(常简称假设)。使命题A不成立的所有总体分布构成另一个集合h1,称为备择假设。如果h0可以通过有限个实参数来描述,则称为参数假设,否则称为非参数假设(见非参数统计)。如果h0(或h1)只包含一个分布,则称原假设(或备择假设)为简单假设,否则为复合假设。对一个假设h0进行检验,就是要制定一个规则,使得有了样本以后,根据这规则可以决定是接受它(承认命题A正确),还是拒绝它(否认命题A正确)。这样,所有可能的样本所组成的空间(称样本空间)被划分为两部分HA和HR(HA的补集),当样本x∈HA时,接受假设h0;当x∈HR时,拒绝h0。集合HR常称为检验的拒绝域,HA称为接受域。因此选定一个检验法,也就是选定一个拒绝域,故常把检验法本身与拒绝域HR等同起来。
相关分析
相关分析就是对总体中确实具有联系的标志进行分析,其主体是对总体中具有因果关系标志的分析。它是描述客观事物相互间关系的密切程度并用适当的统计指标表示出来的过程。在一段时期内出生率随经济水平上升而上升,这说明两指标间是正相关关系;而在另一时期,随着经济水平进一步发展,出现出生率下降的现象,两指标间就是负相关关系。
为了确定相关变量之间的关系,首先应该收集一些数据,这些数据应该是成对的。例如,每人的身高和体重。然后在直角坐标系上描述这些点,这一组点集称为“散点图”。
根据散点图,当自变量取某一值时,因变量对应为一概率分布,如果对于所有的自变量取值的概率分布都相同,则说明因变量和自变量是没有相关关系的。反之,如果,自变量的取值不同,因变量的分布也不同,则说明两者是存在相关关系的。
两个变量之间的相关程度通过相关系数r来表示。相关系数r的值在-1和1之间,但可以是此范围内的任何值。正相关时,r值在0和1之间,散点图是斜向上的,这时一个变量增加,另一个变量也增加;负相关时,r值在-1和0之间,散点图是斜向下的,此时一个变量增加,另一个变量将减少。r的绝对值越接近1,两变量的关联程度越强,r的绝对值越接近0,两变量的关联程度越弱。
回归分析
回归分析(regression analysis)是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。运用十分广泛,回归分析按照涉及的变量的多少,分为一元回归和多元回归分析;按照因变量的多少,可分为简单回归分析和多重回归分析;按照自变量因变量之间的关系类型,可分为线性回归分析和非线性回归分析。如果在回归分析中,只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析。如果回归分析中包括两个或两个以上的自变量,且自变量之间存在线性相关,则称为多重线性回归分析。
在大数据分析中,回归分析是一种预测性的建模技术,它研究的是因变量(目标)和自变量(预测器)之间的关系。这种技术通常用于预测分析,时间序列模型以及发现变量之间的因果关系。例如,司机的鲁莽驾驶与道路交通事故数量之间的关系,最好的研究方法就是回归。
方差分析
方差分析(Analysis of Variance,简称ANOVA),又称“变异数分析”,是R.A.Fisher发明的,用于两个及两个以上样本均数差别的显著性检验。 由于各种因素的影响,研究所得的数据呈现波动状。造成波动的原因可分成两类,一是不可控的随机因素,另一是研究中施加的对结果形成影响的可控因素。
方差分析的基本原理是认为不同处理组的均数间的差别基本来源有两个:
(1) 实验条件,即不同的处理造成的差异,称为组间差异。用变量在各组的均值与总均值之偏差平方和的总和表示,记作SSb,组间自由度dfb。
(2)随机误差,如测量误差造成的差异或个体间的差异,称为组内差异,用变量在各组的均值与该组内变量值之偏差平方和的总和表示, 记作SSw,组内自由度dfw。
总偏差平方和 SSt = SSb + SSw。
组内SSw、组间SSb除以各自的自由度(组内dfw =n-m,组间dfb=m-1,其中n为样本总数,m为组数),得到其均方MSw和MSb,一种情况是处理没有作用,即各组样本均来自同一总体,MSb/MSw≈1。另一种情况是处理确实有作用,组间均方是由于误差与不同处理共同导致的结果,即各样本来自不同总体。那么,MSb>>MSw(远远大于)。
MSb/MSw比值构成F分布。用F值与其临界值比较,推断各样本是否来自相同的总体
参考资料
最新修订时间:2023-12-24 12:14
目录
概述
概念
统计学
参考资料