您的位置首页百科知识

假设检验

假设检验

的有关信息介绍如下:

假设检验

一、什么是假设检验

假设检验是抽样推断中的一项重要内容。它是根据原资料作出一个总体指标是否等于某一个数值,某一随机变量是否服从某种概率分布的假设,然后利用样本资料采用一定的统计方法计算出有关检验的统计量,依据一定的概率原则,以较小的风险来判断估计数值与总体数值(或者估计分布与实际分布)是否存在显著差异,是否应当接受原假设选择的一种检验方法。 二、为什么需要进行假设检验?

为什么要做假设检验呢?实际上原因就在于抽样(sampling)的问题。如果我们不抽样,直接比较总体,那就无需做假设检验。假设检验都是对样本做的,目的是通过样本推理总体。

三、假设检验的4个步骤

1、问题是什么?

在这一步中需要解决4个问题:

①零假设和备选假设

②检验类型:单样本检验、相关配对检验、独立双样本检验

③抽样分布类型:正态分布、t分布、其他分布

④检验方向:单尾检验(左尾、右尾)、双尾检验

2、证据是什么?

在零假设成立的情况下,计算样本检验统计量的概率p值。

3、检验标准是什么?

确定显著水平、拒绝域,当样本数据位于拒绝域时拒绝零假设,否则接收零假设。

4、做出结论

描述统计分析结论 + 推论统计分析结论

四、第一类错误和第二类错误

第一类错误 :真实情况与零假设相符的情况下,我们通过假设检验拒绝了零假设

P(第一类错误)= α,α为显著水平

第二类错误 :真实情况与零假设不相符的情况下,我们通过假设检验接受了零假设

P(第二类错误) = β,求解β的过程如下

检查是否拥有H1的特定值

求检验拒绝域以外的数值范围

假定H1为真,求得到这些数值的概率

五、分析报告怎么写?

描述统计分析 + 推论统计分析

描述统计分析包含均值、标准差、最值等描述样本信息的统计量

推论统计分析包含假设检验的结果、置信区间、效应量等

假设检验的结果可以参照下面公式的写法

样本类型 检验类型 t值 P值(显著水平) 检验方向 检验结果

eg. 单样本t检验t(9)=-3.00p=0.0075(α=0.05)单尾检验(左尾)公司引擎排放量符合国家规定

置信区间可以参照下面公式的写法

哪种类型的置信区间 置信水平 置信区间上下线

eg. 平均值的置信区间 95% CI=(15.04, 19.30)

效应量

效应量是指处理效应的大小,例如药物A比药物B效果显著。度量效应量有很多种,但大多数都属于两大主要类别。

1)第一种叫做差异度量

例如在对比平均值时,衡量效应大小的常见标准之一是Cohen's d

Cohen's d = (样本平均值1-样本平均值2) / 标准差

Cohen's d 除以的是标准差,也就是以标准差为单位,样本平均值和总体平均值之间相差多少。

2)第二种叫做相关度度量

例如R平方,表示某个变量的变化比例与另一变量的关系。可以用t检验的信息推出R平方的公式,这里的t值从t检验中获得的值,df是自由度。

= / ( +df)

判断某个调查结果是否有意义时,关注结果是否统计显著的同时,还需要关注是否效果显著。效应量就是判断效果是否显著的标准。如果调查结果只是统计显著,并没有效果显著,这个结果就缺乏实用价值。

案例一:单样本检验

超级引擎公司生产 的引擎是否符合排放标准?

样本数据:15.6 16.2 22.5 20.5 16.4 19.4 16.6 17.9 12.7 13.9

政府规定的排放标准:低于20ppm

分析过程:

1、问题是什么

原假设H0:超级引擎公司生产 的 引擎 不符合 政府规定的排放标准,即均值大于等于20ppm

备选假设:超级引擎公司生产的引擎符合政府规定的排放标准,即均值小于20ppm

根据样本数据估计总体符合哪种分布,进而判断均值的抽样分布类型

通过 seaborn包中的distplot方法绘制出样本数据的直方图和拟合曲线。由此可以看出样本数据近似正态分布,所以总体也是近似正态分布的,样本数量是10,所以均值的抽样分布为t分布。

此次检验 过程中只有一个样本,所以是单样本假设检验。备选假设中含有“<”,所以检验方向为单尾检验的左尾。

2、证据是什么

接下来使用 数据分析包scipy.stats中的ttest_1samp方法求出t值和p值(这里求出的是双尾检验的p值,单尾检验要用p/2)

3、检验标准是什么

确定显著水平

4、得出结论

t<0,数据位于低端,p_one

单样本t检验,t(9)=-3.00,p=0.0075,α=0.05,单尾检验(左尾)

5、效应量

数据分析报告

描述统计分析

样本数量是10,样本均值为17.170ppm,样本方差为2.981ppm

推论统计分析

(1)假设检验

单样本t检验,t(9)=-3.00,p=0.0075,α=0.05,单尾检验(左尾)

超级引擎公司生产的引擎符合排放标准

(2)效应量

d=-0.949

案例二:双独立样本检验

A/B两款键盘布局哪种更好?

产品经理需要决定使用A/B哪一款键盘布局,于是选定了A/B两组测试者,A组使用A布局,B组使用B布局,让他们在30秒内打出标准的20个单词文字消息,然后记录打错字的数量。以此来衡量哪一款布局对用户拼错字的影响最小。

分析过程:

1、问题是什么

原假设H0:AB版本没有差别

备选假设H1:AB版本有差别

根据样本数据估计总体符合哪种分布,进而判断均值的抽样分布类型

通过seaborn 包中的distplot方法绘制出样本数据的直方图和拟合曲线。由此可以看出样本数据近似正态分布,所以总体也是近似正态分布的,样本数量是25,所以均值的抽样分布为t分布。

此次检验过程中有两组样本,样本之间相互独立,所以是双独立假设检验。备选假设为AB版本有差别,重点在于参数的变化而不是增减,所以检验方向为双尾检验。

2、证据是什么

使用statsmodels包中的ttest_int方法求出t值,p值,和自由度df

3、显著水平

确定显著水平

4、得出结论

p<α,数据位于拒绝域内,所以拒绝原假设,接受备择假设,即AB版本有差别。

5、置信区间

这里我们求的是两组数据差值的置信区间,所以样本均值是AB两组均值的差值。根绝前面学习的期望和方差的知识,Var(A-B)=Var(A)+Var(B),所以样本均值差值的标准差是

平均下来,A键盘的错误数量比B键盘少1~4个

6、效应量

数据分析报告

描述统计分析

AB两组样本数量均为 25

A组均值 5.08 B组均值 7.8

A组标准差 2.05993527406405 B组标准差 2.6457513110645907

推论统计分析

双样本独立t检验,t(45)=-4.056,p=0.00019,α=0.05,双尾检验

拒绝原假设,接收备择假设,即AB两个键盘布局有差异,统计显著

置信区间

两个均值差值的置信区间:95%置信水平 CI=[-4.07,-1.37]

效应量

d=-1.15 效果显著