假设检验-酷七问

假设检验

的有关信息介绍如下：

假设检验

一、什么是假设检验

假设检验是抽样推断中的一项重要内容。它是根据原资料作出一个总体指标是否等于某一个数值，某一随机变量是否服从某种概率分布的假设，然后利用样本资料采用一定的统计方法计算出有关检验的统计量，依据一定的概率原则，以较小的风险来判断估计数值与总体数值(或者估计分布与实际分布)是否存在显著差异，是否应当接受原假设选择的一种检验方法。二、为什么需要进行假设检验？

为什么要做假设检验呢？实际上原因就在于抽样(sampling)的问题。如果我们不抽样，直接比较总体，那就无需做假设检验。假设检验都是对样本做的，目的是通过样本推理总体。

三、假设检验的4个步骤

1、问题是什么？

在这一步中需要解决4个问题：

①零假设和备选假设

②检验类型：单样本检验、相关配对检验、独立双样本检验

③抽样分布类型：正态分布、t分布、其他分布

④检验方向：单尾检验（左尾、右尾）、双尾检验

2、证据是什么？

在零假设成立的情况下，计算样本检验统计量的概率p值。

3、检验标准是什么？

确定显著水平、拒绝域，当样本数据位于拒绝域时拒绝零假设，否则接收零假设。

4、做出结论

描述统计分析结论 + 推论统计分析结论

四、第一类错误和第二类错误

第一类错误：真实情况与零假设相符的情况下，我们通过假设检验拒绝了零假设

P(第一类错误)= α，α为显著水平

第二类错误：真实情况与零假设不相符的情况下，我们通过假设检验接受了零假设

P(第二类错误) = β，求解β的过程如下

检查是否拥有H1的特定值

求检验拒绝域以外的数值范围

假定H1为真，求得到这些数值的概率

五、分析报告怎么写？

描述统计分析 + 推论统计分析

描述统计分析包含均值、标准差、最值等描述样本信息的统计量

推论统计分析包含假设检验的结果、置信区间、效应量等

假设检验的结果可以参照下面公式的写法

样本类型检验类型 t值 P值（显著水平）检验方向检验结果

eg. 单样本t检验t(9)=-3.00p=0.0075(α=0.05)单尾检验（左尾）公司引擎排放量符合国家规定

置信区间可以参照下面公式的写法

哪种类型的置信区间置信水平置信区间上下线

eg. 平均值的置信区间 95% CI=(15.04, 19.30)

效应量

效应量是指处理效应的大小，例如药物A比药物B效果显著。度量效应量有很多种，但大多数都属于两大主要类别。

1）第一种叫做差异度量

例如在对比平均值时，衡量效应大小的常见标准之一是Cohen's d

Cohen's d = （样本平均值1-样本平均值2) / 标准差

Cohen's d 除以的是标准差，也就是以标准差为单位，样本平均值和总体平均值之间相差多少。

2）第二种叫做相关度度量

例如R平方，表示某个变量的变化比例与另一变量的关系。可以用t检验的信息推出R平方的公式，这里的t值从t检验中获得的值，df是自由度。

= / ( +df)

判断某个调查结果是否有意义时，关注结果是否统计显著的同时，还需要关注是否效果显著。效应量就是判断效果是否显著的标准。如果调查结果只是统计显著，并没有效果显著，这个结果就缺乏实用价值。

案例一：单样本检验

超级引擎公司生产的引擎是否符合排放标准？

样本数据：15.6 16.2 22.5 20.5 16.4 19.4 16.6 17.9 12.7 13.9

政府规定的排放标准：低于20ppm

分析过程：

1、问题是什么

原假设H0：超级引擎公司生产的引擎不符合政府规定的排放标准，即均值大于等于20ppm

备选假设：超级引擎公司生产的引擎符合政府规定的排放标准，即均值小于20ppm

根据样本数据估计总体符合哪种分布，进而判断均值的抽样分布类型

通过 seaborn包中的distplot方法绘制出样本数据的直方图和拟合曲线。由此可以看出样本数据近似正态分布，所以总体也是近似正态分布的，样本数量是10，所以均值的抽样分布为t分布。

此次检验过程中只有一个样本，所以是单样本假设检验。备选假设中含有“<”，所以检验方向为单尾检验的左尾。

2、证据是什么

接下来使用数据分析包scipy.stats中的ttest_1samp方法求出t值和p值（这里求出的是双尾检验的p值，单尾检验要用p/2）

3、检验标准是什么

确定显著水平

4、得出结论

t<0，数据位于低端，p_one

单样本t检验，t(9)=-3.00,p=0.0075,α=0.05,单尾检验(左尾)

5、效应量

数据分析报告

描述统计分析

样本数量是10，样本均值为17.170ppm，样本方差为2.981ppm

推论统计分析

（1）假设检验

单样本t检验，t(9)=-3.00,p=0.0075,α=0.05,单尾检验(左尾)

超级引擎公司生产的引擎符合排放标准

（2）效应量

d=-0.949

案例二：双独立样本检验

A/B两款键盘布局哪种更好？

产品经理需要决定使用A/B哪一款键盘布局，于是选定了A/B两组测试者，A组使用A布局，B组使用B布局，让他们在30秒内打出标准的20个单词文字消息，然后记录打错字的数量。以此来衡量哪一款布局对用户拼错字的影响最小。

分析过程：

1、问题是什么

原假设H0：AB版本没有差别

备选假设H1：AB版本有差别

根据样本数据估计总体符合哪种分布，进而判断均值的抽样分布类型

通过seaborn 包中的distplot方法绘制出样本数据的直方图和拟合曲线。由此可以看出样本数据近似正态分布，所以总体也是近似正态分布的，样本数量是25，所以均值的抽样分布为t分布。

此次检验过程中有两组样本，样本之间相互独立，所以是双独立假设检验。备选假设为AB版本有差别，重点在于参数的变化而不是增减，所以检验方向为双尾检验。

2、证据是什么

使用statsmodels包中的ttest_int方法求出t值，p值，和自由度df

3、显著水平

确定显著水平

4、得出结论

p<α，数据位于拒绝域内，所以拒绝原假设，接受备择假设，即AB版本有差别。

5、置信区间

这里我们求的是两组数据差值的置信区间，所以样本均值是AB两组均值的差值。根绝前面学习的期望和方差的知识，Var(A-B)=Var(A)+Var(B)，所以样本均值差值的标准差是

平均下来，A键盘的错误数量比B键盘少1~4个

6、效应量

数据分析报告

描述统计分析

AB两组样本数量均为 25

A组均值 5.08 B组均值 7.8

A组标准差 2.05993527406405 B组标准差 2.6457513110645907

推论统计分析

双样本独立t检验，t(45)=-4.056,p=0.00019,α=0.05，双尾检验

拒绝原假设，接收备择假设，即AB两个键盘布局有差异，统计显著

置信区间

两个均值差值的置信区间：95%置信水平 CI=[-4.07,-1.37]

效应量

d=-1.15 效果显著