假设检验
的有关信息介绍如下:一、什么是假设检验
假设检验是抽样推断中的一项重要内容。它是根据原资料作出一个总体指标是否等于某一个数值,某一随机变量是否服从某种概率分布的假设,然后利用样本资料采用一定的统计方法计算出有关检验的统计量,依据一定的概率原则,以较小的风险来判断估计数值与总体数值(或者估计分布与实际分布)是否存在显著差异,是否应当接受原假设选择的一种检验方法。 二、为什么需要进行假设检验?
为什么要做假设检验呢?实际上原因就在于抽样(sampling)的问题。如果我们不抽样,直接比较总体,那就无需做假设检验。假设检验都是对样本做的,目的是通过样本推理总体。
三、假设检验的4个步骤
1、问题是什么?
在这一步中需要解决4个问题:
①零假设和备选假设
②检验类型:单样本检验、相关配对检验、独立双样本检验
③抽样分布类型:正态分布、t分布、其他分布
④检验方向:单尾检验(左尾、右尾)、双尾检验
2、证据是什么?
在零假设成立的情况下,计算样本检验统计量的概率p值。
3、检验标准是什么?
确定显著水平、拒绝域,当样本数据位于拒绝域时拒绝零假设,否则接收零假设。
4、做出结论
描述统计分析结论 + 推论统计分析结论
四、第一类错误和第二类错误
第一类错误 :真实情况与零假设相符的情况下,我们通过假设检验拒绝了零假设
P(第一类错误)= α,α为显著水平
第二类错误 :真实情况与零假设不相符的情况下,我们通过假设检验接受了零假设
P(第二类错误) = β,求解β的过程如下
检查是否拥有H1的特定值
求检验拒绝域以外的数值范围
假定H1为真,求得到这些数值的概率
五、分析报告怎么写?
描述统计分析 + 推论统计分析
描述统计分析包含均值、标准差、最值等描述样本信息的统计量
推论统计分析包含假设检验的结果、置信区间、效应量等
假设检验的结果可以参照下面公式的写法
样本类型 检验类型 t值 P值(显著水平) 检验方向 检验结果
eg. 单样本t检验t(9)=-3.00p=0.0075(α=0.05)单尾检验(左尾)公司引擎排放量符合国家规定
置信区间可以参照下面公式的写法
哪种类型的置信区间 置信水平 置信区间上下线
eg. 平均值的置信区间 95% CI=(15.04, 19.30)
效应量
效应量是指处理效应的大小,例如药物A比药物B效果显著。度量效应量有很多种,但大多数都属于两大主要类别。
1)第一种叫做差异度量
例如在对比平均值时,衡量效应大小的常见标准之一是Cohen's d
Cohen's d = (样本平均值1-样本平均值2) / 标准差
Cohen's d 除以的是标准差,也就是以标准差为单位,样本平均值和总体平均值之间相差多少。
2)第二种叫做相关度度量
例如R平方,表示某个变量的变化比例与另一变量的关系。可以用t检验的信息推出R平方的公式,这里的t值从t检验中获得的值,df是自由度。
= / ( +df)
判断某个调查结果是否有意义时,关注结果是否统计显著的同时,还需要关注是否效果显著。效应量就是判断效果是否显著的标准。如果调查结果只是统计显著,并没有效果显著,这个结果就缺乏实用价值。
案例一:单样本检验
超级引擎公司生产 的引擎是否符合排放标准?
样本数据:15.6 16.2 22.5 20.5 16.4 19.4 16.6 17.9 12.7 13.9
政府规定的排放标准:低于20ppm
分析过程:
1、问题是什么
原假设H0:超级引擎公司生产 的 引擎 不符合 政府规定的排放标准,即均值大于等于20ppm
备选假设:超级引擎公司生产的引擎符合政府规定的排放标准,即均值小于20ppm
根据样本数据估计总体符合哪种分布,进而判断均值的抽样分布类型
通过 seaborn包中的distplot方法绘制出样本数据的直方图和拟合曲线。由此可以看出样本数据近似正态分布,所以总体也是近似正态分布的,样本数量是10,所以均值的抽样分布为t分布。
此次检验 过程中只有一个样本,所以是单样本假设检验。备选假设中含有“<”,所以检验方向为单尾检验的左尾。
2、证据是什么
接下来使用 数据分析包scipy.stats中的ttest_1samp方法求出t值和p值(这里求出的是双尾检验的p值,单尾检验要用p/2)
3、检验标准是什么
确定显著水平
4、得出结论
t<0,数据位于低端,p_one
单样本t检验,t(9)=-3.00,p=0.0075,α=0.05,单尾检验(左尾)
5、效应量
数据分析报告
描述统计分析
样本数量是10,样本均值为17.170ppm,样本方差为2.981ppm
推论统计分析
(1)假设检验
单样本t检验,t(9)=-3.00,p=0.0075,α=0.05,单尾检验(左尾)
超级引擎公司生产的引擎符合排放标准
(2)效应量
d=-0.949
案例二:双独立样本检验
A/B两款键盘布局哪种更好?
产品经理需要决定使用A/B哪一款键盘布局,于是选定了A/B两组测试者,A组使用A布局,B组使用B布局,让他们在30秒内打出标准的20个单词文字消息,然后记录打错字的数量。以此来衡量哪一款布局对用户拼错字的影响最小。
分析过程:
1、问题是什么
原假设H0:AB版本没有差别
备选假设H1:AB版本有差别
根据样本数据估计总体符合哪种分布,进而判断均值的抽样分布类型
通过seaborn 包中的distplot方法绘制出样本数据的直方图和拟合曲线。由此可以看出样本数据近似正态分布,所以总体也是近似正态分布的,样本数量是25,所以均值的抽样分布为t分布。
此次检验过程中有两组样本,样本之间相互独立,所以是双独立假设检验。备选假设为AB版本有差别,重点在于参数的变化而不是增减,所以检验方向为双尾检验。
2、证据是什么
使用statsmodels包中的ttest_int方法求出t值,p值,和自由度df
3、显著水平
确定显著水平
4、得出结论
p<α,数据位于拒绝域内,所以拒绝原假设,接受备择假设,即AB版本有差别。
5、置信区间
这里我们求的是两组数据差值的置信区间,所以样本均值是AB两组均值的差值。根绝前面学习的期望和方差的知识,Var(A-B)=Var(A)+Var(B),所以样本均值差值的标准差是
平均下来,A键盘的错误数量比B键盘少1~4个
6、效应量
数据分析报告
描述统计分析
AB两组样本数量均为 25
A组均值 5.08 B组均值 7.8
A组标准差 2.05993527406405 B组标准差 2.6457513110645907
推论统计分析
双样本独立t检验,t(45)=-4.056,p=0.00019,α=0.05,双尾检验
拒绝原假设,接收备择假设,即AB两个键盘布局有差异,统计显著
置信区间
两个均值差值的置信区间:95%置信水平 CI=[-4.07,-1.37]
效应量
d=-1.15 效果显著