为什么要叫"卡方"?因为原名是"chi-squared",一半是音译,一半是意译.其中,chi 是希腊字母 的读音,其实读音更像是"开",而不是"卡".square表示平方,所以呢在英语中,卡方分布写作 distribution.
在理解卡方检验之前,应当理解卡方分布.卡方分布是一种连续概率分布.
如果一个随机变量 服从标准正态分布,即 ,那么 就服从自由度为1的卡方分布.记作 或者
而如果 都服从标准正态分布,那么它们的平方和服从自由度为 的卡方分布,记作:
或者写作 .
对于非负自变量 的自由度为 的卡方分布的概率密度函数 (简称"pdf"):
(1)为什么 非负?因为根据定义,卡方分布的自变量是一个平方和.
卡方检验有两个用途:
拟合优度检验 chi-squared test goodness of fit
独立性检验 chi-squared test of independence
:两连投的成功次数符合二项分布,且概率为
(1)先根据零假设计算"期望"的命中次数分布:
由于总的观察次数为 ,于是在 成立的前提下,可以计算每种两连投结果的期望次数:
0次命中:
①.次命中:
显然,期望的观察次数和实际的观察次数是有偏差的,那么问题在于这个偏差是否大到具有统计显著性,进而可以否定零假设.
之后,把这些"变化率"加总得到 .而计算自由度有一个公式:
其中 R 表示行数,C 表示列数.对于本例:
从另一个角度解释为什么 :前面的定义是如果是 个符合标准正态分布的 相加,则自由度是 ,但是这里自有两个格子可以自由变化,第三个格子可以用总观察数减出来,例如 .
好了,将格子的数据代入,求出检验统计量:
不难理解,随着统计量增大,表示预期的分布和实际的分布的差异也就越来越大.
另外,由于通常意义上,p值是越小越能推翻零假设,那么显然我们需要用右侧的面积来表示p值,这里用Python计算来代替查表:
进一步的,我们来探索下,该运动员的两连投的成功次数分数是否真的符合二项分布.零假设:
:两连投的成功次数符合二项分布.
既然符合二项分布,那么我们需要先估算一下最合理的 概率,那当然是用总命中数除以总投篮数来计算了:
然后,用该概率值重复之前的计算,也就是先计算出一个期望的表格:
注意,这里的 ,这是因为,我们每从数据估计一个参数,那么我们就损失一个自由度.这里用了一个平均命中的概率,所以呢自由度只有 .
这时候,在使用 Python 进行计算时,注意调整默认的自由度:
这里的 ddof 就是额外损失的自由度,本意是"delta degree of freedom"
可以看到p值很大,所以呢不足以推翻零假设,也就是说该运动员的投篮命中次数可能真的是二项分布.
下面表格表示喝酒频率和与警察发生麻烦的频数.
现在的问题是,能否从以下数据推断说喝酒频率和与警察发生麻烦这两个事件相互独立?
我们的零假设应该如何设计?如果要说明两者相互独立,那么上表的分布应该满足乘法公式.也就是说两个独立事件一起发生的概率等于分别发生的概率之积.
于是我们有:
发生麻烦的总人数除以总人数
不喝酒的总人数除以总人数
进一步,根据总人数算出不喝酒而发生麻烦的人数的期望(下标表示零假设):
用类似的算法,计算每一个格子在零假设成立的情况下的值,写在原表数据下的括号里:
仔细观察可以看出,其实每个格子就是对应的:
另外可以看到,零假设下的各个格子的行列之和与原来相同.这不是偶然的,我们用字母代替计算一下就知道了:
于是第一列的两个格子应该是:
对于其他格子、行的总和,都一样,这里不多说了.
好,继续分析.我们直接用上表计算卡方统计量和p值:
这部分计算方法和拟合优度是一样的,就不赘述了.计算发现这个p值非常小,接近0,所以呢我们可以推翻零假设.也就是说,喝酒的频率和被警察找麻烦的并不是独立的,而是相关的.
实验结果是全部说对了.那么问题是,这是否具有统计显著性呢?比如说一个人猜对了一次硬币,他的预测能力靠谱吗?
如果让实验结果有更大的说服力呢?一个简单的办法就是增加茶的数量,比如我们设定为两种茶各10杯,要求10杯都判断正确,那么p值为多少呢?
这个算起来比较麻烦,这里我写一个 python 脚本来计算:
计算结果:
这个p值就小得很夸张了,基本可以断定零假设不成立了.
那么,回到实验本身,如果女士只选对了三杯,那么在零假设的前提下,这个发生的概率是多少?
比较 Fisher's exact test 和 chi-squared test,可以 参考这篇文章 .
一般来说,两者都适用的情况下,应该优先选择 Fisher's exact test,因为它是精确值.如果实验观察的数量很小(小于10),应该不使用 chi-squared test.
下面使用一个脚本来计算:
以上就是土嘎嘎小编为大家整理的Python卡方函数相关主题介绍,如果您觉得小编更新的文章只要能对粉丝们有用,就是我们最大的鼓励和动力,不要忘记讲本站分享给您身边的朋友哦!!