本节我们讲Z-Score.
注:从今天(2019-5-7)起,本博客将周期性更新统计学、计算机科学等学科方面的知识。笔者在这些方面并不精通,希望通过整理总结的方式和大家一起学习。
Z-Score 又叫 stand score, z-value, z-score, normal score, and standardized variable, 中文一般译作标准分数。其实 Z-Score 在多个领域有不同的定义和应用,我们这里主要讲解统计学中的标准分数。其他领域的 Z-Score 定义请查看维基百科。
通俗解释z-score,即 z-score 是对某一原始分值进行转换,变成的一个标准分值,该标准分值可使得原来无法比较的数值变得可比。
一个简单的例子,中国人小王身高 1.75 m,美国人 James 身高 1.85 m,日本人大郎身高1.75 m,排除国籍导致的差异,请问小王、James、大郎三个人谁更高?
直接从数值上比,当然是 James 最高。但是这里要求排除国籍导致的差异,什么意思?就是说,日本人可能全国的人都相对矮一些(不严谨,仅做例子),那么日本的 1.7 m 可能相当于中国的 1.75 m 和美国的 1.85 m。所以不能直接比数字,而是要比每个人在各自国家国民身高背景下的一个“标准身高”。这里就可以引入 z-score了。
另一个简单的例子,小红英语考了 90 分,语文考了 60 分,请问小红英语和语文哪个考的好? 同样的情况,如果直接比分数,当然是英语好。但是一种显然易见的可能情况是,两门课的难度不一样,也许语文更难,大家都不及格,只有小红及格了;而英语很简单大家都是100分,只有小红90分。这样看来,好像小红的语文要考的更好一些。这里我们用 z-score 可以直观的进行比较。
z-score 的计算定义如下:
z =(x-μ)/σ
这里的 x 为原始分值,z 为经过转换后的 z-score,μ 为总体样本空间的分值均值,σ 则为总体样本空间的标准差。
需要注意的是,上文所说的总体样本空间,即英文中的 population,指的是当前抽样样本所在分布的空间内的所有样本。一般我们实际使用时,手头拿到的数据仅能代表抽样的部分样本,无法代表整个样本空间。所幸,我们可以使用当前抽样样本的均值和标准差来估计总体样本空间的情况。
在之前关于身高的例子中,我们可以将每个人的身高减去其祖国的平均身高,再除以对应国家的身高标准差,得到各自的身高 “标准分值”,然后再去比较。同样,语文成绩和英语成绩也是一样,各自减去全班或全校的平均分数,再除以对应的标准差,即可比较。如语文全班平均成绩 40 分,标准差为 10,英语全班成绩 98 分,标准差为 5 。那么小红的语文成绩 “标准分值” 就是 (60 – 40)/10 = 2 ,而英语成绩“标准分值”就是 (90-98)/5 = -1.6。这样一比,英语成绩是远低于语文成绩的,可见小红的语文还是学的相当好的。
在上面的例子中,转换后的 z-score 出现了负数,通过前面的公式定义,我们可以很容易的理解。如果原始分值低于样本集合中的平均分值,那么转换后的 z-score 则为负数,反正为正数。
需要注意的是,通过 z-score 转变后的分值,并没有被正态化。也就是说,原来是正态分布的,转为 z-score 之后仍为正太分布;原来不是正态分布的,转化为 z-score 之后并不会转换为正态分布。
最后,要防止 z-score 被误用。原始分值经过转变后的 z-score,是去除了之前数据所带有的观察信息的。对于拿 z-score 去做一些观察结果的判断,我们需要格外谨慎的。比如我们应该用 BMI 来衡量肥胖,而非某个阈值的 z-score,尤其在我们的抽样空间不够大、无法代表总体的情况下。
参考:
https://en.wikipedia.org/wiki/Standard_score
https://influentialpoints.com/Training/z_scores_use_and_misuse.htm
推荐阅读:
非常感谢,获益匪浅!
谢谢,写的很清楚。
写得很好,容易理解,谢谢!
写得真清楚,谢谢分享!
很好的文章
您好,我想问一下:“最后,要防止 z-score 被误用。原始分值经过转变后的 z-score,是去除了之前数据所带有的观察信息的。对于拿 z-score 去做一些观察结果的判断,我们需要格外谨慎的。比如我们应该用 BMI 来衡量肥胖,而非某个阈值的 z-score,尤其在我们的抽样空间不够大、无法代表总体的情况下。” — 这句话的含义,是不是这个意思?
例如:某个国家的A区域的出生率在80%,某个国家的B区域出生率在85%,经过Z-score的转化为Z(A)=2 Z(B)=-1.6,那么可以说A地区的出生率大于自己国家的平均值,B地区的出生率小于自己国家的平均值。但是不能说A地区所对应的国家出生率>B地区所对应的国家出生率。(因为A地区和B地区所作为的抽样空间小,没有办法代表总体)