刘承昊:全球性别差距报告把中国教育数据算错了,一错错了三年!
【文/ 刘承昊】
一周之前,世界经济论坛发布了2018全球性别差距报告(Global Gender Gap Report)。
对的,就是那个每年年会在瑞士达沃斯小镇举办年会的世界经济论坛。
昨天,女权组织橙雨伞通过转译文本的形式,在微博上发布了全球性别差距报告的中国部分。
中国从2006年63名,降为2018年的103名。
在一篇名为《149个国家,中国排名103?》的文章里,文章作者认为中国的排名倒退,是中国“吃了一嘴灰”。
(某公众号文章,注:并非是橙雨伞的文章)
出于本能,我仔细看了一下报告中截取的数据,我开始怀疑这篇报告的真实程度。
在这篇文章里,我无意以“中国被世界经济论坛黑了”这样的论调,来为中国“辩护”。
我只想告诉大家这篇报告已知的硬性错误,可能的方法错误,以及最终带一点我的看法。
如果要先说结论的话,那就是:以这篇有漏洞的报告为证据来评价中国的女权现状是不可信的。
(想看错误的可以跳到【正文】)
一、已知的硬性错误
世界经济论坛这份报告将男女性别的社会差距分为四个维度:1.参与经济事务和就业机会(Economic participation andopportunity);2.接受教育(Education alattainment); 3. 健康与生存(Healthand survival);4. 政治赋权/女性的政治势力(Political empowerment)。
(原报告截图)
由于我本人的工作原因,我对第二部分的教育数据非常敏感。在我最近一周经手的亚太地区的教育数据而言,中国在“男童女童享受同样的教育机会”这件事情上,做的很好。
但中国在这一部分的排名落在148个国家的111,这让我很诧异。
(注意右上角的排名,英文版来自原报告,中文版来自橙雨伞)
翻看这份报告的方法纪要(下图),报告内明确指出了三点:
1.数据来源:联合国教科文组织统计所(UIS),是2018年10月截取的数据
2.每一项数据的指标(变量):识字率,小学净入学率,中学的净入学率,高等教育的总入学率。每一个指标都会分别采集同一个时期,某个国家的男女数据,例如:阿富汗2017年的男性识字率和阿富汗2017年的女性识字率。
3.计算方法:女性数据÷男性数据=女/男比。如果比值大于1,则直接视为该项满分(1.000分),如果比值小于1,则折算一个分数(我数学太差,应该是根据平均数和标准差折算,但是emmm怎么折呢,不管它)。
(数据来源)
(折算权重)
这戳中了我的好奇心。
因为,我最近一直在UIS的数据库里遨游。
于是,我想检验一下这个数据采集是否正确。
很遗憾,它错了,错的很离谱。
在检验具体数据前,我们需要设定一个标准,判断这部分数据是否能有效地表达女性处于劣势(男女平等后面再说)。
首先,每一个国家采集的数据,必须按照统一的指标,不可以A国是入学率,B国是考试成绩,如果出现变量没有数据的情况,就计为缺失值。
其次,每一个国家采集的数据年份尽量一致,越一致,数据的有效性就越高,可信度高(不是信度),尽量不要是2017年的数据和1917年的数据比较。
再次,每一个国家的统计水平相当,不会出现错漏和故意编辑数据的情况。(本文不讨论)
根据这三个原则,我们来观察这份报告。
为了我一个人不至于累死,我自说自话地选择了几个国家:
1.和中国名称上靠近,且有数据的几个国家(柬埔寨Cambodia,加拿大Canada,乍得Chad,智利Chile,【中国】,哥伦比亚Colombia)
2.这次排名的第一名冰岛(Iceland)
3.数据体系健全的美国(US)
令人诧异的事实,就此展开。
【正文】
对于识字率数据:
在UIS数据库中,识字率有多种统计模式,经过不厌其烦地比对,我发现,全球经济论坛使用的是:15岁以上成年人口的识字率(可理解为:该国识字的15岁以上女性/所有15岁以上该国女性;该国识字的15岁以上男性/所有该国15岁以上男性)。
我下载了1970年-2018年的该变量的数据库。
首先,经过对比,我所选择的几个国家的识字率数据都来自这一变量(变量名一致),且都是最新的数据(男女数据在同一年)。
但是,“最新”是有差异的。
乍得和哥伦比亚用的是2016年的数据。
中国用的是2010年的数据。
美国,没有数据……
(最下面一行数据为美国,无法理解的操作)
但是,令人诧异的是,美国的报告那一页(287页)明明写着男女识字率都是99%啊,是我瞎了么?
(注意紫色字迹处)
不是,是世界经济论坛犯了第一个错误:臆测数据。
为什么呢,因为至少加拿大(55页),法国(101页),英国(285页),美国(287页)在UIS都没有数据的情况下,他们的男女识字率都被默认为99%…且UIS系统内完全没有这些国家1970年到2018年的识字率数据。
也就是说,他们的满分,是白拿的。且不止这些国家呈现出了双99%的数据,有兴趣的朋友可以自行验证。
那么,这些国家在该单项上都领先了中国93名(中国排名94位)。
(我已将所有excel文件打包放在百度云盘里供大家检验,UIS的数据网址也是开源的)
对于小学净入学率:
此处解释一下,净入学率(Net Enrolment Rate)与总入学率(Gross Enrolment Rate)的关系。
净入学率指的是规定年龄段的儿童到某一阶段教育入学的比例:不计入逃课的和辍学的情况,和过早过晚读书的情况。
如:2017年就读复旦的10岁神童没有上小学,小学的净入学率降低了;2017年还在上小学的16岁大男孩没有上高中,高中的净入学率降低了。
因此,净入学率在不出现统计机构自己数据出错的情况下,不超过100%。但对于高等教育而言,很难解释什么样的年龄段应该完成高等教育,因此一般不计算净入学率。(http://uis.unesco.org/en/glossary-term/net-enrolment-rate)
总入学率,是该教育阶段的学生数(全国所有中学的人数)处以该年龄段应当完成教育的儿童总数(12或13岁-18岁)。因为有过早与过晚上学的儿童,发展中国家在集中发展义务教育的阶段,总入学率有超过100%的可能。(http://uis.unesco.org/en/glossary-term/gross-enrolment-ratio)
每个国家都会有自己偏爱的,适合制定政策的入学率口径,因此选用单一变量的风险是,有些国家会在某一数据上全面空白。
世界经济论坛用的是净入学率。
对于小学而言,中国这项数据是空白的,因为中国最后一次更新上报这一数据是1997年,因此,该报告没有采纳这一数据。
实际上,1997年的时候,我国女生的小学净入学率达到了88.18%,男生达到了90.03%,与全球经济论坛提供的2017年的这一指标在报告中的均值只差0.001。
(1997中国女生小学净入学率,黄色单元格)
(1997中国男生小学净入学率,黄色单元格)
(黄色标记一行,中国在此项上成绩空白)
但是,考虑到计划生育政策存在的生育瞒报,这一数字可能存疑。反正,没说为什么,世界经济论坛没有用这个数据。
对于中学净入学率:
世界经济论坛采用的是净入学率。
然鹅,这一指标不在中国的教育统计口径内,没有上报UIS,这一项应当也是空白的。
(黄色一栏可见中国没有申报)
然而,我看到了令人窒息的一幕。
世界经济论坛的数据显示,中国的女生中学毛入学率仅为47.1%,男生仅为52.9%。
(令人窒息的黄色数据)
这意味着我们身边两个孩子中的一个没有上中学……
我国九年制义务教育吃了一嘴灰……
事实上,通过我对47.1+52.9=100的观察,我觉得,世界经济论坛可能是混用了某个比例……
后来,我找到了。
(“神奇”的替代指标)
世界经济论坛使用的替代指标为:Percentage of students in secondary education who are female.
直译为:女学生占中学学生的比例。
这对于中国而言,是带有明显负面引导的数据。
首先,中国的新生儿比例由于男女不平等和其他附带因素,导致同龄的男性多于同龄的女性。
因此,同一教育阶段的男生比女生多,不代表女生没有获得平等的教育机会。
举例而言,一个国家有12-18岁男生10名,12-18岁女生5名。他们都读了中学。该国,男生中学净入学率=10/10=100%,女生中学净入学率=5/5=100%,男女获得了同等的教育机会。
但在“女学生占中学生比例” 的计算方式下,就变成了5/15=33.33%。
这一变量在此处替用原来变量有三处错误:1. 在没有注明的情况下偷换变量,使得国家间的比较变得无价值;2. 新生儿比例的男女差异已经在”健康与生存“一节中计分了,如果只对中国采用此变量,便是双重扣分;3. 这一替代的变量无法符合考察男女教育机会是否均等的本意,没有替换的理由。
(中国部分里本就已经计分的生育率性别比数据)
我希望,这是一个想当然的失误,而非刻意为之。如果使用总入学率,在这一项上,中国是满分1分,因为根据UIS最近的2013年的数据,当年中国女生总入学率为95.03%,男生总入学率为94.23%,女生领先。
对于高等教育总入学率:
在这一项上,世界经济论坛没有在中国这一部分失误。
简要总结,在这里,我无意重新计算中国排名的提升,因为数据漏洞或许只是冰山一角,在此改动中国的数据计算排名,没有意义。
这份报告已经不满足研究伦理上可信的标准了,不够公正,也许不仅是对中国,也对其他国家。
而上述的中学净入学率的变量替换法,最早可以追溯到2016年报告,已经用了三年了。
二、方法上可能的漏洞
事实上,这篇报告在方法上也存在问题。
比如,在刚果的识字率数据上,它使用了UIS的预测数据,而非实报数据,但没有注明。
其次,它将女生超过男生的数据全部计为满分1分,这显然不符合性别差距报告的名号。漠视女性出超偏误,将其视为好的表现,这不是平权主义。
作为一个国际组织,我们应该沿着轨道恪守中立,而非冒险。
再次,在教育上排名前50的国家里,我看到了好几个被UNESCO亚太教育分局重点关注的需要帮扶的对象。
这篇报告,至少在教育上,我不认同。
此外,在同工同酬方面,它采用问卷的方法,测量女性对同工同酬的感知,然后作为评判。
有没有同时问过贫困男同志们的意见?
但说实话,我一个人找不齐,也不想找了。
三、一点想法
对于女权:
这份报告2006年中国是在115个国家里排名63。
2018年是在149个国家里排名113。
这个,报告里说了,有的人没说。
(有的人不是橙雨伞)
(来自橙雨伞)
我不是女权主义者,但我认同中国需要普及平权知识,但不是以这样的方式。
不是以不可信的方式,不是以隐瞒的方式,不是以漠视现有成果的方式,不是以不尊重男性的方式。
坦诚,是彼此沟通的基础,是把性别教育和性教育让更多人听懂的必经之路。
这篇报告,很遗憾,没做到。
不应该被当成证据使用。
同时,也不能因为这份报告的瑕疵而放弃平权。
可能有所不同的是,我本人更相信机会均等,而非结果均等。
对于世界经济论坛:
今天下午我拿到报告之后,试着拨通了世界经济论坛的电话。
我发邮件简要讲述了我发现的最大的净入学率的错误。
讨论中,世界经济论坛的工作人员没有限制我写下这篇文章。但好像,也没打算怎么样。再讨论,在研究,是最后的答案。如果我能把我掌握的内容发给他们,也ok。
我有一点失落,这和我对国际组织的期待产生了落差。
但写下这篇文章的时候,我又不那么担心了,因为我也在履行我短暂的作为国际组织一份子的使命。
希望世界经济论坛撤下那篇报告,2019年的时候做一份更好的。
请所有的读者不要断章取义,世界经济论坛犯错了,但或许不是故意的。
后记:
文章在公众号发出之后,我就睡觉去了,早上起来便接收到了很多微信消息。
在此声明两点:1. 由于我行文时考虑不当,因此有人认为橙雨伞在翻译这份报告时有故意漏译。在此我对橙雨伞的同仁致歉。事实是:橙雨伞的翻译是基于原报告精准翻译的,并无过错。这在文章中,我也放了截图。作为一个反性别暴力的公益项目,他们做出了他们的努力,这一点我深表敬佩。平权事业需要每一个人的参与。
2. 关于国际组织公信力,这一漏洞三年前就已经出现了,我们或许过于相信国际组织的调查能力,因而忽略了检视其报告的内容。事实上,任何一个所谓的权威都可以被质疑。真金不怕火炼,互相检验是互相促进的基石。
【观察者网已获授权发布。】