浅析港大袁国勇等关于湖北省新冠感染人数估计的荒谬性_风闻
Morphism-2022-01-16 13:39
2020年6月,香港大学袁国勇等在柳叶刀(The Lancet)上发表了题为**《Seroprevalence of SARS-CoV-2 in Hong Kong and in residents evacuated from Hubei province, China: a multicohort study》**的文章(以下简称袁文),文中对湖北省的新冠感染率和感染人数进行了估计。本文在不讨论袁文中各种测试数据准确性的前提下,仅从样本代表性的角度出发,指出其推断的荒谬性。
写这篇文章的动机,一是因为袁文为我的《概率与统计》课程(思政建设部分)提供了一个生动案例。二是希望能为自己的家乡湖北尽一份心力。为了方便阅读,我对袁文关于湖北新冠疫情的分析过程进行了提炼:
众所周知,在用样本值去估计对应的总体参数,最基本的前提是:你的样本要能够较好地代表总体。让我们来看一看袁文的样本:
1.袁文用来估计武汉市新冠感染率的样本:364从武汉撤离的港人。考虑到当时的特殊情况:武汉是疫情的中心,首要的、重中之重的任务是遏制传播,治病救人,一时难以兼顾各种数据的收集和整理工作。因此,用此便利样本(Convenience Sample)来代表武汉市总体,还是有一定的合理性的。但必须指出该样本存在明显缺陷:
a) 样本数太小,2019年武汉市人口约1100万。
b) 请看武汉地图
武汉是超大都市,其中心城区被长江和汉江分隔成三大块,就是人们常说的武昌(文化、教育比较集中)、汉口(主要是商业区)、汉阳(主要是工厂区)组成的武汉三镇,另外还包括6个远城(郊)区。中心城区常住人口约600多万,占武汉市常住人口的约56%。一方面,由于两条大江的阻隔,再加上区内湖泊星罗棋布,中心城区之间新冠的感染率应该还是有所差异,但是考虑到中心城区交通四通八达,这种差异应该不会太显著。另一方面,鉴于武汉的人流、物流主要集中在中心城区,因此远城(郊)区和中心城区的新冠感染率差异应该是比较显著的.
c) 在汉港人一般生活在中心城区,远城(郊)区基本没什么港人。
总结下:1是鉴于当时特殊情况,用此便利样本代表武汉人口总体有一定合理性,但更合理的做法应该是用该样本代表武汉中心城区人口总体,而不是武汉全域。2是样本太小,影响结论的可靠性。
2. 我们再看袁文用来估计湖北省(含武汉市)的新冠感染率的样本:从湖北撤离的那452名港人,其中364人(约80.5%)来自湖北省武汉市,88人(约19.5%)来自湖北其他地区。请看湖北地图:
武汉市是湖北的首府,对周边确实有很强的辐射作用。但是也应考虑到:地理上武汉只占湖北中东部的一小块,其2019年人口(约1100万)也只占2019年湖北总人口(约5900万)的约18.6%,还有占比81.4%的4800万人生活在广袤的湖北其他地区。我们在分别看看样本、总体中关于武汉属性的比例
样本中
总体中
注意:两个比例几乎截然相反,因此任何一个稍具统计学知识的人都不会离谱到用这样的样本来代表湖北人这一总体。
3. 根据完全不具代表性的样本得出的关于总体的相关结论,在科学上显然是没有任何的可靠性,袁文中关于湖北省新冠感染率和感染人数的估计是如此的荒谬,我们来做一下简单的加减乘除,从袁文中就可以得出:
a) 湖北省(除武汉市外)的其他地区的4800万人口中,约有220万-50万=170万人感染新冠,而样本中从这广袤地区撤离的港人中仅有1例阳性(来自荆州的港人)。
b) 更极端些,假设这1例阳性也是来自武汉撤离港人,用袁文的方法,就会 得出这4800万人中还是大约有
人感染新冠。想想看,这就相当于说:尽管样本中从湖北其他地区撤离的港人无1例阳性,但由此依然推出这些地区有约170万人感染新冠,仅仅是因为它们和武汉市同属于湖北省。
最后,让我们来看看袁国勇教授的学术背景:
袁国勇:中国工程院院士、香港科学院创院院士、美国微生物科学院院士、中国医学科学院学部委员,香港大学霍英东基金教授(传染病学)、香港大学李嘉诚医学院微生物学系讲座教授、香港玛丽医院微生物学系主管、香港大学新发传染性疾病国家重点实验室主任。
行文至此,有一个问题一直萦绕在我的脑海:如此资深的一位学者,为何会犯如此低级的错误?如此权威的一家学术期刊,为何会刊登有如此低级错误的文章?从袁文中的一句结论,我们也许会看出些许端倪:“截止2020年3月31日,湖北省总共报告出现症状的新冠确诊病例67802(220万的3%),因此在疫情期间97%%感染可能未被诊断出来。”(The number of laboratory-confirmed symptomatic patients in Hubei province was reported as 67 802 (3% of 2·2 million) as of March 31, 2020. Thus 97% of infections in Hubei might have gone undiagnosed at that period of the epidemic.)
下面是与本文相关的袁文部分节选(格式与原文有所不同):
1. 469 Hong Kong residents were evacuated from Hubei province on four different flights on March 4–5, 2020, and were quarantined at a housing estate. 1665 serum samples were collected from 452 returnees from Hubei province (of which 364 [80·5%] were from Wuhan) on day 1, day 5, day 9, or day 13 after returning from Hubei (appendix pp 5–7). 17 (4%) of 469 returnees refused to have their blood taken.
…All 452 Hubei returnees were asymptomatic…
…Among the 452 returnees, 17 (4%) were seropositive with either the microneutralisation assay or the enzyme immunoassay. 16 individuals who were seropositive had been staying in Wuhan, and one had been staying in Jingzhou…
2. Our seroprevalence data for Hubei returnees showed that RT-PCR confirmed infections grossly underestimated the actual prevalence of COVID-19. With a population of 59 million (Hubei province) and 11 million (Wuhan) people as of 2019,17 our findings indicate that about 2·2 million people (3·8%, 95% CI 2·2–6·0) in Hubei and 0·5 million people (4·4%, 2·5–7·1) in Wuhan could have been infected…