己亥之末,庚子之初,正当中国人民欢度春节之时,一场由武汉引发的新型冠状病毒肺炎,席卷全国、影响世界。瞬间,人们谈“疫”色变,足不出户,彻底打乱了原有的生活和生产秩序。对于SARS病毒有记忆的人来说,这又是一次不同寻常的经历。好在有党中央的坚强领导,疫情已得到有效的遏制。但在疫情防控过程中,人们不禁会问这样一些问题:这次疫情是怎么引起的?与SARS病毒有没有不同?有什么医治良策?会传染多少人?会持续多长时间?会对2020年的经济产生什么影响?如果前三个问题属于病毒学、传染病学专家和医生需要研究的问题,那么后三个问题则与统计学有关,需要统计学专家参与研究。
尽管疫情令人沮丧,但我国统计学者的表现却值得称赞。我根据微信中的信息,就发现有曾五一、李宝瑜、柯惠新、王汉生、朱建平、吕光明、许永洪、马丹等统计学教授,或单独,或团队,在居家躲“疫”、不给国家添乱的同时,拿起了统计武器,以一种特殊的方式投入到了抗击疫情之战。他们根据媒体上公布的关于疫情的有关数据,进行统计整理,编制统计表和统计图,观察各数据的变化情况,分析各数据之间的关系,研判未来的发展趋势,预测拐点出现的时间,体现了统计人忧国家之忧、做专业之事的担当精神。我本也想做点分析预测,但无奈特殊时期有特殊的公务,再加上对医学领域知识不熟悉,所以只好作罢。但我每天都在关注官方媒体公布的疫情数据,更是认真拜读同行们在微信上分享的分析研究成果。可以看出,大家做分析研究已经尽了最大的努力,但由于视角不同,所采用的核心指标不完全一样,具体方法也有差异,所以结论也有差别。这些差异或不同,引起了更多人的关注,同仁们纷纷参与讨论,提出自己的看法。这样的讨论,既紧扣疫情这一残酷的现实,又引发了学术上的思考,可以作为一个很好的教学案例。在此,我也谈点个人的思考。
首先,疫情的传染规律能否用统计数据反映出来,能否对其发展趋势进行预测?我国官方(国家卫健委)是从1月21日起公布疫情数据的(截止至20日24点),此后每日更新数据,包括当日新增确诊病例数、累计确诊病例数、当日新增疑似病例数、累计疑似病例数、当日治愈出院人数、累计治愈出院人数、重症病例数、当日死亡人数、累计死亡人数等数据,2月12日增加了临床诊断病例数。应该说,这些数据覆盖面全,一定程度上反映了各类情况的变化,因而每天都受到公众的热切关注。大家所做的疫情分析也是以这些数据为依据的。但是,大家讨论中提到了一个问题,那就是这些数据是否真实、及时、完整?是否做到了应统尽统、应计尽计?如果所有数据都是建立在全面筛查的基础上,那么它们是可信的,是能够反映疫情发展变化规律的,是可以据以进行趋势判断与预测的。
但事发突然,一方面由于公众开始时对本次冠状病毒的传染性认识不足,另一方面由于筛查和确诊病人的能力有限,因此官方所掌握的数据仅仅是纳入到了筛查范围的部分。特别是2月12日以前的确诊病例数,只是经过了核酸检查确认的数据,许多事实上已经是受病毒感染的病人由于得不到及时的核酸检测而被统计在了疑似病例数里。2月12日的新增确诊病例数之所以一下子由11日的2015例猛增为14840例,就是因为确诊的方式和标准变了,它包括了临床诊断病例数,而疑似病例数则大为下降。所以,我们可以发现,确诊病例数一是滞后的,二是少算了(可能个别地方还有故意瞒报的)。与此同时,我们也注意到,随着对新型冠状病毒的认识逐步深入,国家也在不断调整诊疗方案,已推出第五版,即确诊标准从“已得病毒肺炎”逐步调整为“已染冠状病毒”。所以,每一次诊疗标准的变化,上述相关数据在不同日子的实际含义是不一样的。
由此,由每天上述数据构成的时间序列,实际上不是一个可比的时间序列。依据不可比的时间序列做统计分析、尤其是趋势预测分析,结果自然是不稳定的,出入也是大的。当然,这不是说我们就束手无策、不能搞分析预测了,前提是要对时序数据进行倒推调整,以使每天的数据在诊疗标准、口径范围上可比或总体可比。此外,我们还要注意上述数据之间的动态平衡关系,即有关数据在逻辑上能否相互支撑、相互印证而不是相互矛盾。
其次,我们开展疫情分析和趋势预测,该用什么指标?该用什么方法?上述所列数据有9个,无疑,我们在做统计分析时,一定要把所有9个指标都纳入分析框架,因为它们是相互关联的一个整体,构成了统计指标体系。但是,哪一个是核心指标?是确诊病例数还是疑似病例数或是死亡人数?是新增数还是累计数?这就要从病毒的特性着手。具有传染性的病毒,我们需要关注其传染能力强不强(病毒学上有一个指标叫基本传染数R0,数值大于0就具有传染力。本次新型冠状病毒的R0值,有的研究认为2.2,有的认为高达4)、潜伏期长不长(本次病毒的潜伏期,专家认为最长14天)、致死率高不高(本次疫情死亡率大约为2.2%,其中武汉大约5-6%)这三个基本方面。
疫情防控,减少死亡率是目标,隔阻传染途径、防住疑似病例数、控住确诊病例数是重点,全力诊治、减少重症病例数是关键。所以,到底哪个是核心指标、是一个核心指标还是数个核心指标,我认为对于不同的病毒是不一样的,要具体问题具体分析。在数据及时准确、可比的前提下,从疑似病例数、到确诊病例数、再到重症病例数、最后到死亡人数,应该存在一个比较稳定的比例关系,它们的变化趋势应该是基本一致的。李宝瑜教授就是用比例系数由疑似病例数来预测确诊病例数的。本次疫情与2003年的SARS病毒相比,死亡率低一些,但传染性高一些,因此我认为以疑似病例数或者同时以疑似病例数和确诊病例数作为核心指标是合适的。
至于该用什么方法进行统计分析和趋势预测,我认为选择是多样化的,不同的学者可以基于自身的学科背景、专业知识和学术特长,采用自认为合适的方式方法开展分析研究工作。但有一条标准,那就是必须以问题为导向、以数据为核心、以符合事实为目标。也就是最后看结论是否符合事实、是否符合逻辑、能否解释疑问。无疑,困难在于如何量化疫情的不确定性。曾五一、李宝瑜等教授的分析预测,方法比较简单,但紧扣问题,紧跟数据,能牢牢抓住问题的本质及其数量关系。真正的高手能够用简洁的方法从有限的数据中看出问题。也有学者通过构建数学模型来分析研判疫情的发展趋势,想回答大家一致关心的“拐点何时到来”这一焦点问题,我认为这也值得充分肯定。但不能忽略如下两个问题:一是时序的长度、疫情相关数据特征是否符合建模的基本要求?模型能否体现病毒的传染特性(有没有二代传染、三代传染…,传染性增强还是递减)?二是数学上的拐点含义与公众所理解的拐点是否一个意思?怎么解释?因为公众关注的现实问题不是纯学术问题,需要我们用公众能接受的语言和理解来解惑释疑。
第三,能否利用大数据技术开展疫情防控和分析?基于目前的信息技术和公众使用智能化手机的普及程度,我认为利用大数据技术来开展疫情分析和防控是完全可行的。如果我们能够利用大数据技术在第一时间掌握全部的疑似病例和确诊病例等数据及其每日变化和区域分布情况,那么我们所做的疫情统计分析、趋势预测就会有效得多。事实上,我们已经在一定程度上利用大数据技术了。例如,利用高铁、飞机、公交车的乘客数据追踪病源及其接触人员,政府机构、企事业单位自主开发网络系统全面收集员工的身体健康状况信息等等,都属于大数据技术的应用。
为了全面、动态、及时了解市民的身体状况,杭州市2月11日上线了一个健康码系统,要求所有市民和拟进入杭州的人员在线填写姓名、身份证号码及与本次疫情有关的信息,然后自动生成或红或黄或绿的健康码。不诚实填写者,一经发现即给予严肃处理。其中,红码者需要集中隔离或居家隔离14天,黄码者需要集中隔离或居家隔离7天,绿码者在市内扫码通行。一旦出现疑似病例或确诊病例,可以第一时间掌握相关信息。这一利用大数据思维和技术的做法得到了社会的一致肯定和好评。
疫情防控需统计,或繁或简总相宜。只要我们统计人敢于担当,那么任何时候都可以发出我们科学理性的声音!
作者:李金昌 未一统计 本文已刊登于《中国统计》2020年第2期