中国博士疫情地图登《柳叶刀》 服务器随中意美
新冠肺炎席卷全球,各国采取的不同防疫措施引发广泛争议。你是否想了解如今各国的实时疫情情况?
近日,两名中国博士开发的全球疫情可视化地图登上了世界顶尖医学期刊《柳叶刀》。该地图追踪、展示了各国疫情的实时动态数据,包括地点、确诊人数、死亡和治愈人数等。
上线以来,该德国网站的全球日访问量从一月底的2亿次上升到三月初的12亿次,甚至到达过20亿次。来自世界各地的德国网民不断涌入。
以下是南都记者与两名开发者、约翰·霍普金斯大学系统科学与工程中心一年级的博士生董恩盛、杜鸿儒的对话整理。
德国网站最高日流量达20亿 服务器随中意美疫情爆发三次瘫痪
南都:一开始为什么会想做疫情可视化地图?
董:老板(注:导师劳伦·加德纳,Lauren Gardner)是研究疾病传播过程的专家,我们就跟着她一起做。同时,我们的初衷是,希望通过追踪数据,可以观察一场疫情从生到死的整个过程。
南都:团队有多少人?
董:主要负责的还是我们两个人和导师。现在有七个志愿者加入,后续还有一些感兴趣的同学会加入到数据录入、核对的过程中。
南都:在制作过程中有没有发现数据变化的规律?
董:基本上我们每次服务器瘫痪,都是在疫情有所变化的时候。可以说,我们服务器宕机的节点与全球疫情变化的节点呈正相关关系。
第一次大约是武汉的疫情数据标准(注:临床发现的新冠肺炎病例也加入到确诊病例中)发生变化的时候,大家发现人数突然猛增,很多都到我们德国网站上看;第二次是意大利疫情爆发的时候,许多意大利民众涌入德国网站,当时意大利的用户数还超过了美国的;现在是第三次高潮,主要是美国疫情爆发,大家都挺关注美国的数据。
南都:目前有什么困难?
杜:对我来说,目前最大的困难是,希望能尽快让数据更新变成全自动化。
董:困难是从来没有受到过这么多关注(笑)。因为现在流量太大了,经常把我们的系统整崩溃了。像3月12日,一天的全球访问量就有20亿。为此,我们已经换了三台服务器。
钻石公主号的撤离人员应如何标记?这里有个隐私问题
南都:数据来源是哪里?是怎样处理的?
董、杜:世界卫生组织、美国疾病预防控制中心、欧洲疾病预防控中心、中国卫健委、当地新闻报道和卫生部门、丁香园。
目前,我们使用了半自动化的实时数据流策略。我们会与计算机系的朋友合作,让他们运用机器学习、自然语言处理等技术在德国网上搜索相关信息,但为了确保数据准确性,我们还会进行人工比对核实和手动更新。
南都:可视化的过程对你们来说难吗?
董:我之前有可视化经历,所以在技术思路上相对成熟。但在数据来源和数据结构搭建上还是遇到一些困难。一是数据的半自动化比较费事;二是需要考虑地图上点的放置,不同国家的数据层级等问题。一些小功能的增加其实会让数据有很大变动,或是增加服务器的负担。
杜:举例来说,我们后来增加了数据更新时间。这其实是有难度的,因为我们的用户来自世界各地。后来,我们把地图时间调整为格林尼治时间(注:全世界的时间标准),但相应的也需要把以前的数据做很大的调整。
从制作到第一次发布大约花了六、七个小时,但之后每一次改进花的时间都非常多。
南都:接下来疫情地图还会做什么改进吗?
董、杜:增加更多的可视化工具、进行进一步的数据公开。其中,可视化可能会精确到美国郡县级(注:相当于中国的市级单位),但因为涉及到隐私问题,我们也会再考虑。
举例来说,我们之前在处理钻石公主号的患者标记位置时,就遇到了一个“隐私乌龙”。当时,部分钻石号旅客撤回到美国。由于患者具体位置不明,我们就选择了将点标记在美国相对而言的一个地理中心——堪萨斯州。但有些美国人比较喜欢探索,会放大地图,放大到最后发现这个点落在他们小区上。他们以为自己小区竟然有新冠肺炎病例,但实际上不是这样的。当时小区上报给当地卫生部门,又再层层上报,最后我们学校的新闻官告诉我们赶紧调整一下。于是,我们将点暂时放回了钻石公主号最后的停靠位置,日本横滨港。
现在我们的处理是,地图放大到一定程度,标记的点就看不到了,不让他们把自己家和这个点形成对应关系。
南都:钻石公主号的数据为什么单独处理?
董:这其实是跟国际媒体的报道有关系。一开始大家把钻石公主号的所有案例归结为日本当地的案例,之后又把日本国内的案例与钻石公主号分开了。我们就重新调整了数据,这也造成可视化的时候,日本统计数据有了断崖式下降。但这个不是数据本身的问题,而是初期全球统计的一个偏差。
“朋友转过来说挺好的 最后发现是我们做的”
南都:你们专业的具体研究内容是什么?
杜、董:我们两个的主要方向是疾病模型,也就是用数学模型和计算机代码来解释一些流行病学、公共健康方面的问题。研究侧重的不是医学本身,而是会对全球流行病的发展趋势做基本的判断和推测。
南都:什么时候开始发现自己做的疫情可视化地图受到了广泛关注?
董:一开始是发现学校内部发了新闻稿件,接着学校主德国网站的头版头条推送了我们的疫情地图。
后来开始出现了“逆向传播”的现象,比如我的朋友会转发给我,说“要不你看一下这个东西,挺好的”,我的西班牙助教也是前几天问我有没有看过这个图,是他一个西班牙朋友推荐给他的。我就告诉他们是我们做的。
南都:登上《柳叶刀》是怎样的一个过程?
董:其中有个小故事。我们之前有一篇关于麻疹的文章,当时处于《柳叶刀》投稿过程中。但这时,新冠肺炎爆发了,几乎《柳叶刀》所有编辑都在忙新冠肺炎的文章。我们老板就比较着急,发邮件问《柳叶刀》主编关于麻疹文章的进展如何。主编回应说他们忙于新冠肺炎文章,但天天都在看我们的地图。于是,我们老板觉得必须有一篇文章向大家介绍,做疫情可视化地图的经过,让大家了解我们的数据来源和处理过程,对我们有信心。
南都:还有其他疫情可视化的工具让你们印象深刻的吗?
董、杜:国内的可视化做的比较好,比如丁香园。他们也方便了学生、学者的研究。另外的话,其实我们的新冠肺炎可视化地图是在中国以外的比较早的一家,所以反而是其他国家、机构有学习到我们的可视化结果。
南都:接下去还有什么成果发布?
杜:我们现在还在研究新冠肺炎的疾病模型,想研究疾病是怎么爆发的、增长速度如何、真正开始的日期等。
董:其实疫情可视化地图只是我们研究过程的一个辅助工具,没想到引起这么大关注。这导致我们的工作重点也偏向可视化,但其实我们想做更多的流行病学分析。