追踪病毒演化,他们用科学说话观点
“你们放下手头的所有工作,全力做这件事。”1月31日,大年初七,陆剑把自己的两位博士生拉入了一个小群。
他给学生布置了一个任务——根据数据库中的公开基因组序列,研究新型冠状病毒。
那时,陆剑也未预料到新冠肺炎疫情会持续这么久,影响这么多人。他的想法非常简单——给暂时无法返校的学生找点事做,让他们学些新东西。
陆剑是北京大学生命科学学院及蛋白质与植物基因研究国家重点实验室研究员,主要研究领域是进化生物学。根据疫情防控要求,学生目前还无法返校。5月底,陆剑带着科技日报记者走过一间间空荡荡的实验室,笑着说:“还有些不习惯。”
“这个地方太不同寻常了”
1月末,对新冠病毒的研究如雨后春笋。1月30日,《自然》的一篇文章显示,已经有54篇与新冠病毒相关的英文论文发表。
陆剑记得,2003年他在美国芝加哥大学攻读博士时,导师吴仲义先生与赵国屏先生及国内其他专家合作,完成了SARS的基因组演化研究。那时,陆剑并没有直接参与这项工作,但也被演化生物学与基因组结合所表现出的强大力量震撼。面对此次新冠肺炎疫情,陆剑想,或许自己能做些基因组演化工作,“这是我们的老本行”。
陆剑也把它当成一次实战教学,学生回不来,但学习要继续。
病毒基因组演化的样貌渐渐展现。这是一种单链RNA病毒,基因组为近3万个核苷酸,编码12个基因,编码区占基因组的近98%。
研究开始后不久,他们就抓住了第一个不寻常之处。
那时,能够分析的数据不多。即使一边做一边补充更新的数据,他们也只能分析103个病毒的基因组数据。
但就是根据这103个序列,在参考基因组的第8782和第28144位,课题组看到了“打包出现”的突变——这似乎是两个高度连锁的突变位点。
一般基因的突变都是单个随机出现,但这里的突变有所不同——“有你必有我”。“当时并不知道这个发现会有多大的意义,我只是觉得它太不寻常了。”
陆剑用投屏的方式向记者演示他的发现:“你看,新冠病毒基因组存在两个非常明显的谱系。”
课题组把两个谱系称为“L”和“S”,它们因基因组28144位突变对应的氨基酸分别是亮氨酸(L)和丝氨酸(S)得名。在103个样品中,72个为L谱系,29个为S谱系。
谱系之间分得如此清晰,也意味着这种分化在病毒演化早期就已经产生。那么,究竟哪一个谱系更为古老?
在这里,陆剑课题组也引入了做演化分析常用的一种手段——外群分析。他们用更为古老的病毒作为参考系后发现,在样本中占据更大比例的L谱系其实是“后来居上”,它实际上比S谱系更年轻。
学生:几个月只出过一次家门
“疫情就摆在那。”这是在交流中课题组博士生吴长城常说的一句话。疫情是“命令”,是责任,也是压力。
对学生来说,和新冠病毒的这次交手,确实是一次颇具挑战的学习过程。他们必须快速掌握此前并不熟悉的软件和分析工具,来到这个热门又陌生的领域。在短暂摸索之后,找到自己的位置,安营扎寨,埋头深挖下去。
“有消息就回,有活就干。”吴长城这样形容他们的工作状态。有一次,大家合作在微信群里改论文,一口气从头一天傍晚6时改到了第二天凌晨5时。
他们都觉得时间紧迫。
读博士三年级的课题组学生唐小鹿,从寒假到现在,就出过一次家门。
家长和孩子必要的沟通,是在饭点。团队成员经常开语音讨论会,唐小鹿能听到手机那头的叔叔阿姨在催着——“吃饭了!”她的战友们会短暂停顿一下,喊回去:“等一会儿!等一会儿!”
“唐小鹿,吴长城,姚欣敏,吴鑫凯……这些学生责任感很强,确实是比较‘玩命’地在做研究。”陆剑把他们挨个夸了一遍。
其实,在学生们看来,陆老师也是一个似乎不用休息的“狠角色”。“他经常夜里一两点还在群里发消息,早上再一看,老师又出现了。”唐小鹿说。
会继续用科学说话