谷歌DeepMind的人工智能模型搜索我们的基因,猜测谁可能会生病 - 华尔街日报
Jo Craven McGinty
HBB基因中的突变,左侧是一种称为β-珠蛋白的蛋白质,它是血红蛋白的亚基之一,可能导致镰状细胞病。CFTR中的突变,一种称为离子通道的特定类型的蛋白质,可能导致囊性纤维化。照片: Google DeepMind生物学家面临的最大挑战之一是弄清楚一个人基因密码中的无数变异中哪些可能使他们生病。人工智能正在帮助他们解决这个问题。
由Google母公司Alphabet的子公司DeepMind Technologies开发的机器学习模型已经记录了人体蛋白质结构中可能导致疾病的7100万个基因突变。
蛋白质对人体组织和器官的功能起着至关重要的作用。每种蛋白质都有一个基于氨基酸序列的独特结构,决定了它的功能和工作方式。通常,蛋白质结构的变异不会造成伤害,但一些突变会导致疾病。
血红蛋白的异常形式,一种在血液中携带氧气的蛋白质,会导致镰状细胞贫血。囊性纤维化是由负责调节细胞内外盐和液体流动的蛋白质的突变引起的。
DeepMind的AI模型AlphaMissense评估蛋白质的结构变异,并预测突变可能导致伤害的可能性。该模型寻找蛋白质组成变化仅为一个氨基酸的“错义”突变。
“这是你经常看到的变异类型,”Google DeepMind的研究科学家和项目负责人Jun Cheng说道,他也是这项研究的合著者,周二发表在《科学》杂志上。
该模型评估了超过19,000种人类蛋白质中的2.16亿种可能的单个氨基酸变化,并预测了7100万个错义变异。依靠生物数据中的模式,该模型预测了变异能够引起疾病的概率。研究人员发现32%的变异可能会引起疾病,57%的变异可能是良性的。
相比之下,在已经直接观察到的400万个错义变异中,有2%被分类为良性或者能够引起疾病。其余的未被分类。
AlphaMissense是基于DeepMind科学家先前研究的基础上构建的,他们使用人工智能来预测蛋白质的结构。那个项目,AlphaFold,根据氨基酸序列目录了2亿多个蛋白质的三维结构。
通过AlphaMissense,研究人员旨在评估这些结构变化的潜在影响。Google DeepMind的研究副总裁之一,也是这项研究的合著者Pushmeet Kohli将这个过程比作选择句子中的合适词语。
“如果你用一个英文句子中的词语替换另一个词语,你可以立刻看到这个替换词是否改变了句子的意思,”他说道。
研究人员对他们的模型进行了四项基准测试,包括专家筛选的数据库和测量基因突变影响的实验测试,这些方法都很昂贵且需要大量人力。他们表示,他们的模型表现出了很强的一致性,并且比其他类似的人工智能工具表现更好。
DeepMind正在公开其错义突变目录,以帮助分子生物学家、遗传学家和医生改进罕见疾病的诊断,并开发针对这些疾病的基因治疗方法。
在Science上的一篇相关文章中,爱丁堡大学计算蛋白生物学主席Joseph A. Marsh和威康桑格研究所细胞遗传学负责人Sarah A. Teichmann对这项工作表示赞赏,但称其当前实用性较小。
“目前的计算预测工具被认为不够可靠,不能单独用于基因诊断,” Marsh说。
请写信给Jo Craven McGinty,邮箱为[email protected]
发表于2023年9月20日的印刷版上,标题为“Google DeepMind的人工智能用于寻找疾病基因”。