Controllable protein design with language models_天天新消息
(相关资料图)
21世纪给人类带来了前所未有的环境和医学挑战。设计专门用于特定目的的新型蛋白质有可能彻底改变我们应对这些问题的能力。人工智能领域的最新进展,为实现这一目标铺平了道路。蛋白质序列本质上类似于自然语言:氨基酸以多种组合方式排列,形成具有功能的结构,就像字母组成单词和句子承载意义一样。因此,在自然语言处理(NLP)的发展历程中,其许多技术已被应用于蛋白质研究问题上,并不足为奇。过去几年,我们见证了NLP领域的革命性突破。通过实施预训练模型的改进,使得生成具有人类般能力的文本成为可能,包括具有特定特性(如风格或主题)的文本。在蛋白质序列生成方面,受到NLP任务的巨大成功的鼓舞,我们预计专用的转换器将在不久的将来主导着这一领域。通过在蛋白质家族上进行预训练模型的微调,将能够扩展其新颖序列的范围,这些序列可能高度异质,但仍然可能具有功能。结合细胞组分或功能等控制标签,将进一步实现对新型蛋白质功能的可控设计。此外,最近的模型可解释性方法将帮助我们揭开“黑匣子”,从而增进对折叠原理的理解。早期的研究表明,生成式语言模型在设计功能序列方面具有巨大潜力。我们相信,利用生成式文本模型创造新型蛋白质是一个有前景且尚未深入探索的领域,并讨论了它对蛋白质设计的可预见影响。
蛋白质是生命的普遍构成要素,在几乎每一个细胞过程中发挥着至关重要的作用。以定制化的方式快速、高效地设计特定蛋白质,将有潜力解决人类今天和未来所面临的许多挑战。例如,我们将能够设计能够代谢塑料废物或水解污染毒素的酶,或者在流行病爆发时及时创建新的疫苗。然而,尽管取得了巨大的进展,当代研究在设计蛋白质的能力上仍远远落后于自然界生成的蛋白质。
蛋白质设计的目标是创造具有特定功能的定制结构。这个巨大的挑战通常被称为反向蛋白质折叠问题:与其寻找一种序列会折叠成的结构,而是要获得一种能采用特定折叠的最优序列。从数学上讲,这个问题是通过优化算法来解决的,这些算法搜索由能量函数定义的顺序-结构景观的全局最小值。尽管最广泛使用的能量函数相对简单,但每个位置的构型数和可能的组合会导致组合爆炸。因此,大多数蛋白质设计软件都依赖启发式算法。由于这种复杂性,并且尽管最近取得了显著进展,从头设计蛋白质通常需要相当长的时间和努力。绝大多数功能性蛋白质是通过预选自然存在的支架结构,然后在迭代过程中优化其功能,而不是同时设计序列和结构以执行特定功能。
虽然蛋白质设计问题是通过以目标结构为目标的物理化学函数来解决的,但蛋白质的一个最显著特点是它们在其氨基酸序列中完全编码了其结构和功能,并且效率极高。这意味着在没有生物物理约束的情况下,仅凭序列就可以捕捉到蛋白质的特性,从而为利用自然语言处理(NLP)方法开辟了新的蛋白质研究领域。
下面的部分总结了自然语言和蛋白质序列之间的相似性和差异,并展示了NLP研究已经如何影响蛋白质科学。我们将强调该领域中最显著的发展,即Transformer架构。接下来的部分将介绍Transformer的独特生成能力如何重塑蛋白质设计领域。最后,我们将对非自然催化反应和定制新功能等非常具有挑战性的情况下,Transformer架构可能如何占据主导地位提出展望。我们希望这篇综述能够触及人工智能和生物学领域,并鼓励进一步的协作努力,将NLP技术应用于蛋白质设计。在附录1中提供了一些术语的词汇表。
蛋白质的语言
有几个特征表明人类语言和蛋白质序列之间的相似性,其中最明显的可能是它们的层级组织。类似于人类语言,蛋白质由一系列字符串组成:20种标准氨基酸。然后,这些字母组合形成单词,氨基酸组合成二级结构元素或保守的蛋白质片段。就像单词组合成携带意义的句子一样,片段可以组合成不同的蛋白质结构,从而发挥功能。
语言和蛋白质的起源和演化也表现出一些相似之处。语言发展并不断适应,涌现出更能反映我们不断发展的社会的词汇。目前,全球有超过8000种语言,分为140多个语言系列,而这些语言都源于5万到7万年前在非洲中部使用的一种共同祖先语言。同样,地球上所有生物都有一个(最后的普遍)共同祖先——LUCA,一个在40亿年前就存在的微生物,其中包含了已经通过进化发展起来的大多数现代蛋白质结构域。
在人类语言中,单词与相邻单词以类似的方式产生关系并相互作用,如同氨基酸依赖于它们的顺序周围的其他氨基酸。然而,人类语言还存在着远程依赖关系,即不严格相邻的单词或形态素之间的依赖关系,比如长文本中不同句子之间的主语。这类似于蛋白质结构中的情况,序列中相距较远的氨基酸可能在3D结构中相互作用,有时会跨越结构域边界。这种相关性也延伸到了蛋白质中观察到的其他行为。在句子的意义中添加或改变一个字母的有害效果与由单个突变引起的功能丧失等效。在保持意思的情况下改变单词的顺序类似于序列置换。最后,形成一个语法上正确但没有明显功能的无意义句子类似于设计的蛋白质结构,如淀粉样纤维。
然而,需要注意的是,蛋白质和人类语言也存在着一些差异,这些差异对于将NLP应用于蛋白质研究构成了挑战。我们将列举一些例子。首先,许多人类语言在书面文本中提供了明确可辨别的单词定义(以中国为一个突出例外),但在蛋白质中,“单词边界”不太明显。一种可能的做法是使用二级结构元素的定义或保守的片段。无论哪种情况下,标记化过程都将依赖于三级结构的可用性和计算量更大的计算。第二个有重大影响的差异是对蛋白质语言的理解目前还缺乏,就像我们对许多已经灭绝的语言目前也不了解一样。虽然我们有用于训练蛋白质语言的语料库,但正确解读生成的序列仍然是一个挑战,需要广泛的实验测试来解析它们的功能性。第三,蛋白质的演化显然与语言的演化不同,受到随机性和环境压力的影响,并且必然会包含许多不规则性。虽然语言中存在音序法限制,即可能的连续音序列的演变方式,但这一方面在蛋白质中更为明显,蛋白质语言模型必须学习与折叠为3D结构相容的模式。最后,尽管具有可用的数据语料库的人类语言数量有限,仅限于十几种语言,但地球上目前有数百万种物种,我们更常常关注的是蛋白质的一般性质,而不是研究特定物种的蛋白质。这个事实对于传统的自然语言建模方法提出了质疑,这些方法一次仅接受一个句子作为输入。确实,当引入多序列比对(MSA)来预测物理接触时,蛋白质结构预测方法的性能大大提高。类似地,将MSA输入引入大型神经模型中,如MSA Transformer或AlphaFold,也取得了显著成功。虽然与同义词研究类似,但MSA的概念在NLP方法中没有直接的类比。
标签: