Controllable protein design with language models_天天新消息

2023-07-05 13:41:11 来源：哔哩哔哩

(相关资料图)

21世纪给人类带来了前所未有的环境和医学挑战。设计专门用于特定目的的新型蛋白质有可能彻底改变我们应对这些问题的能力。人工智能领域的最新进展，为实现这一目标铺平了道路。蛋白质序列本质上类似于自然语言：氨基酸以多种组合方式排列，形成具有功能的结构，就像字母组成单词和句子承载意义一样。因此，在自然语言处理（NLP）的发展历程中，其许多技术已被应用于蛋白质研究问题上，并不足为奇。过去几年，我们见证了NLP领域的革命性突破。通过实施预训练模型的改进，使得生成具有人类般能力的文本成为可能，包括具有特定特性（如风格或主题）的文本。在蛋白质序列生成方面，受到NLP任务的巨大成功的鼓舞，我们预计专用的转换器将在不久的将来主导着这一领域。通过在蛋白质家族上进行预训练模型的微调，将能够扩展其新颖序列的范围，这些序列可能高度异质，但仍然可能具有功能。结合细胞组分或功能等控制标签，将进一步实现对新型蛋白质功能的可控设计。此外，最近的模型可解释性方法将帮助我们揭开“黑匣子”，从而增进对折叠原理的理解。早期的研究表明，生成式语言模型在设计功能序列方面具有巨大潜力。我们相信，利用生成式文本模型创造新型蛋白质是一个有前景且尚未深入探索的领域，并讨论了它对蛋白质设计的可预见影响。

蛋白质是生命的普遍构成要素，在几乎每一个细胞过程中发挥着至关重要的作用。以定制化的方式快速、高效地设计特定蛋白质，将有潜力解决人类今天和未来所面临的许多挑战。例如，我们将能够设计能够代谢塑料废物或水解污染毒素的酶，或者在流行病爆发时及时创建新的疫苗。然而，尽管取得了巨大的进展，当代研究在设计蛋白质的能力上仍远远落后于自然界生成的蛋白质。

蛋白质设计的目标是创造具有特定功能的定制结构。这个巨大的挑战通常被称为反向蛋白质折叠问题：与其寻找一种序列会折叠成的结构，而是要获得一种能采用特定折叠的最优序列。从数学上讲，这个问题是通过优化算法来解决的，这些算法搜索由能量函数定义的顺序-结构景观的全局最小值。尽管最广泛使用的能量函数相对简单，但每个位置的构型数和可能的组合会导致组合爆炸。因此，大多数蛋白质设计软件都依赖启发式算法。由于这种复杂性，并且尽管最近取得了显著进展，从头设计蛋白质通常需要相当长的时间和努力。绝大多数功能性蛋白质是通过预选自然存在的支架结构，然后在迭代过程中优化其功能，而不是同时设计序列和结构以执行特定功能。

虽然蛋白质设计问题是通过以目标结构为目标的物理化学函数来解决的，但蛋白质的一个最显著特点是它们在其氨基酸序列中完全编码了其结构和功能，并且效率极高。这意味着在没有生物物理约束的情况下，仅凭序列就可以捕捉到蛋白质的特性，从而为利用自然语言处理（NLP）方法开辟了新的蛋白质研究领域。

下面的部分总结了自然语言和蛋白质序列之间的相似性和差异，并展示了NLP研究已经如何影响蛋白质科学。我们将强调该领域中最显著的发展，即Transformer架构。接下来的部分将介绍Transformer的独特生成能力如何重塑蛋白质设计领域。最后，我们将对非自然催化反应和定制新功能等非常具有挑战性的情况下，Transformer架构可能如何占据主导地位提出展望。我们希望这篇综述能够触及人工智能和生物学领域，并鼓励进一步的协作努力，将NLP技术应用于蛋白质设计。在附录1中提供了一些术语的词汇表。

蛋白质的语言

有几个特征表明人类语言和蛋白质序列之间的相似性，其中最明显的可能是它们的层级组织。类似于人类语言，蛋白质由一系列字符串组成：20种标准氨基酸。然后，这些字母组合形成单词，氨基酸组合成二级结构元素或保守的蛋白质片段。就像单词组合成携带意义的句子一样，片段可以组合成不同的蛋白质结构，从而发挥功能。

语言和蛋白质的起源和演化也表现出一些相似之处。语言发展并不断适应，涌现出更能反映我们不断发展的社会的词汇。目前，全球有超过8000种语言，分为140多个语言系列，而这些语言都源于5万到7万年前在非洲中部使用的一种共同祖先语言。同样，地球上所有生物都有一个(最后的普遍)共同祖先——LUCA，一个在40亿年前就存在的微生物，其中包含了已经通过进化发展起来的大多数现代蛋白质结构域。

在人类语言中，单词与相邻单词以类似的方式产生关系并相互作用，如同氨基酸依赖于它们的顺序周围的其他氨基酸。然而，人类语言还存在着远程依赖关系，即不严格相邻的单词或形态素之间的依赖关系，比如长文本中不同句子之间的主语。这类似于蛋白质结构中的情况，序列中相距较远的氨基酸可能在3D结构中相互作用，有时会跨越结构域边界。这种相关性也延伸到了蛋白质中观察到的其他行为。在句子的意义中添加或改变一个字母的有害效果与由单个突变引起的功能丧失等效。在保持意思的情况下改变单词的顺序类似于序列置换。最后，形成一个语法上正确但没有明显功能的无意义句子类似于设计的蛋白质结构，如淀粉样纤维。

然而，需要注意的是，蛋白质和人类语言也存在着一些差异，这些差异对于将NLP应用于蛋白质研究构成了挑战。我们将列举一些例子。首先，许多人类语言在书面文本中提供了明确可辨别的单词定义（以中国为一个突出例外），但在蛋白质中，“单词边界”不太明显。一种可能的做法是使用二级结构元素的定义或保守的片段。无论哪种情况下，标记化过程都将依赖于三级结构的可用性和计算量更大的计算。第二个有重大影响的差异是对蛋白质语言的理解目前还缺乏，就像我们对许多已经灭绝的语言目前也不了解一样。虽然我们有用于训练蛋白质语言的语料库，但正确解读生成的序列仍然是一个挑战，需要广泛的实验测试来解析它们的功能性。第三，蛋白质的演化显然与语言的演化不同，受到随机性和环境压力的影响，并且必然会包含许多不规则性。虽然语言中存在音序法限制，即可能的连续音序列的演变方式，但这一方面在蛋白质中更为明显，蛋白质语言模型必须学习与折叠为3D结构相容的模式。最后，尽管具有可用的数据语料库的人类语言数量有限，仅限于十几种语言，但地球上目前有数百万种物种，我们更常常关注的是蛋白质的一般性质，而不是研究特定物种的蛋白质。这个事实对于传统的自然语言建模方法提出了质疑，这些方法一次仅接受一个句子作为输入。确实，当引入多序列比对（MSA）来预测物理接触时，蛋白质结构预测方法的性能大大提高。类似地，将MSA输入引入大型神经模型中，如MSA Transformer或AlphaFold，也取得了显著成功。虽然与同义词研究类似，但MSA的概念在NLP方法中没有直接的类比。

Controllable protein design with language models_天天新消息

Controllable protein design with language models_天天新消息

金星批艺人走红毯“穿着裸露还捂胸”惹议，回应：要有自信_全球热资讯

老彩民10+2复式揽大乐透1009万 还没有告诉家人 今日关注

全球热文：天津港（600717）7月4日主力资金净买入89.51万元

首搭第五代智混双擎 广汽丰田锋兰达试驾

隔山有眼2迅雷下载_隔山有眼2漫画

阿尔卡拉斯十分嫉妒安迪穆雷，希望费德勒也能来看他的比赛！-天天精选

梅龙

湖南万峰林业发展有限公司

当前看点!7月5日财经早餐：黄金在清淡的假日交易中上涨，投资者寻求更多美联储利率线索

【独家焦点】5月20日表白句_5月20日表白文案

一字加一笔是什么字15个_一字加一笔是什么字|当前速讯

【环球速看料】妻子的秘密小说林雅茹_妻子的秘密小说黄亦然

天天百事通！这里的弹硌路要回来了！

上合秘书长：上合扩员进程不会停止，预计明年白俄罗斯可完成所有程序

毕业典礼上的校长寄语，哪句最戳你？

罗毅君带队赴常德、邵阳开展灌区水价改革与建设管理工作调研|全球热文

海尔智家(06690.HK)7月4日耗资3307.46万元回购143万股A股|世界即时看

京东物流履约评份是怎么算出来的_物流里的抛重是怎么算出来的_环球播报

那哥们知道日本漂亮AVnvyou 介绍个_环球实时

广东省茂名市2023-06-24 02:27发布暴雨黄色预警 最新资讯

激励人奋进的话语_全球信息

生态美好的古诗有哪些 生态文明的古诗有哪些

华电国际（600027）7月4日主力资金净卖出470.96万元_全球滚动

“IT运维大脑”项目：已完成第一阶段部署上线并开始试用测试

国网晋江市供电公司一工程获评优质工程_世界短讯

环球新资讯：陕西太白山唐镇瑞斯丽酒店正式开业 小镇占地约3000亩

康宁医院(02120)上半年住院平均每床日总开支396元 同比增加2.1%

“穿越”到隋唐，解锁女皇体验卡 洛阳景区演员cosplay多个角色，15分钟“切换人生” 每日报道

华创证券：三季度对于生猪行业或非常艰难 但正是投资的良好布局机会|世界新资讯

清朝时期的顺天府尹，职权为何比同等级的官员高？

最新：电子后视镜概念股冲高 光庭信息20CM涨停

山西2023年普通高校招生录取7月4日开始_环球快消息

经销商透露 零跑C01增程版或将于8月上市_独家

2023年医保药品目录调整方案公布

​《夺宝奇兵5》“命运轮盘”真有其物，科学家拆解千年古物之谜

创意装饰无损展示照片让布告栏焕发新生

推动制造业可靠性提升 要闻

多家公司披露中标或投资环卫项目|全球快看

2946元，入手16GB+1TB版的realmeGTNeo5，那是相当划算的|环球快播报

以案释法 | 小区内开游乐场，父女乘观光车摔成重伤，责任由谁担？

恒隆地产（00101.HK）：7月3日南向资金增持25.1万股|环球热门

福州公安潘明（潘明先生：官方回应奶茶店被封：监管人员所为） 世界报道

当前头条：【新机】无缘小屏游戏神机：红魔平板12.1英寸屏幕

波尔多液是一种农业上常用的杀菌剂它由硫酸铜生石灰 全球即时看|全球新视野

网店怎么推广和宣传？ 网店运营的推广方式有哪些？怎么做？|天天速讯

南京都市圈：一山跨两地，美景同护共享|微速讯

每日关注!林州重机实控人夫妇连续质押所持股权 被问询后砍掉超一半日常关联交易预计额度

【天天新视野】快乐男生主题曲_快乐男生的冠军是谁

当前通讯！太辰光：利润分配股权登记日为2023年7月7日

“打折”“降费”！多家银行已行动 新消息

2023广西柳州市城中区下属事业单位招聘中高级（急需紧缺）人才（第二批）面试公告 天天热头条

游客吐槽景区丑女雕塑侮辱女性，景区：是汉字互动，没侮辱的意思

【聚看点】双箭股份：预计2023年上半年净利润为9259.73万元~1.04亿元 同比增长60%~80%

资阳市养老金社会平均工资是多少？2023资阳市养老金将调整吗？ 速读

香港特区政府支持警务处通缉涉嫌违反香港国安法的窜逃人 环球视讯

深粮控股股东户数减少162户，户均持股6.97万元|世界观焦点

天天热讯:哈弗枭龙系列万台车辆重磅下线，凭智造实力制胜新能源未来

环球简讯:三星 Galaxy Z Fold 5 全球变种访问 Geekbench 网站

加的斯和莫斯科斯巴达就邦贡达的转会谈判还在继续，... 天天微速讯

株洲阳成教育咨询有限公司_关于株洲阳成教育咨询有限公司概略 每日播报

今头条！后浪来了！85后博士厅官、90后党政一把手陆续亮相

当前快讯:昆山生态环境局：推动高水平环境保护与高质量经济发展协同并进

看热讯：文化产业年营收超16.5万亿元（新数据 新看点）

苏州启动防汛Ⅳ级应急响应-天天短讯

环球今头条！丰田中型车车型18万左右推荐，性价比高，这几款不要错过！

蓝厅观察丨日本就要打开“魔盒”祸害全球！ 当前快报

福田汽车7月3日盘中涨幅达5%|天天热文

今热点：多数资产管理公司的品牌兴趣连续第二年下降

今日快看!基金“中考”放榜：市场行情极度分化，新能源和医药“两头挨打”

@准大学生，高效准确填报志愿，要做好这些“功课” 环球观焦点

《阴性植物》作者:路游归(阳光开朗没谈过恋爱的z男G & 默默付出的温吞敏感S)创业 天天热资讯

【全球报资讯】巴西“第一庄园”，热带植物天堂

【世界快播报】惴惴不安的惴的读音， 容易读错的Z音成语

每日观点：新时代“枫桥经验”与优化营商环境创新大会召开

世界今热点：长沙“四大名校”指标生最低录取线656分

【天天速看料】41码的鞋是多少厘米_41

官方：前切尔西名将马卢达之子签约里尔 环球观点

戒糖的好处与危害 戒糖的好处和坏处|全球速读

老彩民10+2复式揽大乐透1009万还没有告诉家人今日关注

首搭第五代智混双擎广汽丰田锋兰达试驾

广东省茂名市2023-06-24 02:27发布暴雨黄色预警最新资讯

生态美好的古诗有哪些生态文明的古诗有哪些

环球新资讯：陕西太白山唐镇瑞斯丽酒店正式开业小镇占地约3000亩

康宁医院(02120)上半年住院平均每床日总开支396元同比增加2.1%

“穿越”到隋唐，解锁女皇体验卡洛阳景区演员cosplay多个角色，15分钟“切换人生” 每日报道

华创证券：三季度对于生猪行业或非常艰难但正是投资的良好布局机会|世界新资讯

最新：电子后视镜概念股冲高光庭信息20CM涨停

经销商透露零跑C01增程版或将于8月上市_独家

《夺宝奇兵5》“命运轮盘”真有其物，科学家拆解千年古物之谜

推动制造业可靠性提升要闻

福州公安潘明（潘明先生：官方回应奶茶店被封：监管人员所为）世界报道

波尔多液是一种农业上常用的杀菌剂它由硫酸铜生石灰全球即时看|全球新视野

网店怎么推广和宣传？网店运营的推广方式有哪些？怎么做？|天天速讯

每日关注!林州重机实控人夫妇连续质押所持股权被问询后砍掉超一半日常关联交易预计额度

“打折”“降费”！多家银行已行动新消息

2023广西柳州市城中区下属事业单位招聘中高级（急需紧缺）人才（第二批）面试公告天天热头条

【聚看点】双箭股份：预计2023年上半年净利润为9259.73万元~1.04亿元同比增长60%~80%

资阳市养老金社会平均工资是多少？2023资阳市养老金将调整吗？速读

香港特区政府支持警务处通缉涉嫌违反香港国安法的窜逃人环球视讯

株洲阳成教育咨询有限公司_关于株洲阳成教育咨询有限公司概略每日播报

看热讯：文化产业年营收超16.5万亿元（新数据新看点）

蓝厅观察丨日本就要打开“魔盒”祸害全球！当前快报

《阴性植物》作者:路游归(阳光开朗没谈过恋爱的z男G & 默默付出的温吞敏感S)创业天天热资讯

【世界快播报】惴惴不安的惴的读音，容易读错的Z音成语

官方：前切尔西名将马卢达之子签约里尔环球观点

戒糖的好处与危害戒糖的好处和坏处|全球速读

金玉堂：7.2黄金周初不会出现较大波动，下周短线交易思路分析全球独家

Realme 6 Pro和6将作为Realme Days的一部分发售全球热资讯

护照有效期在哪里看_护照有效期是几年世界观焦点

环球热推荐：6个月28项这是中国载人航天的“2023年中成绩单”

兆易创新盈利能力大幅提升存储芯片量价齐升

华致酒行：荷花·玉系列再获殊荣非标精品酒发力提振业绩

永贵电器轨交连接器龙头四大板块协同发展

老白干酒并购丰联酒业后公司完成“一树三香”布局