摘要:
天然酶具有绿色环保、高效催化的优点,但由于工业环境的酸碱性、温度等条件不够适宜,天然酶在实际工业生产中往往存在错误折叠、功能受限等问题。使用人工智能技术辅助酶的改造设计,相比传统方法具有高效、快速、低成本的优势,但在这个过程中大部分工作没有考虑设计改造酶的“可折叠性”问题。同时,最近几年来,以AlphaFold2为代表的蛋白质结构预测工具借助人工智能技术取得了突破性的进展,已经具有原子级别的结构预测精度。这一工具的日益成熟,不仅有助于对蛋白结构功能机制的了解,同时可以丰富现有酶结构数据,用于后续的研究。因此,基于现有酶改造以及从头设计新酶过程中出现的错误折叠导致成功率不高、实验验证成本高的问题,我们认为结合蛋白质结构预测工具辅助酶的改造设计任务,可以增加设计可靠酶的数量,同时降低实验成本。本文首先梳理回顾人工智能技术在酶设计改造中的应用,主要从序列和结构两个角度展开。然后将现有蛋白质结构预测工具归纳成四种类型分别介绍其设计原理和预测能力。接着以AlphaFold2为代表性工作,归纳了三种在现有技术基础上利用结构预测工具进一步提高酶改造的合理性以及酶设计的“可折叠性”的方式:①结构“分析器”;②突变“筛选器”;③折叠“监督器”。最后在讨论部分总结并提出了一些现有算法的不足和缺陷。随着人工智能技术的逐渐发展以及人类对蛋白质作用机理的研究,酶的改造设计精度一定会有所提高,这将助力合成生物学的快速发展。
Abstract:
Natural enzymes often have advantages of environmental friendliness, high catalytic efficiency and so on. However, due to inappropriate pH, temperature and other conditions in industrial environment, the application of natural enzymes in industrial production is unsatisfactory owing to challenges such as misfolding of proteins and limited functions. Compared with traditional methods, enzyme design and engineering with the help of artificial intelligence (AI) have advantages of high efficiency, high speed and low cost, but most work does not consider the 'foldability' in the process of enzyme engineering. A designed enzyme may fold to another state for minimum energy, so called misfolding. As we all know, protein design is regarded as an inverse folding process. Can we utilize protein folding tools to constrain the foldability of the designed enzyme? In recent years, protein structure prediction tools represented by AlphaFold2 have made breakthroughs with the help of AI for accuracy at atomic levels, which enriches existing enzyme structure data for subsequent studies to address the above question. Therefore, we discuss applying protein structural tools to fulfill the task of enzyme design and engineering, increase the proportion of reliable enzymes designed and reduce the cost of experiments. Firstly, we review the application of artificial intelligence technology in enzyme design and engineering from the perspective of sequence and structure. Then, we summarize existing protein structure prediction tools into four types and introduce their methods and prediction ability respectively. Furthermore, taking AlphaFold2 as an example, we group the applications which improve the rationality of enzyme modification and the "foldability" of design into three categories: 1) Structure 'Analyzer', 2) Mutation 'Filter' and 3) Folding 'Monitor'. Finally, we highlight drawbacks with existing algorithms for further improvements. With the rapid development of AI and understanding on protein function mechanism, the precision of enzyme modifications and designs will be increased.
Key words:
Artificial intelligence,
Synthetic biology,
Protein design,
Protein structure prediction,
Foldability
方法名称/ 作者
|
类型
|
模型框架
|
输入
|
输出
|
训练集
|
应用
|
特点
|
网页/GitHub
|
SCUBA
[
32
]
|
骨架设计
|
NC-NN
|
二级 结构motifs
|
骨架
|
PDB
|
两层α/β蛋白; 四螺旋束蛋白;EXTD
|
突破之前方法仅限于已有模式的限制,基于核密度估计构造神经网络形式的能量函数
|
https://doi.org/10.5281/zenodo.4533424
|
Namrata Anand
[
33
-
34
]
|
骨架设计
|
DCGAN
|
—
|
距离图
|
distance maps
|
补齐完整 的结构
|
C
α
原子之间的相对距离作为约束并优化
|
—
|
Mire Zloh
[
35
]
|
序列生成
|
LSTM
|
—
|
序列
|
CAMP+DBAASP+DRAMP+YADAMP
|
—
|
设计对大肠杆菌具有潜在抗菌活性的短肽,并通过结构和表面性能与典型的AMP结构进行比较
|
—
|
Gisbert Schneider
[
36
]
|
序列生成
|
RNN
|
—
|
序列
|
ADAM/APD/DADP
|
设计具有抗 菌功能的肽
|
设计出的肽相比随机生成的肽具有抗菌活性的较高
|
https://github.com/alexarnimueller/LSTM_peptides
|
ProteinGAN
[
37
]
|
序列生成
|
GAN
|
—
|
序列
|
MDH序列
|
MDH酶
|
设计与苹果酸脱氢酶同样功能的酶,可同时出现100多个位点
|
https://github.com/Biomatter-Designs/ProteinGAN
|
Mostafa Karimi
[
38
]
|
序列生成,给定折叠方式
|
gcWGAN
|
—
|
序列
|
SCOPe v. 2.07
|
—
|
设计了一个从序列到折叠的预测器作为“oracle”,监督序列折叠成给定的折叠类型
|
https://github.com/Shen-Lab/gcWGAN
|
ProteinMPNN
[
39
]
|
序列设计,结构约束
|
结构编码-序列解码的自回归模型
|
3D 结构
|
序列
|
CATH 4.2
|
单体、 环状低聚物、 蛋白质纳米颗粒
|
从结构中学习残基类型,将原子配对距离势融入到边的特征表示中,使序列恢复率直接提高约7.8%
|
https://github.com/dauparas/ProteinMPNN
|
ABACUS-R
[
40
]
|
序列设计,结构约束
|
结构编码-序列解码
|
3D 结构
|
序列
|
CATH 4.2
|
PDB ID: 1r26, 1cy5 and 1ubq 3个骨架结构
|
从结构中学习残基类型,多任务学习
|
https://github.com/liuyf020419/ABACUS-R
|
Transformer
|
David T. Jones
[
41
]
|
序列设计,结构约束
|
贪婪的半随机游走,逐步突变起始序列进行迭代的端到端设计
|
序列
|
序列
|
—
|
Top7;Peak6;Foldit1;Ferredog-Diesel
|
利用AlphaFold2预测生成序列的结构以及pLDDT打分,判断突变位点以及用距离图约束结构符合给定结构;对于最初始的序列,通过生成模型以及AlphaFold2结构约束产生初始序列
|
|
AlphaDesign
[
42
]
|
序列设计,结构约束
|
基于进化的遗传算法迭代生成序列
|
随机序列
|
序列
|
—
|
设计稳定的 单体,二聚体 直到六聚体
|
利用AlphaFold2预测的结构与要设计的骨架结构的差异来调整序列的优化
|
—
|
trDesign
[
43
]
|
序列设计,结构约束
|
trRosetta
|
随机序列
|
序列
|
—
|
—
|
二维距离直方图的损失来更新梯度,更新被表示为PSSM的序列,可以理解为“折叠”的逆问题
|
https://github.com/gjoni/trDesign
|
Hallucination
[
44
]
|
序列设计,结构约束,不固定骨架结构
|
trRosetta
|
随机序列
|
序列/结构
|
PDB训练背景分布概率
|
设计2000条新的幻觉序列,聚类后129条表达后,62个蛋白 可溶,高稳定
|
随机出发设计一条序列,通过最大化与随机背景序列的结构差异,约束该序列具有一个典型的2维结构特性
|
https://github.com/gjoni/trDesign
|
Constrained hallucination2
[
45
]
|
序列设计,结构约束
|
RoseTTAFold
|
序列/结构
|
序列/结构
|
RoseTTAFold训练集
|
|
设计具有给定motif的序列,通过神经网络不断迭代推理以及反向传播来设计序列
|
https://github.com/RosettaCommons/RFDesign
|
RFjoint
[
45
]
|
序列设计,结构约束
|
训练RoseTTAFold
|
序列/结构
|
序列/结构
|
微调,其中25%:PDB (2020-02-17); 75%:AF2预测结构
|
免疫原;金属结合;新酶;特定结合的蛋白
|
添加同时恢复序列和结构信息的损失,直接训练全新的模型
|
PiFold
[
46
]
|
序列设计
|
GNN
|
3D 结构
|
序列
|
CATH
|
序列恢复率:51.66%(CATH4.2),58.72%(TS50),60.42%(TS500)
|
设计了新的残基特征器,PiGNN层学习多尺度(节点,边,全局)的残基相互作用信息
|
https://github.com/A4Bio/PiFold
|
ProDESIGN-LE
[
47
]
|
序列设计
|
Transformer+MLP
|
3D 结构
|
序列
|
PDB40
|
设计CATⅢ酶新序列,3/5可表达且可溶;GFP
|
通过Transformer学习当前残基在局部结构环境中的依赖性,使设计序列中的残基类型适配于当前的局部环境
|
http://81.70.37.223/; https://github.com/bigict/ProDESIGN-LE
|
表1
蛋白质设计工具汇总
Table 1
Summary of protein design tools
方法名称/ 作者
|
类型
|
模型框架
|
输入
|
输出
|
训练集
|
应用
|
特点
|
网页/GitHub
|
SCUBA
[
32
]
|
骨架设计
|
NC-NN
|
二级 结构motifs
|
骨架
|
PDB
|
两层α/β蛋白; 四螺旋束蛋白;EXTD
|
突破之前方法仅限于已有模式的限制,基于核密度估计构造神经网络形式的能量函数
|
https://doi.org/10.5281/zenodo.4533424
|
Namrata Anand
[
33
-
34
]
|
骨架设计
|
DCGAN
|
—
|
距离图
|
distance maps
|
补齐完整 的结构
|
C
α
原子之间的相对距离作为约束并优化
|
—
|
Mire Zloh
[
35
]
|
序列生成
|
LSTM
|
—
|
序列
|
CAMP+DBAASP+DRAMP+YADAMP
|
—
|
设计对大肠杆菌具有潜在抗菌活性的短肽,并通过结构和表面性能与典型的AMP结构进行比较
|
—
|
Gisbert Schneider
[
36
]
|
序列生成
|
RNN
|
—
|
序列
|
ADAM/APD/DADP
|
设计具有抗 菌功能的肽
|
设计出的肽相比随机生成的肽具有抗菌活性的较高
|
https://github.com/alexarnimueller/LSTM_peptides
|
ProteinGAN
[
37
]
|
序列生成
|
GAN
|
—
|
序列
|
MDH序列
|
MDH酶
|
设计与苹果酸脱氢酶同样功能的酶,可同时出现100多个位点
|
https://github.com/Biomatter-Designs/ProteinGAN
|
Mostafa Karimi
[
38
]
|
序列生成,给定折叠方式
|
gcWGAN
|
—
|
序列
|
SCOPe v. 2.07
|
—
|
设计了一个从序列到折叠的预测器作为“oracle”,监督序列折叠成给定的折叠类型
|
https://github.com/Shen-Lab/gcWGAN
|
ProteinMPNN
[
39
]
|
序列设计,结构约束
|
结构编码-序列解码的自回归模型
|
3D 结构
|
序列
|
CATH 4.2
|
单体、 环状低聚物、 蛋白质纳米颗粒
|
从结构中学习残基类型,将原子配对距离势融入到边的特征表示中,使序列恢复率直接提高约7.8%
|
https://github.com/dauparas/ProteinMPNN
|
ABACUS-R
[
40
]
|
序列设计,结构约束
|
结构编码-序列解码
|
3D 结构
|
序列
|
CATH 4.2
|
PDB ID: 1r26, 1cy5 and 1ubq 3个骨架结构
|
从结构中学习残基类型,多任务学习
|
https://github.com/liuyf020419/ABACUS-R
|
Transformer
|
David T. Jones
[
41
]
|
序列设计,结构约束
|
贪婪的半随机游走,逐步突变起始序列进行迭代的端到端设计
|
序列
|
序列
|
—
|
Top7;Peak6;Foldit1;Ferredog-Diesel
|
利用AlphaFold2预测生成序列的结构以及pLDDT打分,判断突变位点以及用距离图约束结构符合给定结构;对于最初始的序列,通过生成模型以及AlphaFold2结构约束产生初始序列
|
|
AlphaDesign
[
42
]
|
序列设计,结构约束
|
基于进化的遗传算法迭代生成序列
|
随机序列
|
序列
|
—
|
设计稳定的 单体,二聚体 直到六聚体
|
利用AlphaFold2预测的结构与要设计的骨架结构的差异来调整序列的优化
|
—
|
trDesign
[
43
]
|
序列设计,结构约束
|
trRosetta
|
随机序列
|
序列
|
—
|
—
|
二维距离直方图的损失来更新梯度,更新被表示为PSSM的序列,可以理解为“折叠”的逆问题
|
https://github.com/gjoni/trDesign
|
Hallucination
[
44
]
|
序列设计,结构约束,不固定骨架结构
|
trRosetta
|
随机序列
|
序列/结构
|
PDB训练背景分布概率
|
设计2000条新的幻觉序列,聚类后129条表达后,62个蛋白 可溶,高稳定
|
随机出发设计一条序列,通过最大化与随机背景序列的结构差异,约束该序列具有一个典型的2维结构特性
|
https://github.com/gjoni/trDesign
|
Constrained hallucination2
[
45
]
|
序列设计,结构约束
|
RoseTTAFold
|
序列/结构
|
序列/结构
|
RoseTTAFold训练集
|
|
设计具有给定motif的序列,通过神经网络不断迭代推理以及反向传播来设计序列
|
https://github.com/RosettaCommons/RFDesign
|
RFjoint
[
45
]
|
序列设计,结构约束
|
训练RoseTTAFold
|
序列/结构
|
序列/结构
|
微调,其中25%:PDB (2020-02-17); 75%:AF2预测结构
|
免疫原;金属结合;新酶;特定结合的蛋白
|
添加同时恢复序列和结构信息的损失,直接训练全新的模型
|
PiFold
[
46
]
|
序列设计
|
GNN
|
3D 结构
|
序列
|
CATH
|
序列恢复率:51.66%(CATH4.2),58.72%(TS50),60.42%(TS500)
|
设计了新的残基特征器,PiGNN层学习多尺度(节点,边,全局)的残基相互作用信息
|
https://github.com/A4Bio/PiFold
|
ProDESIGN-LE
[
47
]
|
序列设计
|
Transformer+MLP
|
3D 结构
|
序列
|
PDB40
|
设计CATⅢ酶新序列,3/5可表达且可溶;GFP
|
通过Transformer学习当前残基在局部结构环境中的依赖性,使设计序列中的残基类型适配于当前的局部环境
|
http://81.70.37.223/; https://github.com/bigict/ProDESIGN-LE
|
吴玉洁, 刘欣欣, 刘健慧, 杨开广, 随志刚, 张丽华, 张玉奎.
基于高通量液相色谱质谱技术的菌株筛选与关键分子定量分析研究进展
[J]. 合成生物学, 2023, 4(5): 1000-1019.
胡哲辉, 徐娟, 卞光凯.
自动化高通量技术在天然产物生物合成中的应用
[J]. 合成生物学, 2023, 4(5): 932-946.
刘欢, 崔球.
原位电离质谱技术在微生物菌株筛选中的应用进展
[J]. 合成生物学, 2023, 4(5): 980-999.
王雁南, 孙宇辉.
碱基编辑技术及其在微生物合成生物学中的应用
[J]. 合成生物学, 2023, 4(4): 720-737.
刘晚秋, 季向阳, 许慧玲, 卢屹聪, 李健.
限制性内切酶的无细胞快速制备研究
[J]. 合成生物学, 2023, 4(4): 840-851.
孙美莉, 王凯峰, 陆然, 纪晓俊.
解脂耶氏酵母底盘细胞的工程改造及应用
[J]. 合成生物学, 2023, 4(4): 779-807.
孙智, 杨宁, 娄春波, 汤超, 杨晓静.
功能拓扑的理性设计及其在合成生物学中的应用
[J]. 合成生物学, 2023, 4(3): 444-463.
赖奇龙, 姚帅, 查毓国, 白虹, 宁康.
微生物组生物合成基因簇发掘方法及应用前景
[J]. 合成生物学, 2023, 4(3): 611-627.
陈志航, 季梦麟, 戚逸飞.
人工智能蛋白质结构设计算法研究进展
[J]. 合成生物学, 2023, 4(3): 464-487.
康里奇, 谈攀, 洪亮.
人工智能时代下的酶工程
[J]. 合成生物学, 2023, 4(3): 524-534.
王晟, 王泽琛, 陈威华, 陈珂, 彭向达, 欧发芬, 郑良振, 孙瑨原, 沈涛, 赵国屏.
基于人工智能和计算生物学的合成生物学元件设计
[J]. 合成生物学, 2023, 4(3): 422-443.
吕海龙, 王建, 吕浩, 王金, 徐勇, 顾大勇.
合成生物学在下一代基因诊断技术中的应用进展
[J]. 合成生物学, 2023, 4(2): 318-332.