来源:科技日报
(相关资料图)
科技日报记者 刘霞
英国“深度思维”公司今年8月曾宣布,其开发的人工智能(AI)程序“阿尔法折叠”已预测出约100万个物种的超过2亿种蛋白质的结构,涵盖科学界已编录的几乎每一种。现在,元宇宙平台公司(Meta)研究人员利用人工智能ESMFold预测了来自细菌、病毒和其他尚未被表征微生物的6亿多种蛋白质的结构。相关研究已经提交生物预印本网站biorxiv.org。
ESM宏基因组图谱数据库包含6.17亿种蛋白质的结构预测图片来源:《自然》网站
在最新研究中,Meta AI蛋白质团队使用“大型语言模型”预测了这些蛋白质的结构。要构建能通过几个字母或单词预测文本的工具,离不开大型语言模型的基础。语言模型通常需要大量文本进行训练,为将其应用于蛋白质,研究团队用已知的蛋白质序列训练它们,这些已知蛋白质可由20个不同氨基酸组成的链来表达,每个氨基酸由一个字母表示。然后,ESMFold学会了用模糊的氨基酸比例“自动完成”蛋白质。
团队负责人亚历山大·里维斯表示,这些训练让ESMFold对包含蛋白质形状信息的蛋白质序列有了直观了解。而且,与“阿尔法折叠”一样,这一网络能将这些了解到的信息与已知蛋白质结构和序列之间关系的信息结合,生成预测结构。
随后,他们在一个数据库上运用这一模型,该数据库由来自土壤、海水、人类肠道、皮肤和其他微生物栖息地的“宏基因组”DNA组成,其中绝大多数DNA条目编码潜在蛋白质,来自从未被培养过也不为人所知的生物体。总体而言,ESMFold预测了超6.17亿种蛋白质的结构,且只花了两周时间。而“阿尔法折叠”预测一种结构可能需要几分钟。
团队指出,ESMFold虽然不像“阿尔法折叠”那么准确,但在预测结构方面的速度要快60倍,这意味着他们可将结构预测扩展到更大的数据库。
里维斯表示:“这些来自土壤、海水和人体的微生物分子是我们了解最少的结构,最新研究有助于我们更进一步洞悉生物学。”
总编辑圈点:
人们形容蛋白质时,常说它乃生命之基石。但蛋白质的意义其实与其结构密切相关,因此如果能更深入的了解其结构,就可以更好地明确其工作原理,从而加速几乎所有生物学领域的研究,譬如为疾病设计新的疗法或疫苗。这也是目前多家团队致力于预测蛋白质结构的主要目的。现在,这一预测已涵盖了整个蛋白质世界,包括动物、植物、细菌、真菌和其他生物体的预测结构,可以预见,这些成果除了帮助攻克生命科学瓶颈外,也将在解决可持续性、粮食安全等重要问题上开辟新机。
关键词:
洛阳老城区在原有21个常态化核酸检测采样点的基础上 再次新增加22个核酸检测点
老城区新冠肺炎疫情防控指挥部办公室关于增设核酸采样点的通告面对当前复杂多变的疫情防控形势,为进一步优化核酸检测服务,更好地满足...
推动老字号品牌振兴与发掘 芜湖市老字号企业协会成立
10月29日,芜湖市老字号企业协会第一次会员大会暨协会成立大会在芜湖鸠江饭店举办。经选举,芜湖市老字号企业协会首届理事、监事名单出炉,
所有报考艺术类专业的考生注意!河南省2023年部分艺术类专业省统考将于11月开考
昨日,记者从市教育考试中心了解到,我省2023年部分艺术类专业省统考,将于11月26日开考。根据规定,除部分高校艺术史论、艺术学理论类专业
线路开通后乘客将享受便利 深圳地铁14号线所有车站的闸机均设置人脸识别模块
列车应用休眠唤醒、障碍物以及脱轨检测等技术,还配置手机无线充电功能……地铁14号线的各项便民黑科技在市民的期待中揭开面纱。值得关注的...
郑州惠济区发布公告:127个居民小区有序恢复正常生活秩序
惠济区实施动态调整居民小区疫情防控措施以来,广大市民朋友充分理解、积极配合,助力全区疫情防控形势不断趋稳向好。为尽早全面恢复全...
关于我们 加入我们 联系我们 商务合作 粤ICP备18023326号-32
中国创氪网 www.chuanganwang.cn 版权所有
投稿投诉联系邮箱:85 572 98@qq.com