来源:科技日报
科技日报记者 张佳星
细胞内有数以亿计的碱基、表达程序以及运行策略,而且各不相同。单细胞测序技术可解读单个细胞里的这些信息,但人工干预多、过度依赖人为选定的标记基因使得单细胞测序技术对细胞的注释稳定性较低。可以理解为,同一类细胞用不同的模型解析,结果不同,对一些特殊细胞“公说公有理婆说婆有理”的分析结果往往难以得到广泛认可。
解决上述问题的关键是减少人工干预。9月27日,《自然》子刊《自然机器智能》刊载了我国团队首创的单细胞转录组细胞类型注释算法。该算法可以将细胞中的信息转变为计算机能够理解和学习的“语言”,让计算机和细胞直接“对话”,减少人为因素影响。
(资料图片)
细分细胞亚型,准确度提升7%
据算法研发团队腾讯人工智能实验室方面介绍,新算法,即scBERT模型,对最难分类的外周血单核细胞进行了分类,结果显示人工智能能够做到精准标注、注释极其难区分的两类细胞,例如能够准确区分CD8+细胞毒性T细胞和CD8/CD45RA+T细胞。研发团队成员告诉科技日报记者,“在极具挑战的外周血细胞亚型细分任务上,新算法相较现有最优方法的70%准确度再提升了7%。”
此外,团队还在已有的单细胞数据集中,将新算法的性能与其他算法进行了对比,这些数据集涵盖17个主要器官或组织、包含50多个细胞类型、超过50万个细胞。论文中显示,对于每个数据集,团队均采用了五倍交叉验证策略,以避免随机结果对结论的影响。结果显示,新算法对大多数数据集的分析结果在精确度和综合得分方面均表现优异。
研发人员表示,针对不同的单细胞分析任务和数据集解析任务,都会有不同的算法成为最佳算法,也就是说有的算法擅长某几类任务,有的算法擅长另几类任务,无法通用,而基于scBERT模型的新算法则表现了很强的通用性,在全部的数据集解析任务中均被列为最佳算法。
跨界使用“工具”,让机器读懂细胞语言
那么,新算法为什么能让机器通过学习读懂细胞中的复制、翻译、转录的语言呢?
相关研发人员解释,“我们首次将‘transformer’运用到单细胞转录组测序数据分析领域。 transformer这种架构从发明以来一直被用在自然语言处理领域,用于进行诸如机器翻译类的工作,成为比较通用的一个框架组件,但我们将它运用到了细胞注释领域。”
得益于对计算机处理人类语言和单细胞信息之间的共性理解,团队将已经成熟的人工智能架构进行创新性地“跨界”使用,大大提升了细粒度单细胞分子图谱的构建效率。
“跨界工具”让新模型赋予计算机读懂细胞活动的基础,但要想读得准、读得透、读得精,还需要基于大规模的语言预训练。
论文显示,为了解决来自不同项目、测序平台的数据难以互通有无的难题,“scBERT” 模型在预训练数据上没有做任何的降维或筛选处理,最大程度上保留数据本身的特性和信息,并学习了包含不同实验来源、批次和组织类型的单细胞数据,以保证模型理解“通用”的知识,不仅捕获单个基因的表达信息还理解基因间的协作。
据介绍,该技术可以给生物体中每个细胞都印上专属“身份证”,“单细胞身份证”的应用不仅可以助力疾病致病机制分析、药物靶点发现等基础研究,也可以在临床上高精度地“刻画”肿瘤微环境,推动精准治疗的进一步完善。
关键词:
2022年第三季度“宁波好人”名单公布 38位“宁波好人”获颁奖
今天下午,喜迎二十大、德耀新征程2022年度第三季度宁波好人发布暨我们的节日·重阳主题活动在镇海区崇正书院举行,学习好人事迹,感悟好...
威海市累计建成市级以上绿色工厂52家 其中省级绿色工厂14家
眼下,绿色,正成为威海制造业的鲜明底色。记者获悉,截至目前,我市累计建成市级以上绿色工厂52家,其中,省级绿色工厂14家,位居全省第一
德州实施健身器材更新计划 已经完成了三批次共429件更换任务
为提高室外公共健身器材利用率,让广大群众有一个安全的健身环境,提高群众满意度,市教育和体育局从去年开始实施健身器材更新计划,分...
退役军人注意啦!南昌全市优待证发放工作全面启动
9月26日,我市举行南昌市退役军人和其他优抚对象首批优待证集中发放仪式,48名退役军人和其他优抚对象代表现场领取了优待证,这标志着全市
深州市成功创建了省五星级公园1个 城市绿化覆盖率达到43.81%
9月25日,从河北省深州市委宣传部获悉,9月23日至24日,省住房和城乡建设厅城管处组织专家组到深州市,对该市创建国家园林城市工作进行初验
关于我们 加入我们 联系我们 商务合作 粤ICP备18023326号-32
中国创氪网 www.chuanganwang.cn 版权所有
投稿投诉联系邮箱:85 572 98@qq.com