百图生科x潞晨科技:AI助推创新药研发新动能 | 蓝驰家族
2022-08-25 20:00 星期四

近日,蓝驰家族企业生物计算平台「百图生科」携手大规模AI模型高性能智能调度平台「潞晨科技」Colossal-AI 团队,针对蛋白质单体 (Monomer) 与复合物 (Multimer) 结构预测的难题,联合打造了行业内最前沿的解决方案 xTrimo Multimer开源版模型。

蓝驰创投是百图生科的A轮投资人,以及潞晨科技的天使轮投资人。蓝驰坚定地看好人工智能、大数据等技术创新与垂直行业的交叉与融合。此次蓝驰家族生态内的联动,是大模型时代通用深度学习系统 Colossal-AI在生物医药领域这一领域的落地。再次践行了蓝驰将技术与行业横纵结合的矩阵式覆盖,促成了被投企业之间形成良好互动生态。

对于本次强强联动,蓝驰创投表示:蓝驰相信企业核心竞争力是“唯快不破”。不管是科技创新还是模型创新,“唯快”才是企业永恒的壁垒。在AI和大数据时代,企业需要有机利用人工智能、大数据和science构建数字化的平台,以实现核心能力螺旋式高速迭代。百图生科是国内首家基于AI、大数据和计算的生命科学公司,潞晨科技是国际领先的大模型高性能runtime的开源软件公司。蓝驰作为这两家优秀创业公司的早期投资人,乐见于他们共同构建“唯快不破”的企业成长和演进的核心能力闭环。「百图生科」致力于构建世界领先的生物计算大模型,并以此驱动生物计算引擎的各种任务算法开发,完成突破创新的靶点发现和药物设计。「潞晨科技」致力于解放 AI 生产力,打造面向大模型时代的通用深度学习系统 Colossal-AI ,高效促进 AI 大模型落地应用。此次双方携手,引入大模型加速的多种技术手段,包括数据并行,模型并行,流水线并行,动态轴并行等,显著降低了蛋白质结构预测模型推理的时间和经济成本,提高了蛋白质结构预测模型领域的设计和部署效率,也使得训练更大的模型成为可能。

xTrimo Multimer开源版单卡性能提升1-2倍以上 支持超长序列的分布式推理

百图生科xTrimo大模型体系(Cross-model Transformer Representation of Interactome and Multi-Omics)是世界首个生物跨模态预训练模型体系,能够表征单体蛋白质、蛋白质相互作用、免疫细胞、免疫系统的多层次生物问题,为开发免疫调控蛋白质药物提供强大的计算生物学能力。

而此次的xTrimo Multimer开源版,是百图生科大模型体系的核心模块之一,能够同时支持单体和复合体蛋白质的结构预测。相比Alphafold Multimer等行业已有模型,开源版xTrimo Multimer针对长序列推理的计算复杂度底层优化,通过CUDA优化和Kernel Fusion,实现了在单卡推理上的明显性能提升。相较于AlphaFold2和OpenFold,xTrimo Multimer开源版模型在同等精度下,单卡推理性能可以提升1-2倍以上

xTrimo Multimer开源版模型还支持超长序列的分布式推理。通过采用模型并行、流水线并行、动态轴并行(Dynamic Axial Parallelism)等技术,xTrimo Multimer可以高效地将计算和部分显存分配到不同的设备上,从而解决超长序列面临的计算和内存挑战。在2K到3K的序列长度下,xTrimo Multimer开源版使用多卡进行推理,相对于OpenFold和AlphaFold 2推理速度最高提升8.47倍和11.15倍,对比Uni-Fold2.0速度最高提升4.45倍,从而在面向药物设计的工业场景中,大大提高了模型的实际可用性。

xTrimo Multimer开源版还可以支持长达4K的序列推理,在这个长度下OpenFold和AlphaFold 2受限于显存无法完成推理,而xTrimo Multimer开源版可以在20分钟左右完成4K序列的推理,从而为药物设计解锁了新的可能空间

Colossal-AI助力深度学习在创新药物研发上的应用和落地

潞晨科技的Colossal-AI,是一个旨在全面助力AI大模型工业化应用的通用深度学习系统,自开源以来,在数个月内获得近五千颗Github Star,多次登上GitHub Trending榜首。相关解决方案也已成功在生物医药、自动驾驶、云计算、零售、芯片等行业知名厂商落地应用,广受好评。

蛋白质结构预测一直是结构生物学领域最为重要的课题之一,也是人类理解基因翻译和蛋白质功能的重要手段。蛋白质之间的相互作用,是蛋白质发挥生物学功能的重要结构基础。但是由于蛋白质的多级结构和复杂的相互作用,使得精确预测三维结构这一关键问题十分有挑战性。

此次xTrimo Multimer开源版模型的效率提升,既得益于百图生科大模型体系的构建,也得益于与潞晨科技Colossal-AI团队在计算效率提升上的深度合作。

谈及合作契机,百图生科CEO刘维表示:“潞晨科技创始人尤洋教授和百图生科首席AI科学家宋乐教授,此前就有深入的合作。作为蓝驰创投的被投企业,百图生科与潞晨科技的密切合作关系,也为此次共同打造世界首个生物跨模态预训练模型体系奠定了坚实的基础。百图生科作为大型生物计算平台,在药物研发、生物数据、生物计算大模型等层面拥有世界一流的团队。我们与潞晨科技在大模型加速这个关键前沿领域的顶级专家携手并进,相信未来将会继续产出具有颠覆性的领先成果。”

潞晨科技创始人尤洋教授表示:“Colossal-AI 团队与百图生科合作的蛋白质单体与复合物结构预测最新方案,是面向大模型时代的通用深度学习系统 Colossal-AI 在生物医药领域应用落地的重要进展。未来我们双方还将会继续在生物计算大模型上加强合作,共同助力深度学习在创新药物研发上的应用和落地。”

百图生科首席AI科学家宋乐表示:“从对单个蛋白质结构的模拟,到对不同蛋白质之间的相互作用的识别,再到对蛋白质复合物的绘制,百图生科致力于解码、建模复杂人体免疫系统,开发突破创新药物,编程免疫系统,治愈多种免疫相关疾病。此次xTrimo Multimer开源版模型的发布,是我们携手潞晨科技Colossal-AI 团队,借助其在高性能计算上的优势以及百图生科生物计算领域前沿的技术积淀,朝着百图生科xTrimo多模态生物计算大模型体系迈出的又一步。正如我们一直以来所努力的方向,精准高效地探寻癌症、衰老等疾病的免疫规律,逐一攻破AI技术在靶点挖掘、创新药物设计落地应用上的难关,让更多疾病可预警、可控制、可治愈。”

作为双方的投资人,蓝驰期待看到更多被投企业合作共赢,让商业场景和核心技术进行更好地融合,共同构建兼具社会价值与经济价值的产业生态关系

该项目已在 GitHub 上免费开源,点击查看:https://github.com/hpcaitech/ColossalAI/#xTrimoMultimer