2021年2月22日,《表型组学》(phenomics)期刊在线发表了暨南大学张弓和金静洁团队以及深圳承启生物科技有限公司合作题为The Ultrafast and Accurate Mapping Algorithm FANSe3: Mapping a Human Whole‑Genome Sequencing Dataset Within 30 Minutes的研究论文。该研究通过全新的数据结构和并行策略,开发了FANSe3代算法,该算法在高达12%的错配率情况下可保证给出数学上的最优解,提供准确而快速的测序数据处理。
目前,科学界超过95%、医学应用领域超过99%的二代测序应用需要将测序所得的reads(短读序列)向参考基因组或参考转录组序列进行比对,这一过程称为mapping,中文译为“快速比对”、“映射”、“回帖”等等,但目前无统一翻译。由于所有的生物学意义的分析,如突变检测、基因表达量检测等,均高度依赖于mapping的结果,因此mapping速度和精度都至关重要。
在这一领域,早期算法如MAQ等,利用了与BLAST相似的seed-hash原理,稳健性较好,但内存消耗大、运算速度慢,在处理大规模的任务如千人基因组计划时,只能使用超级计算机来运算,成本太高,难以普及。2009年,Burrows-Wheeler Transform (BWT) 原理的算法如BWA, Bowtie等出现,使得mapping速度有了飞跃式提高,可以用一台高性能台式机在一两天内mapping完成一个人基因组的数据集,因而迅速成为主流。然而在算法领域,在原理没有理论突破的情况下,速度和精度一般不可得兼,想快就不准,要准就快不起来,这种情况在BWT类算法上表现得尤为显著。BWT原本是为文件压缩而开发的数据结构,并不考虑错配。实际遇到了read与参考序列之间有错配时,搜索树会导向错误的分支,要将其纠正回正确的分支将付出很大的计算代价,甚至仍然不能纠正而导致错误mapping或直接丢弃。
在实际生物学应用中,有生物学意义的结论往往存在于reads中的那些错配,例如最常见的基因组SNp、突变分析。因此使用BWT类算法,往往导致严重的假阴性和假阳性问题,而且不同算法、不同参数设置,得出的结论大不相同,2012年时即被Nature Reviews Genetics文章斥为“可重复性危机”。
确保数学上的最优精确度
为了解决mapping的准确性和稳健性问题,暨南大学张弓团队开发了FANSe系列mapping算法。该算法采用了数学上更稳健的seed-hash原理,避开了对错配难以准确处理的BWT原理,因此其准确率有数学证明。在一定条件下(当前主流测序仪已不难满足),FANSe可100%保证给出数学上的最优解,而且在高达12%的错配率情况下可保证给出数学上的最优解。
实际测试表明,在基因组突变检测、转录组基因表达检测、新剪切变体检测、非模式物种分析上,FANSe算法以绝对优势击败BWA, Bowtie等算法,几乎完全符合实验验证。如此高的准确度,使高度精密和稳健的组学分析成为可能。30个生物学样品中高丰度内参基因测序定量误差仅为0.0053%,全转录组定量生物学重复相关性高达R2=0.98,这是以往技术重复都不容易达到的高相关性。另一方面,如此高的精度也可以大幅度降低测序通量的需求。使用FANSe算法,可以只使用一般转录组测序通量的百分之一,便可可靠定量细胞内单拷贝mRNA,而如此低通量下所鉴定到的基因差异表达倍数,都可以被qRT-pCR所验证。这使转录组测序成本大幅度下降。
如何解决速度问题
FANSe1代的速度非常慢,只能满足原核生物基因组和真核生物转录组的需求。FANSe2代开始采用并行策略,并优化了索引表结构,使mapping人基因组成为可能,速度达到了同期Bowtie2的水平。但FANSe2并不适应高性能的众核平台,且对indel运算效率较低。
因此,张弓教授与深圳承启生物科技有限公司的研发人员一起,开发了FANSe3代算法,采用了全新的数据结构和并行策略,大幅度提升了匹配速度与indel处理效率,并针对Intel Xeon E5之后的CpU环形总线/Mesh总线架构进行优化,在人全基因组测序数据的mapping过程中比BWA快7.5倍以上,且能更充分利用CpU超线程的能力。FANSe3可在家用电脑单机上达成半小时mapping完人全基因组、半分钟人外显子组的惊人速度,同时精度不打折扣。至于转录组和翻译组测序,张弓教授团队已在2017年展示了平均1秒多分析一个转录组测序数据集的云平台,就是基于FANSe3的。不仅mapping速度刷新世界纪录,由于其结果准确,使得突变检测等次级分析十分方便,不再需要如GATK那样的多步校正与过滤。与FANSe3配搭的突变分析模块,可以在单机上5分钟内完成SNV列表的输出,而GATK需要5小时以上。
由于其极高的处理效率,深圳承启生物科技有限公司已将FANSe3部署在云平台上,为公众提供准确快速的测序数据处理,用户不必自己学习复杂的生物信息学知识,也不需要自己购买维护高性能计算集群,通过网络即可享受立等可取的测序分析。这将彻底改变目前业界分析成本高昂的现状。
全自主开发保证在国际贸易严峻形势下不被卡脖子
FANSe3另一个特性是全自主开发,不使用任何商业化的函数库,不使用SSE等高级指令集,也不使用GpU、FpGA等专用芯片加速(因为根本没有必要)。这使得其可移植性和扩展性几乎没有任何限制。在目前国际贸易争端形势严峻的情况下,无论在软件和硬件层面,使用FANSe算法都几乎不会被国外卡脖子。
目前虽有其他一些国内研发的同类软件,但几乎均采用BWT类原理,其使用的运行库和函数库大部分需要国外授权(如SOAp2);或者依赖专用硬件(如Aurora系统),但国内尚无法自主研发生产高性能的GpU、FpGA等专用芯片。FANSe3则可以通过略微的修改和重新编译,运行在各种国产CpU上。虽然国产CpU的性能离国际先进水平尚有差距,但FANSe3超高效能以及几乎完全线性的并行性能增长,使得使用体验可以比肩国外的计算硬件。这无疑为精准医学领域的国家安全提供了坚实保障。
正因为如此,基于FANSe3的高精度分析流程被作为国家重点研发计划项目“医学生命组学数据质量控制关键技术研发与应用示范”的标准流程,今后将对整个行业起到引领和规范的作用。
当然,FANSe3代仍然不是终点。由于是全自主开发,因此研发团队可以持续增加新功能和优化性能。目前,深圳承启生物科技有限公司已部署下一代的FANSe4算法,直接舍弃了单机版本的支持,充分利用云平台的硬件架构特性进行加速,进一步提高并行效率,针对人基因组应用做专门优化,内置SNV检测辅助功能和RNA定量计算功能,使得分析效率进一步成倍提高。2020年6月,承启生物公开展示了5分钟分析完成一个人基因组测序数据集并输出SNV列表的惊人速度,被福布斯、央广网、中国科技网等新闻媒体广泛报道。
暨南大学张弓教授为本文第一作者,张弓教授和金静洁为本文通讯作者。该研究获得科技部国家重点研发计划项目“医学生命组学数据质量控制关键技术研发与应用示范”的资助。
论文DOI链接:https://link.springer.com/article/10.1007/s43657-020-00008-5。