北京大学生物动态光学成像中心,北京未来基因诊断高精尖创新中心等处的研究人员发表了题为“Highly accurate fluorogenic DNA sequencing with information theory–based error correction”的文章,报道了一种全新概念的测序方法——纠错编码(简称ECC)测序法。ECC测序法采取一种独特的边合成边测序(SBS)策略,利用多轮测序过程中产生的简并序列间的信息冗余,大幅度增加了测序精度。
这一研究成果公布在今天(美国时间11月6日)Nature Biotechnology杂志上。文章的通讯作者为北京大学生命科学联合中心黄岩谊教授,其他作者包括北京大学博士后陈子天,博士研究生周文雄、乔朔、康力,段海峰副研究员和谢晓亮教授。
高通量测序近年来的蓬勃发展有望大大影响医学的未来。然而,测序技术仍有很多方面有待改进,如费用进一步降低,以及样品制备方面的改善。两类主要的测序技术:使用原始的核苷酸以及使用荧光标记的核苷酸各有优缺点——前者测序过程相对较快,且焦磷酸测序能实现较长的读长,但瞬时发光或电化学信号的检测需要持续监控,这限制了通量,而且往往不够荧光检测灵敏;后者降低了试剂消耗和成本。然而,每个测序循环中多个化学步骤使流程更为复杂,限制了测序速度和读长。
2011年,谢晓亮课题组在Nature Methods上发文,将以上两种方法的优势结合起来,开发出了荧光焦磷酸测序。这种测序方法巧妙之处在于在DNA互补链合成时可以释放同所延伸核苷酸数目相等的荧光分子,利用这一反应可以实现低错误率的SBS。
在此基础上,黄岩谊课题组过去几年对该方法进行了拓展),为本次技术突破奠定了基础。研究人员首先从化学原理上对荧光发生测序技术中的荧光标记分子进行了结构优化,设计合成了具有不同波长、更优性能的测序底物分子,并对聚合酶参与的各阶段反应动力学进行了细致的测量和建模;在深入理解荧光发生测序化学反应速度、完成度、副反应等关键技术细节的基础上,完善了ECC测序原理样机的搭建,不断迭代优化测序反应条件和信号采集流程;从数据入手,构建了精确的测序信号失相模型并提出了次级延伸理论,并据此开发出算法软件对测序反应失相过程做出了合理简化使其具备了实用性。
在ECC测序法中,序列信息的冗余来自黄岩谊课题组新发展的“对偶碱基荧光发生”SBS测序流程,该流程通过对测序试剂按对偶碱基分为两两匹配的三组,并对待测DNA序列进行三轮独立测序,继而产生三条互相正交的简并序列编码。这三条编码可互为校验,后续不但能够通过解码推导出真实碱基序列信息,而且具备对单轮测序错误位点的校正能力。
ECC编码和解码策略已被广泛应用在信息通讯和存储等其它领域中,并被证实可以有效检测和纠正数据传输或存储时发生的错误。此次黄岩谊团队在测序技术中首次引入冗余编码概念,通过和低错误率的荧光发生测序技术巧妙结合,在实验室搭建的原理样机上获得了单端测序超过200碱基读长无错误的实验结果。
黄岩谊课题组主页:http://gene.pku.edu.cn/
原文标题:
Highly accurate fluorogenic DNA sequencing with information theory–based error correction