11月27日,中国农业科学院深圳农业基因组研究所动物功能基因组学创新团队在《BMC 基因组学(BMCGenomics)》杂志在线发表了题为“Baiting out a full length sequence from unmapped RNA-seq data”的学术论文,该研究发现了能挖掘unmapped RNA-seq数据中的有效信息,并调取其全长的新方法。
转录组测序技术(RNA-seq)是生物学和医学研究必不可少的工具,每年约产生577万亿碱基对的数据集。然而,由于技术条件限制,如此庞大的数据量中约有10%-15%的unmapped数据被忽略。
该研究通过严格的筛选流程,从RNA-seq的unmapped数据中筛选出36条候选的unmapped reads。随机选择其中一条149 bp的read作为模型,通过特异性反转录引物扩增其双末端,结合二代测序及统计学模型预估其全长,并通过桑格测序对其全长进行验证。最终得到此模型read的全长为1556 bp,其微卫星结构处存在插入突变。
该研究挖掘在RNA-seq分析中通常被忽略的有效的unmapped reads信息,并且结合特异性反转录引物及二代测序调取其全长序列,为鉴定未知RNA提供一种新的策略,提高了RNA-seq数据的利用效率。
图|调取RNA-seq数据中unmapped reads全长序列的整体策略
基因组所博士研究生李东卫和黄其通为并列第一作者,基因组所Yubo Zhang研究员为通讯作者。该研究得到了国家重点研发计划、国家自然科学基金、国家青年特聘项目等项目的资助。
原文链接:https://bmcgenomics.biomedcentral.com/articles/10.1186/s12864-021-08146-4