在图像压缩中,存储或共享大文件可能很麻烦,因此会丢失少量的视觉信息。生物医学工程助理教授Justin pritchard说,这种“损耗”在很大程度上保留了图像,同时大大减少了文件大小,并为基因组学的新研究方向提供了灵感。
宾夕法尼亚州立大学领导的跨学科研究团队开发了一种方法,可以将广泛的基因数据库“压缩”到更易于管理的规模。他们在2月2日的《自然通讯》杂志上发表了他们的发现。
“这种压缩的想法极大地缩小了实验的规模,为新的实验打开了可能性,”pritchard说,“这可以解开生物学之谜,比如为什么不同的基因和药物在一起发挥不同的作用,它允许我们用更简单的实验来解开非常复杂的生物学之谜。”
研究人员提到了基因组规模的CRISpR实验,其中包含了在不同人类细胞类型中测试的数千种基因效应的数据。基因关闭时的效果因细胞类型不同而不同,因此需要大量的细胞才能了解基因和表型之间的相互作用。
为了从更小的“压缩”CRISpR库中预测更大的基因组规模效应,该团队使用了一种基于被称为随机森林的常见机器学习技术的自定义算法。这种方法将研究人员提供的数据整合到一系列随机生成的决策树中,这些决策树共同产生关于基因失活和细胞生长之间关系的预测。该模型是在大多数数据上训练的——只留下一个数据子集——然后通过测试其预测被省略的子集的数据的能力来初步验证。这种准确性扩展到不同实验室使用不同的实验条件和CRISpR库生成的数据集。
这种性能只需要使用很小的百分比——大约1%——原始库的信息就可以实现。最后,宾夕法尼亚州立大学的研究小组进行了新的实验,他们使用合成生物学技术实际建立了这些“有损压缩库”,并在新的实验中验证了预测。
“一项基因组规模的实验会探测18000个基因,”pritchard说。“利用机器学习,我们将实验规模压缩到200个基因。尽管在压缩过程中丢失了一些数据,但我们发现,一个由200个基因组成的子集可以提供关于完整的18000个基因的令人惊讶的良好信息。”
这项技术也为其他研究提供了机会。它显示出了可转移性,这意味着尽管它只接受了CRISpR数据的训练,但它可以从完全不同的数据集获得准确的预测匹配信息。减少基因数量的能力也使更多的研究难以或不可能大量聚集的细胞,如活的有机体中的细胞。
“我们对这项研究的未来感到兴奋,”pritchard说。“我们可以使用更新的机器学习技术,针对从癌症生物学到生物制药领域的不同实验问题和条件,实时改变这些有损压缩集的组成。该方法还帮助我们通过回答有关基因组如何工作和编码细胞生长信息的问题来改善基础科学。”
文章标题A pan-CRISpR analysis of mammalian cell specificity identifies ultra-compact sgRNA subsets for genome-scale experiments