这就像在大海捞针中寻找一根针。

根据南达科他州立大学数学与统计系副教授西金戈的说法,科学家们正在寻找影响甚至一种植物或动物特征的基因或基因组合,必须对大量数据进行分类。

“生物学家过去曾经研究过一种基因,但现在他们可以同时研究成千上万的基因。”葛说。只需一个分析基因表达的实验就可以产生1TB的序列数据。“这远远超出了许多生物学家的舒适区。”

他领导生物信息学研究小组,该小组提供SDSU植物和动物科学家需要的专业知识,以揭示基因和蛋白质如何影响细胞功能。

设置实验

通常,科学家在计划学习时会咨询Ge。在研究了他们想要研究的内容之后,研究人员决定应该使用哪些技术来获取数据,以及分析数据的计划。

“让统计学家和生物学家一起工作至关重要,”植物科学教授Fedora Sutton指出,他与Ge合作确定了解释冬小麦抗冻性的基因相互作用。“他能够说,根据统计规则和规定,这就是必须的地方。”

Sutton指出,在一个样本上使用相同的技术是不够的。必须在相同条件下培养多个样品,然后进行分析以具有生物学重复。Ge解释说,实验必须设计为收集生物而非技术重复。

一旦选择了收集数据的技术并创建了数据分析计划,Ge说,“我们可以计算出需要多少次重复。”

分析数兆字节的数据

“生物信息学是放大目标基因网络的重要工具,”与Ge合作确定与杂草稻种子休眠相关的基因的Xing-You Gu说。

顾解释说,由于强烈的种子休眠,杂草在不利的环境条件下生存。“为了制定新的杂草管理策略,我们需要了解种子休眠的分子遗传机制。”

Gu使用基于地图的克隆策略,然后使用生物信息学工具(例如统计检验和聚类)来寻找候选基因。根据Ge的说法,这项任务涉及查看超过30,000到40,000个基因,这些基因可以产生300到400万个数据点。

为了确定哪些基因是负责任的,Ge必须首先消除那些含有噪声的数据点然后“专注于可靠的信号,因为我们正在研究这么多基因。”有时几乎一半的数据被消除。

可视化基因表达

Ge使用数据挖掘算法来寻找科学家感兴趣的模式。通常,Ge的分析产生了具有统计意义的数据的直观表示。

Sutton的视觉效果之一是热图,描绘了红色增加或上调的基因表达,绿色关闭或下调的基因表达以及黑色未受影响的基因表达。这使她能够确定六种基因作为潜在的标记,从而帮助育种者开发出更多的抗冻冬小麦系。

“我们正试图解释细胞中发生了什么,”葛说。“我们必须让数据讲述一个故事。”

在确定基因后,研究人员“想要拼凑拼图并找出受影响基因的共同特征,”葛解释说。这将使我们能够识别受监管的子系统或途径。

关于SDSU生物信息学研究组

由Xijin Ge博士领导的生物信息学研究小组致力于利用数学,计算机科学和生物科学的工具来探索自然界的前沿。研究重点是使用,发现和实施统计,机器学习和数据挖掘算法,以在大量公开可用的生物数据中找到感兴趣的模式。我们小组的成员参与研究进化比较基因组学,文本挖掘和基因表达数据分析。