科学家称,一系列遗传因素会影响高血压、心脏病和2型糖尿病等疾病的发病。如果我们知道DNA是如何影响患上此类疾病的风险的,我们就可以从被动的护理转向更多的预防性护理,不仅可以提高患者的生活质量,还可以节省卫生系统的资金。
然而,追踪DNA和疾病发作之间的联系需要可靠的统计模型,这些模型需要在几十万病人的庞大数据集上可靠地工作。奥地利科学技术研究所(IST)的助理教授Matthew Robinson博士,与一个国际研究团队一起,现在已经开发了一种新的数学模型,可以提高从大量患者基因组数据中获得的预测质量,并帮助开发关于健康风险的个性化预测,就像医生在讨论家族病史时所做的那样。
Robinson和他的同事们在《自然通讯》杂志上发表了他们的研究“用贝叶斯全基因组分析的基因组结构和事件截尾表型的预测”。
“虽然最近在计算和建模方面的进步改善了对复杂性状的分析,但我们对症状出现时间的遗传基础的理解仍然有限。在这里,我们开发了一种贝叶斯方法(BayesW),该方法在一个采样方案中提供了年龄-发病表型的遗传结构的概率推断,从而促进了生物库规模的时间-事件分析,”研究者写道。
“我们在大量的模拟工作中展示了BayesW在发现数量、模型性能和基因组预测方面提供的好处。在英国生物样本库中,我们发现了高血压(HBp)、心脏病(CAD)和2型糖尿病(T2D)的发病年龄和发病基因基础的数千个共同基因组区域,这些基因区域反映了潜在的疾病遗传倾向。绝经年龄和初潮年龄也具有高度的多基因性,但低频率变异造成了更高的方差。
“对爱沙尼亚生物样本库数据进行基因组预测表明,BayesW提供了比其他方法更高的预测精度。”
研究人员选择了几十万个基因标记,并使用他们的统计模型,将这些标记的组成与数据库中患者高血压、心脏病或2型糖尿病的发病联系起来。研究小组对患者发病时的年龄特别感兴趣。有了这些信息,他们就可以用他们的模型来预测疾病可能发生的概率。
然而,这种统计模型不能构建某些基因与疾病发病之间的直接关系,而只是提供了一种对疾病发病概率的改进预测。在大数据研究中常用的黑盒模型和Robinson及其同事的这种方法之间还有一个重要的区别:黑盒模型产生预测,但由于其使用的多层抽象,其内部工作方式不容易被人类理解。相比之下,Robinson和他的同事们的模型提供了可追踪的统计计算。
使用病人的数据能够理解用于预测健康和疾病发病的数学模型的内部工作原理,是使用大量敏感患者数据的伦理方法的重要组成部分。这样,研究人员就可以解释这些预测是如何产生的。
要充分利用这种预测方法的潜力,既需要有效的模型,也需要收集大量的基因组数据集,而这些数据集本身就涉及到数据安全和隐私,这是研究人员和医疗保健系统都必须解决的问题。在使用患者数据时必须遵守严格的数据安全措施。只有在获得各自伦理委员会的许可后,研究人员才能从英国和爱沙尼亚的国家资助的生物样本库里获取匿名的患者数据。
科学家们使用来自英国的数据来建立他们的模型,并使用来自爱沙尼亚的数据来测试其预测能力。后者甚至首次提出了一些疾病发作的个性化风险评估。然后,这些信息将通过爱沙尼亚的保健系统转达给病人,鼓励他们采取预防措施。
Robinson和他的同事们提出的新的统计模型仅仅是利用大型基因组数据集的全部潜力进行预防保健的一步。生物样本库的模型和数据基础设施,以及一个健壮和安全的数据保护系统,都需要实现个性化预测医学的承诺。
“一般来说,当你去看医生时,他们通常会询问你特定疾病的家族史,因为家族史是许多常见晚年疾病的主要风险因素。然而,这些信息通常是不完整的,”罗宾逊告诉GEN.“根据DNA做出的预测是告知临床医生不同人的家族史的更好方式。它们是预防药物的一种形式,通过这种方式,这些信息将被用于启动对某些人群的筛查,或传达给患者,希望它可以帮助他们做出生活方式的选择。
“目前的证据表明,从长远来看,预防性医学可以为卫生系统节省资金。我认为,尽管基因组预测器无法告知我们个体的特定风险,但它能够识别出比总体平均风险更高的人群。”