DNA通常被认为是最可靠的法医证据形式,这种声誉基于DNA专家使用统计数据的方式。当他们将犯罪现场留下的DNA与嫌疑人的DNA进行比较时,专家会生成统计数据,描述这些DNA样本的匹配程度。然后,陪审团可以在判定有罪或无罪时考虑这些比赛统计数据。
这些匹配统计数据是可靠的,因为它们基于严格的科学研究。然而,该研究仅适用于使用现有技术生成的DNA指纹,也称为DNA谱。现在,美国国家标准与技术研究院(NIST)的科学家已经为使用新一代测序(NGS)计算匹配统计数据奠定了统计基础,后者产生的DNA配置文件在解决某些犯罪方面更有用。这项由NIST和FBI共同资助的研究发表在Forensic Science International:Genetics上。
“如果你正在处理刑事案件,你需要能够产生匹配统计数据,”领导这项研究的NIST生物学家Katherine Gettings说。“我们发布的数据将使使用NGS的实验室能够生成这些统计数据。”
如何创建DNA配置文件
为了生成DNA谱,法医实验室分析DNA的部分,称为遗传标记,遗传密码在其中重复,就像一遍又一遍地输入一个词。这些部分称为短串联重复序列或STR,并且每个标记的重复数量因人而异。分析师实际上并没有读取这些标记内的基因序列,只计算每个标记的重复数。这产生了一系列数字,像长社会安全号码一样,可以用来识别一个人。
基于STR的分析是在20世纪90年代开发的,当时基因测序非常昂贵。如今,NGS为生物医学研究和其他应用提供了具有成本效益的测序。NGS还可用于创建法医DNA谱,与传统的STR谱不同,它包括标记内的实际基因序列。这提供了更多的数据。
可能不需要额外的数据,因为在大多数情况下,基于STR的配置文件包含足够的信息来可靠地识别嫌疑人。但是,如果证据中只含有少量DNA,或者DNA已经暴露在元素中并且已经开始分解,那么分析师可能只会获得部分概况,这可能不足以识别嫌疑人。在这些情况下,基于NGS的配置文件中的额外数据可能有助于解决此案例。
此外,包含来自几个人的DNA混合物的证据可能难以解释。基于NGS的配置文件中的额外数据也可以帮助这些情况。
计算匹配统计信息
DNA分析师能够计算基于STR的配置文件的匹配统计数据,因为科学家们已经测量了不同版本的标记在人群中出现的频率。使用这些频率,您可以计算随机遇到特定DNA配置文件的机会,就像您可以计算在抽奖中选择所有正确数字的机会一样。
几年前,NIST使用来自1,036个个体的DNA样本库测量了这些STR基因频率。为了计算基于NGS的概况的基因频率,Gettings和她的合作者破解了包含原始样本的冰箱,这些样本是匿名的,并且由同意将DNA用于研究的人捐赠。科学家们通过对27种标记物进行测序,为它们生成了基于NGS的谱图 - 在美国大多数DNA谱图中包含20种核心标记物,另外还有7种标记物。然后,他们计算了在每个标记处发现的各种基因序列的频率。
科学家可以从如此小的样本库中估计基因频率,这可能是令人惊讶的。但是,NIST团队测量的频率不是针对完整的配置文件,而是针对各个标记。由于他们测序了27个标记,每个标记每个样本出现两次,所测试的标记数量不是1,036,而是超过55,000。
尽管NIST现已发布生成基于NGS的配置文件匹配统计数据所需的数据,但在新技术广泛应用于取证之前,其他障碍仍必须清除。例如,实验室必须开发管理NGS产生的大量数据的方法。他们还必须实施新技术的操作程序和质量控制。负责NIST法医遗传学研究的研究化学家peter Vallone表示,尽管还有很多工作要做,但“我们正在为未来奠定基础。”