您的位置：首页 >生态环境 >

MIT：利用人工智能发现隐藏在海量数据集中的异常

来源：网络整理 2022-02-28 00:00:00

要确定国家电网的故障，就像大海捞针一样困难。遍布美国各地的数十万个相互关联的传感器实时捕捉电流、电压和其他关键信息的数据，通常每秒记录多次。

麻省理工学院-沃森人工智能实验室的研究人员设计了一种计算效率高的方法，可以实时自动查明这些数据流中的异常。他们证明，他们的人工智能方法，学习建模电网的互联性，在检测这些故障方面比其他一些流行的技术要好得多。

由于他们开发的机器学习模型不需要带注释的电网异常数据来进行训练，它将更容易应用于现实世界的情况，因为高质量的标记数据集通常很难获得。该模型也很灵活，可以应用于其他需要大量互连传感器收集和报告数据的情况，比如交通监控系统。例如，它可以识别交通瓶颈或揭示交通堵塞是如何蔓延的。

“在电网的例子中，人们试图使用统计数据来捕获数据，然后用领域知识定义检测规则，例如，如果电压激增一定百分比，那么电网运营商应该得到警报。这种基于规则的系统，即使有统计数据分析的授权，也需要大量的劳动力和专业知识。我们证明，我们可以将这一过程自动化，也可以使用先进的机器学习技术从数据中学习模式，”麻省理工学院- ibm沃森人工智能实验室的研究人员和经理、资深作者陈杰(Jie Chen)说。

合著者是Enyan Dai，他是麻省理工学院- ibm沃森人工智能实验室的实习生和宾夕法尼亚州立大学的研究生。这项研究将在学习表征的国际会议上发表。

探测概率

研究人员首先将异常定义为发生概率很低的事件，比如电压突然飙升。他们将电网数据视为概率分布，因此如果他们能够估计概率密度，他们就可以识别数据集中的低密度值。那些最不可能出现的数据点对应着异常。

估计这些概率并非易事，特别是因为每个样本捕获多个时间序列，而每个时间序列是一组随时间记录的多维数据点。此外，捕获所有数据的传感器是有条件的，这意味着它们以特定的配置连接在一起，一个传感器有时会影响其他传感器。

为了了解数据的复杂条件概率分布，研究人员使用了一种特殊类型的深度学习模型，称为正常化流，它在估计样本的概率密度方面特别有效。

他们使用一种被称为贝叶斯网络的图来扩充标准化流模型，这种图可以学习不同传感器之间复杂的因果关系结构。Chen解释说，这种图形结构使研究人员能够看到数据中的模式，并更准确地估计异常。

“传感器之间相互作用，它们之间有因果关系，相互依赖。因此，我们必须能够将这种依赖信息注入到计算概率的方式中。”他说。

这个贝叶斯网络将多个时间序列数据的联合概率分解成更简单的条件概率，更容易参数化、学习和评估。这使得研究人员可以估计观察到某些传感器读数的可能性，并识别那些发生的概率很低的读数，这意味着它们是异常的。

他们的方法特别强大，因为这种复杂的图结构不需要预先定义——模型可以以无监督的方式自己学习图。

一个强大的技术

他们测试了这个框架，看它能在多大程度上识别电网数据、交通数据和水系统数据中的异常。他们用于测试的数据集包含了人类已经发现的异常，因此研究人员能够将他们的模型识别出的异常与每个系统中的实际故障进行比较。

他们的模型在每个数据集中检测出更高比例的真实异常，从而优于所有基线。

“对于基线来说，很多都没有包含图形结构。这完全证实了我们的假设。弄清楚图中不同节点之间的依赖关系无疑对我们有帮助。”

他们的方法也很灵活。有了庞大的未标记数据集，他们就可以调整模型，以便在其他情况下(比如交通模式)做出有效的异常预测。

一旦该模型被部署，它将继续从一个稳定的新传感器数据流中学习，适应可能的数据分布漂移，并保持随着时间的推移的准确性，陈说。

虽然这个项目已经接近尾声，但他期待着将他所学到的经验应用到深度学习研究的其他领域，尤其是图形领域。

Chen和他的同事们可以利用这种方法来开发出能够映射其他复杂的条件关系的模型。他们还想探索，当图形变得庞大时(可能有数百万或数十亿个互连节点)，如何有效地学习这些模型。他们也可以使用这种方法来提高基于数据集的预测的准确性，或者简化其他分类技术，而不是发现异常。

郑重声明：本文版权归原作者所有，转载文章仅为传播更多信息之目的，如有侵权行为，请第一时间联系我们修改或删除，多谢。