使用 InfluxDB 进行基础设施监控 | 现场演示
异常检测
异常检测是查找数据集中与其他数据点不同的异常值的过程。
什么是异常检测?
异常值是与它们所属的数据集中的其余数据点大相径庭的数据点。数据科学家可能希望识别异常值,以调查导致异常值的原因,或将它们从可能被它们误导性影响的计算中移除,例如均值或标准差。异常值可能是由仪器或测量错误引起的,也可能是与预期值大相径庭的有效数据点。无论哪种情况,识别异常值都是理解它们的第一步。
如何检测异常值?
检测异常值的一种方法是设置阈值,超出阈值的数据将被归类为异常值。设置阈值的常用方法是使用数据集标准差的倍数。如果数据集呈正态分布,则 99.7% 的数据点将位于平均值三个标准差之内。统计理论构成了诸如 Z 分数和 Grubb 检验等一些常见异常检测方法的基础。其他异常检测方法使用基于密度的技术、基于相关的检测或神经网络。新的异常检测方法仍在不断被理论化,不同的方法在不同类型的数据集中更成功。