异常检测基本概念和方法

news/2025/2/25 4:14:17

1.异常检测基本概念

异常检测:识别与正常数据不同的数据,与预期行为差异大的数据。

1.1 异常的类别

点异常:指的是少数个体实例是异常的,大多数个体实例是正常的。

条件异常:又称上下文异常,指的是在1. 异常检测基本概念
异常检测:识别与正常数据不同的数据,与预期行为差异大的数据。

1.1异常的类别

点异常:指的是少数个体实例是异常的,大多数个体实例是正常的。

条件异常:又称上下文异常,指的是在特定情境下个体实例是异常的,在其他情境下都是正常的。

群体异常:在群体集合中的个体实例出现异常的情况,而该个体实例自身可能不是异常,在入侵或欺诈检测等应用中,离群点对应于多个数据点的序列,而不是单个数据点。

1.2 异常检测任务分类

有监督:训练集的正例和反例均有标签

无监督:训练集无标签

半监督:在训练集中只有正例,异常实例不参与训练

2. 异常检测基本方法

2.1.1 基于统计学的方法

异常检测的统计学方法的一般思想是:学习一个拟合给定数据集的生成模型,然后识别该模型低概率区域中的对象,把它们作为异常点。

利用统计学方法建立一个模型,然后考虑对象有多大概率可能符合该模型。

2.1.2 线性模型

PCA主成分分析。它的应用场景是对数据集进行降维。降维后的数据能够最大程度地保留原始数据的特征(以数据协方差为衡量标准)。其原理是通过构造一个新的特征空间,把原数据映射到这个新的低维空间里。PCA可以提高数据的计算性能,并且缓解"高维灾难"。

2.1.3 基于邻近度的方法

​ 这类算法适用于数据点的聚集程度高、离群点较少的情况。同时,因为相似度算法通常需要对每一个数据分别进行相应计算,所以这类算法通常计算量大,不太适用于数据量大、维度高的数据。

基于集群(簇)的检测,如DBSCAN等聚类算法。

基于距离的度量,如k近邻算法。

基于密度的度量,如LOF(局部离群因子)算法。

2.2 集成方法

集成是提高数据挖掘算法精度的常用方法。集成方法将多个算法或多个基检测器的输出结合起来。其基本思想是一些算法在某些子集上表现很好,一些算法在其他子集上表现很好,然后集成起来使得输出更加鲁棒。集成方法与基于子空间方法有着天然的相似性,子空间与不同的点集相关,而集成方法使用基检测器来探索不同维度的子集,将这些基学习器集合起来。

孤立森林:
孤立森林假设我们用一个随机超平面来切割数据空间,切一次可以生成两个子空间。然后我们继续用随机超平面来切割每个子空间并循环,直到每个子空间只有一个数据点为止。直观上来讲,那些具有高密度的簇需要被切很多次才会将其分离,而那些低密度的点很快就被单独分配到一个子空间了。孤立森林认为这些很快被孤立的点就是异常点。

2.3 机器学习

在有标签的情况下,可以使用树模型(gbdt,xgboost等)进行分类,缺点是异常检测场景下数据标签是不均衡的,但是利用机器学习算法的好处是可以构造不同特征。

Datawhale五月组队学习特定情境下个体实例是异常的,在其他情境下都是正常的。

群体异常:在群体集合中的个体实例出现异常的情况,而该个体实例自身可能不是异常,在入侵或欺诈检测等应用中,离群点对应于多个数据点的序列,而不是单个数据点。

1.2 异常检测任务分类

有监督:训练集的正例和反例均有标签

无监督:训练集无标签

半监督:在训练集中只有正例,异常实例不参与训练

2. 异常检测基本方法

2.1.1 基于统计学的方法

异常检测的统计学方法的一般思想是:学习一个拟合给定数据集的生成模型,然后识别该模型低概率区域中的对象,把它们作为异常点。

利用统计学方法建立一个模型,然后考虑对象有多大概率可能符合该模型。

2.1.2 线性模型

PCA主成分分析。它的应用场景是对数据集进行降维。降维后的数据能够最大程度地保留原始数据的特征(以数据协方差为衡量标准)。其原理是通过构造一个新的特征空间,把原数据映射到这个新的低维空间里。PCA可以提高数据的计算性能,并且缓解"高维灾难"。

2.1.3 基于邻近度的方法

​ 这类算法适用于数据点的聚集程度高、离群点较少的情况。同时,因为相似度算法通常需要对每一个数据分别进行相应计算,所以这类算法通常计算量大,不太适用于数据量大、维度高的数据。

基于集群(簇)的检测,如DBSCAN等聚类算法。

基于距离的度量,如k近邻算法。

基于密度的度量,如LOF(局部离群因子)算法。

2.2 集成方法

集成是提高数据挖掘算法精度的常用方法。集成方法将多个算法或多个基检测器的输出结合起来。其基本思想是一些算法在某些子集上表现很好,一些算法在其他子集上表现很好,然后集成起来使得输出更加鲁棒。集成方法与基于子空间方法有着天然的相似性,子空间与不同的点集相关,而集成方法使用基检测器来探索不同维度的子集,将这些基学习器集合起来。

孤立森林:
孤立森林假设我们用一个随机超平面来切割数据空间,切一次可以生成两个子空间。然后我们继续用随机超平面来切割每个子空间并循环,直到每个子空间只有一个数据点为止。直观上来讲,那些具有高密度的簇需要被切很多次才会将其分离,而那些低密度的点很快就被单独分配到一个子空间了。孤立森林认为这些很快被孤立的点就是异常点。

2.3 机器学习

在有标签的情况下,可以使用树模型(gbdt,xgboost等)进行分类,缺点是异常检测场景下数据标签是不均衡的,但是利用机器学习算法的好处是可以构造不同特征。

Datawhale五月组队学习


http://www.niftyadmin.cn/n/702563.html

相关文章

hive ql 使用 posexplode函数实现多行转多列

lv1、lv2:对应的视图名称 lvs1、lvs2:生成对应的索引值,从0、1、2...开始递增 lvws1、lvws2:视图的字段名称

从SDS到CDS,数据存储的终局会提前到来么?

数据存储领域的发展,看似波澜不惊的日复一日,其实每个厂商包括公共云厂商、传统企业级存储厂商、软件定义存储厂商等都在发生改变。 只是这样的改变,是大还是小,是多还是少,是全局的还是局部的,其中的区别…

三数之和、删除有序数组中的重复项、移除元素

三数之和 思路 标签:数组遍历 首先对数组进行排序,排序后固定一个数 nums[i]nums[i],再使用左右指针指向 nums[i]nums[i]后面的两端,数字分别为 nums[L]nums[L] 和 nums[R]nums[R],计算三个数的和 sumsum 判断是否满足…

以小“建”大,数字化商业创新,小企业如何拼出大事业?

作为国民经济的重要组成部分,小企业的发展,以其独特的灵活性与创新性,正在获得前所未有的发展。 然而,随着中国数字经济的蓬勃发展,作为其中的主力军之一,小企业的数量也在持续增长,戴尔联合ID…

阿里云数据库云栖亮剑,一场立体化竞争已经打响

在数据库领域,存在一种声音,未来将属于云数据库的天下。 两个事实可以简单佐证一下:一是甲骨文这样全球性领先数据库厂商,在云业务方面的转型十分努力,并且从财报可以看到甲骨文云的收入已经占比越来越高,…

护航绿色低碳经济,让数据中心的可持续发展“有章可循”

双碳目标下,推进经济社会发展的绿色转型,已经成为百行百业未来的发展共识。作为数字经济的核心基础设施,低碳可持续发展成为高价值数据中心的最新标志。 然而,想要实现这样的绿色可持续发展的目标,不仅需要各行各业一…

中国移动689亿元,增速惊人,位列2020云综合排名第一

全球云观察《云白皮书(2020-2021)》热评云厂商60家之一 在2019年云白皮书中,将移动云作为一个独立的统计厂商,从2020年开始不再独立将移动云作为统计厂商,而是以中国移动作为统计目标。 从财报数据显示来看&#xff0…

阿里云556.12亿元,稳中保高增,位列2020云综合排名第二

全球云观察《云白皮书(2020-2021)》热评云厂商60家之二 阿里云的收入,从目前的数据来看,最好的参考来源便是阿里巴巴财报数据。毕竟阿里云没有独立拆分,营收数据最靠谱的还是看公开财报。 因此,对于阿里云…