Une revue de la détection d’anomalies basée sur l’apprentissage profond

Estimated reading: 18 minutes 92 views

Résume

Avec le développement rapide des technologies, la détection d’anomalies est devenue un sujet clé tant en recherche qu’en applications pratiques. Ces dernières années, l’apprentissage profond a démontré sa capacité remarquable à appréhender les caractéristiques de données complexes et à extraire automatiquement les schémas d’anomalies, stimulant ainsi le développement rapide des méthodes de détection d’anomalies basées sur l’apprentissage profond. Cet article présente une vue d’ensemble systématique des méthodes de détection d’anomalies, en mettant l’accent sur les approches fondées sur l’apprentissage automatique et l’apprentissage profond. Sur cette base, et selon le type de données d’entrée, ces méthodes sont ensuite classées en détection d’anomalies sur données non temporelles et sur données temporelles. Les différences entre les principales techniques actuelles de détection d’anomalies, en termes de performances, d’avantages, d’inconvénients et de scénarios d’application, sont également analysées en détail. L’étude montre que les méthodes d’apprentissage profond présentent des avantages significatifs pour le traitement de données complexes de grande dimension et l’extraction de caractéristiques d’anomalies potentielles. Enfin, les défis actuels de la détection d’anomalies sont résumés et les perspectives de recherche futures sont esquissées.

Introduction

La détection d’anomalies, également appelée détection de valeurs aberrantes ou détection de nouveautés, vise à identifier les schémas anormaux dans les données qui ne correspondent pas au comportement attendu. Ces anomalies peuvent provenir de divers facteurs, tels que des erreurs de collecte de données, des comportements frauduleux, des pannes d’équipement et des intrusions réseau. Par exemple, dans le trafic réseau, une augmentation soudaine du volume de données peut être le signe d’une attaque. La détection d’anomalies est une technique essentielle en analyse de données et en apprentissage automatique. La détection rapide des anomalies permet d’anticiper les problèmes potentiels, renforçant ainsi la sécurité et la stabilité du système. Dans le domaine de la recherche sur la détection d’anomalies, de nombreuses techniques ont été développées pour des domaines d’application spécifiques, tandis que d’autres présentent une applicabilité plus large. La détection d’anomalies est utilisée dans de nombreux domaines et contextes.Dans le domaine de l’apprentissage automatique, de nombreuses techniques ont été employées pour la détection d’anomalies. Parmi celles-ci figurent les méthodes basées sur la densité (par exemple, le facteur d’anomalie locale, LOF), les méthodes de clustering (par exemple, K-means, DBSCAN), les méthodes arborescentes (par exemple, Isolation Forest), les méthodes basées sur les SVM (par exemple, SVM à une classe) et les approches basées sur les réseaux bayésiens (RB). Cependant, toutes ces méthodes présentent des limitations, et la détection d’anomalies reste insatisfaisante en présence de données déséquilibrées, de rareté des étiquettes, de données de grande dimension et d’une complexité de calcul élevée. Ces dernières années, l’apprentissage profond a démontré sa grande efficacité pour l’extraction automatique de caractéristiques et la modélisation de distributions de données complexes, stimulant ainsi l’évolution continue des méthodes de détection d’anomalies. L’apprentissage profond est un sous-domaine de l’apprentissage automatique qui apprend la représentation des données à l’aide de réseaux de neurones multicouches. Il possède une plus grande capacité d’expression que les méthodes d’apprentissage automatique traditionnelles. Capable d’extraire automatiquement des caractéristiques à partir de données brutes, il excelle dans une variété de tâches complexes. De plus, grâce à l’apprentissage de caractéristiques multiniveaux, les modèles d’apprentissage profond peuvent réduire le taux de fausses alarmes et améliorer la précision de la détection d’anomalies. Par exemple, les réseaux de neurones convolutifs (CNN) peuvent traiter efficacement le bruit et extraire des caractéristiques utiles lors du traitement d’images. Les auto-encodeurs (AE) peuvent être entraînés avec moins de données étiquetées. Les réseaux de neurones récurrents (RNN), les réseaux LSTM (Long Short-Term Memory) et les unités récurrentes à porte (GRU) peuvent gérer des données de grande dimension et s’adapter aux besoins de la détection d’anomalies dans des environnements dynamiques. La détection d’anomalies par apprentissage profond améliore considérablement la précision et l’efficacité de la détection en traitant des données complexes et en identifiant des schémas d’anomalies subtils. Ceci offre un soutien robuste à la sécurité et à la fiabilité dans tous les secteurs d’activité.Dans le domaine de la détection d’anomalies, plusieurs articles de synthèse ont systématiquement résumé les progrès de la recherche. Des travaux initiaux importants, tels que celui de Hodge et al. [1], ont synthétisé les méthodes d’apprentissage statistique et d’apprentissage automatique pour la détection d’anomalies. Chandola et al. [2] ont combiné de manière plus systématique la définition, la classification des méthodes et les domaines d’application de la détection d’anomalies. Leur travail demeure l’une des synthèses classiques les plus représentatives. Par la suite, Boukerche et al. [3] et Samariya et al. [4] ont approfondi les méthodes traditionnelles et construit un système de classification plus précis, basé respectivement sur la structure du modèle et le type d’algorithme. Avec l’essor de l’apprentissage profond, Chalapathy et al. [5] ont, pour la première fois, examiné de manière systématique l’application de l’apprentissage profond à la détection d’anomalies. Pang et al. [6] ont proposé un système de catégorisation plus complet et faisant autorité, couvrant 3 catégories générales et 11 catégories de méthodes plus fines. Ruff et al. [7] ont établi un lien entre les méthodes traditionnelles superficielles et les approches d’apprentissage profond, démontré des techniques de détection d’anomalies dans différentes catégories, fourni des éclairages théoriques et présenté des bonnes pratiques d’application. Par ailleurs, Huang et al. [8] ont analysé plus de 180 études récentes et examiné les méthodes d’apprentissage profond basées sur la reconstruction et la prédiction, en particulier dans le contexte de l’Internet des objets (IoT). Pour les scénarios de données massives de grande dimension, Thudumu et al. [9] ont introduit le concept de « malédiction des grandes dimensions », en utilisant un modèle triangulaire pour représenter la relation entre les dimensions, les algorithmes et les outils. De leur côté, Li et al. [10] se sont concentrés sur la détection d’anomalies interprétable et ont exploré son rôle crucial dans les domaines critiques pour la sécurité. Enfin, Landauer et al. [11] ont mené une revue systématique de la détection d’anomalies dans les données de journalisation, en explorant les modèles d’apprentissage profond, les mécanismes de prétraitement des données et les méthodes d’évaluation. Il existe également plusieurs revues [12], [13], [14], [15], [16], [17], [18], [19], [20], [21] dans le domaine de la détection d’anomalies d’images et de vidéos qui résument systématiquement les principales approches et tendances.Actuellement, de nombreuses études, telles que [22], [23], [24] et [25], se concentrent sur la détection d’anomalies dans les séries temporelles multivariées par apprentissage profond, en proposant des systèmes de classification basés sur des stratégies de détection d’anomalies et des modèles d’apprentissage profond. Cependant, ces études ne présentent pas de synthèse systématique des modèles de détection d’anomalies dans les séries temporelles développés ces dernières années. Par conséquent, afin de combler cette lacune, cet article propose une revue structurée et systématique de la détection d’anomalies par apprentissage profond. Contrairement aux études précédentes, qui se concentrent exclusivement sur des données non temporelles ou sur une seule catégorie de méthodes, cette étude catégorise les techniques de détection d’anomalies par type de données et examine systématiquement les progrès récents de la recherche. De plus, nous organisons les scénarios d’application typiques, les métriques d’évaluation couramment utilisées et les jeux de données pour chaque type de modèle, et nous résumons les défis de recherche actuels ainsi que les pistes de recherche prometteuses. Cet article aide les chercheurs à acquérir une compréhension globale de l’évolution de la détection d’anomalies par apprentissage profond et guide la conception et le déploiement pratique des méthodes ultérieures. Les principales contributions de cet article sont les suivantes :

(1)Cet article systématise les types d’anomalies et les méthodes de détection d’anomalies correspondantes des données non chronologiques et chronologiques, fournissant une référence de base pour la sélection et la conception ultérieures des modèles.
(2)Cet article passe en revue de manière exhaustive les méthodes de détection d’anomalies basées sur l’apprentissage automatique et l’apprentissage profond. Il se concentre sur les modèles de détection d’anomalies basés sur l’apprentissage profond et les analyse et les compare en termes d’indicateurs de performance, d’avantages, d’inconvénients et de scénarios d’application. Parallèlement, nous recensons les cas d’application typiques de la technologie de détection d’anomalies dans de nombreux domaines et récapitulons les indices d’évaluation et les jeux de données couramment utilisés.
(3)Enfin, il souligne les défis de la recherche actuelle et propose des pistes de recherche à explorer à l’avenir.

Le reste de cet article est organisé comme suit. La section 2 présente les catégories de données, les types d’anomalies et le cadre de classification proposé pour les techniques de détection d’anomalies. La section 3 aborde les techniques de détection d’anomalies basées sur l’apprentissage automatique. La section 4 traite des techniques de détection d’anomalies basées sur l’apprentissage profond, principalement fondées sur des méthodes de prévision et de reconstruction. La section 5 présente les applications des modèles de détection d’anomalies dans différents domaines, ainsi que les indicateurs de performance et les jeux de données utilisés. La section 6 expose les défis et les perspectives de recherche dans le domaine de la détection d’anomalies. Enfin, la section 7 résume les principaux résultats et contributions de cet article et discute de ses implications pour les chercheurs et les praticiens.

Classification des techniques de détection d’anomalies

Cette section aborde différents aspects de la détection d’anomalies. Selon la principale approche technologique adoptée, les techniques de détection d’anomalies sont classées en méthodes d’apprentissage automatique et méthodes d’apprentissage profond. Sur cette base, et en fonction des caractéristiques des données d’entrée, elles peuvent être subdivisées en deux catégories : la détection d’anomalies dans les données non temporelles et la détection d’anomalies dans les données temporelles. Afin de dresser un panorama complet des développements actuels en matière de détection d’anomalies,

Détection d’anomalies basée sur l’apprentissage automatique

L’apprentissage automatique permet de construire le modèle souhaité à partir de données d’entraînement. Face à la complexité croissante du domaine de la détection d’anomalies et à la multiplication des types d’attaques, le recours aux techniques d’apprentissage automatique pour concevoir et maintenir des systèmes de détection d’anomalies s’avère supérieur aux méthodes traditionnelles. Cette section présente une synthèse des techniques de détection d’anomalies basées sur l’apprentissage automatique, illustrée dans le tableau 1.

Détection d’anomalies basée sur l’apprentissage profond

Les réseaux neuronaux profonds constituent une méthode puissante pour la modélisation des dépendances, ce qui leur confère un avantage sur les modèles d’apprentissage automatique traditionnels pour le traitement des anomalies complexes. De nombreux chercheurs ont étudié l’application de diverses architectures d’apprentissage profond à la détection d’anomalies. Afin de faciliter une compréhension globale de l’applicabilité des différentes approches d’apprentissage profond à la détection d’anomalies, le tableau 2 résume les principaux avantages et limitations de chaque type d’approche.

Indicateurs de performance, domaines d’application et ensembles de données

Ce chapitre présente les indicateurs de performance courants pour la détection d’anomalies, les domaines d’application typiques et les jeux de données publics largement utilisés dans les expériences. Ils constituent une base importante pour l’évaluation, la comparaison et le déploiement pratique des méthodes.

Défis de la recherche

Bien que les méthodes de détection d’anomalies basées sur l’apprentissage profond aient démontré de solides capacités de modélisation et une grande précision de détection dans plusieurs domaines d’application, elles se heurtent encore à de nombreux obstacles concrets lors de leur déploiement et de leur utilisation. Ces obstacles affectent non seulement la capacité de généralisation et la robustesse du modèle, mais limitent également son applicabilité dans des scénarios industriels clés.

Conclusion

Avec l’avènement du Big Data et l’évolution rapide des systèmes complexes, la détection d’anomalies est devenue une technologie clé pour garantir la stabilité et la sécurité des systèmes. Les approches basées sur l’apprentissage profond, grâce à leur puissante extraction automatique de caractéristiques, leurs capacités de modélisation non linéaire et leurs avantages en matière d’entraînement de bout en bout, sont devenues un axe de recherche de plus en plus important dans le domaine de la détection d’anomalies. Cet article passe en revue les applications de la détection d’anomalies, tant par apprentissage automatique que par apprentissage profond.

Déclaration de contribution à l’auteur CRediT

Yaxin Shi : Rédaction (première version), méthodologie, investigation, conceptualisation.

Guang Yang : Supervision, gestion de projet, obtention de financement.

Xiao Wang : Rédaction (révision et correction), méthodologie, conceptualisation.

Qianqian Yu : Rédaction (révision et correction), méthodologie.

Ying Feng : Rédaction (révision et correction).

Ang Liu : Rédaction (révision et correction).

Déclaration de conflit d’intérêts

Les auteurs déclarent n’avoir aucun conflit d’intérêts financiers ou personnels connu susceptible d’avoir influencé les travaux présentés dans cet article.

Reconnaissance

Les recherches ayant conduit à ces résultats ont bénéficié d’un financement du [Plan scientifique et technologique du département des transports de la province du Shandong] dans le cadre de la convention de subvention n° [2024B113] et de la [Fondation nationale des sciences naturelles de Chine] dans le cadre de la convention de subvention n° [61601264].Yaxin Shi a obtenu son diplôme d’ingénieure en génie électrique et automatisation en 2022 à l’Université Jiaotong du Shandong, à Jinan, en Chine. Elle poursuit actuellement un master en ingénierie robotique au sein des laboratoires de la Faculté des sciences de l’information et du génie électrique. Ses recherches portent sur les techniques de détection d’anomalies basées sur les séries temporelles.

Références (194)

M. Landauer et al.Apprentissage profond pour la détection d’anomalies dans les données de journalisation : une étudeMachine. Apprendre. Appliquer.(2023)
S. Anoopa et al.Étude sur la détection d’anomalies dans les vidéos de surveillanceMater. Aujourd’hui Proc.(2022)
F. Wang et al.Étude sur la détection d’anomalies profondes dans les séries temporelles multivariées : taxonomie, applications et perspectivesSens. (Bâle, Suisse)(2025)
S. Mascaro et al.Détection d’anomalies dans les trajectoires des navires à l’aide de réseaux bayésiensInt. J. Raison approximative.(2014)
W. Khreich et al.Un système de détection d’anomalies basé sur des caractéristiques n-grammes variables et une SVM à une classeTechnologie logicielle de l’information(2017)
R. Patriarca et al.Amélioration de la gestion des performances des prévisions météorologiques dans les aérodromes grâce à la détection d’anomalies et au regroupement hiérarchiqueSystèmes experts Appl.(2023)
Z. Ding et al.Une approche de détection d’anomalies basée sur l’algorithme de forêt d’isolation pour les données en flux continu utilisant une fenêtre glissanteActes de l’IFAC, vol.(2013)
Z. Zhang et al.Détection d’anomalies à l’aide d’un modèle SVDD profond amélioré avec préservation de la structure des donnéesLettres de reconnaissance de formes(2021)
J. Chen et al.Détection d’anomalies pour les éoliennes basée sur la reconstruction des paramètres de condition à l’aide d’auto-encodeurs débruiteurs empilésÉnergie renouvelable(2020)
S. Yan et al.Auto-encodeur convolutionnel hybride robuste pour la détection non supervisée d’anomalies dans les machines-outils en présence de bruitRobotique. Comput.-Integr. Manuf.(2023)
T. Schlegl et al.F-Anogan: fast unsupervised anomaly detection with generative adversarial networksMed. Image Anal.(2019)
S.M. Erfani et al.High-dimensional and large-scale anomaly detection using a linear one-class SVM with deep learningPattern Recognit.(2016)
V. Hodge et al.A survey of outlier detection methodologiesArtif. Intell. Rev.(2004)
V. Chandola et al.Anomaly detection: a surveyACM Comput. Surv.(Jul 2009)
A. Boukerche et al.Outlier detection: methods, models, and classificationACM Comput. Surv.(Jun 2020)
D. Samariya et al.A comprehensive survey of anomaly detection algorithmsAnn. Data Sci.(2023)
R. Chalapathy et al.Deep learning for anomaly detection: A survey
G. Pang et al.Deep learning for anomaly detection: a reviewACM Comput. Surv.(Mar 2021)
L. Ruff et al.A unifying review of deep and shallow anomaly detectionProc. IEEE(2021)
H. Huang et al.Deep learning advancements in anomaly detection: A comprehensive survey
S. Thudumu et al.A comprehensive survey of anomaly detection techniques for high dimensional big dataJ. Big Data(2020)
Z. Li et al.A survey on explainable anomaly detectionACM Trans. Knowl. Discov. Data(2023)
J. Liu et al.Deep industrial image anomaly detection: a surveyMach. Intell. Res.(2024)
X. Tao et al.Deep learning for unsupervised anomaly localization in industrial images: a surveyIEEE Trans. Instrum. Meas.(2022)
M. Jin et al.A survey on graph neural networks for time series: forecasting, classification, imputation, and anomaly detectionIEEE Trans. Pattern Anal. Mach. Intell.(2024)
L. Wen et al.The survey of industrial anomaly detection for industry 5.0Int. J. Comput. Integr. Manuf.(2024)
K.A.P. da Costa et al.A critical literature survey and prospects on tampering and anomaly detection in image dataAppl. Soft Comput.(2020)
T.M. Tran et al.Anomaly analysis in images and videos: a comprehensive reviewACM Comput. Surv.(2022)
H.-T. Duong et al.Deep learning-based anomaly detection in video surveillance: a surveySensors(2023)
E. Şengönül et al.An analysis of artificial intelligence techniques in surveillance video anomaly detection: a comprehensive surveyAppl. Sci.(2023)
B.R. Kiran et al.An overview of deep learning based methods for unsupervised and semi-supervised anomaly detection in videosJ. Imaging(2018)
A. Blázquez-García et al.A review on outlier/anomaly detection in time series dataACM Comput. Surv.(2021)
K. Choi et al.Deep learning for anomaly detection in time-series data: review, analysis, and guidelinesIEEE Access(2021)
Z. Zamanzadeh Darban et al.Deep learning for time series anomaly detection: a surveyACM Comput. Surv.(2024)
H.V. Dudukcu et al.Unmanned Aerial vehicles (UAVS) battery power anomaly detection using temporal convolutional network with simple moving average algorithm
Z.-G. Zhou et al.Improving time series anomaly detection based on exponentially weighted moving average (ewma) of season-trend model residuals
H.E. Kyburg Jr, Probabilistic reasoning in intelligent systems: networks of plausible inference…
C.P. Diehl et al.Real-time object classification and novelty detection for collaborative video surveillance
W.-K. Wong et al.Bayesian network anomaly pattern detection for disease outbreaks
C. Cortes et al.Support-vector networksMach. Learn.(1995)
K.A. Heller et al.One class support vector machines for detecting anomalous windows registry accesses
M. Davy et al.Detection of abrupt spectral changes using support vector machines an application to audio signal segmentation
J.R. QuinlanInduction of decision treesMach. Learn.(1986)
K. Rai et al.Decision tree based algorithm for intrusion detectionInt. J. Adv. Netw. Appl.(2016)
R. Primartha et al.Anomaly detection using random forest: a performance revisited
N. Chand et al.A comparative analysis of SVM and its stacking with other classification algorithm for intrusion detection
S. Vijayarani et al.Comparative analysis of Bayes and lazy classification algorithmsInt. J. Adv. Res. Comput. Commun. Eng.(2013)
A.K. Jain et al.Algorithms for Clustering Data(1988)
I. Kiss et al.Data clustering-based anomaly detection in industrial control systems
M.F. Lima et al.Anomaly detection using baseline and k-means clustering

Sahel Lib

Ideas without borders