Apprentissage profond de dictionnaires pondérés et partagés par classe pour la classification d’images

Estimated reading: 13 minutes 92 views

Points forts

Proposer un apprentissage profond des dictionnaires pondérés et partagés par classe.

Concevoir une contrainte hiérarchique prenant en compte la localité pour l’apprentissage profond de dictionnaires.

Proposer l’utilisation d’une fonction d’activation non linéaire pour le codage parcimonieux.

Abstrait

L’apprentissage profond de dictionnaires a démontré des performances prometteuses dans diverses tâches de classification d’images. Cependant, des images différentes, contenant des objets différents, présentent généralement à la fois des caractéristiques spécifiques à chaque classe et des caractéristiques partagées entre les classes. La distinction de ces deux types de caractéristiques, grâce à l’apprentissage de dictionnaires spécifiques et partagés, peut améliorer la capacité de discrimination du codage parcimonieux, conduisant à des performances de classification encore meilleures. Ce domaine de recherche, bien qu’actif, reste peu exploré. Dans cet article, nous proposons l’apprentissage profond de dictionnaires pondérés et partagés (DCWSDL), qui combine les avantages de l’apprentissage profond de dictionnaires, de l’apprentissage de dictionnaires partagés et de la géométrie des données. Notre méthode DCWSDL est capable d’apprendre, à différents niveaux, des dictionnaires contenant des caractéristiques partagées et des dictionnaires contenant des caractéristiques spécifiques à chaque classe, ce qui lui permet d’acquérir des dictionnaires plus abstraits. Afin d’améliorer l’efficacité du codage parcimonieux pour les dictionnaires spécifiques à chaque classe, nous adaptons les termes de contrainte de discrimination intra- et inter-classes de Fisher, issus de l’apprentissage de dictionnaires de discrimination de Fisher, en introduisant des facteurs de pondération basés sur la localité des échantillons. Ces contraintes sont appliquées à plusieurs couches pour apprendre des représentations d’échantillons plus discriminantes. Les résultats expérimentaux obtenus à partir de plusieurs jeux de données d’images de référence ont démontré que DCWSDL surpasse les algorithmes de pointe récents que nous avons considérés. Le code source est disponible à l’adresse suivante : https://github.com/qinghe-D/DCWSDL .

Introduction

La complexité des tâches de vision par ordinateur est due à de multiples variables, telles que l’éclairage, l’angle de prise de vue, l’occlusion, les dommages et le degré élevé d’incertitude des échantillons analysés, ce qui explique l’intérêt constant qu’elles suscitent chez les chercheurs. La compréhension des caractéristiques essentielles des échantillons est cruciale pour que les modèles soient performants dans les tâches de vision. L’apprentissage par dictionnaire, en raison de ses bonnes performances, est couramment utilisé dans la classification d’images Chen, Wu, Xu, Kittler, 2023, Meng, Gu, 2024, Tariyal, Majumdar, Singh, Vatsa, 2016, Zheng, Liang, Zhao, Deng, 2024, le diagnostic des défauts Kong, Qin, Han, Wang, Chu, 2022, Lu, Wang, 2021, Wang, Dong, Chen, Hu, Zhu, 2023, Wang, Cao, Liu, Fu, Ding, 2021, classification d’images hyperspectrales Hajiani, Parhizgar, Keshavarz, 2021, Nie, Xue, Lin, Zhang, Su, 2024, Wang, Ge, Gou, Ou, Yin, Su, 2022, et amélioration d’image et débruitage Sheng, Lv, Wang, Feng, 2022, Sun, Zhang, Sun, Li, Liu, Gao, 2023, Zhang, Liu, 2022. L’apprentissage profond a également démontré des performances exceptionnelles dans le domaine de la vision [Zhang, 2023], et un nombre croissant d’universitaires sont impatients de découvrir ce qui peut se produire lorsque l’apprentissage profond et l’apprentissage de dictionnaire sont combinés Bhowmik, Arifuzzaman, Mondal, 2022, Li, Wang, Wang, Kong, Yin, 2023, Singhal, Majumdar, 2020, Zhou, Chen, Zhou, 2023.Les algorithmes d’apprentissage de dictionnaires existants pour la classification d’images sont généralement classés en deux grandes catégories. La première comprend les méthodes d’apprentissage de dictionnaires superficiels, qui utilisent un ensemble d’atomes de base pour obtenir des représentations parcimonieuses des données. La classification basée sur la représentation parcimonieuse (SRC), introduite par Wright, Yang, Ganesh, Sastry et Ma [2008], a établi un cadre fondamental en imposant des contraintes de parcimonie sur le processus d’encodage des caractéristiques. La seconde catégorie englobe l’apprentissage de dictionnaires profonds. Initié par Tariyal et al. [2016], l’apprentissage de dictionnaires profonds étend les méthodes superficielles en employant des dictionnaires hiérarchiques et un codage parcimonieux pour apprendre des représentations de caractéristiques de plus en plus discriminantes à partir des données d’entrée.

Cependant, les méthodes existantes souffrent encore de trois limitations : la confusion entre les caractéristiques partagées et spécifiques : la plupart des méthodes traditionnelles d’apprentissage de dictionnaires (par exemple, K-SVD Aharon, Elad et Bruckstein, 2006, FDDL Yang, Zhang, Feng et Zhang, 2014) et les modèles de dictionnaires profonds existants (par exemple, MDDL Song, Xie, Shi et Dong, 2019, DDLCN Tang, Liu, Xiao et Sebe, 2021, DDDL Gou, Yuan, Yu, Yu et Yi, 2023, M-LCLEDL Zhao, Zhang, Yin et Guo, 2025) ne parviennent pas à distinguer explicitement les caractéristiques communes entre les catégories (par exemple, des arrière-plans similaires), ce qui rend difficile l’amélioration des performances du modèle ; Goulot d’étranglement de la représentation des modèles superficiels : Les méthodes d’apprentissage de dictionnaires superficiels intégrant des modèles partagés (par exemple, JDL Zhou & Fan, 2014, LSRDL Vu & Monga, 2017) ont obtenu de bons résultats, mais elles sont incapables de capturer les attributs abstraits de haut niveau des échantillons, ce qui limite leur capacité à modéliser des données complexes ; utilisation insuffisante des structures de localité : Bien que la localité des données (par exemple, les relations de proximité des échantillons dans l’espace des caractéristiques) ait prouvé qu’elle améliore la généralisation, les modèles de dictionnaires profonds existants (par exemple, DDDL Gou et al., 2023, M-LCLEDL Zhao et al., 2025) n’ont pas pleinement intégré ces informations pour guider le processus d’encodage.Pour pallier ces limitations, cet article propose l’apprentissage profond de dictionnaires pondérés et partagés par classe (DCWSDL). Concrètement, pour chaque couche d’apprentissage de dictionnaires, un ensemble de dictionnaires spécifiques à chaque classe est appris simultanément, ainsi qu’un dictionnaire partagé. Les dictionnaires spécifiques préservent les caractéristiques propres à chaque classe, tandis que le dictionnaire partagé contient les caractéristiques communes à toutes les classes. Pour la représentation des données d’entrée dans le dictionnaire spécifique à chaque classe, nous introduisons un facteur de pondération basé sur la localité de l’échantillon original afin d’optimiser les coefficients de codage. Dans l’apprentissage profond de dictionnaires, la représentation des caractéristiques obtenue par la couche précédente après application de la fonction d’activation est utilisée comme entrée de la couche actuelle. Grâce à cet apprentissage multicouche, nous pouvons apprendre des dictionnaires plus abstraits et obtenir une représentation des caractéristiques plus discriminante des données d’entrée, améliorant ainsi les performances de classification du modèle.Solutions parcimonieuses basées surLes normes – conduisent généralement à des singularités matricielles et à des temps de calcul longs, et il a été démontré dans Zhang, Yang et Feng [2011] que les représentations collaboratives basées sur la norme … à des singularités matricielles et à des temps de calcul longs, et il a été démontré dans Zhang, Yang et Feng [-norme donne des résultats très compétitifs et est nettement moins complexe queméthodes basées sur la norme -norme. Par conséquent, dans DCWSDL, nous utilisonsLes termes de régularisation sont basés sur la norme Σ, tandis que le dictionnaire partagé utilise une contrainte de faible rang, ce qui permet à la méthode DCWSDL d’être résolue efficacement par un simple algorithme d’optimisation alternée. Après chaque couche d’apprentissage du dictionnaire, nous ajoutons également une couche de fonction d’activation pour garantir l’efficacité du codage parcimonieux. Enfin, la sortie de chaque couche d’apprentissage du dictionnaire est extraite pour la classification.En résumé, nos principales contributions sont les suivantes :

1.Nous proposons une nouvelle méthode d’apprentissage de dictionnaires profonds, appelée apprentissage de dictionnaires pondérés par classe et partagés par classe (DCWSDL), qui combine les avantages de l’apprentissage de dictionnaires profonds et de l’apprentissage de dictionnaires partagés afin qu’elle puisse apprendre simultanément des dictionnaires spécifiques à la classe et des dictionnaires partagés grâce à des architectures profondes.
2.DCWSDL privilégie l’apprentissage de dictionnaires tenant compte de la localité . Il exploite les informations de localité des données originales pour guider le codage parcimonieux obtenu à partir des données d’entrée et favoriser simultanément l’apprentissage du dictionnaire lors du processus d’optimisation alternée. Plus précisément, lors de l’apprentissage du codage parcimonieux des données d’entrée sur des dictionnaires spécifiques à chaque classe, le calcul des coefficients de codage prend en compte les informations de localité des données originales.
3.Au lieu d’utiliser une fonction d’activation d’identité à chaque niveau du dictionnaire, nous proposons l’utilisation d’une fonction d’activation non linéaire (c’est-à-dire ReLU) pour garantir l’efficacité du codage parcimonieux, et de nombreuses expériences sur plusieurs ensembles de données de référence vérifient l’efficacité de DCWSDL.

Le reste de cet article est organisé comme suit. La section 2 présente les travaux connexes et fournit les notions de base nécessaires concernant la représentation parcimonieuse, l’apprentissage de dictionnaires discriminants, l’apprentissage de dictionnaires partagés et l’apprentissage de dictionnaires profonds. La section 3 décrit en détail le cadre DCWSDL proposé, notamment sa motivation, sa fonction objectif, sa stratégie d’optimisation, son algorithme d’apprentissage et son algorithme de classification. Dans la section 4, nous présentons et analysons les résultats expérimentaux. Enfin, la section 5 conclut ce travail et ouvre des perspectives.

Apprendre le dictionnaire

Apprentissage de dictionnaires superficiels : L’apprentissage de dictionnaires (DL) représente les données de manière parcimonieuse à l’aide d’atomes de base. La classification basée sur la représentation parcimonieuse (SRC) [Wright et al., 2008] a ouvert la voie en introduisant des contraintes de parcimonie pour l’encodage des caractéristiques. La K-SVD [Aharon et al., 2006] a amélioré la précision de la représentation en optimisant alternativement le dictionnaire et les codes parcimonieux, tandis que l’apprentissage de dictionnaires discriminants de Fisher (FDDL) [Yang et al., 2014] a intégré l’analyse discriminante de Fisher pour améliorer

Apprentissage profond de dictionnaires pondérés et partagés par classe

Dans cette section, nous présentons brièvement les modèles d’apprentissage profond (DL) étroitement liés à cet article. Nous introduisons ensuite un nouveau cadre, appelé DCWSDL (Deep Class-Weighted and Class-Shared Dictionary Learning), qui vise à apprendre conjointement, grâce à des structures profondes, un dictionnaire partagé capturant les caractéristiques communes et un dictionnaire spécifique à chaque classe mettant l’accent sur ses caractéristiques propres. Nous mettons à jour alternativement le dictionnaire et les coefficients, et décrivons la méthode de classification dans la dernière section.

Expériences

Dans cette section, nous comparons notre DCWSDL à plusieurs techniques de pointe, notamment la classification basée sur la représentation parcimonieuse (SRC) [Wright et al., 2008], l’apprentissage de dictionnaires spécifiques à la classe (D-KSVD) [Zhang & Li, 2010], LC-KSVD1 et LC-KSVD2 [Jiang, Lin & Davis, 2013], SLatDPL [Zhang et al., 2021], RBD-DPL [Chen, Wu & Kittler, 2022], FDDL [Yang et al., 2014] et DLSI [Ramirez, Sprechmann & Sapiro, 2010], l’apprentissage de dictionnaires partagés (LRSDL) [Vu & Monga, 2017], ainsi que les dictionnaires profonds.

Conclusion

Dans cet article, nous proposons une nouvelle méthode d’apprentissage de dictionnaires profonds, appelée DCWSDL (Deep Class-Weighted and Class-Shared Dictionary Learning), qui combine les avantages de l’apprentissage de dictionnaires profonds, de l’apprentissage de dictionnaires partagés et de la préservation de la localité des données dans un cadre unifié. DCWSDL distingue les caractéristiques spécifiques à chaque classe et les caractéristiques communes aux échantillons grâce à un nouvel apprentissage hiérarchique et pondéré des dictionnaires spécifiques et partagés aux classes. Concernant l’apprentissage des dictionnaires spécifiques aux classes,

Déclaration de contribution à l’auteur CRediT

Jianping Gou : Conceptualisation, méthodologie, analyse formelle, rédaction (première version), supervision, obtention de financement.

Xin He : Rédaction (relecture et corrections), logiciel, validation, analyse formelle, investigation, visualisation.

Lan Du : Rédaction (relecture et corrections), analyse formelle.

Weiyong Zhang : Logiciel, validation, visualisation.

Weihua Ou : Analyse formelle, investigation, obtention de financement.

Déclaration de conflit d’intérêts

Les auteurs déclarent n’avoir aucun conflit d’intérêts financiers ou personnels connu susceptible d’avoir influencé les travaux présentés dans cet article.

Reconnaissance

Ce travail a été financé en partie par

la Fondation nationale des sciences naturelles de Chine (subventions n° 62576292 et 62262005 ), la Fondation de recherche pour les chercheurs de haut niveau de l’Université du Sud-Ouest (subvention n° SWU-KR24002), le programme « Talents innovants de haut niveau » de la province de Guizhou (n° GCC[2023]033), le Département provincial des sciences et technologies de Guizhou (subvention n° QKHCG-DXGA[2025]-ZD002), le projet de recherche en sciences naturelles du

Département de l’éducation de la province de Guizhou (subvention n° QJJ[2024]009 ) et le programme « High »

Références (53)

NR Bhowmik et al.Analyse des sentiments sur des textes en bengali à l’aide d’un dictionnaire lexical étendu et d’algorithmes d’apprentissage profondTableau(2022)
F. Hajiani et al.Classification d’images hyperspectrales utilisant une représentation de faible rang régularisée par graphes basée sur le clustering et l’apprentissage de dictionnairesNeuroinformatique(2021)
Y. Kong et al.Approche de classification parcimonieuse améliorée basée sur l’apprentissage de dictionnaires avec applications au diagnostic des défauts des roulements planétairesAcoustique appliquée(2022)
J. Lin et al.Apprentissage de dictionnaire non linéaire profond basé sur la machine avec opérateur proximal relevé et régularisation multicoucheNeuroinformatique(2025)
Y. Lu et al.Diagnostic des pannes des machines du procédé de fabrication par dépôt de filament fondu avec apprentissage de dictionnaire contraint par la physiqueFabrication Procedia(2021)
J. Sheng et al.SRNET : Réseau de débruitage d’images basé sur la représentation parcimonieuseTraitement numérique du signal(2022)
V. Singhal et al.Une approche d’adaptation de domaine pour résoudre les problèmes inverses en imagerie via l’apprentissage de dictionnaires profonds couplésReconnaissance de formes(2020)
J. Song et al.Apprentissage de dictionnaires discriminatifs multicouches avec contrainte de localité pour la classification d’imagesReconnaissance de formes(2019)
Z. Sun et al.Apprentissage de dictionnaires convolutionnels profonds multimodaux pour le débruitage d’imagesNeuroinformatique(2023)
H. Wang et al.Une nouvelle méthode d’apprentissage de dictionnaires, appelée apprentissage de dictionnaires profonds et partagés, pour le diagnostic de pannes.Systèmes mécaniques et traitement du signal(2023

Sahel Lib

Ideas without borders