Apprentissage par renforcement en temps continu basé sur la physique et utilisant une approche fondée sur les données pour la manipulation de bras robotiques

Estimated reading: 12 minutes 74 views

Points forts

Un nouvel apprentissage par renforcement en temps continu informé par la physique (PICRL) pour résoudre les problèmes de systèmes non linéaires.

L’efficacité de PICRL est démontrée théoriquement du point de vue ERM et SRM.

Un cadre de calcul de perte hybride intégrant l’estimation d’état pour PICRL.

Abstrait

L’apprentissage par renforcement profond (DRL) joue un rôle crucial dans les tâches complexes de prise de décision séquentielle. Cependant, les méthodes DRL existantes, basées sur les données, s’appuient principalement sur une stratégie de minimisation du risque empirique (ERM) pour ajuster des modèles de fonction de valeur optimaux. Cette approche néglige souvent les propriétés dynamiques du système, ce qui conduit à une prise en compte insuffisante de la stratégie de minimisation du risque structurel (SRM). Pour pallier cette limitation, cet article propose un apprentissage par renforcement en temps continu informé par la physique (PICRL) afin de valider l’efficacité du modèle du point de vue ERM et SRM. Plus précisément, nous commençons par analyser théoriquement le mécanisme de la SRM dans les modèles d’apprentissage par renforcement. Ensuite, des informations physiques sont intégrées aux algorithmes d’apprentissage par renforcement discret et continu pour des expériences comparatives. Enfin, nous examinons systématiquement les effets de diverses contraintes physiques et aux limites sur ces deux cadres d’apprentissage. Les résultats expérimentaux obtenus sur PandaGym démontrent que la méthode proposée atteint des performances comparables, voire supérieures, dans les deux cadres d’apprentissage par renforcement discret et continu. Ceci apporte une preuve solide de ses avantages significatifs pour l’apprentissage de politiques de contrôle pour les systèmes dynamiques à intervalles de temps courts.

Résumé graphique

Introduction

L’apprentissage profond [1] a permis des avancées révolutionnaires en vision par ordinateur (CV) [2], en traitement automatique du langage naturel (TALN) [3], en apprentissage par renforcement (RL) [4] et dans d’autres domaines, principalement grâce aux capacités exceptionnelles des réseaux de neurones en matière de représentation des données et d’approximation des fonctions. Cependant, l’entraînement des modèles d’apprentissage profond repose sur de vastes ensembles de données étiquetées, conformément au principe de minimisation du risque empirique (ERM) [5]. Ce principe exige d’importantes quantités de données étiquetées afin de minimiser l’écart entre les prédictions et les valeurs réelles. Ce paradigme purement basé sur les données néglige souvent les lois physiques fondamentales, qui peuvent être considérées comme une forme de connaissance a priori contribuant à la minimisation du risque structurel (SRM). Par conséquent, lorsque les données d’entraînement sont rares, les modèles entraînés selon le principe ERM sont sujets au surapprentissage. Pour surmonter cette limitation, les réseaux neuronaux informés par la physique (PINN) [6], qui intègrent les avantages de l’apprentissage profond avec les connaissances physiques, peuvent fournir de nouvelles solutions aux problèmes non linéaires multidimensionnels difficiles [7], [8], [9], [10], [11], [12].De même, l’apprentissage par renforcement profond (DRL), notamment dans les domaines de la fabrication intelligente [13], [14], de l’information industrielle [15] et de la robotique autonome [16], néglige également les contraintes physiques lors de l’ajustement des données d’interaction séquentielles. Les études existantes se concentrent principalement sur l’intégration d’informations physiques dans l’apprentissage par renforcement à temps discret (DTRL) [17], [18], [19] et détaillent comment intégrer ces informations dans la théorie DTRL basée sur les données [20], [21], afin de former des modèles suffisamment robustes. Cependant, l’intégration des principes physiques aux approches basées sur les données [22] pour l’apprentissage par renforcement à temps continu (CTRL) reste largement inexplorée, en particulier dans le domaine des systèmes dynamiques à temps continu régis par des équations aux dérivées partielles (EDP).Pour relever le défi d’obtenir simultanément une meilleure précision de la réponse (ERM) et une meilleure précision de la réponse (SRM) pour les modèles CTRL, nous proposons dans cet article un apprentissage par renforcement en temps continu informé par la physique (PICRL) avec une approche basée sur les données. PICRL exploite les propriétés des équations aux dérivées partielles (EDP) des systèmes dynamiques et modélise simultanément la composante d’ajustement basée sur les données et la dynamique directe des propriétés physiques. Plus précisément, dans une tâche de contrôle d’un bras robotique à 7 degrés de liberté, nous dérivons d’abord les équations semi-discrètes de Hamilton-Jacobi-Bellman (HJB) comme terme de perte de données du modèle. Ensuite, nous exécutons des actions à l’effecteur du bras robotique correspondant à la fonction de valeur optimale. Nous utilisons ensuite des méthodes de différences finies et un estimateur de filtre de Kalman robuste pour obtenir des estimations de couple pour le bras robotique, en calculant le terme de perte physique comme la différence entre les couples estimés et réels. Enfin, nous intégrons ces contraintes dans le terme de perte de données du CTRL et entraînons le modèle de contrôle optimal. Les résultats expérimentaux démontrent que la méthode PICRL proposée atteint des performances comparables aux approches existantes tout en nécessitant beaucoup moins de données pour l’entraînement du modèle. Ces résultats confirment l’efficacité de la prise en compte simultanée des exigences ERM et SRM. Les principales contributions de cet article sont résumées ci-dessous :

Une nouvelle approche d’apprentissage par renforcement en temps continu, basée sur la physique, est proposée, qui permet de résoudre efficacement les problèmes non linéaires dans les systèmes dynamiques.
L’efficacité du PICRL est démontrée théoriquement par un cadre d’analyse à double perspective, englobant à la fois les principes ERM et SRM.
Un cadre de calcul combinant perte de données et perte physique est proposé, où les techniques d’estimation de la dynamique pour les termes de perte physique utilisent des méthodes telles que les estimateurs de différences finies ou les estimateurs de filtre de Kalman.

La structure de cet article est organisée comme suit : la section 2 présente une revue exhaustive et une analyse critique des méthodologies existantes dans les paradigmes d’apprentissage par renforcement PINN et inspirés par la physique. La section 3 formule le cadre théorique et la problématique, tant pour l’ERM que pour le SRM. La section 4 détaille notre approche PICRL, incluant une analyse théorique rigoureuse, des garanties de convergence et les procédures d’implémentation. La section 5 présente des validations expérimentales systématiques et des études d’ablation complètes afin de démontrer l’efficacité de notre approche. Enfin, la section 6 conclut l’article par un résumé de nos résultats et discute des pistes de recherche futures.INN

Les réseaux de neurones à impulsions physiques (PINN) [6] sont largement utilisés en calcul scientifique [17], [23] et en traitement de l’information industrielle [24]. Ces modèles intègrent des lois physiques pour guider leur apprentissage, améliorant ainsi leur capacité de généralisation, notamment en présence de données limitées ou de bruit important. Un modèle PINN est généralement constitué d’un réseau de neurones profond, caractérisé par l’inclusion de termes physiques dans sa fonction de perte, représentant les lois physiques sous-jacentes [25]. Fondamentalement,

La méthode proposée

Dans cette section, nous présentons d’abord l’architecture fondamentale et les composants de la méthodologie proposée. Ensuite, nous établissons une analyse théorique complète de la formulation SRM. Enfin, nous détaillons la mise en œuvre de l’algorithme et la procédure d’apprentissage.

Résultats expérimentaux

Cette section présente une évaluation complète de l’approche PICRL proposée. L’évaluation se déroule en trois étapes. Premièrement, nous décrivons le dispositif expérimental et les algorithmes de référence. Ensuite, des expériences comparatives sont menées afin de démontrer les performances de PICRL par rapport aux méthodes de référence. Enfin, des études d’ablation approfondies sont réalisées pour analyser systématiquement les principaux facteurs influençant l’efficacité de l’algorithme PICRL.

Conclusions

L’apprentissage par renforcement basé sur les données repose principalement sur l’ajustement des données d’interaction, ce qui satisfait aux exigences de la méthode ERM mais néglige souvent les considérations SRM. Pour remédier à ce problème, cet article propose une méthode PICRL qui améliore efficacement l’interprétabilité des actions de l’effecteur en intégrant des termes d’erreur d’information physique dans la fonction de perte. De nombreuses expériences démontrent qu’avec de petits intervalles de temps, la méthode présente des performances supérieures à celles des algorithmes de référence comparables.

Déclaration de contribution à l’auteur CRediT

Jin-Qiang Wang : Rédaction (première version), visualisation, validation, logiciel, méthodologie, investigation, curation des données, conceptualisation.

Lirong Song : Validation, logiciel, investigation.

Jun Shen : Rédaction (révision et correction), supervision.

Binbin Yong : Rédaction (révision et correction), validation, supervision, gestion de projet, méthodologie, conceptualisation.

Xiaoteng Han : Rédaction (révision et correction), ressources, investigation, conceptualisation.

Yuanbo Jiang : Rédaction (révision et correction).

Déclaration de conflit d’intérêts

Aucun des auteurs n’a déclaré de lien d’intérêt.Nous déclarons qu’en dehors de notre affiliation institutionnelle principale, aucun financement externe supplémentaire n’a été reçu pour cette recherche. Nous confirmons l’absence de toute aide financière ou de tout conflit d’intérêts avec d’autres institutions ou organisations pendant la réalisation et la préparation de ce manuscrit.

Remerciements

Ce travail a été partiellement financé par le programme « Top Leading Talent » de la province du Gansu, le

Fonds de recherche fondamentale pour les universités centrales (subvention n ° lzujbky-2024-eyt01) ,

le projet de recherche Ling Chuang de la China National Nuclear Corporation (subvention n° CNNC-LCKY-2025-098) , le

Laboratoire clé d’État des robots de pointe pour charges lourdes, le Laboratoire clé provincial du Guangdong des technologies de base pour les appareils électroménagers (projet de fonds ouvert n° GJJ20250104 ) et le Programme

central d’orientation pour la science et la technologie locales.

Références (20)

M. Raissi et al.Réseaux neuronaux informés par la physique : un cadre d’apprentissage profond pour la résolution de problèmes directs et inverses impliquant des équations aux dérivées partielles non linéairesJ. Comput. Phys.(2019)
Haoteng Hu et coll.Réseaux de neurones à information physique (PINN) pour la mécanique des solides numérique : cadres numériques et applicationsStructure à parois minces.(2024)
Wenyuan Wu et al.Réseaux neuronaux flous profonds informés par la physique pour les problèmes d’EDP directes et inversesRéseau neuronal(2025)
Xuhui Meng et coll.PPINN : Réseau neuronal pararéel informé par la physique pour les EDP dépendant du tempsMéthodes informatiques appliquées au génie mécanique(2020)
Liu Yang et al.B-PINNs : Réseaux de neurones bayésiens informés par la physique pour les problèmes d’EDP directes et inverses avec des données bruitéesJ. Comput. Phys.(2021)
Lei Yuan et al.A-PINN : Réseaux de neurones auxiliaires informés par la physique pour les problèmes directs et inverses d’équations intégro-différentielles non linéairesJ. Comput. Phys.(2022)
Sifan Wang et al.Quand et pourquoi les PINN échouent à s’entraîner : une perspective basée sur le noyau tangent neuronalJ. Comput. Phys.(2022)
Ameya D. Jagtap et al.Les fonctions d’activation adaptatives accélèrent la convergence dans les réseaux neuronaux profonds et ceux basés sur la physique.J. Comput. Phys.(2020)
Yann LeCun et al.Apprentissage profondNature(2015)
Athanasios Voulodimos et al.Apprentissage profond pour la vision par ordinateur : un bref aperçuNeurosciences informatiques(2018)
Daniel W. Otter et al.Étude des applications de l’apprentissage profond au traitement automatique du langage naturelIEEE Trans. Neural Netw. Learn. Syst.(2020)
Volodymyr Mnih et al.Contrôle de niveau humain grâce à l’apprentissage par renforcement profondNature(2015)
Victor Veitch et al.Minimisation du risque empirique et descente de gradient stochastique pour les données relationnelles
Woojin Cho et al.Réseaux neuronaux paramétrés et informés par la physique pour les EDP paramétrées
Julio C. o̧lorblackSerrano Ruiz et al.Planification intelligente de la production en atelier par apprentissage par renforcement profondJournal d’intégration de l’inf.(2024)
Chun-Cheng o̧lorblackLin et al.Planification intelligente de la production grâce au calcul en périphérie utilisant un réseau de neurones profond Q multiclasseIEEE Trans. Ind. Inform.(2019)
Zihui o̧lorblackLuo et al.Planification de la production basée sur l’apprentissage par renforcement profond dans l’Internet industriel des objetsIEEE Internet Things J.(2023)
Na o̧lorblackDong et al.Méthode de contrôle de suivi de trajectoire de bout en bout pour véhicules sous-marins autonomes basée sur un modèle acteur-critique souple amélioré pour l’exploration spatiale lointaineJournal d’intégration de l’inf.(2025)
Chayan Banerjee et al.Étude sur l’apprentissage par renforcement informé par la physique : revue de la littérature et problèmes ouverts(2023)
Amartya Mukherjee et al.Lier les réseaux neuronaux informés par la physique à l’apprentissage par renforcement : optimisation de la politique proximale de Hamilton-Jacobi-Bellman(2023)
Gargya Gokhale et al.Physq : un cadre d’apprentissage par renforcement basé sur la physique pour le contrôle des bâtiments(2022)
Xin-Yang Liu et al.Apprentissage par renforcement profond basé sur un modèle de type dyna et informé par la physique pour le contrôle dynamiqueProc. R. Soc. A(2021)
Adithya Ramesh et al.Apprentissage par renforcement basé sur un modèle informé par la physique
Yang o̧lorblackYang et al.Méthode quasi-convexe basée sur les données pour l’optimisation du taux de réussite de la qualité des produits de processus dans un jumeau numériqueJournal d’intégration de l’inf.(2024)
Salvatore Cuomo et al.Apprentissage automatique scientifique par le biais de réseaux neuronaux basés sur la physique : état des lieux et perspectivesJournal des sciences informatiques(2022)

Sahel Lib

Ideas without borders