Sahel Lib

Sahel Lib

Ideas without borders

Articles scientifiques en ligne

Apprentissage par renforcement en temps continu basé sur la physique et utilisant une approche fondée sur les données pour la manipulation de bras robotiques

Estimated reading: 12 minutes 74 views

Points forts

  • Un nouvel apprentissage par renforcement en temps continu informé par la physique (PICRL) pour résoudre les problèmes de systèmes non linéaires.
  • L’efficacité de PICRL est démontrée théoriquement du point de vue ERM et SRM.
  • Un cadre de calcul de perte hybride intégrant l’estimation d’état pour PICRL.

Abstrait

L’apprentissage par renforcement profond (DRL) joue un rôle crucial dans les tâches complexes de prise de décision séquentielle. Cependant, les méthodes DRL existantes, basées sur les données, s’appuient principalement sur une stratégie de minimisation du risque empirique (ERM) pour ajuster des modèles de fonction de valeur optimaux. Cette approche néglige souvent les propriétés dynamiques du système, ce qui conduit à une prise en compte insuffisante de la stratégie de minimisation du risque structurel (SRM). Pour pallier cette limitation, cet article propose un apprentissage par renforcement en temps continu informé par la physique (PICRL) afin de valider l’efficacité du modèle du point de vue ERM et SRM. Plus précisément, nous commençons par analyser théoriquement le mécanisme de la SRM dans les modèles d’apprentissage par renforcement. Ensuite, des informations physiques sont intégrées aux algorithmes d’apprentissage par renforcement discret et continu pour des expériences comparatives. Enfin, nous examinons systématiquement les effets de diverses contraintes physiques et aux limites sur ces deux cadres d’apprentissage. Les résultats expérimentaux obtenus sur PandaGym démontrent que la méthode proposée atteint des performances comparables, voire supérieures, dans les deux cadres d’apprentissage par renforcement discret et continu. Ceci apporte une preuve solide de ses avantages significatifs pour l’apprentissage de politiques de contrôle pour les systèmes dynamiques à intervalles de temps courts.

Résumé graphique

Introduction

L’apprentissage profond [1] a permis des avancées révolutionnaires en vision par ordinateur (CV) [2], en traitement automatique du langage naturel (TALN) [3], en apprentissage par renforcement (RL) [4] et dans d’autres domaines, principalement grâce aux capacités exceptionnelles des réseaux de neurones en matière de représentation des données et d’approximation des fonctions. Cependant, l’entraînement des modèles d’apprentissage profond repose sur de vastes ensembles de données étiquetées, conformément au principe de minimisation du risque empirique (ERM) [5]. Ce principe exige d’importantes quantités de données étiquetées afin de minimiser l’écart entre les prédictions et les valeurs réelles. Ce paradigme purement basé sur les données néglige souvent les lois physiques fondamentales, qui peuvent être considérées comme une forme de connaissance a priori contribuant à la minimisation du risque structurel (SRM). Par conséquent, lorsque les données d’entraînement sont rares, les modèles entraînés selon le principe ERM sont sujets au surapprentissage. Pour surmonter cette limitation, les réseaux neuronaux informés par la physique (PINN) [6], qui intègrent les avantages de l’apprentissage profond avec les connaissances physiques, peuvent fournir de nouvelles solutions aux problèmes non linéaires multidimensionnels difficiles [7], [8], [9], [10], [11], [12].De même, l’apprentissage par renforcement profond (DRL), notamment dans les domaines de la fabrication intelligente [13], [14], de l’information industrielle [15] et de la robotique autonome [16], néglige également les contraintes physiques lors de l’ajustement des données d’interaction séquentielles. Les études existantes se concentrent principalement sur l’intégration d’informations physiques dans l’apprentissage par renforcement à temps discret (DTRL) [17], [18], [19] et détaillent comment intégrer ces informations dans la théorie DTRL basée sur les données [20], [21], afin de former des modèles suffisamment robustes. Cependant, l’intégration des principes physiques aux approches basées sur les données [22] pour l’apprentissage par renforcement à temps continu (CTRL) reste largement inexplorée, en particulier dans le domaine des systèmes dynamiques à temps continu régis par des équations aux dérivées partielles (EDP).Pour relever le défi d’obtenir simultanément une meilleure précision de la réponse (ERM) et une meilleure précision de la réponse (SRM) pour les modèles CTRL, nous proposons dans cet article un apprentissage par renforcement en temps continu informé par la physique (PICRL) avec une approche basée sur les données. PICRL exploite les propriétés des équations aux dérivées partielles (EDP) des systèmes dynamiques et modélise simultanément la composante d’ajustement basée sur les données et la dynamique directe des propriétés physiques. Plus précisément, dans une tâche de contrôle d’un bras robotique à 7 degrés de liberté, nous dérivons d’abord les équations semi-discrètes de Hamilton-Jacobi-Bellman (HJB) comme terme de perte de données du modèle. Ensuite, nous exécutons des actions à l’effecteur du bras robotique correspondant à la fonction de valeur optimale. Nous utilisons ensuite des méthodes de différences finies et un estimateur de filtre de Kalman robuste pour obtenir des estimations de couple pour le bras robotique, en calculant le terme de perte physique comme la différence entre les couples estimés et réels. Enfin, nous intégrons ces contraintes dans le terme de perte de données du CTRL et entraînons le modèle de contrôle optimal. Les résultats expérimentaux démontrent que la méthode PICRL proposée atteint des performances comparables aux approches existantes tout en nécessitant beaucoup moins de données pour l’entraînement du modèle. Ces résultats confirment l’efficacité de la prise en compte simultanée des exigences ERM et SRM. Les principales contributions de cet article sont résumées ci-dessous :

  • Une nouvelle approche d’apprentissage par renforcement en temps continu, basée sur la physique, est proposée, qui permet de résoudre efficacement les problèmes non linéaires dans les systèmes dynamiques.
  • L’efficacité du PICRL est démontrée théoriquement par un cadre d’analyse à double perspective, englobant à la fois les principes ERM et SRM.
  • Un cadre de calcul combinant perte de données et perte physique est proposé, où les techniques d’estimation de la dynamique pour les termes de perte physique utilisent des méthodes telles que les estimateurs de différences finies ou les estimateurs de filtre de Kalman.

La structure de cet article est organisée comme suit : la section 2 présente une revue exhaustive et une analyse critique des méthodologies existantes dans les paradigmes d’apprentissage par renforcement PINN et inspirés par la physique. La section 3 formule le cadre théorique et la problématique, tant pour l’ERM que pour le SRM. La section 4 détaille notre approche PICRL, incluant une analyse théorique rigoureuse, des garanties de convergence et les procédures d’implémentation. La section 5 présente des validations expérimentales systématiques et des études d’ablation complètes afin de démontrer l’efficacité de notre approche. Enfin, la section 6 conclut l’article par un résumé de nos résultats et discute des pistes de recherche futures.INN

Les réseaux de neurones à impulsions physiques (PINN) [6] sont largement utilisés en calcul scientifique [17], [23] et en traitement de l’information industrielle [24]. Ces modèles intègrent des lois physiques pour guider leur apprentissage, améliorant ainsi leur capacité de généralisation, notamment en présence de données limitées ou de bruit important. Un modèle PINN est généralement constitué d’un réseau de neurones profond, caractérisé par l’inclusion de termes physiques dans sa fonction de perte, représentant les lois physiques sous-jacentes [25]. Fondamentalement,

La méthode proposée

Dans cette section, nous présentons d’abord l’architecture fondamentale et les composants de la méthodologie proposée. Ensuite, nous établissons une analyse théorique complète de la formulation SRM. Enfin, nous détaillons la mise en œuvre de l’algorithme et la procédure d’apprentissage.

Résultats expérimentaux

Cette section présente une évaluation complète de l’approche PICRL proposée. L’évaluation se déroule en trois étapes. Premièrement, nous décrivons le dispositif expérimental et les algorithmes de référence. Ensuite, des expériences comparatives sont menées afin de démontrer les performances de PICRL par rapport aux méthodes de référence. Enfin, des études d’ablation approfondies sont réalisées pour analyser systématiquement les principaux facteurs influençant l’efficacité de l’algorithme PICRL.

Conclusions

L’apprentissage par renforcement basé sur les données repose principalement sur l’ajustement des données d’interaction, ce qui satisfait aux exigences de la méthode ERM mais néglige souvent les considérations SRM. Pour remédier à ce problème, cet article propose une méthode PICRL qui améliore efficacement l’interprétabilité des actions de l’effecteur en intégrant des termes d’erreur d’information physique dans la fonction de perte. De nombreuses expériences démontrent qu’avec de petits intervalles de temps, la méthode présente des performances supérieures à celles des algorithmes de référence comparables.

Déclaration de contribution à l’auteur CRediT

Jin-Qiang Wang : Rédaction (première version), visualisation, validation, logiciel, méthodologie, investigation, curation des données, conceptualisation. 

Lirong Song : Validation, logiciel, investigation. 

Jun Shen : Rédaction (révision et correction), supervision. 

Binbin Yong : Rédaction (révision et correction), validation, supervision, gestion de projet, méthodologie, conceptualisation. 

Xiaoteng Han : Rédaction (révision et correction), ressources, investigation, conceptualisation. 

Yuanbo Jiang : Rédaction (révision et correction).

Déclaration de conflit d’intérêts

Aucun des auteurs n’a déclaré de lien d’intérêt.Nous déclarons qu’en dehors de notre affiliation institutionnelle principale, aucun financement externe supplémentaire n’a été reçu pour cette recherche. Nous confirmons l’absence de toute aide financière ou de tout conflit d’intérêts avec d’autres institutions ou organisations pendant la réalisation et la préparation de ce manuscrit.

Remerciements

Ce travail a été partiellement financé par le programme « Top Leading Talent » de la province du Gansu, le 

Fonds de recherche fondamentale pour les universités centrales (subvention n ° lzujbky-2024-eyt01) , 

le projet de recherche Ling Chuang de la China National Nuclear Corporation (subvention n° CNNC-LCKY-2025-098) , le 

Laboratoire clé d’État des robots de pointe pour charges lourdes, le Laboratoire clé provincial du Guangdong des technologies de base pour les appareils électroménagers (projet de fonds ouvert n° GJJ20250104 ) et le Programme 

central d’orientation pour la science et la technologie locales.

Références (20)

Leave a Comment

Share this Doc

Apprentissage par renforcement en temps continu basé sur la physique et utilisant une approche fondée sur les données pour la manipulation de bras robotiques

Or copy link

CONTENTS