{"id":4834,"date":"2020-05-18T22:44:00","date_gmt":"2020-05-18T22:44:00","guid":{"rendered":"https:\/\/wordpress-theme.spider-themes.net\/docly\/docs\/gullu-knowledge-base\/solved-issues\/sample-doc-title\/"},"modified":"2025-12-15T19:24:06","modified_gmt":"2025-12-15T19:24:06","slug":"sample-doc-title","status":"publish","type":"docs","link":"https:\/\/sahelib.atatec-design.com\/index.php\/docs\/gullu-knowledge-base\/solved-issues\/sample-doc-title\/","title":{"rendered":"Apprentissage par renforcement en temps continu bas\u00e9 sur la physique et utilisant une approche fond\u00e9e sur les donn\u00e9es pour la manipulation de bras robotiques"},"content":{"rendered":"\n<blockquote class=\"wp-block-quote is-layout-flow wp-block-quote-is-layout-flow\">\n<h2 class=\"wp-block-heading\">Points forts<\/h2>\n\n\n\n<ul class=\"wp-block-list\">\n<li>Un nouvel apprentissage par renforcement en temps continu inform\u00e9 par la physique (PICRL) pour r\u00e9soudre les probl\u00e8mes de syst\u00e8mes non lin\u00e9aires.<\/li>\n\n\n\n<li>L&#8217;efficacit\u00e9 de PICRL est d\u00e9montr\u00e9e th\u00e9oriquement du point de vue ERM et SRM.<\/li>\n\n\n\n<li>Un cadre de calcul de perte hybride int\u00e9grant l&#8217;estimation d&#8217;\u00e9tat pour PICRL.<\/li>\n<\/ul>\n<\/blockquote>\n\n\n\n<h2 class=\"wp-block-heading\">Abstrait<\/h2>\n\n\n\n<p class=\"wp-block-paragraph\">L&#8217;apprentissage par renforcement profond (DRL) joue un r\u00f4le crucial dans les t\u00e2ches complexes de prise de d\u00e9cision s\u00e9quentielle. Cependant, les m\u00e9thodes DRL existantes, bas\u00e9es sur les donn\u00e9es, s&#8217;appuient principalement sur une strat\u00e9gie de minimisation du risque empirique (ERM) pour ajuster des mod\u00e8les de fonction de valeur optimaux. Cette approche n\u00e9glige souvent les propri\u00e9t\u00e9s dynamiques du syst\u00e8me, ce qui conduit \u00e0 une prise en compte insuffisante de la strat\u00e9gie de minimisation du risque structurel (SRM). Pour pallier cette limitation, cet article propose un apprentissage par renforcement en temps continu inform\u00e9 par la physique (PICRL) afin de valider l&#8217;efficacit\u00e9 du mod\u00e8le du point de vue ERM et SRM. Plus pr\u00e9cis\u00e9ment, nous commen\u00e7ons par analyser th\u00e9oriquement le m\u00e9canisme de la SRM dans les mod\u00e8les d&#8217;apprentissage par renforcement. Ensuite, des informations physiques sont int\u00e9gr\u00e9es aux algorithmes d&#8217;apprentissage par renforcement discret et continu pour des exp\u00e9riences comparatives. Enfin, nous examinons syst\u00e9matiquement les effets de diverses contraintes physiques et aux limites sur ces deux cadres d&#8217;apprentissage. Les r\u00e9sultats exp\u00e9rimentaux obtenus sur PandaGym d\u00e9montrent que la m\u00e9thode propos\u00e9e atteint des performances comparables, voire sup\u00e9rieures, dans les deux cadres d&#8217;apprentissage par renforcement discret et continu. Ceci apporte une preuve solide de ses avantages significatifs pour l&#8217;apprentissage de politiques de contr\u00f4le pour les syst\u00e8mes dynamiques \u00e0 intervalles de temps courts.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">R\u00e9sum\u00e9 graphique<\/h2>\n\n\n<div class=\"wp-block-image\">\n<figure class=\"aligncenter size-full is-resized\"><img fetchpriority=\"high\" decoding=\"async\" width=\"714\" height=\"350\" src=\"https:\/\/sahelib.atatec-design.com\/wp-content\/uploads\/2018\/03\/Capture-decran-2025-12-15-a-15.23.37-1.png\" alt=\"\" class=\"wp-image-6648\" style=\"width:649px;height:auto\" srcset=\"https:\/\/sahelib.atatec-design.com\/wp-content\/uploads\/2018\/03\/Capture-decran-2025-12-15-a-15.23.37-1.png 714w, https:\/\/sahelib.atatec-design.com\/wp-content\/uploads\/2018\/03\/Capture-decran-2025-12-15-a-15.23.37-1-300x147.png 300w, https:\/\/sahelib.atatec-design.com\/wp-content\/uploads\/2018\/03\/Capture-decran-2025-12-15-a-15.23.37-1-20x10.png 20w, https:\/\/sahelib.atatec-design.com\/wp-content\/uploads\/2018\/03\/Capture-decran-2025-12-15-a-15.23.37-1-32x16.png 32w, https:\/\/sahelib.atatec-design.com\/wp-content\/uploads\/2018\/03\/Capture-decran-2025-12-15-a-15.23.37-1-600x294.png 600w\" sizes=\"(max-width: 714px) 100vw, 714px\" \/><\/figure>\n<\/div>\n\n\n<h2 class=\"wp-block-heading\">Introduction<\/h2>\n\n\n\n<p class=\"wp-block-paragraph\">L&#8217;apprentissage profond [1] a permis des avanc\u00e9es r\u00e9volutionnaires en vision par ordinateur (CV) [2], en traitement automatique du langage naturel (TALN) [3], en apprentissage par renforcement (RL) [4] et dans d&#8217;autres domaines, principalement gr\u00e2ce aux capacit\u00e9s exceptionnelles des r\u00e9seaux de neurones en mati\u00e8re de repr\u00e9sentation des donn\u00e9es et d&#8217;approximation des fonctions. Cependant, l&#8217;entra\u00eenement des mod\u00e8les d&#8217;apprentissage profond repose sur de vastes ensembles de donn\u00e9es \u00e9tiquet\u00e9es, conform\u00e9ment au principe de minimisation du risque empirique (ERM) [5]. Ce principe exige d&#8217;importantes quantit\u00e9s de donn\u00e9es \u00e9tiquet\u00e9es afin de minimiser l&#8217;\u00e9cart entre les pr\u00e9dictions et les valeurs r\u00e9elles. Ce paradigme purement bas\u00e9 sur les donn\u00e9es n\u00e9glige souvent les lois physiques fondamentales, qui peuvent \u00eatre consid\u00e9r\u00e9es comme une forme de connaissance a priori contribuant \u00e0 la minimisation du risque structurel (SRM). Par cons\u00e9quent, lorsque les donn\u00e9es d&#8217;entra\u00eenement sont rares, les mod\u00e8les entra\u00een\u00e9s selon le principe ERM sont sujets au surapprentissage. Pour surmonter cette limitation, les r\u00e9seaux neuronaux inform\u00e9s par la physique (PINN) [6], qui int\u00e8grent les avantages de l&#8217;apprentissage profond avec les connaissances physiques, peuvent fournir de nouvelles solutions aux probl\u00e8mes non lin\u00e9aires multidimensionnels difficiles [7], [8], [9], [10], [11], [12].De m\u00eame, l&#8217;apprentissage par renforcement profond (DRL), notamment dans les domaines de la fabrication intelligente [13], [14], de l&#8217;information industrielle [15] et de la robotique autonome [16], n\u00e9glige \u00e9galement les contraintes physiques lors de l&#8217;ajustement des donn\u00e9es d&#8217;interaction s\u00e9quentielles. Les \u00e9tudes existantes se concentrent principalement sur l&#8217;int\u00e9gration d&#8217;informations physiques dans l&#8217;apprentissage par renforcement \u00e0 temps discret (DTRL) [17], [18], [19] et d\u00e9taillent comment int\u00e9grer ces informations dans la th\u00e9orie DTRL bas\u00e9e sur les donn\u00e9es [20], [21], afin de former des mod\u00e8les suffisamment robustes. Cependant, l&#8217;int\u00e9gration des principes physiques aux approches bas\u00e9es sur les donn\u00e9es [22] pour l&#8217;apprentissage par renforcement \u00e0 temps continu (CTRL) reste largement inexplor\u00e9e, en particulier dans le domaine des syst\u00e8mes dynamiques \u00e0 temps continu r\u00e9gis par des \u00e9quations aux d\u00e9riv\u00e9es partielles (EDP).Pour relever le d\u00e9fi d&#8217;obtenir simultan\u00e9ment une meilleure pr\u00e9cision de la r\u00e9ponse (ERM) et une meilleure pr\u00e9cision de la r\u00e9ponse (SRM) pour les mod\u00e8les CTRL, nous proposons dans cet article un apprentissage par renforcement en temps continu inform\u00e9 par la physique (PICRL) avec une approche bas\u00e9e sur les donn\u00e9es. PICRL exploite les propri\u00e9t\u00e9s des \u00e9quations aux d\u00e9riv\u00e9es partielles (EDP) des syst\u00e8mes dynamiques et mod\u00e9lise simultan\u00e9ment la composante d&#8217;ajustement bas\u00e9e sur les donn\u00e9es et la dynamique directe des propri\u00e9t\u00e9s physiques. Plus pr\u00e9cis\u00e9ment, dans une t\u00e2che de contr\u00f4le d&#8217;un bras robotique \u00e0 7 degr\u00e9s de libert\u00e9, nous d\u00e9rivons d&#8217;abord les \u00e9quations semi-discr\u00e8tes de Hamilton-Jacobi-Bellman (HJB) comme terme de perte de donn\u00e9es du mod\u00e8le. Ensuite, nous ex\u00e9cutons des actions \u00e0 l&#8217;effecteur du bras robotique correspondant \u00e0 la fonction de valeur optimale. Nous utilisons ensuite des m\u00e9thodes de diff\u00e9rences finies et un estimateur de filtre de Kalman robuste pour obtenir des estimations de couple pour le bras robotique, en calculant le terme de perte physique comme la diff\u00e9rence entre les couples estim\u00e9s et r\u00e9els. Enfin, nous int\u00e9grons ces contraintes dans le terme de perte de donn\u00e9es du CTRL et entra\u00eenons le mod\u00e8le de contr\u00f4le optimal. Les r\u00e9sultats exp\u00e9rimentaux d\u00e9montrent que la m\u00e9thode PICRL propos\u00e9e atteint des performances comparables aux approches existantes tout en n\u00e9cessitant beaucoup moins de donn\u00e9es pour l&#8217;entra\u00eenement du mod\u00e8le. Ces r\u00e9sultats confirment l&#8217;efficacit\u00e9 de la prise en compte simultan\u00e9e des exigences ERM et SRM. Les principales contributions de cet article sont r\u00e9sum\u00e9es ci-dessous&nbsp;:<\/p>\n\n\n\n<div class=\"steps-panel\">\n    <ul class=\"ordered-list\">\n        <li>Une nouvelle approche d&#8217;apprentissage par renforcement en temps continu, bas\u00e9e sur la physique, est propos\u00e9e, qui permet de r\u00e9soudre efficacement les probl\u00e8mes non lin\u00e9aires dans les syst\u00e8mes dynamiques.<\/li>\n        <li>L&#8217;efficacit\u00e9 du PICRL est d\u00e9montr\u00e9e th\u00e9oriquement par un cadre d&#8217;analyse \u00e0 double perspective, englobant \u00e0 la fois les principes ERM et SRM.<\/li>\n        <li>Un cadre de calcul combinant perte de donn\u00e9es et perte physique est propos\u00e9, o\u00f9 les techniques d&#8217;estimation de la dynamique pour les termes de perte physique utilisent des m\u00e9thodes telles que les estimateurs de diff\u00e9rences finies ou les estimateurs de filtre de Kalman.\n<\/li>\n    <\/ul>\n<\/div>\n\n\n\n\n<p class=\"wp-block-paragraph\">La structure de cet article est organis\u00e9e comme suit\u00a0: la section\u00a02 pr\u00e9sente une revue exhaustive et une analyse critique des m\u00e9thodologies existantes dans les paradigmes d\u2019apprentissage par renforcement PINN et inspir\u00e9s par la physique. La section\u00a03 formule le cadre th\u00e9orique et la probl\u00e9matique, tant pour l\u2019ERM que pour le SRM. La section\u00a04 d\u00e9taille notre approche PICRL, incluant une analyse th\u00e9orique rigoureuse, des garanties de convergence et les proc\u00e9dures d\u2019impl\u00e9mentation. La section\u00a05 pr\u00e9sente des validations exp\u00e9rimentales syst\u00e9matiques et des \u00e9tudes d\u2019ablation compl\u00e8tes afin de d\u00e9montrer l\u2019efficacit\u00e9 de notre approche. Enfin, la section\u00a06 conclut l\u2019article par un r\u00e9sum\u00e9 de nos r\u00e9sultats et discute des pistes de recherche futures.INN<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Les r\u00e9seaux de neurones \u00e0 impulsions physiques (PINN) [6] sont largement utilis\u00e9s en calcul scientifique [17], [23] et en traitement de l&#8217;information industrielle [24]. Ces mod\u00e8les int\u00e8grent des lois physiques pour guider leur apprentissage, am\u00e9liorant ainsi leur capacit\u00e9 de g\u00e9n\u00e9ralisation, notamment en pr\u00e9sence de donn\u00e9es limit\u00e9es ou de bruit important. Un mod\u00e8le PINN est g\u00e9n\u00e9ralement constitu\u00e9 d&#8217;un r\u00e9seau de neurones profond, caract\u00e9ris\u00e9 par l&#8217;inclusion de termes physiques dans sa fonction de perte, repr\u00e9sentant les lois physiques sous-jacentes [25]. Fondamentalement,<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">La m\u00e9thode propos\u00e9e<\/h2>\n\n\n\n<p class=\"wp-block-paragraph\">Dans cette section, nous pr\u00e9sentons d&#8217;abord l&#8217;architecture fondamentale et les composants de la m\u00e9thodologie propos\u00e9e. Ensuite, nous \u00e9tablissons une analyse th\u00e9orique compl\u00e8te de la formulation SRM. Enfin, nous d\u00e9taillons la mise en \u0153uvre de l&#8217;algorithme et la proc\u00e9dure d&#8217;apprentissage.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">R\u00e9sultats exp\u00e9rimentaux<\/h2>\n\n\n\n<p class=\"wp-block-paragraph\">Cette section pr\u00e9sente une \u00e9valuation compl\u00e8te de l&#8217;approche PICRL propos\u00e9e. L&#8217;\u00e9valuation se d\u00e9roule en trois \u00e9tapes. Premi\u00e8rement, nous d\u00e9crivons le dispositif exp\u00e9rimental et les algorithmes de r\u00e9f\u00e9rence. Ensuite, des exp\u00e9riences comparatives sont men\u00e9es afin de d\u00e9montrer les performances de PICRL par rapport aux m\u00e9thodes de r\u00e9f\u00e9rence. Enfin, des \u00e9tudes d&#8217;ablation approfondies sont r\u00e9alis\u00e9es pour analyser syst\u00e9matiquement les principaux facteurs influen\u00e7ant l&#8217;efficacit\u00e9 de l&#8217;algorithme PICRL.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">Conclusions<\/h2>\n\n\n\n<p class=\"wp-block-paragraph\">L&#8217;apprentissage par renforcement bas\u00e9 sur les donn\u00e9es repose principalement sur l&#8217;ajustement des donn\u00e9es d&#8217;interaction, ce qui satisfait aux exigences de la m\u00e9thode ERM mais n\u00e9glige souvent les consid\u00e9rations SRM. Pour rem\u00e9dier \u00e0 ce probl\u00e8me, cet article propose une m\u00e9thode PICRL qui am\u00e9liore efficacement l&#8217;interpr\u00e9tabilit\u00e9 des actions de l&#8217;effecteur en int\u00e9grant des termes d&#8217;erreur d&#8217;information physique dans la fonction de perte. De nombreuses exp\u00e9riences d\u00e9montrent qu&#8217;avec de petits intervalles de temps, la m\u00e9thode pr\u00e9sente des performances sup\u00e9rieures \u00e0 celles des algorithmes de r\u00e9f\u00e9rence comparables.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">D\u00e9claration de contribution \u00e0 l&#8217;auteur CRediT<\/h2>\n\n\n\n<p class=\"wp-block-paragraph\"><strong>Jin-Qiang Wang&nbsp;:<\/strong>&nbsp;R\u00e9daction (premi\u00e8re version), visualisation, validation, logiciel, m\u00e9thodologie, investigation, curation des donn\u00e9es, conceptualisation.&nbsp;<\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><strong>Lirong Song&nbsp;:<\/strong>&nbsp;Validation, logiciel, investigation.&nbsp;<\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><strong>Jun Shen&nbsp;:<\/strong>&nbsp;R\u00e9daction (r\u00e9vision et correction), supervision.&nbsp;<\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><strong>Binbin Yong&nbsp;:<\/strong>&nbsp;R\u00e9daction (r\u00e9vision et correction), validation, supervision, gestion de projet, m\u00e9thodologie, conceptualisation.&nbsp;<\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><strong>Xiaoteng Han&nbsp;:<\/strong>&nbsp;R\u00e9daction (r\u00e9vision et correction), ressources, investigation, conceptualisation.&nbsp;<\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><strong>Yuanbo Jiang&nbsp;:<\/strong>&nbsp;R\u00e9daction (r\u00e9vision et correction).<\/p>\n\n\n\n<h2 class=\"wp-block-heading\" id=\"d1e17404\">D\u00e9claration de conflit d&#8217;int\u00e9r\u00eats<\/h2>\n\n\n\n<p class=\"wp-block-paragraph\">Aucun des auteurs n&#8217;a d\u00e9clar\u00e9 de lien d&#8217;int\u00e9r\u00eat.Nous d\u00e9clarons qu&#8217;en dehors de notre affiliation institutionnelle principale, aucun financement externe suppl\u00e9mentaire n&#8217;a \u00e9t\u00e9 re\u00e7u pour cette recherche. Nous confirmons l&#8217;absence de toute aide financi\u00e8re ou de tout conflit d&#8217;int\u00e9r\u00eats avec d&#8217;autres institutions ou organisations pendant la r\u00e9alisation et la pr\u00e9paration de ce manuscrit.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\" id=\"d1e17411\">Remerciements<\/h2>\n\n\n\n<p class=\"wp-block-paragraph\">Ce travail a \u00e9t\u00e9 partiellement financ\u00e9 par le programme \u00ab&nbsp;Top Leading Talent&nbsp;\u00bb de la province du Gansu, le&nbsp;<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Fonds de recherche fondamentale pour les universit\u00e9s centrales&nbsp;(subvention n \u00b0&nbsp;lzujbky-2024-eyt01)&nbsp;,&nbsp;<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">le projet de recherche Ling Chuang de la China National Nuclear Corporation&nbsp;(subvention n\u00b0&nbsp;CNNC-LCKY-2025-098)&nbsp;, le&nbsp;<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Laboratoire cl\u00e9 d\u2019\u00c9tat des robots de pointe pour charges lourdes, le Laboratoire cl\u00e9 provincial du Guangdong des technologies de base pour les appareils \u00e9lectrom\u00e9nagers (projet de fonds ouvert&nbsp;n\u00b0&nbsp;GJJ20250104&nbsp;) et le Programme&nbsp;<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">central d\u2019orientation pour la science et la technologie locales.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">R\u00e9f\u00e9rences\u00a0(20)<\/h2>\n\n\n\n<ul class=\"wp-block-list\">\n<li>M.\u00a0Raissi\u00a0<em>et al.<\/em><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0021999118307125\">R\u00e9seaux neuronaux inform\u00e9s par la physique\u00a0: un cadre d\u2019apprentissage profond pour la r\u00e9solution de probl\u00e8mes directs et inverses impliquant des \u00e9quations aux d\u00e9riv\u00e9es partielles non lin\u00e9aires<\/a>J. Comput. Phys.(2019)<\/li>\n\n\n\n<li>Haoteng\u00a0Hu\u00a0<em>et coll.<\/em><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0263823124009364\">R\u00e9seaux de neurones \u00e0 information physique (PINN) pour la m\u00e9canique des solides num\u00e9rique\u00a0: cadres num\u00e9riques et applications<\/a>Structure \u00e0 parois minces.(2024)<\/li>\n\n\n\n<li>Wenyuan\u00a0Wu\u00a0<em>et al.<\/em><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0893608024006749\">R\u00e9seaux neuronaux flous profonds inform\u00e9s par la physique pour les probl\u00e8mes d&#8217;EDP directes et inverses<\/a>R\u00e9seau neuronal(2025)<\/li>\n\n\n\n<li>Xuhui\u00a0Meng\u00a0<em>et coll.<\/em><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0045782520304357\">PPINN\u00a0: R\u00e9seau neuronal parar\u00e9el inform\u00e9 par la physique pour les EDP d\u00e9pendant du temps<\/a>M\u00e9thodes informatiques appliqu\u00e9es au g\u00e9nie m\u00e9canique(2020)<\/li>\n\n\n\n<li>Liu\u00a0Yang\u00a0<em>et al.<\/em><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0021999120306872\">B-PINNs\u00a0: R\u00e9seaux de neurones bay\u00e9siens inform\u00e9s par la physique pour les probl\u00e8mes d\u2019EDP directes et inverses avec des donn\u00e9es bruit\u00e9es<\/a>J. Comput. Phys.(2021)<\/li>\n\n\n\n<li>Lei\u00a0Yuan\u00a0<em>et al.<\/em><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0021999122003229\">A-PINN\u00a0: R\u00e9seaux de neurones auxiliaires inform\u00e9s par la physique pour les probl\u00e8mes directs et inverses d\u2019\u00e9quations int\u00e9gro-diff\u00e9rentielles non lin\u00e9aires<\/a>J. Comput. Phys.(2022)<\/li>\n\n\n\n<li>Sifan\u00a0Wang\u00a0<em>et al.<\/em><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S002199912100663X\">Quand et pourquoi les PINN \u00e9chouent \u00e0 s&#8217;entra\u00eener\u00a0: une perspective bas\u00e9e sur le noyau tangent neuronal<\/a>J. Comput. Phys.(2022)<\/li>\n\n\n\n<li>Ameya D.\u00a0Jagtap\u00a0<em>et al.<\/em><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0021999119308411\">Les fonctions d&#8217;activation adaptatives acc\u00e9l\u00e8rent la convergence dans les r\u00e9seaux neuronaux profonds et ceux bas\u00e9s sur la physique.<\/a>J. Comput. Phys.(2020)<\/li>\n\n\n\n<li>Yann\u00a0LeCun\u00a0<em>et al.<\/em>Apprentissage profondNature(2015)<\/li>\n\n\n\n<li>Athanasios\u00a0Voulodimos\u00a0<em>et al.<\/em>Apprentissage profond pour la vision par ordinateur\u00a0: un bref aper\u00e7uNeurosciences informatiques(2018)<\/li>\n\n\n\n<li>Daniel W.\u00a0Otter\u00a0<em>et al.<\/em>\u00c9tude des applications de l&#8217;apprentissage profond au traitement automatique du langage naturelIEEE Trans. Neural Netw. Learn. Syst.(2020)<\/li>\n\n\n\n<li>Volodymyr\u00a0Mnih\u00a0<em>et al.<\/em>Contr\u00f4le de niveau humain gr\u00e2ce \u00e0 l&#8217;apprentissage par renforcement profondNature(2015)<\/li>\n\n\n\n<li>Victor\u00a0Veitch\u00a0<em>et al.<\/em>Minimisation du risque empirique et descente de gradient stochastique pour les donn\u00e9es relationnelles<\/li>\n\n\n\n<li>Woojin\u00a0Cho\u00a0<em>et al.<\/em>R\u00e9seaux neuronaux param\u00e9tr\u00e9s et inform\u00e9s par la physique pour les EDP param\u00e9tr\u00e9es<\/li>\n\n\n\n<li>Julio C.\u00a0o\u0327lorblackSerrano Ruiz\u00a0<em>et al.<\/em>Planification intelligente de la production en atelier par apprentissage par renforcement profondJournal d&#8217;int\u00e9gration de l&#8217;inf.(2024)<\/li>\n\n\n\n<li>Chun-Cheng\u00a0o\u0327lorblackLin\u00a0<em>et al.<\/em>Planification intelligente de la production gr\u00e2ce au calcul en p\u00e9riph\u00e9rie utilisant un r\u00e9seau de neurones profond Q multiclasseIEEE Trans. Ind. Inform.(2019)<\/li>\n\n\n\n<li>Zihui\u00a0o\u0327lorblackLuo\u00a0<em>et al.<\/em>Planification de la production bas\u00e9e sur l&#8217;apprentissage par renforcement profond dans l&#8217;Internet industriel des objetsIEEE Internet Things J.(2023)<\/li>\n\n\n\n<li>Na\u00a0o\u0327lorblackDong\u00a0<em>et al.<\/em>M\u00e9thode de contr\u00f4le de suivi de trajectoire de bout en bout pour v\u00e9hicules sous-marins autonomes bas\u00e9e sur un mod\u00e8le acteur-critique souple am\u00e9lior\u00e9 pour l&#8217;exploration spatiale lointaineJournal d&#8217;int\u00e9gration de l&#8217;inf.(2025)<\/li>\n\n\n\n<li>Chayan\u00a0Banerjee\u00a0<em>et al.<\/em>\u00c9tude sur l&#8217;apprentissage par renforcement inform\u00e9 par la physique\u00a0: revue de la litt\u00e9rature et probl\u00e8mes ouverts(2023)<\/li>\n\n\n\n<li>Amartya\u00a0Mukherjee\u00a0<em>et al.<\/em>Lier les r\u00e9seaux neuronaux inform\u00e9s par la physique \u00e0 l&#8217;apprentissage par renforcement\u00a0: optimisation de la politique proximale de Hamilton-Jacobi-Bellman(2023)<\/li>\n\n\n\n<li>Gargya\u00a0Gokhale\u00a0<em>et al.<\/em>Physq\u00a0: un cadre d\u2019apprentissage par renforcement bas\u00e9 sur la physique pour le contr\u00f4le des b\u00e2timents(2022)<\/li>\n\n\n\n<li>Xin-Yang\u00a0Liu\u00a0<em>et al.<\/em>Apprentissage par renforcement profond bas\u00e9 sur un mod\u00e8le de type dyna et inform\u00e9 par la physique pour le contr\u00f4le dynamiqueProc. R. Soc. A(2021)<\/li>\n\n\n\n<li>Adithya\u00a0Ramesh\u00a0<em>et al.<\/em>Apprentissage par renforcement bas\u00e9 sur un mod\u00e8le inform\u00e9 par la physique<\/li>\n\n\n\n<li>Yang\u00a0o\u0327lorblackYang\u00a0<em>et al.<\/em>M\u00e9thode quasi-convexe bas\u00e9e sur les donn\u00e9es pour l&#8217;optimisation du taux de r\u00e9ussite de la qualit\u00e9 des produits de processus dans un jumeau num\u00e9riqueJournal d&#8217;int\u00e9gration de l&#8217;inf.(2024)<\/li>\n\n\n\n<li>Salvatore\u00a0Cuomo\u00a0<em>et al.<\/em>Apprentissage automatique scientifique par le biais de r\u00e9seaux neuronaux bas\u00e9s sur la physique\u00a0: \u00e9tat des lieux et perspectivesJournal des sciences informatiques(2022)<\/li>\n<\/ul>\n","protected":false},"excerpt":{"rendered":"<p>Abstrait L&#8217;apprentissage par renforcement profond (DRL) joue un r\u00f4le crucial dans les t\u00e2ches complexes de prise de d\u00e9cision s\u00e9quentielle. Cependant, les m\u00e9thodes DRL existantes, bas\u00e9es sur les donn\u00e9es, s&#8217;appuient principalement sur une strat\u00e9gie de minimisation du risque empirique (ERM) pour ajuster des mod\u00e8les de fonction de valeur optimaux. Cette approche n\u00e9glige souvent les propri\u00e9t\u00e9s dynamiques [&hellip;]<\/p>\n","protected":false},"author":1,"featured_media":0,"parent":2323,"menu_order":20,"comment_status":"open","ping_status":"closed","template":"","doc_tag":[],"class_list":["post-4834","docs","type-docs","status-publish","hentry","no-post-thumbnail"],"acf":[],"_links":{"self":[{"href":"https:\/\/sahelib.atatec-design.com\/index.php\/wp-json\/wp\/v2\/docs\/4834","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/sahelib.atatec-design.com\/index.php\/wp-json\/wp\/v2\/docs"}],"about":[{"href":"https:\/\/sahelib.atatec-design.com\/index.php\/wp-json\/wp\/v2\/types\/docs"}],"author":[{"embeddable":true,"href":"https:\/\/sahelib.atatec-design.com\/index.php\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/sahelib.atatec-design.com\/index.php\/wp-json\/wp\/v2\/comments?post=4834"}],"version-history":[{"count":2,"href":"https:\/\/sahelib.atatec-design.com\/index.php\/wp-json\/wp\/v2\/docs\/4834\/revisions"}],"predecessor-version":[{"id":6667,"href":"https:\/\/sahelib.atatec-design.com\/index.php\/wp-json\/wp\/v2\/docs\/4834\/revisions\/6667"}],"up":[{"embeddable":true,"href":"https:\/\/sahelib.atatec-design.com\/index.php\/wp-json\/wp\/v2\/docs\/2323"}],"wp:attachment":[{"href":"https:\/\/sahelib.atatec-design.com\/index.php\/wp-json\/wp\/v2\/media?parent=4834"}],"wp:term":[{"taxonomy":"doc_tag","embeddable":true,"href":"https:\/\/sahelib.atatec-design.com\/index.php\/wp-json\/wp\/v2\/doc_tag?post=4834"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}