{"id":2324,"date":"2018-03-01T17:33:52","date_gmt":"2018-03-01T17:33:52","guid":{"rendered":"http:\/\/docs.creativegigs.net\/docs\/gullu-wp\/solved-issues\/site-broken-after-updating-the-theme\/"},"modified":"2025-12-15T19:17:52","modified_gmt":"2025-12-15T19:17:52","slug":"site-broken-after-updating-the-theme","status":"publish","type":"docs","link":"https:\/\/sahelib.atatec-design.com\/index.php\/docs\/gullu-knowledge-base\/solved-issues\/site-broken-after-updating-the-theme\/","title":{"rendered":"Apprentissage par renforcement d\u00e9terministe prenant en compte le d\u00e9lai"},"content":{"rendered":"\n<h2 class=\"wp-block-heading\">Abstrait<\/h2>\n\n\n\n<p class=\"wp-block-paragraph\">L&#8217;apprentissage par renforcement (RL) a consid\u00e9rablement ouvert la voie au contr\u00f4le robotique au cours de la derni\u00e8re d\u00e9cennie. De ce fait, l&#8217;int\u00e9gration du contr\u00f4le robotique bas\u00e9 sur le RL et de la t\u00e9l\u00e9op\u00e9ration a suscit\u00e9 un vif int\u00e9r\u00eat chez les chercheurs. Tout cadre de RL repose sur une communication appropri\u00e9e entre l&#8217;environnement et l&#8217;agent, via l&#8217;observation et l&#8217;action. Or, la t\u00e9l\u00e9op\u00e9ration peut introduire des d\u00e9lais al\u00e9atoires dans ce processus de communication. Le contr\u00f4le robotique sous de telles contraintes demeure un domaine inexplor\u00e9 de l&#8217;apprentissage par renforcement. Nous proposons une approche novatrice pour atteindre cet objectif, tout en g\u00e9rant les d\u00e9lais dans un contexte de RL, gr\u00e2ce \u00e0 une structure de processus de d\u00e9cision markovien (MDP) adapt\u00e9e. Notre algorithme apprend une politique d\u00e9terministe et peut s&#8217;adapter \u00e0 des environnements de contr\u00f4le, notamment de manipulation robotique, en utilisant des observations enrichies d&#8217;informations proprioceptives. Nous pr\u00e9sentons m\u00e9thodiquement les ajustements th\u00e9oriques apport\u00e9s \u00e0 un algorithme dominant hors strat\u00e9gie existant afin de d\u00e9montrer la comp\u00e9tence de notre algorithme, preuves de convergence \u00e0 l&#8217;appui. Nos exp\u00e9rimentations avec la suite DeepMind Control illustrent des r\u00e9sultats significatifs d\u00e9montrant les capacit\u00e9s de notre algorithme \u00e0 apprendre dans des environnements complexes gr\u00e2ce \u00e0 un RL prenant en compte les d\u00e9lais.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">Mots cl\u00e9s<\/h2>\n\n\n\n<ul class=\"wp-block-list\">\n<li>Apprentissage par renforcement<\/li>\n\n\n\n<li>D\u00e9lai al\u00e9atoire<\/li>\n\n\n\n<li>apprentissage par renforcement profond<\/li>\n\n\n\n<li>Apprentissage par renforcement prenant en compte le d\u00e9lai<\/li>\n\n\n\n<li>Manipulation robotique<\/li>\n<\/ul>\n\n\n\n<h2 class=\"wp-block-heading\" id=\"d1e677\">1.&nbsp;Introduction\u200b<\/h2>\n\n\n\n<p class=\"wp-block-paragraph\">Le cadre de l&#8217;apprentissage par renforcement (RL) repose principalement sur deux entit\u00e9s\u00a0: l&#8217;agent et l&#8217;environnement. Le processus d&#8217;apprentissage du RL implique la communication des actions de l&#8217;agent vers l&#8217;environnement et des observations de l&#8217;environnement vers l&#8217;agent. Bien que ce processus de communication soit consid\u00e9r\u00e9 comme instantan\u00e9 dans un contexte id\u00e9al, il peut ne pas l&#8217;\u00eatre dans certaines situations, comme la t\u00e9l\u00e9op\u00e9ration. Dans ce cas, un d\u00e9lai peut survenir lors de la communication des actions et des observations entre l&#8217;agent et l&#8217;environnement. Ce sc\u00e9nario est illustr\u00e9 dans\u00a0<a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0921889025003689#fig1\">la figure\u00a01.<\/a>\u00a0Ce contexte, d\u00e9j\u00e0 \u00e9tudi\u00e9\u00a0<a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0921889025003689#b1\">[1]<\/a>\u00a0,\u00a0<a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0921889025003689#b2\">[2]<\/a>\u00a0, concerne le domaine du RL o\u00f9 les actions ne sont pas appliqu\u00e9es instantan\u00e9ment dans l&#8217;environnement et o\u00f9 les observations ne sont pas instantan\u00e9ment captur\u00e9es par l&#8217;agent. Dans de tels cas, diverses mesures ont \u00e9t\u00e9 mises en \u0153uvre pour compenser le d\u00e9lai de capture des actions et des observations. Parmi celles-ci, on\u00a0retrouve fr\u00e9quemment l&#8217;hypoth\u00e8se de d\u00e9lais constants\u00a0<a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0921889025003689#b1\">[1]<\/a>\u00a0,\u00a0<a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0921889025003689#b3\">[3]<\/a>\u00a0et la mod\u00e9lisation id\u00e9ale des observations futures dans le but de compenser ce d\u00e9lai\u00a0<a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0921889025003689#b4\">[4]<\/a>\u00a0,\u00a0<a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0921889025003689#b5\">[5]<\/a>\u00a0. Cependant, ces types de techniques n&#8217;ont pas permis de g\u00e9rer les environnements complexes comportant de grands espaces d&#8217;\u00e9tats et d&#8217;actions tout en g\u00e9rant ledit d\u00e9lai.En apprentissage par renforcement (RL), les algorithmes hors strat\u00e9gie comme Deep Deterministic Policy Gradient (DDPG)\u00a0<a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0921889025003689#b6\">[6]<\/a>\u00a0, Twin Delayed DDPG (TD3)\u00a0<a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0921889025003689#b7\">[7]<\/a>\u00a0et Soft Actor\u2013Critic (SAC)\u00a0<a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0921889025003689#b8\">[8]<\/a>\u00a0excellent en contr\u00f4le continu, mais rencontrent des difficult\u00e9s d&#8217;apprentissage en pr\u00e9sence de d\u00e9lais, car ils supposent des actions et des observations instantan\u00e9es. Dans un environnement retard\u00e9 comme celui illustr\u00e9 \u00e0 la\u00a0<a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0921889025003689#fig1\">figure 1<\/a>\u00a0, il peut \u00eatre avantageux d&#8217;exploiter la connaissance de la dynamique retard\u00e9e pour garantir un processus d&#8217;apprentissage ad\u00e9quat et un contr\u00f4le ininterrompu de l&#8217;environnement non retard\u00e9. Le cadre Delay-Correcting Actor\u2013Critic (DCAC)\u00a0<a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0921889025003689#b9\">[9]<\/a>\u00a0, d\u00e9velopp\u00e9 par Bouteiller et al., a ouvert la voie \u00e0 ce type d&#8217;approche de contr\u00f4le RL sans planification et prenant en compte les d\u00e9lais. Bas\u00e9 sur SAC, DCAC attend des informations sur les caract\u00e9ristiques de l&#8217;environnement sous forme de tableau unidimensionnel. Cette utilisation des observations est appel\u00e9e apprentissage bas\u00e9 sur les caract\u00e9ristiques. Cependant, l&#8217;ajustement automatique de l&#8217;entropie de SAC peut entra\u00eener un effondrement pr\u00e9matur\u00e9 de l&#8217;entropie lors de t\u00e2ches complexes telles que la manipulation robotique\u00a0<a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0921889025003689#b10\">[10]<\/a>\u00a0. Ces environnements renvoient des informations proprioceptives de dimensionnalit\u00e9 sup\u00e9rieure dans l&#8217;espace d&#8217;\u00e9tat. Nous visons donc \u00e0 \u00e9tendre le cadre DCAC avec une base DDPG, cr\u00e9ant ainsi le premier algorithme de commande prenant en compte le d\u00e9lai dans le domaine d\u00e9terministe.Dans cet article, nous proposons DCAC-v2, un nouvel algorithme d&#8217;apprentissage par renforcement (RL) capable de r\u00e9soudre le probl\u00e8me susmentionn\u00e9. Pour g\u00e9rer \u00e0 la fois les comportements complexes et la latence, nous nous appuyons sur le cadre DDPG, ce qui permet \u00e0 notre algorithme d&#8217;apprendre une politique d\u00e9terministe. DCAC-v2 reste centr\u00e9 sur le processus de d\u00e9cision markovien \u00e0 d\u00e9lai al\u00e9atoire (RDMDP) formul\u00e9 dans DCAC, qui prend en compte les d\u00e9lais d&#8217;action et d&#8217;observation, ainsi que l&#8217;historique des actions dans l&#8217;espace d&#8217;\u00e9tats, comme d\u00e9taill\u00e9 dans\u00a0<a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0921889025003689#dfn1\">la d\u00e9finition 1.<\/a>\u00a0Les techniques de gestion du d\u00e9lai int\u00e9gr\u00e9es \u00e0 l&#8217;algorithme propos\u00e9 sont illustr\u00e9es dans la section\u00a0<a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0921889025003689#sec2\">2.<\/a>\u00a0Il est \u00e9galement important de noter que nous utilisons un bruit d&#8217;exploration programm\u00e9\u00a0<a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0921889025003689#b10\">[10]<\/a>\u00a0pour mener une exploration efficace lors de l&#8217;entra\u00eenement, en \u00e9liminant l&#8217;exploration bas\u00e9e sur l&#8217;entropie de SAC. Cette strat\u00e9gie d&#8217;exploration garantit que l&#8217;agent explore largement l&#8217;environnement initialement, puis converge vers un comportement cibl\u00e9, projetant ainsi un comportement d\u00e9terministe.<\/p>\n\n\n<div class=\"wp-block-image\">\n<figure class=\"aligncenter size-full is-resized\"><img fetchpriority=\"high\" decoding=\"async\" width=\"714\" height=\"350\" src=\"https:\/\/sahelib.atatec-design.com\/wp-content\/uploads\/2018\/03\/Capture-decran-2025-12-15-a-15.23.37-1.png\" alt=\"\" class=\"wp-image-6648\" style=\"aspect-ratio:2.040006505122784;width:404px;height:auto\" srcset=\"https:\/\/sahelib.atatec-design.com\/wp-content\/uploads\/2018\/03\/Capture-decran-2025-12-15-a-15.23.37-1.png 714w, https:\/\/sahelib.atatec-design.com\/wp-content\/uploads\/2018\/03\/Capture-decran-2025-12-15-a-15.23.37-1-300x147.png 300w, https:\/\/sahelib.atatec-design.com\/wp-content\/uploads\/2018\/03\/Capture-decran-2025-12-15-a-15.23.37-1-20x10.png 20w, https:\/\/sahelib.atatec-design.com\/wp-content\/uploads\/2018\/03\/Capture-decran-2025-12-15-a-15.23.37-1-32x16.png 32w, https:\/\/sahelib.atatec-design.com\/wp-content\/uploads\/2018\/03\/Capture-decran-2025-12-15-a-15.23.37-1-600x294.png 600w\" sizes=\"(max-width: 714px) 100vw, 714px\" \/><\/figure>\n<\/div>\n\n\n<h2 class=\"wp-block-heading\" id=\"d1e1261\">2.&nbsp;Contexte\u200b<\/h2>\n\n\n\n<p class=\"wp-block-paragraph\">La formulation du RDMDP est bas\u00e9e sur la structure MDP commune o\u00f9 un environnementest mod\u00e9lis\u00e9 avec un espace d&#8217;\u00e9tatet un espace d&#8217;action, ainsi qu&#8217;une distribution d&#8217;\u00e9tat initialeet une distribution de transitionNous consid\u00e9rons des environnements o\u00f9 les espaces d&#8217;\u00e9tats et d&#8217;actions sont continus. Le RDMDP \u00e9tend le MDP standard pour fournir l&#8217;environnement augment\u00e9, ainsi que les distributions de d\u00e9lais et un espace d&#8217;\u00e9tats augment\u00e9., une distribution d&#8217;\u00e9tat initial modifi\u00e9eet une distribution de transition \u00e9tendue.L&#8217;espace d&#8217;\u00e9tat augment\u00e9consiste en l&#8217;observation retard\u00e9e, un ensemble d&#8217;actions, et les d\u00e9lais d&#8217;observation et d&#8217;action, qui sont num\u00e9riques. Le d\u00e9lai d&#8217;observation et le d\u00e9lai d&#8217;action sont not\u00e9s paret, respectivement. Le tampon d&#8217;action est repr\u00e9sent\u00e9 par.Elle contient la valeur de la combinaison maximale possible des d\u00e9lais d&#8217;observation et d&#8217;action. Il est important d&#8217;accorder une attention particuli\u00e8re \u00e0 la distribution de transition au sein d&#8217;un RDMDP. Celle-ci contient principalement la distribution des d\u00e9lais d&#8217;observation.et la distribution de transition pour le tampon d&#8217;actionLa distribution du d\u00e9lai d&#8217;observationLe mod\u00e8le d\u00e9crit l&#8217;\u00e9volution des d\u00e9lais d&#8217;observation et r\u00e9p\u00e8te les observations si aucune nouvelle n&#8217;est disponible, ce qui implique que la croissance maximale de ce d\u00e9lai ne peut \u00eatre que de un, d&#8217;un pas de temps \u00e0 l&#8217;autre. Enfin, la distribution de transition suit la distribution, qui illustre l&#8217;\u00e9volution de l&#8217;observation elle-m\u00eame, ainsi que la r\u00e9compense et le d\u00e9lai d&#8217;action. Cette distribution est encore amplifi\u00e9e dans l&#8217;\u00e9quation. <\/p>\n\n\n\n<h2 class=\"wp-block-heading\" id=\"d1e2620\">3.&nbsp;DCAC&nbsp;-v2&nbsp;: Apprentissage par renforcement d\u00e9terministe prenant en compte le d\u00e9lai<\/h2>\n\n\n\n<p class=\"wp-block-paragraph\">Comme mentionn\u00e9 pr\u00e9c\u00e9demment, DCAC utilise SAC comme algorithme de base, lequel apprend une politique int\u00e9grant l&#8217;entropie. Afin de traiter des environnements complexes tels que les t\u00e2ches de manipulation robotique, nous nous attachons \u00e0 surmonter les limitations que SAC peut engendrer pour un contr\u00f4le optimal. Bien que SAC maximise l&#8217;entropie de la politique, ce qui se traduit par une exploration \u00e9tendue, l&#8217;ajustement automatique de l&#8217;entropie peut, dans certains cas, provoquer un effondrement pr\u00e9matur\u00e9 de l&#8217;entropie, comme l&#8217;ont soulign\u00e9 Yarats et al.&nbsp;<\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0921889025003689#b10\">[10]<\/a>&nbsp;. Cette observation nous pr\u00e9occupe, car nous souhaitons \u00e9tendre nos recherches \u00e0 des t\u00e2ches plus complexes, avec des espaces d&#8217;\u00e9tats plus vastes dans le domaine robotique, contenant des informations de dimensionnalit\u00e9 sup\u00e9rieure. Ceci requiert un algorithme performant en exploration, capable en outre de g\u00e9rer le d\u00e9lai.Dans un premier temps, nous int\u00e9grons DDPG \u00e0 la structure RDMDP pour former DCAC-v2. Le remplacement de SAC par DDPG vise \u00e0 pallier l&#8217;inconv\u00e9nient li\u00e9 \u00e0 l&#8217;ajustement de l&#8217;entropie, m\u00eame si nos exp\u00e9rimentations reposent sur des observations bas\u00e9es sur les caract\u00e9ristiques. La strat\u00e9gie d&#8217;exploration est donc modifi\u00e9e pour favoriser l&#8217;apprentissage d&#8217;une politique d\u00e9terministe. Pour l&#8217;exploration, nous adoptons une strat\u00e9gie similaire \u00e0 celle d&#8217;Amos et al.&nbsp;<\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0921889025003689#b12\">[12],<\/a>&nbsp;o\u00f9 l&#8217;exploration est planifi\u00e9e en fonction des diff\u00e9rentes phases d&#8217;apprentissage. Ce calendrier d&#8217;exploration induit un comportement plus stochastique en d\u00e9but d&#8217;entra\u00eenement, permettant une exploration plus rigoureuse de l&#8217;environnement. Par la suite, la politique devient plus d\u00e9terministe afin de ma\u00eetriser un comportement jug\u00e9 plus fiable. Le calendrier d&#8217;exploration est con\u00e7u pour d\u00e9cro\u00eetre lin\u00e9airement la variance.comme:<\/p>\n\n\n<div class=\"wp-block-image\">\n<figure class=\"aligncenter size-full is-resized\"><img decoding=\"async\" width=\"784\" height=\"100\" src=\"https:\/\/sahelib.atatec-design.com\/wp-content\/uploads\/2018\/03\/Capture-decran-2025-12-15-a-15.24.32-1.png\" alt=\"\" class=\"wp-image-6650\" style=\"width:423px;height:auto\" srcset=\"https:\/\/sahelib.atatec-design.com\/wp-content\/uploads\/2018\/03\/Capture-decran-2025-12-15-a-15.24.32-1.png 784w, https:\/\/sahelib.atatec-design.com\/wp-content\/uploads\/2018\/03\/Capture-decran-2025-12-15-a-15.24.32-1-300x38.png 300w, https:\/\/sahelib.atatec-design.com\/wp-content\/uploads\/2018\/03\/Capture-decran-2025-12-15-a-15.24.32-1-768x98.png 768w, https:\/\/sahelib.atatec-design.com\/wp-content\/uploads\/2018\/03\/Capture-decran-2025-12-15-a-15.24.32-1-20x3.png 20w, https:\/\/sahelib.atatec-design.com\/wp-content\/uploads\/2018\/03\/Capture-decran-2025-12-15-a-15.24.32-1-32x4.png 32w, https:\/\/sahelib.atatec-design.com\/wp-content\/uploads\/2018\/03\/Capture-decran-2025-12-15-a-15.24.32-1-780x100.png 780w, https:\/\/sahelib.atatec-design.com\/wp-content\/uploads\/2018\/03\/Capture-decran-2025-12-15-a-15.24.32-1-600x77.png 600w\" sizes=\"(max-width: 784px) 100vw, 784px\" \/><\/figure>\n<\/div>\n\n\n<h2 class=\"wp-block-heading\" id=\"d1e4479\">4.&nbsp;Exp\u00e9riences\u200b<\/h2>\n\n\n\n<p class=\"wp-block-paragraph\">Nous menons nos exp\u00e9rimentations \u00e0 l&#8217;aide d&#8217;environnements de contr\u00f4le continu de la suite DeepMind Control\u00a0<a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0921889025003689#b14\">[14]<\/a>\u00a0. Il est \u00e0 noter que, dans l&#8217;\u00e9tude originale, l&#8217;algorithme DCAC a \u00e9t\u00e9 test\u00e9 avec des environnements OpenAI Gym\u00a0<a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0921889025003689#b15\">[15]<\/a>\u00a0. Afin de pr\u00e9server la gestion des observations au sein de la structure algorithmique, nous int\u00e9grons une interface permettant de convertir les structures d&#8217;environnement de la suite DeepMind Control en celles des environnements OpenAI Gym. Nous utilisons pour cela l&#8217;interface dmc2gym\u00a0<a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0921889025003689#b16\">[16]<\/a>\u00a0, o\u00f9 la dynamique de l&#8217;environnement reste inchang\u00e9e tandis que l&#8217;interface d&#8217;interaction environnement-algorithme est similaire au fonctionnement des environnements OpenAI Gym.Nous comparons principalement les performances de l&#8217;algorithme DCAC-v2 \u00e0 celles des algorithmes DCAC et SAC originaux dans le cadre du RDMDP. La principale diff\u00e9rence entre DCAC et SAC r\u00e9side dans le fait que le critique de SAC estime la valeur de l&#8217;action., tandis que DCAC fonctionne avec la valeur d&#8217;\u00e9tatL&#8217;estimation\u00a0<a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0921889025003689#b9\">[9]<\/a>\u00a0indique que DCAC et SAC sont tous deux soumis aux contraintes de la structure RDMDP. Par cons\u00e9quent, les r\u00e9sultats serviront directement de r\u00e9f\u00e9rence pour le contr\u00f4le RL d\u00e9terministe dans le domaine retard\u00e9 (bas\u00e9 sur RDMDP). L&#8217;exp\u00e9rimentation se d\u00e9roule en deux phases\u00a0: premi\u00e8rement, nous entra\u00eenons les algorithmes avec un ensemble de t\u00e2ches de contr\u00f4le courantes, utilis\u00e9es pour illustrer les performances de DCAC dans l&#8217;\u00e9tude originale. Nous s\u00e9lectionnons avec soin un sous-ensemble des m\u00eames environnements au sein de la suite DeepMind Control Suite (initialement utilis\u00e9e via OpenAI Gym) afin de garantir l&#8217;\u00e9quit\u00e9 de l&#8217;exp\u00e9rimentation. Nous ex\u00e9cutons quatre t\u00e2ches de contr\u00f4le courantes, chaque exp\u00e9rience comportant 500 it\u00e9rations de 2\u00a0000 \u00e9tapes chacune (soit un total d&#8217;un million d&#8217;\u00e9tapes). Ces quatre tests sont men\u00e9s avec des caract\u00e9ristiques de d\u00e9lai similaires pour les algorithmes SAC, DCAC et DCAC-v2\u00a0: des d\u00e9lais d&#8217;observation et d&#8217;action de deux \u00e9tapes, al\u00e9atoires.La deuxi\u00e8me phase consiste en la t\u00e2che de manipulation robotique de base propos\u00e9e par la suite logicielle DeepMind Control Suite, con\u00e7ue autour du Kinovo.Manipulateur robotique \u00e0 6 degr\u00e9s de libert\u00e9. Cette t\u00e2che, appel\u00e9e \u00ab\u00a0Atteindre une cible\u00a0\u00bb, consiste pour le manipulateur robotique \u00e0 diriger son effecteur terminal vers une zone cible sph\u00e9rique dans son espace de travail. Compar\u00e9e aux t\u00e2ches de contr\u00f4le classiques, cette t\u00e2che pr\u00e9sente un espace d&#8217;\u00e9tats de dimensionnalit\u00e9 plus \u00e9lev\u00e9e. Quantitativement, cet espace d&#8217;\u00e9tats comporte 45 \u00e9l\u00e9ments, contre 4 pour une t\u00e2che de contr\u00f4le courante comme \u00ab\u00a0Reacher Easy\u00a0\u00bb\u00a0<\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0921889025003689#b14\">[14]<\/a>\u00a0. Par cons\u00e9quent, nous effectuons l&#8217;entra\u00eenement de l&#8217;environnement robotique sur 600 it\u00e9rations, chacune comprenant 5\u00a0000 \u00e9tapes, soit un total de 3\u00a0000\u00a0000 \u00e9tapes. Nous r\u00e9alisons deux tests dans cette phase\u00a0: premi\u00e8rement, nous laissons les algorithmes \u00e9voluer dans l&#8217;environnement avec des d\u00e9lais constants (,), puis nous introduisons des conditions de d\u00e9lai extr\u00eames pour tester la robustesse de DCAC-v2. Pour ce test de robustesse, nous \u00e9tendons le d\u00e9lai d&#8217;action \u00e0 un d\u00e9lai al\u00e9atoire de 2 \u00e9tapes., tout en augmentant le d\u00e9lai d&#8217;observation \u00e0 partir d&#8217;un d\u00e9lai al\u00e9atoire de 3 \u00e9tapesPassons maintenant \u00e0 l&#8217;\u00e9tape en 5 \u00e9tapes.et enfin les 9 \u00e9tapesDans le cas final d&#8217;un d\u00e9lai d&#8217;observation al\u00e9atoire de 9 \u00e9tapes, l&#8217;algorithme g\u00e9rera des d\u00e9lais allant jusqu&#8217;\u00e0 320 ms lors du traitement des observations. Le taux de r\u00e9ussite de toutes les t\u00e2ches, y compris les t\u00e2ches de contr\u00f4le communes, est mesur\u00e9 et compar\u00e9 au rendement moyen total sur l&#8217;ensemble des it\u00e9rations. Les caract\u00e9ristiques exp\u00e9rimentales sont r\u00e9sum\u00e9es dans\u00a0<a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0921889025003689#tbl1\">le tableau 1<\/a>\u00a0.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\" id=\"d1e64\">Tableau 1.&nbsp;Exp\u00e9riences&nbsp;r\u00e9alis\u00e9es sur les caract\u00e9ristiques de d\u00e9lai.<\/p>\n\n\n\n<figure class=\"wp-block-table\"><table class=\"has-fixed-layout\"><thead><tr><th class=\"has-text-align-left\" data-align=\"left\">Environnement<\/th><th class=\"has-text-align-left\" data-align=\"left\">Nombre de marches<\/th><th class=\"has-text-align-left\" data-align=\"left\">Caract\u00e9ristiques du d\u00e9lai<\/th><\/tr><\/thead><tbody><tr><td class=\"has-text-align-left\" data-align=\"left\" colspan=\"3\"><em>T\u00e2ches de contr\u00f4le courantes<\/em><\/td><\/tr><tr><th class=\"has-text-align-left\" data-align=\"left\">Promenade des marcheurs<\/th><td class=\"has-text-align-left\" data-align=\"left\">1 000 000<\/td><td class=\"has-text-align-left\" data-align=\"left\">,<\/td><\/tr><tr><th class=\"has-text-align-left\" data-align=\"left\">Reacher Easy<\/th><td class=\"has-text-align-left\" data-align=\"left\">1 000 000<\/td><td class=\"has-text-align-left\" data-align=\"left\">,<\/td><\/tr><tr><th class=\"has-text-align-left\" data-align=\"left\">Hopper Hop<\/th><td class=\"has-text-align-left\" data-align=\"left\">1 000 000<\/td><td class=\"has-text-align-left\" data-align=\"left\">,<\/td><\/tr><tr><th class=\"has-text-align-left\" data-align=\"left\">Marche humano\u00efde<\/th><td class=\"has-text-align-left\" data-align=\"left\">1 000 000<\/td><td class=\"has-text-align-left\" data-align=\"left\">,<\/td><\/tr><tr><td class=\"has-text-align-left\" data-align=\"left\" colspan=\"3\"><em>T\u00e2ches de manipulation robotique<\/em><\/td><\/tr><tr><th class=\"has-text-align-left\" data-align=\"left\">Site d&#8217;acc\u00e8s<\/th><td class=\"has-text-align-left\" data-align=\"left\">3 000 000<\/td><td class=\"has-text-align-left\" data-align=\"left\">,<\/td><\/tr><tr><th class=\"has-text-align-left\" data-align=\"left\">Site d&#8217;acc\u00e8s &#8211; Retard prolong\u00e9<\/th><td class=\"has-text-align-left\" data-align=\"left\">3 000 000<\/td><td class=\"has-text-align-left\" data-align=\"left\">,<br>,<br>,<\/td><\/tr><\/tbody><\/table><\/figure>\n\n\n\n<h2 class=\"wp-block-heading\" id=\"d1e4771\">5.&nbsp;Travaux&nbsp;connexes<\/h2>\n\n\n\n<p class=\"wp-block-paragraph\">L&#8217;apprentissage par renforcement (RL) et l&#8217;apprentissage par renforcement dynamique (DRL) avec d\u00e9lai ont \u00e9t\u00e9 r\u00e9cemment test\u00e9s et \u00e9valu\u00e9s, apportant plusieurs contributions, notamment \u00e0 mesure que la t\u00e9l\u00e9commande se g\u00e9n\u00e9ralise dans les applications\u00a0<a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0921889025003689#b17\">[17]<\/a>\u00a0,\u00a0<a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0921889025003689#b18\">[18]<\/a>\u00a0,\u00a0<a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0921889025003689#b19\">[19]<\/a>\u00a0,\u00a0<a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0921889025003689#b20\">[20]<\/a>\u00a0. Dans ces travaux, on observe principalement un RL avec d\u00e9lai constant, tandis que l&#8217;apprentissage par renforcement prenant en compte les d\u00e9lais al\u00e9atoires a connu un d\u00e9veloppement plus rapide.Chen et al.\u00a0<a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0921889025003689#b21\">[21]<\/a>\u00a0ont d\u00e9velopp\u00e9 un cadre d&#8217;apprentissage par renforcement bas\u00e9 sur un mod\u00e8le prenant en compte le d\u00e9lai pour les t\u00e2ches de contr\u00f4le continu. Ils ont propos\u00e9 une d\u00e9finition formelle du processus de d\u00e9cision markovien (MDP) prenant en compte le d\u00e9lai et ont d\u00e9montr\u00e9 sa transformation en un MDP standard \u00e0 \u00e9tats augment\u00e9s gr\u00e2ce au processus de r\u00e9compense markovien. Sans effort suppl\u00e9mentaire, ce cadre a permis d&#8217;int\u00e9grer un d\u00e9lai \u00e0 plusieurs \u00e9tapes dans les mod\u00e8les de syst\u00e8mes appris. Des simulations ont valid\u00e9 les capacit\u00e9s g\u00e9n\u00e9ralis\u00e9es de cette m\u00e9thode lors de son transfert entre des syst\u00e8mes pr\u00e9sentant diff\u00e9rents niveaux de d\u00e9lai, ainsi qu&#8217;une formation plus efficace. Li et al.\u00a0<a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0921889025003689#b22\">[22]<\/a>\u00a0ont introduit une m\u00e9thode d&#8217;apprentissage par renforcement utilisant des donn\u00e9es retard\u00e9es pour l&#8217;apprentissage de solutions approch\u00e9es aux probl\u00e8mes de commande de suivi optimal (OTCP) de syst\u00e8mes non lin\u00e9aires de grande dimension. Cette m\u00e9thode est bas\u00e9e sur la programmation dynamique adaptative incr\u00e9mentale. Elle convertit un OTCP r\u00e9calcitrant en plusieurs sous-OTCP de sous-syst\u00e8mes incr\u00e9mentaux de faible dimension, construits \u00e0 partir de donn\u00e9es retard\u00e9es et r\u00e9solus par une structure de critique parall\u00e8le. Des exp\u00e9riences men\u00e9es sur un manipulateur \u00e0 3 degr\u00e9s de libert\u00e9 ont valid\u00e9 l&#8217;efficacit\u00e9 de cette strat\u00e9gie, notamment sa stabilit\u00e9 et sa convergence. Han et al.\u00a0<a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0921889025003689#b23\">[23]<\/a>\u00a0a introduit un cadre d&#8217;apprentissage par renforcement hors strat\u00e9gie capable de g\u00e9rer les r\u00e9compenses diff\u00e9r\u00e9es, les r\u00e9compenses imm\u00e9diates n&#8217;\u00e9tant pas disponibles instantan\u00e9ment apr\u00e8s l&#8217;ex\u00e9cution d&#8217;une action. La m\u00e9thode exploite une nouvelle formulation de la fonction Q avec convergence th\u00e9orique garantie et est \u00e9tendue aux t\u00e2ches de grande dimension gr\u00e2ce \u00e0 la r\u00e8gle de d\u00e9composition HC (informations sur l&#8217;\u00e9tat historique et actuel), o\u00f9 l&#8217;acc\u00e8s direct \u00e0 la valeur Q est complexe. Des exp\u00e9riences simul\u00e9es ont \u00e9t\u00e9 men\u00e9es \u00e0 l&#8217;aide d&#8217;OpenAI Gym, pour r\u00e9aliser un contr\u00f4le continu dans un contexte de r\u00e9compense diff\u00e9r\u00e9e, et la m\u00e9thode a d\u00e9montr\u00e9 des performances robustes et efficaces.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\" id=\"d1e4810\">6.&nbsp;Conclusion&nbsp;et perspectives<\/h2>\n\n\n\n<p class=\"wp-block-paragraph\">Dans cette \u00e9tude, nous avons abord\u00e9 le probl\u00e8me du contr\u00f4le par apprentissage par renforcement prenant en compte les d\u00e9lais. Nous avons propos\u00e9 un nouvel algorithme, DCAC-v2, qui int\u00e8gre DDPG pour apprendre avec succ\u00e8s une politique de contr\u00f4le d\u00e9terministe tout en g\u00e9rant les d\u00e9lais al\u00e9atoires dans l&#8217;interaction agent-environnement.L&#8217;exp\u00e9rimentation a \u00e9t\u00e9 men\u00e9e avec des t\u00e2ches de contr\u00f4le courantes et des t\u00e2ches complexes de manipulation robotique \u00e0 l&#8217;aide de la suite de contr\u00f4le DeepMind. Quatre t\u00e2ches de contr\u00f4le courantes \u00e9quivalentes de cette suite ont \u00e9t\u00e9 entra\u00een\u00e9es selon le protocole exp\u00e9rimental mis en \u0153uvre dans l&#8217;\u00e9tude originale de DCAC avec les environnements OpenAI Gym, ainsi qu&#8217;avec SAC dans le cadre RDMDP. Pour la majorit\u00e9 des t\u00e2ches, DCAC-v2 surpasse SAC et DCAC, d\u00e9montrant des performances significatives dans la gestion des environnements et l&#8217;apprentissage d&#8217;une politique de contr\u00f4le d\u00e9terministe efficace. Concernant la t\u00e2che complexe de manipulation robotique impliquant un manipulateur robotique \u00e0 6 degr\u00e9s de libert\u00e9, DCAC-v2 a r\u00e9ussi \u00e0 apprendre une politique op\u00e9rationnelle m\u00eame en pr\u00e9sence de d\u00e9lais extr\u00eames, contrairement \u00e0 DCAC qui a rencontr\u00e9 des difficult\u00e9s pour r\u00e9soudre cette t\u00e2che.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">References<\/h2>\n\n\n\n<ol id=\"reference-links-d1e8071\" class=\"wp-block-list\">\n<li><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0921889025003689#bb1\">[1]<\/a>A.R.\u00a0Mahmood,\u00a0D.\u00a0Korenkevych,\u00a0B.J.\u00a0Komer,\u00a0J.\u00a0BergstraSetting up a reinforcement learning task with a real-world robotProceedings of 2018 IEEE\/RSJ International Conference on Intelligent Robots and Systems,\u00a0IROS,\u00a0Madrid\u00a0(2018), pp.\u00a04635-4640<a href=\"https:\/\/scholar.google.com\/scholar_lookup?title=Setting%20up%20a%20reinforcement%20learning%20task%20with%20a%20real-world%20robot&amp;publication_year=2018&amp;author=A.R.%20Mahmood&amp;author=D.%20Korenkevych&amp;author=B.J.%20Komer&amp;author=J.%20Bergstra\" target=\"_blank\" rel=\"noreferrer noopener\">Google Scholar<\/a><\/li>\n\n\n\n<li><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0921889025003689#bb2\">[2]<\/a>F.\u00a0Fuchs,\u00a0Y.\u00a0Song,\u00a0E.\u00a0Kaufmann,\u00a0D.\u00a0Scaramuzza,\u00a0P.\u00a0D\u00fcrrSuper-human performance in gran turismo sport using deep reinforcement learningIEEE Robot. Autom. Lett.,\u00a06\u00a0(3)\u00a0(2021), pp.\u00a04257-4264<a>Finding PDF\u2026<\/a><a href=\"https:\/\/doi.org\/10.1109\/lra.2021.3064284\" target=\"_blank\" rel=\"noreferrer noopener\">Crossref<\/a><a href=\"https:\/\/www.scopus.com\/inward\/record.url?eid=2-s2.0-85102654275&amp;partnerID=10&amp;rel=R3.0.0\" target=\"_blank\" rel=\"noreferrer noopener\">View in Scopus<\/a><a href=\"https:\/\/scholar.google.com\/scholar_lookup?title=Super-human%20performance%20in%20gran%20turismo%20sport%20using%20deep%20reinforcement%20learning&amp;publication_year=2021&amp;author=F.%20Fuchs&amp;author=Y.%20Song&amp;author=E.%20Kaufmann&amp;author=D.%20Scaramuzza&amp;author=P.%20D%C3%BCrr\" target=\"_blank\" rel=\"noreferrer noopener\">Google Scholar<\/a><\/li>\n\n\n\n<li><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0921889025003689#bb3\">[3]<\/a>Y.\u00a0Ge,\u00a0Q.\u00a0Chen,\u00a0M.\u00a0Jiang,\u00a0Y.\u00a0HuangModeling of random delays in networked control systemsJ. Control Sci. Eng.,\u00a02013\u00a0(2013)8\u20138<a href=\"https:\/\/scholar.google.com\/scholar_lookup?title=Modeling%20of%20random%20delays%20in%20networked%20control%20systems&amp;publication_year=2013&amp;author=Y.%20Ge&amp;author=Q.%20Chen&amp;author=M.%20Jiang&amp;author=Y.%20Huang\" target=\"_blank\" rel=\"noreferrer noopener\">Google Scholar<\/a><\/li>\n\n\n\n<li><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0921889025003689#bb4\">[4]<\/a>E.\u00a0Schuitema,\u00a0L.\u00a0Busoniu,\u00a0R.\u00a0Babu\u0161ka,\u00a0P.\u00a0JonkerControl delay in reinforcement learning for real-time dynamic systems: a memoryless approachProceedings of RSJ International Conference on Intelligent Robots and Systems,\u00a0Taiwan\u00a0(2010), pp.\u00a03226-3231<a>Finding PDF\u2026<\/a><a href=\"https:\/\/doi.org\/10.1109\/IROS.2010.5650345\" target=\"_blank\" rel=\"noreferrer noopener\">Crossref<\/a><a href=\"https:\/\/www.scopus.com\/inward\/record.url?eid=2-s2.0-78651479757&amp;partnerID=10&amp;rel=R3.0.0\" target=\"_blank\" rel=\"noreferrer noopener\">View in Scopus<\/a><a href=\"https:\/\/scholar.google.com\/scholar_lookup?title=Control%20delay%20in%20reinforcement%20learning%20for%20real-time%20dynamic%20systems%3A%20a%20memoryless%20approach&amp;publication_year=2010&amp;author=E.%20Schuitema&amp;author=L.%20Busoniu&amp;author=R.%20Babu%C5%A1ka&amp;author=P.%20Jonker\" target=\"_blank\" rel=\"noreferrer noopener\">Google Scholar<\/a><\/li>\n\n\n\n<li><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0921889025003689#bb5\">[5]<\/a>V.\u00a0Firoiu,\u00a0T.\u00a0Ju,\u00a0J.\u00a0TenenbaumAt human speed: Deep reinforcement learning with action delay(2018)<a href=\"http:\/\/arxiv.org\/abs\/1810.07286\" target=\"_blank\" rel=\"noreferrer noopener\">arXiv:1810.07286<\/a><a href=\"https:\/\/scholar.google.com\/scholar_lookup?title=At%20human%20speed%3A%20Deep%20reinforcement%20learning%20with%20action%20delay&amp;publication_year=2018&amp;author=V.%20Firoiu&amp;author=T.%20Ju&amp;author=J.%20Tenenbaum\" target=\"_blank\" rel=\"noreferrer noopener\">Google Scholar<\/a><\/li>\n\n\n\n<li><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0921889025003689#bb6\">[6]<\/a>T.P.\u00a0Lillicrap,\u00a0J.J.\u00a0Hunt,\u00a0A.\u00a0Pritzel,\u00a0N.\u00a0Heess,\u00a0T.\u00a0Erez,\u00a0Y.\u00a0Tassa,\u00a0D.\u00a0Silver,\u00a0D.\u00a0WierstraContinuous control with deep reinforcement learning(2019)<a href=\"http:\/\/arxiv.org\/abs\/1509.02971\" target=\"_blank\" rel=\"noreferrer noopener\">arXiv:1509.02971<\/a><a href=\"https:\/\/scholar.google.com\/scholar_lookup?title=Continuous%20control%20with%20deep%20reinforcement%20learning&amp;publication_year=2019&amp;author=T.P.%20Lillicrap&amp;author=J.J.%20Hunt&amp;author=A.%20Pritzel&amp;author=N.%20Heess&amp;author=T.%20Erez&amp;author=Y.%20Tassa&amp;author=D.%20Silver&amp;author=D.%20Wierstra\" target=\"_blank\" rel=\"noreferrer noopener\">Google Scholar<\/a><\/li>\n\n\n\n<li><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0921889025003689#bb7\">[7]<\/a>S.\u00a0Fujimoto,\u00a0H.\u00a0Hoof,\u00a0D.\u00a0MegerAddressing function approximation error in actor-critic methodsProceedings of the 35th International Conference on Machine Learning,\u00a0Stockholm\u00a0(2018), pp.\u00a01587-1596<a href=\"https:\/\/www.scopus.com\/inward\/record.url?eid=2-s2.0-105020567032&amp;partnerID=10&amp;rel=R3.0.0\" target=\"_blank\" rel=\"noreferrer noopener\">View in Scopus<\/a><a href=\"https:\/\/scholar.google.com\/scholar_lookup?title=Addressing%20function%20approximation%20error%20in%20actor-critic%20methods&amp;publication_year=2018&amp;author=S.%20Fujimoto&amp;author=H.%20Hoof&amp;author=D.%20Meger\" target=\"_blank\" rel=\"noreferrer noopener\">Google Scholar<\/a><\/li>\n\n\n\n<li><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0921889025003689#bb8\">[8]<\/a>T.\u00a0Haarnoja,\u00a0A.\u00a0Zhou,\u00a0K.\u00a0Hartikainen,\u00a0G.\u00a0Tucker,\u00a0S.\u00a0Ha,\u00a0J.\u00a0Tan,\u00a0V.\u00a0Kumar,\u00a0H.\u00a0Zhu,\u00a0A.\u00a0Gupta,\u00a0P.\u00a0Abbeel,\u00a0<em>et al.<\/em>Soft actor-critic algorithms and applications(2018)arXiv preprint\u00a0<a href=\"http:\/\/arxiv.org\/abs\/1812.05905\" target=\"_blank\" rel=\"noreferrer noopener\">arXiv:1812.05905<\/a><a href=\"https:\/\/scholar.google.com\/scholar_lookup?title=Soft%20actor-critic%20algorithms%20and%20applications&amp;publication_year=2018&amp;author=T.%20Haarnoja&amp;author=A.%20Zhou&amp;author=K.%20Hartikainen&amp;author=G.%20Tucker&amp;author=S.%20Ha&amp;author=J.%20Tan&amp;author=V.%20Kumar&amp;author=H.%20Zhu&amp;author=A.%20Gupta&amp;author=P.%20Abbeel\" target=\"_blank\" rel=\"noreferrer noopener\">Google Scholar<\/a><\/li>\n\n\n\n<li><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0921889025003689#bb9\">[9]<\/a>Y.\u00a0Bouteiller,\u00a0S.\u00a0Ramstedt,\u00a0G.\u00a0Beltrame,\u00a0C.\u00a0Pal,\u00a0J.\u00a0BinasReinforcement learning with random delaysProceedings of International Conference on Learning Representations,\u00a0Virtual\u00a0(2020)<a href=\"https:\/\/scholar.google.com\/scholar_lookup?title=Reinforcement%20learning%20with%20random%20delays&amp;publication_year=2020&amp;author=Y.%20Bouteiller&amp;author=S.%20Ramstedt&amp;author=G.%20Beltrame&amp;author=C.%20Pal&amp;author=J.%20Binas\" target=\"_blank\" rel=\"noreferrer noopener\">Google Scholar<\/a><\/li>\n\n\n\n<li><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0921889025003689#bb10\">[10]<\/a>D.\u00a0Yarats,\u00a0R.\u00a0Fergus,\u00a0A.\u00a0Lazaric,\u00a0L.\u00a0PintoMastering visual continuous control: Improved data-augmented reinforcement learning(2021)arXiv preprint\u00a0<a href=\"http:\/\/arxiv.org\/abs\/2107.09645\" target=\"_blank\" rel=\"noreferrer noopener\">arXiv:2107.09645<\/a><a href=\"https:\/\/scholar.google.com\/scholar_lookup?title=Mastering%20visual%20continuous%20control%3A%20Improved%20data-augmented%20reinforcement%20learning&amp;publication_year=2021&amp;author=D.%20Yarats&amp;author=R.%20Fergus&amp;author=A.%20Lazaric&amp;author=L.%20Pinto\" target=\"_blank\" rel=\"noreferrer noopener\">Google Scholar<\/a><\/li>\n\n\n\n<li><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0921889025003689#bb11\">[11]<\/a>Y.\u00a0Tassa\u00a0,\u00a0Y.\u00a0Doron\u00a0,\u00a0A.\u00a0Muldal\u00a0,\u00a0T.\u00a0Erez\u00a0,\u00a0Y.\u00a0Li\u00a0,\u00a0DdL\u00a0Casas\u00a0,\u00a0D.\u00a0Budden\u00a0,\u00a0A.\u00a0Abdolmaleki\u00a0,\u00a0J.\u00a0Merel\u00a0,\u00a0A.\u00a0Lefrancq\u00a0,\u00a0<em>et al.<\/em>Suite de contr\u00f4le DeepMind(\u00a02018\u00a0)pr\u00e9impression arXiv\u00a0<a href=\"http:\/\/arxiv.org\/abs\/1801.00690\" target=\"_blank\" rel=\"noreferrer noopener\">arXiv:1801.00690<\/a><a href=\"https:\/\/scholar.google.com\/scholar_lookup?title=Deepmind%20control%20suite&amp;publication_year=2018&amp;author=Y.%20Tassa&amp;author=Y.%20Doron&amp;author=A.%20Muldal&amp;author=T.%20Erez&amp;author=Y.%20Li&amp;author=D.d.L.%20Casas&amp;author=D.%20Budden&amp;author=A.%20Abdolmaleki&amp;author=J.%20Merel&amp;author=A.%20Lefrancq\" target=\"_blank\" rel=\"noreferrer noopener\">Google Scholar<\/a><\/li>\n\n\n\n<li><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0921889025003689#bb12\">[12]<\/a>B.\u00a0Amos\u00a0,\u00a0S.\u00a0Stanton\u00a0,\u00a0D.\u00a0Yarats\u00a0,\u00a0AG\u00a0WilsonSur le gradient de valeur stochastique bas\u00e9 sur un mod\u00e8le pour l&#8217;apprentissage par renforcement continuApprentissage pour la\u00a0dynamique et le contr\u00f4le\u00a0,\u00a0PMLR\u00a0(\u00a02021\u00a0)\u00a0, pp\u00a0.\u00a06-20<a href=\"https:\/\/www.scopus.com\/inward\/record.url?eid=2-s2.0-85161982499&amp;partnerID=10&amp;rel=R3.0.0\" target=\"_blank\" rel=\"noreferrer noopener\">Voir dans Scopus\u00a0<\/a><a href=\"https:\/\/scholar.google.com\/scholar_lookup?title=On%20the%20model-based%20stochastic%20value%20gradient%20for%20continuous%20reinforcement%20learning&amp;publication_year=2021&amp;author=B.%20Amos&amp;author=S.%20Stanton&amp;author=D.%20Yarats&amp;author=A.G.%20Wilson\" target=\"_blank\" rel=\"noreferrer noopener\">Google Scholar<\/a><\/li>\n\n\n\n<li><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0921889025003689#bb13\">[13]<\/a>D.\u00a0Silver\u00a0,\u00a0G.\u00a0Lever\u00a0,\u00a0N.\u00a0Heess\u00a0,\u00a0T.\u00a0Degris\u00a0,\u00a0D.\u00a0Wierstra\u00a0,\u00a0M.\u00a0RiedmillerAlgorithmes de gradient de politique d\u00e9terministesActes de la\u00a0Conf\u00e9rence internationale sur l&#8217;apprentissage automatique\u00a0,\u00a0Pmlr\u00a0(\u00a02014\u00a0)\u00a0,\u00a0pp.\u00a0387-395<a href=\"https:\/\/scholar.google.com\/scholar_lookup?title=Deterministic%20policy%20gradient%20algorithms&amp;publication_year=2014&amp;author=D.%20Silver&amp;author=G.%20Lever&amp;author=N.%20Heess&amp;author=T.%20Degris&amp;author=D.%20Wierstra&amp;author=M.%20Riedmiller\" target=\"_blank\" rel=\"noreferrer noopener\">Google Scholar<\/a><\/li>\n\n\n\n<li><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0921889025003689#bb14\">[14]<\/a>S.\u00a0Tunyasuvunakool\u00a0,\u00a0A.\u00a0Muldal\u00a0,\u00a0Y.\u00a0Doron\u00a0,\u00a0S.\u00a0Liu\u00a0,\u00a0S.\u00a0Bohez\u00a0,\u00a0J.\u00a0Merel\u00a0,\u00a0T.\u00a0Erez\u00a0,\u00a0T.\u00a0Lillicrap\u00a0,\u00a0N.\u00a0Heess\u00a0,\u00a0Y.\u00a0TassaDm_control\u00a0: Logiciels et t\u00e2ches pour la commande continueImpacts logiciels\u00a0,\u00a06\u00a0(\u00a02020\u00a0)\u00a0, Article\u00a0100022<a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S2665963820300099\/pdfft?md5=11e582bafdd610f4dc5f6af1c3fd8a54&amp;pid=1-s2.0-S2665963820300099-main.pdf\" target=\"_blank\" rel=\"noreferrer noopener\">Voir le PDF<\/a><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S2665963820300099\">Voir l&#8217;article\u00a0<\/a><a href=\"https:\/\/www.scopus.com\/inward\/record.url?eid=2-s2.0-85099660994&amp;partnerID=10&amp;rel=R3.0.0\" target=\"_blank\" rel=\"noreferrer noopener\">Voir dans Scopus\u00a0<\/a><a href=\"https:\/\/scholar.google.com\/scholar_lookup?title=Dm_control%3A%20Software%20and%20tasks%20for%20continuous%20control&amp;publication_year=2020&amp;author=S.%20Tunyasuvunakool&amp;author=A.%20Muldal&amp;author=Y.%20Doron&amp;author=S.%20Liu&amp;author=S.%20Bohez&amp;author=J.%20Merel&amp;author=T.%20Erez&amp;author=T.%20Lillicrap&amp;author=N.%20Heess&amp;author=Y.%20Tassa\" target=\"_blank\" rel=\"noreferrer noopener\">Google Scholar<\/a><\/li>\n\n\n\n<li><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0921889025003689#bb15\">[15]<\/a>G.\u00a0Brockman\u00a0,\u00a0V.\u00a0Cheung\u00a0,\u00a0L.\u00a0Pettersson\u00a0,\u00a0J.\u00a0Schneider\u00a0,\u00a0J.\u00a0Schulman\u00a0,\u00a0J.\u00a0Tang\u00a0,\u00a0W.\u00a0ZarembaSalle de sport Openai(\u00a02016\u00a0)pr\u00e9impression arXiv\u00a0<a href=\"http:\/\/arxiv.org\/abs\/1606.01540\" target=\"_blank\" rel=\"noreferrer noopener\">arXiv:1606.01540<\/a><a href=\"https:\/\/scholar.google.com\/scholar_lookup?title=Openai%20gym&amp;publication_year=2016&amp;author=G.%20Brockman&amp;author=V.%20Cheung&amp;author=L.%20Pettersson&amp;author=J.%20Schneider&amp;author=J.%20Schulman&amp;author=J.%20Tang&amp;author=W.%20Zaremba\" target=\"_blank\" rel=\"noreferrer noopener\">Google Scholar<\/a><\/li>\n\n\n\n<li><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0921889025003689#bb16\">[16]<\/a>D.\u00a0YaratsDmc2gym\u00a0: interface OpenAI Gym pour la suite de contr\u00f4le DeepMind(\u00a02022\u00a0)D\u00e9p\u00f4t GitHub, GitHub<a href=\"https:\/\/scholar.google.com\/scholar_lookup?title=Dmc2gym%3A%20OpenAI%20Gym%20wrapper%20for%20the%20DeepMind%20control%20suite&amp;publication_year=2022&amp;author=D.%20Yarats\" target=\"_blank\" rel=\"noreferrer noopener\">Google Scholar<\/a><\/li>\n\n\n\n<li><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0921889025003689#bb17\">[17]<\/a>A.\u00a0Karamzade\u00a0,\u00a0K.\u00a0Kim\u00a0,\u00a0M.\u00a0Kalsi\u00a0,\u00a0R.\u00a0FoxApprentissage par renforcement \u00e0 partir d&#8217;observations diff\u00e9r\u00e9es via des mod\u00e8les du monde(\u00a02024\u00a0)pr\u00e9impression arXiv\u00a0<a href=\"http:\/\/arxiv.org\/abs\/2403.12309\" target=\"_blank\" rel=\"noreferrer noopener\">arXiv:2403.12309<\/a><a href=\"https:\/\/scholar.google.com\/scholar_lookup?title=Reinforcement%20learning%20from%20delayed%20observations%20via%20world%20models&amp;publication_year=2024&amp;author=A.%20Karamzade&amp;author=K.%20Kim&amp;author=M.%20Kalsi&amp;author=R.%20Fox\" target=\"_blank\" rel=\"noreferrer noopener\">Google Scholar<\/a><\/li>\n\n\n\n<li><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0921889025003689#bb18\">[18]<\/a>P.\u00a0LiotetRetards dans l&#8217;apprentissage par renforcement(\u00a02023\u00a0)<a href=\"http:\/\/arxiv.org\/abs\/2309.11096\" target=\"_blank\" rel=\"noreferrer noopener\">arXiv:2309.11096<\/a><a href=\"https:\/\/scholar.google.com\/scholar_lookup?title=Delays%20in%20reinforcement%20learning&amp;publication_year=2023&amp;author=P.%20Liotet\" target=\"_blank\" rel=\"noreferrer noopener\">Google Scholar<\/a><\/li>\n\n\n\n<li><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0921889025003689#bb19\">[19]<\/a>B.\u00a0Xia\u00a0,\u00a0Y.\u00a0Kong\u00a0,\u00a0Y.\u00a0Chang\u00a0,\u00a0B.\u00a0Yuan\u00a0,\u00a0Z.\u00a0Li\u00a0,\u00a0X.\u00a0Wang\u00a0,\u00a0B.\u00a0LiangDEER\u00a0: Un cadre r\u00e9sistant aux d\u00e9lais pour l\u2019apprentissage par renforcement avec des d\u00e9lais variables(\u00a02024\u00a0)pr\u00e9impression arXiv\u00a0<a href=\"http:\/\/arxiv.org\/abs\/2406.03102\" target=\"_blank\" rel=\"noreferrer noopener\">arXiv:2406.03102<\/a><a href=\"https:\/\/scholar.google.com\/scholar_lookup?title=DEER%3A%20A%20delay-resilient%20framework%20for%20reinforcement%20learning%20with%20variable%20delays&amp;publication_year=2024&amp;author=B.%20Xia&amp;author=Y.%20Kong&amp;author=Y.%20Chang&amp;author=B.%20Yuan&amp;author=Z.%20Li&amp;author=X.%20Wang&amp;author=B.%20Liang\" target=\"_blank\" rel=\"noreferrer noopener\">Google Scholar<\/a><\/li>\n\n\n\n<li><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0921889025003689#bb20\">[20]<\/a>Z.\u00a0Liu\u00a0,\u00a0Y.\u00a0Song\u00a0,\u00a0Y.\u00a0ZhangActeur-r\u00e9alisateur-critique\u00a0: un nouveau cadre d\u2019apprentissage par renforcement profond(\u00a02023\u00a0)<a href=\"http:\/\/arxiv.org\/abs\/2301.03887\" target=\"_blank\" rel=\"noreferrer noopener\">arXiv:2301.03887<\/a><a href=\"https:\/\/scholar.google.com\/scholar_lookup?title=Actor-director-critic%3A%20A%20novel%20deep%20reinforcement%20learning%20framework&amp;publication_year=2023&amp;author=Z.%20Liu&amp;author=Y.%20Song&amp;author=Y.%20Zhang\" target=\"_blank\" rel=\"noreferrer noopener\">Google Scholar<\/a><\/li>\n\n\n\n<li><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0921889025003689#bb21\">[21]<\/a>B.\u00a0Chen\u00a0,\u00a0M.\u00a0Xu\u00a0,\u00a0L.\u00a0Li\u00a0,\u00a0D.\u00a0ZhaoApprentissage par renforcement bas\u00e9 sur un mod\u00e8le prenant en compte le d\u00e9lai pour le contr\u00f4le continuNeurocomputing\u00a0,\u00a0450\u00a0(\u00a02021\u00a0)\u00a0,\u00a0p\u00a0.\u00a0119-128<a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0925231221005427\/pdfft?md5=7caa29c1bf85c87a5d2bc262ff8950f6&amp;pid=1-s2.0-S0925231221005427-main.pdf\" target=\"_blank\" rel=\"noreferrer noopener\">Voir le PDF<\/a><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0925231221005427\">Voir l&#8217;article\u00a0<\/a><a href=\"https:\/\/www.scopus.com\/inward\/record.url?eid=2-s2.0-85104924171&amp;partnerID=10&amp;rel=R3.0.0\" target=\"_blank\" rel=\"noreferrer noopener\">Voir dans Scopus\u00a0<\/a><a href=\"https:\/\/scholar.google.com\/scholar_lookup?title=Delay-aware%20model-based%20reinforcement%20learning%20for%20continuous%20control&amp;publication_year=2021&amp;author=B.%20Chen&amp;author=M.%20Xu&amp;author=L.%20Li&amp;author=D.%20Zhao\" target=\"_blank\" rel=\"noreferrer noopener\">Google Scholar<\/a><\/li>\n\n\n\n<li><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0921889025003689#bb22\">[22]<\/a>Y.\u00a0Sun\u00a0,\u00a0J.\u00a0Xu\u00a0,\u00a0C.\u00a0Chen\u00a0,\u00a0W.\u00a0HuCommande de suivi optimale bas\u00e9e sur l&#8217;apprentissage par renforcement pour un syst\u00e8me de l\u00e9vitation d&#8217;un v\u00e9hicule \u00e0 sustentation magn\u00e9tique avec d\u00e9lai d&#8217;entr\u00e9eIEEETrans. Instrument. Mesures.\u00a0,\u00a071\u00a0(\u00a02022\u00a0)\u00a0, p.\u00a01\u00a0&#8211;\u00a013\u00a0,\u00a0<a href=\"https:\/\/doi.org\/10.1109\/TIM.2022.3142059\" target=\"_blank\" rel=\"noreferrer noopener\">10.1109\/TIM.2022.3142059<\/a><a href=\"https:\/\/scholar.google.com\/scholar_lookup?title=Reinforcement%20learning-based%20optimal%20tracking%20control%20for%20levitation%20system%20of%20maglev%20vehicle%20with%20input%20time%20delay&amp;publication_year=2022&amp;author=Y.%20Sun&amp;author=J.%20Xu&amp;author=C.%20Chen&amp;author=W.%20Hu\" target=\"_blank\" rel=\"noreferrer noopener\">Google Scholar<\/a><\/li>\n\n\n\n<li><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0921889025003689#bb23\">[23]<\/a>B.\u00a0Han\u00a0,\u00a0Z.\u00a0Ren\u00a0,\u00a0Z.\u00a0Wu\u00a0,\u00a0Y.\u00a0Zhou\u00a0,\u00a0J.\u00a0PengApprentissage par renforcement hors strat\u00e9gie avec r\u00e9compenses diff\u00e9r\u00e9esActes de la\u00a0Conf\u00e9rence internationale sur l&#8217;apprentissage automatique\u00a0,\u00a0PMLR\u00a0(\u00a02022\u00a0)\u00a0,\u00a0pp.\u00a08280-8303<a href=\"https:\/\/www.scopus.com\/inward\/record.url?eid=2-s2.0-85160426713&amp;partnerID=10&amp;rel=R3.0.0\" target=\"_blank\" rel=\"noreferrer noopener\">Voir dans Scopus\u00a0<\/a><a href=\"https:\/\/scholar.google.com\/scholar_lookup?title=Off-policy%20reinforcement%20learning%20with%20delayed%20rewards&amp;publication_year=2022&amp;author=B.%20Han&amp;author=Z.%20Ren&amp;author=Z.%20Wu&amp;author=Y.%20Zhou&amp;author=J.%20Peng\" target=\"_blank\" rel=\"noreferrer noopener\">Google Scholar<\/a><\/li>\n\n\n\n<li><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0921889025003689#bb24\">[24]<\/a>T.\u00a0Xiao\u00a0,\u00a0E.\u00a0Jang\u00a0,\u00a0D.\u00a0Kalachnikov\u00a0,\u00a0S.\u00a0Levine\u00a0,\u00a0J.\u00a0Ibarz\u00a0,\u00a0K.\u00a0Hausman\u00a0,\u00a0A.\u00a0HerzogR\u00e9fl\u00e9chir en se d\u00e9pla\u00e7ant\u00a0: apprentissage par renforcement profond avec contr\u00f4le simultan\u00e9Actes de la Conf\u00e9rence internationale sur les repr\u00e9sentations d&#8217;apprentissage\u00a0(\u00a02020\u00a0)URL\u00a0<a href=\"https:\/\/openreview.net\/forum?id=SJexHkSFPS\" target=\"_blank\" rel=\"noreferrer noopener\">https:\/\/openreview.net\/forum?id=SJexHkSFPS<\/a><a href=\"https:\/\/scholar.google.com\/scholar_lookup?title=Thinking%20while%20moving%3A%20Deep%20reinforcement%20learning%20with%20concurrent%20control&amp;publication_year=2020&amp;author=T.%20Xiao&amp;author=E.%20Jang&amp;author=D.%20Kalashnikov&amp;author=S.%20Levine&amp;author=J.%20Ibarz&amp;author=K.%20Hausman&amp;author=A.%20Herzog\" target=\"_blank\" rel=\"noreferrer noopener\">Google Scholar<\/a><\/li>\n<\/ol>\n","protected":false},"excerpt":{"rendered":"<p>Abstrait L&#8217;apprentissage par renforcement (RL) a consid\u00e9rablement ouvert la voie au contr\u00f4le robotique au cours de la derni\u00e8re d\u00e9cennie. De ce fait, l&#8217;int\u00e9gration du contr\u00f4le robotique bas\u00e9 sur le RL et de la t\u00e9l\u00e9op\u00e9ration a suscit\u00e9 un vif int\u00e9r\u00eat chez les chercheurs. Tout cadre de RL repose sur une communication appropri\u00e9e entre l&#8217;environnement et l&#8217;agent, [&hellip;]<\/p>\n","protected":false},"author":1,"featured_media":0,"parent":2323,"menu_order":18,"comment_status":"closed","ping_status":"closed","template":"","doc_tag":[],"class_list":["post-2324","docs","type-docs","status-publish","hentry","no-post-thumbnail"],"acf":[],"_links":{"self":[{"href":"https:\/\/sahelib.atatec-design.com\/index.php\/wp-json\/wp\/v2\/docs\/2324","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/sahelib.atatec-design.com\/index.php\/wp-json\/wp\/v2\/docs"}],"about":[{"href":"https:\/\/sahelib.atatec-design.com\/index.php\/wp-json\/wp\/v2\/types\/docs"}],"author":[{"embeddable":true,"href":"https:\/\/sahelib.atatec-design.com\/index.php\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/sahelib.atatec-design.com\/index.php\/wp-json\/wp\/v2\/comments?post=2324"}],"version-history":[{"count":2,"href":"https:\/\/sahelib.atatec-design.com\/index.php\/wp-json\/wp\/v2\/docs\/2324\/revisions"}],"predecessor-version":[{"id":6665,"href":"https:\/\/sahelib.atatec-design.com\/index.php\/wp-json\/wp\/v2\/docs\/2324\/revisions\/6665"}],"up":[{"embeddable":true,"href":"https:\/\/sahelib.atatec-design.com\/index.php\/wp-json\/wp\/v2\/docs\/2323"}],"wp:attachment":[{"href":"https:\/\/sahelib.atatec-design.com\/index.php\/wp-json\/wp\/v2\/media?parent=2324"}],"wp:term":[{"taxonomy":"doc_tag","embeddable":true,"href":"https:\/\/sahelib.atatec-design.com\/index.php\/wp-json\/wp\/v2\/doc_tag?post=2324"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}