{"id":2453,"date":"2018-05-19T06:58:55","date_gmt":"2018-05-19T06:58:55","guid":{"rendered":"http:\/\/docs.creativegigs.net\/docs\/gullu-wp\/faqs\/how-to-change-the-transition-time-of-gullu-slider\/"},"modified":"2025-12-15T15:15:20","modified_gmt":"2025-12-15T15:15:20","slug":"how-to-change-the-transition-time-of-gullu-slider","status":"publish","type":"docs","link":"https:\/\/sahelib.atatec-design.com\/index.php\/docs\/gullu-knowledge-base\/faqs\/how-to-change-the-transition-time-of-gullu-slider\/","title":{"rendered":"Apprentissage par renforcement profond pour l&#8217;optimisation de l&#8217;irrigation\u00a0: avantages, opportunit\u00e9s et d\u00e9fis"},"content":{"rendered":"\n<blockquote class=\"wp-block-quote is-layout-flow wp-block-quote-is-layout-flow\">\n<ul class=\"wp-block-list\">\n<li>Examinez l&#8217;application de l&#8217;apprentissage par renforcement profond (DRL) \u00e0 l&#8217;irrigation agricole.<\/li>\n\n\n\n<li>Analyser les performances des algorithmes DRL dans la prise de d\u00e9cision en mati\u00e8re d&#8217;irrigation.<\/li>\n\n\n\n<li>Comparer les mod\u00e8les DRL bas\u00e9s sur diff\u00e9rents environnements dans l&#8217;optimisation de l&#8217;irrigation.<\/li>\n\n\n\n<li>Discuter des travaux suppl\u00e9mentaires \u00e0 mener pour am\u00e9liorer les performances du DRL dans l&#8217;optimisation de l&#8217;irrigation.<\/li>\n<\/ul>\n\n\n\n<h2 class=\"wp-block-heading\">Points forts<\/h2>\n\n\n\n<p class=\"wp-block-paragraph\"><\/p>\n<\/blockquote>\n\n\n\n<h2 class=\"wp-block-heading\">R\u00e9sume<\/h2>\n\n\n\n<p class=\"wp-block-paragraph\">L&#8217;apprentissage par renforcement (RL) est performant dans un environnement changeant, mais conduit facilement \u00e0 des solutions sous-optimales avec des donn\u00e9es de grande dimension. L&#8217;apprentissage par renforcement profond (DRL), qui fusionne le RL et l&#8217;apprentissage profond (DL), excelle dans l&#8217;apprentissage de strat\u00e9gies d&#8217;irrigation adaptatives et \u00e0 long terme directement \u00e0 partir de donn\u00e9es environnementales de grande dimension. Cet article passe en revue les applications du DRL \u00e0 l&#8217;optimisation de l&#8217;irrigation, en consid\u00e9rant \u00e0 la fois les environnements pr\u00e9-entra\u00een\u00e9s bas\u00e9s sur des simulateurs de croissance des cultures et les environnements dynamiques pilot\u00e9s par des capteurs en temps r\u00e9el. Nous avons examin\u00e9 les atouts des algorithmes DRL classiques, notamment leur capacit\u00e9 \u00e0 g\u00e9rer des environnements dynamiques et non lin\u00e9aires, et analys\u00e9 leurs performances en mati\u00e8re d&#8217;optimisation multi-objectifs et de prise de d\u00e9cision pour l&#8217;irrigation. De plus, nous avons identifi\u00e9 les contraintes li\u00e9es \u00e0 l&#8217;application du DRL \u00e0 la prise de d\u00e9cision en irrigation, telles que la raret\u00e9 des donn\u00e9es, la faible interpr\u00e9tabilit\u00e9 des mod\u00e8les et les difficult\u00e9s de d\u00e9ploiement sur le terrain. Il appara\u00eet que le DRL peut constituer un cadre puissant pour l&#8217;irrigation adaptative, mais qu&#8217;il est limit\u00e9 par l&#8217;\u00e9cart entre la complexit\u00e9 de la simulation et celle du monde r\u00e9el. Pour pallier ces limitations, nous avons \u00e9voqu\u00e9 des pistes de recherche futures, comme le d\u00e9veloppement d&#8217;algorithmes d&#8217;apprentissage par renforcement profond multi-objectifs. Ces approches permettront d&#8217;am\u00e9liorer les r\u00e9sultats de la mod\u00e9lisation par renforcement profond et de fournir un socle technologique pour une agriculture intelligente et une gestion durable des ressources.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\" id=\"sect0025\">1.&nbsp;Introduction\u200b<\/h2>\n\n\n\n<p class=\"wp-block-paragraph\">L&#8217;agriculture, enjeu majeur \u00e0 l&#8217;\u00e9chelle mondiale, est confront\u00e9e au d\u00e9fi du d\u00e9veloppement durable (&nbsp;<\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0378377425007449#bib76\">Pretty, 2008<\/a>&nbsp;;&nbsp;<\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0378377425007449#bib51\">Konefal et al., 2023<\/a>&nbsp;). Pour y r\u00e9pondre, le concept d&#8217;agriculture intelligente a \u00e9t\u00e9 introduit, int\u00e9grant des technologies de l&#8217;information avanc\u00e9es telles que l&#8217;Internet des objets (IdO) (&nbsp;<\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0378377425007449#bib10\">Ayaz et al., 2019<\/a>&nbsp;;&nbsp;<\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0378377425007449#bib79\">Quy et al., 2022<\/a>&nbsp;), l&#8217;intelligence artificielle (IA) (&nbsp;<\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0378377425007449#bib78\">Qazi et al., 2022<\/a>&nbsp;;&nbsp;<\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0378377425007449#bib92\">Sharma et al., 2022<\/a>&nbsp;), l&#8217;analyse des m\u00e9gadonn\u00e9es (&nbsp;<\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0378377425007449#bib111\">Wolfert et al., 2017<\/a>&nbsp;;&nbsp;<\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0378377425007449#bib15\">Bhat et Huang, 2021<\/a>&nbsp;) et le cloud computing (&nbsp;<\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0378377425007449#bib114\">Zamora-Izquierdo et al., 2019<\/a>&nbsp;;&nbsp;<\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0378377425007449#bib48\">Kalyani et Collier, 2021<\/a>&nbsp;). Ces technologies permettent une gestion intelligente, pr\u00e9cise et automatis\u00e9e de la production agricole (&nbsp;<\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0378377425007449#bib91\">Shaikh et al., 2022<\/a>&nbsp;). L&#8217;un des principaux d\u00e9fis de l&#8217;agriculture r\u00e9side dans l&#8217;utilisation rationnelle des ressources en eau (&nbsp;<\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0378377425007449#bib75\">Pimentel et al., 2004<\/a>&nbsp;). Dans ce contexte, le concept d&#8217;irrigation intelligente (&nbsp;<\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0378377425007449#bib18\">Bwambale et al., 2022<\/a>&nbsp;) a \u00e9t\u00e9 propos\u00e9, int\u00e9grant les principes de l&#8217;agriculture intelligente \u00e0 une utilisation efficiente des ressources en eau.En g\u00e9n\u00e9ral, les m\u00e9thodes d&#8217;irrigation reposent sur l&#8217;exp\u00e9rience ou sur une simple programmation horaire&nbsp;: les m\u00e9thodes statiques assurent un apport d&#8217;eau de base aux cultures, mais sont insensibles aux variables environnementales (&nbsp;<\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0378377425007449#bib30\">Elliott et al., 2014<\/a>&nbsp;)&nbsp;; les programmes d&#8217;irrigation fixes ne peuvent \u00eatre ajust\u00e9s en fonction des besoins en eau des cultures et des conditions m\u00e9t\u00e9orologiques en temps r\u00e9el (&nbsp;<\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0378377425007449#bib31\">Favati et al., 2009<\/a>&nbsp;;&nbsp;<\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0378377425007449#bib38\">Hassanli et al., 2009<\/a>&nbsp;). L&#8217;irrigation intelligente int\u00e8gre la gestion de l&#8217;irrigation aux technologies de l&#8217;information pour surveiller et r\u00e9agir automatiquement aux variations d&#8217;humidit\u00e9 du sol (&nbsp;<\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0378377425007449#bib60\">Liao et al., 2021<\/a>&nbsp;), aux conditions climatiques (&nbsp;<\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0378377425007449#bib4\">Ahmed et al., 2023<\/a>&nbsp;;&nbsp;<\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0378377425007449#bib59\">Li et al., 2024<\/a>&nbsp;) et aux besoins des cultures (&nbsp;<\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0378377425007449#bib112\">Wu et al., 2017<\/a>&nbsp;), dans le but d&#8217;am\u00e9liorer la productivit\u00e9 et la durabilit\u00e9 agricoles. Gr\u00e2ce \u00e0 l&#8217;Internet des objets (IoT), des donn\u00e9es de terrain en temps r\u00e9el sont disponibles pour la gestion de l&#8217;irrigation. Il est ainsi possible de suivre les diff\u00e9rentes phases de croissance du cycle de vie d&#8217;une culture et de proposer des traitements d&#8217;irrigation dynamiques (&nbsp;<\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0378377425007449#bib83\">Roy et al., 2021<\/a>&nbsp;). Cependant, il est difficile de cr\u00e9er des plans d&#8217;irrigation personnalis\u00e9s, de pr\u00e9voir les \u00e9v\u00e9nements m\u00e9t\u00e9orologiques extr\u00eames et d&#8217;ajuster les strat\u00e9gies d&#8217;irrigation en utilisant uniquement l&#8217;Internet des objets (IoT) (&nbsp;<\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0378377425007449#bib70\">Nawandar et Satpute, 2019<\/a>&nbsp;;&nbsp;<\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0378377425007449#bib106\">Villa-Henriksen et al., 2020<\/a>&nbsp;). Les algorithmes d&#8217;apprentissage automatique sont couramment utilis\u00e9s pour la reconnaissance de formes et la pr\u00e9diction \u00e0 partir de donn\u00e9es historiques (&nbsp;<\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0378377425007449#bib36\">Goldstein et al., 2018<\/a>&nbsp;) et donnent de bons r\u00e9sultats pour la pr\u00e9diction du stress hydrique des cultures (&nbsp;<\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0378377425007449#bib107\">Virnodkar et al., 2020<\/a>&nbsp;), de l&#8217;humidit\u00e9 du sol (&nbsp;<\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0378377425007449#bib102\">Togneri et al., 2022<\/a>&nbsp;) et de l&#8217;\u00e9vapotranspiration (ET0) (&nbsp;<\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0378377425007449#bib116\">Zhang et al., 2020<\/a>&nbsp;;&nbsp;<\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0378377425007449#bib120\">Zhu et al., 2020<\/a>&nbsp;). Ces algorithmes sont g\u00e9n\u00e9ralement performants avec des ensembles de donn\u00e9es statiques ou peu variables et ne permettent pas une prise de d\u00e9cision en temps r\u00e9el.&nbsp;<\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0378377425007449#bib34\">Goap et al. (2018)<\/a>&nbsp;ont d\u00e9velopp\u00e9 un mod\u00e8le de r\u00e9gression \u00e0 vecteurs de support (SVR) combin\u00e9 \u00e0 un algorithme de clustering k-means bas\u00e9 sur les technologies IoT pour pr\u00e9dire les tendances de l&#8217;humidit\u00e9 du sol. La gestion de l&#8217;irrigation a \u00e9t\u00e9 mise en \u0153uvre en fonction de l&#8217;\u00e9volution des tendances, mais sa pr\u00e9cision est tr\u00e8s sensible au bruit et aux donn\u00e9es manquantes. De plus, les mod\u00e8les d&#8217;apprentissage profond ne permettent g\u00e9n\u00e9ralement pas d&#8217;ajuster dynamiquement les strat\u00e9gies d&#8217;irrigation et manquent de capacit\u00e9s d&#8217;optimisation en temps r\u00e9el (&nbsp;<\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0378377425007449#bib103\">Umutoni et Samadi, 2024<\/a>&nbsp;).Les algorithmes d&#8217;apprentissage par renforcement (AR) apprennent des strat\u00e9gies optimales en interagissant directement avec l&#8217;environnement et s&#8217;adaptent dynamiquement aux changements pour prendre des d\u00e9cisions en temps r\u00e9el (&nbsp;<\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0378377425007449#bib32\">Fran\u00e7ois-Lavet et al., 2018<\/a>&nbsp;). En gestion de l&#8217;irrigation, les algorithmes AR sont g\u00e9n\u00e9ralement utilis\u00e9s pour \u00e9laborer des strat\u00e9gies d&#8217;irrigation \u00e0 partir de donn\u00e9es en temps r\u00e9el (humidit\u00e9 du sol, conditions m\u00e9t\u00e9orologiques, stades de croissance des cultures, etc.) afin d&#8217;optimiser l&#8217;efficience de l&#8217;utilisation de l&#8217;eau et le rendement des cultures (&nbsp;<\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0378377425007449#bib20\">Chen et al., 2021<\/a>&nbsp;). Une fonction de r\u00e9compense est d\u00e9finie pour quantifier l&#8217;efficacit\u00e9 des d\u00e9cisions d&#8217;irrigation. L&#8217;objectif principal des algorithmes AR est d&#8217;obtenir la r\u00e9compense cumul\u00e9e maximale gr\u00e2ce \u00e0 un processus it\u00e9ratif qui d\u00e9termine l&#8217;action \u00e0 entreprendre dans chaque \u00e9tat. Ce processus implique g\u00e9n\u00e9ralement un \u00e9quilibre entre exploration (test de nouvelles strat\u00e9gies d&#8217;irrigation, par exemple) et exploitation (utilisation des meilleures strat\u00e9gies connues, par exemple) (&nbsp;<\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0378377425007449#bib53\">Ladosz et al., 2022<\/a>&nbsp;). L\u2019apprentissage par renforcement profond (DRL) a d\u00e9montr\u00e9 sa polyvalence et son potentiel dans des applications telles que les syst\u00e8mes de conduite autonome (&nbsp;<\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0378377425007449#bib49\">Kiran et al., 2022<\/a>&nbsp;), la robotique (&nbsp;<\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0378377425007449#bib58\">Li et al., 2020<\/a>&nbsp;), la finance (&nbsp;<\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0378377425007449#bib24\">Deng et al., 2017<\/a>&nbsp;) et la sant\u00e9 (&nbsp;<\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0378377425007449#bib119\">Zhou et al., 2021<\/a>&nbsp;), en combinant les capacit\u00e9s de traitement de donn\u00e9es multidimensionnelles de l\u2019apprentissage profond avec les strat\u00e9gies d\u2019optimisation de la prise de d\u00e9cision de l\u2019apprentissage par renforcement. En agriculture, le DRL se distingue des autres mod\u00e8les d\u2019apprentissage automatique par son approche qui met l\u2019accent \u00e0 la fois sur la pr\u00e9diction et l\u2019ajustement intelligent en temps r\u00e9el de l\u2019environnement agricole (&nbsp;<\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0378377425007449#bib17\">Bu et Wang, 2019<\/a>&nbsp;). Le DRL excelle dans la r\u00e9solution de probl\u00e8mes d\u2019optimisation multivariables gr\u00e2ce \u00e0 son apprentissage par essais et erreurs inh\u00e9rent et \u00e0 son m\u00e9canisme de r\u00e9troaction en boucle ferm\u00e9e, notamment l\u2019int\u00e9gration de donn\u00e9es provenant de diverses sources (&nbsp;<\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0378377425007449#bib121\">Zhu et al., 2023<\/a>&nbsp;) et l\u2019adaptation rapide \u00e0 de nouvelles t\u00e2ches (&nbsp;<\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0378377425007449#bib62\">Lin et al., 2021<\/a>&nbsp;).&nbsp;<\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0378377425007449#bib21\">Chen et al. (2025)<\/a>Nous avons d\u00e9velopp\u00e9 un syst\u00e8me en boucle ferm\u00e9e utilisant un algorithme d&#8217;apprentissage par renforcement acteur-critique distributionnel pour am\u00e9liorer l&#8217;irrigation du coton en combinant des donn\u00e9es environnementales en temps r\u00e9el avec une simulation de la dynamique de croissance des cultures. Cette approche s&#8217;av\u00e8re efficace m\u00eame en conditions m\u00e9t\u00e9orologiques incertaines, permettant d&#8217;accro\u00eetre le rendement du coton de 13,6 % et de r\u00e9duire la consommation d&#8217;eau de 6,7 %. Les simulations simples \u00e9chouent dans la prise de d\u00e9cision en mati\u00e8re d&#8217;irrigation en conditions r\u00e9elles. Des facteurs cl\u00e9s, comme la biologie des cultures, sont souvent n\u00e9glig\u00e9s, ce qui entra\u00eene une faible fid\u00e9lit\u00e9 environnementale et un \u00e9cart entre la simulation et la r\u00e9alit\u00e9. De plus, l&#8217;apprentissage par renforcement profond (DRL) peine \u00e0 planifier les changements lents, tels que la croissance des cultures ou l&#8217;humidit\u00e9 du sol, en raison d&#8217;une observabilit\u00e9 partielle et d&#8217;une dynamique non markovienne. Il est difficile de concevoir une r\u00e9compense unique pour optimiser simultan\u00e9ment plusieurs objectifs, comme l&#8217;augmentation du rendement et de l&#8217;efficience de l&#8217;utilisation de l&#8217;eau. Les actions am\u00e9liorant l&#8217;efficience imm\u00e9diate de l&#8217;eau peuvent impacter n\u00e9gativement une r\u00e9compense ult\u00e9rieure (par exemple, le rendement final). Il est donc n\u00e9cessaire de d\u00e9finir une fonction de r\u00e9compense \u00e9quilibr\u00e9e afin d&#8217;\u00e9viter de privil\u00e9gier les gains \u00e0 court terme au d\u00e9triment des objectifs \u00e0 long terme.Cet article se concentre principalement sur l&#8217;application de l&#8217;apprentissage par renforcement profond (DRL) \u00e0 la planification de l&#8217;irrigation et \u00e0 la prise de d\u00e9cision intelligente. Nous y abordons l&#8217;applicabilit\u00e9 de diff\u00e9rentes m\u00e9thodes DRL \u00e0 la gestion de l&#8217;irrigation, comparons leurs forces et leurs faiblesses, et pr\u00e9sentons nos perspectives de recherche. La structure de cet article est la suivante&nbsp;:&nbsp;<\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0378377425007449#sec0010\">la section&nbsp;2<\/a>&nbsp;offre une vue d&#8217;ensemble du DRL et de ses principaux algorithmes pour la planification de l&#8217;irrigation.&nbsp;<\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0378377425007449#sec0040\">La section&nbsp;3<\/a>&nbsp;pr\u00e9sente quelques applications classiques du DRL \u00e0 l&#8217;optimisation de l&#8217;irrigation.&nbsp;<\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0378377425007449#sec0060\">La section&nbsp;4<\/a>&nbsp;examine les limitations actuelles et les solutions potentielles li\u00e9es \u00e0 l&#8217;utilisation des mod\u00e8les d&#8217;apprentissage par renforcement. Enfin,&nbsp;<\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0378377425007449#sec0080\">la section&nbsp;5<\/a>&nbsp;conclut cet article et pr\u00e9sente nos travaux futurs dans ce domaine.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\" id=\"sect0030\">2.&nbsp;Contexte\u200b<\/h2>\n\n\n\n<h3 class=\"wp-block-heading\" id=\"sect0035\">2.1&nbsp;.&nbsp;Apprentissage par renforcement profond<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">L&#8217;apprentissage par renforcement (RL) repose sur l&#8217;apprentissage par essais et erreurs, les r\u00e9compenses obtenues servant de base \u00e0 l&#8217;am\u00e9lioration comportementale (&nbsp;<\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0378377425007449#bib41\">Holroyd et Coles, 2002<\/a>&nbsp;). Il diff\u00e8re du mod\u00e8le algorithmique de traitement de donn\u00e9es traditionnel, qui comprend la s\u00e9lection, l&#8217;entra\u00eenement et le test. Le RL s&#8217;appuie plut\u00f4t sur le processus de d\u00e9cision markovien (MDP) pour r\u00e9soudre les probl\u00e8mes de prise de d\u00e9cision s\u00e9quentielle (&nbsp;<\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0378377425007449#bib99\">Sutton et al., 1999<\/a>&nbsp;). En d\u00e9finissant l&#8217;espace d&#8217;\u00e9tats (S), l&#8217;espace d&#8217;actions (A), les probabilit\u00e9s de transition (P), la fonction de r\u00e9compense (R) et le facteur d&#8217;actualisation (\u03b3), les MDP permettent aux agents de prendre des d\u00e9cisions dans des environnements incertains afin de maximiser les r\u00e9compenses cumul\u00e9es (&nbsp;<\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0378377425007449#bib77\">Puterman, 1994<\/a>&nbsp;). G\u00e9n\u00e9ralement, dans les environnements stochastiques, le RL se divise en m\u00e9thodes sans mod\u00e8le et m\u00e9thodes avec mod\u00e8le. Le mod\u00e8le fait r\u00e9f\u00e9rence \u00e0 la dynamique de l&#8217;environnement interagissant avec l&#8217;agent (c&#8217;est-\u00e0-dire le MDP). Les algorithmes de RL avec mod\u00e8le sont utilis\u00e9s lorsque les \u00e9l\u00e9ments du mod\u00e8le sont connus (&nbsp;<\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0378377425007449#bib68\">Moerland et al., 2022<\/a>&nbsp;). Dans des sc\u00e9narios d&#8217;environnement complexe sans param\u00e8tres de mod\u00e8le pr\u00e9cis, des m\u00e9thodes RL sans mod\u00e8le sont n\u00e9cessaires pour apprendre directement \u00e0 partir des interactions avec l&#8217;environnement afin de trouver la strat\u00e9gie optimale (&nbsp;<\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0378377425007449#bib11\">Bellemare et al., 2017<\/a>&nbsp;).En apprentissage par renforcement (RL), la programmation dynamique (DP) (&nbsp;<\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0378377425007449#bib12\">Bellman, 1966<\/a>&nbsp;), les m\u00e9thodes de Monte Carlo (MC) (&nbsp;<\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0378377425007449#bib16\">Browne et al., 2012<\/a>&nbsp;) et l&#8217;apprentissage par diff\u00e9rence temporelle (TD) (&nbsp;<\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0378377425007449#bib97\">Sutton, 1988<\/a>&nbsp;) reposent toutes sur le cadre des processus de d\u00e9cision markoviens (MDP) pour trouver la politique optimale. Comme le montre le&nbsp;<\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0378377425007449#tbl0005\">tableau 1<\/a>&nbsp;, le RL trouve son origine dans deux champs de recherche&nbsp;: l&#8217;approche d&#8217;apprentissage bas\u00e9e sur un mod\u00e8le pour le contr\u00f4le optimal (&nbsp;<\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0378377425007449#bib14\">Bertsekas, 2019<\/a>&nbsp;) et l&#8217;approche d&#8217;apprentissage sans mod\u00e8le pour l&#8217;apprentissage par essais et erreurs (&nbsp;<\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0378377425007449#bib46\">Kaelbling et al., 1996<\/a>&nbsp;). La DP est un algorithme courant pour le contr\u00f4le optimal, qui introduit des fonctions de valeur pour optimiser la trajectoire des actions (variables de contr\u00f4le) en r\u00e9solvant l&#8217;\u00e9quation de Bellman (&nbsp;<\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0378377425007449#bib13\">Bellman et Dreyfus, 2015<\/a>&nbsp;). Les algorithmes d&#8217;apprentissage par essais et erreurs sont centr\u00e9s sur la m\u00e9thode MC pour am\u00e9liorer la politique en \u00e9valuant de mani\u00e8re it\u00e9rative ses performances dans l&#8217;environnement (&nbsp;<\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0378377425007449#bib73\">Osorio-Lird et al., 2018<\/a>&nbsp;). S&#8217;appuyant sur les concepts de programmation dynamique (DP) et de mod\u00e9lisme multicrit\u00e8re (MC), avec la th\u00e9orie des dimensions (TD) comme \u00e9l\u00e9ment central, cette approche met l&#8217;accent sur l&#8217;apprentissage \u00e0 partir de donn\u00e9es empiriques ainsi que sur le stockage des solutions aux sous-probl\u00e8mes pour le calcul r\u00e9cursif. Ceci a conduit \u00e0 la proposition d&#8217;algorithmes d&#8217;apprentissage par table Q int\u00e9grant la DP et le MC (&nbsp;<\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0378377425007449#bib109\">Watkins et Dayan, 1992<\/a>&nbsp;). Cette approche est adapt\u00e9e aux sc\u00e9narios avec un espace d&#8217;\u00e9tats fini permettant un acc\u00e8s\/une modification sous forme de table ou de vecteur \u00e0 tout moment. Les m\u00e9thodes d&#8217;apprentissage par renforcement (RL) pr\u00e9sentent des limitations pour les espaces d&#8217;\u00e9tats continus et les probl\u00e8mes de d\u00e9cision complexes en raison du fl\u00e9au de la dimensionnalit\u00e9 (&nbsp;<\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0378377425007449#bib98\">Sutton et Barto, 1998<\/a>&nbsp;;&nbsp;<\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0378377425007449#bib110\">Williams, 1992<\/a>&nbsp;). Les fondements de l&#8217;apprentissage par renforcement profond (DRL ) (&nbsp;<\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0378377425007449#fig0005\">Fig. 1<\/a>&nbsp;(c)) reposent sur l&#8217;apprentissage par renforcement (RL) (&nbsp;<\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0378377425007449#fig0005\">Fig. 1<\/a>&nbsp;(a)), un sous-domaine de l&#8217;apprentissage automatique (ML) o\u00f9 un agent apprend \u00e0 prendre des d\u00e9cisions s\u00e9quentielles en recevant des r\u00e9compenses de son environnement. L&#8217;apprentissage par renforcement (RL) est limit\u00e9 aux probl\u00e8mes simples et peut mod\u00e9liser des probl\u00e8mes complexes en le combinant avec l&#8217;apprentissage profond (DL) (&nbsp;<\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0378377425007449#fig0005\">Fig. 1<\/a>&nbsp;(b)), un autre sous-domaine de l&#8217;apprentissage automatique qui excelle dans l&#8217;extraction de caract\u00e9ristiques \u00e0 partir de donn\u00e9es de grande dimension gr\u00e2ce aux r\u00e9seaux de neurones profonds (&nbsp;<\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0378377425007449#bib40\">Henderson et al., 2018<\/a>&nbsp;). Les premi\u00e8res avanc\u00e9es en apprentissage par renforcement profond (DRL) ont eu lieu dans le domaine du jeu vid\u00e9o (&nbsp;<\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0378377425007449#bib66\">Mnih et al., 2013<\/a>&nbsp;), o\u00f9 l&#8217;\u00e9quipe Google DeepMind a combin\u00e9 des r\u00e9seaux de neurones profonds avec l&#8217;apprentissage par renforcement Q-learning pour r\u00e9soudre avec succ\u00e8s les probl\u00e8mes de prise de d\u00e9cision dans les jeux vid\u00e9o (&nbsp;<\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0378377425007449#fig0010\">Fig. 2<\/a>&nbsp;). Ceci d\u00e9montre la capacit\u00e9 du DRL \u00e0 traiter des probl\u00e8mes non lin\u00e9aires complexes et \u00e0 optimiser les d\u00e9cisions en temps r\u00e9el en fonction des retours d&#8217;information de l&#8217;environnement. Les algorithmes de DRL peuvent \u00eatre principalement class\u00e9s en trois cat\u00e9gories&nbsp;: les m\u00e9thodes bas\u00e9es sur la valeur, les m\u00e9thodes bas\u00e9es sur les politiques et les m\u00e9thodes acteur-critique.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\" id=\"sp0035\">Tableau 1.&nbsp;Le&nbsp;d\u00e9veloppement du DRL.<\/p>\n\n\n\n<figure class=\"wp-block-table\"><table class=\"has-fixed-layout\"><thead><tr><th>Nom<\/th><th>Applications<\/th><th>R\u00e9f.<\/th><\/tr><\/thead><tbody><tr><td>Apprentissage par renforcement (RL)<\/td><td>Recherche de la strat\u00e9gie d&#8217;interaction optimale entre un d\u00e9cideur (un agent) et le syst\u00e8me (l&#8217;environnement) dans lequel il \u00e9volue. Les actions sont am\u00e9lior\u00e9es en renfor\u00e7ant celles qui sont r\u00e9compens\u00e9es et en supprimant celles qui sont punies.<\/td><td><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0378377425007449#bib23\">Dayan et Balleine, 2002<\/a>&nbsp;;<a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0378377425007449#bib95\">&nbsp;Skinner, 2019<\/a>&nbsp;;<a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0378377425007449#bib101\">&nbsp;Thorndike, 2017<\/a><\/td><\/tr><tr><td>Programmation dynamique (PD)<\/td><td>R\u00e9solution du processus de d\u00e9cision markovien (MDP) par un m\u00e9canisme similaire \u00e0 la m\u00e9thode it\u00e9rative par essais et erreurs de l&#8217;apprentissage par renforcement. Une solution r\u00e9cursive est appliqu\u00e9e pour trouver la politique optimale en d\u00e9composant le probl\u00e8me en sous-probl\u00e8mes lorsque les probabilit\u00e9s de transition et les fonctions de r\u00e9compense de l&#8217;environnement sont connues.<\/td><td><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0378377425007449#bib77\">Puterman (1994)<\/a><br><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0378377425007449#bib55\">Lewis et al. (2012)<\/a><\/td><\/tr><tr><td>M\u00e9thodes de Monte Carlo (MC)<\/td><td>Il n&#8217;est pas n\u00e9cessaire de conna\u00eetre les probabilit\u00e9s de transition ni les fonctions de r\u00e9compense de l&#8217;environnement. L&#8217;estimation de la fonction de valeur se fait par le biais de chemins complets (\u00e9pisodes) allant de l&#8217;\u00e9tat initial \u00e0 l&#8217;\u00e9tat final.<\/td><td><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0378377425007449#bib52\">Kroese et coll. (2013)<\/a><br><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0378377425007449#bib84\">Rubinstein et Kroese (2016)<\/a><br><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0378377425007449#bib108\">Wang et al. (2024)<\/a><\/td><\/tr><tr><td>Apprentissage par diff\u00e9rence temporelle (TD)<\/td><td>Combinant les atouts des m\u00e9thodes DP et MC, la fonction de valeur de l&#8217;\u00e9tat actuel est mise \u00e0 jour gr\u00e2ce \u00e0 la r\u00e9compense actuelle et \u00e0 la valeur estim\u00e9e de l&#8217;\u00e9tat suivant, sans n\u00e9cessiter un \u00e9pisode complet.<\/td><td><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0378377425007449#bib97\">Sutton (1988)<\/a><br><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0378377425007449#bib100\">Tesauro et coll. (1995)&nbsp;<\/a><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0378377425007449#bib82\">Rowland (2024)<\/a><\/td><\/tr><tr><td>L&#8217;apprentissage par renforcement (Q-learning) et la table Q<\/td><td>Une approche bas\u00e9e sur la valeur avec une structure de critique unique. Elle utilise le concept de TD pour approcher la politique optimale en mettant \u00e0 jour continuellement la table Q et en r\u00e9solvant des probl\u00e8mes de processus de d\u00e9cision markoviens finis. La table Q est un tableau bidimensionnel qui enregistre les rendements attendus pour diff\u00e9rentes actions dans chaque \u00e9tat.<\/td><td><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0378377425007449#bib109\">Watkins et Dayan (1992)<\/a><br><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0378377425007449#bib85\">Rummery et Niranjan (1994)<\/a><br><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0378377425007449#bib98\">Sutton et al. (1998)<\/a><\/td><\/tr><tr><td>M\u00e9thodes de gradient de politique<\/td><td>M\u00e9thode bas\u00e9e sur une politique \u00e0 un seul acteur. Elle utilise l&#8217;apprentissage par essais et erreurs pour param\u00e9trer la politique et exploite les trajectoires d&#8217;\u00e9tat g\u00e9n\u00e9r\u00e9es par les interactions entre la politique et l&#8217;environnement. Elle estime le gradient des param\u00e8tres de la politique qui maximisent les r\u00e9compenses cumul\u00e9es afin d&#8217;am\u00e9liorer cette derni\u00e8re.<\/td><td><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0378377425007449#bib110\">Williams (1992)<\/a><br><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0378377425007449#bib99\">Sutton et coll. (1999)<\/a><br><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0378377425007449#bib47\">Kakade (2001)<\/a><\/td><\/tr><tr><td>Acteur-critique<\/td><td>Cette approche combine des \u00e9l\u00e9ments des m\u00e9thodes fond\u00e9es sur les valeurs et des m\u00e9thodes fond\u00e9es sur les politiques. L&#8217;acteur interagit avec l&#8217;environnement, et le critique \u00e9value et am\u00e9liore la performance de l&#8217;acteur.<\/td><td><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0378377425007449#bib50\">Konda et Tsitsiklis (1999)<\/a><br><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0378377425007449#bib64\">Lowe et al. (2017)&nbsp;<\/a><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0378377425007449#bib33\">Fujimoto et coll. (2018)<\/a><\/td><\/tr><tr><td>R\u00e9seau Q profond<\/td><td>Combinaison de r\u00e9seaux de neurones convolutifs (CNN) et d&#8217;apprentissage par renforcement (Q-learning) pour approximer la fonction de valeur Q. R\u00e9solution des probl\u00e8mes li\u00e9s \u00e0 deux distributions ind\u00e9pendantes bas\u00e9es sur la r\u00e9utilisation de l&#8217;exp\u00e9rience et des r\u00e9seaux cibles ind\u00e9pendants.<\/td><td><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0378377425007449#bib66\">Mnih et coll. (2013)<\/a><br><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0378377425007449#bib87\">Schaul et coll. (2016)<\/a><br><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0378377425007449#bib104\">Van Hasselt et coll., (2016)<\/a><\/td><\/tr><tr><td>Apprentissage par renforcement profond (DRL)<\/td><td>Ce mod\u00e8le s&#8217;appuie sur DQN, qui utilise des r\u00e9seaux neuronaux profonds pour approximer la fonction de politique (acteur) et la fonction de valeur d&#8217;action (critique). Il calcule les probabilit\u00e9s de toutes les actions possibles et la valeur de chaque action dans des espaces d&#8217;actions continus, et pr\u00e9sente divers algorithmes capables de r\u00e9soudre efficacement les probl\u00e8mes d&#8217;actions continues de grande dimension.<\/td><td><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0378377425007449#bib8\">Arulkumaran et coll. (2017)<\/a><br><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0378377425007449#bib32\">Fran\u00e7ois-Lavet et al. (2018)<\/a><br><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0378377425007449#bib40\">Henderson et coll. (2018)<\/a><\/td><\/tr><\/tbody><\/table><\/figure>\n\n\n<div class=\"wp-block-image\">\n<figure class=\"aligncenter size-large\"><img fetchpriority=\"high\" decoding=\"async\" width=\"1024\" height=\"630\" src=\"https:\/\/sahelib.atatec-design.com\/wp-content\/uploads\/2018\/05\/Capture-decran-2025-12-15-a-13.27.19-1024x630.png\" alt=\"\" class=\"wp-image-6605\" srcset=\"https:\/\/sahelib.atatec-design.com\/wp-content\/uploads\/2018\/05\/Capture-decran-2025-12-15-a-13.27.19-1024x630.png 1024w, https:\/\/sahelib.atatec-design.com\/wp-content\/uploads\/2018\/05\/Capture-decran-2025-12-15-a-13.27.19-300x184.png 300w, https:\/\/sahelib.atatec-design.com\/wp-content\/uploads\/2018\/05\/Capture-decran-2025-12-15-a-13.27.19-768x472.png 768w, https:\/\/sahelib.atatec-design.com\/wp-content\/uploads\/2018\/05\/Capture-decran-2025-12-15-a-13.27.19-20x12.png 20w, https:\/\/sahelib.atatec-design.com\/wp-content\/uploads\/2018\/05\/Capture-decran-2025-12-15-a-13.27.19-32x20.png 32w, https:\/\/sahelib.atatec-design.com\/wp-content\/uploads\/2018\/05\/Capture-decran-2025-12-15-a-13.27.19-600x369.png 600w, https:\/\/sahelib.atatec-design.com\/wp-content\/uploads\/2018\/05\/Capture-decran-2025-12-15-a-13.27.19.png 1392w\" sizes=\"(max-width: 1024px) 100vw, 1024px\" \/><\/figure>\n<\/div>\n\n\n<p class=\"wp-block-paragraph\">Figure 1.\u00a0Cadres\u00a0<br>de (a) l&#8217;apprentissage par renforcement, o\u00f9 les valeurs num\u00e9riques du tableau repr\u00e9sentent les rendements attendus (valeurs Q) pour diff\u00e9rentes actions dans divers \u00e9tats, et l&#8217;agent s\u00e9lectionne une action en fonction de l&#8217;\u00e9tat environnemental actuel et re\u00e7oit une r\u00e9compense pour optimiser progressivement sa politique en mettant \u00e0 jour les valeurs du tableau\u00a0; (b) l&#8217;apprentissage profond, o\u00f9 le classificateur re\u00e7oit des \u00e9chantillons de donn\u00e9es \u00e9tiquet\u00e9s, produit des \u00e9tiquettes pr\u00e9dites, les compare aux \u00e9tiquettes r\u00e9elles et optimise les param\u00e8tres du r\u00e9seau par r\u00e9tropropagation\u00a0; et (c) l&#8217;apprentissage par renforcement profond, o\u00f9 l&#8217;agent traite directement les \u00e9tats environnementaux bruts via des r\u00e9seaux neuronaux profonds pour pr\u00e9dire les fonctions\/politiques de valeur d&#8217;action et met \u00e0 jour les param\u00e8tres du r\u00e9seau en fonction du signal de r\u00e9compense.<\/p>\n\n\n<div class=\"wp-block-image\">\n<figure class=\"aligncenter size-large\"><img decoding=\"async\" width=\"1024\" height=\"409\" src=\"https:\/\/sahelib.atatec-design.com\/wp-content\/uploads\/2018\/05\/Capture-decran-2025-12-15-a-13.27.45-1024x409.png\" alt=\"\" class=\"wp-image-6606\" srcset=\"https:\/\/sahelib.atatec-design.com\/wp-content\/uploads\/2018\/05\/Capture-decran-2025-12-15-a-13.27.45-1024x409.png 1024w, https:\/\/sahelib.atatec-design.com\/wp-content\/uploads\/2018\/05\/Capture-decran-2025-12-15-a-13.27.45-300x120.png 300w, https:\/\/sahelib.atatec-design.com\/wp-content\/uploads\/2018\/05\/Capture-decran-2025-12-15-a-13.27.45-768x307.png 768w, https:\/\/sahelib.atatec-design.com\/wp-content\/uploads\/2018\/05\/Capture-decran-2025-12-15-a-13.27.45-20x8.png 20w, https:\/\/sahelib.atatec-design.com\/wp-content\/uploads\/2018\/05\/Capture-decran-2025-12-15-a-13.27.45-32x13.png 32w, https:\/\/sahelib.atatec-design.com\/wp-content\/uploads\/2018\/05\/Capture-decran-2025-12-15-a-13.27.45-600x240.png 600w, https:\/\/sahelib.atatec-design.com\/wp-content\/uploads\/2018\/05\/Capture-decran-2025-12-15-a-13.27.45.png 1246w\" sizes=\"(max-width: 1024px) 100vw, 1024px\" \/><\/figure>\n<\/div>\n\n\n<p class=\"wp-block-paragraph\">Fig. 2.\u00a0Un\u00a0diagramme du chemin de d\u00e9veloppement de l&#8217;apprentissage automatique \u00e0 l&#8217;apprentissage par renforcement profond<\/p>\n\n\n\n<h4 class=\"wp-block-heading\" id=\"sect0040\">2.1.1&nbsp;.&nbsp;M\u00e9thodes fond\u00e9es sur la valeur<\/h4>\n\n\n\n<p class=\"wp-block-paragraph\">Ces algorithmes visent \u00e0 apprendre une fonction de valeur qui \u00e9value la valeur de chaque \u00e9tat ou paire \u00e9tat-action. L&#8217;algorithme de fonction de valeur le plus classique est l&#8217;apprentissage par renforcement Q (Q-learning) (\u00a0<a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0378377425007449#bib109\">Watkins et Dayan, 1992<\/a>\u00a0). Il met \u00e0 jour it\u00e9rativement les valeurs action-\u00e9tat (valeurs Q) afin de d\u00e9terminer indirectement la politique optimale et de s\u00e9lectionner les actions qui maximisent les r\u00e9compenses cumul\u00e9es futures dans chaque \u00e9tat. Ses performances sont faibles avec des \u00e9tats de grande dimension et des espaces d&#8217;actions continus (<a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0378377425007449#bib105\">Van Hasselt et Wiering, 2007<\/a>\u00a0). L&#8217;apprentissage par renforcement Q classique est consid\u00e9r\u00e9 comme inefficace en termes d&#8217;\u00e9chantillonnage pour les grands espaces d&#8217;\u00e9tats, car il n\u00e9cessite de nombreuses interactions pour mettre \u00e0 jour toutes les paires \u00e9tat-action pertinentes. Sa convergence est th\u00e9oriquement garantie dans un cadre tabulaire, mais il peut devenir instable et diverger lorsqu&#8217;il est associ\u00e9 \u00e0 des approximants de fonctions comme les r\u00e9seaux de neurones. En irrigation, l&#8217;environnement est d\u00e9fini par des variables continues, ce qui rend impossible l&#8217;approche tabulaire requise par l&#8217;apprentissage par renforcement Q classique.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">2.1.1. M\u00e9thodes bas\u00e9es sur la valeur<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Ces algorithmes visent \u00e0 apprendre une fonction de valeur qui \u00e9value la valeur de chaque \u00e9tat ou paire \u00e9tat-action. L&#8217;algorithme de fonction de valeur le plus classique est l&#8217;apprentissage par renforcement Q (Q-learning) (Watkins et Dayan, 1992). Il met \u00e0 jour it\u00e9rativement les valeurs action-\u00e9tat (valeurs Q) afin de d\u00e9terminer indirectement la politique optimale et de s\u00e9lectionner les actions qui maximisent les r\u00e9compenses cumul\u00e9es futures dans chaque \u00e9tat. Ses performances sont faibles avec des \u00e9tats de grande dimension et des espaces d&#8217;actions continus (Van Hasselt et Wiering, 2007). L&#8217;apprentissage par renforcement Q classique est consid\u00e9r\u00e9 comme inefficace en termes d&#8217;\u00e9chantillonnage pour les grands espaces d&#8217;\u00e9tats, car il n\u00e9cessite de nombreuses interactions pour mettre \u00e0 jour toutes les paires \u00e9tat-action pertinentes. Sa convergence est th\u00e9oriquement garantie dans un contexte tabulaire, mais il peut devenir instable et diverger lorsqu&#8217;il est associ\u00e9 \u00e0 des approximants de fonctions comme les r\u00e9seaux de neurones. En irrigation, l&#8217;environnement est d\u00e9fini par des variables continues, ce qui rend impossible l&#8217;approche tabulaire requise par l&#8217;apprentissage par renforcement Q classique.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Les r\u00e9seaux de neurones profonds (DQN) constituent une extension significative de l&#8217;apprentissage par renforcement (Q-learning), utilisant des r\u00e9seaux de neurones profonds au lieu d&#8217;une table Q pour traiter des espaces d&#8217;\u00e9tats complexes et de grande dimension, tels que les images et les donn\u00e9es de capteurs (Mnih et al., 2015). Les DQN utilisent un tampon de relecture d&#8217;exp\u00e9rience pour stocker les paires \u00e9tat-action-r\u00e9compense pass\u00e9es, ce qui rompt la corr\u00e9lation temporelle des donn\u00e9es et am\u00e9liore la stabilit\u00e9 de l&#8217;apprentissage. De plus, ils emploient un r\u00e9seau cible avec une fr\u00e9quence de mise \u00e0 jour plus faible afin de r\u00e9duire l&#8217;instabilit\u00e9 de l&#8217;apprentissage par renforcement. Ce tampon de relecture permet la r\u00e9utilisation des \u00e9chantillons. Associ\u00e9 \u00e0 un r\u00e9seau cible, il am\u00e9liore la stabilit\u00e9 de la convergence et pr\u00e9vient les fortes oscillations et la divergence fr\u00e9quentes dans l&#8217;apprentissage par renforcement na\u00eff avec des r\u00e9seaux de neurones. En g\u00e9n\u00e9ral, les DQN pr\u00e9sentent un biais de surestimation dans leurs valeurs Q, ce qui peut les conduire \u00e0 converger vers une politique sous-optimale. Dans le domaine de l&#8217;irrigation, ce biais de surestimation est un probl\u00e8me critique, car il peut amener l&#8217;agent \u00e0 choisir syst\u00e9matiquement des actions inefficaces et \u00e0 pr\u00e9dire de mani\u00e8re impr\u00e9cise les r\u00e9compenses \u00e0 long terme de ces strat\u00e9gies. Des am\u00e9liorations ult\u00e9rieures comme Double Deep Q-Networks ont \u00e9t\u00e9 d\u00e9velopp\u00e9es en d\u00e9couplant la s\u00e9lection de l&#8217;action du processus d&#8217;estimation de la valeur pour r\u00e9duire ce biais optimiste (Jiang et al., 2024).<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">La fonction de valeur Q est mise \u00e0 jour par l&#8217;\u00e9quation de Bellman (\u00c9q. (1)). Dans DQN, la fonction de valeur Q est approch\u00e9e par un r\u00e9seau de neurones et mise \u00e0 jour en minimisant la fonction de perte (\u00c9q. (2)). mesure la qualit\u00e9 de la pr\u00e9diction de la cible par le r\u00e9seau de neurones (\u00c9q. (3)).<\/p>\n\n\n<div class=\"wp-block-image\">\n<figure class=\"aligncenter size-large is-resized\"><img decoding=\"async\" width=\"1024\" height=\"249\" src=\"https:\/\/sahelib.atatec-design.com\/wp-content\/uploads\/2018\/05\/Capture-decran-2025-12-15-a-13.38.46-1024x249.png\" alt=\"\" class=\"wp-image-6607\" style=\"width:633px;height:auto\" srcset=\"https:\/\/sahelib.atatec-design.com\/wp-content\/uploads\/2018\/05\/Capture-decran-2025-12-15-a-13.38.46-1024x249.png 1024w, https:\/\/sahelib.atatec-design.com\/wp-content\/uploads\/2018\/05\/Capture-decran-2025-12-15-a-13.38.46-300x73.png 300w, https:\/\/sahelib.atatec-design.com\/wp-content\/uploads\/2018\/05\/Capture-decran-2025-12-15-a-13.38.46-768x186.png 768w, https:\/\/sahelib.atatec-design.com\/wp-content\/uploads\/2018\/05\/Capture-decran-2025-12-15-a-13.38.46-20x5.png 20w, https:\/\/sahelib.atatec-design.com\/wp-content\/uploads\/2018\/05\/Capture-decran-2025-12-15-a-13.38.46-32x8.png 32w, https:\/\/sahelib.atatec-design.com\/wp-content\/uploads\/2018\/05\/Capture-decran-2025-12-15-a-13.38.46-600x146.png 600w, https:\/\/sahelib.atatec-design.com\/wp-content\/uploads\/2018\/05\/Capture-decran-2025-12-15-a-13.38.46.png 1392w\" sizes=\"(max-width: 1024px) 100vw, 1024px\" \/><\/figure>\n<\/div>\n\n\n<p class=\"wp-block-paragraph\">2.1.2. M\u00e9thodes bas\u00e9es sur les politiques<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Les m\u00e9thodes de gradient de politique maximisent les r\u00e9compenses cumul\u00e9es en optimisant directement les param\u00e8tres de la politique et en \u00e9vitant l&#8217;apprentissage bas\u00e9 sur une fonction de valeur. Elles sont performantes dans les espaces d&#8217;actions continus et les environnements n\u00e9cessitant des politiques stochastiques. Une m\u00e9thode classique, l&#8217;algorithme REINFORCE, calcule les mises \u00e0 jour du gradient des param\u00e8tres de la politique \u00e0 partir des r\u00e9compenses cumul\u00e9es, mais souffre d&#8217;une forte variance dans l&#8217;estimation du gradient et d&#8217;une faible efficacit\u00e9 d&#8217;apprentissage (Kakade, 2001). Il s&#8217;agit d&#8217;une m\u00e9thode de Monte Carlo en politique, qui utilise les donn\u00e9es d&#8217;un \u00e9pisode entier pour chaque mise \u00e0 jour. Sa convergence est souvent lente et instable en raison de la forte variance des estimations du gradient, ce qui peut entra\u00eener des mises \u00e0 jour de politique erratiques et emp\u00eacher la recherche d&#8217;un optimum stable.<\/p>\n\n\n\n<h4 class=\"wp-block-heading\" id=\"sect0050\">2.1.3&nbsp;.&nbsp;M\u00e9thodes acteur-critique<\/h4>\n\n\n\n<p class=\"wp-block-paragraph\">Les m\u00e9thodes acteur-critique combinent le gradient de politique (acteur) et l&#8217;estimation de la fonction de valeur (critique). L&#8217;acteur met \u00e0 jour la politique, tandis que le critique estime la fonction de valeur de la politique actuelle afin de r\u00e9duire la variance des gradients de politique.L&#8217; algorithme Deep Deterministic Policy Gradient (DDPG) (\u00a0<a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0378377425007449#bib61\">Lillicrap et al., 2019<\/a>\u00a0) combine les avantages des gradients de politique d\u00e9terministes et de l&#8217;apprentissage par renforcement (Q-learning), et permet de traiter des espaces d&#8217;actions continus. L&#8217;acteur suit une politique d\u00e9terministe, et le critique estime la fonction de valeur par Q-learning. Le critique est mis \u00e0 jour par la diff\u00e9rence temporelle des erreurs en minimisant la fonction de perte (\u00a0<a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0378377425007449#eqn0025\">\u00e9quation (5)<\/a>\u00a0). L&#8217;acteur est mis \u00e0 jour par des gradients de politique d\u00e9terministes (\u00a0<a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0378377425007449#eqn0035\">\u00e9quation (7)<\/a>\u00a0).<\/p>\n\n\n\n<h3 class=\"wp-block-heading\" id=\"sect0055\">2.2&nbsp;.&nbsp;Application de l&#8217;apprentissage par renforcement profond \u00e0 l&#8217;optimisation de l&#8217;irrigation<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">En irrigation, les algorithmes d&#8217;apprentissage par renforcement profond (DRL) exploitent des donn\u00e9es multidimensionnelles pour entra\u00eener un mod\u00e8le de r\u00e9seau neuronal profond. Ce mod\u00e8le apprend les sch\u00e9mas environnementaux complexes et interagit avec l&#8217;environnement pour prendre des d\u00e9cisions d&#8217;irrigation. Par un processus continu d&#8217;essais et d&#8217;erreurs, l&#8217;algorithme optimise une strat\u00e9gie. Il pr\u00e9dit l&#8217;impact de diff\u00e9rentes quantit\u00e9s d&#8217;irrigation sur la croissance des cultures et s\u00e9lectionne un plan d&#8217;irrigation qui maximise \u00e0 la fois le rendement et l&#8217;efficience de l&#8217;utilisation de l&#8217;eau.L&#8217;environnement d&#8217;irrigation DRL se compose de l&#8217;espace d&#8217;\u00e9tats S, de l&#8217;espace d&#8217;actions A, de la fonction de transition P et de la fonction de r\u00e9compense R. Lors de la prise de d\u00e9cision en mati\u00e8re d&#8217;irrigation, S comprend les param\u00e8tres environnementaux, tels que les informations m\u00e9t\u00e9orologiques (temp\u00e9rature, pr\u00e9cipitations, humidit\u00e9, pr\u00e9visions) et les informations sur le sol (humidit\u00e9, teneur en \u00e9l\u00e9ments nutritifs, perm\u00e9abilit\u00e9). A repr\u00e9sente les options d&#8217;irrigation&nbsp;: quantit\u00e9s d&#8217;eau (actions ponctuelles ou continues), moment de l&#8217;irrigation (imm\u00e9diate ou diff\u00e9r\u00e9e) et m\u00e9thodes (irrigation uniforme \u00e0 grande \u00e9chelle ou irrigation de pr\u00e9cision pour des zones sp\u00e9cifiques). P d\u00e9crit la transition de l&#8217;environnement de l&#8217;\u00e9tat actuel \u00e0 l&#8217;\u00e9tat suivant, incluant les mises \u00e0 jour de l&#8217;\u00e9vapotranspiration des cultures, les variations de l&#8217;humidit\u00e9 du sol et les mises \u00e0 jour des pr\u00e9visions m\u00e9t\u00e9orologiques. R correspond \u00e0 la r\u00e9compense fournie par l&#8217;environnement lors de l&#8217;ex\u00e9cution de P.L&#8217;agent est l&#8217;algorithme d&#8217;apprentissage par renforcement profond (DRL) qui met \u00e0 jour la politique. Diff\u00e9rents algorithmes DRL pr\u00e9sentent des processus globaux similaires en irrigation intelligente, incluant la perception de l&#8217;\u00e9tat, la prise de d\u00e9cision, le retour d&#8217;information et la mise \u00e0 jour de la politique. Les diff\u00e9rences r\u00e9sident dans les espaces d&#8217;action (discrets ou continus) et les m\u00e9thodes d&#8217;optimisation de la politique.&nbsp;<\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0378377425007449#tbl0010\">Le tableau 2<\/a>&nbsp;r\u00e9capitule les algorithmes utilis\u00e9s, ainsi que leurs avantages, leurs inconv\u00e9nients et leurs sc\u00e9narios d&#8217;application en irrigation. Les algorithmes \u00ab&nbsp;on-policy&nbsp;\u00bb et \u00ab&nbsp;off-policy&nbsp;\u00bb permettent tous deux aux agents d&#8217;interagir avec l&#8217;environnement pour obtenir de nouveaux retours d&#8217;information pendant l&#8217;entra\u00eenement. Les algorithmes \u00ab&nbsp;on-policy&nbsp;\u00bb utilisent directement ces retours, tandis que les algorithmes \u00ab&nbsp;off-policy&nbsp;\u00bb les stockent dans une m\u00e9moire tampon de relecture pour un \u00e9chantillonnage ult\u00e9rieur.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\" id=\"sp0040\">Tableau 2.&nbsp;Algorithmes&nbsp;DRL dans la planification de l&#8217;irrigation.<\/p>\n\n\n\n<figure class=\"wp-block-table\"><table class=\"has-fixed-layout\"><thead><tr><th>Algorithme<\/th><th>Avantages<\/th><th>Inconv\u00e9nients<\/th><th>Sc\u00e9narios appropri\u00e9s en mati\u00e8re d&#8217;irrigation<\/th><th>R\u00e9f.<\/th><\/tr><\/thead><tbody><tr><td>DQN&nbsp;<sup>*, \u2e38<\/sup><\/td><td>\u27a2Efficace pour les actions discr\u00e8tes\u27a2La relecture de l&#8217;exp\u00e9rience am\u00e9liore l&#8217;efficacit\u00e9 de l&#8217;apprentissage<\/td><td>\u27a2Espaces d&#8217;action continus difficiles \u00e0 g\u00e9rer\u27a2biais de surestimation<\/td><td>\u25ab Programmation discr\u00e8te<br>\u25ab Choix parmi un ensemble pr\u00e9d\u00e9fini de quantit\u00e9s d&#8217;irrigation ou de dur\u00e9es fixes<br>\u25ab Id\u00e9al pour les syst\u00e8mes simples, bas\u00e9s sur des r\u00e8gles<\/td><td><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0378377425007449#bib29\">Elavarasan et Vincent, (2020)&nbsp;<\/a><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0378377425007449#bib26\">Din et al. (2022)<\/a><br><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0378377425007449#bib25\">Devarajan et coll. (2023)<\/a><\/td><\/tr><tr><td>PPO&nbsp;<sup>\u2051, \u2020<\/sup><\/td><td>\u27a2Flexible pour les actions continues<\/td><td>\u27a2Co\u00fbt de calcul \u00e9lev\u00e9, notamment dans les sc\u00e9narios multi-capteurs<\/td><td>\u25ab Fonctionnement continu et discret<br>\u25ab Grande flexibilit\u00e9<br>\u25ab Convient pour un r\u00e9glage pr\u00e9cis du volume d&#8217;eau (continu) ou pour une s\u00e9lection parmi des niveaux pr\u00e9d\u00e9finis (discret)<\/td><td><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0378377425007449#bib90\">Schulman et coll. (2017)<\/a><br><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0378377425007449#bib3\">Agyeman et coll. (2024)<\/a><br><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0378377425007449#bib28\">Ding et Du (2024)<\/a><\/td><\/tr><tr><td>DDPG&nbsp;<sup>\u2042, \u2e38<\/sup><\/td><td>\u27a2G\u00e8re les t\u00e2ches de contr\u00f4le continu\u27a2Ajuste avec pr\u00e9cision le volume d&#8217;eau\u27a2Faible demande de calcul\u27a2Adapt\u00e9 aux appareils aux ressources limit\u00e9es<\/td><td>\u27a2Sensible aux hyperparam\u00e8tres\u27a2Sujet aux optima locaux\u27a2Difficult\u00e9s li\u00e9es \u00e0 une forte incertitude<\/td><td>\u25ab Contr\u00f4le continu<br>\u25ab Adapt\u00e9 aux t\u00e2ches n\u00e9cessitant un r\u00e9glage fin et pr\u00e9cis d&#8217;une variable continue<\/td><td><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0378377425007449#bib61\">Lillicrap et coll. (2019)<\/a><br><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0378377425007449#bib72\">Ochoa Tamayo (2019)<\/a><br><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0378377425007449#bib6\">Alibabaei et al. (2022a)<\/a><\/td><\/tr><tr><td>SAC&nbsp;<sup>\u2042, \u2e38<\/sup><\/td><td>\u27a2G\u00e8re des environnements dynamiques complexes et des actions continues<\/td><td>\u27a2Augmentation de la charge de calcul, notamment la charge suppl\u00e9mentaire li\u00e9e \u00e0 la r\u00e9gularisation de l&#8217;entropie<\/td><td>\u25ab Contr\u00f4le principalement continu, avec possibilit\u00e9 de contr\u00f4le discret<br>\u25ab Excellente capacit\u00e9 d&#8217;exploration et d&#8217;optimisation des volumes d&#8217;irrigation continus complexes<br>\u25ab Son cadre stochastique est plus adaptable aux sc\u00e9narios discrets ou hybrides que DDPG<\/td><td><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0378377425007449#bib37\">Haarnoja et coll. (2018)<\/a><br><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0378377425007449#bib94\">Sidiropoulos et Kiourt (2023)<\/a><br><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0378377425007449#bib35\">Goldenits et al. (2024)<\/a><\/td><\/tr><tr><td>A3C&nbsp;<sup>\u2042, \u2020<\/sup><\/td><td>\u27a2Mises \u00e0 jour asynchrones\u27a2vitesse d&#8217;apprentissage rapide\u27a2Faible demande en m\u00e9moire\u27a2Adapt\u00e9 aux appareils aux ressources limit\u00e9es<\/td><td>\u27a2Convergence instable dans des environnements \u00e0 r\u00e9compenses \u00e9parses<\/td><td>\u25ab Exploitations agricoles distribu\u00e9es \u00e0 grande \u00e9chelle<br>\u25ab Id\u00e9al pour la planification parall\u00e8le de plusieurs zones ou parcelles d&#8217;irrigation ind\u00e9pendantes<br>\u25ab G\u00e8re les actions continues et discr\u00e8tes<\/td><td><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0378377425007449#bib93\">Shen et al., (2023)<\/a><\/td><\/tr><\/tbody><\/table><\/figure>\n\n\n\n<p class=\"wp-block-paragraph\">*M\u00e9thode bas\u00e9e sur les valeurs.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><sup>\u2051<\/sup>&nbsp;M\u00e9thode fond\u00e9e sur les politiques.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><sup>\u2042<\/sup>&nbsp;M\u00e9thode acteur-critique.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><sup>\u2020<\/sup>&nbsp;Utilisation de l&#8217;algorithme en politique.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><sup>\u2e38<\/sup>&nbsp;Utilisation d&#8217;un algorithme hors strat\u00e9gie.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\" id=\"sect0060\">3.&nbsp;\u00c9valuation de cas d&#8217;utilisation exemplaires de l&#8217;apprentissage par renforcement profond dans l&#8217;optimisation de l&#8217;&nbsp;irrigation<\/h2>\n\n\n\n<p class=\"wp-block-paragraph\">L&#8217;apprentissage par renforcement profond (DRL) a connu des progr\u00e8s consid\u00e9rables dans de nombreux domaines, mais reste relativement peu \u00e9tudi\u00e9 dans le domaine de l&#8217;irrigation. La pr\u00e9cision du DRL d\u00e9pend fortement de la conception de l&#8217;environnement, qui d\u00e9termine directement la capacit\u00e9 de l&#8217;agent \u00e0 comprendre correctement le probl\u00e8me et \u00e0 apprendre la strat\u00e9gie optimale. En irrigation agricole, la mod\u00e9lisation environnementale est complexe en raison de la dynamique de l&#8217;humidit\u00e9 du sol, des variations m\u00e9t\u00e9orologiques et de la croissance des cultures, ainsi que de la dimensionnalit\u00e9, de la diversit\u00e9 et de la latence \u00e9lev\u00e9es de ces facteurs. On consid\u00e8re que la poursuite des recherches et la promotion du DRL en irrigation peuvent apporter des solutions innovantes pour un d\u00e9veloppement agricole durable. Ce travail examine plusieurs applications du DRL en irrigation, notamment deux cat\u00e9gories classiques&nbsp;: l&#8217;environnement bas\u00e9 sur des simulateurs de croissance des cultures, qui utilise un environnement virtuel pour le pr\u00e9-entra\u00eenement des mod\u00e8les et explore la strat\u00e9gie d&#8217;irrigation optimale au cours du cycle de croissance simul\u00e9&nbsp;; et l&#8217;environnement bas\u00e9 sur des donn\u00e9es de capteurs en temps r\u00e9el, qui utilise directement les informations collect\u00e9es par les capteurs (temp\u00e9rature, humidit\u00e9, humidit\u00e9 du sol, luminosit\u00e9, etc.) pour construire un environnement dynamique et ajuster la strat\u00e9gie d&#8217;irrigation.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\" id=\"sect0065\">3.1&nbsp;.&nbsp;M\u00e9thodes bas\u00e9es sur des mod\u00e8les de croissance des cultures<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">Le besoin de d\u00e9cisions d&#8217;irrigation pr\u00e9cises pour la croissance des cultures a conduit de nombreux chercheurs \u00e0 valider l&#8217;efficacit\u00e9 de l&#8217;apprentissage par renforcement profond (DRL) dans ce domaine \u00e0 l&#8217;aide de simulateurs.&nbsp;<\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0378377425007449#bib74\">Overweg et al. (2021)<\/a>&nbsp;ont introduit CropGym, un environnement DRL d\u00e9di\u00e9 \u00e0 la gestion des cultures.&nbsp;<\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0378377425007449#bib9\">Ashcraft et Karra (2021)<\/a>&nbsp;ont men\u00e9 des travaux similaires, utilisant un simulateur de croissance des cultures (le mod\u00e8le SIMPLE) combin\u00e9 \u00e0 l&#8217;interface OpenAI Gym pour construire un environnement virtuel. Ce simulateur fournit des transitions d&#8217;\u00e9tat et un syst\u00e8me de r\u00e9compenses. Il interagit avec un agent DRL (PPO) afin d&#8217;optimiser le rendement des cultures tout en minimisant l&#8217;utilisation des ressources (&nbsp;<\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0378377425007449#fig0015\">Fig. 3<\/a>&nbsp;). Le simulateur permet de cr\u00e9er un environnement virtuel de haute fid\u00e9lit\u00e9 et de r\u00e9duire consid\u00e9rablement les co\u00fbts d&#8217;entra\u00eenement. La litt\u00e9rature souligne \u00e9galement les limites de cette m\u00e9thode. Lors de la capture des dynamiques r\u00e9elles, les simulateurs supposent souvent un seul type de sol. Prenons l&#8217;exemple d&#8217;un champ r\u00e9el compos\u00e9 \u00e0 40 % de limon sableux et \u00e0 60 % de limon argileux&nbsp;: un agent DRL entra\u00een\u00e9 sur un mod\u00e8le de sol moyen apprendra une seule strat\u00e9gie, entra\u00eenant un sous-arrosage des zones sableuses et un sur-arrosage des zones argileuses. Il ne s&#8217;agit pas d&#8217;une simple inefficacit\u00e9, mais d&#8217;une erreur d&#8217;appr\u00e9ciation des besoins r\u00e9els de la culture.<\/p>\n\n\n<div class=\"wp-block-image\">\n<figure class=\"aligncenter size-large\"><img loading=\"lazy\" decoding=\"async\" width=\"1024\" height=\"338\" src=\"https:\/\/sahelib.atatec-design.com\/wp-content\/uploads\/2018\/05\/Capture-decran-2025-12-15-a-14.18.41-1024x338.png\" alt=\"\" class=\"wp-image-6609\" srcset=\"https:\/\/sahelib.atatec-design.com\/wp-content\/uploads\/2018\/05\/Capture-decran-2025-12-15-a-14.18.41-1024x338.png 1024w, https:\/\/sahelib.atatec-design.com\/wp-content\/uploads\/2018\/05\/Capture-decran-2025-12-15-a-14.18.41-300x99.png 300w, https:\/\/sahelib.atatec-design.com\/wp-content\/uploads\/2018\/05\/Capture-decran-2025-12-15-a-14.18.41-768x253.png 768w, https:\/\/sahelib.atatec-design.com\/wp-content\/uploads\/2018\/05\/Capture-decran-2025-12-15-a-14.18.41-20x7.png 20w, https:\/\/sahelib.atatec-design.com\/wp-content\/uploads\/2018\/05\/Capture-decran-2025-12-15-a-14.18.41-32x11.png 32w, https:\/\/sahelib.atatec-design.com\/wp-content\/uploads\/2018\/05\/Capture-decran-2025-12-15-a-14.18.41-600x198.png 600w, https:\/\/sahelib.atatec-design.com\/wp-content\/uploads\/2018\/05\/Capture-decran-2025-12-15-a-14.18.41.png 1358w\" sizes=\"(max-width: 1024px) 100vw, 1024px\" \/><\/figure>\n<\/div>\n\n\n<p class=\"wp-block-paragraph\" id=\"sp0015\">Fig. 3.&nbsp;Processus&nbsp;d&#8217;interaction entre l&#8217;apprentissage par renforcement profond (DRL) et un simulateur de croissance des cultures. Le simulateur de croissance des cultures (a) est int\u00e9gr\u00e9 dans un environnement de simulation DRL (b) via une interface de donn\u00e9es. L&#8217;agent DRL (c) obtient l&#8217;\u00e9tat actuel.s\u00e9lectionne une action dans l&#8217;environnement.utilisant son r\u00e9seau de politiqueset re\u00e7oit une r\u00e9compense imm\u00e9diateLe tuple d&#8217;exp\u00e9rience est ensuite utilis\u00e9 pour l&#8217;entra\u00eenement afin d&#8217;optimiser la politique de l&#8217;agent.Il est important de prendre en compte les facteurs m\u00e9t\u00e9orologiques, car une augmentation des pr\u00e9cipitations peut entra\u00eener un mauvais drainage des sols et un ruissellement excessif.&nbsp;<\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0378377425007449#bib20\">Chen et al. (2021)<\/a>&nbsp;ont utilis\u00e9 des pr\u00e9visions m\u00e9t\u00e9orologiques pour d\u00e9terminer dynamiquement les besoins en irrigation, en d\u00e9veloppant un syst\u00e8me de d\u00e9cision d&#8217;optimisation de l&#8217;irrigation du riz bas\u00e9 sur l&#8217;apprentissage par renforcement profond (DRL). Ils ont combin\u00e9 des donn\u00e9es de pr\u00e9visions m\u00e9t\u00e9orologiques (pr\u00e9cipitations, temp\u00e9rature et rayonnement solaire) avec des informations sur la profondeur de l&#8217;eau du sol pour construire un mod\u00e8le de processus de d\u00e9cision markovien (MDP). Les \u00e9tats du mod\u00e8le comprennent la profondeur de l&#8217;eau du sol, les pr\u00e9visions de pr\u00e9cipitations futures et les seuils d&#8217;irrigation. Les actions du mod\u00e8le consistent en trois niveaux d&#8217;irrigation discrets (0 %, 50 % et 100 % de la demande en irrigation). L&#8217;\u00e9tude a d\u00e9velopp\u00e9 un environnement de simulation virtuelle bas\u00e9 sur un mod\u00e8le de bilan hydrique (&nbsp;<\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0378377425007449#eqn0055\">\u00c9q. (11)<\/a>&nbsp;), int\u00e9grant les processus de pr\u00e9cipitation (P), d&#8217;irrigation (I), de drainage vertical (D), d&#8217;\u00e9vapotranspiration (ET) et de ruissellement de surface (R) pour simuler les variations dynamiques de l&#8217;humidit\u00e9 du sol.Le syst\u00e8me apprend les strat\u00e9gies optimales gr\u00e2ce \u00e0 son interaction avec l&#8217;environnement de simulation via l&#8217;algorithme DQN et exploite les pr\u00e9visions m\u00e9t\u00e9orologiques pour anticiper les pr\u00e9cipitations et adapter l&#8217;irrigation en cons\u00e9quence. L&#8217;irrigation ainsi optimis\u00e9e permet d&#8217;\u00e9conomiser 23 mm d&#8217;eau, de r\u00e9duire le drainage de 21 mm et de diminuer la dur\u00e9e d&#8217;irrigation d&#8217;un facteur 1,0 en moyenne, sans impact significatif sur le rendement.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0378377425007449#bib6\">Alibabaei et al. (2022a)<\/a>\u00a0ont combin\u00e9 des donn\u00e9es climatiques de la r\u00e9gion de Fadagosa au Portugal avec un simulateur de cultures DSSAT (<a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0378377425007449#fig0020\">Fig. 4a<\/a>\u00a0) dot\u00e9 d&#8217;une architecture LSTM bidirectionnelle (BLSTM) (<a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0378377425007449#fig0020\">\u00a0Fig. 4b<\/a>\u00a0) comme environnement d&#8217;apprentissage par renforcement profond (DRL) (<a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0378377425007449#fig0020\">\u00a0Fig. 4c<\/a>\u00a0). Le BLSTM a \u00e9t\u00e9 utilis\u00e9 pour pr\u00e9dire des variables \u00e0 court terme (par exemple, l&#8217;humidit\u00e9 du sol) et \u00e0 long terme (par exemple, le rendement). L&#8217;agent DQN entra\u00een\u00e9 (<a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0378377425007449#fig0020\">\u00a0Fig. 4d<\/a>\u00a0) a automatiquement pr\u00e9venu le gaspillage d&#8217;eau en d\u00e9but de saison et le stress hydrique des plantes en fin de saison. De plus, le mod\u00e8le entra\u00een\u00e9 peut ajuster les quantit\u00e9s d&#8217;irrigation en fonction des variations climatiques et des pr\u00e9cipitations saisonni\u00e8res.<a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0378377425007449#bib7\">\u00a0Alibabaei et al. (2022b)<\/a>\u00a0ont introduit un mod\u00e8le DRL bas\u00e9 sur des politiques, Advantage Actor-Critic (A2C), issu de recherches sur l&#8217;irrigation agricole optimis\u00e9es par DQN (<a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0378377425007449#fig0020\">\u00a0Fig. 4e<\/a>\u00a0). Le mod\u00e8le utilise l&#8217;humidit\u00e9 du sol (SWTD), les variables climatiques et le volume de la derni\u00e8re irrigation comme \u00e9tats, et ajuste dynamiquement 12 actions d&#8217;irrigation discr\u00e8tes via un r\u00e9seau de politiques afin d&#8217;optimiser simultan\u00e9ment la consommation d&#8217;eau, le rendement et le revenu net. A2C surpasse DQN en termes de consommation d&#8217;eau (20 \u00e0 23 % de moins), d&#8217;adaptabilit\u00e9 au changement climatique et de stabilit\u00e9 d&#8217;apprentissage. DQN surpasse A2C en termes de rendement et de revenu net (3 \u00e0 7 % de plus). Compar\u00e9 aux m\u00e9thodes d&#8217;irrigation par seuil traditionnelles, A2C r\u00e9duit significativement la consommation d&#8217;eau (45 \u00e0 50 % de moins) et augmente sensiblement le revenu net. L&#8217;\u00e9tude a uniquement pris en compte les donn\u00e9es climatiques.<\/p>\n\n\n<div class=\"wp-block-image\">\n<figure class=\"aligncenter size-large is-resized\"><img loading=\"lazy\" decoding=\"async\" width=\"1024\" height=\"662\" src=\"https:\/\/sahelib.atatec-design.com\/wp-content\/uploads\/2018\/05\/Capture-decran-2025-12-15-a-14.19.41-1-1024x662.png\" alt=\"\" class=\"wp-image-6611\" style=\"aspect-ratio:1.5473342231848288;width:694px;height:auto\" srcset=\"https:\/\/sahelib.atatec-design.com\/wp-content\/uploads\/2018\/05\/Capture-decran-2025-12-15-a-14.19.41-1-1024x662.png 1024w, https:\/\/sahelib.atatec-design.com\/wp-content\/uploads\/2018\/05\/Capture-decran-2025-12-15-a-14.19.41-1-300x194.png 300w, https:\/\/sahelib.atatec-design.com\/wp-content\/uploads\/2018\/05\/Capture-decran-2025-12-15-a-14.19.41-1-768x496.png 768w, https:\/\/sahelib.atatec-design.com\/wp-content\/uploads\/2018\/05\/Capture-decran-2025-12-15-a-14.19.41-1-20x13.png 20w, https:\/\/sahelib.atatec-design.com\/wp-content\/uploads\/2018\/05\/Capture-decran-2025-12-15-a-14.19.41-1-32x21.png 32w, https:\/\/sahelib.atatec-design.com\/wp-content\/uploads\/2018\/05\/Capture-decran-2025-12-15-a-14.19.41-1-600x388.png 600w, https:\/\/sahelib.atatec-design.com\/wp-content\/uploads\/2018\/05\/Capture-decran-2025-12-15-a-14.19.41-1.png 1374w\" sizes=\"(max-width: 1024px) 100vw, 1024px\" \/><\/figure>\n<\/div>\n\n<div class=\"wp-block-image\">\n<figure class=\"aligncenter size-large is-resized\"><img loading=\"lazy\" decoding=\"async\" width=\"1024\" height=\"675\" src=\"https:\/\/sahelib.atatec-design.com\/wp-content\/uploads\/2018\/05\/Capture-decran-2025-12-15-a-14.20.09-1-1024x675.png\" alt=\"\" class=\"wp-image-6613\" style=\"aspect-ratio:1.5160637615358041;width:711px;height:auto\" srcset=\"https:\/\/sahelib.atatec-design.com\/wp-content\/uploads\/2018\/05\/Capture-decran-2025-12-15-a-14.20.09-1-1024x675.png 1024w, https:\/\/sahelib.atatec-design.com\/wp-content\/uploads\/2018\/05\/Capture-decran-2025-12-15-a-14.20.09-1-300x198.png 300w, https:\/\/sahelib.atatec-design.com\/wp-content\/uploads\/2018\/05\/Capture-decran-2025-12-15-a-14.20.09-1-768x507.png 768w, https:\/\/sahelib.atatec-design.com\/wp-content\/uploads\/2018\/05\/Capture-decran-2025-12-15-a-14.20.09-1-20x13.png 20w, https:\/\/sahelib.atatec-design.com\/wp-content\/uploads\/2018\/05\/Capture-decran-2025-12-15-a-14.20.09-1-32x21.png 32w, https:\/\/sahelib.atatec-design.com\/wp-content\/uploads\/2018\/05\/Capture-decran-2025-12-15-a-14.20.09-1-600x396.png 600w, https:\/\/sahelib.atatec-design.com\/wp-content\/uploads\/2018\/05\/Capture-decran-2025-12-15-a-14.20.09-1.png 1416w\" sizes=\"(max-width: 1024px) 100vw, 1024px\" \/><\/figure>\n<\/div>\n\n\n<p class=\"wp-block-paragraph\">Figure 4.\u00a0Comparaison\u00a0des m\u00e9thodes (A) DSSAT + BLSTM + agent DQN et (B) DSSAT + BLSTM + agent A2C pour l&#8217;optimisation de l&#8217;irrigation. Ces deux m\u00e9thodes comprennent (a) le pr\u00e9traitement des donn\u00e9es, (b) l&#8217;entra\u00eenement de deux mod\u00e8les de pr\u00e9diction LSTM et (c) l&#8217;interaction avec l&#8217;environnement DRL. La principale diff\u00e9rence r\u00e9side dans l&#8217;utilisation (d) d&#8217;un agent DQN contre (e) d&#8217;un agent A2C.<\/p>\n\n\n\n<figure class=\"wp-block-table\"><table class=\"has-fixed-layout\"><thead><tr><th>\u00c9tude<\/th><th>Recadrer<\/th><th>Algorithme DRL<\/th><th>Type d&#8217;environnement<\/th><th>Principaux r\u00e9sultats rapport\u00e9s (par rapport \u00e0 la valeur de r\u00e9f\u00e9rence)<\/th><th>Sc\u00e9narios appropri\u00e9s<\/th><\/tr><\/thead><tbody><tr><td><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0378377425007449#bib117\">Zhong (2025)<\/a><\/td><td>Bl\u00e9<br>Ma\u00efs<br>Tomates<\/td><td>CNN-LSTM+DRL<\/td><td>Fond\u00e9 sur les donn\u00e9es<\/td><td>Bl\u00e9 : + 22,5 % de rendement et \u2212 18,9 % d&#8217;eau ;<br>Ma\u00efs : + 28,1 % de rendement et \u2212 24,5 % d&#8217;eau ;<br>Tomates : + 31,4 % de rendement et \u2212 29,8 % d&#8217;eau<\/td><td>Mettre l&#8217;accent sur la composante pr\u00e9dictive dans un cadre d&#8217;irrigation DRL<\/td><\/tr><tr><td><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0378377425007449#bib28\">Ding et Du (2024)<\/a><\/td><td>Amande<\/td><td>Politiques fond\u00e9es sur (DRLIC)<\/td><td>Fond\u00e9 sur les donn\u00e9es<\/td><td>Jusqu&#8217;\u00e0 9,52 % d&#8217;\u00e9conomies d&#8217;eau par rapport \u00e0 un syst\u00e8me bas\u00e9 sur l&#8217;\u00e9vapotranspiration.<\/td><td>Utilisation novatrice d&#8217;un simulateur rapide et de m\u00e9canismes de s\u00e9curit\u00e9, mais le simulateur lui-m\u00eame est tr\u00e8s gourmand en donn\u00e9es.<\/td><\/tr><tr><td><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0378377425007449#bib22\">Chen et al. (2023)<\/a><\/td><td>Coton<\/td><td>RL (non sp\u00e9cifi\u00e9)<\/td><td>Simulation<\/td><td>+ 28,6 % de rendement et \u2212 16,2 % d&#8217;eau<\/td><td>Application et validation directes sur coton, fournissant un point de r\u00e9f\u00e9rence cl\u00e9 sp\u00e9cifique au domaine<\/td><\/tr><tr><td><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0378377425007449#bib86\">Saikai et al. (2023)<\/a><\/td><td>Bl\u00e9<\/td><td>RENFORCER<\/td><td>APSIM<\/td><td>Ont syst\u00e9matiquement surpass\u00e9 les r\u00e8gles conventionnelles, avec une am\u00e9lioration des indicateurs de performance pouvant atteindre 17 %.<\/td><td>G\u00e9rer efficacement les donn\u00e9es de capteurs multidimensionnelles, en supposant une alimentation en eau illimit\u00e9e<\/td><\/tr><tr><td><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0378377425007449#bib6\">Alibabaei et al. (2022a)<\/a><\/td><td>Tomate<\/td><td>DQN<\/td><td>DSSAT + BLSTM<\/td><td>+ 11 % de rendement et \u2212 20 % \u00e0 \u221230 % d&#8217;eau<\/td><td>Validation solide avec DSSAT haute fid\u00e9lit\u00e9, mais l&#8217;environnement repose sur une couche BLSTM pr\u00e9dictive<\/td><\/tr><tr><td><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0378377425007449#bib7\">Alibabaei et al. (2022b)<\/a><\/td><td>Tomate<\/td><td>DQN<\/td><td>DSSAT + BLSTM<\/td><td>A2C : \u2212 21,5 % d&#8217;eau par rapport \u00e0 DQN et<br>DQN : + 3,5 % de rendement par rapport \u00e0 A2C<\/td><td>Comparaison directe des politiques en vigueur (A2C) et hors politique (DQN)<\/td><\/tr><tr><td><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0378377425007449#bib20\">Chen et al. (2021)<\/a><\/td><td>Riz<\/td><td>DQN<\/td><td>Mod\u00e8le d&#8217;\u00e9quilibre hydrique<\/td><td>-23 mm d&#8217;eau et -21 mm de drainage<br>tout en maintenant le rendement et en r\u00e9duisant la fr\u00e9quence d&#8217;irrigation<\/td><td>Int\u00e9gration des pr\u00e9visions m\u00e9t\u00e9orologiques pour une planification proactive, mais dans un environnement simplifie<\/td><\/tr><\/tbody><\/table><\/figure>\n\n\n\n<h2 class=\"wp-block-heading\">R\u00e9f\u00e9rences<\/h2>\n\n\n\n<ol id=\"reference-links-bb0005\" class=\"wp-block-list\">\n<li><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0378377425007449#bbib1\">Achiam et al., 2017<\/a>Achiam, J., Held, D., Tamar, A., Abbeel, P., 2017. Optimisation de politique contrainte.<a href=\"https:\/\/scholar.google.com\/scholar?q=Achiam%2C%20J.%2C%20Held%2C%20D.%2C%20Tamar%2C%20A.%2C%20Abbeel%2C%20P.%2C%202017.%20Constrained%20Policy%20Optimization.\" target=\"_blank\" rel=\"noreferrer noopener\">Google Scholar<\/a><\/li>\n\n\n\n<li><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0378377425007449#bbib2\">Adutwum et al., 2025<\/a>Adutwum, GK, Chung, ES, Song, YH, 2025. R\u00e9seaux neuronaux graphiques spatio-temporels inform\u00e9s par la physique pour la pr\u00e9diction de l&#8217;\u00e9vapotranspiration : le cas de la p\u00e9ninsule cor\u00e9enne.<a href=\"https:\/\/scholar.google.com\/scholar?q=Adutwum%2C%20G.K.%2C%20Chung%2C%20E.S.%2C%20Song%2C%20Y.H.%2C%202025.%20Physics-Informed%20Spatio-Temporal%20Graph%20Neural%20Networks%20for%20Evapotranspiration%20Prediction%3A%20Case%20of%20the%20Korean%20Peninsula.\" target=\"_blank\" rel=\"noreferrer noopener\">Google Scholar<\/a><\/li>\n\n\n\n<li><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0378377425007449#bbib3\">Agyeman et al., 2024<\/a>BT\u00a0Agyeman\u00a0,\u00a0M.\u00a0Naouri\u00a0,\u00a0WM\u00a0Appels\u00a0,\u00a0J.\u00a0Liu\u00a0,\u00a0SL\u00a0ShahMPC multi-agents bas\u00e9 sur l&#8217;apprentissage pour la planification de l&#8217;irrigationPratique de l&#8217;ing\u00e9nierie de contr\u00f4le\u00a0,\u00a0147\u00a0(\u00a02024\u00a0)\u00a0, Article\u00a0105908<a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0967066124000686\/pdfft?md5=36fadd718ed498e2b4906b8fdc3932f0&amp;pid=1-s2.0-S0967066124000686-main.pdf\" target=\"_blank\" rel=\"noreferrer noopener\">Voir le PDF<\/a><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0967066124000686\">Voir l&#8217;article\u00a0<\/a><a href=\"https:\/\/www.scopus.com\/inward\/record.url?eid=2-s2.0-85187232315&amp;partnerID=10&amp;rel=R3.0.0\" target=\"_blank\" rel=\"noreferrer noopener\">Voir dans Scopus\u00a0<\/a><a href=\"https:\/\/scholar.google.com\/scholar_lookup?title=Learning-based%20multi-agent%20MPC%20for%20irrigation%20scheduling&amp;publication_year=2024&amp;author=B.T.%20Agyeman&amp;author=M.%20Naouri&amp;author=W.M.%20Appels&amp;author=J.%20Liu&amp;author=S.L.%20Shah\" target=\"_blank\" rel=\"noreferrer noopener\">Google Scholar<\/a><\/li>\n\n\n\n<li><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0378377425007449#bbib4\">Ahmed et al., 2023<\/a>Z.\u00a0Ahmed\u00a0,\u00a0D.\u00a0Gui\u00a0,\u00a0G.\u00a0Murtaza\u00a0,\u00a0L.\u00a0Yunfei\u00a0,\u00a0S.\u00a0AliAper\u00e7u de la gestion intelligente de l&#8217;irrigation pour am\u00e9liorer la productivit\u00e9 de l&#8217;eau dans les zones arides face aux changements climatiquesAgronomie\u00a0,\u00a013\u00a0(\u00a02023\u00a0)\u00a0, p.\u00a02113\u00a0,\u00a0<a href=\"https:\/\/doi.org\/10.3390\/agronomy13082113\" target=\"_blank\" rel=\"noreferrer noopener\">10.3390\/agronomy13082113<\/a><a href=\"https:\/\/www.scopus.com\/inward\/record.url?eid=2-s2.0-85168681014&amp;partnerID=10&amp;rel=R3.0.0\" target=\"_blank\" rel=\"noreferrer noopener\">Voir dans Scopus\u00a0<\/a><a href=\"https:\/\/scholar.google.com\/scholar_lookup?title=An%20overview%20of%20smart%20irrigation%20management%20for%20improving%20water%20productivity%20under%20climate%20change%20in%20drylands&amp;publication_year=2023&amp;author=Z.%20Ahmed&amp;author=D.%20Gui&amp;author=G.%20Murtaza&amp;author=L.%20Yunfei&amp;author=S.%20Ali\" target=\"_blank\" rel=\"noreferrer noopener\">Google Scholar<\/a><\/li>\n\n\n\n<li><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0378377425007449#bbib5\">Al-Ghobari et Dewidar, 2021<\/a>H.\u00a0Al-Ghobari\u00a0,\u00a0AZ\u00a0Dewidar\u00c9tude comparative d&#8217;un syst\u00e8me d&#8217;irrigation pivot standard et d&#8217;un syst\u00e8me pivot modifi\u00e9 par les producteurs pour \u00e9valuer le coefficient d&#8217;uniformit\u00e9 et la distribution de l&#8217;eauAgron.\u00a0,\u00a011\u00a0(\u00a02021\u00a0)\u00a0, p.\u00a01675\u00a0,\u00a0<a href=\"https:\/\/doi.org\/10.3390\/agronomy11081675\" target=\"_blank\" rel=\"noreferrer noopener\">10.3390\/agronomy11081675<\/a><a href=\"https:\/\/www.scopus.com\/inward\/record.url?eid=2-s2.0-85114004113&amp;partnerID=10&amp;rel=R3.0.0\" target=\"_blank\" rel=\"noreferrer noopener\">Voir dans Scopus\u00a0<\/a><a href=\"https:\/\/scholar.google.com\/scholar_lookup?title=A%20comparative%20study%20of%20standard%20center%20pivot%20and%20growers-based%20modified%20center%20pivot%20for%20evaluating%20uniformity%20coefficient%20and%20water%20distribution&amp;publication_year=2021&amp;author=H.%20Al-Ghobari&amp;author=A.Z.%20Dewidar\" target=\"_blank\" rel=\"noreferrer noopener\">Google Scholar<\/a><\/li>\n\n\n\n<li><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0378377425007449#bbib6\">Alibabaei et al., 2022a<\/a>K.\u00a0Alibabaei\u00a0,\u00a0PD\u00a0Gaspar\u00a0,\u00a0E.\u00a0Assun\u00e7\u00e3o\u00a0,\u00a0S.\u00a0Alirezazadeh\u00a0,\u00a0TM\u00a0LimaOptimisation de l&#8217;irrigation \u00e0 l&#8217;aide d&#8217;un mod\u00e8le d&#8217;apprentissage par renforcement profond\u00a0: \u00e9tude de cas sur un site au PortugalAgricole. Gestion de l&#8217;eau.\u00a0,\u00a0263\u00a0(\u00a02022\u00a0)\u00a0, article\u00a0107480\u00a0,\u00a0<a href=\"https:\/\/doi.org\/10.1016\/j.agwat.2022.107480\" target=\"_blank\" rel=\"noreferrer noopener\">10.1016\/j.agwat.2022.107480<\/a><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0378377422000270\/pdfft?md5=d4913a2d95a9214491cffe3512602264&amp;pid=1-s2.0-S0378377422000270-main.pdf\" target=\"_blank\" rel=\"noreferrer noopener\">Voir le PDF<\/a><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0378377422000270\">Voir l&#8217;article\u00a0<\/a><a href=\"https:\/\/www.scopus.com\/inward\/record.url?eid=2-s2.0-85123028578&amp;partnerID=10&amp;rel=R3.0.0\" target=\"_blank\" rel=\"noreferrer noopener\">Voir dans Scopus\u00a0<\/a><a href=\"https:\/\/scholar.google.com\/scholar_lookup?title=Irrigation%20optimization%20with%20a%20deep%20reinforcement%20learning%20model%3A%20case%20study%20on%20a%20site%20in%20Portugal&amp;publication_year=2022&amp;author=K.%20Alibabaei&amp;author=P.D.%20Gaspar&amp;author=E.%20Assun%C3%A7%C3%A3o&amp;author=S.%20Alirezazadeh&amp;author=T.M.%20Lima\" target=\"_blank\" rel=\"noreferrer noopener\">Google Scholar<\/a><\/li>\n\n\n\n<li><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0378377425007449#bbib7\">Alibabaei et al., 2022b<\/a>K.\u00a0Alibabaei\u00a0,\u00a0PD\u00a0Gaspar\u00a0,\u00a0E.\u00a0Assun\u00e7\u00e3o\u00a0,\u00a0S.\u00a0Alirezazadeh\u00a0,\u00a0TM\u00a0Lima\u00a0,\u00a0VNGJ\u00a0Soares\u00a0,\u00a0JMLP\u00a0CaldeiraComparaison de l&#8217;apprentissage par renforcement profond A2C avec strat\u00e9gie et du DQN sans strat\u00e9gie pour l&#8217;optimisation de l&#8217;irrigation\u00a0: une \u00e9tude de cas sur un site au PortugalComputers\u00a0,\u00a011\u00a0(\u00a02022\u00a0)\u00a0, p.\u00a0104\u00a0,\u00a0<a href=\"https:\/\/doi.org\/10.3390\/computers11070104\" target=\"_blank\" rel=\"noreferrer noopener\">10.3390\/computers11070104<\/a><a href=\"https:\/\/www.scopus.com\/inward\/record.url?eid=2-s2.0-85133268168&amp;partnerID=10&amp;rel=R3.0.0\" target=\"_blank\" rel=\"noreferrer noopener\">Voir dans Scopus\u00a0<\/a><a href=\"https:\/\/scholar.google.com\/scholar_lookup?title=Comparison%20of%20on-policy%20deep%20reinforcement%20learning%20A2C%20with%20off-policy%20DQN%20in%20irrigation%20optimization%3A%20a%20case%20study%20at%20a%20site%20in%20Portugal&amp;publication_year=2022&amp;author=K.%20Alibabaei&amp;author=P.D.%20Gaspar&amp;author=E.%20Assun%C3%A7%C3%A3o&amp;author=S.%20Alirezazadeh&amp;author=T.M.%20Lima&amp;author=V.N.G.J.%20Soares&amp;author=J.M.L.P.%20Caldeira\" target=\"_blank\" rel=\"noreferrer noopener\">Google Scholar<\/a><\/li>\n\n\n\n<li><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0378377425007449#bbib8\">Arulkumaran et al., 2017<\/a>K.\u00a0Arulkumaran\u00a0,\u00a0d\u00e9put\u00e9\u00a0Deisenroth\u00a0,\u00a0M.\u00a0Brundage\u00a0,\u00a0AA\u00a0BharatUn bref aper\u00e7u de l&#8217;apprentissage par renforcement profondIEEE Signal Process. Mag.\u00a0,\u00a034\u00a0(\u00a02017\u00a0)\u00a0, pp.\u00a026\u00a0&#8211;\u00a038\u00a0,\u00a0<a href=\"https:\/\/doi.org\/10.1109\/MSP.2017.2743240\" target=\"_blank\" rel=\"noreferrer noopener\">10.1109\/MSP.2017.2743240<\/a><a href=\"https:\/\/www.scopus.com\/inward\/record.url?eid=2-s2.0-85040312540&amp;partnerID=10&amp;rel=R3.0.0\" target=\"_blank\" rel=\"noreferrer noopener\">Voir dans Scopus\u00a0<\/a><a href=\"https:\/\/scholar.google.com\/scholar_lookup?title=A%20brief%20survey%20of%20deep%20reinforcement%20learning&amp;publication_year=2017&amp;author=K.%20Arulkumaran&amp;author=M.P.%20Deisenroth&amp;author=M.%20Brundage&amp;author=A.A.%20Bharath\" target=\"_blank\" rel=\"noreferrer noopener\">Google Scholar<\/a><\/li>\n\n\n\n<li><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0378377425007449#bbib9\">Ashcraft et Karra, 2021<\/a>Ashcraft, C., &amp; Karra, K. 2021. Optimisation du rendement des cultures assist\u00e9e par l&#8217;apprentissage automatique. Pr\u00e9publication arXiv\u00a0: arXiv:2111.00963.<a href=\"https:\/\/scholar.google.com\/scholar?q=Ashcraft%2C%20C.%2C%20%26%20Karra%2C%20K.%202021.%20Machine%20learning%20aided%20crop%20yield%20optimization.%20arXiv%20preprint%20arXiv%3A2111.00963.\" target=\"_blank\" rel=\"noreferrer noopener\">Google Scholar<\/a><\/li>\n\n\n\n<li><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0378377425007449#bbib10\">Ayaz et al., 2019<\/a>M.\u00a0Ayaz\u00a0,\u00a0M.\u00a0Ammad-Uddin\u00a0,\u00a0Z.\u00a0Sharif\u00a0,\u00a0A.\u00a0Mansour\u00a0,\u00a0E.-HM\u00a0AggouneAgriculture intelligente bas\u00e9e sur l&#8217;Internet des objets (IdO)\u00a0: vers des champs qui parlentIEEE Access\u00a0,\u00a07\u00a0(\u00a02019\u00a0)\u00a0, p.\u00a0129551-129583\u00a0,\u00a010.1109\u00a0\/\u00a0<a href=\"https:\/\/doi.org\/10.1109\/ACCESS.2019.2932609\" target=\"_blank\" rel=\"noreferrer noopener\">ACCESS.2019.2932609<\/a><a href=\"https:\/\/doi.org\/10.1109\/ACCESS.2019.2932609\" target=\"_blank\" rel=\"noreferrer noopener\"><\/a><a href=\"https:\/\/www.scopus.com\/inward\/record.url?eid=2-s2.0-85077971142&amp;partnerID=10&amp;rel=R3.0.0\" target=\"_blank\" rel=\"noreferrer noopener\">Voir dans Scopus\u00a0<\/a><a href=\"https:\/\/scholar.google.com\/scholar_lookup?title=Internet-of-things%20-based%20smart%20agriculture%3A%20toward%20making%20the%20fields%20talk&amp;publication_year=2019&amp;author=M.%20Ayaz&amp;author=M.%20Ammad-Uddin&amp;author=Z.%20Sharif&amp;author=A.%20Mansour&amp;author=E.-H.M.%20Aggoune\" target=\"_blank\" rel=\"noreferrer noopener\">Google Scholar<\/a><\/li>\n\n\n\n<li><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0378377425007449#bbib11\">Bellemare et al., 2017<\/a>Bellemare, MG, Dabney, W., Munos, R., 2017. Une perspective distributionnelle sur l&#8217;apprentissage par renforcement.<a href=\"https:\/\/scholar.google.com\/scholar?q=Bellemare%2C%20M.G.%2C%20Dabney%2C%20W.%2C%20Munos%2C%20R.%2C%202017.%20A%20Distributional%20Perspective%20on%20Reinforcement%20Learning.\" target=\"_blank\" rel=\"noreferrer noopener\">Google Scholar<\/a><\/li>\n\n\n\n<li><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0378377425007449#bbib12\">Bellman, 1966<\/a>R.\u00a0BellmanProgrammation dynamiqueSci.\u00a0,\u00a0153\u00a0(\u00a03731\u00a0)\u00a0(\u00a01966\u00a0)\u00a0, pp.\u00a034\u00a0&#8211;\u00a037<a href=\"https:\/\/doi.org\/10.1126\/science.153.3731.34\" target=\"_blank\" rel=\"noreferrer noopener\"><\/a><a href=\"https:\/\/www.scopus.com\/inward\/record.url?eid=2-s2.0-37049252093&amp;partnerID=10&amp;rel=R3.0.0\" target=\"_blank\" rel=\"noreferrer noopener\">Voir dans\u00a0<\/a><a href=\"https:\/\/doi.org\/10.1126\/science.153.3731.34\" target=\"_blank\" rel=\"noreferrer noopener\">Crossref et Scopus\u00a0<\/a><a href=\"https:\/\/scholar.google.com\/scholar_lookup?title=Dynamic%20programming&amp;publication_year=1966&amp;author=R.%20Bellman\" target=\"_blank\" rel=\"noreferrer noopener\">Google Scholar<\/a><\/li>\n\n\n\n<li><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0378377425007449#bbib13\">Bellman et Dreyfus, 2015<\/a>RE\u00a0Bellman\u00a0,\u00a0SE\u00a0DreyfusProgrammation dynamique appliqu\u00e9e\u00a0,\u00a0Princet. Univ. Press\u00a0(\u00a02015\u00a0)<a href=\"https:\/\/scholar.google.com\/scholar_lookup?title=Applied%20dynamic%20programming&amp;publication_year=2015&amp;author=R.E.%20Bellman&amp;author=S.E.%20Dreyfus\" target=\"_blank\" rel=\"noreferrer noopener\">Google Scholar<\/a><\/li>\n\n\n\n<li><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0378377425007449#bbib14\">Bertsekas, 2019<\/a>Bertsekas, DP, 2019. Un cours d&#8217;apprentissage par renforcement, 2e \u00e9dition.<a href=\"https:\/\/scholar.google.com\/scholar?q=Bertsekas%2C%20D.P.%2C%202019.%20A%20Course%20in%20Reinforcement%20Learning%2C%202nd%20Edition.\" target=\"_blank\" rel=\"noreferrer noopener\">Google Scholar<\/a><\/li>\n\n\n\n<li><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0378377425007449#bbib15\">Bhat et Huang, 2021<\/a>SA\u00a0Bhat\u00a0,\u00a0N.-F.\u00a0HuangR\u00e9volution du Big Data et de l&#8217;IA dans l&#8217;agriculture de pr\u00e9cision : \u00e9tat des lieux et enjeuxIEEE Access\u00a0,\u00a09\u00a0(\u00a02021\u00a0)\u00a0, p.\u00a0110209-110222\u00a0,\u00a010.1109\u00a0\/\u00a0<a href=\"https:\/\/doi.org\/10.1109\/ACCESS.2021.3102227\" target=\"_blank\" rel=\"noreferrer noopener\">ACCESS.2021.3102227<\/a><a href=\"https:\/\/doi.org\/10.1109\/ACCESS.2021.3102227\" target=\"_blank\" rel=\"noreferrer noopener\"><\/a><a href=\"https:\/\/www.scopus.com\/inward\/record.url?eid=2-s2.0-85112664253&amp;partnerID=10&amp;rel=R3.0.0\" target=\"_blank\" rel=\"noreferrer noopener\">Voir dans Scopus\u00a0<\/a><a href=\"https:\/\/scholar.google.com\/scholar_lookup?title=Big%20data%20and%20AI%20revolution%20in%20precision%20agriculture%3A%20survey%20and%20challenges&amp;publication_year=2021&amp;author=S.A.%20Bhat&amp;author=N.-F.%20Huang\" target=\"_blank\" rel=\"noreferrer noopener\">Google Scholar<\/a><\/li>\n\n\n\n<li><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0378377425007449#bbib16\">Browne et al., 2012<\/a>CB\u00a0Browne\u00a0,\u00a0E.\u00a0Powley\u00a0,\u00a0D.\u00a0Whitehouse\u00a0,\u00a0SM\u00a0Lucas\u00a0,\u00a0PI\u00a0Cowling\u00a0,\u00a0P.\u00a0Rohlfshagen\u00a0,\u00a0S.\u00a0Tavener\u00a0,\u00a0D.\u00a0Perez\u00a0,\u00a0S.\u00a0Samothrakis\u00a0,\u00a0S.\u00a0Colton\u00c9tude comparative des m\u00e9thodes de recherche arborescente de Monte CarloIEEE Trans. Comput. Intell. AI Games\u00a0,\u00a04\u00a0(\u00a02012\u00a0)\u00a0, p.\u00a01-43\u00a0,\u00a010.1109\u00a0\/\u00a0<a href=\"https:\/\/doi.org\/10.1109\/TCIAIG.2012.2186810\" target=\"_blank\" rel=\"noreferrer noopener\">TCIAIG.2012.2186810<\/a><a href=\"https:\/\/doi.org\/10.1109\/TCIAIG.2012.2186810\" target=\"_blank\" rel=\"noreferrer noopener\"><\/a><a href=\"https:\/\/www.scopus.com\/inward\/record.url?eid=2-s2.0-84858960516&amp;partnerID=10&amp;rel=R3.0.0\" target=\"_blank\" rel=\"noreferrer noopener\">Voir dans Scopus\u00a0<\/a><a href=\"https:\/\/scholar.google.com\/scholar_lookup?title=A%20survey%20of%20Monte%20Carlo%20tree%20search%20methods&amp;publication_year=2012&amp;author=C.B.%20Browne&amp;author=E.%20Powley&amp;author=D.%20Whitehouse&amp;author=S.M.%20Lucas&amp;author=P.I.%20Cowling&amp;author=P.%20Rohlfshagen&amp;author=S.%20Tavener&amp;author=D.%20Perez&amp;author=S.%20Samothrakis&amp;author=S.%20Colton\" target=\"_blank\" rel=\"noreferrer noopener\">Google Scholar<\/a><\/li>\n\n\n\n<li><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0378377425007449#bbib17\">Bu et Wang, 2019<\/a>F.\u00a0Bu\u00a0,\u00a0X.\u00a0WangUn syst\u00e8me IoT d&#8217;agriculture intelligente bas\u00e9 sur l&#8217;apprentissage par renforcement profondFuture Gener .\u00a0Comput. Syst.\u00a0,\u00a099\u00a0(\u00a02019\u00a0)\u00a0, p.\u00a0500-507\u00a0,\u00a010.1016\u00a0<a href=\"https:\/\/doi.org\/10.1016\/j.future.2019.04.041\" target=\"_blank\" rel=\"noreferrer noopener\">\/j.future.2019.04.041<\/a><a href=\"https:\/\/doi.org\/10.1016\/j.future.2019.04.041\" target=\"_blank\" rel=\"noreferrer noopener\"><\/a><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0167739X19307277\/pdfft?md5=a6d5dfec161ea9518061da58699ce8ba&amp;pid=1-s2.0-S0167739X19307277-main.pdf\" target=\"_blank\" rel=\"noreferrer noopener\">Voir le PDF<\/a><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0167739X19307277\">Voir l&#8217;article\u00a0<\/a><a href=\"https:\/\/www.scopus.com\/inward\/record.url?eid=2-s2.0-85065541268&amp;partnerID=10&amp;rel=R3.0.0\" target=\"_blank\" rel=\"noreferrer noopener\">Voir dans Scopus\u00a0<\/a><a href=\"https:\/\/scholar.google.com\/scholar_lookup?title=A%20smart%20agriculture%20IoT%20system%20based%20on%20deep%20reinforcement%20learning&amp;publication_year=2019&amp;author=F.%20Bu&amp;author=X.%20Wang\" target=\"_blank\" rel=\"noreferrer noopener\">Google Scholar<\/a><\/li>\n\n\n\n<li><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0378377425007449#bbib18\">Bwambale et al., 2022<\/a>E.\u00a0Bwambale\u00a0,\u00a0FK\u00a0Abagale\u00a0,\u00a0GK\u00a0AnornuStrat\u00e9gies intelligentes de surveillance et de contr\u00f4le de l&#8217;irrigation pour am\u00e9liorer l&#8217;efficacit\u00e9 de l&#8217;utilisation de l&#8217;eau en agriculture de pr\u00e9cision : une revueAgricole. Gestion de l&#8217;eau.\u00a0,\u00a0260\u00a0(\u00a02022\u00a0)\u00a0, article\u00a0107324\u00a0,\u00a0<a href=\"https:\/\/doi.org\/10.1016\/j.agwat.2021.107324\" target=\"_blank\" rel=\"noreferrer noopener\">10.1016\/j.agwat.2021.107324<\/a><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0378377421006016\/pdfft?md5=73940b48596ed5a73fcbcb91ae811468&amp;pid=1-s2.0-S0378377421006016-main.pdf\" target=\"_blank\" rel=\"noreferrer noopener\">Voir le PDF<\/a><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0378377421006016\">Voir l&#8217;article\u00a0<\/a><a href=\"https:\/\/www.scopus.com\/inward\/record.url?eid=2-s2.0-85118889697&amp;partnerID=10&amp;rel=R3.0.0\" target=\"_blank\" rel=\"noreferrer noopener\">Voir dans Scopus\u00a0<\/a><a href=\"https:\/\/scholar.google.com\/scholar_lookup?title=Smart%20irrigation%20monitoring%20and%20control%20strategies%20for%20improving%20water%20use%20efficiency%20in%20precision%20agriculture%3A%20a%20review&amp;publication_year=2022&amp;author=E.%20Bwambale&amp;author=F.K.%20Abagale&amp;author=G.K.%20Anornu\" target=\"_blank\" rel=\"noreferrer noopener\">Google Scholar<\/a><\/li>\n\n\n\n<li><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0378377425007449#bbib19\">Campoverde et al., 2021<\/a>LMS\u00a0Campoverde\u00a0,\u00a0M.\u00a0Tropea\u00a0,\u00a0F.\u00a0De RangoUn syst\u00e8me intelligent de gestion de l&#8217;irrigation bas\u00e9 sur l&#8217;IoT et utilisant l&#8217;apprentissage par renforcement mod\u00e9lis\u00e9 par un processus de d\u00e9cision markovien. Pr\u00e9sent\u00e9 lors de la 25e conf\u00e9rence internationale IEEE\/ACM de 2021.Symposium sur la simulation distribu\u00e9e et les applications temps r\u00e9el DS-RT\u00a0,\u00a0IEEE\u00a0(\u00a0septembre\u00a02021\u00a0)\u00a0, p\u00a0.\u00a01-4<a href=\"https:\/\/doi.org\/10.1109\/ds-rt52167.2021.9576130\" target=\"_blank\" rel=\"noreferrer noopener\">Crossref\u00a0<\/a><a href=\"https:\/\/scholar.google.com\/scholar?q=Campoverde%2C%20L.%20M.%20S.%2C%20Tropea%2C%20M.%2C%20De%20Rango%2C%20F.%2C%202021%2C%20September.%20An%20iot%20based%20smart%20irrigation%20management%20system%20using%20reinforcement%20learning%20modeled%20through%20a%20markov%20decision%20process.%20In%202021%20IEEE%2FACM%2025th%20Int.%20In%3A%20Symp.%20on%20Distrib.%20Simul.%20and%20Real%20Time%20Appl.%20DS-RT..%20IEEE%2C%20pp.%201%E2%80%934.\" target=\"_blank\" rel=\"noreferrer noopener\">Google Scholar<\/a><\/li>\n\n\n\n<li><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0378377425007449#bbib20\">Chen et al., 2021<\/a>M.\u00a0Chen\u00a0,\u00a0Y.\u00a0Cui\u00a0,\u00a0X.\u00a0Wang\u00a0,\u00a0H.\u00a0Xie\u00a0,\u00a0F.\u00a0Liu\u00a0,\u00a0T.\u00a0Luo\u00a0,\u00a0S.\u00a0Zheng\u00a0,\u00a0Y.\u00a0LuoUne approche d&#8217;apprentissage par renforcement pour la prise de d\u00e9cision en mati\u00e8re d&#8217;irrigation du riz \u00e0 l&#8217;aide de pr\u00e9visions m\u00e9t\u00e9orologiquesAgricole. Gestion de l&#8217;eau.\u00a0,\u00a0250\u00a0(\u00a02021\u00a0)\u00a0, Article\u00a0106838\u00a0,\u00a0<a href=\"https:\/\/doi.org\/10.1016\/j.agwat.2021.106838\" target=\"_blank\" rel=\"noreferrer noopener\">10.1016\/j.agwat.2021.106838<\/a><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0378377421001037\/pdfft?md5=4c06026ec89d045d1b8a28d7bf87e6b6&amp;pid=1-s2.0-S0378377421001037-main.pdf\" target=\"_blank\" rel=\"noreferrer noopener\">Voir le PDF<\/a><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0378377421001037\">Voir l&#8217;article\u00a0<\/a><a href=\"https:\/\/www.scopus.com\/inward\/record.url?eid=2-s2.0-85102075624&amp;partnerID=10&amp;rel=R3.0.0\" target=\"_blank\" rel=\"noreferrer noopener\">Voir dans Scopus\u00a0<\/a><a href=\"https:\/\/scholar.google.com\/scholar_lookup?title=A%20reinforcement%20learning%20approach%20to%20irrigation%20decision-making%20for%20rice%20using%20weather%20forecasts&amp;publication_year=2021&amp;author=M.%20Chen&amp;author=Y.%20Cui&amp;author=X.%20Wang&amp;author=H.%20Xie&amp;author=F.%20Liu&amp;author=T.%20Luo&amp;author=S.%20Zheng&amp;author=Y.%20Luo\" target=\"_blank\" rel=\"noreferrer noopener\">Google Scholar<\/a><\/li>\n\n\n\n<li><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0378377425007449#bbib21\">Chen et al., 2025<\/a>Y.\u00a0Chen\u00a0,\u00a0M.\u00a0Lin\u00a0,\u00a0Z.\u00a0Yu\u00a0,\u00a0W.\u00a0Sun\u00a0,\u00a0W.\u00a0Fu\u00a0,\u00a0L.\u00a0HeAm\u00e9lioration de l&#8217;irrigation du coton gr\u00e2ce \u00e0 l&#8217;apprentissage par renforcement acteur-critique distributionnelAgricole. Gestion de l&#8217;eau.\u00a0,\u00a0307\u00a0(\u00a02025\u00a0)\u00a0, article\u00a0109194\u00a0,\u00a0<a href=\"https:\/\/doi.org\/10.1016\/j.agwat.2024.109194\" target=\"_blank\" rel=\"noreferrer noopener\">10.1016\/j.agwat.2024.109194<\/a><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0378377424005304\/pdfft?md5=8120cc9b443731561fe31b4004f50fdb&amp;pid=1-s2.0-S0378377424005304-main.pdf\" target=\"_blank\" rel=\"noreferrer noopener\">Voir le PDF<\/a><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0378377424005304\">Voir l&#8217;article\u00a0<\/a><a href=\"https:\/\/www.scopus.com\/inward\/record.url?eid=2-s2.0-85211372966&amp;partnerID=10&amp;rel=R3.0.0\" target=\"_blank\" rel=\"noreferrer noopener\">Voir dans Scopus\u00a0<\/a><a href=\"https:\/\/scholar.google.com\/scholar_lookup?title=Enhancing%20cotton%20irrigation%20with%20distributional%20actorcritic%20reinforcement%20learning&amp;publication_year=2025&amp;author=Y.%20Chen&amp;author=M.%20Lin&amp;author=Z.%20Yu&amp;author=W.%20Sun&amp;author=W.%20Fu&amp;author=L.%20He\" target=\"_blank\" rel=\"noreferrer noopener\">Google Scholar<\/a><\/li>\n\n\n\n<li><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0378377425007449#bbib22\">Chen et al., 2023<\/a>Y.\u00a0Chen\u00a0,\u00a0Z.\u00a0Yu\u00a0,\u00a0Z.\u00a0Han\u00a0,\u00a0W.\u00a0Sun\u00a0,\u00a0L.\u00a0HeUn syst\u00e8me de prise de d\u00e9cision pour l&#8217;irrigation du coton bas\u00e9 sur une strat\u00e9gie d&#8217;apprentissage par renforcementAgronomie\u00a0,\u00a014\u00a0(\u00a02023\u00a0)\u00a0, p.\u00a011\u00a0,\u00a0<a href=\"https:\/\/doi.org\/10.3390\/agronomy14010011\" target=\"_blank\" rel=\"noreferrer noopener\">10.3390\/agronomy14010011<\/a><a href=\"https:\/\/scholar.google.com\/scholar_lookup?title=A%20decision-making%20system%20for%20cotton%20irrigation%20based%20on%20reinforcement%20learning%20strategy&amp;publication_year=2023&amp;author=Y.%20Chen&amp;author=Z.%20Yu&amp;author=Z.%20Han&amp;author=W.%20Sun&amp;author=L.%20He\" target=\"_blank\" rel=\"noreferrer noopener\">Google Scholar<\/a><\/li>\n\n\n\n<li><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0378377425007449#bbib23\">Dayan et Balleine, 2002<\/a>P.\u00a0Dayan\u00a0,\u00a0BW\u00a0BalleineR\u00e9compense, motivation et apprentissage par renforcementNeuron\u00a0,\u00a036\u00a0(\u00a02\u00a0)\u00a0(\u00a02002\u00a0)\u00a0, pp.\u00a0285\u00a0&#8211;\u00a0298<a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0896627302009637\/pdfft?md5=b3791f7be4a41c55340a2f6ef3fb7aa1&amp;pid=1-s2.0-S0896627302009637-main.pdf\" target=\"_blank\" rel=\"noreferrer noopener\">Voir le PDF<\/a><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0896627302009637\">Voir l&#8217;article\u00a0<\/a><a href=\"https:\/\/www.scopus.com\/inward\/record.url?eid=2-s2.0-0037057808&amp;partnerID=10&amp;rel=R3.0.0\" target=\"_blank\" rel=\"noreferrer noopener\">Voir dans Scopus\u00a0<\/a><a href=\"https:\/\/scholar.google.com\/scholar_lookup?title=Reward%2C%20motivation%2C%20and%20reinforcement%20learning&amp;publication_year=2002&amp;author=P.%20Dayan&amp;author=B.W.%20Balleine\" target=\"_blank\" rel=\"noreferrer noopener\">Google Scholar<\/a><\/li>\n\n\n\n<li><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0378377425007449#bbib24\">Deng et al., 2017<\/a>Y.\u00a0Deng\u00a0,\u00a0F.\u00a0Bao\u00a0,\u00a0Y.\u00a0Kong\u00a0,\u00a0Z.\u00a0Ren\u00a0,\u00a0Q.\u00a0DaiApprentissage par renforcement direct profond pour la repr\u00e9sentation et le trading de signaux financiersIEEE Trans. Neural Netw. Learn. Syst.\u00a0,\u00a028\u00a0(\u00a02017\u00a0)\u00a0, pp.\u00a0653\u00a0&#8211;\u00a0664\u00a0,\u00a0<a href=\"https:\/\/doi.org\/10.1109\/TNNLS.2016.2522401\" target=\"_blank\" rel=\"noreferrer noopener\">10.1109\/TNNLS.2016.2522401<\/a><a href=\"https:\/\/www.scopus.com\/inward\/record.url?eid=2-s2.0-84959170420&amp;partnerID=10&amp;rel=R3.0.0\" target=\"_blank\" rel=\"noreferrer noopener\">Voir dans Scopus\u00a0<\/a><a href=\"https:\/\/scholar.google.com\/scholar_lookup?title=Deep%20direct%20reinforcement%20learning%20for%20financial%20signal%20representation%20and%20trading&amp;publication_year=2017&amp;author=Y.%20Deng&amp;author=F.%20Bao&amp;author=Y.%20Kong&amp;author=Z.%20Ren&amp;author=Q.%20Dai\" target=\"_blank\" rel=\"noreferrer noopener\">Google Scholar<\/a><\/li>\n\n\n\n<li><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0378377425007449#bbib25\">Devarajan et al., 2023<\/a>GG\u00a0Devarajan\u00a0,\u00a0SM\u00a0Nagarajan\u00a0,\u00a0U.\u00a0Ghosh\u00a0,\u00a0W.\u00a0AlnumayDDNSAS\u00a0: R\u00e9seau d\u2019apprentissage par renforcement profond bas\u00e9 sur l\u2019apprentissage Q profond pour un syst\u00e8me d\u2019agriculture intelligenteSyst\u00e8mes informatiques durables\u00a0,\u00a039\u00a0(\u00a02023\u00a0)\u00a0, Article\u00a0100890<a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S2210537923000458\/pdfft?md5=ef54647ebfb8193c3fa6c631e3434923&amp;pid=1-s2.0-S2210537923000458-main.pdf\" target=\"_blank\" rel=\"noreferrer noopener\">Voir le PDF<\/a><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S2210537923000458\">Voir l&#8217;article\u00a0<\/a><a href=\"https:\/\/www.scopus.com\/inward\/record.url?eid=2-s2.0-85164700554&amp;partnerID=10&amp;rel=R3.0.0\" target=\"_blank\" rel=\"noreferrer noopener\">Voir dans Scopus\u00a0<\/a><a href=\"https:\/\/scholar.google.com\/scholar_lookup?title=DDNSAS%3A%20Deep%20reinforcement%20learning%20based%20deep%20Q-learning%20network%20for%20smart%20agriculture%20system&amp;publication_year=2023&amp;author=G.G.%20Devarajan&amp;author=S.M.%20Nagarajan&amp;author=U.%20Ghosh&amp;author=W.%20Alnumay\" target=\"_blank\" rel=\"noreferrer noopener\">Google Scholar<\/a><\/li>\n\n\n\n<li><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0378377425007449#bbib26\">Din et al., 2022<\/a>A.\u00a0Din\u00a0,\u00a0MY\u00a0Ismail\u00a0,\u00a0B.\u00a0Shah\u00a0,\u00a0M.\u00a0Babar\u00a0,\u00a0F.\u00a0Ali\u00a0,\u00a0SU\u00a0BaigUn contr\u00f4le de couverture de zone multi-agents bas\u00e9 sur l&#8217;apprentissage par renforcement profond pour l&#8217;agriculture intelligenteIng\u00e9nierie informatique et \u00e9lectrique\u00a0,\u00a0101\u00a0(\u00a02022\u00a0)\u00a0, Article\u00a0108089<a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0045790622003445\/pdfft?md5=959db3b0c89ec23ad8cac404c8e72937&amp;pid=1-s2.0-S0045790622003445-main.pdf\" target=\"_blank\" rel=\"noreferrer noopener\">Voir le PDF<\/a><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0045790622003445\">Voir l&#8217;article\u00a0<\/a><a href=\"https:\/\/www.scopus.com\/inward\/record.url?eid=2-s2.0-85131117051&amp;partnerID=10&amp;rel=R3.0.0\" target=\"_blank\" rel=\"noreferrer noopener\">Voir dans Scopus\u00a0<\/a><a href=\"https:\/\/scholar.google.com\/scholar_lookup?title=A%20deep%20reinforcement%20learning-based%20multi-agent%20area%20coverage%20control%20for%20smart%20agriculture&amp;publication_year=2022&amp;author=A.%20Din&amp;author=M.Y.%20Ismail&amp;author=B.%20Shah&amp;author=M.%20Babar&amp;author=F.%20Ali&amp;author=S.U.%20Baig\" target=\"_blank\" rel=\"noreferrer noopener\">Google Scholar<\/a><\/li>\n\n\n\n<li><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0378377425007449#bbib27\">Ding et Du, 2022<\/a>Ding, X., Du, W., 2022. DRLIC\u00a0: apprentissage par renforcement profond pour le contr\u00f4le de l\u2019irrigation. Dans\u00a0: 21e Conf\u00e9rence internationale ACM\/IEEE sur le traitement de l\u2019information dans les r\u00e9seaux de capteurs (IPSN), IEEE, Milan, Italie, p.\u00a041-53\u00a0.\u00a0<a href=\"https:\/\/doi.org\/10.1109\/IPSN54338.2022.00011\" target=\"_blank\" rel=\"noreferrer noopener\">https:\/\/doi.org\/10.1109\/IPSN54338.2022.00011<\/a><a href=\"https:\/\/scholar.google.com\/scholar?q=Ding%2C%20X.%2C%20Du%2C%20W.%2C%202022.%20DRLIC%3A%20deep%20reinforcement%20learning%20for%20irrigation%20control.%20In%3A%202022%2021st%20ACM%2FIEEE%20International%20Conference%20on%20Information%20Processing%20in%20Sensor%20Networks%20(IPSN).%20Presented%20at%20the%202022%2021st%20ACM%2FIEEE%20International%20Conference%20on%20Information%20Processing%20in%20Sensor%20Networks%20(IPSN)%2C%20IEEE%2C%20Milano%2C%20Italy%2C%20pp.%2041%E2%80%9353.%20https%3A%2F%2Fdoi.org%2F10.1109%2FIPSN54338.2022.00011.\" target=\"_blank\" rel=\"noreferrer noopener\">Google Scholar<\/a><\/li>\n\n\n\n<li><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0378377425007449#bbib28\">Ding et Du, 2024<\/a>X.\u00a0Ding\u00a0,\u00a0W.\u00a0DuOptimisation de l&#8217;efficacit\u00e9 de l&#8217;irrigation gr\u00e2ce \u00e0 l&#8217;apprentissage par renforcement profond sur le terrainACM Trans. Sen. Netw.\u00a0,\u00a020\u00a0(\u00a02024\u00a0)\u00a0, p.\u00a01-34\u00a0,\u00a010.1145\u00a0\/\u00a0<a href=\"https:\/\/doi.org\/10.1145\/3662182\" target=\"_blank\" rel=\"noreferrer noopener\">3662182<\/a><a href=\"https:\/\/doi.org\/10.1145\/3662182\" target=\"_blank\" rel=\"noreferrer noopener\"><\/a><a href=\"https:\/\/scholar.google.com\/scholar_lookup?title=Optimizing%20irrigation%20efficiency%20using%20deep%20reinforcement%20learning%20in%20the%20field&amp;publication_year=2024&amp;author=X.%20Ding&amp;author=W.%20Du\" target=\"_blank\" rel=\"noreferrer noopener\">Google Scholar<\/a><\/li>\n\n\n\n<li><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0378377425007449#bbib29\">Elavarasan et Vincent, 2020<\/a>D.\u00a0Elavarasan\u00a0,\u00a0PD\u00a0VincentPr\u00e9diction du rendement des cultures \u00e0 l&#8217;aide d&#8217;un mod\u00e8le d&#8217;apprentissage par renforcement profond pour des applications agricoles durables<\/li>\n<\/ol>\n\n\n\n<p class=\"wp-block-paragraph\"><\/p>\n","protected":false},"excerpt":{"rendered":"<p>R\u00e9sume L&#8217;apprentissage par renforcement (RL) est performant dans un environnement changeant, mais conduit facilement \u00e0 des solutions sous-optimales avec des donn\u00e9es de grande dimension. L&#8217;apprentissage par renforcement profond (DRL), qui fusionne le RL et l&#8217;apprentissage profond (DL), excelle dans l&#8217;apprentissage de strat\u00e9gies d&#8217;irrigation adaptatives et \u00e0 long terme directement \u00e0 partir de donn\u00e9es environnementales de [&hellip;]<\/p>\n","protected":false},"author":1,"featured_media":0,"parent":2027,"menu_order":8,"comment_status":"closed","ping_status":"closed","template":"","doc_tag":[],"class_list":["post-2453","docs","type-docs","status-publish","hentry","no-post-thumbnail"],"acf":[],"_links":{"self":[{"href":"https:\/\/sahelib.atatec-design.com\/index.php\/wp-json\/wp\/v2\/docs\/2453","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/sahelib.atatec-design.com\/index.php\/wp-json\/wp\/v2\/docs"}],"about":[{"href":"https:\/\/sahelib.atatec-design.com\/index.php\/wp-json\/wp\/v2\/types\/docs"}],"author":[{"embeddable":true,"href":"https:\/\/sahelib.atatec-design.com\/index.php\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/sahelib.atatec-design.com\/index.php\/wp-json\/wp\/v2\/comments?post=2453"}],"version-history":[{"count":3,"href":"https:\/\/sahelib.atatec-design.com\/index.php\/wp-json\/wp\/v2\/docs\/2453\/revisions"}],"predecessor-version":[{"id":6615,"href":"https:\/\/sahelib.atatec-design.com\/index.php\/wp-json\/wp\/v2\/docs\/2453\/revisions\/6615"}],"up":[{"embeddable":true,"href":"https:\/\/sahelib.atatec-design.com\/index.php\/wp-json\/wp\/v2\/docs\/2027"}],"wp:attachment":[{"href":"https:\/\/sahelib.atatec-design.com\/index.php\/wp-json\/wp\/v2\/media?parent=2453"}],"wp:term":[{"taxonomy":"doc_tag","embeddable":true,"href":"https:\/\/sahelib.atatec-design.com\/index.php\/wp-json\/wp\/v2\/doc_tag?post=2453"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}