{"id":4836,"date":"2020-05-18T22:46:57","date_gmt":"2020-05-18T22:46:57","guid":{"rendered":"https:\/\/wordpress-theme.spider-themes.net\/docly\/docs\/gullu-knowledge-base\/solved-issues\/doc-title-example\/"},"modified":"2025-12-15T19:36:51","modified_gmt":"2025-12-15T19:36:51","slug":"doc-title-example","status":"publish","type":"docs","link":"https:\/\/sahelib.atatec-design.com\/index.php\/docs\/gullu-knowledge-base\/solved-issues\/doc-title-example\/","title":{"rendered":"Apprentissage par renforcement multi-objectif pour inciter de mani\u00e8re prouv\u00e9e \u00e0 l&#8217;alignement sur les syst\u00e8mes de valeur"},"content":{"rendered":"\n<blockquote class=\"wp-block-quote is-layout-flow wp-block-quote-is-layout-flow\">\n<h2 class=\"wp-block-heading\">Points forts<\/h2>\n\n\n\n<ul class=\"wp-block-list\">\n<li>Le probl\u00e8me de l&#8217;alignement sur plusieurs valeurs peut \u00eatre transform\u00e9 en un programme lin\u00e9aire.<\/li>\n\n\n\n<li>Notre m\u00e9thode d&#8217;incitation aux comportements align\u00e9s fonctionne avec jusqu&#8217;\u00e0 8 valeurs.<\/li>\n\n\n\n<li>L&#8217;ordre des valeurs d&#8217;un syst\u00e8me influence consid\u00e9rablement le comportement align\u00e9 sur ces valeurs.<\/li>\n<\/ul>\n<\/blockquote>\n\n\n\n<h2 class=\"wp-block-heading\">Abstrait<\/h2>\n\n\n\n<p class=\"wp-block-paragraph\">Cet article aborde le probl\u00e8me de l&#8217;alignement des agents apprenants autonomes sur de multiples valeurs morales. Plus pr\u00e9cis\u00e9ment, nous pr\u00e9sentons les principes th\u00e9oriques et les outils algorithmiques n\u00e9cessaires \u00e0 la cr\u00e9ation d&#8217;un environnement o\u00f9 l&#8217;agent apprend un comportement conforme \u00e0 ces valeurs, tout en s&#8217;effor\u00e7ant d&#8217;atteindre son objectif individuel. Pour r\u00e9soudre ce probl\u00e8me d&#8217;alignement des valeurs, nous adoptons le cadre de l&#8217;apprentissage par renforcement multi-objectif et proposons un nouvel algorithme combinant des techniques d&#8217;apprentissage par renforcement multi-objectif et de programmation lin\u00e9aire. Nous illustrons notre processus d&#8217;alignement des valeurs par un exemple impliquant un v\u00e9hicule autonome. Nous d\u00e9montrons que l&#8217;agent apprend \u00e0 se comporter conform\u00e9ment aux valeurs \u00e9thiques de s\u00e9curit\u00e9, de r\u00e9ussite et de confort, la r\u00e9ussite repr\u00e9sentant son objectif individuel. Ce comportement \u00e9thique varie selon l&#8217;ordre de priorit\u00e9 des valeurs. Nous utilisons \u00e9galement un environnement multi-objectif synth\u00e9tique pour \u00e9valuer le co\u00fbt de calcul n\u00e9cessaire \u00e0 la garantie d&#8217;un apprentissage \u00e9thique lorsque le nombre de valeurs augmente.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">Mots cl\u00e9s<\/h2>\n\n\n\n<ul class=\"wp-block-list\">\n<li>Alignement des valeurs<\/li>\n\n\n\n<li>Apprentissage par renforcement multi-objectif<\/li>\n\n\n\n<li>\u00c9thique<\/li>\n<\/ul>\n\n\n\n<h2 class=\"wp-block-heading\" id=\"sctt0005\">1.&nbsp;Introduction\u200b<\/h2>\n\n\n\n<p class=\"wp-block-paragraph\">Le probl\u00e8me de garantir que les agents autonomes agissent en\u00a0<em>accord<\/em>\u00a0avec les valeurs humaines\u00a0<a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0004370225001791#bib0001\">[1]<\/a>\u00a0,\u00a0<a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0004370225001791#bib0002\">[2]<\/a>\u00a0devient primordial \u00e0 mesure que les agents se g\u00e9n\u00e9ralisent dans notre soci\u00e9t\u00e9. Par cons\u00e9quent, il est urgent de d\u00e9velopper une IA \u00e9thique et digne de confiance\u00a0<a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0004370225001791#bib0003\">[3],<\/a>\u00a0capable de respecter les valeurs humaines\u00a0<a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0004370225001791#bib0004\">[4]<\/a>\u00a0,\u00a0<a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0004370225001791#bib0005\">[5]<\/a>\u00a0dans divers domaines d&#8217;application \u00e9mergents (par exemple, la robotique d&#8217;assistance sociale\u00a0<a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0004370225001791#bib0006\">[6]<\/a>\u00a0, les v\u00e9hicules autonomes\u00a0<a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0004370225001791#bib0007\">[7]<\/a>\u00a0, les agents conversationnels\u00a0<a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0004370225001791#bib0008\">[8]<\/a>\u00a0).On observe un int\u00e9r\u00eat croissant, tant dans le domaine de l&#8217;\u00e9thique des machines\u00a0<a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0004370225001791#bib0009\">[9]<\/a>\u00a0,\u00a0<a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0004370225001791#bib0010\">[10]<\/a>\u00a0que dans celui de la s\u00e9curit\u00e9 de l&#8217;IA\u00a0<a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0004370225001791#bib0011\">[11]<\/a>\u00a0,\u00a0<a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0004370225001791#bib0012\">[12]<\/a>\u00a0, pour l&#8217;application de l&#8217;apprentissage par renforcement (AR)\u00a0<a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0004370225001791#bib0013\">[13]<\/a>\u00a0afin de r\u00e9soudre le probl\u00e8me complexe de\u00a0<\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><em>l&#8217;alignement des valeurs<\/em>\u00a0. Une approche courante dans ces deux communaut\u00e9s consiste \u00e0 cr\u00e9er des environnements incitant \u00e0 adopter des comportements \u00e9thiques. Ces incitations sont g\u00e9n\u00e9ralement introduites par des fonctions de r\u00e9compense exog\u00e8nes (par exemple,\u00a0<a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0004370225001791#bib0014\">[14]<\/a>\u00a0,\u00a0<a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0004370225001791#bib0015\">[15]<\/a>\u00a0,\u00a0<a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0004370225001791#bib0016\">[16]<\/a>\u00a0,\u00a0<a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0004370225001791#bib0017\">[17]<\/a>\u00a0,\u00a0<a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0004370225001791#bib0018\">[18]<\/a>\u00a0. La sp\u00e9cification de ces fonctions de r\u00e9compense repose sur des principes \u00e9thiques. Les r\u00e9compenses sont ensuite int\u00e9gr\u00e9es \u00e0 l&#8217;environnement d&#8217;apprentissage de l&#8217;agent gr\u00e2ce \u00e0 un processus\u00a0<\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><em>d&#8217;int\u00e9gration \u00e9thique<\/em>\u00a0. Cependant, dans toutes ces approches d&#8217;apprentissage, les principes \u00e9thiques sous-tendent une valeur morale unique. Il est largement admis en \u00e9thique que les soci\u00e9t\u00e9s humaines d\u00e9fendent de multiples valeurs morales, hi\u00e9rarchis\u00e9es selon leur importance relative (c\u2019est-\u00e0-dire en consid\u00e9rant d\u2019abord ce qui est le plus valoris\u00e9. Cet ensemble ordonn\u00e9 de valeurs est souvent appel\u00e9\u00a0<em>syst\u00e8me de valeurs<\/em>\u00a0. \u00c0 notre connaissance, garantir qu\u2019un individu apprenne \u00e0 se comporter conform\u00e9ment \u00e0 un syst\u00e8me de valeurs demeure un probl\u00e8me ouvert, bien qu\u2019il s\u2019agisse du cas le plus fr\u00e9quent dans nos soci\u00e9t\u00e9s\u00a0<a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0004370225001791#bib0020\">[20]<\/a>\u00a0.Dans ce contexte, notre travail vise \u00e0 automatiser la conception d&#8217;\u00a0<\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><em>environnements \u00e9thiques<\/em>\u00a0incitant un agent \u00e0 adopter un comportement conforme \u00e0 un syst\u00e8me de valeurs, tout en poursuivant son objectif individuel. Pour ce faire, nous assimilons cet objectif \u00e0 la valeur morale de la\u00a0<a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0004370225001791#fn0001\"><sup>r\u00e9ussite<\/sup><\/a><em>,<\/em>\u00a0int\u00e9gr\u00e9e au syst\u00e8me de valeurs consid\u00e9r\u00e9 et prioris\u00e9e par rapport aux autres valeurs morales. De plus, nous adh\u00e9rons au principe selon lequel \u00ab la fin ne justifie pas les moyens \u00bb et affirmons que la r\u00e9ussite doit toujours \u00eatre subordonn\u00e9e aux normes \u00e9thiques sup\u00e9rieures du syst\u00e8me de valeurs (telles que, par exemple, la non-malfaisance).<\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0004370225001791#fn0001\"><sup><\/sup><\/a>Cet article aborde le probl\u00e8me de l&#8217;alignement des valeurs en proposant un nouveau processus d&#8217;int\u00e9gration \u00e9thique dans un contexte d&#8217;apprentissage par renforcement. \u00c0 partir d&#8217;un syst\u00e8me de valeurs sociales initial donn\u00e9, nous l&#8217;enrichissons d&#8217;abord en y int\u00e9grant la valeur morale de la r\u00e9ussite, qui englobe l&#8217;objectif individuel de l&#8217;agent, comme illustr\u00e9 dans&nbsp;<\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0004370225001791#fig0001\">la figure 1<\/a>&nbsp;(en haut \u00e0 gauche). Ensuite, notre int\u00e9gration \u00e9thique structure l&#8217;environnement d&#8217;apprentissage, garantissant ainsi que l&#8217;agent sera incit\u00e9 \u00e0 adopter un comportement \u00e9thique conforme au syst\u00e8me de valeurs enrichi. Puisque nous consid\u00e9rons plusieurs valeurs, nous d\u00e9signons l&#8217;int\u00e9gration \u00e9thique d&#8217;un syst\u00e8me de valeurs par l&#8217;expression \u00ab&nbsp;int\u00e9gration \u00e9thique multivalu\u00e9e&nbsp;\u00bb (IEMV), ou simplement \u00ab&nbsp;int\u00e9gration \u00e9thique&nbsp;\u00bb par souci de clart\u00e9.<\/p>\n\n\n<div class=\"wp-block-image\">\n<figure class=\"aligncenter size-large is-resized\"><img fetchpriority=\"high\" decoding=\"async\" width=\"1024\" height=\"315\" src=\"https:\/\/sahelib.atatec-design.com\/wp-content\/uploads\/2020\/05\/Capture-decran-2025-12-15-a-19.25.49-1-1024x315.png\" alt=\"\" class=\"wp-image-6670\" style=\"aspect-ratio:3.2547544631032475;width:693px;height:auto\" srcset=\"https:\/\/sahelib.atatec-design.com\/wp-content\/uploads\/2020\/05\/Capture-decran-2025-12-15-a-19.25.49-1-1024x315.png 1024w, https:\/\/sahelib.atatec-design.com\/wp-content\/uploads\/2020\/05\/Capture-decran-2025-12-15-a-19.25.49-1-300x92.png 300w, https:\/\/sahelib.atatec-design.com\/wp-content\/uploads\/2020\/05\/Capture-decran-2025-12-15-a-19.25.49-1-768x236.png 768w, https:\/\/sahelib.atatec-design.com\/wp-content\/uploads\/2020\/05\/Capture-decran-2025-12-15-a-19.25.49-1-20x6.png 20w, https:\/\/sahelib.atatec-design.com\/wp-content\/uploads\/2020\/05\/Capture-decran-2025-12-15-a-19.25.49-1-32x10.png 32w, https:\/\/sahelib.atatec-design.com\/wp-content\/uploads\/2020\/05\/Capture-decran-2025-12-15-a-19.25.49-1-600x184.png 600w, https:\/\/sahelib.atatec-design.com\/wp-content\/uploads\/2020\/05\/Capture-decran-2025-12-15-a-19.25.49-1.png 1380w\" sizes=\"(max-width: 1024px) 100vw, 1024px\" \/><\/figure>\n<\/div>\n\n\n<p class=\"wp-block-paragraph\" id=\"sp0003\">Fig. 1.\u00a0Processus\u00a0d&#8217;int\u00e9gration \u00e9thique multivalu\u00e9e (MVEE) pour la conception d&#8217;environnements (de gauche \u00e0 droite)\u00a0: calcul de l&#8217;enveloppe convexe partielle, extraction de la politique \u00e9thique et calcul du vecteur de pond\u00e9ration de la solution. Le processus prend en entr\u00e9e un environnement multiobjectif.associ\u00e9 \u00e0 un syst\u00e8me de valeurs enrichiet renvoie en sortie un environnement \u00e9thique (\u00e0 objectif unique)Les rectangles repr\u00e9sentent des objets, tandis que les rectangles arrondis correspondent \u00e0 des processus. La couleur verte indique qu&#8217;un objet donn\u00e9 est soit un syst\u00e8me de valeurs, soit un environnement o\u00f9 l&#8217;adh\u00e9sion \u00e0 ce syst\u00e8me de valeurs est encourag\u00e9e. (Pour l&#8217;interpr\u00e9tation des r\u00e9f\u00e9rences aux couleurs dans cette l\u00e9gende, veuillez consulter la version en ligne de cet article.)Nos contributions sont triples. Premi\u00e8rement, nous formalisons le probl\u00e8me d&#8217;int\u00e9gration \u00e9thique multivalu\u00e9e dans le cadre des processus de d\u00e9cision markoviens multiobjectifs (MOMDP)<a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0004370225001791#bib0025\">[25]<\/a>\u00a0,\u00a0<a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0004370225001791#bib0026\">[26]<\/a>\u00a0. Cette formalisation mod\u00e9lise les valeurs morales comme des objectifs \u00e9thiques au sein d&#8217;un processus de d\u00e9cision markovien\u00a0<em>multivalu\u00e9<\/em>\u00a0, une instance de processus de d\u00e9cision markovien multiobjectif (MDP multiobjectif). De plus, notre formalisation ouvre la voie \u00e0 notre d\u00e9finition des politiques\u00a0<em>\u00e9thiques<\/em>\u00a0, qui caract\u00e9risent le comportement d&#8217;un agent align\u00e9 sur un syst\u00e8me de valeurs (c&#8217;est-\u00e0-dire en accord avec les valeurs morales et respectueux des pr\u00e9f\u00e9rences relatives \u00e0 ces valeurs). Enfin, la prise en compte de plusieurs objectifs requiert des algorithmes sp\u00e9cifiques (plus complexes) pour un agent apprenant. Afin de faciliter l&#8217;apprentissage de l&#8217;agent, nous reformulons le probl\u00e8me d&#8217;int\u00e9gration \u00e9thique comme la recherche du MDP monoobjectif qui int\u00e8gre tous les objectifs \u00e9thiques (de sorte que les politiques optimales dans ce MDP soient \u00e9thiques). \u00c0 cette fin, nous suivons l&#8217;approche dominante (par exemple\u00a0<a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0004370225001791#bib0016\">[16]<\/a>\u00a0,\u00a0<a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0004370225001791#bib0018\">[18]<\/a>\u00a0) consistant \u00e0 appliquer une fonction de scalarisation lin\u00e9aire qui\u00a0<em>pond\u00e8re<\/em>\u00a0les r\u00e9compenses li\u00e9es \u00e0 chaque objectif \u00e9thique.Deuxi\u00e8mement, nous proposons un nouvel algorithme pour r\u00e9soudre le probl\u00e8me d&#8217;int\u00e9gration \u00e9thique, qui g\u00e9n\u00e9ralise le processus d&#8217;int\u00e9gration \u00e9thique \u00e0 valeur unique pr\u00e9sent\u00e9 dans\u00a0<a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0004370225001791#bib0019\">[19]<\/a>\u00a0. Notre nouvel algorithme combine les d\u00e9veloppements r\u00e9cents de l&#8217;apprentissage par renforcement multi-objectif (pour calculer les politiques \u00e9thiques) avec la programmation lin\u00e9aire (pour calculer la pond\u00e9ration des objectifs \u00e9thiques).\u00a0<a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0004370225001791#fig0001\">La figure 1<\/a>\u00a0illustre cet algorithme, qui transforme un environnement multi-objectif d&#8217;entr\u00e9e.dans un environnement \u00e9thique \u00e0 objectif uniqueDans cet environnement \u00e0 objectif unique, l&#8217;agent peut ainsi appliquer une m\u00e9thode d&#8217;apprentissage par renforcement standard, et il est garanti qu&#8217;il sera incit\u00e9 \u00e0 apprendre une politique align\u00e9e sur le syst\u00e8me de valeurs en question.Troisi\u00e8mement, nous illustrons notre processus d&#8217;int\u00e9gration \u00e9thique en l&#8217;appliquant \u00e0 un sc\u00e9nario de conduite autonome in\u00e9dit (et simple), comprenant trois valeurs morales (s\u00e9curit\u00e9, r\u00e9ussite et confort), la valeur de r\u00e9ussite repr\u00e9sentant l&#8217;objectif individuel des agents. Ces valeurs ont \u00e9t\u00e9 choisies en nous inspirant de celles d\u00e9crites par Caballero et dans\u00a0Nous montrons qu&#8217;un agent apprend \u00e0 se comporter conform\u00e9ment \u00e0 un syst\u00e8me de valeurs gr\u00e2ce \u00e0 un algorithme d&#8217;apprentissage par renforcement (Q-learning). De plus, nous \u00e9tudions les diff\u00e9rences entre les comportements align\u00e9s sur les valeurs qu&#8217;un agent apprendrait en fonction de ses pr\u00e9f\u00e9rences pour les valeurs consid\u00e9r\u00e9es. Notre \u00e9tude confirme que des comportements significativement diff\u00e9rents \u00e9mergent selon les pr\u00e9f\u00e9rences relatives aux valeurs au sein d&#8217;un syst\u00e8me de valeurs. Cependant, les valeurs mentionn\u00e9es ci-dessus ne repr\u00e9sentant qu&#8217;un sous-ensemble de celles propos\u00e9es par Caballero et al., nous analysons empiriquement le co\u00fbt de calcul n\u00e9cessaire pour garantir un apprentissage \u00e9thique lorsque le nombre de valeurs au sein d&#8217;un syst\u00e8me de valeurs augmente. Pour ce faire, nous utilisons le g\u00e9n\u00e9rateur d&#8217;environnements synth\u00e9tiques multi-objectifs de Notre analyse indique que notre algorithme d&#8217;int\u00e9gration \u00e9thique parvient \u00e0 r\u00e9aliser l&#8217;int\u00e9gration \u00e9thique d&#8217;environnements comportant jusqu&#8217;\u00e0 huit objectifs et pr\u00e8s de 10\u2076\u00a0<sup>\u00e9tats<\/sup>\u00a0en moins de cinq heures. Cependant, nous observons \u00e9galement que son co\u00fbt de calcul cro\u00eet exponentiellement avec le nombre de valeurs consid\u00e9r\u00e9es.Enfin, il convient de noter que les travaux pr\u00e9sent\u00e9s dans cet article g\u00e9n\u00e9ralisent nos travaux initiaux\u00a0\u00a0et\u00a0qui portaient sur le d\u00e9veloppement de fondements th\u00e9oriques et d&#8217;outils algorithmiques pour la conception d&#8217;un environnement d&#8217;apprentissage garantissant une valeur morale unique. Par cons\u00e9quent, les contributions de\u00a0<a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0004370225001791#bib0019\">[19]<\/a>\u00a0et\u00a0<a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0004370225001791#bib0031\">[31]<\/a>\u00a0doivent d\u00e9sormais \u00eatre consid\u00e9r\u00e9es comme un cas particulier de l&#8217;approche de conception d&#8217;environnements \u00e9thiques pr\u00e9sent\u00e9e ici.Le reste de cet article est organis\u00e9 comme suit.\u00a0<a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0004370225001791#sec0002\">La section 2<\/a>\u00a0pr\u00e9sente les notions de base n\u00e9cessaires \u00e0 l&#8217;apprentissage par renforcement multi-objectif et \u00e0 l&#8217;\u00e9thique.\u00a0<a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0004370225001791#sec0008\">La section 3<\/a>\u00a0introduit formellement notre probl\u00e8me d&#8217;int\u00e9gration \u00e9thique et le type d&#8217;environnements cibl\u00e9s.\u00a0<a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0004370225001791#sec0011\">La section 4<\/a>\u00a0d\u00e9taille notre algorithme de construction d&#8217;environnements \u00e9thiques.\u00a0<a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0004370225001791#sec0017\">La section 5<\/a>\u00a0pr\u00e9sente l&#8217;analyse empirique de cet algorithme. Enfin,\u00a0<a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0004370225001791#sec0026\">la section 6<\/a>\u00a0aborde les travaux connexes et\u00a0<a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0004370225001791#sec0030\">la section 7<\/a>\u00a0conclut et propose des pistes pour les recherches futures.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\" id=\"sp0003\">2.&nbsp;Contexte\u200b<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Cette section vise \u00e0 pr\u00e9senter les notions fondamentales de notre approche de la conception d&#8217;environnements \u00e9thiques par apprentissage par renforcement.&nbsp;<\/p>\n\n\n\n<ul class=\"wp-block-list\">\n<li><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0004370225001791#sec0003\">La section 2.1<\/a>&nbsp;introduit l&#8217;apprentissage par renforcement mono-objectif.&nbsp;<\/li>\n\n\n\n<li><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0004370225001791#sec0004\">La section 2.2<\/a>&nbsp;aborde ensuite l&#8217;apprentissage par renforcement multi-objectif. Enfin,&nbsp;<\/li>\n\n\n\n<li><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0004370225001791#sec0007\">la section 2.3<\/a>&nbsp;expose les concepts \u00e9thiques essentiels \u00e0 la compr\u00e9hension du r\u00f4le des valeurs morales dans notre approche.<\/li>\n<\/ul>\n\n\n\n<h3 class=\"wp-block-heading\" id=\"sctt0007\">2.1&nbsp;.&nbsp;Apprentissage par renforcement mono-objectif<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">Dans l&#8217;apprentissage par renforcement mono-objectif (RL), l&#8217;environnement d&#8217;apprentissage de l&#8217;agent est formalis\u00e9 comme un\u00a0<em>processus de d\u00e9cision markovien<\/em>\u00a0(MDP)\u00a0<a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0004370225001791#bib0013\">[13]<\/a>\u00a0,\u00a0<a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0004370225001791#bib0032\">[32]<\/a>\u00a0,\u00a0<a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0004370225001791#bib0033\">[33]<\/a>\u00a0. Un MDP d\u00e9finit un environnement dans lequel un agent peut agir de mani\u00e8re coh\u00e9rente pour le modifier et recevoir rapidement un signal de r\u00e9compense apr\u00e8s chaque action.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\" id=\"sctt0015\">3. Formalisation du probl\u00e8me&nbsp;d&#8217;&nbsp;int\u00e9gration \u00e9thique multivalu\u00e9e<\/h2>\n\n\n\n<p class=\"wp-block-paragraph\">Dans cette section, nous formalisons le probl\u00e8me\u00a0<em>de l&#8217;int\u00e9gration \u00e9thique<\/em>\u00a0en consid\u00e9rant de multiples valeurs morales. Comme indiqu\u00e9 pr\u00e9c\u00e9demment, notre objectif principal est de concevoir un environnement qui incite un agent \u00e0 adopter un comportement \u00e9thique, c&#8217;est-\u00e0-dire conforme \u00e0 un syst\u00e8me de valeurs morales multiples. Comme mentionn\u00e9 dans\u00a0<a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0004370225001791#sec0002\">la section 2<\/a>\u00a0, la litt\u00e9rature \u00e9thique consid\u00e8re que les valeurs morales (\u00e9galement appel\u00e9es principes \u00e9thiques) expriment les objectifs moraux qu&#8217;il convient de poursuivre. <\/p>\n\n\n\n<ul class=\"wp-block-list\">\n<li>.<strong>Nous recherchons le vecteur de pond\u00e9ration minimal\u00a0:<\/strong>\u00a0deuxi\u00e8mement, nous supposons qu&#8217;inciter l&#8217;agent par des r\u00e9compenses \u00e9thiques a un co\u00fbt pour le concepteur ou l&#8217;agent. Prenons comme exemple le probl\u00e8me de la fixation des sanctions routi\u00e8res. Une amende d&#8217;un million d&#8217;euros pour exc\u00e8s de vitesse garantira probablement le respect des limitations. Cependant, il est probablement pr\u00e9f\u00e9rable de rechercher la sanction minimale qui garantira le respect du code de la route. Ainsi, <\/li>\n\n\n\n<li>Nous cherchons \u00e0 trouver le vecteur de pond\u00e9ration de la solution.qui a les poids les plus petits possibles (c&#8217;est-\u00e0-dire le vecteur de poids)avec les r\u00e9compenses cumul\u00e9es scalaris\u00e9es minimales pour l&#8217;agent).<\/li>\n<\/ul>\n\n\n\n<h2 class=\"wp-block-heading\" id=\"sctt0021\">4.&nbsp;R\u00e9solution du probl\u00e8me&nbsp;MVEE<\/h2>\n\n\n\n<p class=\"wp-block-paragraph\">Cette section explique comment calculer un vecteur de pond\u00e9ration de la solution pour le probl\u00e8me d&#8217;int\u00e9gration \u00e9thique multivalu\u00e9e (\u00a0<a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0004370225001791#enun0010\">Probl\u00e8me 1<\/a>\u00a0). Ce vecteur de pond\u00e9ration nous permettra de transformer notre processus de d\u00e9cision markovien multivalu\u00e9.dans un MDP (\u00e0 objectif unique)en combinant les r\u00e9compenses \u00e9thiques d\u00e9coulant du syst\u00e8me de valeursen une seule r\u00e9compense dans, l&#8217;environnement dans lequel l&#8217;agent apprend une politique align\u00e9e sur les valeurs.En bref, notre algorithme de r\u00e9solution du probl\u00e8me MVEE, appel\u00e9 algorithme\u00a0<em>d&#8217;int\u00e9gration \u00e9thique<\/em>\u00a0, effectue les trois \u00e9tapes suivantes (voir\u00a0<a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0004370225001791#fig0001\">Fig. 1<\/a>\u00a0)\u00a0:<\/p>\n\n\n\n<ul class=\"wp-block-list\">\n<li>1.<em>Calcul de l&#8217;enveloppe convexe partielle<\/em>\u00a0d&#8217;un processus de d\u00e9cision markovien multivalu\u00e9contenant le sous-ensemble\u00a0<em>P<\/em>\u00a0de politiques optimales pour un certain vecteur de poids avec des poids positifs.<\/li>\n\n\n\n<li>2.<em>Extraction d&#8217;une politique align\u00e9e sur les valeurs \u03c0\u00a0<\/em><sub>*<\/sub>\u00a0de l&#8217;enveloppe convexe partielle\u00a0<em>P<\/em>\u00a0.<\/li>\n\n\n\n<li>3.<em>Calcul du vecteur de pond\u00e9ration de la solution\u00a0: utiliser la politique\u00a0<\/em><em>\u03c0\u00a0<\/em><sub>*<\/sub>\u00a0extraite et align\u00e9e sur les valeurs\u00a0pour trouver une pond\u00e9rationdes r\u00e9compenses danspour cr\u00e9er un environnement \u00e9thique \u00e0 objectif uniquedans lequel toutes les politiques optimales sont garanties d&#8217;\u00eatre align\u00e9es sur les valeurs.<\/li>\n<\/ul>\n\n\n\n<h2 class=\"wp-block-heading\" id=\"sctt0027\">5.&nbsp;Analyse&nbsp;exp\u00e9rimentale<\/h2>\n\n\n\n<p class=\"wp-block-paragraph\">Cette section poursuit un triple objectif\u00a0: (i) illustrer notre processus de conception d\u2019un environnement \u00e9thique (voir\u00a0<a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0004370225001791#fig0001\">Fig.\u00a01<\/a>\u00a0)\u00a0; (ii) illustrer la sensibilit\u00e9 de la politique apprise au syst\u00e8me de valeurs choisi\u00a0; et (iii) r\u00e9aliser une analyse empirique du co\u00fbt de calcul n\u00e9cessaire \u00e0 la conception d\u2019environnements \u00e9thiques. Face au manque d\u2019environnements d\u2019apprentissage par renforcement multi-objectifs de r\u00e9f\u00e9rence prenant en compte plusieurs objectifs \u00e9thiques, nous proposons un environnement de v\u00e9hicule autonome novateur et simple. Cet environnement s\u2019inspire des travaux de Caballero et al.\u00a0<a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0004370225001791#bib0027\">[27]<\/a>\u00a0,\u00a0<a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0004370225001791#bib0028\">[28]<\/a>\u00a0, qui offrent une taxonomie compl\u00e8te des objectifs \u00e9thiques dans le domaine des v\u00e9hicules autonomes et \u00e9tudient le probl\u00e8me selon une perspective de prise de d\u00e9cision non s\u00e9quentielle, sans apprentissage. Dans notre environnement, nous consid\u00e9rons les valeurs morales de s\u00e9curit\u00e9, de r\u00e9ussite et de confort afin d\u2019illustrer notre approche et la sensibilit\u00e9 de la politique apprise aux diff\u00e9rentes priorit\u00e9s de valeurs. Cependant, la taxonomie propos\u00e9e par Caballero et al. indique qu\u2019un agent align\u00e9 sur des valeurs doit potentiellement g\u00e9rer des environnements multi-objectifs consid\u00e9rant plus de trois valeurs. Ainsi, pour analyser le co\u00fbt de l&#8217;application de notre processus d&#8217;int\u00e9gration \u00e9thique \u00e0 des environnements dot\u00e9s de syst\u00e8mes de valeurs importants, nous avons recours \u00e0 l&#8217;environnement synth\u00e9tique WalkRoom\u00a0<a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0004370225001791#bib0030\">[30]<\/a>\u00a0, l&#8217;un des rares environnements \u00e0 objectifs multiples\u00a0<a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0004370225001791#fn0006\"><sup>dans<\/sup><\/a>\u00a0la litt\u00e9rature sur l&#8217;apprentissage par renforcement\u00a0<a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0004370225001791#bib0052\">[52]<\/a>\u00a0.Le reste de cette section est organis\u00e9 comme suit.\u00a0<a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0004370225001791#sec0018\">La section 5.1<\/a>\u00a0illustre l&#8217;application de notre algorithme d&#8217;int\u00e9gration \u00e9thique \u00e0 l&#8217;environnement des v\u00e9hicules autonomes. Ensuite,\u00a0<a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0004370225001791#sec0023\">la section 5.2<\/a>\u00a0analyse le co\u00fbt de calcul n\u00e9cessaire pour garantir un apprentissage \u00e9thique dans un environnement synth\u00e9tique \u00e0 objectifs multiples, o\u00f9 chaque objectif correspond \u00e0 une valeur.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\" id=\"sctt0028\">5.1&nbsp;.&nbsp;Environnement de voiture autonome \u00e0 valeurs multiples<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">L&#8217;environnement de la voiture autonome \u00e0 valeurs multiples est globalement caract\u00e9ris\u00e9 comme une route \u00e0 deux voies sur laquelle une voiture autonome (l&#8217;agent apprenant) se dirige vers sa destination.\u00a0<a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0004370225001791#fig0002\">La figure 2<\/a>\u00a0(a) repr\u00e9sente l&#8217;\u00e9tat initial de l&#8217;environnement\u00a0: la voiture autonome est figur\u00e9e par un cercle noir avec un C, et l&#8217;objectif par deux cases avec un X. La route pr\u00e9sente des irr\u00e9gularit\u00e9s (carr\u00e9s violets) et des pi\u00e9tons (cercles noirs avec un P) que la voiture peut rencontrer. Les pi\u00e9tons ne peuvent traverser que les cases rouges (repr\u00e9sentant les rues pi\u00e9tonnes interdites \u00e0 la voiture) ou les cases bleues (repr\u00e9sentant les passages pi\u00e9tons). La voiture autonome peut circuler sur les cases grises et bleues.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\" id=\"sctt0036\">6.&nbsp;Travaux&nbsp;connexes<\/h2>\n\n\n\n<p class=\"wp-block-paragraph\">La litt\u00e9rature sur l&#8217;alignement des valeurs en IA se divise en deux grandes communaut\u00e9s\u00a0: la communaut\u00e9 de la s\u00e9curit\u00e9 de l&#8217;IA\u00a0<a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0004370225001791#bib0011\">[11]<\/a>\u00a0,\u00a0<a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0004370225001791#bib0012\">[12]<\/a>\u00a0et la communaut\u00e9 de l&#8217;\u00e9thique des machines\u00a0<a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0004370225001791#bib0009\">[9]<\/a>\u00a0,\u00a0<a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0004370225001791#bib0010\">[10]<\/a>\u00a0. Bien que ces deux communaut\u00e9s communiquent rarement entre elles, notre travail vise \u00e0 faciliter leur dialogue. Nous pr\u00e9sentons d&#8217;abord un r\u00e9sum\u00e9 des axes de recherche de chaque communaut\u00e9, puis nous expliquons comment cet article \u00e9tablit des liens entre elles.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\" id=\"sctt0037\">6.1&nbsp;.&nbsp;S\u00e9curit\u00e9 de l&#8217;IA<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">D&#8217;une part, la s\u00e9curit\u00e9 de l&#8217;IA vise \u00e0 pr\u00e9venir tout dommage que l&#8217;agent pourrait s&#8217;infliger \u00e0 lui-m\u00eame ou \u00e0 autrui\u00a0<a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0004370225001791#bib0011\">[11]<\/a>\u00a0en garantissant un comportement s\u00fbr. L&#8217;approche g\u00e9n\u00e9rale pour y parvenir consiste \u00e0 contraindre\u00a0<a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0004370225001791#bib0061\">[61]<\/a>\u00a0,\u00a0<a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0004370225001791#bib0062\">[62]<\/a>\u00a0l&#8217;agent afin qu&#8217;il atteigne son objectif tout en \u00e9vitant tout r\u00e9sultat\u00a0<em>dangereux<\/em>\u00a0. Ces r\u00e9sultats dangereux sont d\u00e9finis de diff\u00e9rentes mani\u00e8res, par exemple en minimisant les effets secondaires de l&#8217;agent\u00a0<a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0004370225001791#bib0063\">[63]<\/a>\u00a0,\u00a0<a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0004370225001791#bib0064\">[64]<\/a>\u00a0ou en r\u00e9duisant son impact sur l&#8217;environnement\u00a0<a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0004370225001791#bib0012\">[12]<\/a>\u00a0,\u00a0<a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0004370225001791#bib0054\">[54]<\/a>\u00a0. La litt\u00e9rature sur la s\u00e9curit\u00e9 de l&#8217;IA distingue \u00e9galement les situations o\u00f9 l&#8217;agent doit \u00eatre prot\u00e9g\u00e9 des r\u00e9sultats dangereux une fois d\u00e9ploy\u00e9, et celles o\u00f9 il doit \u00e9galement \u00eatre prot\u00e9g\u00e9 pendant son entra\u00eenement\u00a0<a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0004370225001791#bib0065\">[65]<\/a>\u00a0,\u00a0<a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0004370225001791#bib0066\">[66]<\/a>\u00a0. Bien que ces travaux garantissent un comportement s\u00fbr de l&#8217;agent, ils ne permettent pas de garantir l&#8217;alignement sur une autre valeur, ni sur un syst\u00e8me de valeurs compos\u00e9 de plusieurs valeurs, en se concentrant exclusivement sur la s\u00e9curit\u00e9. Dans notre travail, le processus d&#8217;int\u00e9gration \u00e9thique multivalu\u00e9e permet de mod\u00e9liser la s\u00e9curit\u00e9 comme l&#8217;une des valeurs du syst\u00e8me de valeurs auquel l&#8217;agent est cens\u00e9 adh\u00e9rer. Si, dans un syst\u00e8me de valeurs donn\u00e9, la s\u00e9curit\u00e9 est la valeur prioritaire, notre processus d&#8217;int\u00e9gration \u00e9thique garantit un comportement optimal de l&#8217;agent en mati\u00e8re de s\u00e9curit\u00e9. Si une autre valeur est prioritaire, le m\u00eame algorithme d&#8217;int\u00e9gration \u00e9thique con\u00e7oit un environnement diff\u00e9rent, adapt\u00e9 aux priorit\u00e9s de ce syst\u00e8me de valeurs.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\" id=\"sctt0038\">6.2&nbsp;.&nbsp;\u00c9thique des machines<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">D&#8217;autre part, l&#8217;\u00e9thique des machines vise \u00e0 d\u00e9velopper des agents b\u00e9n\u00e9fiques aux humains\u00a0<a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0004370225001791#bib0002\">[2]<\/a>\u00a0. L\u00e0 encore, diff\u00e9rentes \u00e9tudes d\u00e9finissent le terme\u00a0<em>\u00ab\u00a0b\u00e9n\u00e9fique\u00a0\u00bb<\/em>\u00a0de diverses mani\u00e8res (voir une synth\u00e8se exhaustive des diff\u00e9rentes d\u00e9finitions possibles du b\u00e9n\u00e9fice d&#8217;un point de vue computationnel dans\u00a0<a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0004370225001791#bib0041\">[41]<\/a>\u00a0,\u00a0<a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0004370225001791#bib0042\">[42]<\/a>\u00a0). Des efforts sont actuellement d\u00e9ploy\u00e9s pour d\u00e9finir et formaliser informatiquement les valeurs morales auxquelles un agent devrait adh\u00e9rer\u00a0<a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0004370225001791#bib0045\">[45]<\/a>\u00a0,\u00a0<a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0004370225001791#bib0067\">[67]<\/a>\u00a0pour \u00eatre b\u00e9n\u00e9fique. Une autre piste de recherche vise \u00e0 int\u00e9grer directement les diff\u00e9rentes th\u00e9ories morales dans le processus de d\u00e9cision de l&#8217;agent\u00a0<a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0004370225001791#bib0068\">[68]<\/a>\u00a0,\u00a0<a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0004370225001791#bib0069\">[69]<\/a>\u00a0. La litt\u00e9rature \u00e9tant encore loin de parvenir \u00e0 un consensus sur la d\u00e9finition correcte d&#8217;un comportement \u00e9thiquement b\u00e9n\u00e9fique, une approche agnostique alternative a \u00e9merg\u00e9, capable de fonctionner en situation d&#8217;incertitude morale\u00a0<a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0004370225001791#bib0070\">[70]<\/a>\u00a0. De m\u00eame, nos travaux pr\u00e9sentent un mod\u00e8le applicable \u00e0 tout syst\u00e8me de valeurs, ind\u00e9pendamment des valeurs auxquelles l&#8217;agent devrait adh\u00e9rer. Nous proposons une d\u00e9finition formelle de la structure d&#8217;un syst\u00e8me de valeurs compatible avec l&#8217;apprentissage par renforcement. En particulier, notre d\u00e9finition du syst\u00e8me de valeurs nous permet de concevoir informatiquement des environnements qui incitent l&#8217;agent \u00e0 se comporter conform\u00e9ment \u00e0 un syst\u00e8me de valeurs donn\u00e9.Il existe diff\u00e9rentes mani\u00e8res de classer la litt\u00e9rature sur l&#8217;\u00e9thique des machines. L&#8217;une d&#8217;elles concerne les diff\u00e9rentes m\u00e9thodes d&#8217;inculcation des comportements \u00e9thiques\u00a0: descendantes, ascendantes et hybrides, comme le montrent des \u00e9tudes telles que\u00a0<a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0004370225001791#bib0071\">[71]<\/a>\u00a0et\u00a0<a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0004370225001791#bib0072\">[72]<\/a>\u00a0. En r\u00e9sum\u00e9, les m\u00e9thodologies descendantes visent \u00e0 formaliser les connaissances \u00e9thiques pour une int\u00e9gration directe dans le comportement de l&#8217;agent, tandis que les strat\u00e9gies ascendantes impliquent que les agents apprennent ces connaissances par eux-m\u00eames. Quant aux approches hybrides, elles combinent les m\u00e9thodes descendantes et ascendantes.Plusieurs approches descendantes de formalisation des connaissances \u00e9thiques ont \u00e9t\u00e9 explor\u00e9es dans la litt\u00e9rature. Par exemple, Sierra et al.\u00a0<a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0004370225001791#bib0045\">[45]<\/a>\u00a0ont formalis\u00e9 les valeurs comme des pr\u00e9f\u00e9rences, tandis que Mercuur et al.\u00a0<a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0004370225001791#bib0073\">[73]<\/a>\u00a0ont introduit une distinction conceptuelle entre valeurs et normes, les valeurs constituant une composante statique du comportement des agents et les normes un \u00e9l\u00e9ment dynamique. De plus, Hansson et al. ont men\u00e9 des \u00e9tudes sur la relation formelle entre normes et valeurs\u00a0<a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0004370225001791#bib0074\">[74]<\/a>\u00a0. Dans de nombreuses approches, comme les travaux de Liscio et al.\u00a0<a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0004370225001791#bib0067\">[67]<\/a>\u00a0, les actions sont consid\u00e9r\u00e9es comme moralement bonnes ou mauvaises selon leur contexte. De m\u00eame, nos travaux d\u00e9finissent le degr\u00e9 d&#8217;alignement d&#8217;une action sur une valeur donn\u00e9e en fonction de l&#8217;\u00e9tat environnemental actuel. Une autre approche descendante de formalisation des connaissances \u00e9thiques consiste \u00e0 conceptualiser directement les th\u00e9ories morales en termes de processus de d\u00e9cision markoviens, comme dans les travaux de Nashed et al.\u00a0<a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0004370225001791#bib0068\">[68]<\/a>\u00a0,\u00a0<a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0004370225001791#bib0069\">[69]<\/a>\u00a0. Nashed et al. ajoutent une contrainte aux processus de d\u00e9cision des agents, les obligeant \u00e0 suivre les principes d&#8217;une th\u00e9orie \u00e9thique donn\u00e9e. Ainsi, les agents apprennent \u00e0 se comporter conform\u00e9ment aux contraintes de la th\u00e9orie \u00e9thique choisie (utilitarisme de l&#8217;acte, kantisme, etc.\u00a0<a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0004370225001791#fn0009\"><sup>[9<\/sup><\/a>\u00a0]). D&#8217;autres approches consid\u00e8rent des environnements o\u00f9 coexistent plusieurs valeurs morales et proposent de d\u00e9finir un syst\u00e8me de valeurs comme un ensemble de valeurs morales assorties de pr\u00e9f\u00e9rences entre elles\u00a0<a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0004370225001791#bib0027\">[27]<\/a>\u00a0,\u00a0<a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0004370225001791#bib0046\">[46]<\/a>\u00a0,\u00a0<a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0004370225001791#bib0047\">[47]<\/a>\u00a0,\u00a0<a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0004370225001791#bib0048\">[48]<\/a>\u00a0,\u00a0<a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0004370225001791#bib0076\">[76]<\/a>\u00a0. Nous appliquons ici une d\u00e9finition de syst\u00e8me de valeurs inspir\u00e9e de\u00a0<a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0004370225001791#bib0048\">[48]<\/a>\u00a0et l&#8217;\u00e9tendons au concept de\u00a0<\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><em>processus de d\u00e9cision markovien multivalu\u00e9<\/em>\u00a0afin de traiter les probl\u00e8mes de d\u00e9cision s\u00e9quentielle. De mani\u00e8re g\u00e9n\u00e9rale, les efforts d\u00e9ploy\u00e9s pour formaliser les valeurs morales et les th\u00e9ories morales constituent une contribution significative au domaine de l&#8217;alignement des valeurs. En effet, les approches descendantes garantissent g\u00e9n\u00e9ralement qu&#8217;un agent qui y adh\u00e8re adoptera un comportement \u00e9thique. Il est toutefois important de noter que ces approches impliquent souvent des co\u00fbts de calcul importants et peuvent, dans les sc\u00e9narios les plus complexes, devenir impraticables. Par cons\u00e9quent, il est largement admis que les m\u00e9thodes purement descendantes ne suffisent pas \u00e0 r\u00e9soudre l\u2019int\u00e9gralit\u00e9 du probl\u00e8me d\u2019alignement des valeurs, comme l\u2019expliquent Arnold et al.\u00a0<a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0004370225001791#bib0040\">[40]<\/a>\u00a0.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\" id=\"sctt0039\">6.3&nbsp;.&nbsp;Apprentissage par renforcement pour l&#8217;alignement<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">En adoptant une approche ascendante, l&#8217;objectif est d&#8217;apprendre \u00e0 l&#8217;agent \u00e0 adopter un comportement conforme aux valeurs \u00e9thiques, sans d\u00e9finir explicitement ce qui est \u00e9thique. Actuellement, la plupart des approches traitent ce probl\u00e8me d&#8217;apprentissage \u00e9thique par l&#8217;apprentissage par renforcement, suivant les travaux de Russell, Soares et Fallenstein, entre autres\u00a0<a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0004370225001791#bib0001\">[1]<\/a>\u00a0,\u00a0<a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0004370225001791#bib0002\">[2]<\/a>\u00a0. Plus pr\u00e9cis\u00e9ment, l&#8217;apprentissage par renforcement\u00a0<em>inverse<\/em>\u00a0(IRL)\u00a0<a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0004370225001791#bib0077\">[77]<\/a>\u00a0a \u00e9t\u00e9 propos\u00e9 comme solution potentielle au probl\u00e8me de l&#8217;alignement des valeurs. Dans l&#8217;apprentissage par renforcement inverse, l&#8217;agent ignore sa fonction de r\u00e9compense. Il doit plut\u00f4t apprendre ses r\u00e9compenses en \u00e9tudiant la politique optimale. Appliqu\u00e9e au probl\u00e8me de l&#8217;alignement des valeurs, cette m\u00e9thodologie permettrait \u00e0 un agent de d\u00e9couvrir les valeurs morales des humains (la fonction de r\u00e9compense cach\u00e9e) en observant leur comportement (la politique optimale)\u00a0<a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0004370225001791#bib0014\">[14]<\/a>\u00a0,\u00a0<a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0004370225001791#bib0015\">[15]<\/a>\u00a0,\u00a0<a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0004370225001791#bib0017\">[17]<\/a>\u00a0,\u00a0<a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0004370225001791#bib0078\">[78]<\/a>\u00a0. Cependant, les approches d&#8217;apprentissage par renforcement inverse, et les approches ascendantes en g\u00e9n\u00e9ral, pr\u00e9sentent \u00e9galement plusieurs limites. Tout d&#8217;abord, nombre d&#8217;entre eux consid\u00e8rent le probl\u00e8me de la sp\u00e9cification des r\u00e9compenses comme \u00e9quivalent au probl\u00e8me global de l&#8217;alignement des valeurs, partant du principe que l&#8217;agent n&#8217;a d&#8217;autre objectif que d&#8217;agir de mani\u00e8re \u00e9thique, sans tenir compte du fait qu&#8217;il puisse avoir ses propres objectifs. Ce probl\u00e8me a commenc\u00e9 \u00e0 \u00eatre abord\u00e9 r\u00e9cemment, en conceptualisant l&#8217;alignement des valeurs comme un processus en deux \u00e9tapes (sp\u00e9cification des r\u00e9compenses et int\u00e9gration \u00e9thique) qui doit prendre en compte les objectifs propres de l&#8217;agent (voir par exemple\u00a0<a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0004370225001791#bib0016\">[16]<\/a>\u00a0,\u00a0<a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0004370225001791#bib0017\">[17]<\/a>\u00a0,\u00a0<a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0004370225001791#bib0018\">[18]<\/a>\u00a0,\u00a0<a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0004370225001791#bib0019\">[19]<\/a>\u00a0,\u00a0<a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0004370225001791#bib0031\">[31]<\/a>\u00a0). En s\u00e9parant ces deux \u00e9tapes, l&#8217;environnement d&#8217;apprentissage de l&#8217;agent peut \u00eatre mod\u00e9lis\u00e9 de mani\u00e8re ad\u00e9quate comme un environnement d&#8217;apprentissage multi-objectif (par renforcement).Toutes ces approches consid\u00e8rent une combinaison lin\u00e9aire de r\u00e9compenses pour l&#8217;int\u00e9gration \u00e9thique, \u00e0 l&#8217;instar de notre approche. Cependant, aucune ne prend en compte le cas o\u00f9 l&#8217;agent pourrait devoir s&#8217;aligner sur plusieurs valeurs morales. Seuls les algorithmes de\u00a0<a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0004370225001791#bib0019\">[19]<\/a>\u00a0et\u00a0<a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0004370225001791#bib0031\">[31]<\/a>\u00a0abordent la question de la garantie qu&#8217;une combinaison lin\u00e9aire de l&#8217;objectif individuel et d&#8217;une valeur morale unique incite effectivement l&#8217;agent \u00e0 adopter un comportement \u00e9thique (c&#8217;est-\u00e0-dire conforme \u00e0 cette valeur morale). Ce dernier axe de recherche, men\u00e9 par Rodriguez-Soto et al., \u00e9tait initialement compatible uniquement avec l&#8217;apprentissage par renforcement tabulaire pour offrir des garanties th\u00e9oriques. Il est int\u00e9ressant de noter que cet axe a r\u00e9cemment \u00e9t\u00e9 adapt\u00e9 aux algorithmes d&#8217;apprentissage par renforcement profond dans\u00a0<a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0004370225001791#bib0079\">[79]<\/a>\u00a0. La m\u00e9thodologie d&#8217;apprentissage par renforcement profond de Mayoral-Macau et al. permet d&#8217;automatiser la pond\u00e9ration des r\u00e9compenses \u00e9thiques pour les syst\u00e8mes de valeurs \u00e0 valeur unique dans de vastes environnements comportant des millions d&#8217;\u00e9tats, au prix de la perte de toutes les garanties th\u00e9oriques de la m\u00e9thodologie de Rodriguez-Soto et al. Dans tous les autres travaux, il incombe au concepteur de l&#8217;environnement d&#8217;ajuster manuellement les r\u00e9compenses.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\" id=\"sctt0040\">7.&nbsp;Conclusion&nbsp;et perspectives<\/h2>\n\n\n\n<p class=\"wp-block-paragraph\">La litt\u00e9rature sur l&#8217;alignement des valeurs s&#8217;est concentr\u00e9e sur l&#8217;alignement d&#8217;un agent avec une seule valeur morale et, \u00e0 l&#8217;exception de\u00a0<a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0004370225001791#bib0031\">[31]<\/a>\u00a0, a n\u00e9glig\u00e9 les garanties relatives \u00e0 l&#8217;apprentissage \u00e9thique de l&#8217;agent. Nous avons ici abord\u00e9 le probl\u00e8me de la construction d&#8217;un environnement\u00a0<em>\u00e9thique<\/em>\u00a0garantissant qu&#8217;un agent apprenne une politique align\u00e9e sur de multiples valeurs morales.Nos contributions novatrices s&#8217;inscrivent dans le cadre des processus de d\u00e9cision markoviens multi-objectifs (MOMDP). Gr\u00e2ce aux MOMDP, nous formalisons la notion d&#8217;agent adoptant un comportement\u00a0<em>align\u00e9 sur des valeurs<\/em>\u00a0, c&#8217;est-\u00e0-dire suivant un syst\u00e8me de valeurs multiple. De plus, nous proposons un algorithme permettant de construire un environnement \u00e9thique gr\u00e2ce \u00e0 un processus\u00a0<em>d&#8217;int\u00e9gration \u00e9thique multivalu\u00e9<\/em>\u00a0. L&#8217;apprentissage d&#8217;une politique align\u00e9e sur des valeurs est garanti pour un agent dans un tel environnement, \u00e0 condition qu&#8217;il utilise un algorithme d&#8217;apprentissage par renforcement convergeant vers la politique optimale.De plus, nous \u00e9tablissons une distinction entre les politiques align\u00e9es sur les valeurs et les politiques \u00e9thiques afin de souligner la n\u00e9cessit\u00e9 de privil\u00e9gier les normes \u00e9thiques sup\u00e9rieures aux int\u00e9r\u00eats individualistes. Par cons\u00e9quent, garantir l&#8217;apprentissage des comportements \u00e9thiques implique \u00e9galement de choisir le syst\u00e8me de valeurs (\u00e9thique) appropri\u00e9. \u00c0 titre de preuve suppl\u00e9mentaire, notre analyse empirique a d\u00e9montr\u00e9 que la politique apprise dans un environnement \u00e9thique varie consid\u00e9rablement selon le syst\u00e8me de valeurs choisi. Ainsi, les concepteurs de politiques \u00e9thiques doivent d\u00e9cider avec soin de la hi\u00e9rarchisation des valeurs au sein du syst\u00e8me de valeurs \u00e0 int\u00e9grer dans un environnement \u00e9thique. Ils devraient collaborer avec une \u00e9quipe d&#8217;\u00e9thiciens et d&#8217;experts du domaine qui \u00e9valuent les normes \u00e9thiques par une analyse approfondie du domaine et des \u00e9tudes ant\u00e9rieures. D&#8217;un point de vue pragmatique, le concepteur s&#8217;interroge sur la mani\u00e8re d&#8217;analyser et de comparer diff\u00e9rentes politiques align\u00e9es sur les valeurs. Dans cet article, nous pr\u00e9sentons une m\u00e9thodologie permettant de relever ce d\u00e9fi. Premi\u00e8rement, le concepteur doit d\u00e9finir les syst\u00e8mes de valeurs candidats \u00e0 \u00e9tudier. De plus, ils doivent d\u00e9finir un ensemble de m\u00e9triques, appel\u00e9es\u00a0<em>m\u00e9triques \u00e9thiques<\/em>\u00a0, afin de\u00a0<em>quantifier<\/em>\u00a0le degr\u00e9 d&#8217;alignement d&#8217;une politique avec chaque valeur morale d&#8217;un syst\u00e8me de valeurs (par exemple, les temps de trajet jusqu&#8217;\u00e0 destination, les accidents, la conduite dangereuse et les irr\u00e9gularit\u00e9s de la route dans notre \u00e9tude de cas). Ensuite, le concepteur doit cr\u00e9er un environnement \u00e9thique par syst\u00e8me de valeurs \u00e0 l&#8217;aide de notre algorithme d&#8217;int\u00e9gration \u00e9thique. Il doit ensuite proc\u00e9der \u00e0 l&#8217;apprentissage des politiques pour chaque environnement \u00e9thique. Enfin, le concepteur peut d\u00e9ployer les politiques apprises afin de mesurer l&#8217;alignement de chaque politique avec chaque valeur morale. Le r\u00e9sultat de ces simulations permettra au concepteur de comparer les politiques align\u00e9es sur les valeurs, d&#8217;\u00e9liminer celles qui ne sont pas admissibles (par exemple, les politiques entra\u00eenant des accidents et des situations de conduite dangereuse) et, finalement, de s\u00e9lectionner le syst\u00e8me de valeurs \u00e0 d\u00e9ployer. Cependant, il convient de rappeler que pour que l&#8217;agent apprenne une politique \u00e9thique, le syst\u00e8me de valeurs s\u00e9lectionn\u00e9 doit n\u00e9cessairement privil\u00e9gier les normes \u00e9thiques les plus \u00e9lev\u00e9es (par exemple, la s\u00e9curit\u00e9) par rapport \u00e0 l&#8217;objectif individuel de l&#8217;agent.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">R\u00e9f\u00e9rences<\/h2>\n\n\n\n<ol id=\"reference-links-bibsec002\" class=\"wp-block-list\">\n<li><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0004370225001791#bbib0001\">[1]<\/a>N.\u00a0Soares\u00a0,\u00a0B.\u00a0FallensteinAligner la superintelligence sur les int\u00e9r\u00eats humains : un programme de recherche techniqueRapport technique n\u00b0 8 de l&#8217;Institut de recherche sur l&#8217;intelligence artificielle (MIRI)\u00a0(\u00a02014\u00a0)<a href=\"https:\/\/scholar.google.com\/scholar_lookup?title=Aligning%20Superintelligence%20with%20Human%20Interests%3A%20A%20Technical%20Research%20Agenda&amp;publication_year=2014&amp;author=N.%20Soares&amp;author=B.%20Fallenstein\" target=\"_blank\" rel=\"noreferrer noopener\">Google Scholar<\/a><\/li>\n\n\n\n<li><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0004370225001791#bbib0002\">[2]<\/a>S.\u00a0Russell\u00a0,\u00a0D.\u00a0Dewey\u00a0,\u00a0M.\u00a0TegmarkPriorit\u00e9s de recherche pour une intelligence artificielle robuste et b\u00e9n\u00e9fiqueAi Magazine\u00a0,\u00a036\u00a0(\u00a02015\u00a0)\u00a0, pp.\u00a0105\u00a0&#8211;\u00a0114\u00a0,\u00a0<a href=\"https:\/\/doi.org\/10.1609\/aimag.v36i4.2577\" target=\"_blank\" rel=\"noreferrer noopener\">10.1609\/aimag.v36i4.2577<\/a><a href=\"https:\/\/doi.org\/10.1609\/aimag.v36i4.2577\" target=\"_blank\" rel=\"noreferrer noopener\">View at publisher<\/a><a href=\"https:\/\/www.scopus.com\/inward\/record.url?eid=2-s2.0-85016237062&amp;partnerID=10&amp;rel=R3.0.0\" target=\"_blank\" rel=\"noreferrer noopener\">Voir dans Scopus\u00a0<\/a><a href=\"https:\/\/scholar.google.com\/scholar_lookup?title=Research%20priorities%20for%20robust%20and%20beneficial%20artificial%20intelligence&amp;publication_year=2015&amp;author=S.%20Russell&amp;author=D.%20Dewey&amp;author=M.%20Tegmark\" target=\"_blank\" rel=\"noreferrer noopener\">Google Scholar<\/a><\/li>\n\n\n\n<li><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0004370225001791#bbib0003\">[3]<\/a>R.\u00a0Chatila\u00a0,\u00a0V.\u00a0Dignum\u00a0,\u00a0M.\u00a0Fisher\u00a0,\u00a0F.\u00a0Giannotti\u00a0,\u00a0K.\u00a0Morik\u00a0,\u00a0S.\u00a0Russell\u00a0,\u00a0K.\u00a0YeungIA fiableR\u00e9flexions sur l&#8217;intelligence artificielle au service de l&#8217;humanit\u00e9\u00a0,\u00a0Springer\u00a0(\u00a02021\u00a0)\u00a0,\u00a0pp\u00a0.\u00a013-39<a href=\"https:\/\/doi.org\/10.1007\/978-3-030-69128-8_2\" target=\"_blank\" rel=\"noreferrer noopener\"><\/a><a href=\"https:\/\/www.scopus.com\/inward\/record.url?eid=2-s2.0-85101023547&amp;partnerID=10&amp;rel=R3.0.0\" target=\"_blank\" rel=\"noreferrer noopener\">Voir dans\u00a0<\/a><a href=\"https:\/\/doi.org\/10.1007\/978-3-030-69128-8_2\" target=\"_blank\" rel=\"noreferrer noopener\">Crossref et Scopus\u00a0<\/a><a href=\"https:\/\/scholar.google.com\/scholar_lookup?title=Trustworthy%20AI&amp;publication_year=2021&amp;author=R.%20Chatila&amp;author=V.%20Dignum&amp;author=M.%20Fisher&amp;author=F.%20Giannotti&amp;author=K.%20Morik&amp;author=S.%20Russell&amp;author=K.%20Yeung\" target=\"_blank\" rel=\"noreferrer noopener\">Google Scholar<\/a><\/li>\n\n\n\n<li><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0004370225001791#bbib0004\">[4]<\/a>IEEE, Initiative mondiale de l&#8217;IEEE sur l&#8217;\u00e9thique des syst\u00e8mes autonomes et intelligents, 2019, (\u00a0<a href=\"https:\/\/standards.ieee.org\/industry-connections\/ec\/autonomous-systems.html\" target=\"_blank\" rel=\"noreferrer noopener\">https:\/\/standards.ieee.org\/industry-connections\/ec\/autonomous-systems.html<\/a>\u00a0). Consult\u00e9 le 31 octobre 2024.<a href=\"https:\/\/scholar.google.com\/scholar?q=IEEE%2C%20IEEE%20global%20initiative%20on%20ethics%20of%20autonomous%20and%20intelligent%20systems%2C%202019%2C%20(https%3A%2F%2Fstandards.ieee.org%2Findustry-connections%2Fec%2Fautonomous-systems.html).%20Accessed%3A%202024-10-31.\" target=\"_blank\" rel=\"noreferrer noopener\">Google Scholar<\/a><\/li>\n\n\n\n<li><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0004370225001791#bbib0005\">[5]<\/a>E. Commission, Loi sur l&#8217;intelligence artificielle, 2021, (\u00a0<a href=\"https:\/\/eur-lex.europa.eu\/legal-content\/EN\/TXT\/?qid=1623335154975%26uri=CELEX%3A52021PC0206\" target=\"_blank\" rel=\"noreferrer noopener\">https:\/\/eur-lex.europa.eu\/legal-content\/EN\/TXT\/?qid=1623335154975%26uri=CELEX%3A52021PC0206<\/a>\u00a0). Consult\u00e9 le 29 juin 2021.<a href=\"https:\/\/scholar.google.com\/scholar?q=E.%20Comission%2C%20Artificial%20intelligence%20act%2C%202021%2C%20(https%3A%2F%2Feur-lex.europa.eu%2Flegal-content%2FEN%2FTXT%2F%3Fqid%3D1623335154975%2526uri%3DCELEX%253A52021PC0206).%20Accessed%3A%202021-06-29.\" target=\"_blank\" rel=\"noreferrer noopener\">Google Scholar<\/a><\/li>\n\n\n\n<li><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0004370225001791#bbib0006\">[6]<\/a>JP\u00a0Boada\u00a0,\u00a0BR\u00a0Maestre\u00a0,\u00a0CT\u00a0Gen\u00edsLes enjeux \u00e9thiques de la robotique d&#8217;assistance sociale\u00a0: une analyse critique de la litt\u00e9ratureTechnol. Soc.\u00a0,\u00a067\u00a0(\u00a02021\u00a0)\u00a0, Article\u00a0101726<a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0160791X21002013\/pdfft?md5=a3b4c6c8896dc91dd91f3ff3adc5ab05&amp;pid=1-s2.0-S0160791X21002013-main.pdf\" target=\"_blank\" rel=\"noreferrer noopener\">Voir le PDF<\/a><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0160791X21002013\">Voir l&#8217;article\u00a0<\/a><a href=\"https:\/\/www.scopus.com\/inward\/record.url?eid=2-s2.0-85113894494&amp;partnerID=10&amp;rel=R3.0.0\" target=\"_blank\" rel=\"noreferrer noopener\">Voir dans Scopus\u00a0<\/a><a href=\"https:\/\/scholar.google.com\/scholar_lookup?title=The%20ethical%20issues%20of%20social%20assistive%20robotics%3A%20a%20critical%20literature%20review&amp;publication_year=2021&amp;author=J.P.%20Boada&amp;author=B.R.%20Maestre&amp;author=C.T.%20Gen%C3%ADs\" target=\"_blank\" rel=\"noreferrer noopener\">Google Scholar<\/a><\/li>\n\n\n\n<li><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0004370225001791#bbib0007\">[7]<\/a>SO\u00a0HanssonLa structure des valeurs et des normesCambridge Studies in Probability, Induction and Decision Theory\u00a0,\u00a0Cambridge University Press\u00a0,\u00a0Cambridge\u00a0(\u00a02001\u00a0)\u00a0,\u00a0<a href=\"https:\/\/doi.org\/10.1017\/CBO9780511498466\" target=\"_blank\" rel=\"noreferrer noopener\">10.1017\/CBO9780511498466<\/a><a href=\"https:\/\/scholar.google.com\/scholar_lookup?title=The%20Structure%20of%20Values%20and%20Norms&amp;publication_year=2001&amp;author=S.O.%20Hansson\" target=\"_blank\" rel=\"noreferrer noopener\">Google Scholar<\/a><\/li>\n\n\n\n<li><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0004370225001791#bbib0008\">[8]<\/a>J.\u00a0Casas-Roma\u00a0,\u00a0J.\u00a0ConesaVers la conception d&#8217;agents conversationnels p\u00e9dagogiques \u00e9thiquement responsablesConf\u00e9rence internationale sur le calcul P2P, parall\u00e8le, en grille, en nuage et sur Internet\u00a0,\u00a0Springer\u00a0(\u00a02020\u00a0)\u00a0,\u00a0p\u00a0.\u00a0188-198<a href=\"https:\/\/scholar.google.com\/scholar_lookup?title=Towards%20the%20design%20of%20ethically-aware%20pedagogical%20conversational%20agents&amp;publication_year=2020&amp;author=J.%20Casas-Roma&amp;author=J.%20Conesa\" target=\"_blank\" rel=\"noreferrer noopener\">Google Scholar<\/a><\/li>\n\n\n\n<li><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0004370225001791#bbib0009\">[9]<\/a>H.\u00a0Yu\u00a0,\u00a0Z.\u00a0Shen\u00a0,\u00a0C.\u00a0Miao\u00a0,\u00a0C.\u00a0Leung\u00a0,\u00a0VR\u00a0Lesser\u00a0,\u00a0Q.\u00a0YangInt\u00e9grer l&#8217;\u00e9thique dans l&#8217;intelligence artificielleIJCAI\u00a0(\u00a02018\u00a0)\u00a0, pages\u00a05527\u00a0\u00e0\u00a05533<a href=\"https:\/\/doi.org\/10.24963\/ijcai.2018\/779\" target=\"_blank\" rel=\"noreferrer noopener\"><\/a><a href=\"https:\/\/www.scopus.com\/inward\/record.url?eid=2-s2.0-85055689453&amp;partnerID=10&amp;rel=R3.0.0\" target=\"_blank\" rel=\"noreferrer noopener\">Voir dans\u00a0<\/a><a href=\"https:\/\/doi.org\/10.24963\/ijcai.2018\/779\" target=\"_blank\" rel=\"noreferrer noopener\">Crossref et Scopus\u00a0<\/a><a href=\"https:\/\/scholar.google.com\/scholar_lookup?title=Building%20ethics%20into%20artificial%20intelligence&amp;publication_year=2018&amp;author=H.%20Yu&amp;author=Z.%20Shen&amp;author=C.%20Miao&amp;author=C.%20Leung&amp;author=V.R.%20Lesser&amp;author=Q.%20Yang\" target=\"_blank\" rel=\"noreferrer noopener\">Google Scholar<\/a><\/li>\n\n\n\n<li><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0004370225001791#bbib0010\">[10]<\/a>F.\u00a0Rossi\u00a0,\u00a0N.\u00a0MatteiCr\u00e9ation d&#8217;une IA \u00e9thiquement encadr\u00e9eProc. Conf\u00e9rence AAAI. Artif. Intell.\u00a0,\u00a033\u00a0(\u00a02019\u00a0)\u00a0, pp.\u00a09785\u00a0&#8211;\u00a09789\u00a0,\u00a0<a href=\"https:\/\/doi.org\/10.1609\/aaai.v33i01.33019785\" target=\"_blank\" rel=\"noreferrer noopener\">10.1609\/aaai.v33i01.33019785<\/a><a href=\"https:\/\/www.scopus.com\/inward\/record.url?eid=2-s2.0-85070966680&amp;partnerID=10&amp;rel=R3.0.0\" target=\"_blank\" rel=\"noreferrer noopener\">Voir dans Scopus\u00a0<\/a><a href=\"https:\/\/scholar.google.com\/scholar_lookup?title=Building%20ethically%20bounded%20AI&amp;publication_year=2019&amp;author=F.%20Rossi&amp;author=N.%20Mattei\" target=\"_blank\" rel=\"noreferrer noopener\">Google Scholar<\/a><\/li>\n\n\n\n<li><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0004370225001791#bbib0011\">[11]<\/a>D. Amodei, C. Olah, J. Steinhardt, PF Christiano, J. Schulman, D. Man\u00e9, Probl\u00e8mes concrets de s\u00e9curit\u00e9 de l&#8217;IA,\u00a0<a href=\"http:\/\/arxiv.org\/abs\/arXiv:1606.06565\" target=\"_blank\" rel=\"noreferrer noopener\">arXiv : 1606.06565<\/a>\u00a0(2016).<a href=\"https:\/\/scholar.google.com\/scholar?q=D.%20Amodei%2C%20C.%20Olah%2C%20J.%20Steinhardt%2C%20P.F.%20Christiano%2C%20J.%20Schulman%2C%20D.%20Man%C3%A9%2C%20Concrete%20problems%20in%20AI%20safety%2C%20arXiv%3A%201606.06565(2016).\" target=\"_blank\" rel=\"noreferrer noopener\">Google Scholar<\/a><\/li>\n\n\n\n<li><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0004370225001791#bbib0012\">[12]<\/a>J. Leike, M. Martic, V. Krakovna, P. Ortega, T. Everitt, A. Lefrancq, L. Orseau, S. Legg, AI safety gridworlds,\u00a0<a href=\"http:\/\/arxiv.org\/abs\/1711.09883\" target=\"_blank\" rel=\"noreferrer noopener\">arXiv : 1711.09883<\/a>\u00a0(2017).<a href=\"https:\/\/scholar.google.com\/scholar?q=J.%20Leike%2C%20M.%20Martic%2C%20V.%20Krakovna%2C%20P.%20Ortega%2C%20T.%20Everitt%2C%20A.%20Lefrancq%2C%20L.%20Orseau%2C%20S.%20Legg%2C%20AI%20safety%20gridworlds%2C%20arXiv%3A%201711.09883%20(2017).\" target=\"_blank\" rel=\"noreferrer noopener\">Google Scholar<\/a><\/li>\n\n\n\n<li><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0004370225001791#bbib0013\">[13]<\/a>RS\u00a0Sutton\u00a0,\u00a0AG\u00a0BartoApprentissage par renforcement &#8211; Une introductionCalcul adaptatif et apprentissage automatique\u00a0,\u00a0MIT Press\u00a0(\u00a01998\u00a0)<a href=\"http:\/\/www.worldcat.org\/oclc\/37293240\" target=\"_blank\" rel=\"noreferrer noopener\">http:\/\/www.worldcat.org\/oclc\/37293240<\/a><a href=\"https:\/\/scholar.google.com\/scholar_lookup?title=Reinforcement%20Learning%20-%20An%20Introduction&amp;publication_year=1998&amp;author=R.S.%20Sutton&amp;author=A.G.%20Barto\" target=\"_blank\" rel=\"noreferrer noopener\">Google Scholar<\/a><\/li>\n\n\n\n<li><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0004370225001791#bbib0014\">[14]<\/a>MO\u00a0Riedl\u00a0,\u00a0B.\u00a0HarrisonUtiliser des histoires pour enseigner les valeurs humaines aux agents artificielsAtelier AAAI\u00a0: IA, \u00e9thique et soci\u00e9t\u00e9\u00a0(\u00a02016\u00a0)<a href=\"https:\/\/scholar.google.com\/scholar_lookup?title=Using%20stories%20to%20teach%20human%20values%20to%20artificial%20agents&amp;publication_year=2016&amp;author=M.O.%20Riedl&amp;author=B.%20Harrison\" target=\"_blank\" rel=\"noreferrer noopener\">Google Scholar<\/a><\/li>\n\n\n\n<li><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0004370225001791#bbib0015\">[15]<\/a>D.\u00a0Abel\u00a0,\u00a0J.\u00a0MacGlashan\u00a0,\u00a0M.L.\u00a0LittmanL\u2019apprentissage par renforcement comme cadre pour la prise de d\u00e9cision \u00e9thiqueTravaux de l&#8217;AAAI\u00a0: IA, \u00e9thique et soci\u00e9t\u00e9\u00a0,\u00a092\u00a0(\u00a02016\u00a0)<a href=\"https:\/\/scholar.google.com\/scholar_lookup?title=Reinforcement%20learning%20as%20a%20framework%20for%20ethical%20decision%20making&amp;publication_year=2016&amp;author=D.%20Abel&amp;author=J.%20MacGlashan&amp;author=M.L.%20Littman\" target=\"_blank\" rel=\"noreferrer noopener\">Google Scholar<\/a><\/li>\n\n\n\n<li><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0004370225001791#bbib0016\">[16]<\/a>Y.-H.\u00a0Wu\u00a0,\u00a0S.-D.\u00a0LinUne approche \u00e9thique \u00e0 faible co\u00fbt pour la conception d&#8217;agents d&#8217;apprentissage par renforcementActes de la conf\u00e9rence AAAI sur l&#8217;intelligence artificielle\u00a0,\u00a032\u00a0(\u00a02018\u00a0)<a href=\"https:\/\/scholar.google.com\/scholar_lookup?title=A%20low-cost%20ethics%20shaping%20approach%20for%20designing%20reinforcement%20learning%20agents&amp;publication_year=2018&amp;author=Y.-H.%20Wu&amp;author=S.-D.%20Lin\" target=\"_blank\" rel=\"noreferrer noopener\">Google Scholar<\/a><\/li>\n\n\n\n<li><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0004370225001791#bbib0017\">[17]<\/a>R.\u00a0Noothigattu\u00a0,\u00a0D.\u00a0Bouneffouf\u00a0,\u00a0N.\u00a0Mattei\u00a0,\u00a0R.\u00a0Chandra\u00a0,\u00a0P.\u00a0Madan\u00a0,\u00a0R.\u00a0Kush\u00a0,\u00a0M.\u00a0Campbell\u00a0,\u00a0M.\u00a0Singh\u00a0,\u00a0F.\u00a0RossiEnseigner aux agents d&#8217;IA des valeurs \u00e9thiques gr\u00e2ce \u00e0 l&#8217;apprentissage par renforcement et \u00e0 l&#8217;orchestration des politiquesIBM J. Res. Dev.\u00a0,\u00a0PP\u00a0(\u00a02019\u00a0)\u00a0,\u00a0p.\u00a06377-6381\u00a0,\u00a010.1147\u00a0<a href=\"https:\/\/doi.org\/10.1147\/JRD.2019.2940428\" target=\"_blank\" rel=\"noreferrer noopener\">\/JRD.2019.2940428<\/a><a href=\"https:\/\/doi.org\/10.1147\/JRD.2019.2940428\" target=\"_blank\" rel=\"noreferrer noopener\"><\/a><a href=\"https:\/\/www.scopus.com\/inward\/record.url?eid=2-s2.0-85074909469&amp;partnerID=10&amp;rel=R3.0.0\" target=\"_blank\" rel=\"noreferrer noopener\">Voir dans Scopus\u00a0<\/a><a href=\"https:\/\/scholar.google.com\/scholar_lookup?title=Teaching%20AI%20agents%20ethical%20values%20using%20reinforcement%20learning%20and%20policy%20orchestration&amp;publication_year=2019&amp;author=R.%20Noothigattu&amp;author=D.%20Bouneffouf&amp;author=N.%20Mattei&amp;author=R.%20Chandra&amp;author=P.%20Madan&amp;author=R.%20Kush&amp;author=M.%20Campbell&amp;author=M.%20Singh&amp;author=F.%20Rossi\" target=\"_blank\" rel=\"noreferrer noopener\">Google Scholar<\/a><\/li>\n\n\n\n<li><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0004370225001791#bbib0018\">[18]<\/a>A.\u00a0Balakrishnan\u00a0,\u00a0D.\u00a0Bouneffouf\u00a0,\u00a0N.\u00a0Mattei\u00a0,\u00a0F.\u00a0RossiInt\u00e9gration des contraintes comportementales dans les syst\u00e8mes d&#8217;IA en ligneProc. AAAI Conf. Artif. Intell.\u00a0,\u00a033\u00a0(\u00a02019\u00a0)\u00a0, p.\u00a03\u00a0&#8211;\u00a011\u00a0,\u00a0<a href=\"https:\/\/doi.org\/10.1609\/aaai.v33i01.33013\" target=\"_blank\" rel=\"noreferrer noopener\">10.1609\/aaai.v33i01.33013<\/a><a href=\"https:\/\/www.scopus.com\/inward\/record.url?eid=2-s2.0-85074939735&amp;partnerID=10&amp;rel=R3.0.0\" target=\"_blank\" rel=\"noreferrer noopener\">Voir dans Scopus\u00a0<\/a><a href=\"https:\/\/scholar.google.com\/scholar_lookup?title=Incorporating%20behavioral%20constraints%20in%20online%20AI%20systems&amp;publication_year=2019&amp;author=A.%20Balakrishnan&amp;author=D.%20Bouneffouf&amp;author=N.%20Mattei&amp;author=F.%20Rossi\" target=\"_blank\" rel=\"noreferrer noopener\">Google Scholar<\/a><\/li>\n\n\n\n<li><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0004370225001791#bbib0019\">[19]<\/a>M.\u00a0Rodriguez-Soto\u00a0,\u00a0M.\u00a0L\u00f3pez-Sanchez\u00a0,\u00a0JA\u00a0Rodriguez AguilarApprentissage par renforcement multi-objectif pour la conception d&#8217;environnements \u00e9thiquesZ.-H.\u00a0Zhou\u00a0(\u00e9d.)\u00a0,\u00a0Actes de la trenti\u00e8me conf\u00e9rence internationale conjointe sur l&#8217;intelligence artificielle, IJCAI-21\u00a0,\u00a0Organisation\u00a0des conf\u00e9rences internationales conjointes sur l&#8217;intelligence artificielle\u00a0(\u00a02021\u00a0)\u00a0,\u00a0p.\u00a0545-551Voie principale<a href=\"https:\/\/doi.org\/10.24963\/ijcai.2021\/76\" target=\"_blank\" rel=\"noreferrer noopener\"><\/a><a href=\"https:\/\/www.scopus.com\/inward\/record.url?eid=2-s2.0-85125445496&amp;partnerID=10&amp;rel=R3.0.0\" target=\"_blank\" rel=\"noreferrer noopener\">Voir dans\u00a0<\/a><a href=\"https:\/\/doi.org\/10.24963\/ijcai.2021\/76\" target=\"_blank\" rel=\"noreferrer noopener\">Crossref et Scopus\u00a0<\/a><a href=\"https:\/\/scholar.google.com\/scholar_lookup?title=Multi-objective%20reinforcement%20learning%20for%20designing%20ethical%20environments&amp;publication_year=2021&amp;author=M.%20Rodriguez-Soto&amp;author=M.%20Lopez-Sanchez&amp;author=J.A.%20Rodriguez%20Aguilar\" target=\"_blank\" rel=\"noreferrer noopener\">Google Scholar<\/a><\/li>\n\n\n\n<li><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0004370225001791#bbib0020\">[20]<\/a>D.\u00a0CooperValeurs pluralistes et choix \u00e9thiqueSt. Martin Press, Inc.\u00a0,\u00a0New York\u00a0(\u00a01993\u00a0)<a href=\"https:\/\/scholar.google.com\/scholar_lookup?title=Value%20Pluralism%20and%20Ethical%20Choice&amp;publication_year=1993&amp;author=D.%20Cooper\" target=\"_blank\" rel=\"noreferrer noopener\">Google Scholar<\/a><\/li>\n\n\n\n<li><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0004370225001791#bbib0021\">[21]<\/a>WD\u00a0RossLe bien et le juste : quelques probl\u00e8mes d&#8217;\u00e9thiqueClarendon Press\u00a0(\u00a01930\u00a0)<a href=\"https:\/\/scholar.google.com\/scholar_lookup?title=The%20Right%20and%20the%20Good%20Some%20Problems%20in%20Ethics&amp;publication_year=1930&amp;author=W.D.%20Ross\" target=\"_blank\" rel=\"noreferrer noopener\">Google Scholar<\/a><\/li>\n\n\n\n<li><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0004370225001791#bbib0022\">[22]<\/a>TL\u00a0Beauchamp\u00a0,\u00a0JF\u00a0ChildressPrincipes d&#8217;\u00e9thique biom\u00e9dicale \/ Tom L. Beauchamp, James F. ChildressOxford University Press New York\u00a0(\u00a01979\u00a0)<a href=\"https:\/\/scholar.google.com\/scholar_lookup?title=Principles%20of%20Biomedical%20Ethics%20%20Tom%20L.%20Beauchamp%2C%20James%20F.%20Childress&amp;publication_year=1979&amp;author=T.L.%20Beauchamp&amp;author=J.F.%20Childress\" target=\"_blank\" rel=\"noreferrer noopener\">Google Scholar<\/a><\/li>\n\n\n\n<li><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0004370225001791#bbib0023\">[23]<\/a>I.\u00a0van de Poel\u00a0,\u00a0L.\u00a0Royakkers\u00c9thique, technologie et ing\u00e9nierie : une introductionWiley-Blackwell\u00a0(\u00a02011\u00a0)<a href=\"https:\/\/scholar.google.com\/scholar_lookup?title=Ethics%2C%20Technology%2C%20and%20Engineering%3A%20An%20Introduction&amp;publication_year=2011&amp;author=I.%20van%20de%20Poel&amp;author=L.%20Royakkers\" target=\"_blank\" rel=\"noreferrer noopener\">Google Scholar<\/a><\/li>\n\n\n\n<li><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0004370225001791#bbib0024\">[24]<\/a>S. Schwartz, Un aper\u00e7u de la th\u00e9orie Schwartz des valeurs fondamentales,\u00a0<a href=\"https:\/\/doi.org\/10.9707\/2307-0919.1116\" target=\"_blank\" rel=\"noreferrer noopener\">10.9707\/2307-0919.1116<\/a>\u00a0, Lectures en ligne en psychologie et culture, 2, pp. 11\u201320, Universit\u00e9 h\u00e9bra\u00efque de J\u00e9rusalem (2012).<a href=\"https:\/\/scholar.google.com\/scholar?q=S.%20Schwartz%2C%20An%20Overview%20of%20the%20Schwartz%20Theory%20of%20Basic%20Values%2C%2010.9707%2F2307-0919.1116%2C%20Online%20Readings%20in%20Psychology%20and%20Culture%2C%202%2C%20pp.%2011%E2%80%9320Jerusalem%20Hebrew%20University%20(2012).\" target=\"_blank\" rel=\"noreferrer noopener\">Google Scholar<\/a><\/li>\n\n\n\n<li><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0004370225001791#bbib0025\">[25]<\/a>D.\u00a0Roijers\u00a0,\u00a0S.\u00a0WhitesonPrise de d\u00e9cision multicrit\u00e8resConf\u00e9rences de synth\u00e8se sur l&#8217;intelligence artificielle et l&#8217;apprentissage automatique\u00a0,\u00a0Morgan and Claypool\u00a0,\u00a0Californie, \u00c9tats-Unis\u00a0(\u00a02017\u00a0)\u00a0,\u00a0<a href=\"https:\/\/doi.org\/10.2200\/S00765ED1V01Y201704AIM034\" target=\"_blank\" rel=\"noreferrer noopener\">10.2200\/S00765ED1V01Y201704AIM034<\/a><a href=\"http:\/\/www.morganclaypool.com\/doi\/abs\/10.2200\/S00765ED1V01Y201704AIM034\" target=\"_blank\" rel=\"noreferrer noopener\">http:\/\/www.morganclaypool.com\/doi\/abs\/10.2200\/S00765ED1V01Y201704AIM034<\/a><a href=\"https:\/\/scholar.google.com\/scholar_lookup?title=Multi-Objective%20Decision%20Making&amp;publication_year=2017&amp;author=D.%20Roijers&amp;author=S.%20Whiteson\" target=\"_blank\" rel=\"noreferrer noopener\">Google Scholar<\/a><\/li>\n\n\n\n<li><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0004370225001791#bbib0026\">[26]<\/a>R.\u00a0R\u0103dulescu\u00a0,\u00a0P.\u00a0Mannion\u00a0,\u00a0DM\u00a0Roijers\u00a0,\u00a0A.\u00a0Now\u00e9Prise de d\u00e9cision multi-objectifs et multi-agents\u00a0: analyse et enqu\u00eate bas\u00e9es sur l\u2019utilit\u00e9Syst\u00e8mes d&#8217;\u00a0agents multi-agents autonomes\u00a0,\u00a034\u00a0(\u00a02019\u00a0)\u00a0, p\u00a0.\u00a01-52<a href=\"https:\/\/scholar.google.com\/scholar_lookup?title=Multi-objective%20multi-agent%20decision%20making%3A%20a%20utility-based%20analysis%20and%20survey&amp;publication_year=2019&amp;author=R.%20R%C4%83dulescu&amp;author=P.%20Mannion&amp;author=D.M.%20Roijers&amp;author=A.%20Now%C3%A9\" target=\"_blank\" rel=\"noreferrer noopener\">Google Scholar<\/a><\/li>\n\n\n\n<li><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0004370225001791#bbib0027\">[27]<\/a>W.\u00a0Caballero\u00a0,\u00a0R.\u00a0Naveiro\u00a0,\u00a0D.\u00a0RiosMod\u00e9lisation des pr\u00e9f\u00e9rences \u00e9thiques et op\u00e9rationnelles dans les syst\u00e8mes de conduite automatis\u00e9eD\u00e9cis. Anal.\u00a0,\u00a019\u00a0(\u00a02021\u00a0)\u00a0,\u00a0<a href=\"https:\/\/doi.org\/10.1287\/deca.2021.0441\" target=\"_blank\" rel=\"noreferrer noopener\">10.1287\/d\u00e9ca.2021.0441<\/a><a href=\"https:\/\/scholar.google.com\/scholar_lookup?title=Modeling%20ethical%20and%20operational%20preferences%20in%20automated%20driving%20systems&amp;publication_year=2021&amp;author=W.%20Caballero&amp;author=R.%20Naveiro&amp;author=D.%20Rios\" target=\"_blank\" rel=\"noreferrer noopener\">Google Scholar<\/a><\/li>\n\n\n\n<li><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0004370225001791#bbib0028\">[28]<\/a>WN\u00a0Caballero\u00a0,\u00a0D.\u00a0Rios Insua\u00a0,\u00a0R.\u00a0NaveiroQuelques d\u00e9fis statistiques dans les syst\u00e8mes de conduite automatis\u00e9eAppl. Stoch. Models Bus. Ind.\u00a0,\u00a039\u00a0(\u00a05\u00a0)\u00a0(\u00a02023\u00a0)\u00a0, pp.\u00a0629\u00a0&#8211;\u00a0652<a href=\"https:\/\/onlinelibrary.wiley.com\/doi\/abs\/10.1002\/asmb.2765\" target=\"_blank\" rel=\"noreferrer noopener\">https:\/\/onlinelibrary.wiley.com\/doi\/abs\/10.1002\/asmb.2765<\/a><a href=\"https:\/\/doi.org\/10.1002\/asmb.2765\" target=\"_blank\" rel=\"noreferrer noopener\">Crossref\u00a0<\/a><a href=\"https:\/\/scholar.google.com\/scholar_lookup?title=Some%20statistical%20challenges%20in%20automated%20driving%20systems&amp;publication_year=2023&amp;author=W.N.%20Caballero&amp;author=D.%20Rios%20Insua&amp;author=R.%20Naveiro\" target=\"_blank\" rel=\"noreferrer noopener\">Google Scholar<\/a><\/li>\n\n\n\n<li><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0004370225001791#bbib0029\">[29]<\/a>CJ\u00a0Watkins\u00a0,\u00a0P.\u00a0DayanApprentissage par renforcement (Q-learning)Mach. Learn.\u00a0,\u00a08\u00a0(\u00a01992\u00a0)\u00a0, pp.\u00a0279\u00a0&#8211;\u00a0292<a href=\"https:\/\/scholar.google.com\/scholar_lookup?title=Q-learning&amp;publication_year=1992&amp;author=C.J.%20Watkins&amp;author=P.%20Dayan\" target=\"_blank\" rel=\"noreferrer noopener\">Google Scholar<\/a><\/li>\n\n\n\n<li><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0004370225001791#bbib0030\">[30]<\/a>M.\u00a0Reymond\u00a0,\u00a0E.\u00a0Bargiacchi\u00a0,\u00a0A.\u00a0Now\u00e9r\u00e9seaux conditionn\u00e9s par ParetoActes de la 21e Conf\u00e9rence internationale sur les agents autonomes et les syst\u00e8mes multi-agents\u00a0,\u00a0AAMAS\u00a0&#8217;22\u00a0,\u00a0Fondation\u00a0internationale pour les agents autonomes et les syst\u00e8mes multi-agents\u00a0,\u00a0Richland, SC\u00a0(\u00a02022\u00a0)\u00a0, pp.\u00a01110-1118<a href=\"https:\/\/www.scopus.com\/inward\/record.url?eid=2-s2.0-85129470765&amp;partnerID=10&amp;rel=R3.0.0\" target=\"_blank\" rel=\"noreferrer noopener\">Voir dans Scopus\u00a0<\/a><a href=\"https:\/\/scholar.google.com\/scholar_lookup?title=Pareto%20conditioned%20networks&amp;publication_year=2022&amp;author=M.%20Reymond&amp;author=E.%20Bargiacchi&amp;author=A.%20Now%C3%A9\" target=\"_blank\" rel=\"noreferrer noopener\">Google Scholar<\/a><\/li>\n\n\n\n<li><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0004370225001791#bbib0031\">[31]<\/a>M.\u00a0Rodriguez-Soto\u00a0,\u00a0M.\u00a0Serramia\u00a0,\u00a0M.\u00a0L\u00f3pez-S\u00e1nchez\u00a0,\u00a0J.\u00a0Rodr\u00edguez-AguilarInculquer l&#8217;alignement des valeurs morales au moyen de l&#8217;apprentissage par renforcement multi-objectifEthics Inf. Technol.\u00a0,\u00a024\u00a0(\u00a02022\u00a0)\u00a0,\u00a0<a href=\"https:\/\/doi.org\/10.1007\/s10676-022-09635-0\" target=\"_blank\" rel=\"noreferrer noopener\">10.1007\/s10676-022-09635-0<\/a><a href=\"https:\/\/scholar.google.com\/scholar_lookup?title=Instilling%20moral%20value%20alignment%20by%20means%20of%20multi-objective%20reinforcement%20learning&amp;publication_year=2022&amp;author=M.%20Rodriguez-Soto&amp;author=M.%20Serramia&amp;author=M.%20L%C3%B3pez-S%C3%A1nchez&amp;author=J.%20Rodr%C3%ADguez-Aguilar\" target=\"_blank\" rel=\"noreferrer noopener\">Google Scholar<\/a><\/li>\n\n\n\n<li><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0004370225001791#bbib0032\">[32]<\/a>R.\u00a0BELLMANUn processus de d\u00e9cision \u00e0 la MrkovJ. Math. Mech.\u00a0,\u00a06\u00a0(\u00a05\u00a0)\u00a0(\u00a01957\u00a0)\u00a0, pp.\u00a0679\u00a0&#8211;\u00a0684<a href=\"https:\/\/scholar.google.com\/scholar_lookup?title=A%20Mrkovian%20decision%20process&amp;publication_year=1957&amp;author=R.%20BELLMAN\" target=\"_blank\" rel=\"noreferrer noopener\">Google Scholar<\/a><\/li>\n\n\n\n<li><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0004370225001791#bbib0033\">[33]<\/a>LP\u00a0Kaelbling\u00a0,\u00a0ML\u00a0Littman\u00a0,\u00a0AW\u00a0MooreApprentissage par renforcement : une \u00e9tudeJ.Artif. Int. R\u00e9s.\u00a0,\u00a04\u00a0(\u00a01\u00a0)\u00a0(\u00a01996\u00a0)\u00a0, pages\u00a0237\u00a0\u00e0\u00a0285<a href=\"https:\/\/doi.org\/10.1613\/jair.301\" target=\"_blank\" rel=\"noreferrer noopener\"><\/a><a href=\"https:\/\/www.scopus.com\/inward\/record.url?eid=2-s2.0-0029679044&amp;partnerID=10&amp;rel=R3.0.0\" target=\"_blank\" rel=\"noreferrer noopener\">Voir dans\u00a0<\/a><a href=\"https:\/\/doi.org\/10.1613\/jair.301\" target=\"_blank\" rel=\"noreferrer noopener\">Crossref et Scopus\u00a0<\/a><a href=\"https:\/\/scholar.google.com\/scholar_lookup?title=Reinforcement%20learning%3A%20a%20survey&amp;publication_year=1996&amp;author=L.P.%20Kaelbling&amp;author=M.L.%20Littman&amp;author=A.W.%20Moore\" target=\"_blank\" rel=\"noreferrer noopener\">Google Scholar<\/a><\/li>\n\n\n\n<li><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0004370225001791#bbib0034\">[34]<\/a>DM\u00a0Roijers\u00a0,\u00a0P.\u00a0Vamplew\u00a0,\u00a0S.\u00a0Whiteson\u00a0,\u00a0R.\u00a0DazeleyUne \u00e9tude sur la prise de d\u00e9cision s\u00e9quentielle multi-objectifsJ.Artif. Int. R\u00e9s.\u00a0,\u00a048\u00a0(\u00a01\u00a0)\u00a0(\u00a02013\u00a0)\u00a0, pages\u00a067\u00a0\u00e0\u00a0113<a href=\"https:\/\/doi.org\/10.1613\/jair.3987\" target=\"_blank\" rel=\"noreferrer noopener\"><\/a><a href=\"https:\/\/www.scopus.com\/inward\/record.url?eid=2-s2.0-84888369969&amp;partnerID=10&amp;rel=R3.0.0\" target=\"_blank\" rel=\"noreferrer noopener\">Voir dans\u00a0<\/a><a href=\"https:\/\/doi.org\/10.1613\/jair.3987\" target=\"_blank\" rel=\"noreferrer noopener\">Crossref et Scopus\u00a0<\/a><a href=\"https:\/\/scholar.google.com\/scholar_lookup?title=A%20survey%20of%20multi-objective%20sequential%20decision-making&amp;publication_year=2013&amp;author=D.M.%20Roijers&amp;author=P.%20Vamplew&amp;author=S.%20Whiteson&amp;author=R.%20Dazeley\" target=\"_blank\" rel=\"noreferrer noopener\">Google Scholar<\/a><\/li>\n\n\n\n<li><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0004370225001791#bbib0035\">[35]<\/a>P.\u00a0Vamplew\u00a0,\u00a0R.\u00a0Dazeley\u00a0,\u00a0A.\u00a0Berry\u00a0,\u00a0R.\u00a0Issabekov\u00a0,\u00a0E.\u00a0DekkerM\u00e9thodes d&#8217;\u00e9valuation empirique des algorithmes d&#8217;apprentissage par renforcement multiobjectifsMach. Learn.\u00a0,\u00a084\u00a0(\u00a02011\u00a0)\u00a0, pp.\u00a051\u00a0&#8211;\u00a080\u00a0,\u00a0<a href=\"https:\/\/doi.org\/10.1007\/s10994-010-5232-5\" target=\"_blank\" rel=\"noreferrer noopener\">10.1007\/s10994-010-5232-5<\/a><a href=\"https:\/\/www.scopus.com\/inward\/record.url?eid=2-s2.0-79958785529&amp;partnerID=10&amp;rel=R3.0.0\" target=\"_blank\" rel=\"noreferrer noopener\">Voir dans Scopus\u00a0<\/a><a href=\"https:\/\/scholar.google.com\/scholar_lookup?title=Empirical%20evaluation%20methods%20for%20multiobjective%20reinforcement%20learning%20algorithms&amp;publication_year=2011&amp;author=P.%20Vamplew&amp;author=R.%20Dazeley&amp;author=A.%20Berry&amp;author=R.%20Issabekov&amp;author=E.%20Dekker\" target=\"_blank\" rel=\"noreferrer noopener\">Google Scholar<\/a><\/li>\n\n\n\n<li><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0004370225001791#bbib0036\">[36]<\/a>A.\u00a0Castelletti\u00a0,\u00a0G.\u00a0Corani\u00a0,\u00a0A.\u00a0Rizzoli\u00a0,\u00a0RS\u00a0Sessa\u00a0,\u00a0E.\u00a0WeberApprentissage par renforcement dans la gestion op\u00e9rationnelle d&#8217;un syst\u00e8me d&#8217;eauMod\u00e9lisation et contr\u00f4le des probl\u00e8mes environnementaux\u00a0(\u00a02002\u00a0)<a href=\"https:\/\/scholar.google.com\/scholar_lookup?title=Reinforcement%20learning%20in%20the%20operational%20management%20of%20a%20water%20system&amp;publication_year=2002&amp;author=A.%20Castelletti&amp;author=G.%20Corani&amp;author=A.%20Rizzoli&amp;author=R.S.%20Sessa&amp;author=E.%20Weber\" target=\"_blank\" rel=\"noreferrer noopener\">Google Scholar<\/a><\/li>\n\n\n\n<li><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0004370225001791#bbib0037\">[37]<\/a>S.\u00a0Natarajan\u00a0,\u00a0P.\u00a0TadepalliPr\u00e9f\u00e9rences dynamiques dans l&#8217;apprentissage par renforcement multicrit\u00e8reActes de la 22e Conf\u00e9rence internationale sur l&#8217;apprentissage automatique\u00a0,\u00a0ICML &#8217;05\u00a0,\u00a0Association for Computing Machinery\u00a0,\u00a0New York, NY, \u00c9tats-Unis\u00a0(\u00a02005\u00a0)\u00a0,\u00a0p.\u00a0601-608\u00a0,\u00a010.1145\u00a0<a href=\"https:\/\/doi.org\/10.1145\/1102351.1102427\" target=\"_blank\" rel=\"noreferrer noopener\">\/1102351.1102427<\/a><a href=\"https:\/\/doi.org\/10.1145\/1102351.1102427\" target=\"_blank\" rel=\"noreferrer noopener\"><\/a><a href=\"https:\/\/www.scopus.com\/inward\/record.url?eid=2-s2.0-31844444500&amp;partnerID=10&amp;rel=R3.0.0\" target=\"_blank\" rel=\"noreferrer noopener\">Voir dans Scopus\u00a0<\/a><a href=\"https:\/\/scholar.google.com\/scholar_lookup?title=Dynamic%20preferences%20in%20multi-criteria%20reinforcement%20learning&amp;publication_year=2005&amp;author=S.%20Natarajan&amp;author=P.%20Tadepalli\" target=\"_blank\" rel=\"noreferrer noopener\">Google Scholar<\/a><\/li>\n\n\n\n<li><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0004370225001791#bbib0038\">[38]<\/a>L.\u00a0Barrett\u00a0,\u00a0S.\u00a0NarayananApprendre toutes les politiques optimales avec de multiples crit\u00e8resActes de la\u00a025e Conf\u00e9rence internationale sur l&#8217;apprentissage automatique\u00a0(\u00a02008\u00a0)\u00a0, p.\u00a041-47\u00a0,\u00a010.1145\u00a0<a href=\"https:\/\/doi.org\/10.1145\/1390156.1390162\" target=\"_blank\" rel=\"noreferrer noopener\">\/1390156.1390162<\/a><a href=\"https:\/\/doi.org\/10.1145\/1390156.1390162\" target=\"_blank\" rel=\"noreferrer noopener\"><\/a><a href=\"https:\/\/www.scopus.com\/inward\/record.url?eid=2-s2.0-56449120027&amp;partnerID=10&amp;rel=R3.0.0\" target=\"_blank\" rel=\"noreferrer noopener\">Voir dans Scopus\u00a0<\/a><a href=\"https:\/\/scholar.google.com\/scholar_lookup?title=Learning%20all%20optimal%20policies%20with%20multiple%20criteria&amp;publication_year=2008&amp;author=L.%20Barrett&amp;author=S.%20Narayanan\" target=\"_blank\" rel=\"noreferrer noopener\">Google Scholar<\/a><\/li>\n\n\n\n<li><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0004370225001791#bbib0039\">[39]<\/a>K.\u00a0Van Moffaert\u00a0,\u00a0A.\u00a0Now\u00e9Apprentissage par renforcement multi-objectif utilisant des ensembles de politiques dominantes de ParetoJ. Mach. Learn. Res.\u00a0,\u00a015\u00a0(\u00a01\u00a0)\u00a0(\u00a02014\u00a0)\u00a0, pp.\u00a03483\u00a0&#8211;\u00a03512<a href=\"https:\/\/www.scopus.com\/inward\/record.url?eid=2-s2.0-84919762098&amp;partnerID=10&amp;rel=R3.0.0\" target=\"_blank\" rel=\"noreferrer noopener\">Voir dans Scopus\u00a0<\/a><a href=\"https:\/\/scholar.google.com\/scholar_lookup?title=Multi-objective%20reinforcement%20learning%20using%20sets%20of%20pareto%20dominating%20policies&amp;publication_year=2014&amp;author=K.%20Van%20Moffaert&amp;author=A.%20Now%C3%A9\" target=\"_blank\" rel=\"noreferrer noopener\">Google Scholar<\/a><\/li>\n\n\n\n<li><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0004370225001791#bbib0040\">[40]<\/a>T.\u00a0Arnold\u00a0,\u00a0D.\u00a0Kasenberg\u00a0,\u00a0M.\u00a0ScheutzAlignement ou d\u00e9salignement des valeurs \u2013 qu\u2019est-ce qui permettra de responsabiliser les syst\u00e8mes\u00a0?Ateliers AAAI\u00a0(\u00a02017\u00a0)<a href=\"https:\/\/scholar.google.com\/scholar_lookup?title=Value%20alignment%20or%20misalignment%20-%20what%20will%20keep%20systems%20accountable&amp;publication_year=2017&amp;author=T.%20Arnold&amp;author=D.%20Kasenberg&amp;author=M.%20Scheutz\" target=\"_blank\" rel=\"noreferrer noopener\">Google Scholar<\/a><\/li>\n\n\n\n<li><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0004370225001791#bbib0041\">[41]<\/a>I.\u00a0GabrielIntelligence artificielle, valeurs et alignementMinds Mach.\u00a0,\u00a030\u00a0(\u00a02020\u00a0)\u00a0, p.\u00a0411-437\u00a0,\u00a010.1007\u00a0\/\u00a0<a href=\"https:\/\/doi.org\/10.1007\/s11023-020-09539-2\" target=\"_blank\" rel=\"noreferrer noopener\">s11023-020-09539-2<\/a><a href=\"https:\/\/doi.org\/10.1007\/s11023-020-09539-2\" target=\"_blank\" rel=\"noreferrer noopener\"><\/a><a href=\"https:\/\/www.scopus.com\/inward\/record.url?eid=2-s2.0-85091771225&amp;partnerID=10&amp;rel=R3.0.0\" target=\"_blank\" rel=\"noreferrer noopener\">Voir dans Scopus\u00a0<\/a><a href=\"https:\/\/scholar.google.com\/scholar_lookup?title=Artificial%20intelligence%2C%20values%2C%20and%20alignment&amp;publication_year=2020&amp;author=I.%20Gabriel\" target=\"_blank\" rel=\"noreferrer noopener\">Google Scholar<\/a><\/li>\n\n\n\n<li><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0004370225001791#bbib0042\">[42]<\/a>M.\u00a0SutropLes d\u00e9fis li\u00e9s \u00e0 l&#8217;alignement de l&#8217;intelligence artificielle sur les valeurs humainesActa Baltica Historiae et Philosophiae Scientiarum\u00a0,\u00a08\u00a0(\u00a02020\u00a0)\u00a0, pp.\u00a054\u00a0&#8211;\u00a072\u00a0,\u00a0<a href=\"https:\/\/doi.org\/10.11590\/abhps.2020.2.04\" target=\"_blank\" rel=\"noreferrer noopener\">10.11590\/abhps.2020.2.04<\/a><a href=\"https:\/\/www.scopus.com\/inward\/record.url?eid=2-s2.0-85098769195&amp;partnerID=10&amp;rel=R3.0.0\" target=\"_blank\" rel=\"noreferrer noopener\">Voir dans Scopus\u00a0<\/a><a href=\"https:\/\/scholar.google.com\/scholar_lookup?title=Challenges%20of%20aligning%20artificial%20intelligence%20with%20human%20values&amp;publication_year=2020&amp;author=M.%20Sutrop\" target=\"_blank\" rel=\"noreferrer noopener\">Google Scholar<\/a><\/li>\n\n\n\n<li><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0004370225001791#bbib0043\">[43]<\/a>E.\u00a0Masonpluralisme des valeursEN\u00a0Zalta\u00a0,\u00a0U.\u00a0Nodelman\u00a0(Eds.)\u00a0,\u00a0The Stanford Encyclopedia of Philosophy\u00a0(\u00a0\u00c9t\u00e9 2023\u00a0)\u00a0,\u00a0Metaphysics Research Lab, Universit\u00e9 de Stanford\u00a0(\u00a02023\u00a0)<a href=\"https:\/\/scholar.google.com\/scholar_lookup?title=Value%20pluralism&amp;publication_year=2023&amp;author=E.%20Mason\" target=\"_blank\" rel=\"noreferrer noopener\">Google Scholar<\/a><\/li>\n\n\n\n<li><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0004370225001791#bbib0044\">[44]<\/a>M.\u00a0Serramia\u00a0,\u00a0M.\u00a0L\u00f3pez-S\u00e1nchez\u00a0,\u00a0JA\u00a0Rodr\u00edguez-Aguilar\u00a0,\u00a0J.\u00a0Morales\u00a0,\u00a0M.\u00a0Wooldridge\u00a0,\u00a0C.\u00a0AnsoteguiExploiter les valeurs morales pour choisir les bonnes normesActes de la 1re Conf\u00e9rence sur l&#8217;intelligence artificielle, l&#8217;\u00e9thique et la soci\u00e9t\u00e9 (AIES&#8217;18)\u00a0(\u00a02018\u00a0)\u00a0,\u00a0p.\u00a01-7\u00a0,\u00a010.1145\u00a0<a href=\"https:\/\/doi.org\/10.1145\/3278721.3278735\" target=\"_blank\" rel=\"noreferrer noopener\">\/3278721.3278735<\/a><a href=\"https:\/\/doi.org\/10.1145\/3278721.3278735\" target=\"_blank\" rel=\"noreferrer noopener\"><\/a><a href=\"https:\/\/scholar.google.com\/scholar_lookup?title=Exploiting%20moral%20values%20to%20choose%20the%20right%20norms&amp;publication_year=2018&amp;author=M.%20Serramia&amp;author=M.%20L%C3%B3pez-S%C3%A1nchez&amp;author=J.A.%20Rodr%C3%ADguez-Aguilar&amp;author=J.%20Morales&amp;author=M.%20Wooldridge&amp;author=C.%20Ansotegui\" target=\"_blank\" rel=\"noreferrer noopener\">Google Scholar<\/a><\/li>\n\n\n\n<li><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0004370225001791#bbib0045\">[45]<\/a>C.\u00a0Sierra\u00a0,\u00a0N.\u00a0Osman\u00a0,\u00a0P.\u00a0Noriega\u00a0,\u00a0J.\u00a0Sabater-Mir\u00a0,\u00a0A.\u00a0Perello-MoraguesAlignement des valeurs : une approche formelleAtelier sur les agents responsables d&#8217;intelligence artificielle (RAIA) AAMAS 2019\u00a0(\u00a02019\u00a0)<a href=\"https:\/\/scholar.google.com\/scholar_lookup?title=Value%20alignment%3A%20a%20formal%20approach&amp;publication_year=2019&amp;author=C.%20Sierra&amp;author=N.%20Osman&amp;author=P.%20Noriega&amp;author=J.%20Sabater-Mir&amp;author=A.%20Perello-Moragues\" target=\"_blank\" rel=\"noreferrer noopener\">Google Scholar<\/a><\/li>\n\n\n\n<li><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0004370225001791#bbib0046\">[46]<\/a>TJM\u00a0Bench-Capon\u00a0,\u00a0K.\u00a0AtkinsonArgumentation abstraite et valeursArgumentation en intelligence artificielle\u00a0,\u00a0Springer\u00a0(\u00a02009\u00a0) ,\u00a0p\u00a0.\u00a045-64\u00a0,\u00a010.1007\u00a0<a href=\"https:\/\/doi.org\/10.1007\/978-0-387-98197-0_3\" target=\"_blank\" rel=\"noreferrer noopener\">\/978-0-387-98197-0_3<\/a><a href=\"https:\/\/doi.org\/10.1007\/978-0-387-98197-0_3\" target=\"_blank\" rel=\"noreferrer noopener\"><\/a><a href=\"https:\/\/www.scopus.com\/inward\/record.url?eid=2-s2.0-84885826444&amp;partnerID=10&amp;rel=R3.0.0\" target=\"_blank\" rel=\"noreferrer noopener\">Voir dans Scopus\u00a0<\/a><a href=\"https:\/\/scholar.google.com\/scholar_lookup?title=Abstract%20argumentation%20and%20values&amp;publication_year=2009&amp;author=T.J.M.%20Bench-Capon&amp;author=K.%20Atkinson\" target=\"_blank\" rel=\"noreferrer noopener\">Google Scholar<\/a><\/li>\n<\/ol>\n","protected":false},"excerpt":{"rendered":"<p>Abstrait Cet article aborde le probl\u00e8me de l&#8217;alignement des agents apprenants autonomes sur de multiples valeurs morales. Plus pr\u00e9cis\u00e9ment, nous pr\u00e9sentons les principes th\u00e9oriques et les outils algorithmiques n\u00e9cessaires \u00e0 la cr\u00e9ation d&#8217;un environnement o\u00f9 l&#8217;agent apprend un comportement conforme \u00e0 ces valeurs, tout en s&#8217;effor\u00e7ant d&#8217;atteindre son objectif individuel. Pour r\u00e9soudre ce probl\u00e8me d&#8217;alignement [&hellip;]<\/p>\n","protected":false},"author":1,"featured_media":0,"parent":2323,"menu_order":21,"comment_status":"open","ping_status":"closed","template":"","doc_tag":[],"class_list":["post-4836","docs","type-docs","status-publish","hentry","no-post-thumbnail"],"acf":[],"_links":{"self":[{"href":"https:\/\/sahelib.atatec-design.com\/index.php\/wp-json\/wp\/v2\/docs\/4836","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/sahelib.atatec-design.com\/index.php\/wp-json\/wp\/v2\/docs"}],"about":[{"href":"https:\/\/sahelib.atatec-design.com\/index.php\/wp-json\/wp\/v2\/types\/docs"}],"author":[{"embeddable":true,"href":"https:\/\/sahelib.atatec-design.com\/index.php\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/sahelib.atatec-design.com\/index.php\/wp-json\/wp\/v2\/comments?post=4836"}],"version-history":[{"count":2,"href":"https:\/\/sahelib.atatec-design.com\/index.php\/wp-json\/wp\/v2\/docs\/4836\/revisions"}],"predecessor-version":[{"id":6671,"href":"https:\/\/sahelib.atatec-design.com\/index.php\/wp-json\/wp\/v2\/docs\/4836\/revisions\/6671"}],"up":[{"embeddable":true,"href":"https:\/\/sahelib.atatec-design.com\/index.php\/wp-json\/wp\/v2\/docs\/2323"}],"wp:attachment":[{"href":"https:\/\/sahelib.atatec-design.com\/index.php\/wp-json\/wp\/v2\/media?parent=4836"}],"wp:term":[{"taxonomy":"doc_tag","embeddable":true,"href":"https:\/\/sahelib.atatec-design.com\/index.php\/wp-json\/wp\/v2\/doc_tag?post=4836"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}