Apprentissage par renforcement dans la gestion des risques des projets de construction pharmaceutique

Estimated reading: 33 minutes 79 views

Points forts

Nous avons examiné 86 études sur l’apprentissage par renforcement (RL) dans les projets de construction pharmaceutique entre 2016 et 2025.

Identification des types d’algorithmes d’apprentissage par renforcement et des sujets de recherche les plus influents.

Nous avons décrit les principes, les avantages et les inconvénients de six algorithmes d’apprentissage par renforcement.

Mise en lumière des principaux défis auxquels est confrontée la recherche en apprentissage automatique dans les projets de construction pharmaceutique.

Stratégies de diffusion spécifiques et orientations futures de la recherche indiquées.

Résumés

La construction intelligente d’installations pharmaceutiques est confrontée à des risques dynamiques et non linéaires, et les méthodes de gestion traditionnelles peinent à répondre aux exigences élevées de réactivité et de conformité en temps réel. Or, les recherches existantes sur l’apprentissage par renforcement (AR) dans ce domaine manquent encore d’une architecture d’application systématique et de considérations relatives à la gouvernance industrielle. Par conséquent, cet article examine les applications pratiques de six algorithmes – Deep Q-Network (DQN), Deep Deterministic Policy Gradient (DDPG) et Proximity Policy Optimization (PPO) – dans les domaines de la sécurité de la construction, du contrôle de la température, de la planification des ressources et de l’optimisation automatisée des équipements, validant ainsi le potentiel de l’apprentissage par renforcement pour gérer efficacement les risques dynamiques grâce à un apprentissage adaptatif. Parallèlement, cet article identifie avec précision les principaux obstacles rencontrés dans les applications actuelles : l’écart de fidélité entre l’environnement de simulation et la réglementation médicale réelle, l’absence de procédures de déploiement standardisées pour l’apprentissage par renforcement et l’ambiguïté entre l’autorité de décision algorithmique et la responsabilité de supervision humaine. Pour remédier à ces problèmes, cet article présente un système de simulation d’environnement haute fidélité intégrant de multiples technologies, un cadre d’application d’apprentissage par renforcement standardisé et un système de gouvernance clair des droits et responsabilités, fournissant un soutien théorique crucial et des voies pratiques pour la construction d’un paradigme fiable et efficace de gestion des risques liés à la construction d’installations pharmaceutiques.

Résumé graphique

Mots clés

Apprentissage par renforcement
projets de construction pharmaceutiques
Gestion des risques
Gradient de politique déterministe profond
Optimisation de la politique proximale
Réseau Q profond

1. Introduction

L’industrie pharmaceutique est un secteur vital de l’économie nationale, du bien-être de la population et de la sécurité nationale. Selon les dernières données du ministère de l’Industrie et des Technologies de l’information, depuis le début du 14e plan quinquennal, l’industrie pharmaceutique chinoise a enregistré un taux de croissance annuel moyen de 9,3 % pour son chiffre d’affaires principal, de 11,3 % pour ses bénéfices totaux et de plus de 20 % pour ses investissements en R&D [ 1 ]. Les projets de construction d’installations pharmaceutiques constituent le socle matériel du développement durable de l’industrie, garantissant la sécurité d’approvisionnement en médicaments et permettant l’itération et la modernisation technologiques. Ces projets présentent souvent des caractéristiques distinctes dans leurs processus et méthodologies de mise en œuvre [ 2 ]. Contrairement aux projets de construction classiques, leur objectif principal dépasse la simple construction d’un espace physique ; il s’agit fondamentalement d’établir un environnement de production propre, hautement contrôlé, vérifiable et conforme aux BPF (Bonnes Pratiques de Fabrication) [ 3 ]. Par conséquent, elle dépasse largement le cadre de la construction et de l’installation de bâtiments conventionnels, intégrant pleinement des technologies complexes de salles blanches (telles que les systèmes CVC et les systèmes d’eau purifiée), des schémas de flux de processus rigoureux et des activités de validation exhaustives. Sa gestion des risques est constamment confrontée à des défis considérables posés par des environnements dynamiques, de multiples contraintes et des événements imprévus, même rares. Les approches traditionnelles de gestion des risques, souvent fondées sur une expérience statique et des règles prédéfinies, sont fréquemment inadéquates et rigides face aux incertitudes constantes qui surgissent tout au long du cycle de vie d’un projet [ 4 , 5 ]. Par exemple, les approches traditionnelles d’apprentissage automatique (AA) se révèlent souvent inadaptées aux scénarios de risques dynamiques, multidimensionnels et non linéaires en raison de leur capacité limitée d’interaction soutenue avec l’environnement [ 6 , 7 ].Ces dernières années, les avancées en intelligence artificielle (IA), et notamment en apprentissage par renforcement (AR), avec son paradigme central distinctif d’« agents apprenant de manière autonome des stratégies optimales grâce à l’interaction avec leur environnement », ont ouvert de nouvelles perspectives pour relever ce défi [ 8 ]. L’AR, en tant que classe de techniques de prise de décision autonomes basées sur le processus de décision markovien, optimise les stratégies dans des environnements dynamiques grâce au mécanisme d’« essais et erreurs avec rétroaction », offrant ainsi une approche inédite pour résoudre le problème multidimensionnel de la gestion intelligente des risques dans la construction [ 9 ]. Comparé aux méthodes traditionnelles, l’AR présente des avantages uniques dans trois domaines. Premièrement, il ne nécessite pas la définition de règles heuristiques et d’itérations distinctes pour les autres tâches de construction ; il apprend automatiquement diverses stratégies d’optimisation lors de l’entraînement et de la simulation [ 56 ]. Deuxièmement, sa capacité de représentation efficace des espaces d’états de grande dimension a permis de réduire considérablement la dépendance aux connaissances et au jugement d’experts dans des processus tels que la modélisation des informations du bâtiment (BIM) [ 50 ]. Plus important encore, son cadre offre une aide à la décision distribuée pour les systèmes collaboratifs tels que les parcs de grues à tour et les flottes de robots, en se caractérisant par l’auto-apprentissage, la robustesse et l’adaptabilité [ 162 ]. Par exemple, Han et al. [ 10 ] ont développé une méthode décentralisée de planification modulaire de la rénovation d’hôpitaux basée sur des algorithmes d’apprentissage par renforcement profond à mémoire étendue. Guerrero et al. [ 11 ] ont développé un système d’aide à la décision pour la conception de bâtiments de santé, basé sur le raisonnement à partir de cas et l’apprentissage par renforcement, démontrant une grande efficacité dans la détection des défauts et des erreurs. Ainsi, comme le montre la figure 1 , au cours de la dernière décennie, le nombre d’articles sur l’apprentissage par renforcement a connu une croissance exponentielle, passant de 2 268 en 2015 à 35 488 en 2024. Cette tendance s’observe également pour le nombre annuel de publications sur l’apprentissage par renforcement dans le secteur de la construction et la gestion des risques.

Fig. 1. Tendances annuelles des publications en apprentissage par renforcement.

2. Principe de base de l’apprentissage par renforcement

Comme indiqué sur la figure 2 , le processus de décision markovien (MDP) est au cœur de l’apprentissage par renforcement (RL). En RL, un agent apprend en interagissant avec son environnement, cherchant à prendre des décisions basées sur l’état de ce dernier afin de maximiser les récompenses à long terme. Le MDP fournit un cadre pour modéliser la relation entre l’intelligence et l’environnement dans les problèmes d’apprentissage par renforcement, aidant ainsi à décrire comment prendre des décisions optimales dans des problèmes de décision dynamiques et séquentiels [ 82 ]. Le MDP est composé d’un quintuplet.oùest l’espace d’état,est l’espace d’action,est la probabilité de transfert d’état,est la fonction de récompense, et γ est le facteur d’actualisation. L’objectif est de trouver une politique optimalequi maximise la récompense cumulative à long terme et satisfait l’équation de Bellman [ 83 ] :

Fig. 2. Apprentissage par renforcement avec processus de chaîne de Markov.

3. Méthodes et matériaux

3.1 . Méthodes de recherche

La présentation de cette revue systématique suit les critères de la déclaration PRISMA (Preferred Reporting Items for Systematic Reviews and Meta-Analyses). Elle vise à aider les auteurs à présenter de manière transparente la motivation, les méthodes et les résultats de leurs revues systématiques, améliorant ainsi la transparence et la reproductibilité de leurs études. Par ailleurs, elle a mis en œuvre une méthodologie de recherche hybride combinant bibliométrie et analyse de contenu.

3.2 . Matériel de recherche

Le processus de recherche, de collecte et d’analyse des données de cette étude est résumé dans la figure 3. Premièrement, les bases de données Web of Science (WoS) et Scopus, reconnues par de nombreuses études comme étant parfaitement adaptées à l’analyse d’articles sur l’ingénierie et les technologies innovantes, ont été sélectionnées comme sources de recherche bibliographique. Deuxièmement, comme indiqué dans le tableau 1 , des mots-clés tels que « Installation pharmaceutique », « Risque de sécurité » et « Apprentissage par renforcement Q » ont été utilisés. Les codes de recherche spécifiques à chaque base de données sont listés dans le tableau 2. Après une première sélection, 75 références ont été obtenues de WoS et 98 de Scopus. Ces articles ont ensuite été examinés afin d’éliminer les références non pertinentes et les doublons, sur la base des titres et des résumés, ce qui a permis de retenir 106 documents. Troisièmement, le texte intégral a été évalué selon les critères suivants : (1) la gestion des risques devait être directement ou indirectement liée à la construction ; (2) les études ne présentant qu’une brève introduction à l’apprentissage par renforcement Q ont été exclues. (3) Conformément à la norme ISO 31000:2018, les études ne comportant aucune étape de gestion des risques (identification, analyse, évaluation et suivi) doivent être exclues. Au final, 86 documents ont été retenus pour l’analyse ultérieure.

Tableau 1. Mots -clés utilisés pour la recherche bibliographique.

Domaine de recherche	Objet	Types d’algorithmes
installation pharmaceutique	Risque pour la sécurité	Apprentissage par renforcement (Q-Learning)
installation pharmaceutique	Risque pour la sécurité	Réseau Q profond
Bâtiment pharmaceutique	Risque pour la santé	Sarsa
		acteur-critique
		Optimisation de la politique proximale
construction intelligente	Risque pour la sécurité	Gradient de politique déterministe profond
construction intelligente	Risque pour la sécurité	Apprentissage par renforcement

Tableau 2. Code de récupération utilisé pour la recherche bibliographique.

Bases de données	Récupérer le code
Scopus	TITLE-ABS-KEY (« Installation pharmaceutique » OU « Bâtiment pharmaceutique » OU « Construction intelligente ») ET (« Risque pour la sécurité » OU « Risque pour la santé » OU « Risque de sûreté ») ET (« Apprentissage par renforcement » OU « Réseau de neurones profond Q » OU « Sarsa » OU « Apprentissage acteur-critique » OU « Optimisation de politique proximale » OU « Gradient de politique déterministe profond » OU « Apprentissage par renforcement »)
Web of Science	TS= (Installation pharmaceutique OU Bâtiment pharmaceutique OU Construction intelligente) ET TS= (Risque pour la sécurité OU Risque pour la santé OU Risque pour la sûreté) ET TS= (Apprentissage par renforcement Q OU Réseau Q profond OU Sarsa OU Apprentissage acteur-critique OU Optimisation de politique proximale OU Gradient de politique déterministe profond OU Apprentissage par renforcement)

Bases de données

Récupérer le code

Scopus

TITLE-ABS-KEY (« Installation pharmaceutique » OU « Bâtiment pharmaceutique » OU « Construction intelligente ») ET (« Risque pour la sécurité » OU « Risque pour la santé » OU « Risque de sûreté ») ET (« Apprentissage par renforcement » OU « Réseau de neurones profond Q » OU « Sarsa » OU « Apprentissage acteur-critique » OU « Optimisation de politique proximale » OU « Gradient de politique déterministe profond » OU « Apprentissage par renforcement »)

Web of Science

TS= (Installation pharmaceutique OU Bâtiment pharmaceutique OU Construction intelligente) ET TS= (Risque pour la sécurité OU Risque pour la santé OU Risque pour la sûreté) ET TS= (Apprentissage par renforcement Q OU Réseau Q profond OU Sarsa OU Apprentissage acteur-critique OU Optimisation de politique proximale OU Gradient de politique déterministe profond OU Apprentissage par renforcement)

4.1 . Analyse de la cooccurrence des mots clés

Dans cet article, nous effectuons une analyse bibliométrique basée sur l’algorithme de Leiden pour la cooccurrence de mots-clés, à l’aide du logiciel Bibliometrix®. L’algorithme de Leiden est un algorithme de découverte de communautés amélioré, conçu pour optimiser le degré de modularité et pallier certaines lacunes de l’algorithme de Louvain. Sa formule principale est la suivante :

Les paramètres quantitatifs par défaut du modèle de Leiden sont présentés dans

le Tableau 3. Le modèle se divise en trois phases principales : déplacement local des nœuds, raffinement des partitions et agrégation des réseaux. Les principales étapes et formules du modèle de Leiden sont les suivantes : (1) Déplacement local des nœuds : une file d’attente contenant tous les nœuds est initialisée. Le premier nœud de la file est ensuite traité et déplacé vers une nouvelle communauté si ce déplacement améliore le score de la fonction de qualité. Si un nœud est déplacé, ses voisins sont parcourus et ajoutés à la file d’attente aux nœuds n’appartenant pas à la nouvelle communauté et qui ne sont pas déjà présents. Ces étapes sont répétées jusqu’à ce que la file d’attente soit vide. (2) Raffinement des partitions : initialement, chaque nœud représente une communauté. Les nœuds appartenant à une seule communauté sont ensuite fusionnés avec d’autres communautés, à condition que les deux communautés fusionnées le soient. Enfin, une communauté dont le score de qualité est supérieur à 0 est sélectionnée aléatoirement pour la fusion. (3) Agrégation du réseau : les communautés obtenues lors du raffinement des partitions sont fusionnées pour créer un nouveau réseau agrégé.

Tableau 3. Paramètres du modèle de Leiden.

Opacité	Taille de l’étiquette	Taille du bord	force de répulsion	Nombre minimal d’arêtes
0,7	3	5	0,1	2

Les résultats du regroupement sont présentés dans la figure 4 et le tableau 4 , et répartis en quatre groupes. Le groupe 1 met l’accent sur le comportement, le modèle et le cadre comme éléments centraux de la recherche appliquée en apprentissage par renforcement. Ce groupe reflète les principales applications de l’apprentissage par renforcement dans la gestion des risques liés à la construction d’installations pharmaceutiques, en se concentrant principalement sur la modélisation du comportement du personnel de construction en salle blanche, le respect des procédures d’installation des équipements et la construction d’un cadre de prise de décision dynamique pour garantir la conformité aux Bonnes Pratiques de Fabrication (BPF). Les mots-clés « comportement », « modèle » et « cadre » présentent des valeurs élevées de médiation et de PageRank, indiquant que ces concepts sont essentiels pour relier les algorithmes théoriques aux besoins spécifiques de l’industrie pharmaceutique. Les algorithmes d’apprentissage par renforcement ont obtenu des résultats significatifs en matière de garantie de la qualité de la construction et de prévention des risques de contamination, en capturant l’impact dynamique du comportement du personnel de construction sur les paramètres environnementaux des salles blanches et en optimisant la séquence des activités clés telles que le soudage des tuyaux et le transfert de la zone aseptique. De plus, la corrélation entre « performance » et « algorithme » indique que la recherche se concentre désormais sur l’amélioration d’aspects spécifiques de la performance, tels que l’efficacité de la mise en service des lignes de production pharmaceutique et la réduction des cycles de validation, plutôt que sur le développement d’algorithmes généraux. Les recherches futures devraient viser à élaborer un cadre de modélisation général intégrant des facteurs externes comme le « climat » (par exemple, l’impact des fluctuations de température et d’humidité extérieures sur les environnements intérieurs propres), afin de concevoir des systèmes de prédiction et de gestion des risques plus robustes et adaptés aux installations pharmaceutiques de haute qualité.

Fig. 4. Réseau de cooccurrence de mots clés.

Tableau 4. Résultats de l’analyse de regroupement.

Nœud	Grappe	Intermédiarité	Proximité	PageRank
comportement	1	24,92429792	0,047619048	0,098891076
modèle	1	6,928571429	0,038461538	0,085858473
cadre	1	9,075702076	0,041666667	0,079130819
performance	1	11	0,033333333	0,047488217
algorithme	1	0	0,032258065	0,035544805
climat	1	0	0,024390244	0,029006022
conception	2	11	0,041666667	0,071218942
système	2	30,76373626	0,052631579	0,123630221
sécurité	2	12,30769231	0,041666667	0,086183817
optimisation	2	0	0,028571429	0,023474778
simulation	2	0	0,033333333	0,022834954
automation	2	0	0,035714286	0,037486203
réseaux	2	0	0,028571429	0,023957555
déformation	3	0	1	0,058823529
excavation	3	0	1	0,058823529
inspection	4	0	1	0,058823529
suivi	4	0	1	0,058823529

5. Discussions

5.1 . Défis liés à l’apprentissage par renforcement

5.1.1 . Difficultés liées à la collecte de données et à la modélisation environnementale

L’apprentissage par renforcement appliqué aux scénarios de construction repose sur une grande quantité de données état-action-récompense. Or, les événements à haut risque (effondrements, chutes, etc.) sont très rares en réalité, ce qui engendre une grave pénurie d’exemples de risques critiques. Par ailleurs, le déploiement de capteurs est limité par des environnements difficiles (poussière, vibrations, etc.), l’enregistrement manuel est sujet à des biais subjectifs et les dispositifs portables peuvent nuire à la sécurité des opérations. Plus grave encore, la spécificité de chaque projet rend difficile la migration des données, obligeant chaque nouveau chantier à collecter des données à partir de zéro. Ce « démarrage à froid » limite considérablement l’utilité de l’apprentissage par renforcement dans les scénarios de construction. Les risques résultent souvent de l’interaction de facteurs mécaniques, chimiques, humains et autres facteurs multidomaines (effets combinés du vent, des vibrations structurelles et de la manipulation par les travailleurs, par exemple). Les méthodes existantes de modélisation des environnements d’apprentissage par renforcement peinent à reproduire fidèlement ces interactions multiphysiques. Par exemple, les modèles simplifiés peuvent omettre des mécanismes de risque clés (comme l’effet des vibrations sur le desserrage des boulons), tandis que les simulations numériques haute fidélité (comme l’analyse par éléments finis) sont gourmandes en temps de calcul et ne permettent pas de satisfaire aux interactions en temps réel requises pour l’apprentissage par renforcement. Ce paradoxe entre « fidélité de modélisation et efficacité de calcul » rend l’environnement d’entraînement fondamentalement différent du scénario réel.De nombreux chercheurs ont proposé la génération de données synthétiques, utilisant la modélisation physique, la simulation procédurale ou les modèles génératifs (par exemple, les GAN) pour créer des ensembles de données diversifiés et réalistes [

152 ]. D’autres ont avancé que l’apprentissage conjoint, où l’entraînement décentralisé du modèle est réalisé entre différents chantiers ou entreprises sans échange des données originales, est plus efficace, améliorant ainsi les capacités de généralisation tout en protégeant la confidentialité des données. En matière de modélisation environnementale, l’environnement de la construction intelligente est très dynamique et présente des interactions physiques complexes, ce qui rend la modélisation précise extrêmement difficile. De plus, les perturbations externes fréquentes (changements météorologiques, accidents imprévus) rendent la dynamique environnementale difficile à prévoir, tandis que l’observabilité partielle (par exemple, l’état caché des travaux) affaiblit la fiabilité du modèle.

5.1.2 . Absence de cadre de référence pour les paradigmes d’application

Actuellement, il n’existe pas de cadre de référence unifié pour l’application de l’apprentissage par renforcement (AR) à la gestion des risques dans le secteur de la construction, ce qui engendre un décalage important entre la recherche théorique et la pratique de l’ingénierie. La communauté académique privilégie les indicateurs de performance des algorithmes (tels que la vitesse de convergence et le rendement), tandis que le domaine de l’ingénierie met davantage l’accent sur l’interprétabilité, la redondance de sécurité et la conformité . Ce décalage dans les critères d’évaluation explique pourquoi de nombreux algorithmes d’AR, bien que performants dans les publications scientifiques, sont difficiles à intégrer dans les systèmes de gestion de l’ingénierie. Plus critique encore, les décisions relatives à la sécurité sur les chantiers nécessitent souvent l’intégration des normes sectorielles (par exemple, les normes OSHA) et de l’expertise, or les cadres d’AR existants ne disposent pas de mécanismes permettant d’intégrer systématiquement ces connaissances préalables, ce qui conduit à des conflits entre les décisions algorithmiques et l’intuition des ingénieurs.

6. Conclusion

Cet article explore de manière systématique les progrès de la recherche, les principaux défis et les stratégies d’amélioration de l’apprentissage par renforcement dans la gestion des risques liés à la construction d’installations pharmaceutiques. Les recherches montrent que, malgré les premiers succès obtenus par cette technologie dans la surveillance de la sécurité des chantiers et la planification des ressources, son application à des scénarios à haut risque, tels que la construction d’usines pharmaceutiques de haute technologie, de salles blanches et de laboratoires, reste encore à ses débuts. La recherche actuelle présente trois limitations majeures : premièrement, les exigences spécifiques en matière de contrôle de la biocontamination, de maintenance dynamique des zones propres et d’installation aseptique des équipements de process n’ont pas été entièrement modélisées dans les environnements de simulation d’apprentissage par renforcement ; deuxièmement, l’absence d’un cadre de sélection d’algorithmes pour la vérification de la conformité aux BPF et la garantie de la continuité de la production de médicaments rend difficile l’application des algorithmes courants, tels que DQN et PPO, aux normes de qualité et de sécurité rigoureuses de la construction pharmaceutique ; enfin, le manque de mécanismes de traçabilité et de cadre réglementaire industriel pour la prise de décision par apprentissage par renforcement dans le débogage des systèmes de process pharmaceutiques et la construction de zones critiques entrave sérieusement sa mise en œuvre dans des contextes sensibles, tels que les zones critiques aseptiques.

Références

[1]D’après le Quotidien du Peuple, depuis le début du 14e plan quinquennal, l’industrie pharmaceutique a réalisé des progrès remarquables en matière de développement qualitatif, avec un chiffre d’affaires principal en croissance à un taux annuel moyen de 9,3 % (2023). https://www.gov.cn/yaowen/liebiao/202311/content_6915215.htm (consulté le 29 octobre 2025).Google Scholar
[2]B.-G. Hwang , SR Thomas , CH CaldasDéveloppement de mesures de performance pour les projets de construction pharmaceutiqueRevue internationale de gestion de projet , 28 ( 2010 ) , p . 265-274 , 10.1016 /j.ijproman.2009.06.004 Voir le PDF Voir l’article Voir dans Scopus Google Scholar
[3]Administration d’État chinoise pour la réglementation du marché (CSAMR), bonnes pratiques de fabrication des produits pharmaceutiques (révisé en 2010), . (2011). https://www.gov.cn/zhengce/2021-06/29/content_5723551.htm .Google Scholar
[4]J. ZhouRecherche sur la méthode d’évaluation des risques liés à la gestion de la construction dans les industries pharmaceutiquesJ. Commer. Biotechnol. , 27 ( 2022 ) , p. 202-213 , 10.5912 / jcb1112 Voir dans Scopus Google Scholar
[5]S. Dabirian , M. Ahmadi , S. AbbaspourAnalyse de l’impact des politiques financières sur la performance des projets de construction à l’aide de la dynamique des systèmesEng., Constr. Architect. Manage.. , 30 ( 2021 ) , pp. 1201 – 1221 , 10.1108/ecam-05-2021-0431 Google Scholar
[6]R. EdirisinghePeau numérique du chantier : technologies de capteurs intelligents pour le chantier intelligent de demainEng., Constr. Architect. Manage.. , 26 ( 2019 ) , pp. 184 – 223 , 10.1108/ecam-04-2017-0066 Voir l’article Voir dans Scopus Google Scholar
[7]M. Xu , X. Nie , H. Li , JCP Cheng , Z. MeiChantiers intelligents : une approche prometteuse pour améliorer la performance de la gestion HSE sur siteJ. Build. Eng. , 49 ( 2022 ) , Article 104007 , 10.1016/j.jobe.2022.104007 Voir le PDF Voir l’article Voir dans Scopus Google Scholar
[8]V. Mnih , K. Kavukcuoglu , D. Silver , AA Rusu , J. Veness , MG Bellemare , A. Graves , M. Riedmiller , AK Fidjeland , G. Ostrovski , S. Petersen , C. Beattie , A. Sadik , I. Antonoglou , H. King , D. Kumaran , D. Wierstra , S. Legg , D. HassabisContrôle de niveau humain grâce à l’apprentissage par renforcement profondNature , 518 ( 2015 ) , p. 529-533 , 10.1038 / nature14236 Voir dans Scopus Google Scholar
[9]LP Kaelbling , ML Littman , AW MooreApprentissage par renforcement : une étudeJ.Artif. Intell. Rés. , 4 ( 1996 ) , pp. 237 – 285 , 10.1613/jair.301 Voir dans Scopus Google Scholar
[10]Y. Han, K. Sun, Z. Zhao, GQ Huang, Planification de l’aménagement modulaire d’hôpitaux hors distribution via l’apprentissage par renforcement profond augmenté de mémoire*, dans : 21e Conférence internationale IEEE sur la science et l’ingénierie de l’automatisation (CASE), IEEE, 2025 : pp. 1292–1297. 10.1109/case58245.2025.11164092 .Google Scholar
[11]JI Guerrero , G. Miró-Amarante , A. MartínSystème d’aide à la décision pour la conception de bâtiments de soins de santé basé sur le raisonnement à partir de cas et l’apprentissage par renforcementExpert. Système. Appl. , 187 ( 2022 ) , Article 116037 , 10.1016/j.eswa.2021.116037 Voir le PDF Voir l’article Voir dans Scopus Google Scholar
[12]K. Matsumoto, A. Yamaguchi, T. Oka, M. Yasumoto, S. Hara, M. Lida, M. Teichmann, Approche d’apprentissage par renforcement basée sur la simulation pour l’automatisation des machines de construction, dans : ISARC. Actes du Symposium international sur l’automatisation et la robotique dans la construction, Publications IAARC, Waterloo, 2020 : pp. 457–464.Google Scholar
[13]K. Mason , S. GrijalvaUne revue de l’apprentissage par renforcement pour la gestion autonome de l’énergie des bâtimentsIngénierie électronique informatique , 78 ( 2019 ) , p. 300-312 , 10.1016 / j.compeleceng.2019.07.019 Voir le PDF Voir l’article Voir dans Scopus Google Scholar
[14]L. Yu , S. Qin , M. Zhang , C. Shen , T. Jiang , X. GuanUne revue de l’apprentissage par renforcement profond pour la gestion de l’énergie des bâtiments intelligentsIEEE Internet Things Journal , 8 ( 2021 ) , p. 12046-12063 , 10.1109 / JIOT.2021.3078462 Voir dans Scopus Google Scholar
[15]H. Yu , VWY Tam , X. XuUne revue systématique de l’application de l’apprentissage par renforcement à la simulation du comportement des occupants en lien avec la consommation énergétique des bâtimentsEnergy Build. , 312 ( 2024 ) , Article 114189 , 10.1016/j.enbuild.2024.114189 Voir le PDF Voir l’article Voir dans Scopus Google Scholar
[16]V. Asghari , Y. Wang , AJ Biglari , S.-C. Hsu , P. TangL’apprentissage par renforcement en génie et gestion de la construction : une revueJ. Constr. Eng. Manage , 148 ( 2022 ) , Article 03122009 , 10.1061/(asce)co.1943-7862.0002386 Voir dans Scopus Google Scholar
[17]R. Sarkis-Onofre , F. Catalá-López , E. Aromataris , C. LockwoodComment utiliser correctement la déclaration PRISMASyst. Rev. , 10 ( 2021 ) , p. 117 , 10.1186/s13643-021-01671-z Voir dans Scopus Google Scholar
[18]D. Moher , A. Liberati , J. Tetzlaff , DG AltmanÉléments de rapport privilégiés pour les revues systématiques et les méta-analyses : la déclaration PRISMAInt. J. Surg. , 8 ( 2009 ) , p. 336-341 , 10.1016 / j.ijsu.2010.02.007 Google Scholar
[19]QJ Wen , ZJ Ren , H. Lu , JF WuProgrès et tendances de la recherche sur le BIM : une analyse de visualisation basée sur la bibliométrieAutom. Constr. , 124 ( 2021 ) , Article 103558 , 10.1016/j.autcon.2021.103558 Voir le PDF Voir l’article Voir dans Scopus Google Scholar
[20]D. Wang , Y. Huangfu , Z. Dong , Y. DongPoints chauds de la recherche et tendances d’évolution de la neutralité carbone — Analyse visuelle des données bibliométriques basée sur CiteSpaceDurabilité. , 14 ( 2022 ) , p. 1078 , 10.3390/su14031078 Google Scholar
[21]M. Jin , J. Liu , J. Yu , Q. Zhou , W. Wu , L. Fu , C. Yin , C. Fernandez , H. Karimi-MalehÉvolution actuelle et défis futurs des techniques de détection des microplastiques : analyse et synthèse bibliométriquesSci. Prog. , 105 ( 2022 ) , Article 003685042211321 , 10.1177/00368504221132151 Google Scholar
[22]Y. Junjia , AH Alias , NA Haron , N.Abu BakarUne revue systématique bibliométrique de l’évaluation des risques de sécurité pour la construction par levage IBSBâtiments , 13 ( 2023 ) , p. 1853 , 10.3390/buildings13071853 Voir dans Scopus Google Scholar
[23]Q. Xiaoxiang , Y. Junjia , NA Haron , AH Alias , TH Law , N. Abu BakarÉtat des lieux, défis et perspectives d’avenir de l’évaluation des rénovations de bâtiments à énergie nette zéro : une revue systématique bibliométriqueEnergies. (Bâle) , 17 ( 2024 ) , p. 3826 , 10.3390/en17153826 Voir dans Scopus Google Scholar
[24]Y. Junjia , AH Alias , NA Haron , N.Abu BakarApprentissage profond pour la gestion des risques liés à la sécurité dans la construction modulaire : état des lieux, atouts, défis et perspectives d’avenirAutom. Constr. , 169 ( 2025 ) , Article 105894 , 10.1016/j.autcon.2024.105894 Voir le PDF Voir l’article Voir dans Scopus Google Scholar
[25]JW Drisko , T. MaschiAnalyse de contenuOxford University Press , New York ( 2016 )Google Scholar
[26]S. Golazad , A. Mohammadi , A. Rashidi , M. IlbeigiDu brut au raffiné : prétraitement des données pour les modèles d’apprentissage automatique (ML), d’apprentissage profond (DL) et d’apprentissage par renforcement (RL) dans le secteur de la constructionAutom. Constr. , 168 ( 2024 ) , Article 105844 , 10.1016/j.autcon.2024.105844 Voir le PDF Voir l’article Voir dans Scopus Google Scholar
[27]B. Singh , R. Kumar , V.P. SinghApprentissage par renforcement dans les applications robotiques : une étude exhaustiveArtif. Intell. Rév. , 55 ( 2021 ) , pp. 945 – 990 , 10.1007/s10462-021-09997-9 Google Scholar
[28]X. Lei , Y. Dong , DM FrangopolÉlaboration de politiques de maintenance durable du cycle de vie pour les ponts en dégradation au niveau du réseau à l’aide d’un auto-encodeur convolutif – agent d’apprentissage par renforcement structuréJ. Bridge Ing. , 28 ( 2023 ) , Article 04023063 , 10.1061/jbenf2.beeng-6159 Voir dans Scopus Google Scholar
[29]A. Déria , P. Ghannad , Y.-C. LeeOptimisation dynamique en temps réel de l’affectation d’unités modulaires à des installations hors site dans le cadre de la reconstruction post-catastrophe grâce à l’apprentissage par renforcement profondJ. Gérer. Ing. , 40 ( 2024 ) , article 04024021 , 10.1061/jmenea.meeng-5900 Voir dans Scopus Google Scholar
[30]GM Ali , A. Bouferguene , M. Al-HusseinOptimisation de la disposition des tapis de grue basée sur une approche gloutonne et d’apprentissage par renforcement à base d’agentsJ. Constr. Eng. Manage , 149 ( 2023 ) , Article 04023067 , 10.1061/jcemd4.coeng-12891 Voir dans Scopus Google Scholar
[31]M. Cheng , DM FrangopolUn cadre décisionnel pour la planification de la capacité portante des ponts vieillissants utilisant l’apprentissage par renforcement profondJ. Comput. Civil Eng. , 35 ( 2021 ) , Article 04021024 , 10.1061/(asce)cp.1943-5487.0000991 Voir dans Scopus Google Scholar
[32]J. Cai , A. Du , X. Liang , S. LiPlanification de trajectoires basée sur la prédiction pour une collaboration homme-robot sûre et efficace dans le secteur de la construction grâce à l’apprentissage par renforcement profondJ. Comput. Civil Eng. , 37 ( 2023 ) , Article 04022046 , 10.1061/(asce)cp.1943-5487.0001056 Voir dans Scopus Google Scholar
[33]DY YangGestion adaptative du cycle de vie des structures à grande échelle basée sur les risques, utilisant l’apprentissage par renforcement profond et la modélisation par approximation.J. Ing. Mécanique. , 148 ( 2022 ) , Article 04021126 , 10.1061/(asce)em.1943-7889.0002028 Voir dans Scopus Google Scholar
[34]SJ Hormozabad , N. Jacobs , MG SotoApprentissage par renforcement pour le contrôle structurel intégré et la surveillance de l’état de santéPract. Period. Struct. Design Constr. , 29 ( 2024 ) , Article 04024026 , 10.1061/ppscfx.sceng-1455 Voir dans Scopus Google Scholar
[35]M. ElMenshawy , L. Wu , B. Gue , S. AbouRizkAutomatisation de la planification de la fabrication des tronçons de tuyauterie pour les projets de construction industrielle modulaire grâce à l’apprentissage par renforcementJ. Comput. Civil Eng. , 39 ( 2025 ) , Article 04025013 , 10.1061/jccee5.cpeng-6042 Voir dans Scopus Google Scholar
[36]W. SerranoAlgorithmes d’apprentissage par renforcement profond dans les infrastructures intelligentesInfrastructures. (Bâle) , 4 ( 2019 ) , p. 52 , 10.3390/infrastructures4030052 Voir dans Scopus Google Scholar
[37]C. Zhang , X. Zhou , C. Xu , Z. Wu , J. Liu , H. QiGénération automatique de plans de fabrication d’éléments préfabriqués en béton à partir de données BIM et d’un apprentissage par renforcement multi-agentsBâtiments , 15 ( 2025 ) , p. 284 , 10.3390/buildings15020284 Google Scholar
[38]M. Kim , Y. Ham , C. Koo , T.W. KimSimulation des déplacements des ouvriers sur un chantier de construction par apprentissage par renforcement profond, en tenant compte de leur cognition spatiale et de leur comportement d’orientation.Autom. Constr. , 147 ( 2023 ) , Article 104715 , 10.1016/j.autcon.2022.104715 Voir le PDF Voir l’article Voir dans Scopus Google Scholar
[39]P. Lin , L. Zhang , RLK Tiong , X. SongApprentissage par renforcement profond guidé par la physique pour un fonctionnement amélioré des tunneliers prenant en compte la stabilité de l’inertie cinétiqueAdv. Eng. Inform. , 63 ( 2025 ) , Article 102943 , 10.1016/j.aei.2024.102943 Voir le PDF Voir l’article Voir dans Scopus Google Scholar
[40]P. Lin , A. Ji , Y. Zhou , L. Zhang , RLK TiongCommande automatisée de la position d’un tunnelier pendant l’excavation à l’aide d’un apprentissage par renforcement profond prenant en compte la dynamique spatio-temporelleAppl. Soft. Comput. , 167 ( 2024 ) , Article 112234 , 10.1016/j.asoc.2024.112234 Voir le PDF Voir l’article Voir dans Scopus Google Scholar
[41]KM Alhamed , C. Iwendi , AK Dutta , B. Almutairi , H. Alsaghier , S. AlmotairiConstruction de bâtiments basée sur la vidéosurveillance et l’apprentissage par renforcement profond utilisant un réseau électrique intelligentComput. Electric. Eng. , 103 ( 2022 ) , Article 108273 , 10.1016/j.compeleceng.2022.108273 Voir le PDF Voir l’article Voir dans Scopus Google Scholar
[42]M. Amani , R. AkhavianOptimisation ergonomique intelligente dans l’interaction bimanuelle opérateur-robot : une approche d’apprentissage par renforcementAutom. Constr. , 168 ( 2024 ) , Article 105741 , 10.1016/j.autcon.2024.105741 Voir le PDF Voir l’article Voir dans Scopus Google Scholar
[43]D. Lee , S. Lee , N. Masoud , MS Krishnan , VC LiApprentissage par renforcement profond piloté par jumeau numérique pour l’allocation adaptative des tâches dans la construction robotiqueAdv. Eng. Inform. , 53 ( 2022 ) , Article 101710 , 10.1016/j.aei.2022.101710 Voir le PDF Voir l’article Voir dans Scopus Google Scholar
[44]P. Lin , M. Wu , Z. Xiao , RLK Tiong , L. ZhangApprentissage par renforcement profond basé sur la physique pour améliorer la vitesse d’avancement et la stabilité des tunneliersAutom. Constr. , 158 ( 2023 ) , Article 105234 , 10.1016/j.autcon.2023.105234 Google Scholar
[45]RK Soman , M. Molina-SolanaAutomatisation de la génération de plannings prévisionnels pour la construction grâce à la vérification des contraintes basée sur les données liées et l’apprentissage par renforcementAutom. Constr. , 134 ( 2022 ) , Article 104069 , 10.1016/j.autcon.2021.104069 Voir le PDF Voir l’article Voir dans Scopus Google Scholar
[46]Y. Cao , W. Luo , Y. Xue , W. Lin , F. ZhangCadre d’apprentissage par renforcement hors ligne basé sur un modèle pour l’optimisation du fonctionnement des tunneliersEspace souterrain , 19 ( 2024 ) , p. 47-71 , 10.1016 / j.undsp.2024.01.008 Voir le PDF Voir l’article Voir dans Scopus Google Scholar
[47]D. Lee , M. KimSystème de levage de chantier autonome basé sur l’apprentissage par renforcement profond pour la construction d’immeubles de grande hauteurAutom. Constr. , 128 ( 2021 ) , Article 103737 , 10.1016/j.autcon.2021.103737 Voir le PDF Voir l’article Voir dans Scopus Google Scholar
[48]X. Liu , W. Zhang , C. Shao , Y. Wang , Q. CongCommande intelligente autonome d’un tunnelier à pression de terre équilibrée basée sur l’apprentissage par renforcement profondIng. Appl. Artif. Intell. , 125 ( 2023 ) , Article 106702 , 10.1016/j.engappai.2023.106702 Voir le PDF Voir l’article Voir dans Scopus Google Scholar
[49]Z. Zhang , Z. Guo , H. Zheng , Z. Li , PF YuanComposition spatiale architecturale automatisée via l’apprentissage par renforcement profond multi-agents pour la rénovation de bâtimentsAutom. Constr. , 167 ( 2024 ) , Article 105702 , 10.1016/j.autcon.2024.105702 Voir le PDF Voir l’article Voir dans Scopus Google Scholar
[50]Y. Pan , Y. Shen , J. Qin , L. ZhangApprentissage par renforcement profond pour l’optimisation multi-objectif dans la conception de bâtiments écologiques basée sur le BIMAutom. Constr. , 166 ( 2024 ) , Article 105598 , 10.1016/j.autcon.2024.105598 Voir le PDF Voir l’article Voir dans Scopus Google Scholar
[51]CH Lin , B. Fu , L. Zhang , N. Li , GS TongConception intelligente de poutres composites acier-béton basée sur l’apprentissage par renforcement profondStructures , 70 ( 2024 ) , Article 107666 , 10.1016/j.istruc.2024.107666 Voir le PDF Voir l’article Voir dans Scopus Google Scholar
[52]X. Tang , B. Yi , Z. Wang , MT Quasim , S. Basheer , B. LiangOptimisation multi-objectif basée sur l’apprentissage par renforcement profond pour les bâtiments de soins de santé intelligents en carbone et compatibles avec l’IIoTIEEE Internet Things Journal , 12 ( 2025 ) , p. 34768-34779 , 10.1109 / jiot.2025.3579055 Voir dans Scopus Google Scholar
[53]TF Hansen , GH Erharter , T. MarcherVers une politique de changement de fraise TBM pilotée par l’apprentissage par renforcementAutom. Constr. , 165 ( 2024 ) , Article 105505 , 10.1016/j.autcon.2024.105505 Voir le PDF Voir l’article Voir dans Scopus Google Scholar
[54]Y. Liu , Y. Wang , Z. ZhouSimulation d’opérations cohérentes d’excavatrices lors de travaux de terrassement basée sur l’apprentissage par renforcementBâtiments , 14 ( 2024 ) , p. 3270 , 10.3390/buildings14103270 Voir dans Scopus Google Scholar
[55]Q. Fu , K. Li , J. Chen , J. Wang , Y. Lu , Y. WangPrédiction de la consommation énergétique des bâtiments à l’aide d’une méthode DQN basée sur les forêts profondesBâtiments , 12 ( 2022 ) , p. 131 , 10.3390/buildings12020131 Voir dans Scopus Google Scholar
[56]Y. Yao , VWY Tam , J. Wang , KN Le , A. ButeraPlanification automatisée de la construction utilisant l’apprentissage par renforcement profond avec échantillonnage d’actions validesAutom. Constr. , 166 ( 2024 ) , Article 105622 , 10.1016/j.autcon.2024.105622 Voir le PDF Voir l’article Voir dans Scopus Google Scholar
[57]O. Azulay , A. ShapiroContrôleur de godet de chargeuse sur pneus utilisant l’apprentissage par renforcement profondIEEE Access , 9 ( 2021 ) , p. 24145-24154 , 10.1109 / access.2021.3056625 Voir dans Scopus Google Scholar
[58]I. Kurinov , G. Orzechowski , P. Hämäläinen , A. MikkolaExcavatrice automatisée basée sur l’apprentissage par renforcement et la dynamique des systèmes multicorpsIEEE Access , 8 ( 2020 ) , p. 213998-214006 , 10.1109 / ACCESS.2020.3040246 Voir dans Scopus Google Scholar
[59]A. Ibrahim , W. Torres-Calderon , M. Golparvar-FardApprentissage par renforcement pour la cartographie de la réalité de haute qualité des constructions intérieures à l’aide de véhicules terrestres sans piloteAutom. Constr. , 156 ( 2023 ) , Article 105110 , 10.1016/j.autcon.2023.105110 Voir le PDF Voir l’article Voir dans Scopus Google Scholar
[60]T. Osa , M. AizawaApprentissage par renforcement profond avec entraînement antagoniste pour l’excavation automatisée à l’aide d’images de profondeurIEEE Access , 10 ( 2022 ) , p. 4523-4535 , 10.1109 / access.2022.3140781 Voir dans Scopus Google Scholar
[61]AA Apolinarska , M. Pacher , H. Li , N. Côté , R. Pastrana , F. Gramazio , M. KohlerAssemblage robotisé de joints de bois par apprentissage par renforcementAutom. Constr. , 125 ( 2021 ) , Article 103569 , 10.1016/j.autcon.2021.103569 Voir le PDF Voir l’article Voir dans Scopus Google Scholar
[62]C. Jiang , X. Li , J.-R. Lin , M. Liu , Z. MaContrôle adaptatif des flux de ressources pour optimiser les travaux de construction et les flux de trésorerie grâce à l’apprentissage par renforcement profond en ligneAutom. Constr. , 150 ( 2023 ) , Article 104817 , 10.1016/j.autcon.2023.104817 Voir le PDF Voir l’article Voir dans Scopus Google Scholar
[63]AY Yasutomi , H. Ichiwara , H. Ito , H. Mori , T. OgataAttention visuo-spatiale et apprentissage par renforcement basé sur les données proprioceptives pour une tâche robuste d’insertion de cheville dans un trou dans des conditions variablesRobot IEEE. Automatique. Lett. , 8 ( 2023 ) , pp. 1834 – 1841 , 10.1109/lra.2023.3243526 Voir dans Scopus Google Scholar
[64]A. Zhu , T. Dai , G. Xu , P. Pauwels , BD Vries , M. FangApprentissage par renforcement profond pour la planification d’assemblage en temps réel dans la construction préfabriquée robotiséeIEEE Trans. Autom. Sci. Eng. , 20 ( 2023 ) , p. 1515-1526 , 10.1109 /tase.2023.3236805 Voir dans Scopus Google Scholar
[65]J. Liu , P. Liu , L. Feng , W. Wu , D. Li , YF ChenRésolution automatisée des conflits pour la conception des armatures en acier dans les ossatures en béton via l’apprentissage par renforcement Q-learning et la modélisation des informations du bâtimentAutom. Constr. , 112 ( 2020 ) , Article 103062 , 10.1016/j.autcon.2019.103062 Voir le PDF Voir l’article Voir dans Scopus Google Scholar
[66]W. Chen , Z. Zhang , D. Tang , C. Liu , Y. Gui , Q. Nie , Z. ZhaoÉvaluation d’un algorithme d’apprentissage par renforcement basé sur LSTM-PPO pour résoudre le problème d’ordonnancement dynamique d’atelierIngénierie industrielle et informatique , 197 ( 2024 ) , Article 110633 , 10.1016/j.cie.2024.110633 Voir le PDF Voir l’article Voir dans Scopus Google Scholar
[67]MO Ahmed , IH El-adawayModélisation intégrée par théorie des jeux et apprentissage par renforcement pour les appels d’offres en plusieurs étapes dans le secteur de la construction et des infrastructuresConstr. Manage. Econ. , 41 ( 2022 ) , p. 1-25 , 10.1080 / 01446193.2022.2124528 Google Scholar
[68]HS Fard , H. Parvin , M. MahmoudiAmélioration des prédictions de l’effet de rétrécissement dans les tunnels rocheux grâce à l’apprentissage Q d’ensemble et aux chaînes de Markov en ligneSci. Rep. , 14 ( 2024 ) , Article 22885 , 10.1038/s41598-024-72998-5 Voir dans Scopus Google Scholar
[69]F. Peng , H. Liu , L. ZhengUne méthode d’apprentissage par renforcement hybride Sarsa pour la prévision de la puissance des batteries robotiquesJ. Cent. South. Univ. , 30 ( 2023 ) , pp. 3867 – 3880 , 10.1007/s11771-023-5451-0 Voir dans Scopus Google Scholar
[70]C. Yu , G. Yan , K. Ruan , X. Liu , C. Yu , X. MiUn réseau de portes d’apprentissage par renforcement convolutionnel ensembliste pour la prévision des PM2.5 dans les stations de métroÉvaluation des risques liés à la recherche stochastique et environnementale ( 2023 ) , 10.1007/s00477-023-02564-4 Google Scholar
[71]R. Li , Z. ZouAmélioration de l’apprentissage des robots de construction pour les tâches collaboratives et à long terme grâce à l’apprentissage par imitation générative adverseAdv. Eng. Inform. , 58 ( 2023 ) , Article 102140 , 10.1016/j.aei.2023.102140 Voir le PDF Voir l’article Voir dans Scopus Google Scholar
[72]G. Zhu , Z. Shen , L. Liu , S. Zhao , F. Ji , Z. Ju , J. SunMéthode d’évitement d’obstacles dynamique pour AUV basée sur un algorithme PPO amélioréIEEE Access , 10 ( 2022 ) , p. 121340-121351 , 10.1109 / access.2022.3223382 Voir dans Scopus Google Scholar
[73]D. Yao , G. de S. BorjaAmélioration de l’identification des cyber-risques dans le secteur de la construction grâce aux modèles de langageAutom. Constr. , 165 ( 2024 ) , Article 105565 , 10.1016/j.autcon.2024.105565 Voir le PDF Voir l’article Voir dans Scopus Google Scholar
[74]CJ Liang , VR Kamat , CC MenassaApprendre aux robots à effectuer des tâches de construction quasi répétitives par le biais de démonstrations humainesAutom. Constr. , 120 ( 2020 ) , Article 103370 , 10.1016/j.autcon.2020.103370 Voir le PDF Voir l’article Voir dans Scopus Google Scholar
[75]W. Cai , L. Huang , Z. ZouUne approche intégrée combinant environnements virtuels et apprentissage par renforcement pour former des robots de construction à réaliser des tâches en situation d’incertitude.Notes de cours en génie civil , 363 ( 2023 ) , p. 259-271 , 10.1007 /978-3-031-34593-7_17 Voir dans Scopus Google Scholar
[76]J. Feng , Z. Ren , W. LiDispatching basé sur les risques des réseaux électriques intégrant la corrélation spatio-temporelle et reposant sur un algorithme robuste de type acteur-critique soupleIEEE Trans. Power Syst. ( 2024 ) , pp. 1 – 14 , 10.1109/tpwrs.2024.3496936 Voir dans Scopus Google Scholar

Sahel Lib

Ideas without borders

Apprentissage par renforcement dans la gestion des risques des projets de construction pharmaceutique

Points forts

Résumés

Résumé graphique

Mots clés

1. Introduction

3. Méthodes et matériaux

3.1 . Méthodes de recherche

4.1 . Analyse de la cooccurrence des mots clés

5. Discussions

5.1 . Défis liés à l’apprentissage par renforcement

5.1.1 . Difficultés liées à la collecte de données et à la modélisation environnementale

5.1.2 . Absence de cadre de référence pour les paradigmes d’application

6. Conclusion

Références

Sahel Lib

Ideas without borders

Apprentissage par renforcement dans la gestion des risques des projets de construction pharmaceutique

Points forts

Résumés

Résumé graphique

Mots clés

1. Introduction​

3. Méthodes et matériaux

3.1 . Méthodes de recherche

4.1 . Analyse de la cooccurrence des mots clés

5. Discussions​

5.1 . Défis liés à l’apprentissage par renforcement

5.1.1 . Difficultés liées à la collecte de données et à la modélisation environnementale

5.1.2 . Absence de cadre de référence pour les paradigmes d’application

6. Conclusion​

Références