Sahel Lib

Sahel Lib

Ideas without borders

Partage d’articles scientifiques

Traitement automatique du langage naturel pour des infrastructures résilientes aux catastrophes

Estimated reading: 59 minutes 93 views

Abstrait

L’augmentation de la fréquence et de la gravité des catastrophes naturelles, exacerbées par le réchauffement climatique, exige des solutions novatrices pour renforcer la résilience des infrastructures critiques. Des recherches récentes révèlent le potentiel considérable du traitement automatique du langage naturel (TALN) pour analyser le langage humain non structuré lors de catastrophes, facilitant ainsi la détection des perturbations et offrant une connaissance situationnelle essentielle à la résilience des infrastructures critiques. Malgré ce potentiel, peu d’études ont cartographié de manière systématique la recherche mondiale sur les applications du TALN en matière de résilience des infrastructures critiques. Cet article contribue à l’avancement des connaissances en présentant une synthèse des connaissances actuelles à l’aide d’une méthode scientométrique. À partir de 231 références bibliographiques issues des bases de données Scopus et Web of Science, nous avons identifié cinq axes de recherche clés où les chercheurs ont utilisé le TALN pour renforcer la résilience des infrastructures critiques lors de catastrophes naturelles : l’analyse des sentiments, l’informatique de crise, la visualisation des données et des connaissances, l’évaluation des impacts des catastrophes et l’analyse de contenu. De plus, nous évaluons l’utilité du traitement automatique du langage naturel (TALN) dans le cadre de la recherche identifiée, en nous concentrant sur quatre aspects de la résilience (préparation, absorption, rétablissement et adaptabilité), et présentons diverses techniques courantes ainsi que des pistes de recherche futures. Cette analyse souligne le potentiel du TALN comme source de données complémentaires pour renforcer la résilience des systèmes d’information et de coopération (SIC). Les résultats de cette étude constituent un guide introductif destiné à aider les chercheurs et les praticiens à exploiter le potentiel du TALN pour consolider la résilience des SIC face aux catastrophes naturelles.

Mots clés

  • Traitement du langage naturel
  • NLP
  • Infrastructures critiques
  • Résilience
  • Catastrophe

1. Introduction​

Les infrastructures critiques (IC) sont incontestablement reconnues comme essentielles au fonctionnement des sociétés modernes. Les catastrophes naturelles peuvent perturber considérablement ces infrastructures, engendrant des risques pour la sécurité publique et l’économie [ 1 ]. L’ouragan Ida en 2021, qui a provoqué d’importantes coupures d’électricité, des défaillances des réseaux routiers et de communication [ 2 ], illustre ce type de perturbation [ 3 ]. Le coût total des dommages est estimé à environ 75 milliards de dollars . Il est donc raisonnable de penser que les tendances actuelles indiquent une augmentation significative du coût financier des perturbations des IC causées par les catastrophes naturelles. Par exemple, la moyenne annuelle de catastrophes naturelles entraînant des pertes supérieures à un milliard de dollars était de neuf entre 1980 et 2024, tandis que la moyenne quinquennale la plus récente (2019-2023) a presque triplé pour atteindre 23 événements [ 4 ].Par conséquent, la nécessité de résilience des systèmes d’information de production (SIP) est plus impérative que jamais. La résilience se définit comme la capacité des SIP à résister aux perturbations causées par des aléas externes, à y répondre et à s’en remettre, assurant ainsi la continuité du service [ 5 ]. Essentiellement, la résilience vise à garantir le maintien des services opérationnels essentiels en conditions défavorables. Cependant, parvenir à des SIP résilients est complexe, principalement parce que la résilience englobe de nombreuses dimensions. La dimension physique de la résilience évalue l’aspect physique des SIP à partir des données de capteurs physiques qui identifient les changements de fonctionnement [ 6 ]. Par exemple, Bai et al. [ 7 ] proposent une méthode pour calculer l’indice de résilience des réseaux d’approvisionnement en gaz naturel à partir des données de capteurs de gaz et de systèmes de ventilation. Toutefois, certains chercheurs ont fait valoir que la résilience ne se limite pas à la dimension physique et que d’autres dimensions sont tout aussi importantes, même si elles ne peuvent être quantifiées par les seuls capteurs physiques [ 8 ]. En effet, la détection physique permet de repérer les pannes, mais ne quantifie pas l’impact total sur la communauté [ 9 , 10 ]. Cela s’est avéré évident lors des incendies de forêt en Californie en 2018, lorsque des capteurs physiques ont rapidement détecté les défaillances des lignes électriques qui ont déclenché les incendies, mais n’ont pas pu quantifier l’impact social plus large, notamment sur les personnes âgées et celles qui n’ont pas les moyens d’évacuer [ 11 ].La dimension sociale de la résilience est un excellent exemple de dimension pouvant être évaluée par l’analyse d’informations textuelles qualitatives (articles de presse et réseaux sociaux, par exemple) [ [12] , [13] , [14] ]. Parmi celles-ci, les réseaux sociaux sont largement considérés comme un moyen de communication essentiel pour la connaissance de la situation lors de catastrophes naturelles, compte tenu de leur capacité à diffuser rapidement l’information des utilisateurs [ 15 ]. Cependant, l’analyse manuelle d’une grande quantité de données textuelles non structurées représente un défi. À cet égard, le traitement automatique du langage naturel (TALN), un domaine de l’intelligence artificielle permettant aux ordinateurs d’interpréter et d’analyser les textes produits par l’humain, joue un rôle important [ 16 ]. De nombreuses études ont utilisé le TALN pour détecter les perturbations, analyser l’opinion publique et prédire les risques potentiels en analysant les vastes quantités de données non structurées générées pendant les crises et collectées sur les réseaux sociaux [ [17] , [18] , [19] ]. Par exemple, grâce à l’analyse des sentiments basée sur le traitement automatique du langage naturel (TALN), des études ont quantifié les sentiments positifs et négatifs des personnes après des événements, contribuant ainsi à des interventions d’urgence ciblées [ 20 , 21 , 22 ]. Cependant, malgré l’intérêt croissant porté à l’utilisation du TALN pour renforcer la résilience des systèmes d’information critiques (SIC), les revues exhaustives cartographiant la recherche mondiale sur le TALN appliqué aux différents aspects de la résilience des SIC (préparation, absorption, rétablissement et adaptabilité, par exemple) restent limitées. Les revues précédentes n’ont soit pas abordé l’utilisation du TALN pour traiter ces différents aspects, soit n’ont pas cartographié les techniques de TALN en fonction de ces aspects [ 23 , 24 ]. Face à cette lacune, cet article de synthèse vise à cartographier la recherche sur le TALN et son rôle dans le renforcement de la résilience des SIC, en utilisant une approche scientométrique. À cette fin, nous avons d’abord recours à l’analyse scientométrique pour identifier les principaux axes de recherche dans les études utilisant le TALN pour la résilience des SIC, parmi les publications pertinentes. Deuxièmement, nous examinons l’utilité du traitement automatique du langage naturel (TALN) pour aborder divers aspects de la résilience des systèmes d’information critiques et discutons des principales techniques de TALN utilisées dans chaque axe de recherche. Enfin, nous proposons des pistes de recherche futures pour chaque axe.Comme illustré dans la figure 1 , cet article débute par une revue de la littérature sur la résilience des systèmes d’information afin de définir le concept, d’identifier ses différentes dimensions et de mettre en évidence les lacunes des recherches existantes (section Contexte). Il décrit ensuite la méthodologie adoptée pour cette revue (section Méthodologie). Puis, il présente l’axe de recherche, l’application du traitement automatique du langage naturel (TALN) pour soutenir divers aspects de la résilience, ainsi que les techniques et les perspectives de recherche futures (section Résultats). Enfin, l’article conclut en résumant les principales contributions de l’étude et en identifiant explicitement les pistes de recherche futures pour approfondir l’utilisation du TALN dans le renforcement de la résilience des systèmes d’information (section Conclusion).

2. Contexte​

2.1 . Systèmes d’infrastructures critiques

Les différentes régions définissent les infrastructures critiques comme étant prioritaires pour différentes régions. Ainsi, la définition régionale des infrastructures critiques est influencée par l’évolution des préoccupations, telles que la fréquence de certaines catastrophes naturelles et l’interdépendance croissante des systèmes. Ces facteurs soulignent l’importance de prendre en compte les personnes et les éléments impactés à différentes échelles au sein des communautés [ 25 ]. Par exemple, une communauté rurale pourrait privilégier des réseaux électriques et des routes fiables pour se préparer à l’hiver, tandis qu’une ville côtière pourrait considérer les digues et les réseaux de communication comme des infrastructures critiques pour sa résilience face aux ouragans.Aux États-Unis, le document de référence faisant autorité pour comprendre les infrastructures critiques est le Cadre de planification de la résilience des infrastructures du Département de la sécurité intérieure, qui classe 16 infrastructures comme critiques pour les États-Unis [ 26 ]. Ces secteurs comprennent notamment les produits chimiques, les installations commerciales, les barrages et les services d’urgence.Parmi ces infrastructures, la présente étude se concentre sur quatre infrastructures critiques seulement : l’énergie, les transports, les communications et l’eau/l’assainissement, et ce pour trois raisons. Premièrement, ces systèmes sont fortement interconnectés et répartis sur un vaste territoire, ce qui les rend vulnérables aux aléas naturels. Par exemple, la panne de courant majeure de décembre 2022, qui a provoqué une panne d’électricité généralisée touchant environ 13,33 millions de personnes pendant deux jours [ 27 ], illustre les conséquences considérables que les perturbations de ces infrastructures critiques peuvent avoir sur la société. Deuxièmement, les perturbations de ces infrastructures critiques suscitent de fortes réactions du public sur les réseaux sociaux [ 24 , 28 ]. Par exemple, les données de Twitter ont révélé une augmentation significative des discussions concernant les pannes de courant et les perturbations des transports [ 29 ]. Enfin, la perturbation de ces infrastructures critiques a un effet perturbateur fondamental sur d’autres infrastructures critiques identifiées par le Département de la Sécurité intérieure des États-Unis. Par exemple, les perturbations du réseau énergétique peuvent affecter considérablement les installations commerciales [ 30 ] et les services d’urgence [ 31 ].

2.2 . Résilience des systèmes d’infrastructures critiques

L’origine du mot « résilience » remonte au latin *resilire*, qui signifie jaillir ou rebondir [ 32 ]. L’utilisation du terme « résilience » remonte à de nombreuses disciplines (par exemple, l’écologie, la psychologie) [ 33 ]. Cependant, deux écoles de pensée s’affrontent quant à la première utilisation du terme : selon la première, C.S. Holling aurait été le premier à l’employer pour décrire les systèmes écologiques, tandis que selon la seconde, il aurait été utilisé pour la première fois par William J.M. Rankine, un ingénieur écossais renommé, au XIXe siècle, pour décrire la résistance et la ductilité des poutres en acier [ 34 ].Au sein des systèmes d’information critiques (SIC), la résilience ne fait pas l’objet d’une définition unique et universellement acceptée [ 35 ]. Traditionnellement, les chercheurs en SIC considèrent la résilience comme une composante naturelle de la conception d’un système ; ils s’intéressent donc à la capacité d’un système à fonctionner au niveau nécessaire pour assurer la continuité des services critiques pendant toute la durée d’une perturbation [ 36 , 37 ]. Dans cette optique, un réseau électrique serait considéré comme résilient s’il intègre des éléments de conception minimisant la durée des coupures, permettant une certaine flexibilité face aux changements et réduisant le temps de rétablissement. Cette conception de la résilience va bien au-delà du simple maintien de l’état initial ; elle représente la capacité d’un système à s’adapter aux changements, et non pas un simple retour à son état antérieur une fois la perturbation passée [ 38 ].D’autres conceptions de la résilience la définissent comme l’ensemble des actions entreprises pour permettre à un système de se remettre d’une perturbation, en plus des caractéristiques de conception qui lui permettent d’y résister [ 39 , 40 ]. Ces perspectives montrent que la résilience ne peut se limiter à la conception d’un système ; elle englobe également les stratégies de coopération entre les entités et une coordination efficace entre elles afin de créer un système d’information résilient.Un autre problème qui complexifie l’étude de la résilience réside dans la multitude de termes aux significations similaires. Mentges et al. [ 41 ] tentent de relever ce défi en compilant 93 définitions de termes liés à la résilience dans la littérature sur les systèmes d’information critiques ; leur objectif final est de synthétiser ces définitions disparates en une définition claire et partagée de la résilience.Cependant, en raison du manque de consensus, nous nous appuyons sur les définitions de la résilience dans les CIS établies par des organisations réputées, qui apportent la clarté nécessaire et une plus grande cohérence avec les normes industrielles, comme illustré dans le tableau 1 .

Tableau 1. Définitions officielles de la résilience dans le contexte des SIC par diverses agences réputées.

AgenceDéfinition
NIAC [ 42 ]« La capacité à réduire l’ampleur et/ou la durée des événements perturbateurs. L’efficacité d’une infrastructure ou d’une entreprise résiliente dépend de sa capacité à anticiper, absorber, s’adapter et/ou se remettre rapidement d’un événement potentiellement perturbateur. »
ASCE [ 43 ]« La capacité de planifier, de se préparer, d’atténuer et de s’adapter à l’évolution des conditions dues aux risques afin de permettre un rétablissement rapide des infrastructures physiques, sociales, économiques et écologiques. »
CER [ 44 ]« La capacité de prévenir, de résister, d’absorber et de se remettre d’incidents perturbateurs, notamment ceux causés par des catastrophes naturelles, le terrorisme, les menaces internes, le sabotage ou les urgences de santé publique. »
CISA [ 26 ]« La capacité de se préparer et de s’adapter aux conditions changeantes, de résister aux perturbations et de s’en remettre rapidement. »
UNDRR [ 45 ]« La capacité d’un système, d’une communauté ou d’une société exposée à des risques à résister, absorber, s’adapter, se transformer et se remettre des effets d’un risque de manière opportune et efficace, notamment par la préservation et la restauration de ses structures et fonctions essentielles grâce à la gestion des risques. »
NIAC = Conseil consultatif national sur les infrastructures ; ASCE = Société américaine des ingénieurs civils ; CER = Directive sur la résilience des entités critiques ; CISA = Secteurs des infrastructures critiques ; UNDRR = Bureau des Nations Unies pour la réduction des risques de catastrophe

Les définitions présentées dans le tableau 1 mettent en évidence la dualité de la résilience, à la fois englobant les capacités internes des systèmes d’information et le soutien essentiel apporté par les ressources externes. Par exemple, la définition de l’UNDRR [ 45 ] souligne la capacité d’un système à anticiper les perturbations, à les absorber, à s’en remettre et à s’y adapter. Elle met donc en lumière l’attribut de résilience lié aux capacités internes du système. À l’inverse, l’ASCE [ 43 ] se concentre explicitement sur la planification, la préparation et la capacité à résister aux perturbations. Elle souligne ainsi l’importance des mesures proactives visant à renforcer les capacités intrinsèques d’un système pour améliorer sa résilience. Toutefois, quatre aspects clés de la résilience des systèmes d’information sont au cœur de toutes les définitions du tableau 1 et des travaux de Mentges et al. [41 ] :

  • Préparation : Capacité d’un système à anticiper et à planifier les événements indésirables, notamment en matière de prévoyance et de stratégies d’allocation des ressources pour atténuer les perturbations.
  • Absorption : Capacité d’un système à résister à l’impact immédiat d’une perturbation et, par conséquent, à maintenir ses fonctionnalités essentielles.
  • Réactivité/Récupération : Capacité d’un système à réagir efficacement et, en fin de compte, à réduire le temps nécessaire au rétablissement du fonctionnement normal.
  • Adaptabilité : Capacité d’un système à tirer des leçons des échecs passés et à évoluer en réponse à des conditions changeantes, ce qui permet d’améliorer sa résilience future.

Les études existantes utilisent également de nombreux termes, qui regroupent plusieurs aspects fondamentaux de la résilience. Par exemple, le terme « redondance » est fréquemment employé dans la littérature ; il englobe à la fois la préparation et l’absorption des ressources. La redondance a été définie comme la présence de ressources de secours garantissant le maintien des fonctionnalités d’un système même en cas de défaillance d’un composant [ 46 ]. Bien que ces concepts composites offrent une analyse plus approfondie, nous utilisons les termes fondamentaux de préparation, d’absorption, de réactivité/récupération et d’adaptabilité afin de clarifier l’application du traitement automatique du langage naturel (TALN) au renforcement de la résilience des systèmes d’information critiques (SIC).

2.3 . Dimensions de la résilience des systèmes d’infrastructures critiques

La résilience se décline en quatre dimensions principales ( Fig. 2 ) : technique, organisationnelle, sociale et économique [ 24 , 47 , 48 ]. Ces dimensions fondamentales permettent de comprendre et de mesurer la résilience des systèmes d’information. Nous présentons ici leur définition, ce qui facilitera la compréhension de l’utilisation du traitement automatique du langage naturel (TALN) pour mesurer la résilience des systèmes d’information.

Fig. 2. Les quatre dimensions de la résilience des CIS.


La dimension technique de la résilience évalue la robustesse et la fiabilité de la conception des CIS en utilisant des techniques analytiques pour évaluer les composants (par exemple, les lignes électriques) pour la résistance aux dommages et la récupération rapide, assurant les services essentiels avant et après les perturbations [ [49] , [50] , [51] ].Des recherches substantielles ont été consacrées au développement de méthodologies d’évaluation de la dimension technique de la résilience des infrastructures [ 52 , 53 ]. La mesure de cette résilience technique dépend du type d’infrastructure (par exemple, électrique, hydraulique) et du type de catastrophe naturelle (par exemple, les inondations) [ [54] , [55] , [56] ]. Au sein du seul réseau électrique, différents modèles statistiques, de simulation et d’optimisation ont été appliqués pour étudier sa résilience face aux phénomènes météorologiques liés au vent [ 24 ]. Par exemple, Yang et al. [ 57 ] proposent un modèle quantitatif permettant d’identifier les défaillances des composants lors de typhons, et d’évaluer la capacité de restauration et de réponse des réseaux électriques lors d’événements extrêmes.La résilience organisationnelle constitue la seconde dimension des systèmes de résilience, en se concentrant sur l’amélioration des capacités internes des organisations de gestion des systèmes d’information critiques (SIC). Cette dimension vise principalement à élaborer des plans opérationnels et des protocoles d’urgence, ainsi que des stratégies de gestion des urgences et des risques permettant de gérer les situations critiques [ 58 , 59 , 60 , 61 ]. La résilience organisationnelle concerne les principaux acteurs du système, notamment les opérateurs et les gestionnaires. Lors de catastrophes naturelles, où la rapidité d’intervention est essentielle, cette dimension est importante car elle contribue à l’élaboration de politiques et de techniques d’évacuation permettant une redistribution rapide des ressources.Plusieurs méthodes (dont le recours à des experts) sont appliquées pour élaborer des stratégies organisationnelles visant à renforcer la résilience des organisations. Par exemple, Mottahedi et al. [ 62 ] utilisent l’avis d’experts pour évaluer l’importance relative de divers facteurs influençant la résilience organisationnelle, tels que l’appropriation, l’initiative, la créativité et la flexibilité des employés. Cependant, le débat reste vif entre les systèmes de gestion traditionnels et les systèmes adaptatifs pour renforcer la résilience des organisations face aux catastrophes naturelles. Les systèmes hiérarchiques traditionnels présentent une ligne d’autorité clairement définie, des rôles précis et des processus décisionnels centralisés. Leurs partisans affirment que les systèmes hiérarchiques sont essentiels aux principaux processus opérationnels [ 63 ]. À l’inverse, certains chercheurs préconisent des systèmes où les équipes locales et le personnel de première ligne sont habilités à prendre des décisions sur le terrain en fonction des données et informations en temps réel ; ainsi que des systèmes favorisant le développement de réseaux de communication horizontaux ou des adaptations temporaires pour faciliter la circulation de l’information et renforcer la résilience des organisations face aux catastrophes naturelles [ 64 ].La résilience sociale est la troisième dimension de la résilience et représente la capacité des communautés à collaborer à leurs efforts de rétablissement suite à une catastrophe naturelle. Cette dimension vise également à garantir le bien-être général de la communauté et, plus particulièrement, celui des personnes les plus vulnérables [ 65 ]. La résilience sociale est importante car elle permet de comprendre l’impact des catastrophes naturelles sur les populations. Cependant, les aspects sociaux de la résilience sont difficiles à quantifier en raison de leur nature qualitative. Saja et al. [ 66 ] identifient certaines des difficultés liées à la mesure directe de la résilience sociale et proposent des exemples de méthodes de mesure indirectes (utilisant 16 traits et 46 indicateurs). D’autres chercheurs ont identifié des moyens d’accroître la participation communautaire et de traiter les problèmes sociaux liés à la survenue de catastrophes naturelles. Ils indiquent que la perte de confiance envers les instances gouvernementales et l’isolement social peuvent fortement limiter l’efficacité des interventions et des efforts de rétablissement [ 67 , 68 ].La résilience économique est la quatrième dimension de la résilience et vise à réduire les pertes économiques résultant des conséquences directes et indirectes des catastrophes [ 23 ]. Elle implique la gestion des coûts liés aux dommages et la minimisation des impacts économiques à long terme par des ajustements opérationnels. Pour atteindre la résilience économique, les organisations mettent en œuvre des politiques de soutien aux entreprises et de protection de l’intégrité financière des communautés touchées.Des études récentes portant sur cet aspect de la résilience s’attachent à quantifier les conséquences financières des perturbations causées par des défaillances en cascade [ 69 , 70 ]. Les chercheurs ont également identifié des méthodes permettant de minimiser les coûts associés à la réparation et au rétablissement. Par exemple, Deelstra et Bristow [ 71 ] ont déterminé que les stratégies de réduction des risques de catastrophe, telles que la disponibilité immédiate de ressources suffisantes après une catastrophe, peuvent réduire le coût du rétablissement de plus de 40 % après un séisme.Alors que certains chercheurs reconnaissent les liens entre les quatre dimensions de la résilience et ont proposé l’utilisation de méthodes exhaustives pour évaluer la résilience des systèmes d’information critiques (SIC), d’autres ont fourni les orientations nécessaires à l’élaboration de sous-critères détaillés permettant une évaluation approfondie de cette résilience. Par exemple, Yang et al. [ 72 ] proposent des recommandations pour la création de sous-critères détaillés prenant en compte les effets secondaires, les effets en cascade et les analyses coûts-avantages dans le cadre d’une évaluation exhaustive de la résilience des SIC.Ces différentes dimensions de la résilience illustrent sa nature multidimensionnelle et démontrent la nécessité d’améliorer ses quatre dimensions. Dans ce contexte, le traitement automatique du langage naturel (TALN) est un outil précieux qui peut offrir de nouvelles approches pour l’analyse des données textuelles générées par l’humain et contribuer à améliorer la résilience des systèmes d’information. Par conséquent, cette étude visait à examiner l’application du TALN à l’analyse de la résilience des systèmes d’information.

2.4 . Revues existantes et lacunes de la recherche

Malgré le potentiel du traitement automatique du langage naturel (TALN) pour renforcer la résilience des systèmes d’information critiques (SIC), les études actuelles sur la résilience des SIC révèlent un manque important de recherches portant sur l’utilisation du TALN. Ces études n’abordent pas l’utilisation du TALN pour la résilience des SIC ou ne traitent pas de son application à divers aspects (préparation, absorption, rétablissement et adaptabilité, par exemple) de cette résilience. Le tableau 2 synthétise les études existantes et souligne leurs lacunes concernant le TALN. Par exemple, Curt et Tacnet [ 23 ] ont examiné différentes dimensions de la résilience des SIC, mais sans aborder les technologies de TALN. De même, Mottahedi et al. [ 73 ] analysent la résilience des SIC sans considérer l’utilisation du TALN. Par ailleurs, Liu et Song [ 24 ] proposent une analyse détaillée de la résilience technique, mais négligent l’application du TALN pour soutenir divers aspects de la résilience des SIC.

Tableau 2. Liste sélectionnée d’articles de synthèse sur la résilience des CIS.

NonÉtudesDimension(s) de la résilience couverte(s)Discussion sur le traitement automatique du langage naturel (TALN)
1Cantelmi et al. [ 74 ]Technique, organisationnel, économique et socialNon
2Rathnayaka et al. [75]Technical, Organizational, Economic, and SocialNo
3Curt and Tacnet [23]Technical, Organizational, and EconomicNo
4Mottahedi et al. [73]TechnicalNo
5Liu and Song [24]TechnicalNo
6Sathurshan et al. [76]TechnicalNo
7Bochra and Dhaher [77]Not SpecifiedYes
8Yigit et al. [78]Not SpecifiedYes

2.5 . Aperçu du traitement automatique du langage naturel

Si les ordinateurs excellent dans le traitement des nombres, le traitement des données textuelles et vocales produites par l’humain restait un défi majeur jusqu’à l’avènement du traitement automatique du langage naturel (TALN). Le TALN combine l’informatique et la linguistique pour permettre aux ordinateurs de comprendre, d’interpréter et de générer le langage humain de manière pertinente [ 79 ]. Autrement dit, le TALN imite la capacité humaine à comprendre et à produire le langage, en tenant compte de ses nuances, mais avec la capacité supplémentaire de traiter rapidement de vastes quantités de texte [ 80 ].Le traitement automatique du langage naturel (TALN) a connu trois grandes phases ( Fig. 3 ). Au milieu du XXe siècle, ses fondements ont été posés par les systèmes à base de règles, où des règles prédéfinies étaient codées dans un langage de programmation pour comprendre le langage humain [ 81 ]. Cependant, cette approche était limitée par la complexité du langage, car la création manuelle de règles pour chaque combinaison de mots et structure grammaticale possible était une tâche fastidieuse. De plus, cette approche ne permettait pas de comprendre efficacement le contexte des mots. Par exemple, un même mot peut avoir plusieurs significations selon le contexte (le mot « banque » peut désigner à la fois un établissement financier et une rivière).

3. Méthodologie d’examen

L’approche de recherche en trois étapes utilisée pour la présente recherche est décrite dans  la figure 4. Cette étude a utilisé l’approche scientométrique, qui analyse quantitativement la littérature académique pour identifier la structure, les relations et l’évolution des domaines scientifiques, et aide à révéler les tendances clés de la recherche existante (étape 1 et étape 2) [ 

3.1 . Étape 1 : trouver l’ensemble de données pertinent

La première étape a consisté à examiner en détail la littérature existante afin d’identifier une base de données d’articles portant sur l’utilisation du traitement automatique du langage naturel (TALN) pour renforcer la résilience des systèmes d’information critiques (SIC). Nous avons défini les sources de recherche et établi des critères précis pour la recherche documentaire afin d’en garantir la pertinence et la concentration. Il est essentiel, pour la cartographie scientométrique, de s’appuyer sur des sources de données bibliographiques robustes pour analyser et visualiser les tendances et les schémas au sein de la littérature scientifique. Bien que de nombreuses sources de données soient disponibles pour la cartographie scientométrique, Web of Science Core Collection et Scopus sont souvent privilégiés en raison de leur couverture exhaustive et de leurs interfaces conviviales [ 90 ]. Par conséquent, nous avons choisi Web of Science Core Collection et Scopus comme sources de recherche.Comme indiqué dans le tableau 3 , pour obtenir les articles pertinents, nous avons défini des critères de recherche précis. Nous avons effectué huit requêtes différentes et retenu les critères définis dans le tableau 3 afin d’extraire les études pertinentes à notre sujet de recherche. À cette fin, nous avons défini des critères tels que la littérature existante devait : (a) traiter d’un événement catastrophique, (b) utiliser des techniques de traitement automatique du langage naturel (TALN), (c) intégrer des données issues des plateformes de médias sociaux et (d) avoir des implications pour les systèmes d’information critiques (SIC). Les mots-clés liés au TALN incluaient la méthodologie utilisée pour favoriser des résultats liés à la résilience, tels que la robustesse, le rétablissement et l’adaptabilité. En effet, de nombreux articles pertinents examinent la résilience à travers des termes fonctionnels, tels que l’extraction d’informations, l’analyse des opinions et la modélisation thématique.

Tableau 3. Catégorisation des mots clés pour la revue de la littérature sur le NLP et la résilience aux catastrophes.

CatégorieMots clés
Types de catastrophescatastrophe, événement catastrophique, conditions météorologiques extrêmes, aléas naturels extrêmes, inondation, ouragan, tremblement de terre, tornade, incendie de forêt, éruption volcanique, sécheresse, glissement de terrain, tsunami, tempête, typhon
Techniques de PNLTraitement automatique du langage naturel (TALN), analyse de texte, exploration de texte, analyse des sentiments, modélisation du langage, extraction d’informations, modélisation thématique, reconnaissance d’entités nommées (NER), résumé de texte, détection des interactions sociales, étiquetage morphosyntaxique, extraction de relations, traduction automatique, analyse d’opinions, recherche sémantique, détection des émotions, analyse lexicale
Sources médiatiquesactualités, réseaux sociaux, tweet, Twitter, Facebook, Instagram
Sujets liés à l’infrastructureinfrastructure*, électricité*, énergie*, puissance*, transport*, route*, rail*, autoroute*, aéroport, communication, télécommunications, internet, approvisionnement en eau, eaux usées, eau potable, égouts

4. Analyser les résultats

4.1 . Identification des axes de recherche

Nous avons importé le fichier RIS généré à partir de la base de données à l’étape 1 dans le logiciel CiteSpace afin d’obtenir les étiquettes des clusters. La figure 6 présente la représentation visuelle des clusters obtenus.

Fig. 6 . Visualisation en réseau des principaux thèmes de recherche étiquetés selon LLR.Comme indiqué, l’analyse a permis d’identifier cinq groupes thématiques, chacun portant un titre, représentant différentes tendances de recherche sur l’utilisation du TALN pour la résilience des systèmes d’information critiques. La densité de connexions du réseau obtenue était de 0,0406, ce qui indique une structure de réseau peu dense. Cela suggère que chaque groupe conserve des frontières thématiques distinctes, avec un chevauchement limité entre les nœuds. La valeur élevée de la moyenne pondérée de l’indice de silhouette (0,9051) reflète une forte cohérence interne entre les groupes obtenus [ 91 ]. Le score de modularité de 0,6409 indique également un réseau bien structuré et clairement partitionné [ 91 ]. Le tableau 4 détaille les groupes obtenus. Comme le souligne ce tableau , un indice de silhouette élevé (proche de 1) pour chaque groupe suggère que les groupes sont cohésifs et bien séparés les uns des autres, et donc fiables. Les étiquettes LLR étant plus interprétables, elles ont été utilisées pour la suite du manuscrit. Le score LLR et la valeur p des étiquettes dérivées sont présentés dans le tableau 4 , quantifiant la force du terme associé à ce cluster particulier.

Tableau 4. Identification des thèmes de recherche dans la littérature existante.

ID du cluster
Score de silhouette
Moyenne
(Année)
Étiquettes
Score LLR

Valeur P du LLR
LSILLR
00,9412010Gestion des catastrophesAnalyse des sentiments6,890,01
20,8602017Urgence de masseImpacts des catastrophes5.170,05
30,8692021Communication de criseInformatique de crise13,770,001
10,8792017résilience face aux catastrophesAnalyse de contenu7.110,01
40,9942015Informatique ; visualisation des connaissancesVisualisation des données et des connaissances7,830,01

De plus, les domaines de recherche obtenus sont abordés dans les sections suivantes afin d’identifier les axes de recherche au sein de ces domaines.

4.2 . Axe de recherche 1 : analyse des sentiments

L’analyse des sentiments pour évaluer la résilience des systèmes d’information critiques (SIC) est devenue un domaine de recherche important et bien établi. L’analyse de regroupement présentée dans la section précédente indique que les études pertinentes datent en moyenne de 2010, ce qui témoigne de plus d’une décennie de progrès dans ce domaine. L’analyse des sentiments identifie les émotions exprimées dans les textes. Des études ont montré que l’analyse du sentiment public lors de perturbations des SIC permet aux chercheurs d’obtenir des informations précieuses sur divers aspects de la résilience, de la préparation à l’adaptation [ 17 , 94 ]. Cela peut impliquer la compréhension des attentes de la société et la reconnaissance des sources potentielles d’insatisfaction du public. Étant donné que les gens expriment rapidement leurs émotions sur les médias sociaux, ces informations contribuent à améliorer la compréhension et la réponse aux situations d’urgence. La figure 7 résume l’utilité de l’analyse des sentiments pour renforcer la résilience des SIC.

4.2.1 . Utilisation de l’analyse des sentiments pour améliorer la préparation des systèmes d’information de gestion (SIG)

Dans le cadre de la préparation aux catastrophes naturelles, le traitement automatique du langage naturel (TALN) contribue à la compréhension des attitudes du public face au risque de catastrophes naturelles [ 95 ]. Plus précisément, cette revue souligne que les études existantes ont utilisé l’analyse des sentiments pour : 1) évaluer le niveau de préparation, de sensibilisation et d’éducation des communautés ; 2) examiner les différences démographiques en matière de préparation ; et 3) évaluer les préoccupations et les réactions de panique au sein du public.Comprendre la préparation, la sensibilisation et l’éducation des communautés est essentiel pour optimiser les efforts visant à renforcer la préparation des systèmes d’information et de communication (SIC). L’analyse des sentiments est précieuse pour mieux appréhender l’opinion publique face aux risques potentiels. Comprendre la préparation, la sensibilisation et l’éducation des communautés permet également de détecter la désinformation et les rumeurs qui circulent au sein d’une communauté donnée. À cet égard, Lachlan et al. [ 95 ] ont utilisé l’analyse des sentiments pour révéler les variations géographiques des niveaux de préparation parmi différents segments de la population lors de l’ouragan Sandy, afin d’améliorer le système de communication. Ces informations peuvent être utilisées par les services d’urgence pour élaborer des campagnes de sensibilisation ciblées et préparer efficacement les communautés. Chen et al. [ 20 ] ont utilisé l’analyse des sentiments pour comparer les tweets publiés sur place et hors site pendant la catastrophe. Ils ont constaté que les publications hors site étaient plus négatives et se propageaient plus rapidement (souvent des rumeurs et des idées fausses), tandis que les retweets publiés sur place ont augmenté plus tard, l’attention se portant ensuite sur les informations locales positives.De plus, l’analyse des sentiments contribue à la préparation des intervenants d’urgence en identifiant les principales préoccupations du public en situation de crise. À cet égard, Ramos et Meeus [ 96 ] appuient la préparation à la résilience du réseau énergétique en identifiant, grâce à l’analyse des sentiments, que le « manque de communication transparente » était la principale source de colère au sein du public. Ces observations peuvent aider les intervenants d’urgence à élaborer des stratégies efficaces pour renforcer la résilience des systèmes d’information critiques.

4.2.2 . Utilisation de l’analyse des sentiments pour améliorer l’absorption des systèmes d’information client (SIC)

Étant donné que l’absorption fait référence à la capacité des CIS à maintenir leur fonctionnalité, des études ont établi une corrélation entre les sentiments du public et la détection des perturbations, et ont déterminé 1) les performances de l’infrastructure, 2) les vulnérabilités du réseau et 3) les défaillances en cascade.À cet égard, Roy et al. [ 97 ] utilisent l’analyse des sentiments pour déterminer la dégradation des performances des infrastructures (par exemple, les réseaux d’énergie, de communication, routiers et d’eau) à partir de la polarité émotionnelle présente dans les tweets. La même étude identifie les perturbations concomitantes dans différents systèmes d’information critiques (SIC) (par exemple, l’énergie et les transports), ce qui permet de détecter les défaillances en cascade à partir des données issues de la détection sociale. Sufi et Khalil [ 86 ] utilisent les regroupements de sentiments négatifs et les pics temporels pour déterminer les vulnérabilités des réseaux des SIC (énergie, eau, transports, communication) et les indicateurs indirects du moment et du lieu où ces SIC seront mis à rude épreuve lors de catastrophes. Ces études mettent en évidence l’analyse des sentiments comme outil d’évaluation de la capacité d’absorption des SIC. Cependant, son utilisation reste complémentaire, car elle ne fournit aucune information sur les perturbations des systèmes de communication causées par les catastrophes naturelles. Par exemple, si Internet est touché, les individus ne peuvent pas signaler les dommages aux infrastructures via les médias sociaux.

4.2.3 . Utilisation de l’analyse des sentiments pour améliorer la récupération des systèmes d’information client (SIC)

Les études existantes démontrent l’importance cruciale de l’analyse des sentiments pour faciliter l’élaboration de stratégies éclairées et fondées sur les données, tant pour 1) la planification de la reprise que pour 2) la compréhension de la mobilité humaine. Leurs résultats permettent de prioriser la restauration des infrastructures critiques les plus urgentes, en fonction de l’opinion publique.Chen et Ji [ 98 ] introduisent le concept d’urgence de la demande publique à l’aide de l’analyse des sentiments et proposent une approche de modélisation systématique pour une planification plus équitable de la restauration des infrastructures électriques après une catastrophe. Ragini et al. [ 22 ] ont également développé un système automatisé d’analyse des sentiments offrant une approche ciblée pour comprendre les besoins et les sentiments en situation de crise, en particulier lors des perturbations de l’approvisionnement en eau et en électricité causées par les inondations et les cyclones. Wu et al. [ 99 ] ont proposé une technologie intelligente d’allocation d’urgence du réseau électrique qui intègre l’opinion publique lors des pannes provoquées par les typhons afin d’optimiser les opérations de réparation des réseaux électriques.Un autre élément tout aussi crucial du rétablissement est la compréhension des schémas de mobilité humaine après une catastrophe, car elle révèle les contraintes potentielles en matière de ressources, les zones les plus touchées et les itinéraires d’évacuation. Wang et Taylor [ 100 ] démontrent que les variations d’opinion peuvent précéder ou suivre les changements de mobilité, en utilisant une régression segmentée pour détecter les modifications des schémas de mobilité causées par le séisme. Ces exemples illustrent le potentiel de l’analyse des sentiments pour élaborer des plans de rétablissement complets tenant compte des réactions émotionnelles des communautés sinistrées.

4.2.4 . Utilisation de l’analyse des sentiments pour améliorer l’adaptabilité des systèmes d’information de gestion (SIG)

Plusieurs études soulignent le rôle fondamental de l’analyse des sentiments dans l’amélioration de l’adaptabilité des systèmes d’information de gestion (SIG). Étant donné qu’après une catastrophe, le public partage généralement son opinion sur les réseaux sociaux, ces études exploitent ces tendances pour identifier les axes d’amélioration. L’analyse des sentiments du public contribue à améliorer l’adaptabilité des SIG de deux manières : 1) en optimisant les stratégies de communication et 2) en tirant des enseignements d’études de cas.Comprendre les stratégies de communication optimales mises en œuvre lors de crises passées, en tenant compte de l’opinion publique, permet d’affiner les approches de communication futures et, par conséquent, d’améliorer l’adaptabilité des systèmes d’information de gestion (SIG). À cet égard, Terracciano et Han [ 101 ] ont analysé les communications officielles lors de la tempête hivernale Uri, en utilisant des scores d’opinion pour mettre en évidence les lacunes des communications officielles relatives au soutien des infrastructures d’électricité et d’eau.De plus, l’analyse des sentiments a permis de tirer des enseignements d’études de cas menées auprès de communautés spécifiques confrontées à des catastrophes naturelles. Par exemple, Li et al. [ 94 ] ont utilisé l’analyse des sentiments pour évaluer la résilience psychologique de la ville de New York lors de la panne d’électricité de Manhattan en 2019. Les résultats ont indiqué un retour à la normale du moral environ une heure et demie après l’événement. Ce type d’études de cas permet aux décideurs d’identifier les points faibles et de comprendre les besoins des utilisateurs afin d’améliorer la résilience des systèmes d’information communautaires [ 102 ].

4.2.5 . Techniques d’analyse des sentiments pour la résilience des SCI

L’analyse de la littérature publiée sur l’utilisation de l’analyse des sentiments pour évaluer la résilience des systèmes d’information a permis d’identifier trois principales approches méthodologiques ( tableau 5 ). La différence fondamentale entre ces trois approches réside dans leur mode de fonctionnement [ 103 ]. Ces trois approches sont : 1) les approches lexicales, 2) les approches d’apprentissage automatique et d’apprentissage profond, et 3) les outils de traitement automatique du langage naturel pré-entraînés.

Tableau 5. Résumé des approches d’analyse des sentiments pour la résilience des CIS.

ApprocheMéthodologieAvantageInconvénientÉtudes de soutien
Approche 1 : Approches basées sur le lexiqueListes prédéfinies de mots avec scores de sentimentSimple à mettre en œuvre, il permet de relier les sentiments à des concepts psychologiques spécifiques de résilience.Précision limitée en raison d’un langage complexe et d’un contexte difficile à appréhender.22 , 104 , 105 ]
Approche 2 : Apprentissage automatique et apprentissage profondCNN, RNN, BERT, LSTMPerformances supérieures et adaptabilité à différents domainesNécessite de grands ensembles de données et peut s’avérer coûteux en ressources de calcul.[106] , [107] , [108] ]
Approche 3 : Outils de TALN pré-entraînésVADER et TextBlob pour l’analyse des sentimentsPratique et adapté à l’analyse des sentiments à usage généralMoins précis que les modèles entraînés sur mesure et moins flexibles pour le réglage fin.[109] , [110] , [111] , [112] ]

À proprement parler, les modèles pré-entraînés comme VADER sont essentiellement basés sur le lexique, mais nous définissons ici les approches basées sur le lexique qui s’appuient sur des listes de mots statiques prédéfinies (souvent étayées par les auteurs ou d’autres études) pour extraire les émotions, tandis que les outils NLP pré-entraînés sont des outils prêts à l’emploi développés par des tiers et offrent des points de départ pratiques pour l’analyse des sentiments.

4.2.6 . Approche 1 : approches basées sur le lexique

L’approche lexicale de l’analyse des sentiments repose sur l’utilisation de listes de mots prédéfinies (dictionnaires), chacune associée à un score de sentiment spécifique [ 113 ]. Contrairement aux approches d’apprentissage automatique et d’apprentissage profond qui nécessitent une phase d’entraînement sur des jeux de données étiquetés, cette approche s’en dispense. Elle utilise un lexique de sentiments exhaustif, un dictionnaire de mots et d’expressions auxquels sont attribuées des valeurs de sentiment prédéterminées (positive, négative, neutre), qui constitue le fondement de la méthodologie. Les lexiques les plus sophistiqués peuvent également inclure une valeur d’intensité associée à chaque mot ou expression, indiquant l’intensité du sentiment qui lui est associé. De nombreuses études ont employé cette méthodologie pour améliorer la résilience des infrastructures critiques grâce à l’analyse des sentiments.

5. Comparaison des capteurs physiques et du traitement automatique du langage naturel (TALN )

Un facteur important à prendre en compte pour l’utilisation du traitement automatique du langage naturel (TALN) dans la prédiction des défaillances des réseaux électriques est que, bien que le TALN soit un domaine de recherche prometteur, le concept de « résilience » est très vaste et multidimensionnel. Par conséquent, le TALN devrait être utilisé comme méthode complémentaire aux capteurs physiques, et non en remplacement de ces derniers. Plusieurs études ont également été menées afin d’établir une relation statistique entre les données des capteurs physiques et le contenu des médias sociaux. L’une d’elles, réalisée par Heglund et al. [ 85 ], a mis en évidence une corrélation significative entre les données Twitter et les performances du réseau électrique lors de l’ouragan Sandy. Les chercheurs ont constaté une association statistiquement significative entre le nombre normalisé de tweets relatifs à la catastrophe et le taux d’erreur dans la prévision des charges électriques. Les résultats des modèles de causalité de Granger et ARIMAX ont également montré que l’intégration des données des médias sociaux dans les modèles prédictifs améliorait la précision de ces derniers concernant les perturbations de l’infrastructure. Les chercheurs valident donc le rôle des médias sociaux comme outil complémentaire de suivi de la résilience dans les systèmes d’information communautaires (SIC). Leur principal atout réside dans leur capacité à fournir des informations rapides et détaillées, notamment sur les inégalités sociales et leurs interconnexions. Par exemple, il apparaît que les communautés présentant différents niveaux d’équité sociale affichent des schémas distincts de dommages aux infrastructures et de taux de rétablissement, tels qu’ils se reflètent sur les médias sociaux [ 12 ]. De même, Morshed et al. [ 182 ] utilisent les réactions sur les médias sociaux comme l’une des données d’entrée de leur modèle de résilience 8R. Ainsi, de nombreuses études ont fourni des mesures quantitatives pour faciliter une meilleure compréhension des aspects sociaux et comportementaux à partir des données textuelles issues des médias sociaux, comme le montre le tableau 10 .

Tableau 10. Métriques quantitatives utilisées dans les études existantes concernant les données des médias sociaux.

Métrique quantitativeUtiliserRéférence
Ratio de préoccupation du publicMesure l’inquiétude du public à l’égard des services essentiels (par exemple, l’énergie, la santé, les transports)183 ]
Rapport d’émotion publiqueQuantifie la résilience globale à travers les différentes phases de catastrophe183 ]
courbe de fragilitéRelie de manière probabiliste la probabilité de défaillance à l’intensité du danger184 ]
Indice comportementalCapture les changements de comportements positifs et négatifs lors d’événements94 ]
Taux de perte de performanceMesure l’augmentation du temps de trajet pondéré par la population après une catastrophe185 ]
Indice de sensibilisation aux risques et dangersMesurer la sensibilisation et la perception du public quant au risque lié à une catastrophe naturelle pendant et après celle-ci.186 ]

6. Orientations futures

La complexité croissante de la gestion des catastrophes exige de tirer parti de toute opportunité d’utilisation de données supplémentaires pour renforcer la résilience des systèmes d’information critiques. À cet égard, malgré les défis actuels, le recours aux médias sociaux est incontournable. Les domaines suivants présentent de nouveaux défis et de nouvelles opportunités pour améliorer la résilience des systèmes d’information critiques grâce aux techniques de traitement automatique du langage naturel (TALN).

  • •Amélioration des techniques d’auto-apprentissage et d’apprentissage avec peu d’exemples : La plupart des approches basées sur le traitement automatique du langage naturel (TALN) soulignent le besoin de jeux de données Twitter de qualité pour renforcer la résilience des systèmes d’information et de communication (SIC). Cependant, la plupart des modèles actuels ne peuvent s’adapter en temps réel pour apporter un soutien efficace lors de catastrophes naturelles, faute de données étiquetées disponibles. Il est donc nécessaire de développer des méthodes d’apprentissage avec peu d’exemples, capables d’exploiter efficacement les données non étiquetées et les approches d’auto-apprentissage. Ces méthodes permettraient une plus grande flexibilité et une meilleure résilience des modèles lors de la gestion de catastrophes en temps réel, lorsque les données de qualité font défaut. Les API GPT (Large Language Model) sont actuellement utilisées pour diverses tâches et se révèlent extrêmement précises en traitement textuel. Toutefois, elles ne sont pas adaptées aux médias sociaux (où l’argot et le sarcasme sont courants) ni à la résilience des SIC. Les recherches futures pourraient donc s’orienter vers l’adaptation de ces modèles afin de faciliter l’extraction d’informations utiles à partir des médias sociaux, et ainsi renforcer la résilience des SIC. Cependant, compte tenu des problèmes connus d’hallucinations dans ces modèles, il est impératif que les recherches futures intègrent des garde-fous robustes et des mesures de quantification de l’incertitude afin d’assurer la fiabilité des modèles. Ces mesures peuvent inclure l’évaluation de la confiance des résultats du modèle, la vérification par intervention humaine et des cadres d’IA explicables.
  • •Intégration de modèles NLP avancés aux graphes de connaissances : De nombreuses recherches ont été menées sur l’utilisation de techniques NLP avancées pour l’analyse des sentiments et l’identification des sujets. De plus, plusieurs approches ont été employées pour réaliser ces deux tâches. Cependant, la précision de ces modèles demeure un défi, principalement en raison de la nature des données issues des médias sociaux. L’utilisation directe de grands modèles de langage pourrait contribuer à atténuer les difficultés de modélisation du langage pour les données des médias sociaux. Néanmoins, ces grands modèles de langage peuvent également présenter des imprécisions quant à la résilience des systèmes d’information critiques (SIC), car ils ont été entraînés sur des données textuelles générales. Par conséquent, ils ne comprennent pas le vocabulaire spécialisé lié aux catastrophes et peuvent produire des informations erronées, voire incohérentes. L’intégration d’un graphe de connaissances aux grands modèles de langage existants constitue une piste de recherche prometteuse. Un graphe de connaissances est un graphe structuré illustrant les relations entre les entités. Un graphe de connaissances spécifique au domaine des SIC (contenant les ontologies spécifiques au domaine) peut être créé pour illustrer les relations entre les éléments des SIC, les protocoles d’urgence et les localisations géographiques. Intégré aux grands modèles de langage existants, ce graphe peut considérablement améliorer leur précision et leur fiabilité en situation d’urgence. À titre d’exemple, un graphe de connaissances des infrastructures hydrauliques en situation d’inondation peut être créé. Ce graphe illustre les relations entre les stations d’épuration, les canalisations, les réservoirs et les vannes d’arrêt d’urgence, en précisant leur localisation géographique et les protocoles applicables. Un modèle de langage de grande envergure peut alors traiter d’importants volumes de données issues des réseaux sociaux et exploiter les références croisées de ce graphe de connaissances pour élaborer des réponses précises et fiables en cas d’urgence.
  • •Collaboration entre les pouvoirs publics et les organisations de la société civile pour la gestion des catastrophes : La désinformation sur les réseaux sociaux compromet souvent l’efficacité des interventions en cas de catastrophe. Des recherches supplémentaires sont nécessaires pour examiner les cadres de collaboration entre les organismes gouvernementaux, les organisations de la société civile et les fournisseurs de technologies afin de permettre l’intégration de stratégies de détection et de confinement de la désinformation en temps réel dans le processus de gestion des catastrophes. L’amélioration des processus d’extraction toponymique et de géocodage au sein de ces cadres renforcera la fiabilité des efforts de détection et de réponse aux catastrophes, et, en fin de compte, l’efficacité globale de la gestion des catastrophes.
  • •Détection d’événements en temps réel et développement de taxonomies : Les systèmes actuels de détection d’événements s’appuient principalement sur la saisie par mots-clés, sans tenir compte du caractère non structuré des plateformes de médias sociaux. Les recherches futures devraient proposer des taxonomies plus élaborées et une automatisation accrue pour la détection, la classification et la catégorisation des contenus publiés sur les médias sociaux en cas de catastrophe, afin d’améliorer la réponse aux catastrophes et la précision de la planification de la gestion des urgences, permettant ainsi des interventions plus rapides et plus efficaces. Ce travail constitue un progrès par rapport à la section précédente qui traitait du rôle de la désinformation dans la communication de crise ; il illustre également comment améliorer les pratiques de gestion de crise.
  • •Contextes culturels et linguistiques dans l’analyse des médias sociaux : Il est essentiel que les communications sur les médias sociaux relatives à la gestion des catastrophes soient culturellement et linguistiquement adaptées au public cible. La plupart des modèles actuels d’analyse des médias sociaux peinent à traiter et à interpréter les différences linguistiques ainsi que les expressions culturelles liées aux spécificités régionales. Développer des modèles capables de mieux appréhender ces variations linguistiques et culturelles constitue un axe de recherche majeur pour améliorer la communication en cas de catastrophe via les médias sociaux. Pour atteindre cet objectif, les recherches futures devraient se concentrer sur le développement d’un modèle capable d’interpréter plus précisément la dimension temporelle et les références culturelles d’une publication sur les médias sociaux, afin d’évaluer avec exactitude l’état d’esprit et la résilience de la communauté en temps de crise. Il est également nécessaire de pouvoir effectuer une analyse des sentiments interculturelle et identifier la géolocalisation afin de proposer des modèles capables de traiter et d’analyser des données provenant de différentes zones géographiques.

7. Remarques finales

Cette étude visait à démontrer l’importance du traitement automatique du langage naturel (TALN) pour renforcer la résilience face aux catastrophes naturelles. Sa principale contribution réside dans la cartographie des recherches menées à l’échelle mondiale sur l’utilisation du TALN pour promouvoir différents aspects de la résilience. À cette fin, nous avons défini des paramètres de recherche afin d’identifier les études pertinentes. Nous avons également identifié des regroupements thématiques pour dégager les domaines de recherche abordés dans ces études. Les résultats ont permis de dégager cinq regroupements distincts : l’analyse des sentiments, l’informatique de crise, la visualisation des données et des connaissances, l’impact des catastrophes et l’analyse de contenu par la scientométrie. De plus, l’étude met en lumière de nombreuses façons dont le TALN peut promouvoir ou soutenir les différentes composantes de la résilience (préparation, absorption, rétablissement et adaptabilité) des différents systèmes d’information et de crise (SIC). Par exemple, il a été constaté que l’analyse des sentiments basée sur le TALN a été utilisée pour évaluer le niveau de préparation, de sensibilisation et d’éducation des communautés, pour déterminer les différences démographiques en matière de préparation et pour évaluer les préoccupations et la panique du public afin d’améliorer la préparation des SIC lors de catastrophes naturelles. De plus, la modélisation thématique basée sur le traitement automatique du langage naturel (TALN) a permis d’identifier les menaces émergentes en temps réel, facilitant ainsi la détection précoce des préoccupations du public et l’allocation des ressources pour la reconstruction des infrastructures critiques lors de catastrophes naturelles. Ces exemples illustrent le potentiel du TALN pour améliorer la prise de décision en situation de crise. À titre d’exemple, le TALN a démontré concrètement son soutien à divers aspects de la résilience après une catastrophe naturelle, suite à l’ouragan Harvey. Une plateforme de financement participatif appelée CrowdSource a été développée pour exploiter les données des médias sociaux et fournir des informations précieuses aux communautés dans le besoin, tout en aidant les secouristes à améliorer leurs interventions [ 191 ]. Cette même plateforme CrowdSource est toujours opérationnelle et aurait déjà aidé 46 000 personnes lors de diverses catastrophes [ 192] .Il existe cependant plusieurs défis liés à l’utilisation des données des médias sociaux, notamment la disponibilité de données bruitées et exagérées. C’est pourquoi nous avons identifié quelques pistes de recherche pour l’avenir. Il est également important de noter le développement récent de grands modèles de langage créés par de grandes entreprises technologiques, telles que Google (Gemini), Microsoft (Copilot) et Meta (LLaMA). La publication de Gork-2 par l’entreprise propriétaire de X (anciennement Twitter) est particulièrement intéressante ; il s’agit d’une avancée majeure grâce à sa capacité à extraire des informations en temps réel des tweets. Cette capacité pourrait être révolutionnaire pour l’obtention de données en temps réel issues de rapports de terrain diffusés sur les médias sociaux, afin d’éclairer les stratégies d’évacuation et l’allocation des ressources. Malgré les capacités croissantes de ces grands modèles de langage, les auteurs souhaitent souligner la nécessité d’une coopération accrue entre l’industrie et le monde universitaire pour maximiser leur potentiel. Compte tenu de ses vastes ressources, l’industrie est bien placée pour entraîner ces modèles. Par ailleurs, comme mentionné dans cette analyse, le traitement automatique du langage naturel (TALN) peut être appliqué à de nombreux domaines pour renforcer la résilience. Par exemple, les chercheurs universitaires pourraient collaborer avec l’industrie pour créer des outils de traitement automatique du langage naturel (TALN) adaptés à des types de catastrophes spécifiques (comme les séismes), où l’évaluation rapide des dommages aux infrastructures à partir de données textuelles pourrait s’avérer cruciale. Cela permettrait de faire progresser l’état de l’art du TALN et d’exploiter pleinement son potentiel pour renforcer la résilience. Le domaine de la recherche en TALN a connu une croissance fulgurante ces dernières années, notamment grâce à l’avènement des grands modèles de langage. Nous espérons que ces travaux inciteront les futurs chercheurs à poursuivre l’exploration du potentiel du TALN dans la recherche sur la résilience, car il s’agit d’un domaine riche et prometteur. Par exemple, des recherches plus approfondies sur le potentiel du TALN pour extraire automatiquement des informations exploitables à partir de vastes ensembles de données pourraient considérablement améliorer la rapidité et la précision des interventions d’urgence.

References

Leave a Comment

Share this Doc

Traitement automatique du langage naturel pour des infrastructures résilientes aux catastrophes

Or copy link

CONTENTS