Structuration des critères histopronostiques tumoraux par traitement automatique du langage naturel

Estimated reading: 2 minutes 85 views

Introduction

Les critères histopronostiques fondent la démarche de pronostication en oncologie. Les méthodes d’extraction textuelle disponibles (règles et apprentissage machine) diffèrent en développement et ressources. Nous avons structuré les critères histopronostiques issus de comptes rendus médicaux en comparant ces deux méthodes d’extraction textuelle.

Méthodes

Nous avons extrait les variables suivantes : envahissement tumoral ganglionnaire, vasculaire, périnerveux, de la marge chirurgicale, distance aux marges, stade pTNM, taille et différenciation tumorales, complétude de la résection microscopique, à partir de comptes rendus d’anatomopathologie (CRA) post-opératoires de cholangiocarcinomes associées à l’entrepôt de données de santé de l’AP-HP. Les visites correspondantes ont été identifiées par les codes CIM-10 C221 (DP, DR) et CCAM relatifs aux résections tumorales de cholangiocarcinome, les CRA vérifiés manuellement par un oncologue puis divisés en deux parties égales pour constituer les jeux de développement et de validation. Après annotation manuelle du corpus par un oncologue, les deux méthodes d’extraction textuelle ont été élaborées et leurs métriques de performances (valeur prédictive positive (VPP) et sensibilité) comparées pour chaque entité. L’effort de développement des règles a été évalué pour chaque entité.

Résultats

Entre 2017 et 2020, 290 ARC ont été identifiés et annotés. Sur le jeu de validation, la VPP variait entre 81 % et 99 % pour les règles et entre 79 % et 100 % pour l’apprentissage machine ; la sensibilité variait entre 92 % et 100 % pour les règles et entre 94 % et 100 % pour l’apprentissage machine. Pour toutes les entités, les différences de métriques de performance entre les deux méthodes n’ont pas dépassé 5 % (à l’exception de la VPP pour la variable « taille de la tumeur »). Pour élaborer les règles, deux entités ont nécessairement l’analyse de cinq documents, cinq autres entités celle d’entre 29 et 45 CRA, et deux autres celle d’entre 74 et 117.

Conclusion

Les critères histopronostiques tumoraux sont facilement structurés par traitement automatique du langage naturel, quelle que soit la méthode d’extraction textuelle. Les règles constituant une méthode efficace dont le coût de développement varie en fonction des entités. L’évaluation de celui-ci en amont d’une tâche d’extraction textuelle permet d’optimiser le développement.

Mots-clés

Traitement automatique du langage naturel
Extraction d’information
Biomarqueurs tumoraux
Apprentissage machine supervisé
Entrepôt de données

Sahel Lib

Ideas without borders