L’intégration croissante de l’intelligence artificielle (IA) dans le domaine de la santé soulève une question cruciale : comment garantir la transparence et l’intégrité des données médicales lorsque celles-ci sont influencées par des algorithmes ? Un projet novateur cherche à apporter des réponses concrètes en développant des mécanismes pour identifier et quantifier ce niveau d’influence.
L’objectif principal est de pouvoir distinguer clairement quand une donnée issue d’un dossier médical a été générée ou modifiée par une IA. Il ne s’agit pas d’un simple « oui » ou « non », mais plutôt d’évaluer un spectre d’influence. Ce spectre permet de classifier les données selon plusieurs niveaux :
- Données entièrement générées par l’IA : Les informations ont été créées de A à Z par un algorithme.
- Données recommandées par l’IA : Une IA a proposé des données, qui ont ensuite été validées par un professionnel de santé.
- Données assistées par l’IA : L’IA a soutenu un humain dans la production de données, mais ce dernier en reste l’auteur principal.
Pour adresser ce défi, le projet s’articule autour de deux approches complémentaires : le marquage des données (« data tagging ») et la gestion de la provenance.
Le marquage des données : une première indication
Le marquage des données consiste à attribuer une étiquette simple indiquant le type d’interaction entre l’IA et une donnée spécifique. Cette étiquette n’a pas vocation à détailler les subtilités de chaque interaction, mais plutôt à servir de signal d’alerte pour ceux qui souhaitent savoir si une donnée a été influencée. Elle permet de reconnaître qu’une donnée n’est peut-être pas une création originale et pourrait avoir une utilité différente pour l’entraînement de futurs modèles. De plus, elle signale la présence d’informations plus détaillées dans la provenance des données.
La provenance : le détail de l’origine
La provenance va plus loin en permettant de retracer l’historique complet d’une donnée : qui, quelle version, quel modèle d’IA, quelle requête (« prompt »), quelle configuration (« map »), etc. Le projet s’appuie sur la spécification FHIR (Fast Healthcare Interoperability Resources), qui est elle-même dérivée des standards W3C Prov. Cette approche vise à réutiliser des standards d’IA plus généraux, tout en reconnaissant le manque de consensus actuel sur certains aspects, comme la normalisation des « maps » de modèles. L’équipe du projet est confiante que le groupe HL7 (Health Level Seven International) intégrera les normes externes disponibles.
Ce niveau de détail est essentiel pour évaluer la fiabilité d’une information médicale. La provenance permet également de remonter à la source d’une influence de l’IA qui s’avérerait suspecte ou erronée, facilitant ainsi la réévaluation de décisions cliniques potentiellement compromises.
Une granularité au niveau de l’élément
Une caractéristique importante de ces deux approches est leur capacité à opérer au niveau de l’élément individuel, et pas seulement au niveau de la ressource globale. Si pour certaines données, l’ensemble de la ressource suffit à être marqué ou référencé, pour des flux de travail plus complexes comme un plan de soins (« Careplan »), une partie seulement des données peut être influencée par l’IA, tandis que le reste ne l’est pas. Le marquage et la provenance sont donc conçus pour gérer cette granularité fine.
Surmonter les défis de la provenance
Une préoccupation soulevée lors du récent Connectathon concernait la complexité de la mise en œuvre de la provenance. Le projet estime qu’il s’agit principalement d’un enjeu éducatif. Pour faciliter son utilisation, plusieurs solutions sont envisagées :
- L’utilisation de l’étiquette de données IA pour signaler une influence algorithmique, incitant ainsi à une recherche de provenance.
- L’intégration directe de la provenance au sein de la ressource elle-même, en utilisant le mécanisme de ressource « contenante » de FHIR.
- L’exploitation du paramètre « _revinclude » lors des recherches de ressources pour inclure systématiquement toute provenance associée.
Vers une norme partagée
Le Guide d’implémentation de HL7 sur la transparence de l’IA est actuellement en cours de développement. La version en construction est disponible à l’adresse suivante : https://build.fhir.org/ig/hl7/aitransparency-ig/branches/main/index.html. Les discussions et solutions présentées ici y sont intégrées.
Parallèlement, des travaux sur la provenance des ensembles de données d’apprentissage sont menés, notamment dans le cadre d’une collaboration avec l’Alliance Data and Trust, visant à définir des normes pour les données utilisées comme matière première pour l’entraînement d’IA. https://dataandtrustalliance.org/work/data-provenance-standards.
Le domaine de la transparence de l’IA en santé est en pleine évolution. Les porteurs de ce projet invitent les acteurs du secteur à s’impliquer pour contribuer à l’élaboration de solutions adaptées aux cas d’usage spécifiques et pour partager leurs expériences.