Google AI propose un nouveau cadre de modélisation générative appelé “EHR-Safe” pour générer des données EHR synthétiques hautement réalistes et préservant la confidentialité

Le potentiel du DSE pour améliorer les soins aux patients, intégrer les mesures de performance dans la pratique clinique et rationaliser la recherche clinique est énorme. Les maladies peuvent être diagnostiquées à l’aide d’estimations statistiques ou de modèles d’apprentissage automatique formés sur les données des dossiers de santé électroniques (comme le diabète, le suivi du bien-être des patients et la prédiction de la réaction des patients à des médicaments spécifiques). Les universitaires et les professionnels de l’industrie ont besoin d’accéder aux données pour construire de tels modèles. Cependant, un obstacle majeur à l’accès aux données reste les problèmes de confidentialité des données et les restrictions de confidentialité des patients.

Les approches traditionnelles d’anonymisation des données sont chronophages et coûteuses. Même lorsque la procédure d’anonymisation est effectuée conformément aux normes établies, elle peut fausser les informations essentielles de l’ensemble de données d’origine. Cela réduit considérablement l’utilité des données, les rendant vulnérables aux menaces de confidentialité.

L’étude New Google présente EHR-Safe, une nouvelle méthode de modélisation générative pour atteindre cet objectif. Dans leur article, « EHR-Safe : Generating High-Fidelity and Privacy-Preserving Synthetic Electronic Health Records », ils démontrent que les données synthétiques peuvent répondre à deux propriétés essentielles : la haute fidélité et le respect de certaines mesures de confidentialité.

Leurs articles discutent des défis qui doivent être surmontés avant que des données synthétiques de DSE puissent être produites. Les propriétés et les distributions des données du DSE sont variées. Les caractéristiques peuvent être numériques (comme la tension artérielle) ou catégorielles, avec différentes catégories possibles (par exemple, codes médicaux, issue de la mortalité). Alors que certains d’entre eux peuvent être constants, d’autres peuvent changer au fil du temps, y compris les mesures de laboratoire de routine ou ad hoc.

L’équipe souligne que les distributions catégorielles et numériques peuvent être très asymétriques. La variation de la longueur des séquences est souvent considérablement plus élevée que les autres données de séries chronologiques, car la fréquence des visites varie considérablement d’un patient à l’autre et d’une condition à l’autre. Étant donné que toutes les valeurs de laboratoire et autres données d’entrée ne sont pas toujours collectées, il peut y avoir une proportion importante de caractéristiques manquantes parmi les patients et les points dans le temps.

L’architecture d’encodeur-décodeur séquentiel et les réseaux antagonistes génératifs (GAN) constituent EHR-Safe. La modélisation directe des données DSE brutes est difficile pour les GAN en raison de l’hétérogénéité des données DSE. Par conséquent, les chercheurs suggèrent d’utiliser une architecture d’encodeur-décodeur séquentiel pour apprendre le mappage des données brutes du DSE aux représentations latentes et vice versa pour surmonter ce problème.

Les distributions ésotériques des données numériques et catégorielles sont un obstacle important à surmonter lors de l’apprentissage de la cartographie. La capacité à modéliser des situations inhabituelles est cruciale, même si certaines valeurs ou plages numériques prédominent dans la distribution.

L’équipe affirme que la transformation des données en distributions où la formation de l’encodeur-décodeur et du GAN est plus stable est la clé pour travailler avec de telles informations. Ils sont capables de le faire à l’aide de techniques de cartographie des caractéristiques et de normalisation stochastique qui transforment les distributions de caractéristiques d’origine en distributions uniformes sans perte d’informations. La sortie du codeur des représentations latentes mappées est introduite dans un réseau de générateurs contradictoires (GAN).

Après une formation sur un grand ensemble de données, le cadre de l’encodeur-décodeur et les GAN fonctionnent ensemble pour permettre à EHR-Safe de produire des données DSE hétérogènes synthétiques à partir de n’importe quelle entrée alimentée sous la forme d’une série de vecteurs échantillonnés de manière aléatoire.

Les chercheurs se concentrent sur deux ensembles de données EHR réels pour démontrer le système EHR-Safe : MIMIC-III et eICU. Il s’agit d’ensembles de données sur les patients hospitalisés avec des données manquantes sur diverses caractéristiques numériques et catégorielles.

Pour chaque caractéristique, ils comparent quantitativement la similarité statistique entre les données réelles et synthétiques. Dans la plupart des cas, la différence de fonction de distribution cumulative (CDF) la plus élevée entre les données d’origine et les données synthétiques est inférieure à 0,03. Cela indique que les données originales et synthétiques sont statistiquement assez similaires.

Lors de l’évaluation, ils se sont principalement concentrés sur la métrique de fidélité, qui évalue dans quelle mesure les modèles entraînés sur des données synthétiques se généralisent aux données réelles. Ils évaluent l’efficacité d’un tel modèle par rapport à un modèle similaire formé avec des données réelles. Si les modèles fonctionnent de la même manière, les données synthétiques répliquent avec succès l’environnement réel. À cette fin, ils se concentrent sur la tâche de prédiction de la mortalité comme l’une des applications futures les plus prometteuses du DSE. Lorsque l’on compare le meilleur modèle sur données réelles au meilleur modèle sur données synthétiques, la différence n’est que de 2,6 % pour les MIMIC-GBDT III et de 0,9 % pour les RF d’eICU.

Dans l’ensemble, ils trouvent que les mesures de confidentialité sont proches de la perfection. En conséquence, EHR-Safe n’est pas simplement la mémorisation des données de train d’origine, et le risque de comprendre si un échantillon des données d’origine est un membre utilisé pour la formation du modèle est extrêmement proche d’une estimation aléatoire. Ils évaluent également dans quelle mesure un classificateur prédit lorsqu’il est formé sur des données réelles par rapport à lorsqu’il est formé sur des données synthétiques. Leurs résultats montrent que l’accès à des données synthétiques n’améliore pas la capacité de prédiction des caractéristiques individuelles.


Vérifiez Papier et Googleblog. Tout le crédit pour cette recherche va aux chercheurs sur ce projet. N’oubliez pas non plus de vous inscrire notre page Reddit et canal de discordeoù nous partageons les dernières nouvelles sur la recherche en IA, des projets d’IA sympas, et plus encore.


Tanushree Shenwai est consultante stagiaire chez MarktechPost. Elle poursuit actuellement son B.Tech de l’Indian Institute of Technology (IIT), Bhubaneswar. Elle est une passionnée de la science des données et a un vif intérêt pour le champ d’application de l’intelligence artificielle dans divers domaines. Elle est passionnée par l’exploration des nouvelles avancées technologiques et leur application dans la vie réelle.


Leave a Comment