Que faudra-t-il pour que l’IA soit à la hauteur de son battage médiatique ?

Avec l’aimable autorisation de Getty Images

L’industrie pharmaceutique devrait dépenser plus de 3 milliards de dollars sur l’intelligence artificielle d’ici 2025 – contre 463 millions de dollars en 2019. L’IA ajoute clairement de la valeur, mais les partisans disent qu’elle n’est pas encore à la hauteur de son potentiel.

Il existe de nombreuses raisons pour lesquelles la réalité n’a pas encore correspondu au battage médiatique, mais les ensembles de données limités sont importants.

Compte tenu de l’énormité des données disponibles collectées chaque jour – des pas parcourus aux dossiers médicaux électroniques – la rareté des données est l’un des derniers obstacles auxquels on pourrait s’attendre.

L’approche Big Data/IA traditionnelle utilise des centaines, voire des milliers de points de données pour caractériser quelque chose comme un visage humain. Pour que cette formation soit fiable, des milliers d’ensembles de données sont nécessaires pour que l’IA reconnaisse un visage quel que soit le sexe, l’âge, l’origine ethnique ou l’état de santé.

Pour la reconnaissance faciale, des exemples sont facilement disponibles. Le développement de médicaments est une toute autre histoire.

“Quand vous imaginez toutes les différentes façons dont vous pourriez modifier un médicament… la quantité dense de données qui couvre toute la gamme des possibilités est moins abondante”, a déclaré Adityo Prakash, co-fondateur et PDG de Verseon. BioEspace.

Adityo Prakash_Verseon2
Adityo Prakash

“De petits changements font une grande différence dans ce qu’un médicament fait à l’intérieur de notre corps, vous avez donc besoin de données vraiment précises sur tous les types de changements possibles.”

Cela pourrait nécessiter des millions d’exemples d’ensembles de données, ce que Prakash a déclaré que même les plus grandes sociétés pharmaceutiques n’ont pas.

Capacités prédictives limitées

L’IA peut être très utile lorsque “les règles du jeu” sont connues, a-t-il poursuivi, citant le repliement des protéines comme exemple. Le repliement des protéines est le même pour plusieurs espèces et peut donc être exploité pour supposer la structure probable d’une protéine fonctionnelle, car la biologie suit certaines règles.

La conception de médicaments, cependant, utilise des combinaisons complètement nouvelles et se prête moins à l’IA “parce que vous n’avez pas suffisamment de données pour couvrir toutes les possibilités”, a déclaré Prakash.

Même lorsque des ensembles de données sont utilisés pour faire des prédictions sur des choses similaires, telles que des interactions de petites molécules, les prédictions sont limitées. C’est parce que les données négatives n’ont pas été publiées, a-t-il dit. Les données négatives sont importantes pour les prédictions de l’IA.

De plus, “plusieurs fois, une grande partie de ce qui est publié n’est pas reproductible.”

De petits ensembles de données, des données douteuses et un manque de données négatives se combinent pour limiter les capacités prédictives de l’IA.

Trop de bruit

Le bruit dans les grands ensembles de données disponibles présente un autre défi. PubChem, l’une des plus grandes bases de données publiques, contient plus de 300 millions de points de données de bioactivité provenant d’écrans à haut débit, a déclaré Jason Rolfe, co-fondateur et PDG de Variational AI.

Jason Rolfe_IA variationnelle
Jason Rolf

“Cependant, ces données sont à la fois déséquilibrées et bruyantes”, a-t-il déclaré. BioEspace. “Généralement, plus de 99% des composés testés sont inactifs.”

Parmi les moins de 1% de composés qui semblent actifs dans un dépistage élevé, la grande majorité sont des faux positifs, a déclaré Rolfe. Cela est dû à l’agrégation, à l’interférence du test, à la réactivité ou à la contamination.

La cristallographie aux rayons X peut être utilisée pour former l’IA à la découverte de médicaments et pour identifier l’arrangement spatial exact d’un ligand et de sa cible protéique. Mais malgré de grands progrès dans la prédiction des structures cristallines, les déformations des protéines induites par les médicaments ne sont pas bien prédites.

De même, l’amarrage moléculaire (qui simule la liaison des médicaments aux protéines cibles) est notoirement inexact, a déclaré Rolfe.

“Les arrangements spatiaux corrects du médicament et de sa cible protéique ne sont prédits avec précision qu’environ 30 % du temps, et les prédictions de l’activité pharmacologique sont encore moins fiables.”

Avec un nombre astronomique de molécules de type médicament possible, même les algorithmes d’IA capables de prédire avec précision la liaison entre les ligands et les protéines sont confrontés à un défi de taille.

“Cela implique d’agir contre la cible principale sans perturber les dizaines de milliers d’autres protéines du corps humain, de peur qu’elles n’induisent des effets secondaires ou une toxicité”, a déclaré Rolfe. Actuellement, les algorithmes d’IA ne sont pas à la hauteur de cette tâche.

Il a recommandé d’utiliser des modèles basés sur la physique des interactions médicament-protéine pour améliorer la précision, mais a noté qu’ils sont intenses en termes de calcul, nécessitant environ 100 heures de temps d’unité centrale de traitement par médicament, ce qui peut limiter leur utilité lors de la recherche d’un grand nombre de molécules.

Cela dit, les simulations physiques sur ordinateur sont une étape vers le dépassement des limites actuelles de l’IA, a noté Prakash.

« Ils peuvent vous donner, de manière artificielle, des données générées virtuellement sur la façon dont deux choses vont interagir. Les simulations basées sur la physique, cependant, ne vous donneront pas un aperçu de la dégradation à l’intérieur du corps.

Données déconnectées

Un autre défi concerne les systèmes de données cloisonnés et les ensembles de données déconnectés.

“De nombreuses installations utilisent encore des enregistrements de lots papier, de sorte que les données utiles ne sont pas… facilement disponibles par voie électronique”, a déclaré Moira Lynch, responsable principale de l’innovation chez Thermo Fisher Scientific‘s groupe de bioprocédés dit BioEspace.

Jaya Subramaniam_Soins de santé définitifs
Jaya Subramaniam

Pour compliquer le défi, “les données disponibles par voie électronique proviennent de sources disparates et dans des formats disparates et sont stockées dans des emplacements disparates”.

Selon Jaya Subramaniam, responsable des produits et de la stratégie des sciences de la vie chez Definitive Healthcare, ces ensembles de données sont également limités dans leur portée et leur couverture.

Les deux principales raisons, a-t-elle dit, sont les données désagrégées et les données anonymisées. “Aucune entité ne dispose d’un ensemble complet d’un type de données, qu’il s’agisse de réclamations, de DME/DSE ou de diagnostics de laboratoire.”

De plus, les lois sur la confidentialité des patients exigent des données anonymisées, ce qui rend difficile le suivi du parcours d’un individu, du diagnostic au résultat final. Les entreprises pharmaceutiques sont alors gênées par une vitesse plus lente d’accès aux informations.

Malgré la disponibilité de quantités de données sans précédent, les données pertinentes et utilisables restent assez limitées. Ce n’est que lorsque ces obstacles sont surmontés que la puissance de l’IA peut vraiment être libérée.

Leave a Comment