L’Intelligence artificielle et le Big Data à l’aide de l’innovation pharmaceutique

Certains les aiment, d’autres pas. Pour les uns, ils représentent un futur sombre où l’Homme est l’esclave de la machine (jusqu’à ce que Keanu Reeves nous sauve). Pour les autres, c’est la possibilité d’un avenir plus serein. Pourtant l’Intelligence artificielle et les Big Data sont là, et ils commencent déjà à transformer nos vies… et notamment nos médicaments.

Les montres connectées, nos smartphones, votre ordinateur portable collectent en permanence des données. Et celles-ci sont utilisées à des fins plus ou moins louables : depuis la géolocalisation qui vous permet de retrouver votre téléphone égaré, jusqu’à la production de publicités ciblées pour vous faire acheter des marchandises en se basant sur vos habitudes de consommation. Dans le monde de la santé aussi, d’immenses quantités de données sont collectées, mais à des fins bien différentes. Au cours d’un don du sang (les réserves sont vides d’ailleurs, une bonne résolution à prendre en 2022 ?), lorsque le donneur déclare de la fièvre dans les 24heures, les poches peuvent être récupérées pour la recherche. Autre cas de figure, au cours des protocoles d’essais cliniques, des collections appelées « biothèques » sont constituées par des échantillons venant de dizaines, centaines ou milliers de patients. Ces échantillons sont utilisés pour faire des analyses parfois extrêmement vastes et dépassant largement le cadre d’une seule discipline, pour générer des bases de données contenant parfois des milliers d’informations sur des milliers d’échantillons anonymes. Comment traiter ces quantités de données ? Comment peuvent-elles être utiles à l’innovation pharmaceutique ? Petit voyage au cœur du développement des médicaments, version 4.0…

Les « omics » : génome, transcriptome, protéome, microbiome…

Dans le corps humain, il y a des cellules. Nous sommes littéralement des tas de cellules. Certaines sont « à nous », nos cellules issues de la fusion du spermatozoïde et de l’ovule. Ces cellules contiennent dans leur noyau notre ADN, notre génome (l’ensemble de nos gènes), qui viennent pour moitié du papa et pour l’autre de la maman (à un détail près, voir références pour les plus curieux). Ici, le suffixe « -ome » fait référence à un ensemble. Les quelques 22000 gènes codant pour des protéines sont ensuite transcrits en ARNs messagers. On parle de l’ensemble comme étant le transcipt-ome. Les ARNs messagers sont ensuite traduits en protéines, et l’ensemble de ces dernières constitue le protéome, etc. Mais dans un corps humain, les cellules humaines sont minoritaires ! Tout à fait ! Notre organisme, notre corps contiennent en effet plus de cellules non-humaines que de cellules humaines. Notre flore bactérienne, notre microbiome, dont on commence à comprendre comment il interagit avec nos cellules et impacte notre santé. De l’ordre de 500 espèces différentes pour une personne donnée… Et en fonction des familles de bactéries représentées au microbiome d’un individu, il est parfois possible d’associer une pathologie ou de prédire la qualité de la réponse à un traitement donné.

Les Big Data, c’est comme les oignons…

Outre le fait que ça peut faire pleurer (essentiellement les étudiants), le point commun entre le bulbe aromatique et les bases de données, c’est les couches. Une base de données, ce sont des couches d’informations en plusieurs dimensions au travers desquelles on ne peut voir à l’œil nu. Prenez une couche d’un oignon. Mettez-la devant une source lumineuse. Vous pouvez regarder les stries qui la traversent, les localiser, les compter. Par superposition, vous arriverez peut-être à comparer avec la suivante. Maintenant, mettez le bulbe entier devant la lampe, vous verrez que le combo œil-lampe est inadapté pour explorer la totalité de l’épaisseur des couches de l’oignon. Le terme d’analyse, littéralement couper en morceaux, prend dans cette métaphore culinaire tout son sens. Sauf que si vous pouvez effectivement prendre chaque couche et observer les dessins séparément puis comparer les dessins deux à deux pour arriver enfin à produire de l’information sur la structure complète du bulbe, lorsque vous aurez fini, vos convives seront partis manger au restaurant depuis longtemps. Très longtemps. Donc le Big Data tout seul, ce n’est pas très utile. Il manque un outil, capable d’analyser plus vite que l’œil humain. D’effectuer des comparaisons simples avec une grande vitesse, sans se déconcentrer, commettre d’erreur ou devoir prendre une pause pour dormir.

Algorithmes, intelligences artificielles, la différence c’est l’apprentissage

Les algorithmes c’est bête et méchant. Pour celles et ceux qui connaissent la série de jeux-livres « un livre dont vous êtes le héros », c’est un algorithme.

Prenez un oignon
S’il y a de la peau, passez au 3. Sinon passez au 6
Assurez-vous que la peau est propre. Si elle l’est, passez au 5, sinon passez au 4
Rincez l’oignon, puis passez au 5
Retirez la peau, puis passez au 6
Coupez l’oignon puis passez au 7. Si vous n’aimez pas l’oignon, passez au 8
Mettez l’oignon à cuire, puis passez au 8
Lavez-vous les mains.

Selon la CNIL, ou Commission nationale de l’informatique et des libertés, un algorithme est « une suite finie et non ambiguë d'instructions permettant d'aboutir à un résultat à partir de données fournies en entrée ».

Alors, la différence avec l’Intelligence artificielle, c’est quoi ? Selon le mathématicien Cédric Villani, « il n'y a pas de définition possible ». Ah… Et la CNIL ? Ils disent la même chose. S’il fallait simplifier à outrance, il serait possible de dire que la différence se situe dans l’apprentissage. Des règles de l’algorithme dédiées à observer et prendre en compte de nombreux paramètres, de conserver en mémoire les précédentes découpes d’oignon pour anticiper comment laver et découper au mieux le prochain, ou pourquoi pas changer l’ordre des paramètres de l’algorithme en fonction d’instructions extérieures, donc de prendre en compte le contexte, mémoriser et apprendre. Sauf que chacune de ces étapes est la somme d’instructions simples, finies et non ambiguës permettant d’aboutir à un résultat à partir de données fournies en entrée. En bref, des algorithmes…

Mal à la tête ? Mangez un oignon. Ça n’y fera rien, c’est juste histoire de prendre une pause avant d’aborder le cœur du sujet : comment l’IA et les Big Data peuvent aider à développer de nouveaux médicaments, plus sûrs ou à mieux utiliser ceux dont nous disposons.

L’IA et l’analyse des Big Data.

32 millions. C’est le nombre d’articles (à la louche) contenus sur Pubmed, la base de données des articles scientifiques.

La requête « onion » sur Pubmed donne 8025 résultats. A raison de 15 papiers lus chaque jour, il faut un an et demi pour tout lire. Reste à se souvenir du premier article une fois rendu au bout !

Le développement d’un médicament, qu’il s’agisse d’une nouvelle molécule ou d’une ancienne que l’on souhaite utiliser dans une nouvelle indication (pour traiter une maladie autre que celle pour laquelle elle a été développée), démarre par une « revue de la littérature ». Ce qui veut dire lire les publications qui traitent du sujet pour en faire la synthèse. Contextualiser. Par exemple, si je veux faire la revue de la littérature sur les oignons, je tape « onion » sur Pubmed, et j’ai à lire 8025 articles. Je suis un chercheur, je lis bien l’anglais, je traite environ 15 articles par jour. A ce rythme, il me faut un an et demi pour m’occuper de cette partie. L’autre solution, c’est d’embaucher 500 chercheurs, et de leur faire lire quinze papiers chacun, l’analyse prend alors une seule journée. Mais avant de faire ça, il faut leur dire quoi chercher, quelle information compiler, donc donner des instructions pour aboutir à un résultat à partir des données fournies en entrée. Un algorithme ! Et comme la lecture du texte peut s’apprendre (nous apprenons à lire, puis nous apprenons la science) en imbriquant des algorithmes dans les algorithmes, il est possible d’aboutir à une automatisation du procédé. Et le programme qui fait ça prend le nom d’Intelligence artificielle.

Des applications qui dépassent de loin la lecture de texte

Un algorithme ou une intelligence artificielle ne sont pas limités à chercher des informations dans du texte. Interpréter une image, compter, calculer, décrypter… toutes ces opérations sont virtuellement accessibles à l’humain dans des délais ou mobilisant des ressources qui rendent la tâche ardue. Décrire une interface d’interaction entre deux molécules atome par atome, prédire l’affinité d’un médicament à sa cible, chercher des facteurs de risque d’une maladie dans des bases de données de génomique, toutes ces tâches sont devenues accessibles dans des délais relativement courts à la seule condition de disposer d’un ordinateur suffisamment puissant pour faire tourner les programmes d’Intelligence artificielle, et donc mieux anticiper le profil d’efficacité ou les risques d’effets indésirables d’un candidat médicament, sans recruter le moindre patient, et en n’utilisant qu’une seule souris…

Sources: