Données de santé : mesurer l’efficacité thérapeutique d’un traitement

Alexandre Templier, PDG de Quinten, entreprise spécialisée dans la valorisation stratégique des données.

Une exploration fine des données de santé peut fournir de précieuses indications sur l'efficacité d'un traitement, ce que ne permet pas une simple observation des moyennes obtenues sur ces mêmes données. C'est ce que démontre Alexandre Templier, PDG de Quinten, une entreprise spécialisée dans la valorisation stratégique des données, qui a mené une recherche avec des oncologues de l'Institut Gustave-Roussy, à Villejuif.

Votre entreprise a réalisé une analyse de données très pointue pour l'Institut Gustave-Roussy, à Villejuif. Sur quoi portaient ces travaux ?

Alexandre Templier – Nous avons travaillé avec les oncologues de l'Institut Gustave-Roussy, en particulier l'équipe du Pr Jean-Charles Soria, sur une petite cohorte de 121 patients atteints d'un cancer du poumon, dans le but de comprendre la réponse de ces patients à un traitement de chimiothérapie.

La question était "Y a-t-il un profil de patients qui réagit bien à ce traitement, ou plusieurs ?" Très souvent, la réponse à ce genre de questions est "plusieurs". Tous ces patients avaient été traités chirurgicalement pour réséquer leur tumeur et une analyse transcriptomique [NDLR : analyse de l'expression des gènes] avait été faite : nous avions donc le génome de la tumeur. La moitié d'entre eux, soit 61 malades, a reçu une chimiothérapie adjuvante, l'autre moitié, 60 patients, n'en a pas reçu.

Lorsque l'on regarde les courbes de taux de survie à sept ans de ces deux groupes, on ne constate aucune différence. La tentation première est donc de se dire que le traitement ne sert à rien.

Pourtant, sur le terrain, les médecins remarquent que certains patients réagissent très favorablement au traitement. Comment objectiver cette observation et dire qui répond et qui ne répond pas au traitement ? En analysant plus finement les données disponibles, notamment en arrêtant de les moyenner.

En quoi consiste cette analyse ?

Alexandre Templier – Pour ce type de datamining [NDLR : exploration de données], nous avons développé des algorithmes spécifiques. Ceci nous a permis de mettre en évidence un gène, dit gène pivot, qui ressort dans trois contextes : il sort lorsqu'il est exprimé au-dessus d'un certain seuil, combiné tantôt à un autre gène – appelons-le "alpha" –, sous-exprimé, à un autre gène "beta" sous-exprimé et à un troisième gène "gamma" lui aussi sous exprimé. Ces trois poches, ensemble, représentent 31% de la population soit 37 patients : 22 traités, 15 non-traités. Chez les traités, on observe 13% de rechute, chez les non-traités 86% de rechute.

Mais ce même gène apparaît également, cette fois sous-exprimé, combiné à 4 autres gènes. Et dans cette configuration, qui concerne 35% des malades, on enregistre au contraire 80% de rechute chez les traités et seulement 4% de rechute chez les non-traités !

C'est cette analyse qui nous a permis de conclure que ce traitement de chimiothérapie qui, en moyenne, a l'air totalement inopérant, est en réalité bénéfique pour un tiers des malades, potentiellement dangereux pour un tiers et inefficace pour le dernier tiers.

Alors que le big data fait son apparition dans tous les secteurs de l'économie, quels enseignements peut-on tirer de ce type d'exploration ?

Alexandre Templier – On parle effectivement beaucoup de big data. Toutefois, ce n'est pas tellement le volume de données qui est important, mais la capacité à les exploiter. D'ailleurs, en recherche clinique, on est plutôt sur du small data, notamment en raison du coût d'acquisition des données.

L'objectif est de comprendre ce qui se passe. Les données sont utilisées par les organisations pour documenter leurs performances et leurs risques. Le rôle des "data scientists" est de mener une exploitation systématique et approfondie de ces données, dans le but d'aider les experts à mieux maîtriser ces risques et améliorer leurs performances.

C'est un exercice complexe ?

Alexandre Templier – Oui, d'où la nécessité de recourir à des algorithmes non conventionnels. Dans tous les secteurs, en effet, nous sommes souvent face à des phénomènes qui ne se résument ni à quelques facteurs de risque, ni à une équation probabiliste. Ces phénomènes se produisent sous l'effet de multiples combinaisons de facteurs, parfois indépendantes les unes des autres, et ces facteurs sont très difficiles à détecter avec des analyses classiques, qui ont tendance à écraser les comportements locaux.

Quel que soit le phénomène que l'on cherche à comprendre et à influencer, par exemple, ici, la réponse thérapeutique à un traitement, il est intéressant d'explorer les données de manière combinatoire, afin de faire émerger des configurations remarquables, et de formuler des recommandations ciblées. C'est ce que l'on fait notamment à partir de données génétiques ou cliniques : dans ces domaines, l'avenir est à l'identification de profils ciblés pour lesquels on fait apparaître des bénéfices et des risques différents de ce que l'on observe en moyenne.

Sabine Dreyfus

© Agence fédérale d’information mutualiste (Afim)