
Philippe Charlot est le fondateur de La Mètis, l’éditeur de l’application d’intelligence artificielle française Rnest, dédiée à l’exploration du web et utilisée notamment pour de la veille stratégique. Après une expérience dans la Marine, il poursuit sa carrière dans le secteur du conseil avant de fonder La Mètis en 2013 avec la conviction selon laquelle la base de connaissances constituée par le web est une vraie opportunité stratégique pour les entreprises.
Propos recueillis par Bartolomé Lenoir.
Une Certaine Idée : Quel est aujourd’hui votre métier, en lien avec l’intelligence artificielle ?
Philippe Charlot : Notre métier consiste à favoriser un accès à la connaissance disponible sur le web, jusqu’ici inaccessible à l’échelle humaine avec les outils classiques d’exploration du web. L’idée est de franchir de nouvelles frontières de connaissance en reproduisant le geste d’un humain qui naturellement lorsqu’il lit un article du journal Le Monde ou Le Figaro par exemple, est invité à cliquer sur des liens hypertextes qui lui sont suggérés pour aller plus loin et pour comprendre l’origine d’une information.
Un humain va avoir un temps et une charge mentale de travail limités pour faire cela et s’il fait un, deux, trois, dix ou vingt rebonds pour aller lire de nouveaux contenus qui lui sont suggérés, c’est déjà beaucoup. À chaque fois qu’il clique, il fait un pari puisqu’il a très peu d’informations lui indiquant que le contenu derrière ce lien hypertexte est intéressant. Ainsi, quand il arrive sur les pages, la plupart du temps il est déçu ou il apprend peu, ou cela lui coûte beaucoup de lire et d’absorber ce nouveau contenu.
Nous avons conçu une intelligence artificielle qui en quelques heures va faire 250 000 sélections de liens hypertextes pour l’utilisateur comme si c’était lui qui les avait faites et elle va lui dire si les paris qui ont été fait, ou plutôt les sélections, sont de qualité, et enfin synthétiser l’ensemble.
UCI : Comment l’utilisateur de cette IA va-t-il exploiter cette synthèse ?
PC : Il a plusieurs options : soit il peut exploiter une synthèse, soit il a accès à tout le contenu récupéré et valide au sens de la question qu’il a posé. Il peut ainsi faire des analyses de corrélation par lui-même : aller chercher des détails, des faits précis, etc. Donc il a à la fois un portail en SaaS dans lequel il a toutes les data ainsi qu’une synthèse.
UCI : Existe-t-il en France d’autres initiatives telles que la vôtre sur l’intelligence artificielle ou sommes-nous à la traine derrière les Américains ou même les Chinois ?
PC : Si nous parlons de l’accès à la connaissance sur le web, il y a cette initiative d’appliquer l’intelligence artificielle générative aux moteurs de recherche web. Microsoft le fait en appliquant ChatGPT à Bing, et Google fait la même chose en appliquant Bard à son moteur de recherche.
En France, et en Europe plus largement, il n’y a pas de moteur de recherche web comparable à Bing ou Google. Il y a Qwant qui se fournit en données principalement chez Microsoft. Par ailleurs, il n’y a pas encore d’outils de type LLM (pour large language models), technologies à la base de l’intelligence artificielle générative, même s’il y a une initiative open science qui s’appelle Bloom, très prometteuse et portée par une entreprise franco-américaine soutenue par les institutions françaises.
Si l’Europe ne dispose pas de moteurs comme Bing ou Google, il n’y a pas d’accès à des données web de façon autonome. Et si l’Europe ne peut pas utiliser de large language models souverain ou open science, il y a une dépendance vis-à-vis des personnes payées par Microsoft ou Google, donc potentiellement avec un regard très américain sur la façon de mettre en forme un texte, de le rédiger ou de le « penser ». Actuellement, il n’y a ni collecte indépendante de données web de façon massive, ni large language models opérationnel, même s’il y a l’opportunité de projets open science comme Bloom.
UCI : Une entreprise européenne pourrait-elle se « plugger » sur Google ?
PC : Le problème est que si une entreprise européenne se « plugge » sur Google, elle va être dépendante en termes de souveraineté numérique et cognitive des données qui sont dans Google. Pour être clair, Google n’est pas le web : c’est une base de données du web faite par un opérateur économique rationnel, Google. Celui-ci se demande, avec des milliards et des milliards de dollars, comment faire la bibliothèque la plus intelligente du web sachant que, évidement, tout ne peut pas être mis en bibliothèque. Cela coûte énormément d’argent de mobiliser des robots surveillant toute nouvelle page créée ou modifiée sur le web.
Par exemple, vos nouvelles publications d’Une Certaine Idée vont créer une nouvelle page web et puis toutes les secondes, tous les jours ou tous les quinze jours il y aura un nouveau contenu. Donc, à peine un moteur de recherche comme Google fait le tour d’une page web, qu’il faut déjà remettre à jour. Du coup, il fait sans arrêt des arbitrages à notre place, de ce qui vaut la peine d’être mis en bibliothèque, puis d’être mis à jour.
Se plugger sur Google, cela signifie donc accepter les choix éditoriaux qu’il fait. Or, ces derniers sont forcément partiels voire partiaux.
En outre, une entreprise européenne serait dépendante de la manière dont Google va comprendre sa question. À aucun moment Google ne peut supporter le coût économique de faire une recherche appelée « plein texte » entre une question et le contenu indexé en bibliothèque. Si un nom ou un concept est saisi dans Google, il n’est pas sûr que même si un document contient ce nom ou concept dans la bibliothèque de Google, celui-ci puisse être retrouvé.
En plus de ça, comme tout cela coûte très cher, Google ne va pas donner à l’entreprise européenne tous les résultats qu’il possède en bibliothèque. Il ne va vous en donner qu’une partie. Aujourd’hui sur Google, l’utilisateur accède techniquement à maximum 400 résultats même si Google suggère qu’il y en a des millions. Construire une offre sur Google, c’est être par conséquent dépendant du choix d’indexation, de quel document il indexe, comment il l’indexe et de ce qu’il veut bien donner à l’utilisateur final.
UCI : Vous soulevez un problème : d’un côté, si nous suivons ou innovons à partir de progressions déjà existantes chez les Américains, il existe un risque de souveraineté ; et de l’autre côté, il y a une initiative européenne mais peu connue et balbutiante. Dès lors, l’Europe et la France sont-elles dans une situation d’incapacité de participer à l’avènement de l’intelligence artificielle ?
PC : Je ne dirais pas ça. Si les Européens veulent faire strictement la même chose que ce que fait Microsoft avec Bing et Open AI ou Google avec son moteur de recherche Google et Bard, alors ils en sont très loin. Pourquoi ? Parce qu’il y a une barrière à l’entrée : ce sont des milliards et des milliards de dollars nécessaires pour se fabriquer une base de données du web.
Et pour entraîner une intelligence artificielle générative, cela coûte également une fortune. Microsoft a investi un premier milliard dans Open AI, il va potentiellement remettre dix milliards. En outre, ce sont des entrainements qui se font langue par langue : ils vont ainsi être très bons en anglais pour l’instant, moins performants en français et ainsi de suite. Dès lors, cela va prendre un temps fou. Imaginez la barrière à l’entrée d’un point de vue strictement économique !
Là où les Européens peuvent faire différemment, et c’est d’ailleurs notre proposition de valeur dans ma société, c’est ma façon de raisonner, c’est de dire : cela est inaccessible pour nous, nous ne savons pas faire, et si nous faisions autrement ? Nous avons une approche « David contre Goliath ». Nous choisissons plutôt la frugalité. Nous avons ainsi choisi pour la collecte de données web non pas de faire une unique base de données pour l’ensemble des personnes qu’on appellerait, du nom de l’expression anglaise : « one size fits all », mais une base de données du web à chaque fois qu’un client se pose une question. Du coup, notre base va être ultra fraiche et personnalisée. Cela coûte aussi bien moins cher : il n’y a pas besoin de milliards de dollars. Il n’y a donc pas de barrières à l’entrée. Nous allons créer à chaque fois une petite base avec des résultats que l’on espère plus volumineux et plus précis que Google et Bing, car collectés pour le besoin spécifique de l’utilisateur.
Une autre façon de proposer une alternative à l’IA générative couplée aux moteurs de recherche américains dans notre société est de faire des corrélations entre tous les termes de la recherche de nos clients et tous les termes que notre intelligence artificielle apprend. Nous arrivons ainsi à faire émerger des idées que nous sommes capable de structurer par la suite en synthèse, chapitres, sous-chapitres. Au lieu de construire un résumé généré par une IA générative, nous hybridons un système expert avec du machine learning pour reproduire au plus juste le comportement d’analyse d’un utilisateur. La check-list d’idées qui émerge provoque intellectuellement l’utilisateur avec des éléments nouveaux, plutôt que de chercher à le satisfaire dans une logique « chatbot ».
UCI : Avec votre système, est-ce possible que ChatGPT puisse coder des éléments pour avoir accès à des fonctions que nous ne savons pas faire ?
PC : ChatGPT est une intelligence artificielle type « couteau suisse » dont les domaines d’application sont extrêmement larges, dont la rédaction de code. Personnellement, je ne vous parle que de ChatGPT appliqué au moteur de recherche Bing, qui ne vise pas à la rédaction de code.
UCI : Pour revenir sur cet aspect « couteau suisse », où en sommes-nous aujourd’hui ?
PC : Cela n’est pas du tout mon domaine. Je suis focalisé sur l’accès à la connaissance. Pour toutes ces autres parties-là, comme commencer à répliquer le comportement humain de rédaction d’un contrat, rédaction de code, etc., la France et l’Europe auront forcément besoin des LLM. Il y a donc intérêt à trouver une astuce pour miser sur des projets open science (comme Bloom) afin de développer des capacités souveraines dans ce domaine.