Et si l’IA pouvait donner un assistant journaliste qui permet d’aider les professionnels de l’information dans la recherche de sources complexes, comme par exemple sur le dérèglement climatique ? C’est le coeur du projet Spinoza mené par Reporters sans frontières, en partenariat 12 médias membres de l’Alliance de la presse d’information générale, l’APIG.
Quels usages ? Quelles ambitions ? Quels risques ? Quelles limites ? Quels défis ?
Ce sont les questions que nous posons à Vincent Berthier, responsable du desk nouvelles technologies de RSF.
Dans cet épisode, une question transversale : les IA peuvent-elles être utiles aux journalistes et profitables pour les médias ?
Pour prendre du recul, Julien Le Bot et Philippe Couve de Samsa.fr reviennent sur les premières Rencontres de l’IA éditoriale organisées le 1er juillet chez Creatis, une demi-journées d’échanges et d’ateliers pour réfléchir à l’impact des intelligences artificielles sur les pratiques journalistiques, les modèles économiques, mais aussi dans les industries culturelles et créatives.
On y parle d’Asma Mhalla et de son livre “Technolopolitique, comment la technologie fait de nous des soldats”, mais aussi des débats sur les relations que l’on peut avoir avec les géants du numérique en compagnie de Frédéric Filloux, Carine Fouteau (de Mediapart) ou encore Valentin Schmidt, d’Ask Mona.
Pour prolonger cet échange, Vincent Berthier, responsable du desk nouvelles technologies de Reporters sans Frontières, revient sur le projet pilote qu’il accompagne depuis quelques mois avec 12 rédactions pour mettre des IA au service des journalistes. A l’heure du dérèglement climatique, il s’agit de voir si une IA générative entraînée sur des bases de données rigoureuses comme les rapports du GIEC ou sur des documents de référence peut aider des rédactions à améliorer leur couverture de l’actualité et leur traitement des questions écologiques.
Un grand merci à Sylvain Pinot qui a assuré la réalisation de cet épisode enregistré le 3 juillet 2024 à la résidence Créatis.
Pour ceux qui n’ont pas encore écouté les autres épisodes du podcast “Les médias se mettent à jour”, il n’est pas trop tard, et c’est ici qu’on les retrouve.
Bonne écoute !
Voici le transcript intégral de ce podcast :
Julien Le Bot
Philippe, est-ce que tu es encore sur Facebook, toi ?
Philippe Couve
Alors, j’ai envie de te dire, techniquement, oui, j’ai toujours un compte. J’y vais de temps en temps, parce que notamment pour nos activités en Afrique, il reste encore pas mal de choses qui peuvent se passer sur Facebook. Mais sinon, pour le reste, en dehors de quelques membres plutôt éloignés de ma famille, je n’y trouve plus grand-chose. Et toi ?
Julien Le Bot
Moi, il y a encore des gens qui utilisent Facebook, je ne sais pas pourquoi, pour organiser des événements, donc je garde un œil dessus, mais Et puis surtout, il y a quand même beaucoup d’archives. Ça fait 20 ans qu’on est dessus. Et qu’est-ce que j’ai à gagner ou à perdre, à me retirer ? Je sais pas trop. Ce n’est pas clair encore.
Philippe Couve
Je soupçonne quand même qu’après avoir fait un bouquin sur Zuckerberg, un documentaire sur Zuckerberg, tu regardes aussi un œil là-dessus pour tes prochaines productions ?
Julien Le Bot
C’est pas faux. Par contre, j’ai vu, que Zuck, qui vient donc d’avoir 40 ans, Mark Zuckerberg, qui d’ailleurs, allait voir son compte Instagram, porte des T-shirts « Delenda Carthago Est », c’est-à-dire: « On peut tout détruire, on peut tout raser, c’est comme ça qu’on fabrique la paix », il ne change pas. Et ça m’a fait penser aux médias face aux IA.
Philippe Couve
C’est-à-dire ?
Julien Le Bot
Tu as sans doute vu passer cette histoire. En fait, il y a quelques semaines, on a appris que Facebook et Instagram allaient bientôt utiliser nos données personnelles pour alimenter les éas génératives de Meta.
Philippe Couve
Et si je ne suis pas d’accord ?
Julien Le Bot
Alors théoriquement, on peut empêcher ça, mais comme d’habitude, avec Facebook, tout a été fait pour qu’un nombre limité d’internautes parvienne vraiment à bloquer les robots de Meta. Genre passage en force. Sachant qu’en Europe, on est quand même un peu protégé parce que pour l’instant, Meta a mis en pause, en tout cas, c’est ce qu’ils disent, son projet d’utilisation des postes des utilisateurs européens pour entraîner ces IA, tout ça pour limiter les risques juridiques de poursuite pour violation du RGPD, donc le règlement général des données personnelles.
Philippe Couve
Un nouvel épisode, en quelque sorte, de la guerre des géants de la tech pour dominer le marché des IA génératives en pompant, je dirais, le maximum de nos données.
Julien Le Bot
Et ça, on le sait en tant que journaliste, des données qui ont une valeur importante pour OpenAI, Meta, Google et consorts. Bref, on sait qu’ils ont cruellement besoin de nos données pour entraîner leur modèle, mais des données pour lesquelles ces derniers ne sont pas toujours prêts à payer.
Philippe Couve
Alors c’est vrai, mais d’une certaine manière, est-ce qu’on ne peut pas dire que l’attitude des médias qui était un peu ambivalente face à ces géants de l’intelligence artificielle ?
Julien Le Bot
Alors si, évidemment. D’un côté, on a vu qu’il y a un certain nombre de grands groupes qui avaient signé des accords avec, par exemple, OpenAI, la maison mère de ChatGPT. Ça a été vrai, par exemple, pour Axel Springer, pour le Financial en France avec Le Monde aussi. On en a déjà parlé ici dans ce podcast, ou encore plus récemment, même pour News Corp, qui est donc le groupe de Rupert Murdoch. Et de l’autre côté, il y a des médias qui résistent ou qui s’opposent à ce que leur site soit aspiré par les robots d’OpenAI. On peut par exemple penser au New York Times, qui a carrément porté plainte contre OpenAI et Microsoft.
Philippe Couve
Porté plainte parce qu’ils soupçonnent que ces outils se soient servis sans autorisation il y a quelques mois de ça pour nourrir leur des intelligences artificielles. Mais grosso modo, aujourd’hui, question, je dirais: Quelle stratégie adopter face à ces géants de l’IA ?
Julien Le Bot
Philippe, on en a beaucoup parlé lors des rencontres de l’IA éditoriale qu’on a organisé ici à Creatis, à Paris, le 1ᵉʳ juillet, et en a parlé à la fois des questions qui fâchent et des bonnes idées à mettre en place.
Philippe Couve
Alors c’est vrai que depuis ces derniers mois, on voit un certain nombre d’initiatives dans les médias, soit pour mener des enquêtes, pour créer de nouveaux outils, pour faire en quelque sorte du journalisme augmenté, comme on disait il y a quelques années. Exactement.
Julien Le Bot
Et c’est de ça dont on va parler dans cet épisode: Que faire avec des IA dans les médias ?
Philippe Couve
On pourrait se présenter pour commencer, non ?
Julien Le Bot
Donc, je suis Julien Le Bot et Mon nom est tout à fait prédestiné pour parler des IA. Je suis Responsable Innovation chez samsa. Fr, mais aussi rédacteur en chef adjoint au-dessous des cartes. Et j’arrête pas de « stalker » Mark Zuckerberg.
Philippe Couve
Je suis Philippe Couvre et je suis le directeur et fondateur de Samsa,fr qui forme et qui accompagne les médias et tous ceux qui ont un projet éditorial.
Julien Le Bot
Philippe, en un mot, rappelle le principe de ce podcast.
Philippe Couve
Le principe, c’est qu’on discute comme on discute tous les jours, soit avec nos clients dans les médias ou dans d’autres secteurs, soit entre nous quand on parle des évolutions. Des des évolutions technologiques, des évolutions des usages, des évolutions des audiences, des nouveaux contenus, des modèles économiques, de l’organisation, du management des organisations. Toutes ces transformations, en quelque sorte, on en discute tous les jours, ces transformations qui font le quotidien des médias et des autres. Et là, on va essayer de partager avec vous un certain nombre de ces réflexions.
Julien Le Bot
Oui, d’ailleurs, on en a encore parlé beaucoup lors des rencontres, comme je l’ai dit tout à l’heure. Et aujourd’hui, dans cet épisode, on va donc s’intéresser avec Vincent Berthier, qui travaille à Reporters sans Frontières, qui est responsable du Desk Nouvelle Technologie depuis 2022. Il a entamé même une thèse sur l’intégrité de l’info à l’heure des IA et il pilote un projet passionnant qui s’appelle Spinoza, qui est mené par RSF et aussi des médias partenaires et ils cherchent à fabriquer un outil qui repose sur des IA génératives avec une couche de ChatGPT. Ils veulent que cet outil permette d’aller chercher des infos très ciblées dans les rapports du GIEC et sur tout ce qui est lié à la transition climatique.
Philippe Couve
Bref, une sorte de parcours atypique comme on les aime bien chez Samsa.
Julien Le Bot
D’abord, Philippe, peut-être qu’on peut parler un peu des rencontres de l’IA éditoriale.
Philippe Couve
Allons-y, toi, Julien, qu’est-ce que tu as retenu de cet événement ?
Julien Le Bot
C’était une demi-journée. On a parlé évidemment à la fois des questions qui fâchent, comme je disais tout à l’heure et puis des choses très concrètes. Alors moi, d’abord, j’ai bien aimé la conversation que j’ai eu l’occasion d’avoir avec Asma Mhalla, qui est l’autrice d’un livre qui s’appelle « Technopolitique, comment la technologie fait de nous des soldats », un livre qui est paru au Seuil. Grosso modo, elle explique que la tech pose des questions politiques qui, à ce jour, restent insolubles, que les entreprises qui sont derrière les IA, grosso modo, ce sont les mêmes que celles des révolutions antérieures. Donc, on a Meta, Google et compagnie. Et puis que plus globalement, les IA peuvent conduire, si en tout cas, si on n’est pas vigilant, à un accroissement des inégalités et à une inflation de la quantité d’infox. Justement, avec elle, j’ai testé plein d’hypothèses pour sentir ce qu’elle percevait comme enjeu clé pour les médias. Je suis allé chercher des hypothèses dans un livre qui est fabuleux d’ailleurs, qui s’appelle « Les IA à l’Assaut du cyberespace », rédigé par Olivier Ertzscheid, un ouvrage que vous pouvez trouver pour cet été, par exemple, aux Éditions C&F. Et selon lui, au cours des 20 dernières années, on s’est aperçu que près de la moitié du trafic sur le Web est généré uniquement par des bots.
Julien Le Bot
Et on a rebondi avec Asma Mhalla sur cette phrase de François Chollet, qui est un des grands scientifiques de l’IA et qui dit qu’aujourd’hui, on est proche du moment où on aura à entraîner les modèles sur toutes les données de textes humainement disponibles et donc on n’aura plus rien pour alimenter les IA génératives, sauf du synthétique. Et donc, face à cette espèce de constat, à cet environnement qui bouge beaucoup sur Internet, elle est allée finalement interroger ce qui était à ses yeux, très important pour les médias. Et elle plaide pour deux choses. D’abord, une sorte de grand retour au réel, ce qui veut dire pour les journalistes de se réapproprier vraiment le sens, la mission, le cœur de ce qu’on fait dans les rédactions, qui est de documenter le réel. Et pour ce faire, il faut aller à la rencontre, tout simplement des citoyens et surtout sur le terrain.
Philippe Couve
Oui, il y avait les deux aspects. Aller sur le terrain et aussi organiser des rencontres avec nos audiences. C’est ce qu’elle prônait véritablement de recréer du contact réel.
Julien Le Bot
Exactement et sans technophobie. Et c’est d’ailleurs ce qui a vraiment, je trouve, traversé toutes ces rencontres, qui était précisément à la fois de questionner la place de ces outils dans les rédactions sans technophobie, sans technophilie, sans avoir l’impression que c’était l’alpha et l’oméga des problèmes des médias. Et d’ailleurs, la première table ronde que j’ai eue l’occasion de modérer, où j’étais avec Gérald Holubowicz, qui est donc un des journalistes et formateur de comme ça. Marie-Catherine Beuth, que vous avez déjà entendue ici dans ce podcast, mais aussi Kati Bremme, directrice de l’innovation chez France Télévisions, et Marion Carré, qui est cofondatrice d’une startup qui met de l’IA, je dirais, au service du monde de la culture et qui s’appelle Ask Mona. Qui est notre voisine aussi. Qui est notre voisine d’ailleurs ici chez Creatis. Et grosso modo, ce qui s’en dégage, c’est trois choses. La première, c’est: il faut qu’on soit modeste et il faut qu’on teste. Et j’ai trouvé cette espèce d’approche pragmatique très intéressante, parce qu’on a vu que beaucoup de médias aujourd’hui ne sont pas dans une défiance, ils sont plutôt dans une vigilance et ils testent des choses. Deuxième réflexion, c’est celle autour de la rédaction de Chartres pour essayer d’être le plus transparent possible et le plus, je dirais, cohérent possible vis-à-vis des audiences quand on utilise des IA.
Julien Le Bot
Et puis enfin, encore une fois, avec Marion Carré, on a bien vu, via le travail que fait Ask Mona dans des grandes institutions culturelles, que les IA, parfois, sont une opportunité pour renouer le dialogue avec les audiences, voire faire grandir toutes celles et ceux qui veulent s’approprier des œuvres culturelles.
Philippe Couve
Alors moi, de mon côté, puisque tu me poses la question. De ton côté, qu’est-ce que tu as vu ? Il y a une initiative dont je voudrais parler, en tout cas une pratique qui se développe. Et honnêtement, Je dois dire que je ne comprends pas pourquoi les journalistes ne s’en emparent pas. Il s’agit de ce qu’on appelle le no code, le mouvement no code. Grosso modo, pour dire en deux mots de quoi il s’agit, ce sont des outils qui permettent de faire en quelque sorte ce que faisaient avant les développeurs, mais sans savoir coder, comme si on apprenait à parler un langage sans l’avoir appris, en quelque sorte. Il y a l’un des collectifs, on qui promeut particulièrement l’usage de ces outils en France, ces contournements. Il y avait Erwan Kezzar, qui est l’un des fondateurs de Contournement, qui est aussi formateur Samsa, qui est venu nous expliquer comment on pouvait intégrer de l’IA, fabriquer soi-même ses propres outils en tant que journaliste à base d’IA. Il a fait un exemple sur la veille, comment faire de la veille d’information. Il nous a expliqué comment on pouvait constituer soi-même son propre outil de veille personnalisé avec une IA qui bosse pour nous, etc.
Philippe Couve
Et moi, je trouve que ce genre d’outil, c’est vraiment quelque chose dont les journalistes devraient s’emparer. Mais je dois à la vérité de reconnaître que pour l’instant, on a beaucoup de mal à faire passer ce message et je ne comprends pas pourquoi les journalistes sont si réticents à à s’équiper d’outils qui peuvent être extrêmement puissants.
Julien Le Bot
Autre chose que je retiens- Surtout que sur la veille, il faut le dire quand même, depuis que les RSS ont reculé et qu’on s’est tous mis aux réseaux sociaux, on est quand même très embêté. Et ce qu’il a bien montré, c’est qu’il existe des outils qui Ça permet de se réapproprier sa propre veille. Et pour un journaliste, c’est quand même prioritaire.
Philippe Couve
Absolument. C’est vraiment la clé de beaucoup de choses. Ce que je retiens aussi, c’est la table ronde sur les questions plus stratégiques, partenariats ou pas, et économiques d’ailleurs. Partenariat pas entre les médias et les boîtes d’intelligence artificielle, notamment OpenAI. OpenAI qui a signé en France avec Le Monde, accord confidentiel, mais le monde donne accès à une partie de ses contenus pour permettre l’entraînement du modèle d’Open AI. Là, parmi les gens qu’on avait autour de la table ronde, tout le monde n’était pas d’accord avec cette approche.
Julien Le Bot
Ça a boxé un peu, j’aime bien le dire.
Philippe Couve
Ça a boxé un peu, effectivement. Frédéric Filloux nous a expliqué qui, lui, a essayé de travailler avec les intelligences artificielles, mais il y a quelques années, peut-être un peu trop tôt, à une époque où ce n’était pas mûr, mais qui connaît quand même bien le sujet, qui connaît aussi les discussions avec les géants de la Silicon Valley.
Julien Le Bot
Et qui connaît leur cynisme aussi, qui est lucide. Je pense qu’on peut dire que c’est quelqu’un de lucide sur cette question-là. Absolument.
Philippe Couve
Il a expliqué que pour lui, il ne fallait vraiment pas pactiser avec ces boîtes-là et qu’il fallait introduire plus une notion de rapport de force. Sophie Gourmelen, qui est directrice générale du Parisien, nous a lâché une information que je n’avais pas entendue jusque-là, où un certain nombre de médias sont en train de monter un dossier, comme l’a fait le New York Times aux États-Unis, pour essayer de voir s’il y a une possibilité d’attaquer ces outils d’intelligence artificielle pour du pillage des contenus il y a quelques mois ou quelques années lorsqu’ils ont fait leur première phase d’entraînement. Et puis, au final, on retiendra que la nouvelle présidente de Médiapart, qui a succédé à Edwy Plenel, Carine Fouteau, a expliqué que pour elle, la solution résidait véritablement dans l’abonnement, dans le modèle économique de l’abonnement, qui permettait de nouer une relation directe entre le média et son audience et donc de limiter la dépendance par rapport à des outils technologiques. Je vais rajouter une dernière chose qui m’a frappé, et c’était au cours de cette table ronde avec Valentin Schmidt, qui travaille aussi chez Ask Mona, cette boite qui met des outils d’intelligence artificielle à la disposition d’institutions culturelles.
Philippe Couve
C’est un grand spécialiste. Il a écrit un petit bouquin assez passionnant sur la place de l’IA dans les industries créatives et culturelles. Il nous a dit que d’après certaines prévisions, d’ici trois ans, il y aurait plus d’images créées par l’intelligence artificielle que d’images fabriquées par les êtres humains, qu’il s’agisse de créations type peinture, graphisme, etc, ou de photographie. Donc d’ici trois ans, on aura plus d’images créées par l’intelligence artificielle que par nous, les humains, et que par défaut, une image va apparaître comme synthétique et non pas comme représentative de la réalité. Et pour lui, c’est vers un véritable changement anthropologique qu’on va.
Julien Le Bot
D’ailleurs, au cours de l’été, on va voir comment on va pouvoir prolonger un peu cette énergie autour des premières rencontres de l’éditoriale. Et je pense qu’il faut bien rappeler que ce qui en est ressorti, c’est cette envie d’aller vers l’abonnement, vers le terrain, de repenser l’indépendance et le pluralisme de l’information.
Philippe Couve
Tout en utilisant ce que le potentiel des outils permet pour assister les journalistes dans leur travail.
Julien Le Bot
Et dans les mois qui viennent d’ailleurs, on a prévu d’organiser aussi un autre événement sur le même thème, compte tenu de l’intérêt suscité par cette première édition.
Philippe Couve
On en arrive à la question clé de cet épisode: « Que faire avec les IA dans les médias ? »
Julien Le Bot
Et on a invité Vincent Berthier, qui est responsable du Desk Nouvelle Technologie de Reporters Sans Frontières, et qui s’intéresse à la question de l’impact des IA sur le débat public, le pluralisme et l’intégrité de l’information. Bonjour Vincent Berthier. Bonjour. Alors peut-être d’abord expliquer pourquoi Reporters Sans Frontières, RSF pour les intimes, s’intéresse-t-elle au tech en général et à l’IA en particulier ?
Vincent Berthier
L’intérêt de Reporters Sans Frontières pour la tech, il est très ancien. Moi, je suis arrivé en 2022, on avait déjà une base de travail qui était extrêmement importante sur tous les enjeux des algorithmes, c’est-à-dire des autres systèmes d’intelligibilité artificielle, ceux des réseaux sociaux.
Julien Le Bot
Ceux qui fabriquent la mise en visibilité de l’info, qui sont aussi cruciaux dans le débat public.
Vincent Berthier
Les algorithmes, que ce soit ceux de curation de contenu, que soient ceux de modération également. Donc, les moteurs de recherche, les réseaux sociaux. On avait déjà énormément travaillé sur ces questions. Et la question de l’intelligibilité artificielle générative, elle nous a apparu assez tôt comme stratégique. On a commencé à réfléchir au sujet avec Christophe Deloire en juillet 2022.
Philippe Couve
En plus, on évoque sa mémoire, moi qui ai eu l’opportunité de travailler un peu avec lui il y a quelques années. Quel rôle il a eu dans ce projet spécifique sur l’IA ?
Vincent Berthier
Christophe Deloire était passionné par l’intelligence artificielle. C’était un sujet… La tech, en général, il avait écrit un livre, La Matrice, il y a assez peu de temps. Et l’intelligence artificielle, en particulier, avait une forme de fascination. Après, pour lui, il s’agissait vraiment que RSF monte en puissance sur tous ces sujets qu’il appelait structurants, à la fois dans la manière de produire l’information, mais également dans la manière de la distribuer dans le marché de l’information. Et ça, c’était la base de notre réflexion sur un certain nombre de nos projets. Le premier projet, celui qui a fait parler de lui avant, un autre projet, qui est le projet Spinoza, c’est celui d’une charte, d’une charte internationale, qu’on a sorti en novembre 2023 pour la paix de Paris.
Philippe Couve
Avec des grands noms dans le comité qui a rédigé cette charte.
Vincent Berthier
Présidé par Maria Ressa. Prix Nobel de la paix.
Julien Le Bot
Prix Nobel de la paix, avec-Écophonatrice d’un grand média, Rappler, qui, évidemment, s’est fait connaître parce qu’en Asie du Sud-Est, il incarne encore une liberté de la presse face à des régimes autoritaires.
Vincent Berthier
Exactement. Avec Stuart Russell, Charlie Beckett, Bruno Patino. Vraiment des noms, des personnes qui sont investies, qui réfléchissent sérieusement à ce sujet. Et c’était important pour nous de réunir de manière assez large pour faire une charte qui soit pour les médias. Vraiment, on est sur l’ensemble de la production, c’est-à-dire qu’on a à la fois la production de contenu, mais également, en dernier article, le comportement que les médias doivent adopter vis-à-vis des géants de la tech.
Philippe Couve
Donc, Chart, c’est l’épisode un.
Vincent Berthier
Exactement. On peut le dire comme ça. Et après, il y a un épisode deux, qui est le projet qu’on appelle le projet Spinoza. Le projet Spinoza, c’est une version… J’allais dire une version concrète de la charte. Maintenant, c’est ce que je vois de manière rétroactive. À la base, c’est deux projets qui sont nés de manière distincte, mais qui naissent de la même préoccupation. La préoccupation très concrète du projet Spinoza, c’est aujourd’hui, les médias sont dépendants de systèmes d’intelligence artificiel qu’ils ne contrôlent pas pour distribuer l’information. C’est les algorithmes dont on a parlé. S’ils choisissent d’intégrer de l’IA générative dans leur mode de production, il y a un risque de dépendance également sur leur moyen de production.
Philippe Couve
En amont et en aval, les médias risquent d’être dépendants de ces outils d’IA.
Vincent Berthier
Exactement. Ce qu’on voit, nous, ce qu’on connaît par cœur, c’est que les géants de la tech, les Meta, les Open AI, les Google, conçoivent leurs outils avec très d’égard pour les valeurs du journalisme et pour le droit des citoyens d’accéder à de l’information fiable. Donc, on sait très bien que l’IA générative, elle va se développer sans les journalistes. Ils n’ont pas envie de les intégrer.
Julien Le Bot
En tout cas, l’IA générative telle qu’elle est vendue par des entreprises de la tech qui ont donc leurs propres intérêts à défendre. Et donc, vous, vous avez décidé de travailler avec 12 médias, je crois, pour essayer d’avoir une approche, je dirais, qui part du besoin des journalistes, non pas du besoin de ces régies publicitaires que sont les gens de la tech.
Vincent Berthier
On est allé voir l’ Alliance de la Prise d’Information Générale (APIG). On leur a dit: On a un projet, on pense que ça peut vous intéresser. Ils nous ont dit oui et ils ont réuni 12 médias ou groupes autour de la table qui sont prêts à participer à cette expérimentation. Parce que c’est ça, le projet Spinoza, c’est une expérimentation. C’est dire aujourd’hui, l’IA, elle ne va pas se faire sans nous. Et donc on se réunit, on se retrousse les manches et on développe nos propres outils.
Julien Le Bot
Alors, quelque chose qui est très intéressant, c’est que ce n’est pas un outil pour faire une IA générale qui parle de tout. Vous êtes parti en plus sur un segment de type d’informations particuliers puisqu’il s’agit de fabriquer un outil, tu me dis si je me trompe, qui permet d’aller interroger des bases de données que vous avez donc qualifiées et qui tournent autour des questions climatiques.
Vincent Berthier
Oui, c’est un outil qui traite les deux enjeux du siècle. On a le changement climatique, l’intelligence artificielle. Et évidemment, pourquoi le changement climatique ? On a très vite identifié ce besoin dans les rédactions. Le besoin de pouvoir traverser un rapport du GIEC rapidement pour en extraire des informations vitales.
Julien Le Bot
Alors, soyons le plus concret possible. Cet outil, Spinoza, il fait quoi précisément ? Comment ça marche ? Même, limite, décris l’interface pour un journaliste. Je suis dans une rédaction. Je souhaite couvrir rapidement un enjeu, par exemple, qui est lié au climat, à l’impact. Je sais qu’il y a eu, par exemple, des inondations près de chez moi ou qu’il y a une montée des eaux qui est en train d’arriver. En quoi l’outil, Spinoza, peut m’aider ?
Vincent Berthier
Alors, je vais vous décrire l’interface sous réserve parce qu’elle est justement en train de changer. On fait des ateliers pour l’améliorer. Concrètement, c’est très simple. On arrive sur la page, on sélectionne les bases de données qu’on souhaite interroger. Rapport du GIEC, texte juridique, stratégie nationale bas carbone, rapport de la le même article de presse. On peut tout interroger ensemble. On a un espace principal dans lequel on tape notre questionEn langage naturel, j’imagine.en langage naturel qui va requêter l’ensemble de ces bases de données. L’algorithme va reformuler légèrement la question pour qu’elle soit adaptée à chacune de ces bases de données, parce que typiquement, un rapport du GIEC, ça ne s’interroge pas comme des textes juridiques. Chaque base de données va être accessible via un onglet où on va avoir l’ensemble des réponses possibles à la question qu’on a fournie, qui vont toutes être sourcées et renvoyées directement à la source.
Philippe Couve
Quand on retrouve la page du rapport concernée…
Vincent Berthier
Quand vous retrouvez la page du rapport, quand vous cliquez sur le lien, ça nous renvoie sur la page du rapport directement.
Julien Le Bot
Question bête: est-ce que ça peut parfois halluciner, puisqu’on sait que l’un des problèmes des IA génératives, y compris quand il y a eu des partenariats entre par exemple OpenAI et des grands éditeurs média américains ou européens. On sait que parfois, comme OpenAI et ChatGPT n’aiment pas ne pas avoir la réponse, elles inventent des URL qui n’existent pas. Est-ce que c’est le cas avec Spinoza ?
Vincent Berthier
Avec Spinoza, on a été très clair au début sur le fait qu’il était nécessaire que l’outil dise: Je ne sais pas quand il ne trouve pas d’informations. Et c’est ce qu’il fait. On va parler un peu de technique. Concrètement, on a un moteur vectoriel qui lui envoie des extraits d’informations qui sont sélectionnés. Et donc, en fait, ce n’est pas un chatbot et il traite principalement des extraits. Ça réduit considérablement le risque d’hallucination. Moi, à l’heure actuelle, je n’ai pas vu à titre personnel d’hallucination du de l’outil, ni aucun testeur. On peut voir des approximations et on a fait des ateliers, justement pour améliorer le prompt, pour améliorer aussi la manière dont les contenus sont restitués, pour améliorer tout ça. Je vais vous donner un exemple très simple. J’ai eu beaucoup de mal à lui faire admettre que l’hydrogène, l’électricité qui fonctionne à l’hydrogène, en Auvergne-Rhône-Alpes, pour ceux qui veulent savoir, ce n’est pas de l’hydroélectricité. Donc, on est sur ce niveau d’erreur. Donc, On n’est pas sur des erreurs tragiques ou stratégiques. On est juste sur un outil qui a du mal à comprendre certaines choses. C’est du GPT 3.5, c’est normal. Ce sont des technologies qui, à mon sens et au sens de RSF, doivent être considérées comme expérimentales.
Vincent Berthier
C’est un outil qui, aujourd’hui, il est testé par plus d’une douzaine de personnes.
Julien Le Bot
Est-ce que ce sont des médias nationaux, des médias régionaux ? Et quels types de requêtes sont-ils appelés à faire, justement, sur l’outil ?
Vincent Berthier
On a principalement de la presse régionale. On a deux types de presse qui sont Libération et l’Équipe. Et en presse régionale, on a des groupes comme Sogemedia, comme le groupe Ebra, donc beaucoup, beaucoup de titres qui sont présents. Et les requêtes, elles sont très simples parce qu’on a deux types de testeurs. On va avoir les journalistes qui des gens spécialisés numériques qui eux, vont s’amuser à tester l’outil pour ce qu’il est, donc son interface.Tester.
Philippe Couve
La techno, en quelque sorte.Exactement..
Vincent Berthier
Et de l’autre côté, on a des journalistes Climat, spécialisés environnement, qui eux n’ont pas le temps et pas n’avoir nécessairement ce bagage numérique et qui eux, vont le tester vraiment sur le fond. Donc, les questions qu’ils vont poser, c’est les questions qu’ils se posent eux. Et c’est ça qui est assez fascinant à voir. C’est-à-dire que…
Julien Le Bot
Si on fait un scénario d’utilisation, est-ce que ça veut dire qu’avant de partir en reportage ou d’avant d’interviewer quelqu’un, je prépare mes questions en allant, via Spinoza, essayer de tester mes hypothèses ? Ou est-ce que c’est a posteriori que j’utilise l’outil pour vérifier les chiffres qu’on m’a affirmés ou parce que, par exemple, la mairie, la région, que sais-je, un acteur local a communiqué sur une nouvelle initiative et qui va dire: Maintenant, j’ai baissé mes émissions. Comment ça s’intègre dans le travail quotidien d’un journaliste ?
Vincent Berthier
Moi, j’ai vu deux cas. Le premier, c’est en effet, je vais préparer mon sujet et je vais aller chercher des sources. Souvent, c’est des sources qui le connaissent quand c’est des journées de ce climat. Ils ont en mémoire quelque chose, mais ils veulent retrouver la page précise. Ils s’en servent et du coup, ils gagnent des heures de travail. Ou Alors en effet, et ça, c’est un besoin qui avait été aussi relevé en amont, sur le fait qu’il y a une communication qui est faite par un acteur local, une mairie, une entreprise qui dit: Je me suis mis à niveau sur tel ou tel sujet, qui fait une communication sous l’angle: Nous sommes un acteur vertueux. Et il y a ce besoin de vérifier rapidement siEst-ce que c’est du greenwashing ou pas ?Exactement. C’est pour ça qu’il y a cette base de données de textes juridiques.Est-ce.
Julien Le Bot
Que les retours sont bons ? C’est-à-dire, est-ce que, par exemple, ça a déjà permis de gagner du temps dans l’identification de stratégie d’éco-blanchiment, par exemple, par des acteurs locaux ?
Vincent Berthier
Ça, pour l’instant, je crois que malheureusement, on a lancé les phases de test en mai. Il y a eu une période un peu compliquée qui s’en est suivie. Et donc, malheureusement, je pense que l’évaluation du greenwashing, il va falloir attendre un petit peu que la phase législative passe.
Julien Le Bot
Non, il peut y avoir des questions sur la politique ou en tout cas les affirmations des différents partis politiques, l’offre politique, est-ce qu’elle est à la hauteur de l’urgence climatique ? On peut tout à fait imaginer que l’outil puisse servir par rapport à ça. Est-ce qu’il y a des techniques pour prompter de manière particulière ? C’est-à-dire que pour que que l’outil soit précis, est-ce que vous avez travaillé avec les journalistes sur le fait de les former pour bien utiliser Spinoza ?
Vincent Berthier
Le problème, c’est qu’on est tous en train de découvrir collectivement comment on prompte de manière journalistique un outil. Donc non, on n’a pas fait de formation aux prompts parce que nous-mêmes, c’est une science qu’on n’a pas. C’est ça qui est passionnant, que je trouve hyper intéressant avec ce projet, c’est qu’il y a intelligence artificielle et intelligence collective. On est tous réunis pour essayer de développer une manière proprement journalistique d’appréhender l’intelligence artificielle.
Philippe Couve
Ça, ça m’intéresse. Comment vous travaillez justement là-dessus ? Comment les journalistes font leur feedback ? Vous avez une messagerie sur laquelle vous échangez, vous vous voyez en visio régulièrement, ils font des petites notes pour dire: J’ai testé ça, ça donne tel résultat, c’est pas satisfaisant. Comment vous fonctionnez, pratiquement ?
Vincent Berthier
Là, on est en train de mettre en place un espace de conversation pour structurer un peu plus cette communauté. Moi, qui ai un background d’un peu plus sociologie, c’est très simple, je fais des entretiens, je les vois tout le temps, je leur parle tout le temps. Je les vois une heure, deux heures si besoin, je prends leurs besoins. On fait des ateliers ensemble pour les faire travailler, leur faire mettre les mains dans le cambouis. Et c’est comme ça qu’au fur et à mesure, on voit se discerner cette philosophie commune du projet, notamment parmi les sujets de premier plan, c’est le fait que chacun est en effet intéressé pour savoir comment est-ce qu’on prompte quelque chose. Parce qu’ils ont tous remarqué que selon l’adjectif qu’on peut utiliser dans un prompt, ça va changer les résultats. Néanmoins, aucun des deux résultats ne sera pas…
Philippe Couve
Ça sera incomplet, ça ne sera pas faux, mais ça sera incomplet.
Vincent Berthier
Oui, c’est ça, mais les deux résultats seront intéressants néanmoins. Donc, c’est quand même quelque chose qui est un peu fascinant. Et l’autre sujet, c’est comment est-ce qu’on améliore collectivement les bases de données ? Parce que les journalistes ont une expertise, ils travaillent, ils ont identifié des sources, des rapports publics, des d’organismes régionaux qui sont des rapports parfois extrêmement denses, de plus de 600, 700 pages. Ils disent: Ça, ça y est pas. Donc, moi, je vais en avoir besoin et je pense que les autres vont en avoir besoin également. C’est comme ça qu’au fur et à mesure, on arrive à créer une espèce de sérandipité, contrôler le fait de chercher une information, de trouver une information en en cherchant une autre et qu’on développe quelque chose qui est à la fois des bases de données qualifiées et utiles pour tout le monde.
Philippe Couve
Comment vous décidez, justement, de rajouter des sources dans cet outil ? Parce qu’on va rajouter sur Auvergne-Rhône-Alpes. Et moi, ça m’intéresse pas parce que moi, je suis en Bretagne. Comment vous faites la part des choses ?
Vincent Berthier
C’est très simple. Là, on n’ajoute pas les sources au fil de l’eau. C’est-à-dire qu’on On a tout simplement un document partagé dans lequel chacun apporte ses références et ce document, il est ouvert à la conversation. Donc, déjà, nous, on va vérifier si le format est plus ou moins facile à intégrer. Et après, On va voir aussi si ce sont des sources qui font autorité. Mais généralement, c’est des sources qui sont vérifiées par d’autres collègues à minima de la région. Ces sources sont généralement extrêmement complémentaires avec les données de la presse qui figurent dans l’outil.
Philippe Couve
Quelles sont, justement, les données de la presse qui figurent dans l’outil ? Parce que ça, on n’en a pas encore parlé. On a parlé des données issues de rapports, dont le rapport du GIEC et d’autres institutions, mais vous avez mis aussi toute une série de contenus qui émanent des titres de la presse qui participent à l’opération.
Vincent Berthier
C’est bien ça ? Exactement. On a une base de données composée de 12 000 articles de presse. Tous les éditeurs qui participent à l’expérience consentent à les mettre à disposition. Je précise quelque chose qu’on n’a pas dit: l’algorithme de langage qu’on utilise n’a pas été finetuné, il n’a pas été réentraîné sur ces contenus. Donc, pour une raison extrêmement simple. Enfin, deux raisons. La première, c’est qu’honnêtement, on n’en a pas besoin en termes de qualité de résultat.
Philippe Couve
Il va falloir qu’on explique un petit peu techniquement, parce qu’on est sur un point un peu technique. Donc, grosso modo, il y a un moteur, un modèle de langage qui est celui de OpenAI, ChatGPT version 3.5. Donc ça, c’est, on va dire, le gros moteur d’IA derrière.
Julien Le Bot
Et surtout, il a déjà son propre entraînement. C’est la première couche d’entraînement maîtrisée et livrée par l’entreprise qui est derrière OpenAI.
Philippe Couve
Ensuite, vous lui demandez de travailler sur un corpus qu’on est en train d’évoquer, mais il ne s’entraîne pas, c’est-à-dire, il n’intègre pas ces données dans son fonctionnement, mais il se contente d’aller les interroger pour délivrer la réponse nécessaire pour…
Vincent Berthier
C’est exactement ça, parce que oui, en effet, il faut bien distinguer le fait de travailler des exemples qu’on lui donne et le fait de ce qu’on appelle le réentraîner, le finitionner, de lui faire ingérer d’autres données afin qu’il apprenne à parler comme elle.
Philippe Couve
Parce qu’à ce moment-là, on ne sait plus ce que deviennent les données. Elles partent chez OpenAI et après, on ne sait pas ce qui se passe, etc.
Vincent Berthier
On ne sait pas ce qu’elles deviennent et surtout, pour nous, il était extrêmement important que chaque éditeur ait un droit de retrait. Et une fois que vous avez appris un algorithme à mimer le style d’un article, il y a des techniques pour le lui faire oublier, mais c’est extrêmement long, extrêmement coûteux.
Julien Le Bot
J’ai quand même une question parce qu’on a l’impression que l’outil est assez magique et tu sembles dire qu’en gros, ça fonctionne bien. On sait qu’au-delà des hallucinations, il y a parfois des problèmes de biais, puisque justement, il y a cette espèce de brique initiale qui est celle de ChatGPT, qui donc vient aussi des États-Unis et qui peut-être a été entraînée sur des corpus, parfois, qui vient du monde anglo-saxon. Est-ce qu’il n’y a pas des risques de biais par exemple, plutôt techno-solutionnistes ? Comment est-ce qu’on fait pour essayer d’avoir un certain nombre de garanties sur les limites en termes de biais ? Je ne sais pas s’il est possible d’avoir un jour un moteur, une IA générative parfaitement objective. C’est sans doute d’ailleurs illusoire, mais comment on fait pour se prémunir contre les risques de biais ?
Vincent Berthier
Les risques de biais, on les a gérés de la même manière que les risques d’hallucination. C’est-à-dire que ce n’est pas un outil qui produit des articles de presse. C’est un outil qui va requêter de l’information, qui cite, dans la plupart de ses contenus, les sources qu’il a. Donc, il y a beaucoup de citations, entre guillemets, et qui dit: J’ai trouvé ça, ça, ça et ça. En fait, on limite au maximum, si j’ose dire, sa liberté d’expression. On lui demande pas à son avis, on lui demande vraiment de restituer les choses sous les boules de poing.
Philippe Couve
C’est un assistant de recherche.
Vincent Berthier
Exactement, de manière factuelle. Et si on peut élargir sur la question des biais, c’est une question que je trouve hyper intéressante. La question des biais, pour l’instant, on se la pose en termes de quel biais on ne veut pas. Je pense qu’à la fois, en effet, on n’aura jamais d’intelligence artificielle qui ne soit pas biaisée. Et je pense même qu’on n’arriverait pas à comprendre intellectuellement globalement un résultat qui ne soit pas biaisé. C’est-à-dire qu’en fait, les biais, ce qu’on appelle les biais, qui est une connotation très négative, c’est les traces de l’ensemble de nos points de vue. Quand on a des biais qui ressortent sur ChatGPT, sur, par exemple, ce qui est une base de données d’entraînement en anglais qui est conséquente, ce qu’on voit là, finalement, c’est l’empreinte de pas d’une société. Généralement, c’est plutôt les dominants de la société qui sont représentés.C’est.
Philippe Couve
Eux qui écrivent l’histoire, en tout cas. Et C’est ces contenus écrits qui nourrissent la bête.
Vincent Berthier
Tout ce que je vois aujourd’hui, j’en parle beaucoup dans le cadre de mon travail et autres avec des éthiciens, des philosophes, c’est on voit des gens qui disent: Il faut se méfier des biais. Ils ont tout à fait raison. Le problème, c’est qu’à un moment, Je pense que, et là, je peux parler au-delà des médias, il va falloir qu’on se pose la question de savoir de quel biais on veut. Et ça, c’est une question qui va être beaucoup plus délicate à poser. Il va falloir trouver d’autres termes pour la poser. Nous, à RSF, on n’est pas pour les biais, mais on est pour un point de Le point de vue qu’on défend, c’est celui des médias d’information, parce qu’on pense qu’ils ont une manière de produire qui est bénéfique à la société. Et la question des biais, là, je vais revenir aux médias, elle est déjà traitée par les médias depuis un certain temps. On appelle ça le pluralisme.
Philippe Couve
C’est ce que j’allais dire. Normalement, journalistiquement, on est habitué à traiter les biais, puisque quand on va interroger quelqu’un, le plus facile, c’est de l’envisager dans le spectre politique, mais on sait que la personne a une identité politique, donc parle d’un endroit précis avec une idéologie particulière, donc à un biais. Pareil, quand on va interroger des gens dans le cadre d’un reportage, on imagine, parfois on est surpris, mais on imagine un certain nombre de biais qu’ont les gens en fonction de leur histoire, de leur expérience, de leur situation sociale, de leur provenance en termes de pays, etc. Donc normalement, les journalistes sont habitués à traiter les biais. La seule chose, je trouve, c’est de savoir et de pouvoir identifier qu’il existe un biais dans l’outil. Parce qu’autant on est habitué à les décrypter chez les individus, autant dans l’outil, c’est plus difficile de les saisir.
Julien Le Bot
Et c’est pour ça, sans doute, qu’il faut bien comprendre l’outil avant de le manipuler. Je pense qu’il y a un deuxième niveau, c’est que Spinoza, à mon avis, est puissant à partir du moment où tu as été suffisamment formé pour comprendre que, par exemple, sur la question climatique, il existe des lectures ou des façons de répondre à l’enjeu auquel on est exposé. Et donc, l’outil devient puissant à partir du moment où il a été suffisamment entraîné à partir des données qualifiées et qu’on maîtrise le risque d’affabulation, mais que le journaliste lui-même sait comprendre quand on lui propose une solution, quand on fait monter les données, comment l’interpréter et l’intégrer à sa couverture de la cuve locale. Qu’est-ce que tu en penses ?
Philippe Couve
C’est ce qui amène justement à une question, c’est si on ne connaît rien, pas grand-chose, En fait, si on ne connaît rien aux questions du climat, est-ce qu’on peut utiliser cet outil ? C’est-à-dire, est-ce qu’on aura le recul suffisant pour évaluer les réponses ?
Vincent Berthier
Ça, c’est une question qui est limite de l’ordre des rédactions en chef. C’est-à-dire, si je ne connais rien aux questions du Climat, moi, techniquement, je ne suis pas un spécialiste. J’arrive à m’en servir parce qu’après, je vais vérifier. Et parce que moi, je teste l’outil, je suis chef de projet, je le teste. Si on ne connaît rien aux questions du climat, en effet, la question elle-même: Pourquoi est-ce que tu te servirais de cet outil ? C’est un outil qui est vraiment fait pour les spécialistes. Ce n’est pas un outil qui est grand public.
Julien Le Bot
Ce n’est pas un outil d’autoformation, alors, ce que j’entends ?
Vincent Berthier
Non. C’est un outil où en fait, le projet en lui-même, c’est un projet de recherche d’acculturation. L’outil qu’on développe, c’est un outil qui sert à requêter ces requêtes-là, ces bases de données, si, et qui donc permet à des professionnels, donc des gens qui savent déjà faire leur métier, d’aller puis de gagner du temps.
Julien Le Bot
Donc, c’est un outil qui fait gagner en productivité dans une logique d’amélioration de la couverture journalistique sur l’angle climat. Exactement. Est-ce qu’aujourd’hui, puisque là, on en fait une sorte d’apologie d’un outil qui semble miraculeux, voire très, très utile, ceux qui nous écoutent, s’ils veulent le tester, le découvrir, est-ce qu’on peut contacter RSF ? Est-ce que vous mettez à disposition des versions beta ?
Philippe Couve
Est-ce qu’il y a une adresse en ligne où on peut le tester ? Comment ça se passe ?
Vincent Berthier
Pour l’instant, on est en phase de test fermée. On le fait uniquement avec les médias membres de l’Alliance. C’est aussi justice dans la mesure où c’est eux qui s’engagent et qui mettent leurs données à contribution.
Philippe Couve
On est dans un stade encore très… Complètement. Early stage, précoce, on va dire, du développement du projet. Tout à fait.
Vincent Berthier
Comme je vous disais, l’interface est amené à évoluer. Les bases de données vont être agrémentées de nouvelles sources. Il y a encore beaucoup de choses à faire et pour l’instant, on le fait entre nous. Ça nous permet aussi de suivre de l’intérieur l’évolution du projet. Après, nous, on communique souvent sur le projet. On a publié une vidéo parce qu’on sait qu’il y avait une demande, une vidéo qui est un peu une forme de démonstration stylisée de l’outil, qui est accessible sur le site de Reporters Sans Frontières. On a une FAQ qui permet de répondre à plus de questions techniques. Et après, à terme, la question de l’ouverture de de l’outil par l’agrandissement du nombre de partenaires va se poser, en effet. Et après, je dis ça parce que c’est comme ça, c’est le protocole avec lequel on contrôle l’accès à l’outil. Évidemment, vous pouvez me contacter pour qu’on discute de l’outil, il n’y a pas de problème. On est très, très content de pouvoir rencontrer des gens aussi avec cet outil.
Philippe Couve
Donc, les gens te contactent quoi ?
Vincent Berthier
Par LinkedIn.
Philippe Couve
Donc, Vincent Berthier sur LinkedIn.
Vincent Berthier
Exactement.
Julien Le Bot
Une question toute simple, mais qui est importante aussi puisqu’on parle d’IA générative, on parle de climat. Est-ce qu’il y a une réflexion sur la frugalité de l’outil, ce qui l’implique aussi, c’est-à-dire que je sais qu’on a toujours des tableaux à avoir: Coup, bénéfices, risques. Quel est l’état de la réflexion aussi ? C’est-à-dire est-ce que le gain de productivité ou ce qu’on en tire comme profit journalistique et comme valeur d’usage pour le lecteur, est-ce que vraiment, ça mérite cette dépense énergétique ?
Vincent Berthier
Alors oui, la dépense énergétique a fait partie des critères lors du benchmark des algorithmes. Le fait de sélectionner ou pas différentes bases de données fait partie aussi de cette idée de: On ne va pas lancer de la consommation si je sais que je n’ai pas besoin d’interroger les données de la presse ou les rapports de l’Ademe, par exemple. Quand on développe des outils, par exemple, là, on a retravaillé récemment sur le prompt, c’est-à-dire les instructions adressées de base aux données de la presse. On avait développé un outil annexe particulier pour les testeurs, pour qu’ils expérimentent eux-mêmes leurs instructions. Cet outil était assez énergivore. Il était ouvert que sur les heures de travail. Donc, en effet, ça fait partie des méthodes qu’on emploie. On n’est pas là pour faire quelque chose qui tourne. En fait, on n’est pas là pour faire du greenwashing de l’IA. On est là, ce n’est pas trop la philosophie du projet.
Philippe Couve
Est-ce qu’il est envisageable, ou est-ce que c’est trop tôt pour le dire, de développer le même type d’outils sur d’autres questions que le climat ? J’imagine, par exemple, l’économie où on est souvent en recherche de références, etc, de données, peut-être sur le sport aussi, avec des endroits où il y a beaucoup de données, où ça peut être intéressant de retrouver des chiffres, des sources, etc.
Julien Le Bot
Avoir une IA sur les IA ? Pourquoi pas ?
Vincent Berthier
Oui, c’est tout à fait le genre de choses qui est envisageable. À l’heure actuelle, nous, on n’a rien tranché sur la question, mais en soi, nous, développer ce logiciel, c’est les bases de données et les instructions qui font sa spécialité sur le sujet. Donc, en soi, il n’est pas du tout inimaginable de dire: On reprend la structure, on branche d’autres bases de données et on développe un nouvel outil et on continue l’expérimentation comme ça. Il y a en effet un certain nombre de sujets qui sont passionnants. Il y a l’économie, Les élections européennes auraient pu faire un excellent sujet également, parce que surtout, ces sujets extrêmement techniques où il y a beaucoup de documentations qui sont complexes à explorer, c’est vraiment le genre de solution qui a beaucoup de potentiel.
Julien Le Bot
Et chez RSF, vous imaginez quel type d’étapes ensuite ? C’est-à-dire que c’est un projet pilote qui a vocation à inspirer des méthodologies pour que chaque rédaction développe ses propres IA génératives spécialisées ? Ou est-ce que c’est RSF qui développe un nouveau modèle économique ou une nouvelle façon d’agir sur l’écosystème d’information en mettant en place soi-même et en devenant fournisseur de solutions à la fois d’entraînement et de mise à disposition de technologies, d’IA génératives qualifiées pour le journalisme ?
Vincent Berthier
L’idée fondatrice du projet, elle est de dire aux médias: On se réunit, on travaille ensemble. C’est ça Pour moi, la postérité la plus intéressante et la plus imminente du projet qu’on devrait chercher, c’est de développer cet esprit de communauté, en France d’abord, mais après, au-delà. Il serait intéressant d’élargir à minima à l’échelle européenne pour dire aux médias travailler ensemble. Pour nous, c’est ça qui compte.
Philippe Couve
On a vu que ce n’était pas forcément facile lors des rencontres de l’IA éditoriale qui ont eu lieu il y a quelques jours où une partie des débats s’est concentrée sur le fait de signer ou pas des accords avec ces géants de l’intelligence artificielle comme Open AI. On a vu que les médias pouvaient partir en ordre dispersé avec Le Monde, par exemple, qui a signé un accord alors que d’autres voulaient y aller collectivement, voire sont en train de chercher à assigner devant la justice une partie de ces intelligences artificielles pour avoir pillé sans accord une partie des contenus dans leur phase d’entraînement initial. Donc ça ne s’annonce pas simple. On n’a pas parlé d’argent. Combien ça coûte, ce projet ? Et les médias qui y participent, est-ce qu’ils doivent acheter un ticket pour avoir un siège autour de la table ? Comment ça marche ?
Vincent Berthier
Le coût, pour l’instant, on le communique pas parce qu’on est encore en train de faire les choses. C’est financé par le ministère de la Culture.
Philippe Couve
Il y a eu une subvention au départ ?
Vincent Berthier
Une subvention publique. Donc, de toute manière, tout sera rendu public à la fin de l’expérimentation. Les médias n’ont pas à payer. La seule chose qu’on demande aux médias, c’est de donner ce corpus d’articles.
Philippe Couve
La contrepartie, en tout cas, c’est de- C’est ça.
Vincent Berthier
De prêter momentanément le temps de l’expérience ce corpus d’articles, de nous donner le droit de l’exploiter et de participer. C’est ça qu’on leur demande. C’est déjà beaucoup parce qu’on parlait de presse régionale. C’est parfois des petites rédactions, donc parfois, ça leur prend du temps.
Philippe Couve
On a parlé de Sogemedia, c’est beaucoup de titres de la presse hebdomadaire régionale ou départementale, enfin, locale. Ok.
Vincent Berthier
Sur la question des partenariats, j’aimerais bien revenir dessus. Nous, à RSF, on était très clair, on appelle aux négociations collectives. On appelle Open AI, en l’occurrence, c’était à la fois le New York Times, qu’on avait réagi, à déclencher une négociation collective. En effet, là, ce qu’on voit, c’est que pour l’instant, les géants de l’IA font des mouvements d’affaires publiques assez avisés, qui est de signer avec les gros médias qui sont des médias prestigieux. Je vois le monde, c’était évident qu’ils allaient être visés.
Philippe Couve
C’est Le Monde, le New York Times, le Financial Times.
Vincent Berthier
C’est les médias de référence.
Julien Le Bot
Et surtout, ils ont des données de référence. En plus, pour eux, c’est mettre la main sur des archives, des données d’entraînement qui sont très qualitatives. Exactement.
Vincent Berthier
Et le patron du monde avait donné une interview dans Le Temps, un magazine suisse où le journaliste lui posait à la fin la question de pourquoi on n’arrive pas à rejoindre le projet Spinoza. Je veux pas déformer ces propos, mais il me semblait qu’en substance, il répondait: Chacun son métier. Nous, on fait du journalisme, on ne fait pas de informatique. Je trouve que c’est extrêmement intéressant parce que, comme vous vous en doutez, je ne suis pas d’accord, parce qu’aujourd’hui, de facto, tous les médias, et sur tout le monde, sont des machines qui font tourner un site web, qui produisent une machine.
Philippe Couve
Ils ont une équipe de développeurs particulièrement efficace. Exactement. Si je ne m’abuse, ils ont développé des solutions technologiques qui commercialisent.
Vincent Berthier
Donc, voilà. Et même, au-delà de ça, tout cet enjeu sur les données de la presse pour les systèmes d’intelligence artificiel, font justement la démonstration qu’aujourd’hui, un article de presse, c’est de facto un objet informatique. Et je pense que… Il émette de ses propos, il n’y a pas de problème. Mais je pense que justement, les médias auraient tout intérêt à sortir de cette mentalité de: Nous, on ne fait pas d’informatique. Et si vous faites de l’informatique. Aujourd’hui, les données que produisent les médias, c’est le top du pétrole de la donnée pour les modèles de langage. Donc c’est extrêmement important de valoriser ça parce que je crois que l’accord avec le monde et OpenAI, c’est non seulement l’accès aux articles du monde, mais aux archives.
Philippe Couve
On n’a pas le détail. Il n’a pas été rendu public, cet accord. Il est confidentiel, donc il y a quelques bribes qui ont été partagées.
Vincent Berthier
Moi, j’aimerais savoir ce qu’il y a, parce que si c’est l’ensemble des archives, les archives du monde, c’est inestimable. Ça vaut très cher. C’est inestimable. Il y a aussi une question de compétences d’open AI, parce que les archives d’un média, comment ça se traite ? Ça se traite comme de la news, ça se traite comme des témoignages. C’est des sujets qui sont hyper complexes. Et le problème des fabricants d’IA, et je ne veux pas les accabler, moi, j’aime beaucoup la tech en général.
Julien Le Bot
On peut les accabler, ils ont aussi fait des bêtises.
Vincent Berthier
Ils ont fait des bêtises, mais je veux dire, c’est que généralement, c’est des gens qui ont juste un marteau comme outil et tous leurs problèmes ressemblent à des clous. Moi, j’ai très, très peur que derrière ces mouvements d’affaires publiques, ils fassent de nouveau n’importe quoi et qu’ils massacrent un petit peu l’économie de l’information.
Julien Le Bot
Et c’est la raison pour laquelle tu penses qu’il faut que, collectivement, les rédactions, les médias s’organisent pour réussir à comprendre comment ces outils fonctionnent, quel est le capital réel que représente l’ensemble de leurs archives et comment on peut se positionner dans cette économie numérique et d’accès à l’information qui est avant tout maintenant une question d’Internet.
Vincent Berthier
Exactement. En fait, il est temps de comprendre que moi, je comprends tout à fait que le milieu de l’information, c’est un marché. Donc, travailler avec ses concurrents, c’est parfois compliqué. Mais OK, c’est un village gaulois pas, mais autour, il y a des Romains, ils sont vraiment méchants. Donc, il va falloir à un moment s’organiser.
Philippe Couve
L’organisation à quelle échelle ? À l’échelle française ou est-ce qu’il faut voir plus largement ? On parle de modèles de langage, donc est-ce que c’est à une échelle francophone ? Est-ce que c’est à une échelle européenne ? Est-ce que c’est à une échelle plus vaste encore ?
Vincent Berthier
Aujourd’hui, nous, on le pense et d’autres experts le défendent, la gouvernance d’intelligence artificielle, elle doit être internationale. Si on prend l’exemple du projet Spinoza, on sait que j’ai eu beaucoup d’intérêt de la part de journalistes issus de pays francophones d’Afrique, parce qu’en effet, il y a cet enjeu aussi de diversité, de protection des langues et les médias ont ce rôle-là. Donc, solidarité entre les médias, travailler ensemble. Aujourd’hui, on voit bien ce que les grandes entreprises du numérique font à l’information. Regardez ce qu’Elon Musk a fait aux journalistes sur Twitter. Regardez ce que Meta fait aux médias d’information au Canada. Ce n’est pas nos amis. On peut travailler avec ces industries-là.En.
Philippe Couve
Maintenant un rapport de force.
Vincent Berthier
Un rapport de force, malheureusement, elles ont quand même des effets de levier qui sont considérables.Et.
Philippe Couve
Des fonds qui sont aussi considérables.
Vincent Berthier
Quand votre budget, c’est un PIB, c’est quand même très compliqué de négocier avec vous. C’est pour ça qu’on en appelle aux États démocratiques, à la régulation, à l’État de droit.
Julien Le Bot
Merci Vincent Berthier. Vous êtes donc responsable du Desk, technologie et chef de projet, enfin du projet, Spinoza, que vous menez. On a compris qu’on peut vous contacter via LinkedIn ou en contactant directement RSF. Et puis, par ailleurs, comme vous êtes doctorant en sciences de l’info et de la communication sur les liens en tria et journalisme, je pense qu’on aura peut-être même l’occasion de vous entendre encore une fois, soit ici, soit dans d’autres actions que l’on mène chez Samsa.
Philippe Couve
Et c’était Les médias se mettent à jour, podcast sporadique, plein de bonnes ondes sur les transitions éditoriales. Si vous avez des retours, faites-les nous sur cet épisode. Et puis, si vous avez des questions en particulier ou des sujets ou des invités que vous aimeriez entendre, écrivez-nous à l’adresse suivante: [email protected]
Julien Le Bot
Les médias se mettent à jour, c’est un podcast produit par Samsa.fr Et aux manettes pour ce quatrième épisode et le dernier de la saison, Sylvain Pinot.