Qu’il fascine ou effraie, le datajournalisme désigne des pratiques souvent mal connues des journalistes “traditionnels”. Pour se faire une idée précise de la question, Sophie Chauvet, journaliste et chercheuse (dans le cadre du projet européen JOLT) chez Samsa.fr a suivi une formation au data scraping, l’une des techniques employées par les datajournalistes.
Récemment, j’ai participé à une formation pour apprendre à me servir de techniques de data scraping, avec Pierre Romera. Formateur régulier pour Samsa.fr, Pierre est un pionnier du datajournalisme en France. Il est notamment Chief Technology Officer pour l’International Consortium of Investigative Journalism (ICIJ), l’organisation qui a mis au jour les Panama Papers. Un magicien des chiffres, et des lettres donc. Mais surtout du code. En compagnie de deux journalistes aguerris, et durant deux journées entières, j’ai donc pu me glisser dans la peau d’un développeur (ou du moins de l’idée que je m’en fais), et acquérir les bases de cette technique.
Le data scraping, qu’est-ce que c’est ?
Economiser du temps et collecter un plus grand nombre de données grâce à des connaissances basiques du langage Python, c’est cela la promesse du data scraping. Cette technique informatique sert notamment à collecter, ordonner et traduire des données précises qui sont accessibles au public mais fastidieuses à collecter, classifier et analyser.
Au départ, on m’avait dit que le data scraping était fait pour faciliter la vie des journalistes d’investigation à la recherche du prochain scoop, des stalkers en herbe, ou simplement pour ceux qui ont mal aux yeux à force d’éplucher des masses de données désorganisées sur la Toile. En tant que doctorante (allergique aux fichiers Excel) en recherche de données pertinentes, je coche un peu toutes les cases.
Avec la programmation d’un simple robot, ou “scraper”, des bases de données peuvent donc rapidement être constituées et analysées. La pratique sert tant dans le cadre de recherches universitaires que d’enquêtes journalistiques, puisqu’un “scraper” permet d’extraire une information structurée à partir de PDF, de masses de données, d’images ou de pages web plus ou moins ordonnées. Mais attention, tous les sites ne sont pas “scrapable”: eBay et Craigslist oui, Facebook (normalement) non.
Une technique de développeur
Si de nombreux logiciels proposent d’effectuer du data scraping, la meilleure technique pour les utilisateurs reste le langage Python. Il exige quelques bases de code, mais délivre des résultats plus intéressants. Bon, avec mon expérience de code consistant en un bootcamp de deux jours il y a deux ans, sur CSS et HTML, c’est vrai que cette expérience n’a pas été des plus intuitives. Mais comme toute langue, cela nécessite une pratique régulière.
Au premier abord, le data scraping peut paraître obscur. Mais en deux jours, les participants à la formation et moi-même avons appris comment concaténer du texte, créer des conditions, des fonctions, des listes et des boucles, et bien plus, tout ça sur Python. Maintenant que toutes ces données peuvent être cueillies et ordonnées, il ne reste plus qu’à leur poser les bonnes questions, tirer les bonnes conclusions, et écrire de beaux articles.
Construire une base de données pour une enquête / CTA
Data scraping: piloter son ordinateur pour collecter des données à grande échelle sur le web
Les précédents articles du blog du programme de recherche européen JOLT
Conférence JOLT à Paris: à la croisée des chemins de la recherche sur le journalisme et la technologie
Début février 2020 a marqué la troisième rencontre du consortium JOLT. Après Dublin et Pampelune, nous nous sommes retrouvés à Paris, et Samsa.fr a eu le plaisir d’accueillir tous les membres pour une semaine riche en discussions sur le thème “journalisme, technologie...
Intelligence artificielle (IA) dans les médias: beaucoup de fantasmes, quelques réalités et pas mal de questions
Qu’elle soit perçue comme un nouvel eldorado ou comme une malédiction, l’intelligence artificielle suscite beaucoup de fantasmes. De la médecine à la finance, son usage se développe dans de nombreuses sphères de la société et le journalisme ne fait pas exception à la...
WhatsApp et les “fake news” au Brésil: récit d’une manipulation cryptée
À l’occasion du colloque sur le journalisme et les plateformes organisé par le laboratoire LERASS à Toulouse en janvier 2019, Giuliander Carpes, ancien journaliste brésilien et confrère doctorant du programme JOLT, est intervenu pour raconter comment la désinformation...
Conférence JOLT à Dublin: le début d’une aventure intellectuelle mêlant universitaires et médias
La semaine dernière, tous les doctorants engagés dans le projet JOLT se sont rencontrés pour la première fois à Dublin City University, dans le cadre d’une conférence rassemblant doctorants, jeunes chercheurs, universitaires et journalistes. Pour le lancement de JOLT,...
CrossCheck vs. Disinformation: A Fact-Checking Recipe for Collaborative Success
In 2017, as a member of an alliance uniting 100+ journalists, I took part in the battle against “fake news” for CrossCheck during the French presidential campaign, as a journalist and a researcher. Our weapons? Fact-checking, collaboration, and reaching...
Samsa.fr recrute un·e doctorant·e pour analyser les indicateurs d’audience des médias numériques
[Edit du 25 mai 2018: la date-limite de dépôt des candidatures a été repoussée au 15 juin 2018] Samsa.fr est l’un des membres du programme de recherche européen JOLT. Ce programme regroupe des acteurs de premier plan des médias et de l’étude des médias. Il mobilise...
JOLT est une action Marie Sklodowska-Curie qui regroupe des acteurs de premier plan des médias et de la recherche. Durant 3 ans, l’expertise de 15 chercheurs universitaires et de professionnels européens sont mobilisés pour faire progresser les connaissances théoriques et les compétences techniques en lien avec l’exploitation des technologies numériques et des données pour le journalisme.