Qu’il fascine ou effraie, le datajournalisme désigne des pratiques souvent mal connues des journalistes “traditionnels”. Pour se faire une idée précise de la question, Sophie Chauvet, journaliste et chercheuse (dans le cadre du projet européen JOLT) chez Samsa.fr a suivi une formation au data scraping, l’une des techniques employées par les datajournalistes.

Récemment, j’ai participé à une formation pour apprendre à me servir de techniques de data scraping, avec Pierre Romera. Formateur régulier pour Samsa.fr, Pierre est un pionnier du datajournalisme en France. Il est notamment Chief Technology Officer pour l’International Consortium of Investigative Journalism (ICIJ), l’organisation qui a mis au jour les Panama Papers. Un magicien des chiffres, et des lettres donc. Mais surtout du code. En compagnie de deux journalistes aguerris, et durant deux journées entières, j’ai donc pu me glisser dans la peau d’un développeur (ou du moins de l’idée que je m’en fais), et acquérir les bases de cette technique.

Le data scraping, qu’est-ce que c’est ?

Economiser du temps et collecter un plus grand nombre de données grâce à des connaissances basiques du langage Python, c’est cela la promesse du data scraping. Cette technique informatique sert notamment à collecter, ordonner et traduire des données précises qui sont accessibles au public mais fastidieuses à collecter, classifier et analyser.

Au départ, on m’avait dit que le data scraping était fait pour faciliter la vie des journalistes d’investigation à la recherche du prochain scoop, des stalkers en herbe, ou simplement pour ceux qui ont mal aux yeux à force d’éplucher des masses de données désorganisées sur la Toile. En tant que doctorante (allergique aux fichiers Excel) en recherche de données pertinentes, je coche un peu toutes les cases.

Avec la programmation d’un simple robot, ou “scraper”, des bases de données peuvent donc rapidement être constituées et analysées. La pratique sert tant dans le cadre de recherches universitaires que d’enquêtes journalistiques, puisqu’un “scraper” permet d’extraire une information structurée à partir de PDF, de masses de données, d’images ou de pages web plus ou moins ordonnées. Mais attention, tous les sites ne sont pas “scrapable”: eBay et Craigslist oui, Facebook (normalement) non.

Une technique de développeur

Si de nombreux logiciels proposent d’effectuer du data scraping, la meilleure technique pour les utilisateurs reste le langage Python. Il exige quelques bases de code, mais délivre des résultats plus intéressants. Bon, avec mon expérience de code consistant en un bootcamp de deux jours il y a deux ans, sur CSS et HTML, c’est vrai que cette expérience n’a pas été des plus intuitives. Mais comme toute langue, cela nécessite une pratique régulière.

Au premier abord, le data scraping peut paraître obscur. Mais en deux jours, les participants à la formation et moi-même avons appris comment concaténer du texte, créer des conditions, des fonctions, des listes et des boucles, et bien plus, tout ça sur Python. Maintenant que toutes ces données peuvent être cueillies et ordonnées, il ne reste plus qu’à leur poser les bonnes questions, tirer les bonnes conclusions, et écrire de beaux articles.

Construire une base de données pour une enquête / CTA

Voir la formation

Data scraping: piloter son ordinateur pour collecter des données à grande échelle sur le web

Voir la formation

Les précédents articles du blog du programme de recherche européen JOLT

Conférence JOLT à Paris: à la croisée des chemins de la recherche sur le journalisme et la technologie

Mis à jour le 24/02/2020 | Publié le 25/02/2020

Début février 2020 a marqué la troisième rencontre du consortium JOLT. Après Dublin et Pampelune, nous nous sommes retrouvés à Paris, et Samsa.fr a eu le plaisir d’accueillir tous les membres pour une semaine riche en discussions sur le thème “journalisme, technologie...

lire plus

Intelligence artificielle (IA) dans les médias: beaucoup de fantasmes, quelques réalités et pas mal de questions

Mis à jour le 03/12/2019 | Publié le 02/12/2019

Qu’elle soit perçue comme un nouvel eldorado ou comme une malédiction, l’intelligence artificielle suscite beaucoup de fantasmes. De la médecine à la finance, son usage se développe dans de nombreuses sphères de la société et le journalisme ne fait pas exception à la...

lire plus

WhatsApp et les “fake news” au Brésil: récit d’une manipulation cryptée

Mis à jour le 19/03/2019 | Publié le 15/03/2019

À l’occasion du colloque sur le journalisme et les plateformes organisé par le laboratoire LERASS à Toulouse en janvier 2019, Giuliander Carpes, ancien journaliste brésilien et confrère doctorant du programme JOLT, est intervenu pour raconter comment la désinformation...

lire plus

Conférence JOLT à Dublin: le début d’une aventure intellectuelle mêlant universitaires et médias

Mis à jour le 15/03/2019 | Publié le 12/02/2019

La semaine dernière, tous les doctorants engagés dans le projet JOLT se sont rencontrés pour la première fois à Dublin City University, dans le cadre d’une conférence rassemblant doctorants, jeunes chercheurs, universitaires et journalistes. Pour le lancement de JOLT,...

lire plus

CrossCheck vs. Disinformation: A Fact-Checking Recipe for Collaborative Success

Mis à jour le 15/03/2019 | Publié le 28/01/2019

In 2017, as a member of an alliance uniting 100+ journalists, I took part in the battle against “fake news” for CrossCheck during the French presidential campaign, as a journalist and a researcher. Our weapons? Fact-checking, collaboration, and reaching...

lire plus

Samsa.fr recrute un·e doctorant·e pour analyser les indicateurs d’audience des médias numériques

Mis à jour le 25/05/2018 | Publié le 30/04/2018

[Edit du 25 mai 2018: la date-limite de dépôt des candidatures a été repoussée au 15 juin 2018] Samsa.fr est l’un des membres du programme de recherche européen JOLT. Ce programme regroupe des acteurs de premier plan des médias et de l’étude des médias. Il mobilise...

lire plus

Sophie Chauvet

Doctorante

JOLT est une action Marie Sklodowska-Curie qui regroupe des acteurs de premier plan des médias et de la recherche. Durant 3 ans, l’expertise de 15 chercheurs universitaires et de professionnels européens sont mobilisés pour faire progresser les connaissances théoriques et les compétences techniques en lien avec l’exploitation des technologies numériques et des données pour le journalisme.

Formation au datajournalisme: comment j’ai dressé un robot à collecter des données

Construire une base de données pour une enquête / CTA

Data scraping: piloter son ordinateur pour collecter des données à grande échelle sur le web

Les précédents articles du blog du programme de recherche européen JOLT

Conférence JOLT à Paris: à la croisée des chemins de la recherche sur le journalisme et la technologie

Intelligence artificielle (IA) dans les médias: beaucoup de fantasmes, quelques réalités et pas mal de questions

WhatsApp et les “fake news” au Brésil: récit d’une manipulation cryptée

Conférence JOLT à Dublin: le début d’une aventure intellectuelle mêlant universitaires et médias

CrossCheck vs. Disinformation: A Fact-Checking Recipe for Collaborative Success

Samsa.fr recrute un·e doctorant·e pour analyser les indicateurs d’audience des médias numériques

Sophie Chauvet

Des questions ?

Articles similaires

Poster le commentaire Annuler la réponse

Formation au datajournalisme: comment j’ai dressé un robot à collecter des données

Construire une base de données pour une enquête / CTA

Data scraping: piloter son ordinateur pour collecter des données à grande échelle sur le web

Les précédents articles du blog du programme de recherche européen JOLT

Conférence JOLT à Paris: à la croisée des chemins de la recherche sur le journalisme et la technologie

Intelligence artificielle (IA) dans les médias: beaucoup de fantasmes, quelques réalités et pas mal de questions

WhatsApp et les “fake news” au Brésil: récit d’une manipulation cryptée

Conférence JOLT à Dublin: le début d’une aventure intellectuelle mêlant universitaires et médias

CrossCheck vs. Disinformation: A Fact-Checking Recipe for Collaborative Success

Samsa.fr recrute un·e doctorant·e pour analyser les indicateurs d’audience des médias numériques

Sophie Chauvet

Des questions ?

Partager:

Articles similaires

Poster le commentaire Annuler la réponse