Samsa.fr

Formation au datajournalisme: comment j’ai dressé un robot à collecter des données

Qu’il fascine ou effraie, le datajournalisme désigne des pratiques souvent mal connues des journalistes “traditionnels”. Pour se faire une idée précise de la question, Sophie Chauvet, journaliste et chercheuse (dans le cadre du projet européen JOLT) chez Samsa.fr a suivi une formation au data scraping, l’une des techniques employées par les datajournalistes.

Récemment, j’ai participé à une formation pour apprendre à me servir de techniques de data scraping, avec Pierre Romera. Formateur régulier pour Samsa.fr, Pierre est un pionnier du datajournalisme en France. Il est notamment Chief Technology Officer pour l’International Consortium of Investigative Journalism (ICIJ), l’organisation qui a mis au jour les Panama Papers. Un magicien des chiffres, et des lettres donc. Mais surtout du code. En compagnie de deux journalistes aguerris, et durant deux journées entières, j’ai donc pu me glisser dans la peau d’un développeur (ou du moins de l’idée que je m’en fais), et acquérir les bases de cette technique.

Le data scraping, qu’est-ce que c’est ?

Economiser du temps et collecter un plus grand nombre de données grâce à des connaissances basiques du langage Python, c’est cela la promesse du data scraping. Cette technique informatique sert notamment à collecter, ordonner et traduire des données précises qui sont accessibles au public mais fastidieuses à collecter, classifier et analyser.

Au départ, on m’avait dit que le data scraping était fait pour faciliter la vie des journalistes d’investigation à la recherche du prochain scoop, des stalkers en herbe, ou simplement pour ceux qui ont mal aux yeux à force d’éplucher des masses de données désorganisées sur la Toile. En tant que doctorante (allergique aux fichiers Excel) en recherche de données pertinentes, je coche un peu toutes les cases.

Avec la programmation d’un simple robot, ou “scraper”, des bases de données peuvent donc rapidement être constituées et analysées. La pratique sert tant dans le cadre de recherches universitaires que d’enquêtes journalistiques, puisqu’un “scraper” permet d’extraire une information structurée à partir de PDF, de masses de données, d’images ou de pages web plus ou moins ordonnées. Mais attention, tous les sites ne sont pas “scrapable”: eBay et Craigslist oui, Facebook (normalement) non.  

Une technique de développeur

Si de nombreux logiciels proposent d’effectuer du data scraping, la meilleure technique pour les utilisateurs reste le langage Python. Il exige quelques bases de code, mais délivre des résultats plus intéressants. Bon, avec mon expérience de code consistant en un bootcamp de deux jours il y a deux ans, sur CSS et HTML, c’est vrai que cette expérience n’a pas été des plus intuitives. Mais comme toute langue, cela nécessite une pratique régulière.

Au premier abord, le data scraping peut paraître obscur. Mais en deux jours, les participants à la formation et moi-même avons appris comment concaténer du texte, créer des conditions, des fonctions, des listes et des boucles, et bien plus, tout ça sur Python. Maintenant que toutes ces données peuvent être cueillies et ordonnées, il ne reste plus qu’à leur poser les bonnes questions, tirer les bonnes conclusions, et écrire de beaux articles.

Construire une base de données pour une enquête / CTA

Data scraping: piloter son ordinateur pour collecter des données à grande échelle sur le web

Les précédents articles du blog du programme de recherche européen JOLT

Sophie Chauvet

Doctorante

#

JOLT est une action Marie Sklodowska-Curie qui regroupe des acteurs de premier plan des médias et de la recherche. Durant 3 ans, l’expertise de 15 chercheurs universitaires et de professionnels européens sont mobilisés pour faire progresser les connaissances théoriques et les compétences techniques en lien avec l’exploitation des technologies numériques et des données pour le journalisme. 

En savoir plus 

Des questions ?

1 + 1 =

Quitter la version mobile