` `
Sélectionner une page

Nos formations innovantes

Quand un métier bouge, la formation doit évoluer
 

Data scraping: collecter des données à grande échelle sur le web

Les secrets du data scraping pour automatiser la récupération de données

Formation scraping

Le scraping permet de récolter sans effort des masses considérables de données sur le web. Avec quelques notions de programmation et des connaissances de base sur l’architecture d’Internet, vous pourrez créer rapidement des robots qui travailleront sans relâche pour vous.

Vous êtes
Professionnel de l’information en rédaction, ONG, organisme public ou privé
Prérequis
Aucun – Un projet en lien avec les compétences développées est souhaitable
Matériel nécessaire
Vous pouvez apporter votre ordinateur, c’est mieux pour installer tout ce qu’il faut dessus. Veillez à avoir les droits d’administration sur votre machine. Si vous n’en avez pas, on vous en fournira un pour la formation.
A l'issue de la formation, vous pourrez
  • Connaître le langage R
  • Maîtriser les manipulations avec les packages Rvest et Rselenium
  • Programmer sur votre ordinateur un robot simple pour faire du scraping
  • Collecter automatiquement des données en ligne
Modalités et moyens pédagogiques

Les concepts sont expliqués dans des présentations et mis en pratique sur des cas concrets, du plus simple au plus compliqué. Théorie et revue des bonnes pratiques: environ 20%. Exercices pratiques: environ 80%.

Evaluation des apprenant·e·s :

  • Positionnement : un questionnaire en ligne est adressé aux participant·e·s avec la convocation de manière à évaluer leur niveau initial et leurs attentes.
  • Evaluation des acquis : au cours de la formation, les exercices réalisés permettent au formateur ou à la formatrice d’évaluer l’acquisition des compétence.
  • Attestation : une attestation des acquis de fin de formation est adressée par mail aux apprenants suite à la session.
Programme

JOUR 1

  • Présentation du formateur et tour de table
  • Qu’est-ce que le scraping? Définition du scraping et de ses différents niveaux de difficulté sur plusieurs supports (depuis le web, depuis du papier, depuis des PDF).
  • Exemples de projets réalisés grâce au scraping : passage en revue d’utilisation du scraping dans des projets pour bien comprendre l’intérêt d’une telle pratique ainsi que ses limites.
  • L’environnement légal : dans chaque pays et sur chaque site internet, le scraping s’inscrit dans un cadre légal différent. Découverte de ce qu’il est autorisé de scrapper et de ce qui ne l’est pas.
  • L’architecture d’internet : pour scraper des sites, il faut avant tout savoir comment Internet fonctionne.
  • Qu’est ce qu’un « client » ? Qu’est qu’un « serveur » ? Pourquoi est-ce important ?
  • Sur Internet, les échanges utilisent HTTP et HTML. Comment impactent-t-ils nos scrapers ?
  • Sur Internet, certaines données sont déjà structurées. Comment les utiliser au travers d’APIs ?
  • Comprendre comment fonctionne le HTML pour mieux extraire des informations. Qu’est qu’une balise HTML ? Un attribut ? Comme identifier certains éléments avec une CLASS ou un ID?
  • Initiation à R, le langage le plus accessible pour coder un scraper : les fichiers, les variables, l’affichage d’information, les conditions et les boucles
  • Utiliser des fonctions et manipuler des CSVs pour lire et enregistrer des données

JOUR 2

  • Démonstration d’un scraper simple avec le package Rvest
  • Identifier la stratégie à adopter pour naviguer sur le site
  • Mise en pratique pour coder le scraper
  • Démonstration d’un scraper complexe avec le package RSelenium
  • Qu’est ce qu’une requête POST et une requête GET ?
  • Parcourir un site pour trouver les données
  • Identifier la stratégie à adopter
  • Mise en pratique pour coder le scraper
  • Evaluation à chaud de la formation par les apprenant·e·s
Ressources

Nous contacter pour plus d'informations

 

Datajournalisme et datavisualisation : travailler à partir de données

Journalisme d’investigation dans les médias locaux: outils et méthodes

Hygiène numérique : protéger ses données et ses communications

Lutte contre les fake news et fact-checking avec les outils OSINT

Dernière mise à jour de cette page: 17 mars 2024
Les dates
  • En inter (vous êtes solo), cette formation est organisée en fonction de la demande (nous contacter pour plus de précisions)
  • En intra (vous êtes une équipe), nous contacter pour organiser cette formation sur mesure dans votre entreprise
Le formateur

« Je suis data-journaliste au Parisien depuis 2015. Je mène des enquêtes avec comme interlocuteur privilégié les bases de données, déjà existantes ou créées pour l’occasion, avec les différents services de la rédaction. Je suis membre du collectif « Datajournos », qui permet aux data-journalistes en poste ou étudiants à résoudre des problématiques communes. Avant de travailler au Parisien, je suis passé par l’IEP de Lille et le Master 2 « Sociologie et statistiques » à l’ENS et l’EHESS ».

Victor Alexandre

Le formateur

« Je suis journaliste aux Décodeurs du Monde depuis la naissance de la rubrique, en 2014. Mordu de nouveaux formats, je passe beaucoup de temps à manipuler les données et à coder, toujours à la recherche de nouvelles manières de raconter l’actu.
Je suis fier d’avoir pu participer aux « Panama Papers » (2016) et aux « Paradise Papers » (2017). Ces enquêtes menées avec des centaines de journalistes du monde entier, sous l’égide du Consortium international des journalistes d’investigation (ICIJ), ont inauguré une nouvelle ère du journalisme d’investigation, collaborative et appuyée sur d’immenses bases de données ».
Délais d’accès

Dès la validation de votre souhait, un devis vous sera proposé. A la validation de votre inscription, une convention ou un contrat de formation vous sera adressé.

Chez Samsa.fr, votre inscription est l’affaire de quelques heures - mais attention aux délais complémentaires qui peuvent être demandés par vos financeurs! Nous sommes là pour vous accompagner dans vos démarches, n’hésitez pas à nous contacter pour toutes questions!

Conditions d’accessibilité

Nous mettons tout en œuvre pour vous accueillir toutes et tous dans les meilleures conditions. Notre charte handicap détaille nos engagements pour l’accessibilité de nos formations. Contactez notre référent handicap si vous avez des besoins spécifiques d’accompagnement avant, pendant et après la formation: [email protected]

`
`