Description
Python est connu pour sa capacité à récupérer des données de sources variées et hétérogènes, ce qui en fait le choix idéal pour accumuler une base de connaissances en utilisant la technique du scraping. Cette technique consiste à extraire des informations ciblées à partir d'une série de ressources, telles que des sites web ou des APIs REST.
La formation Scraping Python propose de découvrir comment mettre en place un tel programme, en partant de la création d'un crawler manuel pour ensuite évoluer vers des technologies plus avancées et l'automatisation complète du processus.
À qui s'adresse cette formation ?
Pour qui ?
Cette Formation S'adresse aux programmeurs déjà à l’aise avec Python, ayant déjà des projets de taille moyenne à leur actif, et souhaitant mettre en œuvre leur propre outillage pour étoffer le stock de données dans lequel ils puissent piocher.
Prérequis
Pour suivre ce cours Scraping Python, il faut être à l’aise avec le langage Python dans sa dernière version. Le participant doit être capable de créer des scripts complexes de manière autonome ainsi que savoir utiliser écosystème du langage (pip, virtualenv, etc.).
Les objectifs de la formation
Programme de la formation
- La base du traitement par lot (scraping)
- Parcourir le système de fichiers
- Gérer proprement l’encoding
- Lire et écrire des fichiers
- Analyser le JSON,
- le CSV et l’XML Les générateurs
- Parcours de données sur le Web
- Rappel sur le protocole HTTP
- Requêtes simples avec Request
- Stocker les données avec SQLAlchemy
- Analyser du HTML avec Beautiful Soup
- Questions de performances
- Threads et GIL
- Utiliser plusieurs cœurs avec le multiprocessing
- Programmation I/O asyncrone
- Performances et éthiques
- Utilisation d’une forme de cache : disque, RAM et redis
- Introduire un délai aléatoire
- Le fichier robot.txt
- Les API professionnelles
- Authentifications et token
- Anatomie d’une API REST
- Retry propre
- Gérer le rate limiting Gestion des erreurs Logging de l’application Exemple avec un client twitter fait à la main
- Gérer le rate limiting
- Gestion des erreurs
- Logging de l’application
- Exemple avec un client twitter fait à la main
- Industrialiser le crawling
- Introduction aux mécanismes de base du framework
- Utiliser Selenium à la main
- Utiliser Scrappy et Selenium ensemble