Scraping et manipulation de données avec Python

Scraping et manipulation de données avec python

Skills Campus

Tranning & certification center

4 Jours
SII-301
627 Vues

Description

Python est connu pour sa capacité à récupérer des données de sources variées et hétérogènes, ce qui en fait le choix idéal pour accumuler une base de connaissances en utilisant la technique du scraping. Cette technique consiste à extraire des informations ciblées à partir d'une série de ressources, telles que des sites web ou des APIs REST.

La formation Scraping Python propose de découvrir comment mettre en place un tel programme, en partant de la création d'un crawler manuel pour ensuite évoluer vers des technologies plus avancées et l'automatisation complète du processus.

À qui s'adresse cette formation ?

Pour qui ?

Cette Formation S'adresse aux programmeurs déjà à l’aise avec Python, ayant déjà des projets de taille moyenne à leur actif, et souhaitant mettre en œuvre leur propre outillage pour étoffer le stock de données dans lequel ils puissent piocher.

Prérequis

Pour suivre ce cours Scraping Python, il faut être à l’aise avec le langage Python dans sa dernière version. Le participant doit être capable de créer des scripts complexes de manière autonome ainsi que savoir utiliser écosystème du langage (pip, virtualenv, etc.).

Les objectifs de la formation

Maitriser la manipulation de données web avec Python

Comprendre les enjeux techniques et ethniques du scraping

Connaître les différentes méthodes utilisées pour récupérer, traiter et stocker les données

Maîtriser les technologies existantes pour choisir la solution adaptée à votre besoin d’acquisition

Programme de la formation

La base du traitement par lot (scraping)

Parcourir le système de fichiers

Gérer proprement l’encoding

Lire et écrire des fichiers

Analyser le JSON,

le CSV et l’XML Les générateurs

Parcours de données sur le Web

Rappel sur le protocole HTTP

Requêtes simples avec Request

Stocker les données avec SQLAlchemy

Analyser du HTML avec Beautiful Soup

Questions de performances

Threads et GIL

Utiliser plusieurs cœurs avec le multiprocessing

Programmation I/O asyncrone

Performances et éthiques

Utilisation d’une forme de cache : disque, RAM et redis

Introduire un délai aléatoire

Le fichier robot.txt

Les API professionnelles

Authentifications et token

Anatomie d’une API REST

Retry propre

Gérer le rate limiting Gestion des erreurs Logging de l’application Exemple avec un client twitter fait à la main

Gérer le rate limiting

Gestion des erreurs

Logging de l’application

Exemple avec un client twitter fait à la main

Industrialiser le crawling

Introduction aux mécanismes de base du framework

Utiliser Selenium à la main

Utiliser Scrappy et Selenium ensemble

627
28 h

Se connecter

Ou creér votre compte

Vous venez d'ajouter à votre sélection

Description

À qui s'adresse cette formation ?

Les objectifs de la formation

Programme de la formation

Soumettez votre avis

Formation dans nos centres

SII-301

4 Jours ( 28 hrs)

Formation dans votre entreprise

SII-301

4 Jours ( 28 h)

Formation à la demande

Formations

Certifications

Services

À propos

Se connecter

Ou creér votre compte

Vous venez d'ajouter à votre sélection