Techniques de collecte avec Python
Objectifs, programme, validation de la formation
Objectifs
Réaliser du scraping de données
Faire les actions d’ingestion nécessaires pour alimenter un Data Lake.
Description, programmation
Les bases du langage Python
Les caractéristiques du langage Python
Pourquoi choisir Python pour l’analyse de données ?
Types de bases
Les instructions de bases
Les procédures et fonctions
L’ingestion avec Python
Utiliser la librairie Pandas pour manipuler les données
Introduction du concept de DataFrame
Les structures :
Interrogation
Indexation
Traitement de "données manquantes"
Fusion de DataFrames
Manipulation des dates
Application de mesures statistiques variées sur les DataFrames
Bonne compréhension des problèmes d’échelle de mesure, de normalisation
Création de métriques d’analyse
Scraping de données
Qu’est-ce que le scraping ?
Définition du scraping et de ses différents niveaux de difficulté sur plusieurs supports
Depuis le Web
Depuis du papier
Depuis des PDF
Exemples de projets réalisés grâce au scraping
L’architecture d’Internet
Qu’est-ce qu’un "client" ? Qu’est-ce qu’un "serveur" ? Pourquoi est-ce important ?
Comment HTTP et HTML impactent-t-ils nos scrapers ?
Qu’est-ce qu’une balise HTML ? Un attribut ?
Comment identifier certains éléments avec une "class" ou un "id" ?
Python comme solution ETL
Les formats de données structurées : CSV, flux XML et JSON
Lecture et écriture de fichiers
Exploitation des données de fichiers de différentes sources
Fonctions d’accès et de chargement de données en blocs de lignes
Outils spécifiquement dédiés au scraping :
Beautiful Soup
CSS Select
Mise en oeuvre d’un scraper
Un scraper simple (requêtes GET, pages séquencées)
Identifier la stratégie à adopter pour naviguer sur le site
Coder le scraper
Un scraper complexe : envoyer des données à un site Internet pour obtenir des résultats plus complexes
Qu’est ce qu’une requête POST et une requête GET ?
Parcourir un site pour trouver les données
Identifier la stratégie à adopter
Coder le scraper
Niveau de sortie information non communiquée
Métiers visés
Durée, rythme, financement
Durée 21 heures en centre
Modalités de l'alternance -
Conventionnement Non
Conditions d'accès
Modalités de recrutement et d'admission Avoir des connaissances en algorithmiques.
Niveau d'entrée sans niveau spécifique
Conditions spécifiques et prérequis Aucune
Inscription
Contact renseignement Agnès RICHIR
Téléphone 0557190765
Périodes prévisibles de déroulement des sessions
Session débutant le : 01/01/2019
Adresse d'inscription
15 Bis Allée James Watt 33700 Mérignac
Lieu de formation
Adresse :
Organisme de formation responsable
M2I FORMATION MERIGNAC
Adresse
15 B allée James Watt 33700 Mérignac
Téléphone