Techniques de collecte avec Python



Objectifs, programme, validation de la formation

Objectifs

Réaliser du scraping de données
Faire les actions d’ingestion nécessaires pour alimenter un Data Lake.

Description, programmation

Les bases du langage Python

Les caractéristiques du langage Python
Pourquoi choisir Python pour l’analyse de données ?
Types de bases
Les instructions de bases
Les procédures et fonctions

L’ingestion avec Python

Utiliser la librairie Pandas pour manipuler les données
Introduction du concept de DataFrame
Les structures :

Interrogation
Indexation

Traitement de "données manquantes"
Fusion de DataFrames
Manipulation des dates
Application de mesures statistiques variées sur les DataFrames
Bonne compréhension des problèmes d’échelle de mesure, de normalisation
Création de métriques d’analyse

Scraping de données

Qu’est-ce que le scraping ?
Définition du scraping et de ses différents niveaux de difficulté sur plusieurs supports

Depuis le Web
Depuis du papier
Depuis des PDF

Exemples de projets réalisés grâce au scraping
L’architecture d’Internet
Qu’est-ce qu’un "client" ? Qu’est-ce qu’un "serveur" ? Pourquoi est-ce important ?
Comment HTTP et HTML impactent-t-ils nos scrapers ?
Qu’est-ce qu’une balise HTML ? Un attribut ?
Comment identifier certains éléments avec une "class" ou un "id" ?

Python comme solution ETL

Les formats de données structurées : CSV, flux XML et JSON
Lecture et écriture de fichiers
Exploitation des données de fichiers de différentes sources
Fonctions d’accès et de chargement de données en blocs de lignes
Outils spécifiquement dédiés au scraping :

Beautiful Soup
CSS Select

Mise en oeuvre d’un scraper

Un scraper simple (requêtes GET, pages séquencées)
Identifier la stratégie à adopter pour naviguer sur le site
Coder le scraper
Un scraper complexe : envoyer des données à un site Internet pour obtenir des résultats plus complexes
Qu’est ce qu’une requête POST et une requête GET ?
Parcourir un site pour trouver les données
Identifier la stratégie à adopter
Coder le scraper

Niveau de sortie information non communiquée

Métiers visés

M1805 :


Durée, rythme, financement

Durée 21 heures en centre

Modalités de l'alternance -

Conventionnement Non

Conditions d'accès

Modalités de recrutement et d'admission Avoir des connaissances en algorithmiques.

Niveau d'entrée sans niveau spécifique

Conditions spécifiques et prérequis Aucune

Inscription

Contact renseignement Agnès RICHIR

Téléphone 0557190765


Périodes prévisibles de déroulement des sessions

Session débutant le : 01/01/2019

Adresse d'inscription
15 Bis Allée James Watt 33700 Mérignac

Lieu de formation


Organisme de formation responsable