Extraction de données avec Python



Objectifs, programme, validation de la formation

Objectifs

  • Réaliser duscraping dedonnées - Faire lesactions d ingestion nécessaires pour alimenter unDataLake.

Description, programmation

inf. h3 Lesbases dulangagePython inf. h3 - Lescaractéristiques dulangagePython - Pourquoi choisir Python pour l analyse dedonnées - Types debases - Lesinstructions debases - Lesprocédures etfonctions inf. h3 L ingestion avecPython inf. h3 - Utiliser lalibrairie Pandas pour manipuler lesdonnées - Introduction duconcept deDataFrame - Lesstructures - Interrogation - Indexation - Traitement de données manquantes - Fusion deDataFrames - Manipulation desdates - Application demesures statistiques variées sur lesDataFrames - Bonne compréhension desproblèmes d échelle demesure denormalisation - Création demétriques d analyse inf. h3 Scraping dedonnées inf. h3 - Qu est-ceque lescraping - Définition duscraping etdesesdifférents niveaux dedifficulté sur plusieurs supports - Depuis leWeb - Depuis dupapier - Depuis desPDF - Exemples deprojets réalisés grâce auscraping - L architecture d Internet - Qu est-cequ un client Qu est-cequ un serveur Pourquoiest-ceimportant - Comment HTTP etHTMLimpactent-t-ils nos scrapers - Qu est-cequ unebalise HTML Unattribut - Comment identifier certains éléments avec une class ouun id inf. h3 Python comme solutionETL inf. h3 - Lesformats dedonnées structurées CSV flux XML etJSON - Lecture etécriture defichiers - Exploitation desdonnées defichiers dedifférentes sources - Fonctions d accès etdechargement dedonnées enblocs delignes - Outils spécifiquement dédiés auscraping - BeautifulSoup - CSSSelect inf. h3 Mise enoeuvre d unscraper inf. h3 - Unscraper simple requêtes GET pages séquencées - Identifier lastratégie àadopter pour naviguer sur lesite - Coder lescraper - Unscraper complexe envoyer desdonnées àunsite Internet pour obtenir desrésultats plus complexes - Qu estcequ unerequête POST etunerequêteGET - Parcourir unsite pour trouver lesdonnées - Identifier lastratégie àadopter - Coder lescraper

Validation et sanction

Attestation de formation

Type de formation

Perfectionnement, élargissement des compétences

Niveau de sortie sans niveau spécifique


Durée, rythme, financement

Durée 21 heures en centre

Modalités de l'alternance -

Conventionnement Non

Conditions d'accès

Niveau d'entrée sans niveau spécifique

Conditions spécifiques et prérequis Avoir desconnaissances enalgorithmiques.

Périodes prévisibles de déroulement des sessions

Session débutant le : 01/01/2021

Adresse d'inscription
55 rue EUCLIDE
La Terra Verde 34000 Montpellier

Lieu de formation


Organisme de formation responsable