PySpark - Traitement des données



Objectifs, programme, validation de la formation

Objectifs

  • Comprendre leprincipe defonctionnement deSpark - Utiliser l API PySpark pour interagir avec Spark enPython - Utiliser lesméthodes deMachine Learning avec lalibrairie MLlib deSpark - Traiter lesflux dedonnées avec Spark Streaming - Manipuler lesdonnées avec SparkSQL.

Description, programmation

inf. h4 Introduction àHadoop inf. h4 - L ère duBigData - Architecture etcomposants delaplateformeHadoop - HDFS - NameNode DataNode ResourceManager - MapReduce etYARN inf. h4 Introduction àSpark inf. h4 - Qu est-cequeSpark - Spark vs MapReduce - Fonctionnement - RDD - DataFrames - DataSets - Comment interagir avecSpark - PySpark programmer avec Spark enPython inf. h4 Installation deSpark inf. h4 - Sur uneinfrastructure distribuée - Enlocal - EnCloud présentation avec Amazon AWS etMicrosoft Azure inf. h4 Spark pour lamanipulation desdonnées- PySpark inf. h4 - Utilisation deSparkSQL etdesDataFrames pour manipuler desdonnées - Charger desdonnées depuis Hadoop depuis desfichiers CSV texte JSON... - Transformer desdonnées création deDataFrames ajout decolonnes filtres... inf. h4 L utilisation despark.ml pour leMachine Learning inf. h4 - Apprentissage supervisé - Forêts aléatoires avecSpark - Mise enplace d unoutil derecommandation - Traitement dedonnées textuelles - Automatiser vos analyses avec despipelines inf. h4 Spark Streaming inf. h4 - Introduction àSpark Streaming - Lanotion de DStream - Principales sources dedonnées - Utilisation del API - Manipulation desdonnées inf. h4 SparkSQL inf. h4 - Initialisation àSparkSQL - Création deDataFrames - Manipulation desDataFrames opérations basiques agrégations etgroupBy missing data - Chargement etstockage dedonnées avec Hive JSON... inf. h4 GraphX etGraphFrames inf. h4 - Présentation deGraphX - Principe decréation desgraphes - APIGraphX - Présentation deGraphFrames - GraphX vs GraphFrames

Validation et sanction

Attestation de formation

Type de formation

Perfectionnement, élargissement des compétences

Niveau de sortie sans niveau spécifique


Durée, rythme, financement

Durée 21 heures en centre

Modalités de l'alternance -

Conventionnement Non

Conditions d'accès

Niveau d'entrée sans niveau spécifique

Conditions spécifiques et prérequis Avoir desnotions deSQL etdesconnaissances debase enmathématiques etstatistiques. Unepremière expérience enprogrammation Python estrequise.

Périodes prévisibles de déroulement des sessions

Session débutant le : 01/01/2021

Adresse d'inscription
55 rue EUCLIDE
La Terra Verde 34000 Montpellier

Lieu de formation


Organisme de formation responsable