PySpark - Traitement des données
Objectifs, programme, validation de la formation
Objectifs
- Comprendre leprincipe defonctionnement deSpark - Utiliser l API PySpark pour interagir avec Spark enPython - Utiliser lesméthodes deMachine Learning avec lalibrairie MLlib deSpark - Traiter lesflux dedonnées avec Spark Streaming - Manipuler lesdonnées avec SparkSQL.
Description, programmation
inf. h4 Introduction àHadoop inf. h4 - L ère duBigData - Architecture etcomposants delaplateformeHadoop - HDFS - NameNode DataNode ResourceManager - MapReduce etYARN inf. h4 Introduction àSpark inf. h4 - Qu est-cequeSpark - Spark vs MapReduce - Fonctionnement - RDD - DataFrames - DataSets - Comment interagir avecSpark - PySpark programmer avec Spark enPython inf. h4 Installation deSpark inf. h4 - Sur uneinfrastructure distribuée - Enlocal - EnCloud présentation avec Amazon AWS etMicrosoft Azure inf. h4 Spark pour lamanipulation desdonnées- PySpark inf. h4 - Utilisation deSparkSQL etdesDataFrames pour manipuler desdonnées - Charger desdonnées depuis Hadoop depuis desfichiers CSV texte JSON... - Transformer desdonnées création deDataFrames ajout decolonnes filtres... inf. h4 L utilisation despark.ml pour leMachine Learning inf. h4 - Apprentissage supervisé - Forêts aléatoires avecSpark - Mise enplace d unoutil derecommandation - Traitement dedonnées textuelles - Automatiser vos analyses avec despipelines inf. h4 Spark Streaming inf. h4 - Introduction àSpark Streaming - Lanotion de DStream - Principales sources dedonnées - Utilisation del API - Manipulation desdonnées inf. h4 SparkSQL inf. h4 - Initialisation àSparkSQL - Création deDataFrames - Manipulation desDataFrames opérations basiques agrégations etgroupBy missing data - Chargement etstockage dedonnées avec Hive JSON... inf. h4 GraphX etGraphFrames inf. h4 - Présentation deGraphX - Principe decréation desgraphes - APIGraphX - Présentation deGraphFrames - GraphX vs GraphFrames
Validation et sanction
Attestation de formation
Type de formation
Perfectionnement, élargissement des compétences
Niveau de sortie sans niveau spécifique
Durée, rythme, financement
Durée 21 heures en centre
Modalités de l'alternance -
Conventionnement Non
Conditions d'accès
Niveau d'entrée sans niveau spécifique
Conditions spécifiques et prérequis Avoir desnotions deSQL etdesconnaissances debase enmathématiques etstatistiques. Unepremière expérience enprogrammation Python estrequise.
Périodes prévisibles de déroulement des sessions
Session débutant le : 01/01/2021
Adresse d'inscription
55 rue EUCLIDE
La Terra Verde 34000 Montpellier
Lieu de formation
Organisme de formation responsable
M2i
Adresse
55 rue EUCLIDE La Terra Verde 34000 Montpellier
Téléphone
Site web
https://www.m2iformation.fr/