Big Data : récolte et analyse de données volumineuses module Machine Learning
Objectifs, programme, validation de la formation
Objectifs
- Comprendre le Big Data et ses enjeux
- Identifier les besoins et la problématique des directions métiers
- Construire des modèles prédictifs pour répondre à la problématique
- Construire des algorithmes pour améliorer les résultats de recherches et de ciblage
- Trouver et rassembler l’ensemble des sources de données structurées ou non structurées nécessaire à l’analyse pertinente
- Faire des recommandations business qui vont servir à la prise de décision et influencer la stratégie de l’entreprise
- Développer des métriques pertinentes d’aide à la décision
- Développer une vision globale des risques et des outils
- Identifier les opportunités à travers l’open data et les cas d’usage métiers
- Acquérir le vocabulaire lié à cet écosystème complexe
- Adapter la stratégie d’entreprise
- Concevoir un projet Big Data et acquérir les technologies (acquisition et stockage des données, traitement distribué, analyse de données à large échelle)
- Maîtriser les technologies par des études de cas concrètes
- Maîtriser les enjeux juridiques et liés à la protection des données
Description, programmation
Jour 1
Faire de l’apprentissage automatique via des outils Open Source
Présentation du Machine Learning et de ses possibilités :
•Les fondamentaux
•Apprendre à formaliser les problématiques
•Exemple du Data Science en entreprise
Créer un premier Problème Prédictif :
•Techniques d’apprentissage(les plus proches voisins, modèles Linéaire, arbre de décision, …)
•Révision des bases de la programmation
•Apprentissage d’un modèle avec librairie Open Source
Préparation des données afin de les utiliser dans un système d’apprentissage :
•Présentation du feature Engineering et les limites
•Technique d’exploration de données
•Procédure de Prétraitement et de nettoyage
Jour 2
Apprendre à évaluer et déployer des modèles prédictifs
Apprendre à évaluer des modèles prédictifs :
•Création des jeux d’apprentissage, mise en place de leur validation et test.
•Tester la représentativité des données
•Mesure de performance des modèles prédictifs
•Apprendre à faire une matrice de confusion et de coût
Apprendre à Sélectionner les modèles
•Déterminer l’exactitude des prédictions avec les ensembles de modèles
•Apprendre à créer des arbres de décisions
Apprendre à déployer :
•Déterminer l’importance des APIs en production.
•Vue d’ensemble des solutions Open Source
•Apprendre à créer des APIs
•Apprendre à Gérer l’authentification
•Savoir utiliser Amazon Machine Learning et BigML
Utilisation du ML sur du texte :
•Conseils de prétraitement des données textuelles
•Mise en pratique avec la librairie open source NLTK
Jour 3
Aller plus loin avec le Machine Learning
Techniques avancées :
•Principe du Gradient Boosting et utilisation de la librairie open source XGBoost
•Pipelines de Machine learning : enrichissement et sélection de features, modélisation
•Techniques d’optimisation des paramètres de pipelines de Machine learning : grid search, random search et utilisation de la librairie open source hyperopt
•Autres problèmes d’apprentissage :
•Réseaux de neurones et Deep Learning :
•Développer son propre cas d’usage :
Validation et sanction
Certification
Type de formation
Perfectionnement, élargissement des compétences
Métiers visés
Durée, rythme, financement
Durée
21 heures en centre
Durée indicative : 3 jours
Modalités de l'alternance -
Conventionnement Non
Conditions d'accès
Niveau d'entrée information non communiquée
Conditions spécifiques et prérequis -
Inscription
Contact renseignement Madame Laurence FAGUIER
Téléphone 04 42 16 60 70
Éligibilité de cette formation au compte personnel de formation pour les salariés
Code CPF 236441 - Validité du 02/01/2019 au 31/12/2115
Périodes prévisibles de déroulement des sessions
Session débutant le : 01/01/2020
Adresse d'inscription
255 avenue Galilée
Parc de la Duranne 13100 Aix-en-Provence
Session débutant le : 07/05/2021
Adresse d'inscription
255 avenue Galilée
Parc de la Duranne 13100 Aix-en-Provence