Introduction
- Rappels sur l'API Spark.
- Concepts de Docker et son utilité dans les analyses de données.
- Les conteneurs Docker.
Travaux pratiques
Prise en main de l'environnement de travail, création des conteneurs Docker.
Le cycle analytique avec Spark
- Ingestion de données.
- Exploration.
- Préparation des données.
- Apprentissage.
- Industrialisation.
Echanges
Présentation de cas concrets et échanges autour des différentes étapes du cycle.
Ingestion des données.
- Le chargement de données.
- Traitements batch.
- Traitements en streaming.
- Les formats de données : images, binaires, structurés, Graph…
Travaux pratiques
Chargement de données à partir de diverses sources.
Exploration des données
- Statistiques descriptives.
- Identifier les cas aberrants, les données vides.
- Identifier les valeurs invalides et autres anomalies.
Travaux pratiques
Identifier les anomalies dans un jeu de données.
Préparation et feature engineering (processus de transformation de données)
- Nettoyage des données.
- Pipelines.
- Transformer les valeurs numériques, catégoriques, binaires et texte.
- Création de nouvelles features.
- Réduction de dimensions.
- Vectorisation.
Travaux pratiques
Préparer les données pour effectuer des analyses.
Cycle de vie du ML avec MLflow
- Cycle de vie d'un projet de machine learning.
- Présentation de la plateforme open source MLflow.
- Les composants principaux de MLflow : Tracking, Models et Projects.
- Paramètres, métriques, balises et artefacts.
Travaux pratiques
Création et utilisation d’un projet de machine learning.
Machine learning
- MLlib la bibliothèque d'apprentissage automatique de Spark et les algorithmes disponibles.
- Diviser un jeu de données.
- Configurer un modèle et l’exécuter.
- Interprétation et validation de résultats d’apprentissage.
- Introduction à Spark Streaming.
Travaux pratiques
Mise en œuvre du machine learning.
Études de cas
- Effectuer des recommandations.
- Faire des prévisions de vente.
- Analyse sémantique.
- Computer vision avec Spark et PyTorch.
- Analyse temps réel avec Spark et Kafka.
Etude de cas
Effectuer les différentes études de cas proposées.