La problématique de la qualité des données
- L'évaluation de la qualité des données d'un système d'information.
- Critères fondamentaux : exhaustivité, précision et intégrité des données.
- Positionnement du produit Talend Open Studio for Data Quality dans la suite Talend.
Travaux pratiques
Installation du produit, configuration des préférences.
Les concepts fondamentaux de TOS for Data Quality
- Les métadonnées : connexions aux bases, fichiers délimités et fichiers Excel.
- Présentation des différents types d'analyses.
- Les outils et indicateurs d'aide à la réalisation des analyses.
- L'explorateur de données.
Travaux pratiques
Effectuer une première analyse de colonne sur des données issues d'un fichier csv, exploitation des résultats obtenus.
Les analyses simples
- Recherche de doublons, respect de contraintes d'intervalle, format de date, d'email...
- Métriques d'une table, dépendances fonctionnelles entre colonnes.
- Identification des redondances de valeurs.
- Contrôles de cohérence entre clefs étrangères et primaires.
- Utiliser les indicateurs, les modèles, les règles et les fichiers sources.
Travaux pratiques
Réaliser une analyse de chaque type sur un jeu de données partiellement erronées.
Les analyses avancées
- Analyse de schéma et de la structure des tables via l'explorateur de données.
- Analyse multitable et multicolonne, respect de règles métiers.
- Recherche et visualisation de corrélation entre colonnes.
- Créer ses propres indicateurs et fichiers sources.
- Gérer les analyses.
Travaux pratiques
Créer une règle métier complexe impliquant plusieurs tables et l'associer à une tâche. Publier la règle dans la forge Talend.
Eléments avancés
- Utiliser des variables de contexte.
- Créer des modèles basés sur des expressions régulières.
- Exporter/importer les analyses et les données analysées.
- Corriger les données erronées avec Talend Data Integration.
Travaux pratiques
Paramétrer les métadonnées et les analyses à l'aide de variables de contexte, exporter les données analysées pour les corriger dans Talend Data Integration.