Description
Ce cours vous apprendra à exploiter efficacement l'outil Talend Open Studio for Data Quality de manière à évaluer le niveau de qualité des données d'un système d'information. Vous mettrez en oeuvre des analyses, vérifierez des règles métiers et définirez des stratégies de correction pour les données erronées.
À qui s'adresse cette formation ?
Pour qui ?Analystes métiers, intégrateurs de données, gestionnaires de données.
Prérequis
Les objectifs de la formation
Programme de la formation
- La problématique de la qualité des données
- L'évaluation de la qualité des données d'un système d'information.
- Critères fondamentaux : exhaustivité, précision et intégrité des données.
- Positionnement du produit Talend Open Studio for Data Quality dans la suite Talend.
- Travaux pratiques Installation du produit, configuration des préférences.
- Les concepts fondamentaux de TOS for Data Quality
- Les métadonnées : connexions aux bases, fichiers délimités et fichiers Excel.
- Présentation des différents types d'analyses.
- Les outils et indicateurs d'aide à la réalisation des analyses.
- L'explorateur de données.
- Travaux pratiques Effectuer une première analyse de colonne sur des données issues d'un fichier csv, exploitation des résultats obtenus.
- Les analyses simples
- Recherche de doublons, respect de contraintes d'intervalle, format de date, d'email.
- Métriques d'une table, dépendances fonctionnelles entre colonnes.
- Identification des redondances de valeurs.
- Contrôles de cohérence entre clefs étrangères et primaires.
- Utiliser les indicateurs, les modèles, les règles et les fichiers sources.
- Travaux pratiques Réaliser une analyse de chaque type sur un jeu de données partiellement erronées.
- Les analyses avancées
- Analyse de schéma et de la structure des tables via l'explorateur de données.
- Analyse multitable et multicolonne, respect de règles métiers.
- Recherche et visualisation de corrélation entre colonnes.
- Créer ses propres indicateurs et fichiers sources.
- Gérer les analyses.
- Travaux pratiques Créer une règle métier complexe impliquant plusieurs tables et l'associer à une tâche.
- Publier la règle dans la forge Talend.
- Eléments avancés
- Utiliser des variables de contexte.
- Créer des modèles basés sur des expressions régulières.
- Exporter/importer les analyses et les données analysées.
- Corriger les données erronées avec Talend Data Integration.
- Travaux pratiques Paramétrer les métadonnées et les analyses à l'aide de variables de contexte, exporter les données analysées pour les corriger dans Talend Data Integration