Illustration pour le terme Data Lineage

Data Lineage

Catégorie : Gouvernance & Qualité

Définiton

Le Data Lineage, ou traçabilité des données, désigne la cartographie complète du cycle de vie d’une donnée : d’où elle vient, par quels traitements elle passe, où elle est utilisée, et comment elle évolue dans le temps.

En d’autres termes, c’est comme un GPS de la donnée : on peut remonter à la source, suivre chaque étape de transformation, jusqu’à son affichage dans un rapport ou une application.

Cette visibilité est essentielle pour :

  • garantir la qualité et la fiabilité des données utilisées
  • expliquer un résultat métier (“pourquoi ce chiffre est-il si élevé ?”)
  • identifier rapidement les impacts d’un changement en amont
  • assurer la conformité réglementaire (ex. : RGPD)

Exemple d’usage ou de contexte

Un analyste remarque une valeur incohérente dans un KPI de performance commerciale.
Grâce au data lineage, il peut :

  • retracer la donnée jusqu’à sa source initiale (CRM Salesforce)
  • voir qu’elle est passée par un script de nettoyage dans un pipeline ETL
  • puis agrégée dans un entrepôt de données (Data Warehouse)
  • avant d’être visualisée dans Power BI.

Cela permet d’identifier l’erreur (ex. : un bug dans le script de transformation) et de la corriger à la racine.


Types de traçabilité

TypeExemple
Traçabilité ascendanteD’où vient la donnée ? (source)
Traçabilité descendanteOù va-t-elle ? Qui l’utilise ?
Traçabilité des transformationsComment a-t-elle été modifiée ?

Outils & solutions associés

  • Catalogues de données : Collibra, Alation, Microsoft Purview, Informatica
  • Orchestrateurs : Apache Airflow, dbt (documente les dépendances)
  • ETL / ELT : Talend, Fivetran, Matillion (avec traçabilité intégrée)
  • Usage avec : SQL, Power BI, BigQuery, Snowflake…

🧠 À retenir

Le Data Lineage est un pilier de la gouvernance des données. Il permet de comprendre, d'expliquer et de faire confiance aux chiffres et analyses.
C’est aussi un levier puissant pour auditer, documenter et sécuriser la chaîne de traitement des données.