Illustration pour le terme Data Lake

Data Lake

Catégorie : Architecture & Infrastructures

Définition

Un Data Lake est un espace de stockage centralisé qui permet de conserver de grandes quantités de données brutes, dans leur format d’origine, qu’elles soient structurées (comme des bases SQL), semi structurées (comme des fichiers JSON, CSV) ou non structurées (vidéos, images, logs, textes…).

Contrairement aux bases de données traditionnelles, un Data Lake ne nécessite aucune modélisation préalable. Les données sont simplement déversées dans le lac (d’où le nom), et pourront être transformées, analysées ou croisées plus tard, selon les besoins.

Il est souvent utilisé dans des contextes :

  • de big data
  • d’analyse avancée
  • de data science

Exemple d’usage ou de contexte

Une entreprise du secteur retail collecte :

  • des tickets de caisse (structurés),
  • des logs de navigation web (semi-structurés),
  • des vidéos de caméras de surveillance (non structurées).

Tous ces fichiers sont stockés sans tri dans un Data Lake, puis utilisés par les équipes d’analystes ou de data scientists pour :

  • détecter des fraudes
  • optimiser les rayons
  • croiser comportements d’achat et météo

Différence avec un Data Warehouse

Data LakeData Warehouse
Données brutesDonnées nettoyées & modélisées
Stocke tout type de donnéesMajoritairement structurées
Faible coût de stockagePlus coûteux mais plus performant
Utilisé pour exploration libreUtilisé pour reporting fiable

Outils & technologies associés

  • Cloud : Amazon S3 (AWS), Azure Data Lake Storage, Google Cloud Storage
  • Écosystèmes open source : Hadoop, HDFS, Apache Spark
  • Traitements associés : Databricks, Presto, Snowflake (mode hybride)
  • Connecteurs : Power BI, Tableau, Python, SQL

🧠 À retenir

Un Data Lake est un réservoir centralisé de données brutes, conçu pour stocker tout type de données à grande échelle, en vue d’analyses futures ou de cas d’usage avancés comme le machine learning.