La fin de l'ETL classique

Pendant des années, le pattern ETL (Extract → Transform → Load) dominait. La transformation se faisait avant le chargement, dans des outils lourds comme Informatica ou DataStage. Aujourd'hui, avec la puissance de calcul des entrepôts cloud (Snowflake, BigQuery, Redshift), on charge d'abord les données brutes, puis on transforme directement en SQL. C'est l'ELT.

dbt : le SQL comme asset de première classe

dbt (data build tool) a révolutionné la façon dont les data engineers écrivent des transformations :

  • Versioning Git de tous les modèles SQL
  • Tests automatiques (unicité, non-nullité, cohérence référentielle)
  • Documentation auto-générée avec lignage des données
  • Matérialisations : table, view, incremental, snapshot

Airflow pour l'orchestration

Apache Airflow reste la référence pour orchestrer les pipelines complexes. Avec Airflow 2.x, les DAGs en Python sont plus lisibles, le scheduler est plus robuste, et l'intégration avec dbt est native via DbtTaskGroup.

Great Expectations pour la qualité

Great Expectations permet de définir des "expectations" sur vos données (ex: "la colonne user_id ne contient jamais de NULL", "le chiffre d'affaires est toujours positif") et de les vérifier à chaque run de pipeline. Un pipeline qui échoue silencieusement est bien plus dangereux qu'un pipeline qui lève une alerte.

Les pièges à éviter

  1. Trop de modèles éphémères (ephemeral) — ils rendent le debugging difficile
  2. Pas de stratégie d'incrémentiels — recharger 3 ans de données à chaque run tue les coûts
  3. Ignorer le data lineage — vous perdrez des heures à tracer l'origine d'une anomalie