La fin de l'ETL classique
Pendant des années, le pattern ETL (Extract → Transform → Load) dominait. La transformation se faisait avant le chargement, dans des outils lourds comme Informatica ou DataStage. Aujourd'hui, avec la puissance de calcul des entrepôts cloud (Snowflake, BigQuery, Redshift), on charge d'abord les données brutes, puis on transforme directement en SQL. C'est l'ELT.
dbt : le SQL comme asset de première classe
dbt (data build tool) a révolutionné la façon dont les data engineers écrivent des transformations :
- Versioning Git de tous les modèles SQL
- Tests automatiques (unicité, non-nullité, cohérence référentielle)
- Documentation auto-générée avec lignage des données
- Matérialisations : table, view, incremental, snapshot
Airflow pour l'orchestration
Apache Airflow reste la référence pour orchestrer les pipelines complexes. Avec Airflow 2.x, les DAGs en Python sont plus lisibles, le scheduler est plus robuste, et l'intégration avec dbt est native via DbtTaskGroup.
Great Expectations pour la qualité
Great Expectations permet de définir des "expectations" sur vos données (ex: "la colonne user_id ne contient jamais de NULL", "le chiffre d'affaires est toujours positif") et de les vérifier à chaque run de pipeline. Un pipeline qui échoue silencieusement est bien plus dangereux qu'un pipeline qui lève une alerte.
Les pièges à éviter
- Trop de modèles éphémères (ephemeral) — ils rendent le debugging difficile
- Pas de stratégie d'incrémentiels — recharger 3 ans de données à chaque run tue les coûts
- Ignorer le data lineage — vous perdrez des heures à tracer l'origine d'une anomalie