Le problème du data lake centralisé

Le modèle centralisé — une équipe data qui gère tout le pipeline pour toute l'entreprise — ne passe pas à l'échelle. Goulet d'étranglement, priorités arbitrées entre 20 équipes métier, schema ownership flou, SLA impossibles à tenir. Zhamak Dehghani a théorisé le Data Mesh comme réponse architecturale.

Les 4 principes fondateurs

  1. Ownership domaine : chaque équipe métier possède ses données
  2. Données comme produit : les datasets ont des SLA, une documentation, des owners
  3. Infrastructure self-serve : les équipes domaine peuvent déployer sans aide centrale
  4. Gouvernance fédérée : standards communs (schema, qualité, sécurité) sans centralisation excessive

Outils pour le Data Mesh

Le Data Catalog (Datahub, Collibra, Alation) devient critique pour découvrir les data products des autres domaines. Le Data Contract (en YAML) formalise les engagements : schema, SLA de fraîcheur, owner, exemples.

Résistances organisationnelles

Le plus grand obstacle n'est pas technique. Les équipes métier ne veulent pas "gérer des données" — elles veulent des features. Le secret est de commencer avec des équipes volontaires, de montrer des quick wins (time-to-insight divisé par 3), et d'investir dans la plateforme self-serve avant d'exiger l'ownership.