Challengers data 2025

Déjà très costauds ?

challengers-data
Philippe Escalle CTO

Les outils dans les cinq prochaines années, on ne les connaît pas encore. Et ceux qui sont sortis de terre il y a moins de cinq ans commencent à faire parler d'eux. Challengers ou futures stars ? Dans un paysage technologique qui bouge à la vitesse d'un script mal débuggé, certains nouveaux venus affichent une maturité surprenante. Leur point commun : une volonté de décaper les pratiques anciennes, de réconcilier simplicité d’usage et puissance technique, et de répondre aux angles morts laissés par les mastodontes de la data. Bref, ils veulent réparer ce que beaucoup ont trop longtemps bricolé avec du scotch et des pipelines Airflow de 2018. Voici les dix outils, tous post-2020, qui ont déjà commencé à remodeler les fondations de la data moderne.

DuckDB – Moteur analytique en mémoire

DuckDB, né en 2020, c’est un peu le petit moteur qui dit non au cloud pour chaque analyse qui n’en a pas besoin. Ce moteur analytique en mémoire est conçu pour faire tourner des requêtes complexes localement, sans infrastructure lourde, et avec des performances bluffantes. On peut l’utiliser pour interroger plusieurs dizaines de Go dans un notebook Python ou R — typiquement, un analyste peut charger un historique de ventes ou des logs utilisateur, et explorer tout ça tranquillement depuis son laptop, sans lever une armée de clusters. C’est l’outil rêvé pour le prototypage rapide ou l’embarqué. Il est particulièrement apprécié des data scientists, analystes, et ingénieurs qui travaillent en local ou dans des environnements contraints. Sa limite ? Il s’appuie sur la RAM de ta machine. Mais combiné avec Rill (pour visualiser) ou MotherDuck (pour collaborer), il devient la base d’un écosystème léger et puissant qui n’a rien à envier aux gros moteurs cloud.

SQLMesh – Framework de transformation SQL

Apparu en 2022, SQLMesh vise un public bien identifié : les data engineers qui jonglent avec plusieurs environnements et détestent casser leur pipeline pour une virgule oubliée. Ce framework reprend les bases posées par DBT, mais les pousse plus loin, notamment sur la gestion des tests, des dépendances, et des environnements isolés. Il permet de mieux versionner ses modèles SQL, de suivre précisément les modifications dans le temps et d’exécuter ses transformations de manière plus fiable, que ce soit en développement, en préproduction ou en production. Là où DBT commence à montrer ses limites dans les projets complexes, SQLMesh introduit un langage de macros plus souple et une meilleure visibilité sur l’impact des changements. C’est une solution particulièrement adaptée aux ingénieurs qui travaillent dans des contextes sensibles (financier, réglementaire) ou distribués, où le moindre bug de transformation peut avoir de vraies conséquences. L’outil reste encore jeune côté communauté, mais il coche déjà beaucoup de cases.

Polars – Bibliothèque de traitement de données

Polars, né en 2020, s’est rapidement imposé comme l’alternative sérieuse à Pandas pour ceux qui manipulent beaucoup de données. Construit en Rust, il est pensé pour aller vite — très vite — et exploite au maximum les capacités multithread des machines modernes. Il permet, par exemple, de traiter des fichiers CSV ou Parquet contenant plusieurs millions de lignes sans transformer ton laptop en grille-pain. Ce qui le rend particulièrement intéressant pour les data scientists, les ingénieurs machine learning, et les analystes quantitatifs qui ont besoin de nettoyer, transformer ou agréger de gros volumes de données, souvent en amont de modèles ou de dashboards. C’est un outil robuste, mais qui demande un petit temps d’adaptation, surtout pour ceux qui viennent du monde Pandas et doivent repenser certains réflexes.

Dagster – Orchestrateur de pipelines data-centric

Dagster, bien que conçu un peu avant 2020, atteint sa maturité justement après cette date. Il s’établit comme une alternative solide à Airflow, avec une vision centrée sur les assets de données plutôt que sur les tâches. Ce changement de paradigme facilite la lecture des workflows, permet une meilleure observabilité et introduit des notions de typage et de validations explicites. Il s’adresse principalement aux data engineers et aux équipes de plateforme qui doivent maintenir des pipelines complexes et critiques — typiquement dans des environnements de data warehouse ou de science des données à grande échelle. Son principal atout : une visibilité accrue sur la logique métier des traitements. Son revers ? Il demande un peu plus de configuration et d'investissement initial que des solutions plus légères comme MageAI.

MotherDuck – Plateforme cloud-native de requêtage analytique

Dans la même mouvance, MotherDuck — lancé en 2023 — prolonge l’expérience DuckDB dans le cloud. Là où DuckDB brillait sur le poste local, MotherDuck permet d’accéder à des capacités collaboratives, à du stockage distant et à une exécution hybride. Il est ainsi utilisé dans des notebooks collaboratifs ou pour prototyper une analyse partagée entre plusieurs analystes, avant d'être déployé en production. L’outil s’adresse principalement aux data analysts, data scientists, et ingénieurs analytics qui ont besoin de partager leurs explorations sans basculer dans une architecture big data lourde. Son principal frein reste sa jeunesse : l’intégration avec d’autres services cloud est encore en développement.

OpenMetadata – Catalogue de données open source

La gouvernance, longtemps laissée en bout de chaîne, retrouve un outil à sa mesure avec OpenMetadata. Créé en 2021, ce catalogue de données open source unifie documentation, lignage, politiques d’accès et qualité. Il est de plus en plus utilisé dans les environnements data mesh pour centraliser les métadonnées sans centraliser les données. Il s'adresse avant tout aux data engineers, architectes data, et équipes de gouvernance qui cherchent à structurer, documenter et tracer leurs actifs de données de manière fiable. Utilisable avec Airflow, Spark, dbt et BigQuery, il souffre encore d'une interface un peu technique pour les utilisateurs métiers.

MageAI – Framework d’orchestration visuel

MageAI, de son côté, s’adresse aux équipes plus légères, ou en phase exploratoire. Ce framework d’orchestration mise sur la simplicité de prise en main et une interface moderne pour concevoir des pipelines de manière visuelle ou semi-code. Il est particulièrement adapté aux startups, aux data analysts et aux développeurs produit qui veulent mettre en place des traitements de données sans avoir besoin d’une usine à gaz. Très prisé dans les projets de POC ou les pipelines à faible complexité, MageAI permet d’automatiser des workflows sans douleur. Il peut cependant montrer ses limites dès que les besoins en scalabilité ou en intégration DevOps deviennent trop avancés.

Rill – Outil de dashboarding OLAP

L’outil Rill, lancé en 2023, prend une position originale en réinventant le dashboarding à la sauce OLAP local. Basé sur DuckDB, il permet de charger et visualiser instantanément des fichiers Parquet ou CSV. Typiquement utilisé pour créer des dashboards internes sur des fichiers produits quotidiennement, il brille par sa réactivité. Il s’adresse principalement aux analystes, product managers et équipes data qui veulent une solution rapide, légère et locale pour visualiser des données sans dépendre d’un outil BI lourd. Moins personnalisable que des solutions comme Superset ou Metabase, Rill mise clairement sur la vitesse et la simplicité.

NocoDB & Baserow – Plateformes no-code open source

Sur le front du no-code, NocoDB et Baserow, apparus autour de 2021, répondent à un besoin croissant de flexibilité pour des profils non techniques. Utilisés pour créer des back-offices simples ou comme brique intermédiaire dans un pipeline plus complexe, ils permettent de structurer rapidement des données et de les exposer par API. Ces plateformes sont particulièrement prisées par les équipes produit, opérations, RH, mais aussi par des développeurs front ou low-code qui cherchent une base de données manipulable sans s’engluer dans des systèmes relationnels classiques. Leur principal défi reste la stabilité et la montée en charge sur des volumes importants.

REST Catalogues – Pattern architectural de gouvernance

Enfin, dans l’ombre des outils visibles, les REST Catalogues s’imposent comme une approche structurante pour l’avenir de la gouvernance. Moins un produit qu’un pattern, ils permettent d’exposer les métadonnées de manière interopérable et décentralisée. Typiquement mis en place dans les grandes entreprises où chaque domaine possède ses propres systèmes, ils facilitent une vue transverse sans imposer une standardisation rigide. Ce type d’approche intéresse surtout les architectes data, responsables de la gouvernance et équipes plateforme qui veulent coordonner des environnements complexes sans tomber dans l’usine à gaz. Leur mise en œuvre repose sur des conventions, ce qui les rend puissants mais exigeants.


Tendances émergentes pour 2025 et au-delà

Au-delà de ces outils pris individuellement, plusieurs tendances se dessinent et pourraient façonner les cinq prochaines années. La première est le retour du local-first, où l'on cherche à ramener des capacités analytiques puissantes au plus près du poste de travail, comme le permettent DuckDB, Rill ou Polars. Cette approche répond à une double exigence : réduction des coûts cloud et gain de réactivité. En gros : à quoi bon lancer une requête sur un cluster à Dublin pour connaître les ventes de sandwichs du mois dernier ? Deuxième tendance : la gouvernance intégrée by design, incarnée par des outils comme OpenMetadata ou les REST Catalogues, qui placent les métadonnées et la conformité au centre de l’architecture. Enfin, l’écosystème devient plus modulaire et composable : les stacks ne sont plus monolithiques mais assemblées à la carte, comme un buffet de composants qu'on choisit selon ses goûts (et pas selon les lubies du vendor).

Des comparaisons inévitables avec les poids lourds

Ces outils n’arrivent pas dans le vide. DuckDB s’oppose frontalement à BigQuery ou Snowflake pour certains cas d’analyse locale ou embarquée. SQLMesh entend faire mieux que DBT en termes de tests et de rigueur de pipeline. Dagster attaque le cœur historique d’Airflow en simplifiant la gestion des workflows. OpenMetadata prend le contrepied de solutions comme Alation ou Collibra en misant sur l’open source et l’extensibilité. Et Polars s’attaque directement à Pandas, dont il dépasse désormais les performances dans la majorité des cas pratiques. Bref, chacun joue sa partition, souvent avec une efficacité déconcertante, face à des métronomes du marché parfois rincés.

L'oeil du CTO

" La vague post-2020 n'est pas un simple renouvellement d'outillage. Elle exprime un changement de paradigme. Modularité, local-first, cloud-optional, gouvernance décentralisée, interface sobre et typage strict : les critères d’adoption ont changé. Ces outils répondent non seulement à des frustrations historiques, mais préfigurent un modèle de plateforme data plus frugale, plus intelligente et bien plus contrôlable. "