Les articles
Tout ce que vous devez savoir sur la Modern Data Stack
10
min -
Publié le
13
December
2023

Tout ce que vous devez savoir sur la Modern Data Stack

Data Engineering
12
/
23

Pour tirer pleinement parti de la richesse de leurs données et prendre des décisions éclairées, les entreprises ont besoin de s’appuyer sur des systèmes technologiques fiables et puissants.

 

Alors qu’elles utilisaient autrefois sur des infrastructures data lourdes et coûteuses, gérées et maintenues par de grandes équipes de développeurs, nous assistons aujourd'hui à un changement en faveur de la Modern Data Stack - une solution hautement évolutive et rentable, stimulée par la croissance rapide des technologies de cloud.

 

Dans cet article, nous explorerons les fondamentaux de la Modern Data Stack et verrons en quoi elle se différencie d’une data stack traditionnelle en permettant aux entreprises de tirer rapidement et efficacement de la valeur de leurs données.

Définition de la Modern Data Stack

La Modern Data Stack est un ensemble d'outils et de technologies, hébergés sur le cloud, ayant pour but de collecter, traiter, stocker et visualiser de la donnée.

Les outils de la Modern Data Stack peuvent être regroupés en différentes catégories, correspondant chacune à un aspect spécifique de la gestion des données. Il existe par exemple des outils en charge du retraitement des données ou d’autres permettant de créer un catalogue de données à partir d’une base. Chacun peut fonctionner de manière indépendante ou interagir avec les autres pour communiquer et échanger de la donnée. 

Il existe une multitude de solutions pour chacun des blocs, permettant à chaque entreprise de se constituer sa propre combinaison, également appelée sa Data Stack.

Vue d'ensemble d'une Data platform



Les différentes briques de la Modern Data Stack

 

Data Ingestion (1)

 

C'est ici que les données sont collectées à partir de différentes sources, telles que des applications internes (CRM, ERP) ou des solutions externes (API, applications Web, outils de paiement, etc.).

Ces données sont à l'état brut, c’est-à-dire qu’elles n’ont subi aucune modification. Des outils tels que Airbyte et Fivetran simplifient la collecte des données en fournissant un large éventail de connecteurs préconstruits pour transférer des données d’une source vers une destination.

Data Storage (2)

Les données collectées sont stockées dans un entrepôt de données hébergé sur le cloud. Il existe différentes méthodes de stockage.

 

Les data warehouses contiennent de la donnée structurée dans un format défini au préalable. Ils sont utilisés pour stocker de grands volumes de données et pour explorer ces données à l’aide de requêtes SQL.

 

Les data lakes, quant à eux, peuvent contenir de la donnée non structurée au format variable et non défini au préalable, sous forme de fichier csv ou json par exemple, et sont utilisés pour stocker de la donnée en grande quantité.

 

Parmi les principales plateformes de data warehouse, nous retrouvons Google BigQuery, Amazon Redshift et Snowflake et pour les data lake il existe Amazon S3, Google Cloud Storage ou Azure Blob Storage.

Transformation et Orchestration (3)

 

La donnée collectée depuis une source doit nécessairement être transformée, c’est-à-dire retravailler pour qu’elle réponde à une question précise ou corresponde à un format attendu. Par exemple, pour analyser les ventes d’un hôtel sur différents canaux, il faut faire correspondre des données en provenance de son site Internet, d’AirBnb ou de Booking. Ces données ne sont pas présentées de la même façon et il est donc nécessaire de les retraiter pour obtenir une information uniforme de chiffre de ventes par canal et par jour. 

Historiquement, les données étaient transformées avant d’être enregistrées en base. Cette approche, appelée ETL (Extract, Transform, Load), avait pour avantage de ne pas stocker de grandes quantités de données non utilisées et de ne conserver que de la donnée propre, uniformisée et formatée. Une nouvelle approche ELT (Extract, Load, Transform) a aujourd’hui largement dépassé l’ETL et propose de stocker l’intégralité des données collectées dans leur format brut avant de la retraiter. Cela permet d’assurer une traçabilité, un bon archivage et d’éviter des erreurs lors des transformations avant toute sauvegarde. Sa forte adoption est notamment due à la diminution des coûts de stockage au cours des dernières années. Les transformations peuvent être faites avec des solutions comme dbt ou Apache Spark.

Des séries d’étapes de traitement qui collectent, agrègent et formatent des données, également appelées pipelines de données, sont conçues pour déplacer les données de la source vers la destination. Ces pipelines sont planifiés et automatisés par un orchestrateur, comme Dagster ou Apache Airflow, qui gère les exécutions et les erreurs.


Business Intelligence (BI) et Data Visualization (4)

 

En créant des rapports et des tableaux de bord qui intègrent l'ensemble des données, les outils de Business Intelligence, comme Tableau, Power BI ou Looker Studio, permettent aux analystes d'extraire des informations à partir des données.

 

Ces outils permettent aux utilisateurs, qu'ils soient techniques ou non, d'explorer et d’interagir avec les données via une interface de création de graphiques.

Data Catalog (5)

 

Un Data Catalog est un inventaire détaillé de tous les actifs de données d'une organisation. Ces actifs peuvent être une table dans une base de données, un dashboard ou un fichier dans un data lake.

 

Le Data Catalog fournit aux utilisateurs la liste des données disponibles, du détail sur leur contenu, leur contexte et des métadonnées (telles que les descriptions, les schémas, les propriétés et les tags). Les principaux outils de Data Catalog sont DataHub, Apache Atlas et Atlan.

Data Privacy & Governance (5)

 

Il est crucial pour une entreprise de garder le contrôle sur ses données et de savoir qui accède à quelle donnée. Bien sûr, à mesure que le volume de données et le nombre de consommateurs augmentent, il est de plus en plus difficile de garder la main et les risques de sécurité augmentent.

 

Certaines solutions proposent des protocoles de sécurité robustes, des techniques de chiffrement et des contrôles d'accès pour protéger les données. Des outils tels que Privacera, Immuta et Okera sont des pionniers de la gouvernance, offrant des solutions avancées pour protéger les informations sensibles et maintenir l'intégrité des données.

Schéma des principales briques d'une Data Platform construite avec la Modern Data Stack


Pourquoi est-elle “moderne” ?

En s’appuyant sur les perspectives offertes par le cloud, la Modern Data Stack propose une approche innovante. Elle permet à chacun de se défaire des contraintes de hardware (matériel et infrastructures physiques) et de faire face à des volumes de données variables avec des coûts calculés selon l’usage.

Son architecture décentralisée et modulaire (par bloc) permet une approche itérative et de facilement débuter des projets data sur des petits périmètres, en testant différents outils et en choisissant les plus adaptés aux contraintes établies. Cette flexibilité est aujourd’hui un atout recherché dans beaucoup d’entreprises.

En rendant la donnée accessible à tous grâce à des outils d’exploration ne nécessitant pas ou peu de compétences techniques, la Modern Data Stack permet une exploitation poussée de la donnée dans tous les domaines et d'outrepasser les barrières pouvant exister entre les équipes métier et les équipes techniques.


Enfin, elle propose des fonctionnalités avancées mais accessibles, que ce soit par l’analyse de données en temps réel ou par l’utilisation de l'intelligence artificielle à partir d'algorithmes d’apprentissage, offrant la possibilité de faire de l'analyse prédictive, de la génération d’images ou du suivi en temps réel.



Quels sont les avantages de la Modern Data Stack par rapport à une data stack traditionnelle ?

Tout d’abord, la Modern Data Stack est moins onéreuse que les data stacks traditionnelles puisque les solutions basées sur le cloud suivent un modèle de paiement à l'utilisation

 

Les services cloud permettent à leurs clients de redimensionner dynamiquement leurs ressources presque instantanément et, ainsi, de les adapter en fonction de la demande et des besoins.

 

Cette fonctionnalité réduit considérablement les coûts initiaux des projets data puisqu’il n'est plus nécessaire de définir une capacité en amont du projet et de risquer un sur/sous dimensionnement.


Par exemple, pour un script de collecte de données s’exécutant chaque nuit, plutôt que de payer un serveur personnel qui consomme de l’énergie toute la journée et qui nécessite beaucoup de configuration et de maintenant, vous ne payez à l’hébergeur cloud la mobilisation d’une machine que pour les quelques minutes d’exécution. Si vous vous apercevez que la machine n’est pas assez puissante, vous pouvez augmenter sa puissance en quelques clics. 

 

Les nouvelles solutions cloud ont également permis de rendre le stockage de la donnée très peu onéreux.

 

Ainsi, les entreprises ont revu leur approche en termes de collecte de données et sont majoritairement passées d’une approche ETL (Extract-Transform-Load) dans laquelle elles retraitaient les données à la volée avant de les stocker engendrant des risques de perte d’information en cas d’erreur, à une approche ELT (Extract-Load-Transform) où toute la donnée collectée est stockée dans son état brut, puis transformée par la suite.

 

Cette dernière approche permet de conserver la donnée initiale et de prévenir tout risque de perte suite à des transformations.


En plus de cela, les data stacks ne sont plus limitées par les types de données, et sont maintenant capables de gérer facilement des données structurées (des données traitées avec un format et des colonnes définis), semi-structurées (des données brutes non formatées mais comportant des métadonnées sur leur contenu pour faciliter leur exploitation) et non structurées (des données brutes non retraitées) ; facilitant ainsi l'utilisation de sources diverses pour obtenir des informations.

Enfin, la modularité de la Modern Data Stack, apporte une grande flexibilité et chaque entreprise peut maintenant construire sa propre Data Stack en choisissant parmi le nombre vertigineux d’outils à sa disposition. Chaque outil est maintenant conçu pour être facile à mettre en place et à utiliser, avec une interface utilisateur intuitive et une documentation complète.

 

Le site Modern Data Stack présente un grand nombre de Data Stacks implémentées dans les entreprises et est un bon moyen de s’inspirer si vous ne savez pas par où commencer.

Ensemble des principaux outils de l’écosystème data, IA et Machine Learning en 2023
Ensemble des principaux outils de l’écosystème data, IA et Machine Learning en 2023.

 

À qui s’adresse la Modern Data Stack ?

Toute entreprise disposant de données peut se servir de la Modern Data Stack pour construire sa propre Data Stack. Cela lui permettra alors de faciliter la collaboration entre ses équipes (métier ou techniques) et de disposer d’avantages concurrentiels lui permettant une meilleure compréhension de son fonctionnement et de ses actions.

 

Contrairement aux data stacks traditionnelles, la Modern Data Stack s’adresse également aux petites entreprises qui recherchent la flexibilité, l'efficacité et la scalabilité sans avoir d’importants moyens financiers à accorder. Alors que par le passé, seules les grandes entreprises pouvaient se permettre ces solutions, il est aujourd’hui possible d’en profiter pour une dizaine d’euros par mois.

Quelle est la différence entre la Modern Data Stack et une Modern Data Platform ?

Les termes Data Platform et Data Stack sont parfois utilisés de manière interchangeable et cela peut mener à des confusions.

 

En théorie, une Data Platform est l'ensemble des composants à travers lesquels les données circulent, de leur collecte à leur restitution, tandis qu'une data stack est l'ensemble des outils qui servent ces composants.

L’adjectif “moderne” quant à lui est simplement utilisé pour caractériser les outils.

Une Modern Data Platform est donc composée des solutions de la Modern Data Stack.

Chez Modeo, nous sommes spécialisés dans la création de Modern Data Platform. Nous utilisons les outils de la Modern Data Stack pour accompagner les entreprises de toute taille dans la mise en place de leur stack data. Nous collaborons avec l’ensemble des équipes de nos clients pour choisir les bons outils, correspondants à leurs besoins et ainsi, permettre à chacun de bénéficier de la donnée et de sa valeur.

Retrouvez ici le podcast sur la Modern Data Stack de notre CEO, Matthieu Rousseau, au micro de Robin Conquet pour l’émission DataGen.




Si vous êtes intéressés par la Modern Data Stack ou si vous ne savez pas si elle conviendrait réellement à votre entreprise, contactez-nous !

Anina Saji
Technical Writer
Matthieu Willot
COO & Data Engineer
Cliquez sur "Accepter" pour nous permettre d'optimiser votre navigation sur le site.
Pour plus d'informations, veuillez consulter notre politique de confidentialité.