Connaître le schéma majeur : Étoile ou flocon de neige

Le schéma multidimensionnel est conçu pour construire un modèle de système d’entrepôt de données.

L’objectif principal de ces schémas est de répondre aux besoins des grandes bases de données construites à des fins analytiques (OLAP).

Cette méthode est utilisée pour ordonner les données dans la base de données avec un bon arrangement du contenu d’une base de données. Le schéma permet aux clients de poser des questions liées aux tendances de l’entreprise ou du marché.

Par ailleurs, un schéma multidimensionnel représente les données sous la forme de cubes de données qui permettent de visualiser et de modéliser les données selon différentes perspectives et dimensions.

Il existe trois types de schémas, mais nombreux sont ceux qui confondent les schémas en étoile et les schémas en flocon de neige. Il leur est donc difficile de choisir le modèle préférable.

Si vous êtes l’un d’entre eux, examinons les différences entre le schéma en étoile et le schéma en flocon de neige, en commençant par la définition et en comprenant leurs avantages, leurs défis, leur diagramme et leurs caractéristiques.

Qu’est-ce qu’un schéma multidimensionnel ?

Le schéma fait référence à la description logique d’une base de données complète et de data marts. Il comprend le nom des enregistrements et leur description, y compris les agrégats et les éléments de données associés.

Une base de données utilise généralement un modèle relationnel pour décrire, tandis qu’un système d’entrepôt de données utilise un modèle de schéma.

Les schémas multidimensionnels peuvent être définis à l’aide du Data Mining Query Language (DMQL).

Pour définir les data marts et les entrepôts de données, il utilise deux primitives : la définition des dimensions et la définition des cubes.

Le schéma multidimensionnel utilise différents types de modèles de schéma. Il s’agit de

Schéma en étoile
Schéma en flocon de neige
Schéma en galaxie

Voyons ce que sont les schémas en étoile et en flocon de neige.

Étoile et flocon : Qu’est-ce que c’est ?

Qu’est-ce qu’un schéma en étoile ?

Un schéma en étoile est un modèle architectural d’entreposage de données et de veille stratégique qui nécessite une table de faits unique pour stocker les données mesurées et transactionnelles. Il utilise également différentes tables dimensionnelles plus petites pour contenir les attributs des données commerciales.

Il porte le nom de sa structure. Comme une étoile, la table des faits se trouve au centre du diagramme et les petites tables dimensionnelles sont comme des branches de la table centrale pour former une structure en étoile.

Chaque schéma en étoile se compose d’une seule table des faits et de plusieurs petites tables dimensionnelles. Les tables de faits contiennent des données spécifiques et mesurables qui doivent être analysées, telles que les performances enregistrées, les données financières ou les enregistrements des ventes. Il peut s’agir de données historiques instantanées ou transactionnelles.

En outre, le schéma Star est le plus simple et le plus fondamental parmi les entrepôts de données et les schémas de datamart. Il permet de traiter efficacement les requêtes de base. Le schéma Star prend généralement en charge la veille stratégique, les requêtes ad hoc, les applications analytiques et les cubes de traitement analytique en ligne.

Le schéma en étoile prend également en charge le comptage, la moyenne, la somme et d’autres agrégations de nombreux enregistrements. Les utilisateurs peuvent facilement filtrer et regrouper les agrégations par dimensions. Par exemple, les utilisateurs génèrent des requêtes telles que “trouver tous les enregistrements de ventes en juin” ou “analyser le revenu total du bureau XYZ en 2022”.

Qu’est-ce qu’un schéma en flocon de neige ?

Un schéma en flocon de neige est un modèle de données multidimensionnel qui peut également être considéré comme l’extension du schéma en étoile. En effet, dans le schéma en flocon de neige, les tables de dimensions se décomposent en sous-dimensions.

Un schéma est un flocon de neige si une ou plusieurs tables de dimensions ne sont pas directement liées à la table des faits, mais passent par d’autres tables de dimensions.

Le flocon de neige est un phénomène qui normalise les tables de dimension dans un schéma en étoile. Lorsque vous normalisez toutes les tables de dimensions, la structure résultante ressemble à un flocon de neige contenant une table de faits au milieu de la structure.

En d’autres termes, le schéma en flocon de neige consiste en une table de faits au milieu du modèle, qui est reliée à des tables de dimensions, elles-mêmes reliées à d’autres tables de dimensions. Ce schéma est utilisé pour améliorer les performances des requêtes.

Le modèle est créé pour permettre des requêtes rapides et flexibles sur des relations et des dimensions complexes. Il est utile pour les relations “un à plusieurs” et “plusieurs à plusieurs” entre les différents niveaux de dimension.

En raison du respect plus strict des normes de normalisation, vous obtiendrez une meilleure efficacité de stockage. Cependant, la redondance des données est négligeable et les performances sont faibles par rapport aux modèles de données dénormalisées comme le schéma en étoile.

Étoile ou flocon de neige : Comment fonctionnent-ils ?

Comment fonctionne un schéma en étoile ?

La table des faits située au centre du modèle en étoile stocke deux types d’informations : les valeurs numériques et les valeurs des attributs de dimension. Comprenons-les à l’aide de l’exemple d’une base de données de ventes.

Lesvaleurs numériques sont uniques pour chaque ligne et chaque point de données. Elles ne sont pas en corrélation avec les données stockées dans une autre ligne. Il s’agit de faits relatifs à une transaction donnée, tels que le montant total, la quantité commandée, l’heure exacte, le bénéfice net, l’identifiant de la commande, etc.
Lesvaleurs d’attributs dimensionnels ne stockent pas de données directement, mais plutôt des valeurs de clés étrangères pour la ligne d’une table dimensionnelle. Différentes lignes de la table centrale feront référence à ces informations, telles que la valeur des données, l’ID du vendeur, l’ID de la succursale, l’ID du produit, etc.

Les tables dimensionnelles stockent toujours des informations complémentaires provenant de la table des faits. Chaque table dimensionnelle se rapporte à la colonne d’une table de faits avec une valeur dimensionnelle et stocke des données supplémentaires sur cette valeur.

Exemple : La table dimensionnelle des employés utilise l’ID de l’employé comme valeur clé et contient également des informations telles que le nom, le sexe, l’adresse et le numéro de téléphone. De même, une table de dimension produit stocke des informations telles que le nom du produit, la couleur, la date de première mise sur le marché, le coût de fabrication, etc.

Comment fonctionne un schéma en flocon de neige ?

Imaginez un flocon de neige avec une boîte centrale et différentes connexions à travers cette boîte vers différents points. La conception d’ un schéma en flocon de neige entre en jeu dans la gestion des marts de données et des entrepôts de données.

Il est similaire au schéma en étoile, mais avec de légères modifications. Contrairement au schéma en étoile, le schéma en flocon de neige étend ses tables de sous-dimension, qui sont liées aux tables de dimension.

L’objectif principal de ce modèle est de normaliser les informations dénormalisées du modèle en étoile. Il permet ainsi de résoudre les problèmes courants associés à un schéma en étoile.

Au cœur du schéma, vous trouverez une table de faits qui est liée aux informations contenues dans les tables de dimensions. Ces tables rayonnent à nouveau vers les tables de sous-dimension qui contiennent des informations détaillées décrivant les informations de la table de dimension.

Exemple : Le schéma du flocon de neige contient une table de faits sur les ventes et des tables de dimensions sur l’emplacement du magasin, la ligne, la famille, le produit et l’heure. Les dimensions du marché consistent en deux tables de dimension, avec le magasin comme table de dimension primaire et l’emplacement du magasin comme table de sous-dimension. La dimension produit comporte trois tables de sous-dimension mentionnant une table de sous-dimension produit, ligne et famille.

Étoile ou flocon de neige : Caractéristiques

Caractéristiques du schéma en étoile

Le schéma en étoile peut filtrer les données à partir de données normalisées pour répondre aux besoins de l’entrepôt de données. La clé unique est générée à partir des informations associées à chaque table de faits pour identifier chaque ligne.
Il permet des calculs et des agrégations rapides, tels que les revenus obtenus et le total des articles vendus à la fin de chaque mois. Ces détails peuvent être filtrés en fonction des besoins en formulant des requêtes appropriées.
Il s’agit de la mesure d’événements qui comprennent des valeurs en nombre fini, constituées de la clé étrangère. Ces clés sont liées aux tables dimensionnelles. Il existe différents types de tables de faits qui contiennent des valeurs à un niveau atomique.
La table des faits de transaction contient des données sur des événements spécifiques, tels que les ventes et les vacances.
Les faits d’enregistrement concernent des périodes données, comme les informations sur les comptes à la fin de l’année ou de chaque trimestre.
La table dimensionnelle fournit des données détaillées sur les attributs ou les enregistrements trouvés dans la table centrale.
L’utilisateur est capable de concevoir lui-même une table en fonction de ses besoins.
Vous pouvez utiliser le schéma en étoile pour accumuler des tableaux instantanés.

Caractéristiques du schéma en flocon de neige

Le schéma en flocon de neige nécessite peu d’espace disque.
Ce modèle est facile à mettre en œuvre grâce à ses tables de dimensions principales et séparées.
Les tables de dimension contiennent au moins deux attributs pour définir les informations à plusieurs grains.
En raison de la multiplicité des tables, les performances sont moindres que celles du schéma en étoile.
Le schéma en flocon de neige présente le niveau d’intégrité des données le plus élevé et peu de redondances grâce à la normalisation.

Étoile vs. flocon de neige : Avantages

Avantages du schéma en étoile

Le schéma en étoile est le plus simple des schémas de datamart.
Il possède une logique de reporting simple. Cette logique est implicite de manière dynamique.
Il est conçu à l’aide de cubes d’alimentation appliqués par le biais du processus de transaction en ligne pour que les cubes fonctionnent de manière efficace et efficiente.
Le schéma en étoile est formé avec une logique et des requêtes simples qui sont faciles à extraire du processus transactionnel.
Il offre des performances accrues pour les applications de reporting.
Il est déployé pour contrôler la récupération rapide des données.
Les informations filtrées et sélectionnées peuvent être appliquées facilement dans différents cas.

Avantages du schéma Snowflake

Le schéma en étoile est utilisé pour développer les performances des requêtes en raison de la réduction des besoins en stockage sur disque.
Il offre une plus grande évolutivité dans les relations entre les composants et les niveaux de dimension.
Il est plus facile à maintenir.
Le schéma en étoile permet une récupération rapide des données.
Il s’agit d’un schéma de données commun et simple pour l’entreposage de données.
Il permet d’améliorer la qualité des données.
Les données structurées réduisent le problème de l’intégrité des données.

Star vs. Snowflake : Limites

Limites du schéma en étoile

Il présente un état de dénormalisation et d’intégrité élevé. L’ensemble du processus s’effondre si l’utilisateur ne parvient pas à mettre à jour les données. La sécurité et les protections sont également limitées. En outre, le schéma en étoile n’est pas aussi flexible que le modèle analytique. Il n’offre pas un soutien efficace aux différentes relations.

Limites du schéma Snowflake

La principale limite du schéma Snowflake est le surcroît d’efforts de maintenance dû au nombre croissant de petites tables de dimension. De nombreuses requêtes complexes rendent difficile la recherche des données requises. En outre, le temps de mise en œuvre de la question est élevé en raison du nombre élevé de tables. Ce modèle est également rigide et nécessite des coûts de maintenance plus élevés.

Étoile ou flocon de neige : Différences

L’étoile et le flocon de neige sont des types de schémas multidimensionnels, mais leurs structures et leurs propriétés sont différentes. Le premier ressemble à une étoile et le second à un flocon de neige, d’où leur nom.

Dans le schéma en étoile, seule une jointure unique permet d’établir une relation entre la table de faits centrale et les tables de dimensions latérales. En revanche, dans le schéma en flocon de neige, plusieurs jointures sont nécessaires pour établir un lien avec les tables de dimensions.

Le schéma en étoile est généralement utilisé lorsque le nombre de lignes dans la table de dimension est faible, tandis que le schéma en flocon est utilisé lorsque la table de dimension est relativement grande.

Le diagramme ci-dessous différencie les deux modèles et montre comment les tables de dimensions et la table des faits sont liées dans des schémas différents.

Paramètres	Schéma en étoile	Schéma en flocon de neige
Espace disque	Le schéma en étoile utilise plus d’espace disque.	Le schéma Snowflake utilise moins d’espace disque.
Redondance des données	La redondance des données est élevée.	La redondance des données est faible.
Normalisation	Les tables de dimensions sont dénormalisées, c’est-à-dire qu’elles répètent la même valeur dans la table.	Les tables de dimensions sont entièrement normalisées.
Performance des requêtes	L’exécution des requêtes prend un minimum de temps, ce qui se traduit par de meilleures performances.	L’exécution des requêtes prend plus de temps que pour le schéma en étoile, ce qui le rend moins performant que ce dernier.
Complexité des requêtes	La complexité des requêtes est faible.	La complexité des requêtes est supérieure à celle du schéma en étoile.
Maintenance	En raison de la redondance élevée des données, la maintenance du schéma en étoile est un peu difficile.	En raison de la faible redondance des données, il est facile de maintenir et de modifier le schéma en flocon de neige.
Intégrité des données	L’intégrité des données est élevée parce que les données sont stockées de manière redondante et qu’il existe plusieurs copies dans les tables de dimension.	L’intégrité des données est faible car les tables de dimension sont complètement normalisées.
Hiérarchies	Les hiérarchies des tables de dimension du schéma en étoile sont stockées dans la table de dimension.	Les hiérarchies sont divisées en tables de dimension distinctes.
Conception de la base de données	La conception de la base de données est simple.	La conception de la base de données est très complexe.
Table des faits	Plusieurs tables de dimensions entourent une table de faits.	La table des faits est entourée de tables de dimensions qui sont également entourées de tables de sous-dimensions.
Mise en place	Le schéma en étoile est facile à concevoir et à mettre en place, car il est représenté par des relations directes.	En revanche, le schéma en flocon de neige est un peu plus complexe à mettre en place.
Traitement des cubes	Le traitement des cubes est plus rapide.	En raison de la complexité des jointures, le traitement des cubes est un peu lent.
Clés étrangères	Le nombre de clés étrangères est minimal.	Le nombre de clés étrangères est maximal.

Conclusion

Les schémas en étoile et en flocon de neige sont tous deux utiles dans différents secteurs. Le choix du meilleur d’entre eux dépend donc de vos besoins.

Le schéma en flocon de neige est l’extension du schéma en étoile, dans lequel il normalise les tables de dimensions du schéma en étoile.

Le schéma en étoile est simple dans sa conception, il exécute les requêtes plus rapidement et sa configuration est facile. En revanche, le schéma en flocon de neige est plus facile à maintenir, occupe moins d’espace disque et est moins sujet aux problèmes d’intégrité des données.

Le schéma en étoile peut donc être la meilleure option si vous avez besoin d’une conception simple, de moins de clés étrangères et d’un traitement plus rapide des cubes. En revanche, si vous avez besoin de moins d’espace disque, d’une faible intégrité des données et d’une maintenance réduite, le schéma en flocon de neige peut s’avérer plus adapté.

Vous pouvez également explorer les meilleures solutions de bases de données graphiques.

Durga Prasad Acharya
Contributeur
- LinkedIn
Durga Prasad Acharya est un rédacteur technologique senior B2B qui aime écrire sur les applications professionnelles et l’hébergement. Outre l’écriture, il est concepteur de sites web et se passionne pour le cinéma, les voitures et la cuisine.