Geekflare est soutenu par son public. Nous pouvons percevoir des commissions d'affiliation sur les liens d'achat présents sur ce site.
En Gestion des données Dernière mise à jour : 24 septembre 2023
Partager sur :
Invicti Web Application Security Scanner - la seule solution qui offre une vérification automatique des vulnérabilités avec Proof-Based Scanning™.

Microsoft a transformé ses services Azure en solutions en nuage de qualité professionnelle intégrant des fonctionnalités de pointe telles que la gestion et l'analyse des données.

Microsoft a lancé Azure SQL Data Warehouse lorsqu'elle a pris la décision d'utiliser le cloud. Microsoft pousse Azure SQL Data Warehouse avec beaucoup d'énergie. Il s'agit d'un service de gestion de base de données flexible qui associe des fonctions d'entrepôt de données élastiques.

Qu'est-ce que Azure SQL Data Warehouse ?

Qu'est-ce que l'entrepôt de données SQL-Azure-1 ?

Azure SQL Data Warehouse (désormais appelé Azure Synapse Dedicated SQL Pool), un entrepôt de données basé sur le cloud, vous permet de créer et de fournir un entrepôt de données sur Microsoft Azure. Azure Data Warehouse peut traiter de grandes quantités de données relationnelles et non relationnelles. Il offre des fonctionnalités d'entrepôt de données SQL et une plateforme de informatique en nuage.

Il prend en charge les serveurs SQL en mode natif et permet de migrer les serveurs SQL existants vers SQL Data Warehouse. Vous pouvez également utiliser les mêmes requêtes et constructions. En outre, les abonnés ont un accès instantané à la mise à l'échelle, à la mise en pause et à la réduction de leurs ressources d'entrepôt de données.

Il est utilisé pour fournir une solution complète d'entrepôt de données SQL de classe entreprise. Il peut également être utilisé de la manière suivante :

  • Migration d'entrepôts de données existants (sur site) vers le cloud
  • Fournir une solution d'entrepôt de données aux applications et aux services qui ont besoin de stocker et d'extraire des données au moment de l'exécution, comme les applications web.
  • Une solution d'entrepôt de données hybride qui se connecte à Azure-Hosted Data Warehouse et à SQL Server sur site.

La meilleure caractéristique d'Azure SQL Data Warehouse est sa nature élastique. Il permet l'évolutivité et la possibilité de gérer séparément les ressources de stockage et de calcul. Cela crée une plateforme gagnant-gagnant où les utilisateurs ne paient que pour ce qu'ils utilisent et quand ils l'utilisent.

L'aspect informatique d'Azure SQL Data Warehouse est basé sur l'unité d'entrepôt de données (DWU), qui suit les ressources de calcul telles que les E/S de stockage et la mémoire sur tous les nœuds de calcul participants.

Azure SQL Data Warehouse offre une fonction de sécurité des connexions. Celle-ci vous permet de limiter l'accès à des adresses IP spécifiques ou à des plages d'adresses IP à l'aide de règles de pare-feu. L'intégration avec l'authentification Azure Active Directory (AAD) vous permettra de vous connecter à Azure SQL Data Warehouse en utilisant les identités d'Azure AD.

Le cryptage multicouche assure une protection au repos, en mouvement et en cours d'utilisation afin d'éviter que vos données ne soient utilisées à mauvais escient. Des outils supplémentaires sont disponibles pour auditer et surveiller les données et identifier les failles de sécurité.

Combiné à d'autres outils Microsoft, Azure SQL Data Warehouse offre des performances inégalées, ce qui constitue un avantage majeur par rapport à d'autres services comparables sur le marché.

Pool SQL dédié Azure Synapse

Azure Synapse SQL Pool Dedicated SQL Pool (anciennement Azure SQL Data Warehouse) est une banque de données à traitement massivement parallèle similaire aux technologies de bases de données scale-out basées sur des colonnes, telles que Flocon de neige et Amazon Redshift. Pour l'utilisateur final, il ressemble à un serveur SQL traditionnel, mais il ne stocke pas et ne traite pas les données sur un seul nœud.

Cela peut améliorer considérablement les performances des entrepôts de données dont la taille dépasse quelques téraoctets, mais il peut y avoir de meilleures solutions pour les implémentations plus petites.

L'architecture sous-jacente est très différente des serveurs SQL traditionnels. Cela signifie que la syntaxe et les méthodes de développement sont également différentes.

Les distributions sont mappées sur des nœuds de calcul dans un pool SQL dédié. Le pool réaffecte vos distributions aux nœuds de calcul au fur et à mesure que vous achetez des ressources informatiques supplémentaires.

Vous pouvez importer des données volumineuses à l'aide de simples requêtes SQL PolyBase, puis utiliser le moteur de requêtes distribué pour des analyses de haute performance.

Le pool SQL dédié, anciennement SQL DW, fournira à votre entreprise une source unique de vérité qui vous permettra d'intégrer et d'analyser les données plus rapidement et de fournir des informations plus solides.

Quelle est la différence entre les pools SQL dédiés d'Azure Synapse et les pools SQL dédiés d'un espace de travail Azure Synapse Analytics ?

Espace de travail Azure-Synapse-Analytics

PowerShell est l'un des domaines les plus confus dans la documentation entre "le pool SQL dédié (anciennement SQLDW) et les pools SQL dédiés de Synapse Analytics".

L'implémentation originale de SQL DW utilise un serveur logique similaire à Azure SQL DB. Un module PowerShell nommé Az.Sql est partagé.

Ce module crée un nouveau pool SQL (anciennement SQLDW) à l'aide de la cmdlet New.AzSqlDatabase. Il dispose d'un paramètre "Edition" qui vous permet de spécifier que vous voulez un DataWarehouse.

Synapse Analytics a été livré avec un nouveau module PowerShell de Az.Synapse lors de sa sortie. Pour créer un pool SQL dédié dans un espace de travail Synapse Analytics, vous devez utiliser New-AzSynapseSqlPool.

Ce module PowerShell n'exige pas que vous incluiez le paramètre "Edition", car il n'est utilisé que pour les artefacts Synapse.

Un pool SQL dédié fournit des capacités de calcul et de stockage basées sur T-SQL. Les données peuvent être chargées, modélisées et traitées dans Synapse afin de fournir une vision plus rapide.

Azure Synapse propose des pools Serverless SQL et Apache Spark en plus des pools SQL dédiés. Vous pouvez choisir celui qui vous convient en fonction de vos besoins.
Un pool SQL sans serveur vous permet d'interroger les données stockées dans votre lac de données.

Que fait le pool SQL dédié d'Azure Synapse ?

Que fait le pool SQL dédié à Azure-Synapse ?

Azure Synapse Dedicated SQL Pool utilise une architecture scale-out pour distribuer le calcul des données sur plusieurs nœuds. Vous pouvez faire évoluer le calcul indépendamment du stockage, car le calcul est distinct du stockage.

Les pools SQL sans serveur sont sans serveur et évoluent automatiquement pour répondre aux besoins en ressources des requêtes. Ils s'adaptent aux topologies changeantes en ajoutant, supprimant ou remplaçant des nœuds. Cela garantit que votre requête dispose de ressources suffisantes et qu'elle peut être exécutée avec succès.

Synapse SQL repose sur une architecture basée sur les nœuds. Synapse SQL utilise une architecture basée sur les nœuds. Les applications peuvent se connecter au nœud de contrôle et émettre des commandes T-SQL. Il s'agit d'un point unique pour Synapse SQL.

Les nœuds de contrôle Azure Synapse SQL utilisent un moteur de requête distribué qui optimise les requêtes pour le traitement parallèle et transmet ensuite les opérations aux nœuds de calcul afin qu'ils puissent effectuer leur travail en parallèle.

Le nœud de contrôle du pool SQL sans serveur utilise le moteur de traitement des requêtes distribuées (DQP) pour optimiser et orchestrer l'exécution distribuée.

Pour ce faire, il divise la requête de l'utilisateur en requêtes plus petites qui peuvent être exécutées sur les nœuds de calcul. Chaque tâche est une unité d'exécution distribuée. Elle récupère les données des autres tâches, regroupe les fichiers et les lit à partir du stockage.

Les nœuds de calcul stockent toutes les données de l'utilisateur et exécutent des requêtes parallèles. Data Movement Service (DMS), un service interne au niveau du système, déplace les données entre les nœuds afin de permettre des requêtes parallèles et de renvoyer des résultats précis.

Synapse SQL utilise Azure Storage pour la sécurité des données des utilisateurs. Azure Storage stocke et gère vos données. L'utilisation du stockage est facturée séparément.

Caractéristiques des pools SQL dédiés d'Azure Synapse

Voici les principales caractéristiques du pool SQL d'Azure Synapse :

  • Vous pouvez consulter les données dans différents formats tels que Parquet, JSON et CSV dans le lac de données.
  • Les utilisateurs peuvent consulter les données les plus récentes en utilisant une abstraction relationnelle.
  • T-SQL vous permet de transformer les données dans le lac d'une manière simple et évolutive
  • Les scientifiques des données peuvent rapidement examiner la structure et le contenu des données du lac à l'aide d'OPENROWSET ou de fonctions d'inférence de schéma automatique.
  • Les ingénieurs de données peuvent utiliser le pool pour explorer le lac et transformer, créer ou simplifier leurs pipelines de transformation de données.
  • Les analystes de données peuvent accéder aux données et aux tables externes via le langage T-SQL et d'autres outils familiers. Ces outils peuvent également être connectés à un pool SQL sans serveur.
  • Les professionnels de lInformatique décisionnelle peuvent générer instantanément des rapports BI sur les tables Spark ou le lac de données.

Pool SQL dédié Vs. Pool SQL sans serveur

Pool SQL sans serveur

Les espaces de travail Azure Synapse disposent d'un pool SQL sans serveur qui agit comme un service de requête sur les lacs de données. Il ne nécessite aucune configuration supplémentaire pour accéder aux données. Il est entièrement sans serveur et ne nécessite aucune infrastructure à mettre en place ou à maintenir.

La mise à l'échelle peut se faire automatiquement pour répondre aux besoins en ressources. L'utilisateur ne paie que pour les données traitées et non pour les ressources réservées. Le pool SQL sans serveur crée également des statistiques pour optimiser l'exécution des requêtes.

Par exemple, lorsque nous exécutons une requête deux fois ou que nous exécutons deux requêtes avec des plans d'exécution similaires, ces statistiques peuvent être réutilisées.
Ces fonctionnalités nous permettent d'analyser rapidement de grandes quantités de données sans les copier ou les charger dans un magasin particulier.

Pool SQL dédié

Le pool SQL dédié Synapse est le successeur d'Azure SQL Data Warehouse et offre toutes les fonctionnalités dStockage de données d'entreprise. Cependant, il n'y a pas de pool SQL sans serveur. Au lieu de cela, les utilisateurs doivent créer et supprimer le pool SQL dédié de Synapse. Nous pouvons également choisir les ressources qu'il utilisera.

Ces ressources sont mesurées à l'aide des pools SQL dédiés de Synapse. Elles sont appelées unités d'entreposage de données (DWU). Une DWU est une combinaison de ressources CPU, mémoire et IO.

Le nombre de DWU détermine la performance et le coût du pool. Au lieu d'être facturés par requête, nous serons facturés pour tout le temps où le pool est actif, quelle que soit la quantité de travail qu'il a effectuée.

Pour éviter les coûts supplémentaires, les pools dédiés peuvent être arrêtés et redémarrés. Nous avons créé un pool SQL dédié de 100 DWU pour notre test.

Une fois le pool créé, les données peuvent y être chargées à l'aide de la commande COPY, de PolyBase avec des requêtes T-SQL ou d'un pipeline. Ces données seront stockées en colonnes dans des tables relationnelles.

Pool SQL dédiéPool SQL sans serveur
Il vous permet d'interroger le lac de données et de l'ingérer.Les utilisateurs peuvent interroger les fichiers du lac de données.
Une infrastructure est nécessaire.Il n'est pas nécessaire d'établir une infrastructure ou de maintenir des clusters.
Avant de pouvoir effectuer toute opération, il est nécessaire d'obtenir des serveurs dédiés.Aucune infrastructure n'est nécessaire pour la transformation ou l'exploration des données.
Les tables relationnelles sont utilisées pour stocker les données.Le lac de données stocke les données.
Vous pouvez gérer les coûts en mettant en pause le pool SQL et en réduisant la taille de l'entrepôt.Le coût est automatiquement pris en charge et facturé sur la base d'un paiement à la demande.
Les ressources réservées sont soumises à des coûts.Les coûts de traitement des données par requête sont facturés.
Payez par DWU provisionnée.Payez par TB traité.

Conclusion

Voilà pour ce qui est d'Azure SQL Data Warehouse (désormais appelé Azure Synapse Dedicated SQL Pool). Bien qu'un pool SQL dédié puisse ressembler à un serveur SQL traditionnel sous de nombreux angles, l'architecture sous-jacente (traitement massivement parallèle) est entièrement différente. Cela signifie que certains concepts et techniques ne sont applicables qu'à un Dedicated SQL Pool.

Vous pouvez également explorer les différences entre le lac de données et l'entrepôt de données.

  • Avi
    Auteur
    Avi est un passionné de technologie avec une expertise dans les technologies en vogue telles que DevOps, Cloud Computing, Big Data et bien d'autres. Il est passionné par l'apprentissage des technologies de pointe et le partage de ses connaissances avec d'autres... en savoir plus
Merci à nos sponsors
Autres lectures intéressantes sur la gestion des données
Alimentez votre entreprise
Quelques outils et services pour aider votre entreprise à se développer.
  • Invicti utilise le Proof-Based Scanning™ pour vérifier automatiquement les vulnérabilités identifiées et générer des résultats exploitables en quelques heures seulement.
    Essayez Invicti
  • Web scraping, proxy résidentiel, proxy manager, web unlocker, search engine crawler, et tout ce dont vous avez besoin pour collecter des données web.
    Essayez Brightdata
  • Monday.com est un système d'exploitation tout-en-un qui vous aide à gérer vos projets, vos tâches, votre travail, vos ventes, votre CRM, vos opérations, vos flux de travail et bien plus encore.
    Essayez le lundi
  • Intruder est un scanner de vulnérabilité en ligne qui détecte les faiblesses de votre infrastructure en matière de cybersécurité, afin d'éviter des violations de données coûteuses.
    Essayer l'intrus