In Visualisation de données et le Analytique numérique Dernière mise à jourated:
Partager sur:
Logiciel Jira est l'outil de gestion de projet n°1 utilisé par les équipes agiles pour planifier, suivre, publier et prendre en charge d'excellents logiciels.

Apprenez tout ce que vous devez savoir sur l’analyse exploratoire des données, un outil essentiel process utilisé pour découvrir des tendances et des modèles et résumer des ensembles de données à l’aide de résumés statistiques et de représentations graphiques.

Comme tout projet, un science des données le projet est long process cela demande du temps, une bonne organisation et le respect scrupuleux de plusieurs étapes. L'analyse exploratoire des données (EDA) est l'une des étapes les plus importantes de cette démarche. process.

Par conséquent, dans cet article, nous examinerons brièvement ce qu'est l'analyse exploratoire des données et comment vous pouvez l'effectuer avec R !

Qu'est-ce que l'analyse exploratoire des données ?

Exploratoire l'analyse des données examine et étudie les caractéristiques d'un jeu de données avant de le soumettre à une application, qu'elle soit exclusivement métier, statistique ou machine learning.

Ce résumé de la nature de l'information et de ses principales particularités est usuel.ally effectué par des méthodes visuelles, telles que des représentations graphiques et des tableaux. La pratique est réalisée en amont précisément pour évaluer le potentiel de ces données, qui feront l'objet d'un traitement plus complexe dans le futur.

 L'EDA permet donc :

  • Formuleate hypothèses d’utilisation de ces informations ;
  • Explorez les détails cachés dans la structure des données ;
  • Identifier les valeurs manquantes, les valeurs aberrantes ou les comportements anormaux ;
  • Découvrez les tendances et les variables pertinentes dans leur ensemble ;
  • Jeter les variables non pertinentes ou les variables correlated avec d'autres;
  • Déterminer la modélisation formelle à utiliser.

Quelle est la différence entre DescriptAnalyse ive et exploratoire des données ?

Il existe deux types d'analyse de données, descriptl’analyse ive et l’analyse exploratoire des données, qui vont de pair, malgré des objectifs différents.

Alors que le premier se concentre sur la description du comportement des variables, par exemple, la moyenne, la médiane, le mode, etc.

L'analyse exploratoire vise à identifier les relations entre les variables, extraExaminez les informations préliminaires et orientez la modélisation vers les paradigmes d'apprentissage automatique les plus courants : classification, régression et clustering.

En commun, les deux peuvent traiter de la représentation graphique ; cependant, seule l'analyse exploratoire cherche à apporter des informations exploitables, c'est-à-dire des informations qui provoquent l'action du décideur.

finally, tandis que l'analyse exploratoire des données cherche à résoudre des problèmes et à apporter des solutions qui guideront les étapes de modélisation, descriptL'analyse ive, comme son nom l'indique, vise uniquement à produire une analyse détaillée description de l’ensemble de données en question.

DescriptAnalyse iveL'analyse exploratoire des données
Analyse le comportementAnalyse le comportement et la relation
Fournit un résumé Conduit à la spécification et aux actions
Organise les données dans des tableaux et des graphiquesOrganise les données dans des tableaux et des graphiques
N'a pas de pouvoir explicatif significatifPossède un pouvoir explicatif important

Quelques cas pratiques d'utilisation de l'EDA

# 1. Le marketing numérique

Marketing Numérique a évolué à partir d'un créateur process à une approche basée sur les données process. Les organisations de marketing utilisent l'analyse exploratoire des données pour déterminer les résultats des campagnes ou efforts et pour guider les investissements des consommateurs et les décisions de ciblage.

Les études démographiques, la segmentation de la clientèle et d'autres techniques permettent aux spécialistes du marketing d'utiliser de grandes quantités de données d'achat, d'enquête et de panel pour comprendre et communiquer.ate stratele marketing.

L'analyse exploratoire Web permet aux spécialistes du marketing de collecter des informations au niveau de la session sur les interactions sur un site Web. Google Analytics est un exemple d'outil d'analyse gratuit et populaire que les spécialistes du marketing utilisent à cette fin.

Les techniques exploratoires fréquemment utilisées en marketing comprennent la modélisation du marketing mix, les analyses de tarification et de promotion, l'optimisation des ventes et l'analyse exploratoire des clients, par exemple la segmentation.

#2. Analyse exploratoire du portefeuille

Une application courante de l'analyse exploratoire des données est l'analyse exploratoire du portefeuille. Une banque ou une agence de prêt a une collection de comptes de valeur et de risque variables.

Les comptes peuvent différer selon le statut social du titulaire (riche, classe moyenne, pauvre, etc.), l'emplacement géographique, la valeur nette et de nombreux autres facteurs. Le prêteur doit équilibrer le rendement du prêt avec le risque de défaut pour chaque prêt. La question devient alors de savoir comment valoriser le portefeuille dans son ensemble.

Le prêt le moins risqué est peut-être destiné aux personnes très riches, mais il existe un nombre très limité de personnes riches. D’un autre côté, de nombreux pauvres peuvent prêter, mais à moindre coût.ater risque.

La solution d'analyse exploratoire des données peut combiner l'analyse de séries chronologiques avec de nombreux autres problèmes pour décider quand prêter de l'argent à ces différents segments d'emprunteurs ou au rate de prêt. Des intérêts sont facturés aux membres d'un segment de portefeuille pour couvrir les pertes entre les membres de ce segment.

#3. Analyse exploratoire des risques

Des modèles prédictifs dans le secteur bancaire sont en cours de développement pour fournir une certitude sur les scores de risque pour les clients individuels. Cotes de crédit sont conçus pour prédire le comportement délinquant d'un individu et sont largement utilisés pour évaluer la solvabilité de chaque demandeur. 

Par ailleurs, des analyses de risques sont réalisées dans le monde scientifique et dans le secteur des assurances. Il est également largement utilisé dans les institutions financières telles que le paiement en ligne.atemoyen pour les entreprises d'analyser si une transaction est authentique ou frauduleuse.

À cette fin, ils utilisent l’historique des transactions du client. Il est plus couramment utilisé pour les achats par carte de crédit ; lorsqu'il y a une augmentation soudaine du volume de transactions client, le client reçoit un appel de confirmation s'il initieated la transaction. Cela contribue également à réduire les pertes dues à de telles circonstances.

Analyse exploratoire des données avec R

La première chose dont vous avez besoin pour effectuer EDA avec R est de télécharger R base et R Studio (IDE), puis d'installer et de charger les packages suivants :

#Installing Packages
install.packages("dplyr")
install.packages("ggplot2")
install.packages("magrittr") 
install.packages("tsibble")
install.packages("forecast")
install.packages("skimr")

#Loading Packages
library(dplyr)
library(ggplot2)
library(magrittr)
library(tsibble)
library(forecast)
library(skimr)

Pour ce didacticiel, nous utiliserons un ensemble de données économiques intégré à R et fournissant des données d'indicateurs économiques annuels de l'économie américaine, et changerons son nom en econ pour plus de simplicité :

econ <- ggplot2::economics

Pour effectuer la descriptanalyse ive, nous utiliserons le skimr paquet, qui calculeatePrésentez ces statistiques de manière simple et bien présentée :

#Descriptive Analysis
skimr::skim(econ)

Vous pouvez également utiliser la summary fonction pour descriptanalyse ive :

Ici, le descriptL'analyse ive montre 547 rows et 6 colonnes dans l'ensemble de données. La valeur minimale est pour le 1967/07/01 et la valeur maximale est pour le 2015/04/01. De même, il affiche également la valeur moyenne et l’écart type.

Vous avez maintenant une idée de base de ce qui se trouve à l'intérieur de l'ensemble de données econ. Traçons un histogramme de la variable uempmed pour mieux regarder les données:

#Histogram of Unemployment
econ %>%
  ggplot2::ggplot() +
  ggplot2::aes(x = uempmed) +
  ggplot2::geom_histogram() +
  labs(x = "Unemployment", title = "Monthly Unemployment Rate in US between 1967 to 2015")

La distribution de l'histogramme montre qu'il a une longueurated queue à droite ; c'est-à-dire qu'il existe peut-être quelques observations de cette variable avec des valeurs plus « extrêmes ». La question unrises : à quelle période ces valeurs ont-elles eu lieu, et quelle est l'évolution de la variable ?

Le moyen le plus direct d’identifier la tendance d’une variable consiste à utiliser un graphique linéaire. Ci-dessous, nous généronsate un graphique linéaire et ajoutez une ligne de lissage :

#Line Graph of Unemployment
econ %>%
  ggplot2::autoplot(uempmed) +
  ggplot2::geom_smooth()

À l'aide de ce graphique, nous pouvons identifier que dans la période la plus récente, dans les dernières observations de 2010, il y a une tendance à l'augmentation du chômage, dépassant l'histoire observée en prevde nombreuses décennies.

Un autre point important, notammentally dans des contextes de modélisation économétrique, est la stationnarité de la série ; c'est-à-dire, la moyenne et la variance sont-elles constantes dans le temps ?

Lorsque ces hypothèses ne sont pas vraies dans une variable, on dit que la série a une racine unitaire (non stationnaire) afin que les chocs que subit la variable génèrentate un effet permanent.

Cela semble avoir été le cas pour la variable en question, la durée du chômage. Nous avons vu que les fluctuations de la variable ont considérablement changé, ce qui a de fortes implications related aux théories économiques qui traitent des cycles. Mais, en partant de la théorie, comment mettre en pratiqueally vérifier si la variable est stationnaire ?

La forecast Le package a une excellente fonction permettant d'appliquer des tests, tels que ADF, KPSS et autres, qui renvoient déjà le nombre de différences nécessaires pour que la série soit stationnaire :

 #Using ADF test for checking stationarity
forecast::ndiffs( 
  x    = econ$uempmed,
  test = "adf")

Ici la valeur p greater supérieur à 0.05 montre que les données ne sont pas stationnaires.

Un autre problème important dans les séries chronologiques est l'identification des corrélations possibles (la relation linéaire) entre les valeurs décalées de la série. Les corrélogrammes ACF et PACF permettent de l'identifier.

Comme la série n'a pas de saisonnalité mais a une certaine tendance, les autocorrélations initiales ont tendance à être importantes et positives car les observations proches dans le temps sont également proches en valeur.

Ainsi, la fonction d'autocorrélation (ACF) d'une série chronologique tendancielle a tendance à avoir des valeurs positives qui diminuent lentement à mesure que les retards augmentent.

#Residuals of Unemployment 
checkresiduals(econ$uempmed) 
pacf(econ$uempmed)

Conclusion

Quand on met la main sur des données plus ou moins propres, c'est-à-dire déjà nettoyées, on est immédiatementateJe suis très tenté de me plonger dans la phase de construction du modèle pour en tirer les premiers résultats. Vous devez résister à cette tentation et commencer à procéder à une analyse exploratoire des données, qui est simple mais nous aide à tirer des informations puissantes sur les données.

Vous pouvez également explorer certaines des meilleures ressources pour apprendre statistiques pour la science des données.

Partager sur:
  • Talha Khalid
    Auteur
    Développeur web indépendant et passionnéate writer. Vous pouvez me suivre sur Medium : @Talhakhalid101

Merci à nos commanditaires

Plus de bonnes lectures sur la visualisation de données

Comment créerate Histogrammes dans Tableau
[Expliqué] Comment créerate Histogrammes dans Tableau

Travaillez-vous avec un énorme ensemble de données dans Tableau, et les graphiques à barres ne suffisent-ils pas pour visualiser les données efficacement ou pour dégager des informations exploitables à partir des visuels du graphique ? Vous pouvez aller plus loin et utiliser des histogrammes pour visualiser les informations que vous recherchez.

Alimentez votre entreprise

Certains des outils et services pour aider votre entreprise grow.
  • L'outil de synthèse vocale qui utilise l'IA pour générerate des voix humaines réalistes.

    Essayez Murf AI
  • Web scraping, proxy résidentiel, proxy manager, web unlocker, moteur de recherche et tout ce dont vous avez besoin pour collecter des données Web.

    Essayez Brightdata
  • Monday.com est un système d'exploitation de travail tout-en-un pour vous aider à gérer les projets, les tâches, le travail, les ventes, le CRM, les opérations, workflowset plus encore.

    Essayez Monday
  • Intruder est un scanner de vulnérabilités en ligne qui détecte les failles de cybersécurité de votre infrastructure, afin d'éviter des violations de données coûteuses.

    Essayez Intruder