Erfahren Sie alles, was Sie über die explorative Datenanalyse wissen müssen, ein wichtiger Prozess, der dazu dient, Trends und Muster zu entdecken und Datensätze mit Hilfe von statistischen Zusammenfassungen und grafischen Darstellungen zusammenzufassen.
Wie jedes Projekt ist auch ein datenwissenschaftliches Projekt ein langwieriger Prozess, der Zeit, eine gute Organisation und die gewissenhafte Einhaltung mehrerer Schritte erfordert. Die explorative Datenanalyse (EDA) ist einer der wichtigsten Schritte in diesem Prozess.
Daher werden wir in diesem Artikel kurz darauf eingehen, was eine explorative Datenanalyse ist und wie Sie sie mit R durchführen können!
Was ist eine explorative Datenanalyse?
Bei der explorativen Datenanalyse werden die Merkmale eines Datensatzes untersucht und studiert, bevor er einer Anwendung zugeführt wird, unabhängig davon, ob es sich um eine rein geschäftliche, statistische oder maschinelle Lernanwendung handelt.

Diese Zusammenfassung der Art der Informationen und ihrer wichtigsten Besonderheiten erfolgt in der Regel mit visuellen Methoden, wie grafischen Darstellungen und Tabellen. Diese Praxis wird im Voraus durchgeführt, um das Potenzial dieser Daten zu bewerten, die in Zukunft eine komplexere Behandlung erfahren werden.
Die EDA ermöglicht auch:
- Hypothesen für die Verwendung dieser Informationen zu formulieren;
- Verborgene Details in der Datenstruktur zu erkunden;
- Fehlende Werte, Ausreißer oder abnormales Verhalten zu identifizieren;
- Trends und relevante Variablen als Ganzes zu entdecken;
- Verwerfen Sie irrelevanter oder mit anderen korrelierter Variablen;
- Bestimmen Sie die zu verwendende formale Modellierung.
Was ist der Unterschied zwischen der deskriptiven und der explorativen Datenanalyse?
Es gibt zwei Arten der Datenanalyse, die deskriptive und die explorative Datenanalyse, die Hand in Hand gehen, obwohl sie unterschiedliche Ziele verfolgen.
Während sich die erste darauf konzentriert, das Verhalten von Variablen zu beschreiben, z.B. Mittelwert, Median, Modus, usw.
Die explorative Analyse zielt darauf ab, Beziehungen zwischen Variablen zu identifizieren, erste Erkenntnisse zu gewinnen und die Modellierung auf die gängigsten Paradigmen des maschinellen Lernens auszurichten: Klassifizierung, Regression und Clustering.
Beiden gemeinsam ist, dass sie sich mit grafischen Darstellungen begnügen können. Allerdings zielt nur die explorative Analyse darauf ab, verwertbare Erkenntnisse zu gewinnen, d.h. Erkenntnisse, die den Entscheidungsträger zum Handeln veranlassen.
Während die explorative Datenanalyse Probleme lösen und Lösungen liefern soll, an denen sich die Modellierungsschritte orientieren, zielt die deskriptive Analyse, wie ihr Name schon sagt, nur auf eine detaillierte Beschreibung des betreffenden Datensatzes ab.
Deskriptive Analyse | Explorative Datenanalyse |
Analysiert das Verhalten | Analysiert Verhalten und Beziehung |
Liefert eine Zusammenfassung | Führt zu Spezifikationen und Aktionen |
Organisiert Daten in Tabellen und Diagrammen | Organisiert die Daten in Tabellen und Diagrammen |
Hat keine signifikante Erklärungskraft | Hat eine signifikante Erklärungskraft |
Einige praktische Anwendungsfälle von EDA
#1. Digitales Marketing
Dasdigitales Marketing hat sich von einem kreativen Prozess zu einem datengesteuerten Prozess entwickelt. Marketingorganisationen nutzen die explorative Datenanalyse, um die Ergebnisse von Kampagnen oder Bemühungen zu ermitteln und um Entscheidungen über Investitionen und die Ausrichtung auf Kunden zu treffen.
Demografische Studien, Kundensegmentierung und andere Techniken ermöglichen es Marketingfachleuten, große Mengen an Kauf-, Umfrage- und Paneldaten von Verbrauchern zu nutzen, um Marketingstrategien zu verstehen und zu kommunizieren.
Mit der explorativen Webanalyse können Marketingfachleute Informationen über die Interaktionen auf einer Website auf Sitzungsebene sammeln. Google Analytics ist ein Beispiel für ein kostenloses und beliebtes Analysetool, das Vermarkter zu diesem Zweck verwenden.
Zu den im Marketing häufig verwendeten explorativen Techniken gehören die Modellierung des Marketing-Mix, Preis- und Werbeanalysen, die Verkaufsoptimierung und die explorative Kundenanalyse, z.B. die Segmentierung.
#2. Explorative Portfolio-Analyse
Eine häufige Anwendung der explorativen Datenanalyse ist die explorative Portfolioanalyse. Eine Bank oder ein Kreditinstitut verfügt über eine Sammlung von Konten mit unterschiedlichem Wert und Risiko.
Die Konten können sich je nach sozialem Status des Inhabers (reich, Mittelschicht, arm usw.), geografischem Standort, Nettovermögen und vielen anderen Faktoren unterscheiden. Der Kreditgeber muss die Rendite des Kredits mit dem Ausfallrisiko für jeden Kredit abwägen. Die Frage ist dann, wie das Portfolio als Ganzes zu bewerten ist.
Der Kredit mit dem geringsten Risiko ist vielleicht für sehr wohlhabende Menschen, aber es gibt nur eine sehr begrenzte Anzahl von wohlhabenden Menschen. Auf der anderen Seite können viele arme Menschen einen Kredit aufnehmen, allerdings mit einem höheren Risiko.
Die Lösung für die explorative Datenanalyse kann die Zeitreihenanalyse mit vielen anderen Problemen kombinieren, um zu entscheiden, wann diesen verschiedenen Segmenten von Kreditnehmern Geld geliehen werden soll oder wie hoch der Kreditzins ist. Die Zinsen werden den Mitgliedern eines Portfoliosegments in Rechnung gestellt, um Verluste unter den Mitgliedern dieses Segments zu decken.
#3. Explorative Risikoanalyse
Prädiktive Modelle im Bankwesen werden entwickelt, um Gewissheit über die Risikoeinstufung einzelner Kunden zu erlangen. Kreditscores dienen der Vorhersage des Zahlungsverhaltens einer Person und werden häufig zur Bewertung der Kreditwürdigkeit eines Antragstellers verwendet.
Darüber hinaus wird die Risikoanalyse auch in der Wissenschaft und in der Versicherungsbranche eingesetzt. Auch in Finanzinstituten wie Online-Zahlungsgateway-Unternehmen wird sie häufig eingesetzt, um zu analysieren, ob eine Transaktion echt oder betrügerisch ist.
Zu diesem Zweck verwenden sie die Transaktionshistorie des Kunden. Bei einem plötzlichen Anstieg des Transaktionsvolumens erhält der Kunde einen Bestätigungsanruf, wenn er die Transaktion veranlasst hat. Dies hilft auch, Verluste aufgrund solcher Umstände zu reduzieren.
Explorative Datenanalyse mit R
Um EDA mit R durchzuführen, müssen Sie zunächst R Base und R Studio (IDE) herunterladen und anschließend die folgenden Pakete installieren und laden:
#Installation von Paketen
install.packages("dplyr")
install.packages("ggplot2")
install.packages("magrittr")
install.packages("tsibble")
install.packages("forecast")
install.packages("skimr")
#Loading Packages
library(dplyr)
library(ggplot2)
library(magrittr)
library(tsibble)
library(forecast)
library(skimr)
Für dieses Tutorial werden wir einen Wirtschaftsdatensatz verwenden, der in R integriert ist und jährliche Wirtschaftsindikatoren für die US-Wirtschaft liefert. Der Einfachheit halber ändern wir den Namen in econ:
econ <- ggplot2::economics

Zur Durchführung der deskriptiven Analyse verwenden wir das Paket skimr
, das diese Statistiken auf einfache und übersichtliche Weise berechnet:
#Deskriptive Analyse
skimr::skim(econ)

Sie können auch die Funktion summary
für die deskriptive Analyse verwenden:

Hier zeigt die deskriptive Analyse 547 Zeilen und 6 Spalten im Datensatz. Der Minimalwert ist für den 1967-07-01 und der Maximalwert für den 2015-04-01. Ebenso werden der Mittelwert und die Standardabweichung angezeigt.
Jetzt haben Sie eine Vorstellung davon, was im econ-Datensatz enthalten ist. Lassen Sie uns ein Histogramm der Variable uempmed
erstellen, um einen besseren Überblick über die Daten zu erhalten:
#Histogramm der Arbeitslosigkeit
econ %>%
ggplot2::ggplot()
ggplot2::aes(x = uempmed)
ggplot2::geom_histogram()
labs(x = "Arbeitslosigkeit", title = "Monatliche Arbeitslosenquote in den USA zwischen 1967 und 2015")

Die Verteilung des Histogramms zeigt, dass es einen verlängerten Schwanz auf der rechten Seite hat, d.h. es gibt möglicherweise einige wenige Beobachtungen dieser Variable mit "extremeren" Werten. Es stellt sich die Frage, in welchem Zeitraum diese Werte aufgetreten sind und wie der Trend der Variable aussieht
Der direkteste Weg, den Trend einer Variablen zu ermitteln, ist ein Liniendiagramm. Im Anschluss erstellen wir ein Liniendiagramm und fügen eine Glättungslinie hinzu:
#Liniendiagramm der Arbeitslosigkeit
econ %>%
ggplot2::autoplot(uempmed)
ggplot2::geom_smooth()

Anhand dieses Diagramms können wir erkennen, dass in der jüngsten Periode, in den letzten Beobachtungen aus dem Jahr 2010, eine Tendenz zum Anstieg der Arbeitslosigkeit besteht, die die in den vorangegangenen Jahrzehnten beobachtete Geschichte übertrifft.
Ein weiterer wichtiger Punkt, insbesondere bei der ökonometrischen Modellierung, ist die Stationarität der Reihe, d.h. sind der Mittelwert und die Varianz im Zeitverlauf konstant?
Wenn diese Annahmen für eine Variable nicht zutreffen, sagen wir, dass die Reihe eine Einheitswurzel (nicht-stationär) hat, so dass die Schocks, die die Variable erleidet, einen dauerhaften Effekt erzeugen.
Dies scheint bei der fraglichen Variable, der Dauer der Arbeitslosigkeit, der Fall gewesen zu sein. Wir haben gesehen, dass sich die Schwankungen der Variable erheblich verändert haben, was starke Auswirkungen auf die Wirtschaftstheorien hat, die sich mit Zyklen befassen. Aber wie können wir, abgesehen von der Theorie, praktisch überprüfen, ob die Variable stationär ist?
Das Prognosepaket verfügt über eine ausgezeichnete Funktion, mit der Sie Tests wie ADF, KPSS und andere anwenden können, die bereits die Anzahl der Differenzen zurückgeben, die erforderlich sind, damit die Reihe stationär ist:
#Verwendung des ADF-Tests zur Überprüfung der Stationarität
forecast::ndiffs(
x = econ$uempmed,
test = "adf")

Hier zeigt der p-Wert von mehr als 0,05, dass die Daten nicht stationär sind.
Ein weiteres wichtiges Thema bei Zeitreihen ist die Identifizierung möglicher Korrelationen (die lineare Beziehung) zwischen den verzögerten Werten der Reihen. Die ACF- und PACF-Korrelogramme helfen bei der Identifizierung.
Da die Reihe keine Saisonalität, sondern einen bestimmten Trend aufweist, sind die anfänglichen Autokorrelationen tendenziell groß und positiv, da die zeitlich nahen Beobachtungen auch im Wert nah beieinander liegen.
Daher hat die Autokorrelationsfunktion (ACF) einer Zeitreihe mit Trend tendenziell positive Werte, die mit zunehmender Verzögerung langsam abnehmen.
#Rückblick auf die Arbeitslosigkeit
checkresiduals(econ$uempmed)
pacf(econ$uempmed)


Schlussfolgerung
Wenn wir mehr oder weniger saubere, d.h. bereits bereinigte Daten in die Hände bekommen, sind wir sofort versucht, uns in die Phase der Modellkonstruktion zu stürzen, um die ersten Ergebnisse zu ziehen. Widerstehen Sie dieser Versuchung und beginnen Sie mit der explorativen Datenanalyse, die zwar einfach ist, uns aber dabei hilft, aussagekräftige Erkenntnisse aus den Daten zu ziehen.
Sie können auch einige der besten Ressourcen zum Erlernen von Statistik für Data Science erkunden.