Dieser Artikel ist eine Anleitung, wie Sie Spalten in Pandas umbenennen können.

Pandas ist eine Python-Bibliothek für den Umgang mit Datensätzen. Sie liest problemlos Daten aus verschiedenen Dateiformaten wie CSV, JSON und SQL. Wenn Daten in Pandas geladen werden, werden sie in einem DataFrame-Objekt gespeichert.

Ein DataFrame ist ein zweidimensionales Objekt, d.h. die Daten werden in einem tabellenähnlichen Format mit Zeilen und Spalten gespeichert. Dies ist vergleichbar mit der Speicherung von Daten in CSV- oder Tabellenkalkulationsdateien. Wenn Sie Daten laden, versucht Pandas, die Spaltennamen aus der Dataset-Quelldatei zu laden.

columns

Die geladenen Spaltennamen sind jedoch möglicherweise nicht ideal und Sie möchten die Spalten vielleicht in etwas Sinnvolleres umbenennen.

In diesem Artikel werden wir zunächst die besten Methoden für die Benennung von Spalten in Pandas besprechen. Danach kommen wir zum Hauptthema, nämlich den Methoden zum Umbenennen der Spalten.

Bewährte Praktiken für die Benennung von Spalten in Pandas

Bevor wir zu dem Teil dieses Artikels kommen, der sich mit der Umbenennung befasst, finden Sie hier einige bewährte Verfahren und Konventionen, die Sie bei der Benennung Ihrer Spalten in Pandas beachten sollten.

✅ Verwenden Sie beschreibende Namen. Kryptische Namen wie col_1 sind schwer zu verstehen und vermitteln nicht viel Information über die im Datensatz enthaltenen Daten.

✅ Benutzen Sie bei der Benennung von Spalten die Groß- und Kleinschreibung (snake case). Im Snake Case sehen Ihre Spaltennamen wie folgt aus: number_of_people Anstatt wie hier NumberOfPeople.

obwohl die Groß- und Kleinschreibung bevorzugt wird, sollten Sie die Namenskonvention verwenden, die Ihr Originaldatensatz verwendet. Dadurch wird Verwirrung vermieden, wenn Sie zwischen Ihrem Datensatz und dem DataFrame-Objekt von Pandas wechseln.

unabhängig davon, welche Namenskonvention Sie verwenden, sollten Sie im gesamten Dataset konsistent bleiben. Vermeiden Sie es, einige Spalten mit PascalCase und andere mit snake_case zu benennen.

✅ Und schließlich sollten Sie versuchen, kürzere Namen zu verwenden. Diese sind leichter zu tippen, da die Code-Vorschläge und die Vervollständigung in Notizbüchern in der Regel mangelhaft sind. Das bedeutet, dass die Codierung in einem Notizbuch viel manuelle Eingabe von Code erfordert, und kürzere Namen machen das Leben einfacher.

Wie man Spalten in Pandas umbenennt

Sie können den Inhalt dieses Artikels auf zwei Arten konsumieren. Erstens können Sie ihn einfach als Referenz lesen. Zweitens können Sie ihm folgen und dabei auch programmieren, damit Sie sich die besprochenen Konzepte besser merken können. Ich empfehle die letztere Methode.

Um mitzukodieren, werde ich ein Notizbuch verwenden, das bei Google Colab gehostet wird. Sie können ebenfalls ein solches Notizbuch erstellen und mitschreiben; es ist völlig kostenlos. Das Notizbuch mit dem gesamten Code, den ich in diesem Lernprogramm schreiben werde, ist hier verfügbar.

Einrichten des Notizbuchs

Bevor wir mit dem Umbenennen von Spalten in Pandas beginnen, lassen Sie uns das Notebook einrichten und einige Beispieldaten laden. Erstellen Sie eine Codezelle und importieren Sie pandas mit dem unten stehenden Code.

importieren Sie pandas als pd

Nach dem Import von pandas können Sie den Datensatz california_housing_data laden, der standardmäßig als Beispieldatensatz verfügbar ist, wenn Sie ein Google Colab-Notizbuch erstellen.

housing_data = pd.read_csv('/content/sample_data/california_housing_train.csv')

Mit diesem Code können Sie die ersten Zeilen des Datensatzes sehen:

housing_data.head()

Sie können auch die Spalten des Datensatzes mit folgendem Code auflisten:

housing_data.columns

Dies sollte die folgende Ausgabe ergeben:

Index(['longitude', 'latitude', 'housing_median_age', 'total_rooms',
       'gesamt_Schlafzimmer', 'Bevölkerung', 'Haushalte', 'medianes_Einkommen',
       'median_haus_wert'],
      dtype='object')

Das bedeutet, dass Ihre Daten korrekt geladen wurden und der DataFrame die benötigten Daten enthält.

Methode 1: Verwendung der Funktion Umbenennen

Der einfachste Weg, Spalten in Pandas umzubenennen, ist die Verwendung der Methode rename des DataFrame-Objekts. Mit dieser Methode benennen Sie eine Spalte um, indem Sie die Methode rename aufrufen. Die Methode nimmt mehrere Argumente entgegen.

In diesem Fall sind wir an der Umbenennung einer Spalte interessiert, also übergeben wir das Schlüsselwort columns als Argument. Der Wert dieses Arguments ist ein Wörterbuch, dessen Einträge die Zuordnung zwischen den alten und den neuen Spaltennamen darstellen. Hier ist ein Beispiel, in dem wir die Spalte Haushalte in Häuser umbenennen.

wohnen_daten.umbenennen(spalten={ 'haushalte': 'häuser' })

Dies sollte die folgende Ausgabe ergeben:

Housing data after renaming pandas dataframe column

Wie Sie sehen, übergeben wir ein Wörterbuch, bei dem der Schlüssel der alte Spaltenname und der Wert der neue Spaltenname ist. Der Wert muss nicht nur eine Zeichenkette sein. Es kann auch eine Funktion sein, bei der der von der Funktion zurückgegebene Wert der neue Spaltenname ist. Wenn Sie mehr Spalten umbenennen möchten, können Sie dem Wörterbuch weitere Einträge hinzufügen.

Methode 2: Ersetzen der Zeichenkette der Spalte

Eine andere Methode zum Umbenennen von Spalten in Pandas ist das Ersetzen des Spaltenstrings in einem DataFrame. Angenommen, Sie möchten die Spalte mit dem Namen population in number_of_people umbenennen. Mit dieser Methode würden Sie den folgenden Code schreiben:

wohnungsdaten.spalten = wohnungsdaten.spalten.str.replace('bevölkerung', 'anzahl_von_personen')

Um die geänderte Liste auszudrucken, verwenden wir den folgenden Code:

wohnungsdaten_data

Dies sollte die folgende Ausgabe auf dem Bildschirm erzeugen:

Screenshot-from-2023-04-04-07-35-06

Methode 3: Zuweisen einer Liste von Spaltennamen

Alternativ können Sie Spalten in Pandas auch umbenennen, indem Sie der Eigenschaft columns des DataFrame eine Liste zuweisen. Wenn ich in diesem Beispiel alle Spalten so umbenennen wollte, dass sie alle Zahlen enthalten, könnte ich den folgenden Code verwenden:

housing_data.columns = [x for x in range(9)]

In diesem Beispiel habe ich das Attribut housing_data.columns auf eine Liste von Ganzzahlen von 0 bis 8 gesetzt. Um die Liste zu erzeugen, habe ich List Comprehension verwendet, eine Python-eigene Funktion, mit der Sie bequem Listen von Werten in einer for-Schleife erzeugen können.

Der Nachteil dieser Methode ist, dass Sie den gesamten Satz von Spaltennamen umbenennen müssen; Sie können nicht nur eine Teilmenge von Spalten umbenennen. Idealerweise sollten Ihre Spaltennamen etwas aussagekräftiger sein, aber ich verwende hier nur Zahlen zur Demonstration.

Sie können sich die Ausgabe ansehen, indem Sie Folgendes schreiben:

wohnen_daten
Screenshot-from-2023-04-04-05-58-41

Methode 4: Verwendung der Funktion set_axis() zum Umbenennen von Spalten in Pandas

Die Methode, die wir besprechen werden, ist die set_axis-Methode des DataFrame-Objekts. Diese Methode wird verwendet, um eine Liste von Werten als Achsenwerte für eine der beiden Achsen in Pandas festzulegen. Da wir die Spalten umbenennen, setzen wir die Achse 1. Um diese Methode zu verwenden, benutzen wir den folgenden Code:

column_names = [str(x) for x in range(8, -1, -1)]
housing_data.set_axis(spalten_namen, axis=1, inplace=True)

Die erste Zeile erzeugt eine Liste von Werten von 8 bis 0 in absteigender Reihenfolge und speichert sie in der Variablen column_names. In der zweiten Zeile rufen wir die Methode set_axis auf, geben die Spaltennamen als Argument an und setzen die zu ändernde Achse auf Achse 1. Außerdem setzen wir inplace auf True, so dass der ursprüngliche DataFrame geändert wird.

Wir können den DataFrame anzeigen, indem wir schreiben:

housing_data

Dies sollte das folgende Ergebnis liefern:

Screenshot-from-2023-04-04-06-47-20

Letzte Worte

In diesem Artikel wurde kurz erläutert, wie Daten in Pandas im Tabellenformat gespeichert werden. Wir haben auch die besten Methoden zur Benennung von Spalten in Pandas besprochen, um uns das Leben zu erleichtern.

Schließlich und vor allem haben wir auch die verschiedenen Methoden zum Umbenennen von Spalten in Pandas besprochen.

Als nächstes erfahren Sie , wie Sie einen Pandas DataFrame erstellen [mit Beispielen].