Dieser Artikel ist eine Anleitung, wie man Spalten in Pandas umbenennt.
Pandas ist eine Python-Bibliothek für den Umgang mit Datensätzen. Sie liest problemlos Daten aus verschiedenen Dateiformaten wie z. B. CSVJSON und SQL. Wenn Daten in Pandas geladen werden, werden sie in einem DataFrame-Objekt gespeichert.
Ein DataFrame ist ein zweidimensionales Objekt, d. h. die Daten werden in einem tabellenartigen Format mit Zeilen und Spalten gespeichert. Dies ist vergleichbar mit der Speicherung von Daten in CSV- oder Tabellenkalkulationsdateien. Wenn Sie Daten laden, versucht Pandas, die Spaltennamen aus der Dataset-Quelldatei zu laden.

Die geladenen Spaltennamen sind jedoch möglicherweise nicht ideal, und Sie möchten die Spalten vielleicht in etwas Sinnvolleres umbenennen.
In diesem Artikel werden wir zunächst die besten Methoden zur Benennung von Spalten in Pandas besprechen. Danach kommen wir zum Hauptthema, nämlich den Methoden zum Umbenennen von Spalten.
Best Practices für die Benennung von Spalten in Pandas
Bevor wir uns dem Teil dieses Artikels widmen, der sich mit der Umbenennung von Spalten befasst, finden Sie hier einige Best Practices und Konventionen, die Sie bei der Benennung Ihrer Spalten in Pandas beachten sollten.
✅ Verwenden Sie beschreibende Namen. Kryptische Namen wie col_1
sind schwer zu verstehen und vermitteln kaum Informationen über die im Datensatz enthaltenen Daten.
Verwenden Sie bei der Benennung von Spalten die Groß- und Kleinschreibung. Im Snake Case sehen Ihre Spaltennamen wie folgt aus: number_of_people
Anstatt wie hier NumberOfPeople
.
Obwohl der Fall "snake" bevorzugt wird, sollten Sie die Namenskonvention verwenden, die Ihr Originaldatensatz verwendet. Dadurch wird Verwirrung vermieden, wenn Sie zwischen Ihrem Datensatz und dem DataFrame-Objekt von Pandas wechseln.
Unabhängig davon, welche Benennungskonvention Sie verwenden, bleiben Sie im gesamten Datensatz konsistent. Vermeiden Sie es, einige Spalten mit PascalCase und andere mit snake_case zu benennen.
Und schließlich sollten Sie versuchen, kürzere Namen zu verwenden. Diese sind leichter einzugeben, da die Code-Vorschläge und -Vervollständigung in Notizbüchern in der Regel mangelhaft sind. Das bedeutet, dass die Codierung in einem Notebook viel manuelle Eingabe von Code erfordert, und kürzere Namen machen das Leben einfacher.
Wie man Spalten in Pandas umbenennt
Sie können den Inhalt dieses Artikels auf zwei Arten konsumieren. Erstens können Sie ihn einfach als Referenz durchlesen. Zweitens können Sie ihm folgen, Kodierung so dass Sie sich die besprochenen Konzepte besser merken können. Ich empfehle die letztere Methode.
Um mitzukodieren, werde ich ein Notizbuch verwenden, das bei Google Colab gehostet wird. Sie können auch eines erstellen und mitmachen; es ist völlig kostenlos. Das Notizbuch mit dem gesamten Code, den ich in diesem Lernprogramm schreiben werde, ist verfügbar hier.
Einrichten des Notebooks
Bevor wir mit dem Umbenennen von Spalten in Pandas beginnen, sollten wir das Notebook einrichten und einige Beispieldaten laden. Erstellen Sie eine Codezelle und importieren Sie Pandas mit dem unten stehenden Code.
import pandas as pd
Nachdem Sie Pandas importiert haben, können Sie die california_housing_data
Datensatz, der standardmäßig als Beispieldatensatz verfügbar ist, wenn Sie ein Google Colab-Notizbuch erstellen.
housing_data = pd.read_csv('/content/sample_data/california_housing_train.csv')
Sie können die ersten Zeilen des Datensatzes mithilfe des Codes sehen:
housing_data.head()
Sie können die im Dataset vorhandenen Spalten auch wie folgt auflisten:
housing_data.columns
Dies sollte die folgende Ausgabe ergeben:
Index(['longitude', 'latitude', 'housing_median_age', 'total_rooms',
'total_bedrooms', 'population', 'households', 'median_income',
'median_house_value'],
dtype='object')
Dies bedeutet, dass Ihre Daten korrekt geladen wurden und der DataFrame die benötigten Daten enthält.
Methode 1: Verwendung der Funktion Umbenennen
Der einfachste Weg, Spalten in Pandas umzubenennen, ist die Verwendung der rename
Methode des DataFrame-Objekts. Mit dieser Methode können Sie rename
einer Spalte durch Aufruf der Methode rename. Die Methode nimmt mehrere Argumente entgegen.
In diesem Fall sind wir an der Umbenennung einer Spalte interessiert, also übergeben wir das Schlüsselwortargument columns. Der Wert dieses Arguments ist ein Wörterbuch, dessen Einträge die Zuordnung zwischen den alten und den neuen Spaltennamen darstellen. Hier ist ein Beispiel, in dem wir die Spalte households
Spalte zu houses
.
housing_data.rename(columns={ 'households': 'houses' })
Dies sollte die folgende Ausgabe ergeben:

Wie Sie sehen, übergeben wir ein Wörterbuch, bei dem der Schlüssel der alte Spaltenname und der Wert der neue Spaltenname ist. Der Wert muss nicht nur eine Zeichenkette sein. Es kann auch eine Funktion sein, bei der der von der Funktion zurückgegebene Wert der neue Spaltenname ist. Wenn Sie mehr Spalten umbenennen wollen, können Sie dem Wörterbuch weitere Einträge hinzufügen.
Methode 2: Ersetzen der Zeichenkette der Spalte
Eine weitere Methode zur Umbenennung von Spalten in Pandas ist das Ersetzen des Spaltenstrings in einem DataFrame. Nehmen wir an, Sie möchten die Spalte mit dem aktuellen Namen population
zu number_of_people
. Mit dieser Methode würden Sie den folgenden Code schreiben:
housing_data.columns = housing_data.columns.str.replace('population', 'number_of_people')
Um die geänderte Liste auszudrucken, verwenden wir den folgenden Code:
housing_data
Dies sollte die folgende Ausgabe auf dem Bildschirm erzeugen:

Methode 3: Zuweisung einer Liste von Spaltennamen
Alternativ können Sie Spalten in Pandas umbenennen, indem Sie der Eigenschaft columns des DataFrame eine Liste zuweisen. Wenn ich in diesem Beispiel alle Spalten so umbenennen wollte, dass sie alle Zahlen verwenden, könnte ich den folgenden Code verwenden:
housing_data.columns = [x for x in range(9)]
In diesem Beispiel habe ich die Option housing_data.columns
Attribut auf eine Liste von Ganzzahlen von 0 bis 8. Um die Liste zu erstellen, habe ich List Comprehension verwendet, eine Python-eigene Funktion, mit der man bequem Listen von Werten mit Hilfe einer for
Schleife.
Der Nachteil dieser Methode ist, dass Sie den gesamten Satz von Spaltennamen umbenennen müssen; Sie können nicht nur eine Teilmenge von Spalten umbenennen. Idealerweise sollten Ihre Spaltennamen etwas aussagekräftiger sein, aber ich verwende hier nur Zahlen zur Veranschaulichung.
Sie können die Ausgabe anzeigen, indem Sie Folgendes schreiben:
housing_data

Methode 4: Verwendung der set_axis()-Funktion zum Umbenennen von Spalten in Pandas
Die Methode, die wir besprechen werden, ist die set_axis-Methode des DataFrame-Objekts. Diese Methode wird verwendet, um eine Liste von Werten als Achsenwerte für eine der beiden Achsen in Pandas festzulegen. Da wir Spalten umbenennen, setzen wir axis 1
. Um diese Methode anzuwenden, verwenden wir den folgenden Code:
column_names = [str(x) for x in range(8, -1, -1)]
housing_data.set_axis(column_names, axis=1, inplace=True)
Die erste Zeile erzeugt eine Liste von Werten von 8 bis 0 in absteigender Reihenfolge und speichert sie in der column_names
Variable. In der zweiten Zeile rufen wir die set_axis-Methode auf und geben die column_names
als Argument und die zu ändernde Achse als Achse 1. Wir setzen auch inplace
zu True
so dass es den ursprünglichen DataFrame verändert.
Wir können den DataFrame anzeigen, indem wir schreiben:
housing_data
Dies sollte folgendes ergeben:

Letzte Worte
In diesem Artikel wurde kurz vorgestellt, wie Daten in Pandas im Tabellenformat gespeichert werden. Wir haben auch die besten Praktiken für die Benennung von Spalten in Pandas besprochen, um unser Leben einfacher zu machen.
Schließlich und vor allem haben wir auch die verschiedenen Methoden zur Umbenennung von Spalten in Pandas besprochen.
Als Nächstes sehen Sie sich wie man einen Pandas DataFrame erstellt [mit Beispielen].