Pandas read_csv(): So importierst du CSV-Files in Python
Python Pandas read_csv() zählt zu den bewährtesten Lösungen, um Daten effizient aus CSV-Dateien zu importieren und als DataFrame zu organisieren. Da CSV-Dateien (Comma-separated Values) ein Standardformat für tabellarische Daten sind, werden sie von nahezu allen Anwendungen unterstützt.
Die Syntax von Python Pandas read_csv()
Mit der Funktion pandas.read_csv() erstellst du einen Pandas DataFrame direkt aus einer CSV-Datei. Dir stehen dabei zahlreiche Parameter zur Verfügung, um den Import präzise zu steuern. Hier konzentrieren wir uns auf die wichtigsten Argumente für deinen Alltag. Details zu allen Optionen findest du in der offiziellen Pandas-Dokumentation.
Der Basis-Aufbau der Funktion ist intuitiv:
import pandas as pd
df = pd.read_csv(filepath_or_buffer, sep=',', header='infer', names=None, index_col=None, usecols=None, dtype=None, ...)pythonWichtige Parameter im Überblick
Hier siehst du die relevantesten Stellschrauben für deinen Datenimport:
| Parameter | Nutzen | Standardwert |
|---|---|---|
filepath_or_buffer
|
Ein Python-String mit dem Dateipfad oder eine Quelle wie eine URL. | |
sep
|
Bestimmt das Zeichen, das die einzelnen Werte voneinander trennt. | ,
|
header
|
Definiert, welche Zeile als Tabellenkopf (Header) dient. | infer (Zeile 1)
|
names
|
Falls kein Header vorhanden ist, kannst du hier eine Python-Liste mit Spaltennamen übergeben. | |
index_col
|
Legt fest, welche Spalte als Index der Tabelle fungiert. | None
|
usecols
|
Wähle gezielt aus, welche Spalten du in den DataFrame laden möchtest. | None
|
dtype
|
Gibt den Datentyp für die einzelnen Spalten vor. | None
|
Anleitung: So greifst du auf CSV-Dateien zu
Dank pandas.read_csv() bringst du deine CSV-Daten in wenigen Augenblicken direkt nach Python.
Für unsere Beispiele nutzen wir eine CSV-Datei mit folgendem Aufbau:
1,Max Mustermann,35,Berlin,50000
2,Anna Müller,29,Hamburg,62000
3,Peter Schmidt,41,München,58000
4,Lisa Meier,33,Köln,49000
5,Tom Becker,28,Frankfurt,52000Schritt 1: Pandas einbinden
Zuerst importierst du die Pandas-Bibliothek in dein aktuelles Skript.
import pandas as pdpythonSchritt 2: CSV-Daten einlesen
Lade deine Datei nun mit der Funktion read_csv(). Gib dazu einfach den Pfad zur Datei an. In diesem Beispiel nutzen wir die Datei daten.csv, die im selben Ordner wie dein Skript liegt:
df = pd.read_csv('daten.csv')pythonDer Befehl speichert die Daten im Objekt df, bereit zur weiteren Analyse. Standardmäßig nutzt pandas die erste Zeile als Spaltennamen, sofern du nichts anderes definierst.
Schritt 3: Daten kontrollieren
Prüfe kurz, ob alles glatt gelaufen ist, indem du dir die ersten Zeilen des DataFrames ausgibst. Die Funktion DataFrame.head() zeigt dir standardmäßig die ersten fünf Einträge und liefert dir einen schnellen Überblick über deine Datenstruktur:
print(df.head())pythonSo sieht das Ergebnis aus:
0 1 Max Mustermann 35 Berlin 50000
1 2 Anna Müller 29 Hamburg 62000
2 3 Peter Schmidt 41 München 58000
3 4 Lisa Meier 33 Köln 49000
4 5 Tom Becker 28 Frankfurt 52000Schritt 4: Spaltennamen anpassen (optional)
Sollte deine Datei keine Kopfzeile besitzen, kannst du die Namen der Spalten einfach selbst festlegen:
df = pd.read_csv('daten.csv', header=None, names=['Spalte1', 'Spalte2', 'Spalte3', 'Spalte4', 'Spalte5'])pythonHier wurden die Spalten manuell als Spalte1 bis Spalte5 benannt. Das Ergebnis sieht so aus:
Spalte1 Spalte2 Spalte3 Spalte4 Spalte5
0 1 Max Mustermann 35 Berlin 50000
1 2 Anna Müller 29 Hamburg 62000
2 3 Peter Schmidt 41 München 58000
3 4 Lisa Meier 33 Köln 49000
4 5 Tom Becker 28 Frankfurt 52000