Pandas DataFrame describe() im Überblick
Die Python-Pandas-Funktion DataFrame describe() hilft dir dabei, eine statistische Übersicht der numerischen Spalten eines DataFrames zu erstellen. Diese Zusammenfassung liefert wichtige Kennzahlen wie den Mittelwert, die Standardabweichung, Minimum, Maximum sowie verschiedene Quantile deiner Daten.
Syntax der Pandas-describe()-Funktion
Die grundlegende Syntax der Pandas-describe()-Funktion für einen DataFrame ist unkompliziert und sieht so aus:
DataFrame.describe(percentiles=None, include=None, exclude=None)pythonRelevante Parameter von Pandas DataFrame.describe()
Mit ein paar Parametern kannst du die Ausgabe der describe()-Funktion individuell anpassen. Diese Parameter stehen dir zur Verfügung:
| Parameter | Beschreibung | Standardwert |
|---|---|---|
percentiles
|
Definiert die gewünschten Quantile für die statistische Beschreibung. | [.25, .5, .75]
|
include
|
Legt fest, welche Datentypen einbezogen werden; möglich sind numpy.number, numpy.object, all oder None.
|
None
|
exclude
|
Bestimmt, welche Datentypen ausgeschlossen werden sollen (analog zu include).
|
None
|
Anwendungsbeispiele von Pandas describe()
Die Pandas-Funktion DataFrame.describe() ist ideal, wenn du dir rasch einen Überblick über die zentralen statistischen Werte deines Datensatzes verschaffen willst.
Beispiel 1: Statistische Übersicht numerischer Daten
In diesem Beispiel nutzen wir den DataFrame df, der verschiedene Verkaufszahlen enthält.
import pandas as pd
import numpy as np
# Beispiel DataFrame mit Verkaufsdaten
data = {
'Product': ['A', 'B', 'C', 'D', 'E'],
'Quantity': [10, 20, 15, 5, 30],
'Price': [100, 150, 200, 80, 120],
'Revenue': [1000, 3000, 3000, 400, 3600]
}
df = pd.DataFrame(data)
print(df)pythonNutze Pandas describe(), um die statistische Zusammenfassung der Zahlen-Spalten abzurufen:
summary = df.describe()
print(summary)pythonDer Aufruf von Pandas DataFrame.describe() erzeugt folgendes Ergebnis:
Quantity Price Revenue
count 5.000000 5.000000 5.000000
mean 16.000000 130.000000 2200.000000
std 9.617692 46.904158 1407.124728
min 5.000000 80.000000 400.000000
25% 10.000000 100.000000 1000.000000
50% 15.000000 120.000000 3000.000000
75% 20.000000 150.000000 3000.000000
max 30.000000 200.000000 3600.000000```Die ausgegebenen Werte bedeuten im Detail:
count: Summe der vorhandenen Einträge (ohne NaN)mean: Arithmetisches Mittel der Werte (auch viaDataFrame.mean()abrufbar)std: Standardabweichung der Datenmin, 25%, 50%, 75%, max: Minimum, 25. Perzentil, Median (50. Perzentil), 75. Perzentil und Maximum
Beispiel 2: Quantile individuell festlegen
Du kannst Pandas DataFrame.describe() mit Parametern steuern, um ganz bestimmte Quantile anzuzeigen:
# Statistische Zusammenfassung mit angepassten Quantilen
custom_summary = df.describe(percentiles=[0.1, 0.5, 0.9])
print(custom_summary)pythonDieser Aufruf liefert dir die Werte für die gewählten Quantile 10 %, 50 % (Median) und 90 %:
Quantity Price Revenue
count 5.000000 5.000000 5.000000
mean 16.000000 130.000000 2200.000000
std 9.617692 46.904158 1407.124728
min 5.000000 80.000000 400.000000
10% 7.000000 88.000000 640.000000
50% 15.000000 120.000000 3000.000000
90% 26.000000 180.000000 3360.000000
max 30.000000 200.000000 3600.000000