Pandas DataFrame describe() im Überblick

Inhaltsverzeichnis

Die Python-Pandas-Funktion DataFrame describe() hilft dir dabei, eine statistische Übersicht der numerischen Spalten eines DataFrames zu erstellen. Diese Zusammenfassung liefert wichtige Kennzahlen wie den Mittelwert, die Standardabweichung, Minimum, Maximum sowie verschiedene Quantile deiner Daten.

Syntax der Pandas-`describe()`-Funktion

Die grundlegende Syntax der Pandas-describe()-Funktion für einen DataFrame ist unkompliziert und sieht so aus:

DataFrame.describe(percentiles=None, include=None, exclude=None)

python

Relevante Parameter von Pandas `DataFrame.describe()`

Mit ein paar Parametern kannst du die Ausgabe der describe()-Funktion individuell anpassen. Diese Parameter stehen dir zur Verfügung:

Parameter	Beschreibung	Standardwert
`percentiles`	Definiert die gewünschten Quantile für die statistische Beschreibung.	`[.25, .5, .75]`
`include`	Legt fest, welche Datentypen einbezogen werden; möglich sind `numpy.number`, `numpy.object`, `all` oder `None`.	`None`
`exclude`	Bestimmt, welche Datentypen ausgeschlossen werden sollen (analog zu `include`).	`None`

Anwendungsbeispiele von Pandas `describe()`

Die Pandas-Funktion DataFrame.describe() ist ideal, wenn du dir rasch einen Überblick über die zentralen statistischen Werte deines Datensatzes verschaffen willst.

Beispiel 1: Statistische Übersicht numerischer Daten

In diesem Beispiel nutzen wir den DataFrame df, der verschiedene Verkaufszahlen enthält.

import pandas as pd
import numpy as np
# Beispiel DataFrame mit Verkaufsdaten
data = {
    'Product': ['A', 'B', 'C', 'D', 'E'],
    'Quantity': [10, 20, 15, 5, 30],
    'Price': [100, 150, 200, 80, 120],
    'Revenue': [1000, 3000, 3000, 400, 3600]
}
df = pd.DataFrame(data)
print(df)

python

Nutze Pandas describe(), um die statistische Zusammenfassung der Zahlen-Spalten abzurufen:

summary = df.describe()
print(summary)

python

Der Aufruf von Pandas DataFrame.describe() erzeugt folgendes Ergebnis:

Quantity       Price      Revenue
count   5.000000    5.000000     5.000000
mean   16.000000  130.000000  2200.000000
std     9.617692   46.904158  1407.124728
min     5.000000   80.000000   400.000000
25%    10.000000  100.000000  1000.000000
50%    15.000000  120.000000  3000.000000
75%    20.000000  150.000000  3000.000000
max    30.000000  200.000000  3600.000000```

Die ausgegebenen Werte bedeuten im Detail:

count: Summe der vorhandenen Einträge (ohne NaN)
mean: Arithmetisches Mittel der Werte (auch via DataFrame.mean() abrufbar)
std: Standardabweichung der Daten
min, 25%, 50%, 75%, max: Minimum, 25. Perzentil, Median (50. Perzentil), 75. Perzentil und Maximum

Beispiel 2: Quantile individuell festlegen

Du kannst Pandas DataFrame.describe() mit Parametern steuern, um ganz bestimmte Quantile anzuzeigen:

# Statistische Zusammenfassung mit angepassten Quantilen
custom_summary = df.describe(percentiles=[0.1, 0.5, 0.9])
print(custom_summary)

python

Dieser Aufruf liefert dir die Werte für die gewählten Quantile 10 %, 50 % (Median) und 90 %:

Quantity       Price      Revenue
count   5.000000    5.000000     5.000000
mean   16.000000  130.000000  2200.000000
std     9.617692   46.904158  1407.124728
min     5.000000   80.000000   400.000000
10%     7.000000   88.000000   640.000000
50%    15.000000  120.000000  3000.000000
90%    26.000000  180.000000  3360.000000
max    30.000000  200.000000  3600.000000

Pandas read_csv(): So importierst du CSV-Files in Python

Mit der Pandas-Funktion read_csv() greifst du in Python zügig und unkompliziert auf deine CSV-Inhalte zu. Das Tool ist extrem wandlungsfähig: Dank zahlreicher Parameter steuerst du den Import genau nach deinen Vorstellungen. Wenn du tabellarische Daten effizient verarbeiten…

Mr. Kosalshutterstock

Pandas-DataFrames: Den Index meistern

Das Indexieren von Pandas DataFrames ist ein mächtiger Hebel, um deine Daten effizient zu bändigen. Dank flexibler Methoden greifst du präzise auf Teilbereiche zu, damit deine Projekte immer glatt laufen. Wir zeigen dir, wie der Pandas DataFrame Index aufgebaut ist und welche…

BEST-BACKGROUNDSShutterstock

Daten glattziehen mit Pandas dropna()

Die Pandas-DataFrame.dropna()-Funktion ist ein essentielles Tool zur Datenbereinigung, mit dem du fehlende Werte effizient entfernst. Dank flexibler Parameter passt du den Reinigungsprozess exakt an deine Bedürfnisse an. Hier erfährst du alles Wichtige über die Syntax und die…

ESB Professionalshutterstock

Pandas DataFrame: Tabellen in Python effizient und strukturiert bearbeiten!

Pandas ist dein Kraftpaket für die moderne Datenverarbeitung mit Python. Die wichtigste Basis dafür sind DataFrames, mit denen du strukturierte Infos effizient und übersichtlich im Griff hast. Wir zeigen dir mit einfachen Code-Beispielen, wie die Datenstruktur aufgebaut ist und…

BEST-BACKGROUNDSShutterstock

Pandas iterrows(): So gehst du DataFrames Zeile für Zeile durch

Die Methode iterrows() lässt dich Zeile für Zeile durch deinen Pandas DataFrame navigieren. Das ist ideal für punktgenaue Berechnungen in deinem Datensatz. Wir erklären dir, wie du die Funktion richtig anwendest, damit deine Skripte jederzeit glatt laufen.

UndreyShutterstock

Python Pandas: Datenzugriff mit iloc[]

Analysierst du Daten in Python Pandas, ist oft nur ein Teil deines DataFrames wirklich relevant. Mit der Eigenschaft iloc[] hast du das ideale Werkzeug parat, um Zeilen oder Spalten ganz einfach über ihre Indizes herauszufiltern. Erfahre hier, wie du diese Funktion effizient für…

Pandas DataFrame describe() im Überblick

Syntax der Pandas-describe()-Funktion

Relevante Parameter von Pandas DataFrame.describe()

An­wen­dungs­bei­spie­le von Pandas describe()

Beispiel 1: Sta­tis­ti­sche Übersicht nu­me­ri­scher Daten

Beispiel 2: Quantile in­di­vi­du­ell festlegen

Syntax der Pandas-`describe()`-Funktion

Relevante Parameter von Pandas `DataFrame.describe()`

Anwendungsbeispiele von Pandas `describe()`

Beispiel 1: Statistische Übersicht numerischer Daten

Beispiel 2: Quantile individuell festlegen