Hinweis
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, sich anzumelden oder das Verzeichnis zu wechseln.
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, das Verzeichnis zu wechseln.
Berechnet grundlegende Statistiken für numerische und Zeichenfolgenspalten.
Syntax
describe(*cols: Union[str, List[str]])
Parameter
| Parameter | Typ | Beschreibung |
|---|---|---|
cols |
str, list, optional | Spaltenname oder Liste der Spaltennamen, die beschrieben werden sollen (standardmäßig "Alle Spalten"). |
Rückkehr
DataFrame: Ein neuer DataFrame, der datenframes beschreibt (statistiken).
Hinweise
Diese Funktion dient zur explorativen Datenanalyse, da wir keine Garantie für die Abwärtskompatibilität des Schemas des resultierenden DataFrames gewährleisten.
Verwenden Sie eine Zusammenfassung für erweiterte Statistiken und die Kontrolle darüber, welche Statistiken berechnet werden sollen.
Beispiele
df = spark.createDataFrame(
[("Bob", 13, 40.3, 150.5), ("Alice", 12, 37.8, 142.3), ("Tom", 11, 44.1, 142.2)],
["name", "age", "weight", "height"],
)
df.describe(['age']).show()
# +-------+----+
# |summary| age|
# +-------+----+
# | count| 3|
# | mean|12.0|
# | stddev| 1.0|
# | min| 11|
# | max| 13|
# +-------+----+
df.describe(['age', 'weight', 'height']).show()
# +-------+----+------------------+-----------------+
# |summary| age| weight| height|
# +-------+----+------------------+-----------------+
# | count| 3| 3| 3|
# | mean|12.0| 40.73333333333333| 145.0|
# | stddev| 1.0|3.1722757341273704|4.763402145525822|
# | min| 11| 37.8| 142.2|
# | max| 13| 44.1| 150.5|
# +-------+----+------------------+-----------------+