summary

Berechnet angegebene Statistiken für numerische und Zeichenfolgenspalten. Verfügbare Statistiken sind: Anzahl, Mittelwert, Stddev, Min, Max, beliebige ungefähre Quantile, die als Prozentsatz angegeben sind (z. B. 75%).

Syntax

summary(*statistics: str)

Parameter

Parameter	Typ	Beschreibung
`statistics`	str, optional	Spaltennamen zum Berechnen von Statistiken nach (Standardmäßig alle Spalten).

Rückkehr

DataFrame: Ein neuer DataFrame, der Statistiken für den angegebenen DataFrame bereitstellt.

Hinweise

Diese Funktion dient zur explorativen Datenanalyse, da wir keine Garantie für die Abwärtskompatibilität des Schemas des resultierenden DataFrames gewährleisten.

Beispiele

df = spark.createDataFrame(
    [("Bob", 13, 40.3, 150.5), ("Alice", 12, 37.8, 142.3), ("Tom", 11, 44.1, 142.2)],
    ["name", "age", "weight", "height"],
)
df.select("age", "weight", "height").summary().show()
# +-------+----+------------------+-----------------+
# |summary| age|            weight|           height|
# +-------+----+------------------+-----------------+
# |  count|   3|                 3|                3|
# |   mean|12.0| 40.73333333333333|            145.0|
# | stddev| 1.0|3.1722757341273704|4.763402145525822|
# |    min|  11|              37.8|            142.2|
# |    25%|  11|              37.8|            142.2|
# |    50%|  12|              40.3|            142.3|
# |    75%|  13|              44.1|            150.5|
# |    max|  13|              44.1|            150.5|
# +-------+----+------------------+-----------------+

df.select("age", "weight", "height").summary("count", "min", "25%", "75%", "max").show()
# +-------+---+------+------+
# |summary|age|weight|height|
# +-------+---+------+------+
# |  count|  3|     3|     3|
# |    min| 11|  37.8| 142.2|
# |    25%| 11|  37.8| 142.2|
# |    75%| 13|  44.1| 150.5|
# |    max| 13|  44.1| 150.5|
# +-------+---+------+------+

Feedback

War diese Seite hilfreich?

Last updated on 2026-04-19