Freigeben über


summary

Berechnet angegebene Statistiken für numerische und Zeichenfolgenspalten. Verfügbare Statistiken sind: Anzahl, Mittelwert, Stddev, Min, Max, beliebige ungefähre Quantile, die als Prozentsatz angegeben sind (z. B. 75%).

Syntax

summary(*statistics: str)

Parameter

Parameter Typ Beschreibung
statistics str, optional Spaltennamen zum Berechnen von Statistiken nach (Standardmäßig alle Spalten).

Rückkehr

DataFrame: Ein neuer DataFrame, der Statistiken für den angegebenen DataFrame bereitstellt.

Hinweise

Diese Funktion dient zur explorativen Datenanalyse, da wir keine Garantie für die Abwärtskompatibilität des Schemas des resultierenden DataFrames gewährleisten.

Beispiele

df = spark.createDataFrame(
    [("Bob", 13, 40.3, 150.5), ("Alice", 12, 37.8, 142.3), ("Tom", 11, 44.1, 142.2)],
    ["name", "age", "weight", "height"],
)
df.select("age", "weight", "height").summary().show()
# +-------+----+------------------+-----------------+
# |summary| age|            weight|           height|
# +-------+----+------------------+-----------------+
# |  count|   3|                 3|                3|
# |   mean|12.0| 40.73333333333333|            145.0|
# | stddev| 1.0|3.1722757341273704|4.763402145525822|
# |    min|  11|              37.8|            142.2|
# |    25%|  11|              37.8|            142.2|
# |    50%|  12|              40.3|            142.3|
# |    75%|  13|              44.1|            150.5|
# |    max|  13|              44.1|            150.5|
# +-------+----+------------------+-----------------+

df.select("age", "weight", "height").summary("count", "min", "25%", "75%", "max").show()
# +-------+---+------+------+
# |summary|age|weight|height|
# +-------+---+------+------+
# |  count|  3|     3|     3|
# |    min| 11|  37.8| 142.2|
# |    25%| 11|  37.8| 142.2|
# |    75%| 13|  44.1| 150.5|
# |    max| 13|  44.1| 150.5|
# +-------+---+------+------+