Nota
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare ad accedere o modificare le directory.
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare a modificare le directory.
Calcola le statistiche di base per le colonne numeriche e stringa.
Sintassi
describe(*cols: Union[str, List[str]])
Parametri
| Parametro | Tipo | Descrizione |
|---|---|---|
cols |
str, list, facoltativo | Nome colonna o elenco di nomi di colonna da descrivere per (tutte le colonne predefinite). |
Restituzioni
DataFrame: nuovo dataframe che descrive (fornisce statistiche) dati specificati.
Note
Questa funzione è destinata all'analisi esplorativa dei dati, perché non viene garantita la compatibilità con le versioni precedenti dello schema del dataframe risultante.
Usare il riepilogo per le statistiche espanse e il controllo sulle statistiche da calcolare.
Examples
df = spark.createDataFrame(
[("Bob", 13, 40.3, 150.5), ("Alice", 12, 37.8, 142.3), ("Tom", 11, 44.1, 142.2)],
["name", "age", "weight", "height"],
)
df.describe(['age']).show()
# +-------+----+
# |summary| age|
# +-------+----+
# | count| 3|
# | mean|12.0|
# | stddev| 1.0|
# | min| 11|
# | max| 13|
# +-------+----+
df.describe(['age', 'weight', 'height']).show()
# +-------+----+------------------+-----------------+
# |summary| age| weight| height|
# +-------+----+------------------+-----------------+
# | count| 3| 3| 3|
# | mean|12.0| 40.73333333333333| 145.0|
# | stddev| 1.0|3.1722757341273704|4.763402145525822|
# | min| 11| 37.8| 142.2|
# | max| 13| 44.1| 150.5|
# +-------+----+------------------+-----------------+