Condividi tramite


crosstab (DataFrameStatFunctions)

Calcola una tabella di frequenza a coppie delle colonne specificate, nota anche come tabella di emergenza. La prima colonna di ogni riga contiene i valori distinti di e i nomi delle col1colonne sono i valori distinti di col2. Il nome della prima colonna è $col1_$col2. Le coppie senza occorrenze hanno un conteggio pari a zero. DataFrame.crosstab e DataFrameStatFunctions.crosstab sono alias l'uno dell'altro.

Sintassi

crosstab(col1, col2)

Parametri

Parametro Tipo Descrizione
col1 str Nome della prima colonna. Gli elementi distinti costituiscono la prima colonna di ogni riga.
col2 str Nome della seconda colonna. Gli elementi distinti costituiscono i nomi di colonna dell'oggetto risultante DataFrame.

Restituzioni

DataFrame

Examples

df = spark.createDataFrame([(1, 11), (1, 11), (3, 10), (4, 8), (4, 8)], ["c1", "c2"])
df.stat.crosstab("c1", "c2").sort("c1_c2").show()
# +-----+---+---+---+
# |c1_c2| 10| 11|  8|
# +-----+---+---+---+
# |    1|  0|  2|  0|
# |    3|  1|  0|  0|
# |    4|  0|  0|  2|
# +-----+---+---+---+