Condividi tramite


campi incrociati (DataFrame)

Calcola una tabella di frequenza a coppie delle colonne specificate. Nota anche come tabella di emergenza. La prima colonna di ogni riga sarà costituita dai valori distinti di e i nomi delle col1 colonne saranno i valori distinti di col2. Il nome della prima colonna sarà $col1_$col2. Le coppie che non hanno occorrenze avranno zero come conteggio. DataFrame.crosstab e DataFrameStatFunctions.crosstab sono alias.

Sintassi

crosstab(col1: str, col2: str)

Parametri

Parametro Tipo Descrizione
col1 str Nome della prima colonna. Gli elementi distinti creeranno il primo elemento di ogni riga.
col2 str Nome della seconda colonna. Gli elementi distinti renderanno i nomi di colonna del dataframe.

Restituzioni

DataFrame: matrice di frequenza di due colonne.

Examples

df = spark.createDataFrame([(1, 11), (1, 11), (3, 10), (4, 8), (4, 8)], ["c1", "c2"])
df.crosstab("c1", "c2").sort("c1_c2").show()
# +-----+---+---+---+
# |c1_c2| 10| 11|  8|
# +-----+---+---+---+
# |    1|  0|  2|  0|
# |    3|  1|  0|  0|
# |    4|  0|  0|  2|
# +-----+---+---+---+