Nota
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare ad accedere o modificare le directory.
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare a modificare le directory.
Calcola una tabella di frequenza a coppie delle colonne specificate. Nota anche come tabella di emergenza. La prima colonna di ogni riga sarà costituita dai valori distinti di e i nomi delle col1 colonne saranno i valori distinti di col2. Il nome della prima colonna sarà $col1_$col2. Le coppie che non hanno occorrenze avranno zero come conteggio.
DataFrame.crosstab e DataFrameStatFunctions.crosstab sono alias.
Sintassi
crosstab(col1: str, col2: str)
Parametri
| Parametro | Tipo | Descrizione |
|---|---|---|
col1 |
str | Nome della prima colonna. Gli elementi distinti creeranno il primo elemento di ogni riga. |
col2 |
str | Nome della seconda colonna. Gli elementi distinti renderanno i nomi di colonna del dataframe. |
Restituzioni
DataFrame: matrice di frequenza di due colonne.
Examples
df = spark.createDataFrame([(1, 11), (1, 11), (3, 10), (4, 8), (4, 8)], ["c1", "c2"])
df.crosstab("c1", "c2").sort("c1_c2").show()
# +-----+---+---+---+
# |c1_c2| 10| 11| 8|
# +-----+---+---+---+
# | 1| 0| 2| 0|
# | 3| 1| 0| 0|
# | 4| 0| 0| 2|
# +-----+---+---+---+