Nota
O acesso a esta página requer autorização. Pode tentar iniciar sessão ou alterar os diretórios.
O acesso a esta página requer autorização. Pode tentar alterar os diretórios.
Calcula uma tabela de frequências par a par das colunas dadas, também conhecida como tabela de contingência. A primeira coluna de cada linha contém os valores distintos de col1, e os nomes das colunas são os valores distintos de col2. O nome da primeira coluna é $col1_$col2. Pares sem ocorrências têm uma contagem de zero.
DataFrame.crosstab e DataFrameStatFunctions.crosstab são pseudónimos entre si.
Sintaxe
crosstab(col1, col2)
Parâmetros
| Parâmetro | Tipo | Descrição |
|---|---|---|
col1 |
str | O nome da primeira coluna. Itens distintos compõem a primeira coluna de cada linha. |
col2 |
str | O nome da segunda coluna. Itens distintos compõem os nomes das colunas do resultado DataFrame. |
Devoluções
DataFrame
Exemplos
df = spark.createDataFrame([(1, 11), (1, 11), (3, 10), (4, 8), (4, 8)], ["c1", "c2"])
df.stat.crosstab("c1", "c2").sort("c1_c2").show()
# +-----+---+---+---+
# |c1_c2| 10| 11| 8|
# +-----+---+---+---+
# | 1| 0| 2| 0|
# | 3| 1| 0| 0|
# | 4| 0| 0| 2|
# +-----+---+---+---+