Freigeben über


Kreuztabelle (DataFrameStatFunctions)

Berechnet eine paarweise Häufigkeitstabelle der angegebenen Spalten, auch bekannt als Notfalltabelle. Die erste Spalte jeder Zeile enthält die unterschiedlichen Werte von col1, und die Spaltennamen sind die unterschiedlichen Werte von col2. Der Name der ersten Spalte lautet $col1_$col2. Paare ohne Vorkommen haben eine Anzahl von Null. DataFrame.crosstab und DataFrameStatFunctions.crosstab sind Aliase voneinander.

Syntax

crosstab(col1, col2)

Parameter

Parameter Typ Beschreibung
col1 str Der Name der ersten Spalte. Unterschiedliche Elemente bilden die erste Spalte jeder Zeile.
col2 str Der Name der zweiten Spalte. Unterschiedliche Elemente bilden die Spaltennamen des resultierenden DataFrame.

Rückkehr

DataFrame

Beispiele

df = spark.createDataFrame([(1, 11), (1, 11), (3, 10), (4, 8), (4, 8)], ["c1", "c2"])
df.stat.crosstab("c1", "c2").sort("c1_c2").show()
# +-----+---+---+---+
# |c1_c2| 10| 11|  8|
# +-----+---+---+---+
# |    1|  0|  2|  0|
# |    3|  1|  0|  0|
# |    4|  0|  0|  2|
# +-----+---+---+---+