Freigeben über


Kreuztabelle (DataFrame)

Berechnet eine paarweise Häufigkeitstabelle der angegebenen Spalten. Auch bekannt als Notfalltabelle. Die erste Spalte jeder Zeile ist die unterschiedlichen Werte, col1 und die Spaltennamen sind die unterschiedlichen Werte von col2. Der Name der ersten Spalte lautet $col1_$col2. Paare ohne Vorkommen haben null als Anzahl. DataFrame.crosstab und DataFrameStatFunctions.crosstab sind Aliase.

Syntax

crosstab(col1: str, col2: str)

Parameter

Parameter Typ Beschreibung
col1 str Der Name der ersten Spalte. Durch unterschiedliche Elemente wird das erste Element jeder Zeile erstellt.
col2 str Der Name der zweiten Spalte. Durch unterschiedliche Elemente werden die Spaltennamen des DataFrames erstellt.

Rückkehr

DataFrame: Häufigkeitsmatrix von zwei Spalten.

Beispiele

df = spark.createDataFrame([(1, 11), (1, 11), (3, 10), (4, 8), (4, 8)], ["c1", "c2"])
df.crosstab("c1", "c2").sort("c1_c2").show()
# +-----+---+---+---+
# |c1_c2| 10| 11|  8|
# +-----+---+---+---+
# |    1|  0|  2|  0|
# |    3|  1|  0|  0|
# |    4|  0|  0|  2|
# +-----+---+---+---+