Kreuztabelle (DataFrame)

Berechnet eine paarweise Häufigkeitstabelle der angegebenen Spalten. Auch bekannt als Notfalltabelle. Die erste Spalte jeder Zeile ist die unterschiedlichen Werte, col1 und die Spaltennamen sind die unterschiedlichen Werte von col2. Der Name der ersten Spalte lautet $col1_$col2. Paare ohne Vorkommen haben null als Anzahl. DataFrame.crosstab und DataFrameStatFunctions.crosstab sind Aliase.

Syntax

crosstab(col1: str, col2: str)

Parameter

Parameter	Typ	Beschreibung
`col1`	str	Der Name der ersten Spalte. Durch unterschiedliche Elemente wird das erste Element jeder Zeile erstellt.
`col2`	str	Der Name der zweiten Spalte. Durch unterschiedliche Elemente werden die Spaltennamen des DataFrames erstellt.

Rückkehr

DataFrame: Häufigkeitsmatrix von zwei Spalten.

Beispiele

df = spark.createDataFrame([(1, 11), (1, 11), (3, 10), (4, 8), (4, 8)], ["c1", "c2"])
df.crosstab("c1", "c2").sort("c1_c2").show()
# +-----+---+---+---+
# |c1_c2| 10| 11|  8|
# +-----+---+---+---+
# |    1|  0|  2|  0|
# |    3|  1|  0|  0|
# |    4|  0|  0|  2|
# +-----+---+---+---+

Feedback

War diese Seite hilfreich?

Last updated on 2026-04-19