Hinweis
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, sich anzumelden oder das Verzeichnis zu wechseln.
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, das Verzeichnis zu wechseln.
Berechnet eine paarweise Häufigkeitstabelle der angegebenen Spalten. Auch bekannt als Notfalltabelle. Die erste Spalte jeder Zeile ist die unterschiedlichen Werte, col1 und die Spaltennamen sind die unterschiedlichen Werte von col2. Der Name der ersten Spalte lautet $col1_$col2. Paare ohne Vorkommen haben null als Anzahl.
DataFrame.crosstab und DataFrameStatFunctions.crosstab sind Aliase.
Syntax
crosstab(col1: str, col2: str)
Parameter
| Parameter | Typ | Beschreibung |
|---|---|---|
col1 |
str | Der Name der ersten Spalte. Durch unterschiedliche Elemente wird das erste Element jeder Zeile erstellt. |
col2 |
str | Der Name der zweiten Spalte. Durch unterschiedliche Elemente werden die Spaltennamen des DataFrames erstellt. |
Rückkehr
DataFrame: Häufigkeitsmatrix von zwei Spalten.
Beispiele
df = spark.createDataFrame([(1, 11), (1, 11), (3, 10), (4, 8), (4, 8)], ["c1", "c2"])
df.crosstab("c1", "c2").sort("c1_c2").show()
# +-----+---+---+---+
# |c1_c2| 10| 11| 8|
# +-----+---+---+---+
# | 1| 0| 2| 0|
# | 3| 1| 0| 0|
# | 4| 0| 0| 2|
# +-----+---+---+---+