Hinweis
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, sich anzumelden oder das Verzeichnis zu wechseln.
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, das Verzeichnis zu wechseln.
Berechnet eine paarweise Häufigkeitstabelle der angegebenen Spalten, auch bekannt als Notfalltabelle. Die erste Spalte jeder Zeile enthält die unterschiedlichen Werte von col1, und die Spaltennamen sind die unterschiedlichen Werte von col2. Der Name der ersten Spalte lautet $col1_$col2. Paare ohne Vorkommen haben eine Anzahl von Null.
DataFrame.crosstab und DataFrameStatFunctions.crosstab sind Aliase voneinander.
Syntax
crosstab(col1, col2)
Parameter
| Parameter | Typ | Beschreibung |
|---|---|---|
col1 |
str | Der Name der ersten Spalte. Unterschiedliche Elemente bilden die erste Spalte jeder Zeile. |
col2 |
str | Der Name der zweiten Spalte. Unterschiedliche Elemente bilden die Spaltennamen des resultierenden DataFrame. |
Rückkehr
DataFrame
Beispiele
df = spark.createDataFrame([(1, 11), (1, 11), (3, 10), (4, 8), (4, 8)], ["c1", "c2"])
df.stat.crosstab("c1", "c2").sort("c1_c2").show()
# +-----+---+---+---+
# |c1_c2| 10| 11| 8|
# +-----+---+---+---+
# | 1| 0| 2| 0|
# | 3| 1| 0| 0|
# | 4| 0| 0| 2|
# +-----+---+---+---+