指定された列のペアワイズ頻度テーブルを計算します。 コンティンジェンシー テーブルとも呼ばれます。 各行の最初の列は col1 の個別の値になり、列名は col2の個別の値になります。 最初の列の名前が $col1_$col2されます。 出現しないペアは、カウントとして 0 になります。
DataFrame.crosstab と DataFrameStatFunctions.crosstab はエイリアスです。
構文
crosstab(col1: str, col2: str)
パラメーター
| パラメーター | タイプ | 説明 |
|---|---|---|
col1 |
str | 最初の列の名前。 個別の項目は、各行の最初の項目になります。 |
col2 |
str | 2 番目の列の名前。 個別の項目では、DataFrame の列名が作成されます。 |
返品
DataFrame: 2 つの列の頻度行列。
例示
df = spark.createDataFrame([(1, 11), (1, 11), (3, 10), (4, 8), (4, 8)], ["c1", "c2"])
df.crosstab("c1", "c2").sort("c1_c2").show()
# +-----+---+---+---+
# |c1_c2| 10| 11| 8|
# +-----+---+---+---+
# | 1| 0| 2| 0|
# | 3| 1| 0| 0|
# | 4| 0| 0| 2|
# +-----+---+---+---+