crosstab (DataFrameStatFunctions)

コンティンジェンシー テーブルとも呼ばれる、指定された列のペアワイズ頻度テーブルを計算します。 各行の最初の列には col1の個別の値が含まれており、列名は col2の個別の値です。 最初の列の名前は $col1_$col2。 出現しないペアのカウントは 0 です。 DataFrame.crosstabDataFrameStatFunctions.crosstab は互いのエイリアスです。

構文

crosstab(col1, col2)

パラメーター

パラメーター タイプ 説明
col1 str 最初の列の名前。 個別の項目は、各行の最初の列を構成します。
col2 str 2 番目の列の名前。 個別の項目は、結果の DataFrameの列名を構成します。

返品

DataFrame

例示

df = spark.createDataFrame([(1, 11), (1, 11), (3, 10), (4, 8), (4, 8)], ["c1", "c2"])
df.stat.crosstab("c1", "c2").sort("c1_c2").show()
# +-----+---+---+---+
# |c1_c2| 10| 11|  8|
# +-----+---+---+---+
# |    1|  0|  2|  0|
# |    3|  1|  0|  0|
# |    4|  0|  0|  2|
# +-----+---+---+---+