freqItems (DataFrameStatFunctions)

列の頻繁な項目を検索します。誤検知の可能性があります。 Karp、Schenker、および Papadimitriou によって記述された頻繁な要素数アルゴリズムを使用します。 DataFrame.freqItems と DataFrameStatFunctions.freqItems は互いのエイリアスです。

構文

freqItems(cols, support=None)

パラメーター

パラメーター	タイプ	説明
`cols`	list または tuple	頻繁にアイテムを計算する列の名前。
`support`	float、省略可能	項目の頻度を考慮する頻度。既定値は 1% (0.01) です。 1e-4 より大きい必要があります。

返品

DataFrame

メモ

この方法は、探索的なデータ分析を目的とします。結果の DataFrameのスキーマの下位互換性は保証されません。

例示

from pyspark.sql import functions as sf
df = spark.createDataFrame([(1, 11), (1, 11), (3, 10), (4, 8), (4, 8)], ["c1", "c2"])
result = df.stat.freqItems(["c1", "c2"])
result.select([sf.sort_array(c).alias(c) for c in result.columns]).show()
# +------------+------------+
# |c1_freqItems|c2_freqItems|
# +------------+------------+
# |   [1, 3, 4]| [8, 10, 11]|
# +------------+------------+

フィードバック

このページはお役に立ちましたか?

Last updated on 2026-04-19

freqItems (DataFrameStatFunctions)

構文

パラメーター

返品

メモ

例示

フィードバック

その他のリソース