列の頻繁な項目の検索 。誤検知の可能性があります。 「Karp、Schenker、および Papadimitriou によって提案されたhttps://doi.org/10.1145/762471.762473」で説明されている頻繁な要素数アルゴリズムを使用します。
DataFrame.freqItems と DataFrameStatFunctions.freqItems はエイリアスです。
構文
freqItems(cols: Union[List[str], Tuple[str]], support: Optional[float] = None)
パラメーター
| パラメーター | タイプ | 説明 |
|---|---|---|
cols |
list または tuple | 文字列のリストまたはタプルとして頻繁にアイテムを計算する列の名前。 |
support |
float、省略可能 | 項目 'frequent' を考慮する頻度。 既定値は 1%です。 サポートは 1e-4 より大きい必要があります。 |
返品
DataFrame: 頻繁な項目を含む DataFrame。
メモ
この関数は探索的なデータ分析を目的としているため、結果の DataFrame のスキーマの下位互換性については保証されません。
例示
from pyspark.sql import functions as sf
df = spark.createDataFrame([(1, 11), (1, 11), (3, 10), (4, 8), (4, 8)], ["c1", "c2"])
df = df.freqItems(["c1", "c2"])
df.select([sf.sort_array(c).alias(c) for c in df.columns]).show()
# +------------+------------+
# |c1_freqItems|c2_freqItems|
# +------------+------------+
# | [1, 3, 4]| [8, 10, 11]|
# +------------+------------+