freqItems (DataFrameStatFunctions)

Sucht häufig verwendete Elemente für Spalten, möglicherweise mit falsch positiven Ergebnissen. Verwendet den algorithmus für die Anzahl der häufigen Elemente, der von Karp,Ité und Papadimitriou beschrieben wird. DataFrame.freqItems und DataFrameStatFunctions.freqItems sind Aliase voneinander.

Syntax

freqItems(cols, support=None)

Parameter

Parameter	Typ	Beschreibung
`cols`	list oder tuple	Namen der Spalten, für die häufige Elemente berechnet werden sollen.
`support`	float, optional	Die Häufigkeit, mit der ein Element häufig berücksichtigt werden soll. Der Standardwert ist 1% (0,01). Muss größer als 1e-4 sein.

Rückkehr

DataFrame

Hinweise

Diese Methode dient zur explorativen Datenanalyse. Es gibt keine Garantie für die Abwärtskompatibilität für das Schema des resultierenden DataFrame.

Beispiele

from pyspark.sql import functions as sf
df = spark.createDataFrame([(1, 11), (1, 11), (3, 10), (4, 8), (4, 8)], ["c1", "c2"])
result = df.stat.freqItems(["c1", "c2"])
result.select([sf.sort_array(c).alias(c) for c in result.columns]).show()
# +------------+------------+
# |c1_freqItems|c2_freqItems|
# +------------+------------+
# |   [1, 3, 4]| [8, 10, 11]|
# +------------+------------+

Feedback

War diese Seite hilfreich?

Last updated on 2026-04-19