freqItems (DataFrame)

Suchen häufiger Elemente für Spalten, möglicherweise mit falsch positiven Ergebnissen. Die Verwendung des Algorithmus für die anzahl häufigen Elemente, der in "https://doi.org/10.1145/762471.762473, vorgeschlagen von Karp, Attribut und Papadimitriou" beschrieben wird. DataFrame.freqItems und DataFrameStatFunctions.freqItems sind Aliase.

Syntax

freqItems(cols: Union[List[str], Tuple[str]], support: Optional[float] = None)

Parameter

Parameter	Typ	Beschreibung
`cols`	list oder tuple	Namen der Spalten, für die häufige Elemente als Liste oder Tupel von Zeichenfolgen berechnet werden sollen.
`support`	float, optional	Die Häufigkeit, mit der ein Element "häufig" berücksichtigt werden soll. Der Standardwert ist 1%. Die Unterstützung muss größer als 1e-4 sein.

Rückkehr

DataFrame: DataFrame mit häufigen Elementen.

Hinweise

Diese Funktion dient zur explorativen Datenanalyse, da wir keine Garantie für die Abwärtskompatibilität des Schemas des resultierenden DataFrames gewährleisten.

Beispiele

from pyspark.sql import functions as sf
df = spark.createDataFrame([(1, 11), (1, 11), (3, 10), (4, 8), (4, 8)], ["c1", "c2"])
df = df.freqItems(["c1", "c2"])
df.select([sf.sort_array(c).alias(c) for c in df.columns]).show()
# +------------+------------+
# |c1_freqItems|c2_freqItems|
# +------------+------------+
# |   [1, 3, 4]| [8, 10, 11]|
# +------------+------------+

Feedback

War diese Seite hilfreich?

Last updated on 2026-04-19