Freigeben über


freqItems (DataFrame)

Suchen häufiger Elemente für Spalten, möglicherweise mit falsch positiven Ergebnissen. Die Verwendung des Algorithmus für die anzahl häufigen Elemente, der in "https://doi.org/10.1145/762471.762473, vorgeschlagen von Karp, Attribut und Papadimitriou" beschrieben wird. DataFrame.freqItems und DataFrameStatFunctions.freqItems sind Aliase.

Syntax

freqItems(cols: Union[List[str], Tuple[str]], support: Optional[float] = None)

Parameter

Parameter Typ Beschreibung
cols list oder tuple Namen der Spalten, für die häufige Elemente als Liste oder Tupel von Zeichenfolgen berechnet werden sollen.
support float, optional Die Häufigkeit, mit der ein Element "häufig" berücksichtigt werden soll. Der Standardwert ist 1%. Die Unterstützung muss größer als 1e-4 sein.

Rückkehr

DataFrame: DataFrame mit häufigen Elementen.

Hinweise

Diese Funktion dient zur explorativen Datenanalyse, da wir keine Garantie für die Abwärtskompatibilität des Schemas des resultierenden DataFrames gewährleisten.

Beispiele

from pyspark.sql import functions as sf
df = spark.createDataFrame([(1, 11), (1, 11), (3, 10), (4, 8), (4, 8)], ["c1", "c2"])
df = df.freqItems(["c1", "c2"])
df.select([sf.sort_array(c).alias(c) for c in df.columns]).show()
# +------------+------------+
# |c1_freqItems|c2_freqItems|
# +------------+------------+
# |   [1, 3, 4]| [8, 10, 11]|
# +------------+------------+