Freigeben über


freqItems (DataFrameStatFunctions)

Sucht häufig verwendete Elemente für Spalten, möglicherweise mit falsch positiven Ergebnissen. Verwendet den algorithmus für die Anzahl der häufigen Elemente, der von Karp,Ité und Papadimitriou beschrieben wird. DataFrame.freqItems und DataFrameStatFunctions.freqItems sind Aliase voneinander.

Syntax

freqItems(cols, support=None)

Parameter

Parameter Typ Beschreibung
cols list oder tuple Namen der Spalten, für die häufige Elemente berechnet werden sollen.
support float, optional Die Häufigkeit, mit der ein Element häufig berücksichtigt werden soll. Der Standardwert ist 1% (0,01). Muss größer als 1e-4 sein.

Rückkehr

DataFrame

Hinweise

Diese Methode dient zur explorativen Datenanalyse. Es gibt keine Garantie für die Abwärtskompatibilität für das Schema des resultierenden DataFrame.

Beispiele

from pyspark.sql import functions as sf
df = spark.createDataFrame([(1, 11), (1, 11), (3, 10), (4, 8), (4, 8)], ["c1", "c2"])
result = df.stat.freqItems(["c1", "c2"])
result.select([sf.sort_array(c).alias(c) for c in result.columns]).show()
# +------------+------------+
# |c1_freqItems|c2_freqItems|
# +------------+------------+
# |   [1, 3, 4]| [8, 10, 11]|
# +------------+------------+