Hinweis
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, sich anzumelden oder das Verzeichnis zu wechseln.
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, das Verzeichnis zu wechseln.
Sucht häufig verwendete Elemente für Spalten, möglicherweise mit falsch positiven Ergebnissen. Verwendet den algorithmus für die Anzahl der häufigen Elemente, der von Karp,Ité und Papadimitriou beschrieben wird.
DataFrame.freqItems und DataFrameStatFunctions.freqItems sind Aliase voneinander.
Syntax
freqItems(cols, support=None)
Parameter
| Parameter | Typ | Beschreibung |
|---|---|---|
cols |
list oder tuple | Namen der Spalten, für die häufige Elemente berechnet werden sollen. |
support |
float, optional | Die Häufigkeit, mit der ein Element häufig berücksichtigt werden soll. Der Standardwert ist 1% (0,01). Muss größer als 1e-4 sein. |
Rückkehr
DataFrame
Hinweise
Diese Methode dient zur explorativen Datenanalyse. Es gibt keine Garantie für die Abwärtskompatibilität für das Schema des resultierenden DataFrame.
Beispiele
from pyspark.sql import functions as sf
df = spark.createDataFrame([(1, 11), (1, 11), (3, 10), (4, 8), (4, 8)], ["c1", "c2"])
result = df.stat.freqItems(["c1", "c2"])
result.select([sf.sort_array(c).alias(c) for c in result.columns]).show()
# +------------+------------+
# |c1_freqItems|c2_freqItems|
# +------------+------------+
# | [1, 3, 4]| [8, 10, 11]|
# +------------+------------+