Hinweis
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, sich anzumelden oder das Verzeichnis zu wechseln.
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, das Verzeichnis zu wechseln.
Suchen häufiger Elemente für Spalten, möglicherweise mit falsch positiven Ergebnissen. Die Verwendung des Algorithmus für die anzahl häufigen Elemente, der in "https://doi.org/10.1145/762471.762473, vorgeschlagen von Karp, Attribut und Papadimitriou" beschrieben wird.
DataFrame.freqItems und DataFrameStatFunctions.freqItems sind Aliase.
Syntax
freqItems(cols: Union[List[str], Tuple[str]], support: Optional[float] = None)
Parameter
| Parameter | Typ | Beschreibung |
|---|---|---|
cols |
list oder tuple | Namen der Spalten, für die häufige Elemente als Liste oder Tupel von Zeichenfolgen berechnet werden sollen. |
support |
float, optional | Die Häufigkeit, mit der ein Element "häufig" berücksichtigt werden soll. Der Standardwert ist 1%. Die Unterstützung muss größer als 1e-4 sein. |
Rückkehr
DataFrame: DataFrame mit häufigen Elementen.
Hinweise
Diese Funktion dient zur explorativen Datenanalyse, da wir keine Garantie für die Abwärtskompatibilität des Schemas des resultierenden DataFrames gewährleisten.
Beispiele
from pyspark.sql import functions as sf
df = spark.createDataFrame([(1, 11), (1, 11), (3, 10), (4, 8), (4, 8)], ["c1", "c2"])
df = df.freqItems(["c1", "c2"])
df.select([sf.sort_array(c).alias(c) for c in df.columns]).show()
# +------------+------------+
# |c1_freqItems|c2_freqItems|
# +------------+------------+
# | [1, 3, 4]| [8, 10, 11]|
# +------------+------------+