Condividi tramite


freqItems (DataFrameStatFunctions)

Trova elementi frequenti per le colonne, possibilmente con falsi positivi. Usa l'algoritmo di conteggio degli elementi frequente descritto da Karp, Schenker e Papadimitriou. DataFrame.freqItems e DataFrameStatFunctions.freqItems sono alias l'uno dell'altro.

Sintassi

freqItems(cols, support=None)

Parametri

Parametro Tipo Descrizione
cols elenco o tupla Nomi delle colonne per cui calcolare gli elementi frequenti.
support float, facoltativo Frequenza con cui considerare un elemento frequente. Il valore predefinito è 1% (0,01). Deve essere maggiore di 1e-4.

Restituzioni

DataFrame

Note

Questo metodo è destinato all'analisi esplorativa dei dati. Non esiste alcuna garanzia di compatibilità con le versioni precedenti per lo schema dell'oggetto risultante DataFrame.

Examples

from pyspark.sql import functions as sf
df = spark.createDataFrame([(1, 11), (1, 11), (3, 10), (4, 8), (4, 8)], ["c1", "c2"])
result = df.stat.freqItems(["c1", "c2"])
result.select([sf.sort_array(c).alias(c) for c in result.columns]).show()
# +------------+------------+
# |c1_freqItems|c2_freqItems|
# +------------+------------+
# |   [1, 3, 4]| [8, 10, 11]|
# +------------+------------+