Condividi tramite


freqItems (DataFrame)

Ricerca di elementi frequenti per le colonne, possibilmente con falsi positivi. Utilizzando l'algoritmo di conteggio degli elementi frequente descritto in "https://doi.org/10.1145/762471.762473, proposto da Karp, Schenker e Papadimitriou". DataFrame.freqItems e DataFrameStatFunctions.freqItems sono alias.

Sintassi

freqItems(cols: Union[List[str], Tuple[str]], support: Optional[float] = None)

Parametri

Parametro Tipo Descrizione
cols elenco o tupla Nomi delle colonne per calcolare gli elementi frequenti per come elenco o tupla di stringhe.
support float, facoltativo Frequenza con cui considerare un elemento 'frequente'. Il valore predefinito è 1%. Il supporto deve essere maggiore di 1e-4.

Restituzioni

DataFrame: dataframe con elementi frequenti.

Note

Questa funzione è destinata all'analisi esplorativa dei dati, perché non viene garantita la compatibilità con le versioni precedenti dello schema del dataframe risultante.

Examples

from pyspark.sql import functions as sf
df = spark.createDataFrame([(1, 11), (1, 11), (3, 10), (4, 8), (4, 8)], ["c1", "c2"])
df = df.freqItems(["c1", "c2"])
df.select([sf.sort_array(c).alias(c) for c in df.columns]).show()
# +------------+------------+
# |c1_freqItems|c2_freqItems|
# +------------+------------+
# |   [1, 3, 4]| [8, 10, 11]|
# +------------+------------+