Condividi tramite


Osservare

Definire le metriche (denominate) da osservare nel dataframe. Questo metodo restituisce un dataframe "osservato" che restituisce lo stesso risultato dell'input, con le garanzie seguenti: calcola le aggregazioni definite (metriche) su tutti i dati trasmessi attraverso il set di dati a quel punto. Verrà riportato il valore delle colonne di aggregazione definite non appena si raggiunge un punto di completamento.

Sintassi

observe(observation: Union["Observation", str], *exprs: Column)

Parametri

Parametro Tipo Descrizione
observation Osservazione o str str per specificare il nome o un'istanza Observation per ottenere la metrica.
exprs colonna espressioni di colonna (colonna).

Restituzioni

DataFrame: dataframe osservato.

Note

Quando observation è Observation, questo metodo supporta solo le query batch. Quando observation è una stringa, questo metodo funziona sia per le query batch che per le query di streaming. L'esecuzione continua non è attualmente supportata.

Examples

from pyspark.sql import Observation, functions as sf
df = spark.createDataFrame([(2, "Alice"), (5, "Bob")], schema=["age", "name"])
observation = Observation("my metrics")
observed_df = df.observe(observation,
    sf.count(sf.lit(1)).alias("count"), sf.max("age"))
observed_df.count()
# 2
observation.get
# {'count': 2, 'max(age)': 5}