Nota
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare ad accedere o modificare le directory.
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare a modificare le directory.
Definire le metriche (denominate) da osservare nel dataframe. Questo metodo restituisce un dataframe "osservato" che restituisce lo stesso risultato dell'input, con le garanzie seguenti: calcola le aggregazioni definite (metriche) su tutti i dati trasmessi attraverso il set di dati a quel punto. Verrà riportato il valore delle colonne di aggregazione definite non appena si raggiunge un punto di completamento.
Sintassi
observe(observation: Union["Observation", str], *exprs: Column)
Parametri
| Parametro | Tipo | Descrizione |
|---|---|---|
observation |
Osservazione o str |
str per specificare il nome o un'istanza Observation per ottenere la metrica. |
exprs |
colonna | espressioni di colonna (colonna). |
Restituzioni
DataFrame: dataframe osservato.
Note
Quando observation è Observation, questo metodo supporta solo le query batch. Quando observation è una stringa, questo metodo funziona sia per le query batch che per le query di streaming. L'esecuzione continua non è attualmente supportata.
Examples
from pyspark.sql import Observation, functions as sf
df = spark.createDataFrame([(2, "Alice"), (5, "Bob")], schema=["age", "name"])
observation = Observation("my metrics")
observed_df = df.observe(observation,
sf.count(sf.lit(1)).alias("count"), sf.max("age"))
observed_df.count()
# 2
observation.get
# {'count': 2, 'max(age)': 5}