Freigeben über


Beobachten

Definieren (benannter) Metriken, die im DataFrame beobachtet werden sollen. Diese Methode gibt einen "beobachteten" DataFrame zurück, der dasselbe Ergebnis wie die Eingabe zurückgibt, mit den folgenden Garantien: Es berechnet die definierten Aggregate (Metriken) für alle Daten, die an diesem Punkt durch das Dataset fließen. Er meldet den Wert der definierten Aggregatspalten, sobald wir einen Abschlusspunkt erreichen.

Syntax

observe(observation: Union["Observation", str], *exprs: Column)

Parameter

Parameter Typ Beschreibung
observation Beobachtung oder Str str um den Namen oder eine Observation Instanz anzugeben, um die Metrik abzurufen.
exprs Kolumne Spaltenausdrücke (Column).

Rückkehr

DataFrame: der beobachtete DataFrame.

Hinweise

Wenn observation dies der Fall ist Observation, unterstützt diese Methode nur Batchabfragen. Wenn observation es sich um eine Zeichenfolge handelt, funktioniert diese Methode sowohl für Batch- als auch für Streamingabfragen. Die kontinuierliche Ausführung wird derzeit noch nicht unterstützt.

Beispiele

from pyspark.sql import Observation, functions as sf
df = spark.createDataFrame([(2, "Alice"), (5, "Bob")], schema=["age", "name"])
observation = Observation("my metrics")
observed_df = df.observe(observation,
    sf.count(sf.lit(1)).alias("count"), sf.max("age"))
observed_df.count()
# 2
observation.get
# {'count': 2, 'max(age)': 5}