観察

DataFrame で観察する (名前付き) メトリックを定義します。 このメソッドは、入力と同じ結果を返す 'observed' DataFrame を返します。次の保証があります。このメソッドは、その時点でデータセットを通過しているすべてのデータに対して定義された集計 (メトリック) を計算します。 完了ポイントに達するとすぐに、定義された集計列の値が報告されます。

構文

observe(observation: Union["Observation", str], *exprs: Column)

パラメーター

パラメーター タイプ 説明
observation 監視または str str を使用して名前を指定するか、メトリックを取得する Observation インスタンスを指定します。
exprs コラム column 式 (Column)。

返品

DataFrame: 観察されたデータフレーム。

メモ

observationObservationされている場合、このメソッドはバッチ クエリのみをサポートします。 observationが文字列の場合、このメソッドはバッチ クエリとストリーミング クエリの両方で機能します。 現在、継続的な実行はまだサポートされていません。

例示

from pyspark.sql import Observation, functions as sf
df = spark.createDataFrame([(2, "Alice"), (5, "Bob")], schema=["age", "name"])
observation = Observation("my metrics")
observed_df = df.observe(observation,
    sf.count(sf.lit(1)).alias("count"), sf.max("age"))
observed_df.count()
# 2
observation.get
# {'count': 2, 'max(age)': 5}