DataStreamReader

外部ストレージシステム (ファイルシステムやキー値ストアなど) からストリーミング DataFrame を読み込むためのインターフェイス。 spark.readStreamを使用してこれにアクセスします。

構文

# Access through SparkSession
spark.readStream

メソッド

メソッド	説明
`format(source)`	入力データソースの形式を指定します。
`schema(schema)`	ストリーミングデータフレームのスキーマを指定します。
`option(key, value)`	基になるデータソースの入力オプションを追加します。
`options(**options)`	基になるデータソースの複数の入力オプションを追加します。
`load(path)`	指定されたパスからストリーミング DataFrame を読み込んで返します。
`json(path)`	JSON ファイルストリームを読み込み、DataFrame を返します。
`orc(path)`	ORC ファイルストリームを読み込み、DataFrame を返します。
`parquet(path)`	Parquet ファイルストリームを読み込み、DataFrame を返します。
`text(path)`	テキストファイルストリームを読み込み、DataFrame を返します。
`csv(path)`	CSV ファイルストリームを読み込み、DataFrame を返します。
`xml(path)`	XML ファイルストリームを読み込み、DataFrame を返します。
`table(tableName)`	ストリーミング Delta テーブルを読み込み、DataFrame を返します。
`name(source_name)`	チェックポイントの進化のためにストリーミングソースに名前を割り当てます。
`changes(tableName)`	指定したテーブルの行レベルの変更 (変更データキャプチャ) をストリーミング DataFrame として返します。

例示

spark.readStream
# <...streaming.readwriter.DataStreamReader object ...>

レートストリームを読み込み、変換を適用し、コンソールに書き込み、3 秒後に停止します。

import time
df = spark.readStream.format("rate").load()
df = df.selectExpr("value % 3 as v")
q = df.writeStream.format("console").start()
time.sleep(3)
q.stop()

フィードバック

このページはお役に立ちましたか?

Last updated on 2026-04-19

DataStreamReader

構文

メソッド

例示

フィードバック

その他のリソース