入力スキーマを指定します。 一部のデータ ソース (JSON など) では、データから入力スキーマを自動的に推論できます。 ここでスキーマを指定すると、データ ソースはスキーマ推論をスキップし、データの読み込みを高速化できます。
構文
schema(schema)
パラメーター
| パラメーター | タイプ | 説明 |
|---|---|---|
schema |
StructType または str | StructType オブジェクトまたは DDL 形式の文字列 (たとえば、 col0 INT, col1 DOUBLE)。 |
返品
DataStreamReader
例示
from pyspark.sql.types import StructField, StructType, StringType
spark.readStream.schema(StructType([StructField("data", StringType(), True)]))
# <...streaming.readwriter.DataStreamReader object ...>
spark.readStream.schema("col0 INT, col1 DOUBLE")
# <...streaming.readwriter.DataStreamReader object ...>
CSV ファイルに別のスキーマを指定します。
import tempfile
with tempfile.TemporaryDirectory(prefix="schema") as d:
spark.readStream.schema("col0 INT, col1 STRING").format("csv").load(d).printSchema()
# root
# |-- col0: integer (nullable = true)
# |-- col1: string (nullable = true)