schema (DataStreamReader)

入力スキーマを指定します。 一部のデータ ソース (JSON など) では、データから入力スキーマを自動的に推論できます。 ここでスキーマを指定すると、データ ソースはスキーマ推論をスキップし、データの読み込みを高速化できます。

構文

schema(schema)

パラメーター

パラメーター タイプ 説明
schema StructType または str StructType オブジェクトまたは DDL 形式の文字列 (たとえば、 col0 INT, col1 DOUBLE)。

返品

DataStreamReader

例示

from pyspark.sql.types import StructField, StructType, StringType
spark.readStream.schema(StructType([StructField("data", StringType(), True)]))
# <...streaming.readwriter.DataStreamReader object ...>
spark.readStream.schema("col0 INT, col1 DOUBLE")
# <...streaming.readwriter.DataStreamReader object ...>

CSV ファイルに別のスキーマを指定します。

import tempfile
with tempfile.TemporaryDirectory(prefix="schema") as d:
    spark.readStream.schema("col0 INT, col1 STRING").format("csv").load(d).printSchema()
    # root
    #  |-- col0: integer (nullable = true)
    #  |-- col1: string (nullable = true)