schema (DataStreamReader)

Especifica o esquema de entrada. Algumas fontes de dados (por exemplo, JSON) podem inferir automaticamente o esquema de entrada a partir dos dados. Especificar o esquema aqui permite que a fonte de dados ignore a inferência do esquema e acelere o carregamento dos dados.

Sintaxe

schema(schema)

Parâmetros

Parâmetro Tipo Descrição
schema StructType ou str Um objeto StructType ou uma string formatada em DDL (por exemplo, col0 INT, col1 DOUBLE).

Devoluções

DataStreamReader

Exemplos

from pyspark.sql.types import StructField, StructType, StringType
spark.readStream.schema(StructType([StructField("data", StringType(), True)]))
# <...streaming.readwriter.DataStreamReader object ...>
spark.readStream.schema("col0 INT, col1 DOUBLE")
# <...streaming.readwriter.DataStreamReader object ...>

Especifique um esquema diferente para um ficheiro CSV:

import tempfile
with tempfile.TemporaryDirectory(prefix="schema") as d:
    spark.readStream.schema("col0 INT, col1 STRING").format("csv").load(d).printSchema()
    # root
    #  |-- col0: integer (nullable = true)
    #  |-- col1: string (nullable = true)