createDataFrame

Crea un oggetto DataFrame da un RDDoggetto , un elenco, un pandas.DataFrameoggetto , o numpy.ndarrayun oggetto pyarrow.Table.

Sintassi

createDataFrame(data, schema=None, samplingRatio=None, verifySchema=True)

Parametri

Parametro	Tipo	Descrizione
`data`	RDD o iterabile	Rdd di qualsiasi tipo di rappresentazione dei dati SQL (`Row`, `tuple`, `int`, `booldict`, e così via) o , `listpandas.DataFrame`, `numpy.ndarray`o `pyarrow.Table`.
`schema`	DataType, str o list, facoltativo	Oggetto `DataType`, una stringa tipo di dati o un elenco di nomi di colonna. Quando viene fornito un elenco di nomi di colonna, il tipo di ogni colonna viene dedotto da `data`. Quando `None`, lo schema viene dedotto da `data` (richiede `Row`, `namedtuple`o `dict`). Quando viene specificata una `DataType` stringa di tipo dati o , deve corrispondere ai dati effettivi.
`samplingRatio`	float, facoltativo	Rapporto di esempio delle righe usate per l'inferenza dello schema quando `data` è un oggetto `RDD`. Se `None`, vengono usate le prime righe.
`verifySchema`	bool, facoltativo	Verificare i tipi di dati di ogni riga rispetto allo schema. Abilitato per impostazione predefinita. Non supportato con la `pyarrow.Table` conversione pandas abilitata per l'input o freccia.

Restituzioni

DataFrame

Note

L'utilizzo con spark.sql.execution.arrow.pyspark.enabled=True è sperimentale.

Examples

# Create a DataFrame from a list of tuples.
spark.createDataFrame([('Alice', 1)]).show()
# +-----+---+
# |   _1| _2|
# +-----+---+
# |Alice|  1|
# +-----+---+

# Create a DataFrame from a list of dictionaries.
spark.createDataFrame([{'name': 'Alice', 'age': 1}]).show()
# +---+-----+
# |age| name|
# +---+-----+
# |  1|Alice|
# +---+-----+

# Create a DataFrame with column names specified.
spark.createDataFrame([('Alice', 1)], ['name', 'age']).show()
# +-----+---+
# | name|age|
# +-----+---+
# |Alice|  1|
# +-----+---+

# Create a DataFrame with an explicit schema.
from pyspark.sql.types import StructType, StructField, StringType, IntegerType
schema = StructType([
    StructField("name", StringType(), True),
    StructField("age", IntegerType(), True)])
spark.createDataFrame([('Alice', 1)], schema).show()
# +-----+---+
# | name|age|
# +-----+---+
# |Alice|  1|
# +-----+---+

# Create a DataFrame with a DDL-formatted schema string.
spark.createDataFrame([('Alice', 1)], "name: string, age: int").show()
# +-----+---+
# | name|age|
# +-----+---+
# |Alice|  1|
# +-----+---+

# Create an empty DataFrame (schema is required when data is empty).
spark.createDataFrame([], "name: string, age: int").show()
# +----+---+
# |name|age|
# +----+---+
# +----+---+

# Create a DataFrame from Row objects.
from pyspark.sql import Row
Person = Row('name', 'age')
spark.createDataFrame([Person("Alice", 1)]).show()
# +-----+---+
# | name|age|
# +-----+---+
# |Alice|  1|
# +-----+---+

Commenti e suggerimenti

Questa pagina è stata utile?

Last updated on 2026-04-22