Nota
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare ad accedere o modificare le directory.
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare a modificare le directory.
Crea un oggetto DataFrame da un RDDoggetto , un elenco, un pandas.DataFrameoggetto , o numpy.ndarrayun oggetto pyarrow.Table.
Sintassi
createDataFrame(data, schema=None, samplingRatio=None, verifySchema=True)
Parametri
| Parametro | Tipo | Descrizione |
|---|---|---|
data |
RDD o iterabile | Rdd di qualsiasi tipo di rappresentazione dei dati SQL (Row, tuple, int, booldict, e così via) o , listpandas.DataFrame, numpy.ndarrayo pyarrow.Table. |
schema |
DataType, str o list, facoltativo | Oggetto DataType, una stringa tipo di dati o un elenco di nomi di colonna. Quando viene fornito un elenco di nomi di colonna, il tipo di ogni colonna viene dedotto da data. Quando None, lo schema viene dedotto da data (richiede Row, namedtupleo dict). Quando viene specificata una DataType stringa di tipo dati o , deve corrispondere ai dati effettivi. |
samplingRatio |
float, facoltativo | Rapporto di esempio delle righe usate per l'inferenza dello schema quando data è un oggetto RDD. Se None, vengono usate le prime righe. |
verifySchema |
bool, facoltativo | Verificare i tipi di dati di ogni riga rispetto allo schema. Abilitato per impostazione predefinita. Non supportato con la pyarrow.Table conversione pandas abilitata per l'input o freccia. |
Restituzioni
DataFrame
Note
L'utilizzo con spark.sql.execution.arrow.pyspark.enabled=True è sperimentale.
Examples
# Create a DataFrame from a list of tuples.
spark.createDataFrame([('Alice', 1)]).show()
# +-----+---+
# | _1| _2|
# +-----+---+
# |Alice| 1|
# +-----+---+
# Create a DataFrame from a list of dictionaries.
spark.createDataFrame([{'name': 'Alice', 'age': 1}]).show()
# +---+-----+
# |age| name|
# +---+-----+
# | 1|Alice|
# +---+-----+
# Create a DataFrame with column names specified.
spark.createDataFrame([('Alice', 1)], ['name', 'age']).show()
# +-----+---+
# | name|age|
# +-----+---+
# |Alice| 1|
# +-----+---+
# Create a DataFrame with an explicit schema.
from pyspark.sql.types import StructType, StructField, StringType, IntegerType
schema = StructType([
StructField("name", StringType(), True),
StructField("age", IntegerType(), True)])
spark.createDataFrame([('Alice', 1)], schema).show()
# +-----+---+
# | name|age|
# +-----+---+
# |Alice| 1|
# +-----+---+
# Create a DataFrame with a DDL-formatted schema string.
spark.createDataFrame([('Alice', 1)], "name: string, age: int").show()
# +-----+---+
# | name|age|
# +-----+---+
# |Alice| 1|
# +-----+---+
# Create an empty DataFrame (schema is required when data is empty).
spark.createDataFrame([], "name: string, age: int").show()
# +----+---+
# |name|age|
# +----+---+
# +----+---+
# Create a DataFrame from Row objects.
from pyspark.sql import Row
Person = Row('name', 'age')
spark.createDataFrame([Person("Alice", 1)]).show()
# +-----+---+
# | name|age|
# +-----+---+
# |Alice| 1|
# +-----+---+