CSV ファイルを読み込み、結果を DataFrameとして返します。
inferSchemaが有効になっている場合、この関数は入力を 1 回読み取ってスキーマを決定します。 これを回避するには、 inferSchema を無効にするか、 schemaを使用して明示的にスキーマを指定します。
構文
csv(path, schema=None, **options)
パラメーター
| パラメーター | タイプ | 説明 |
|---|---|---|
path |
str または list | 1 つ以上の入力パス、または CSV 行を格納する文字列の RDD。 |
schema |
StructType または str(省略可能) |
StructType オブジェクトまたは DDL 形式の文字列 (たとえば、'col0 INT, col1 DOUBLE') としての省略可能な入力スキーマ。 |
返品
DataFrame
例示
DATAFrame を CSV ファイルに書き込み、読み戻します。
import tempfile
with tempfile.TemporaryDirectory(prefix="csv") as d:
df = spark.createDataFrame([{"age": 100, "name": "Alice"}])
df.write.mode("overwrite").format("csv").save(d)
spark.read.csv(d, schema=df.schema, nullValue="Alice").show()
# +---+----+
# |age|name|
# +---+----+
# |100|NULL|
# +---+----+