PySpark のリファレンス

このページでは、Spark 用の Python API である PySpark で使用できるリファレンスの概要について説明します。 PySpark の詳細については、Azure Databricks の「PySpark」を参照してください。

データ型

PySpark データ型の完全な一覧については、「 PySpark データ型」を参照してください。

クラス

リファレンス	Description
カタログ	データベース、テーブル、関数、およびその他のカタログメタデータを管理するためのインターフェイス。
コラム	変換や式など、DataFrame 列を操作するための操作。
データ型	PySpark SQL で使用可能なデータ型 (プリミティブ型、複合型、ユーザー定義型など)。
DataFrame	リレーショナルデータベース内のテーブルと同様に、名前付き列に編成されたデータの分散コレクション。
DataFrameNaFunctions	DataFrame で不足しているデータを操作するための機能。
DataFrameReader	外部ストレージシステムから DataFrame を読み込むのに使用されるインターフェイス。
DataFrameStatFunctions	DataFrame を使用した統計関数の機能。
DataFrameWriter	DataFrame を外部ストレージシステムに書き込むのに使用されるインターフェイス。
DataFrameWriterV2	DataFrame を外部ストレージ (バージョン 2) に書き込むのに使用されるインターフェイス。
DataSource	外部システムから読み取るカスタムデータソースを実装するための API。カスタムデータソースの詳細については、「 PySpark カスタムデータソース」を参照してください。
DataSourceArrowWriter	PyArrow の `RecordBatch`を使用してデータを処理するデータソースライターの基本クラス。
DataSourceRegistration	データソース登録のラッパー。
DataSourceReader	データソースリーダーの基本クラス。
DataSourceStreamArrowWriter	PyArrow の `RecordBatch`を使用してデータを処理するデータストリームライターの基本クラス。
DataSourceStreamReader	ストリーミングデータソースリーダーの基本クラス。
DataSourceStreamWriter	データストリームライターの基本クラス。
DataSourceWriter	バッチモードでカスタムデータソースにデータを保存するデータソースライターの基本クラス。
DataStreamReader	外部ストレージシステムからストリーミング DataFrame を読み込むのに使用されるインターフェイス。
DataStreamWriter	ストリーミングデータフレームを外部ストレージシステムに書き込むのに使用されるインターフェイス。
地理学	Pythonの Geography 値を表すクラス。
幾何学	Pythonの Geometry 値を表すクラス。
GroupedData	データをグループ化し、グループ化された DataFrame に対して集計操作を実行するためのメソッド。
InputPartition	`partitions()`の`DataSourceReader` メソッドによって返される入力パーティションを表す基本クラス。
観測	メトリックを収集し、監視とデバッグのためにクエリの実行中に DataFrames を監視します。
PlotAccessor	PySpark での DataFrame プロット機能のアクセサー。
ProtoBuf	プロトコルバッファー形式を使用したデータのシリアル化と逆シリアル化のサポート。
行	個々のフィールド値へのアクセスを提供する DataFrame 内のデータ行を表します。
RuntimeConfig	Spark SQL のランタイム構成オプション (実行とオプティマイザーの設定を含む)。 Databricks でのみ使用できる構成の詳細については、「Azure Databricks の Set Spark 構成プロパティを参照してください。
SimpleDataSourceStreamReader	データを読み取り、最新のオフセットを同時に計画する、簡略化されたストリーミングデータソースリーダーの基本クラス。
SparkSession	PySpark アプリケーションでデータを読み取り、SQL クエリを実行するためのエントリポイント。
ステートフルプロセッサ	構造化ストリーミングでの複雑なステートフル操作のストリーミングバッチ間の状態を管理します。
StreamingQuery	新しいデータが到着するとバックグラウンドで継続的に実行されるクエリへのハンドル。
StreamingQueryListener	ストリーミングクエリライフサイクルイベントをリッスンするための抽象クラス。
StreamingQueryManager	`StreamingQuery`に関連付けられているすべてのアクティブな`SparkSession` インスタンスを管理します。
UserDefinedFunction (UDF)	カスタム Python ロジックを DataFrame 列に適用するためのユーザー定義関数。
UDFRegistration	ユーザー定義関数登録のラッパー。このインスタンスには、 `spark.udf`でアクセスできます。
UserDefinedTableFunction (UDTF)	入力行ごとに複数の行を返すユーザー定義テーブル関数。
UDTFRegistration	ユーザー定義テーブル関数登録のラッパー。このインスタンスには、 `spark.udtf`でアクセスできます。
VariantVal	動的な型と入れ子構造をサポートする柔軟なスキーマを持つ半構造化データを表します。
ウィンドウ	現在の行に関連する一連のテーブル行にわたって計算を実行するためのウィンドウ関数。
WindowSpec	現在の行に関連する一連のテーブル行にわたって計算を実行するためのウィンドウ関数。
WriterCommitMessage	`DataSourceWriter.write`によって返され、`DataSourceWriter.commit`または`DataSourceWriter.abort`の入力パラメーターとしてドライバーに返されるコミットメッセージ。

Functions

使用可能な組み込み関数の完全な一覧については、 PySpark 関数を参照してください。

フィードバック

このページはお役に立ちましたか?

Last updated on 2026-04-19

PySpark のリファレンス

データ型

クラス

Functions

フィードバック

その他のリソース