PySpark のリファレンス

このページでは、Spark 用の Python API である PySpark で使用できるリファレンスの概要について説明します。 PySpark の詳細については、Azure Databricks の「PySpark」を参照してください。

データ型

PySpark データ型の完全な一覧については、「 PySpark データ型」を参照してください。

クラス

リファレンス Description
カタログ データベース、テーブル、関数、およびその他のカタログ メタデータを管理するためのインターフェイス。
コラム 変換や式など、DataFrame 列を操作するための操作。
データ型 PySpark SQL で使用可能なデータ型 (プリミティブ型、複合型、ユーザー定義型など)。
DataFrame リレーショナル データベース内のテーブルと同様に、名前付き列に編成されたデータの分散コレクション。
DataFrameNaFunctions DataFrame で不足しているデータを操作するための機能。
DataFrameReader 外部ストレージ システムから DataFrame を読み込むのに使用されるインターフェイス。
DataFrameStatFunctions DataFrame を使用した統計関数の機能。
DataFrameWriter DataFrame を外部ストレージ システムに書き込むのに使用されるインターフェイス。
DataFrameWriterV2 DataFrame を外部ストレージ (バージョン 2) に書き込むのに使用されるインターフェイス。
DataSource 外部システムから読み取るカスタム データ ソースを実装するための API。 カスタム データ ソースの詳細については、「 PySpark カスタム データ ソース」を参照してください。
DataSourceArrowWriter PyArrow の RecordBatchを使用してデータを処理するデータ ソース ライターの基本クラス。
DataSourceRegistration データ ソース登録のラッパー。
DataSourceReader データ ソース リーダーの基本クラス。
DataSourceStreamArrowWriter PyArrow の RecordBatchを使用してデータを処理するデータ ストリーム ライターの基本クラス。
DataSourceStreamReader ストリーミング データ ソース リーダーの基本クラス。
DataSourceStreamWriter データ ストリーム ライターの基本クラス。
DataSourceWriter バッチ モードでカスタム データ ソースにデータを保存するデータ ソース ライターの基本クラス。
DataStreamReader 外部ストレージ システムからストリーミング DataFrame を読み込むのに使用されるインターフェイス。
DataStreamWriter ストリーミング データフレームを外部ストレージ システムに書き込むのに使用されるインターフェイス。
地理学 Pythonの Geography 値を表すクラス。
幾何学 Pythonの Geometry 値を表すクラス。
GroupedData データをグループ化し、グループ化された DataFrame に対して集計操作を実行するためのメソッド。
InputPartition partitions()DataSourceReader メソッドによって返される入力パーティションを表す基本クラス。
観測 メトリックを収集し、監視とデバッグのためにクエリの実行中に DataFrames を監視します。
PlotAccessor PySpark での DataFrame プロット機能のアクセサー。
ProtoBuf プロトコル バッファー形式を使用したデータのシリアル化と逆シリアル化のサポート。
個々のフィールド値へのアクセスを提供する DataFrame 内のデータ行を表します。
RuntimeConfig Spark SQL のランタイム構成オプション (実行とオプティマイザーの設定を含む)。
Databricks でのみ使用できる構成の詳細については、「Azure Databricks の Set Spark 構成プロパティを参照してください。
SimpleDataSourceStreamReader データを読み取り、最新のオフセットを同時に計画する、簡略化されたストリーミング データ ソース リーダーの基本クラス。
SparkSession PySpark アプリケーションでデータを読み取り、SQL クエリを実行するためのエントリ ポイント。
ステートフル プロセッサ 構造化ストリーミングでの複雑なステートフル操作のストリーミング バッチ間の状態を管理します。
StreamingQuery 新しいデータが到着するとバックグラウンドで継続的に実行されるクエリへのハンドル。
StreamingQueryListener ストリーミング クエリ ライフサイクル イベントをリッスンするための抽象クラス。
StreamingQueryManager StreamingQueryに関連付けられているすべてのアクティブなSparkSession インスタンスを管理します。
UserDefinedFunction (UDF) カスタム Python ロジックを DataFrame 列に適用するためのユーザー定義関数。
UDFRegistration ユーザー定義関数登録のラッパー。 このインスタンスには、 spark.udfでアクセスできます。
UserDefinedTableFunction (UDTF) 入力行ごとに複数の行を返すユーザー定義テーブル関数。
UDTFRegistration ユーザー定義テーブル関数登録のラッパー。 このインスタンスには、 spark.udtfでアクセスできます。
VariantVal 動的な型と入れ子構造をサポートする柔軟なスキーマを持つ半構造化データを表します。
ウィンドウ 現在の行に関連する一連のテーブル行にわたって計算を実行するためのウィンドウ関数。
WindowSpec 現在の行に関連する一連のテーブル行にわたって計算を実行するためのウィンドウ関数。
WriterCommitMessage DataSourceWriter.writeによって返され、DataSourceWriter.commitまたはDataSourceWriter.abortの入力パラメーターとしてドライバーに返されるコミット メッセージ。

Functions

使用可能な組み込み関数の完全な一覧については、 PySpark 関数を参照してください。