特定のパーティションのデータを生成し、タプルまたは行の反復子を返します。
このメソッドは、データを読み取るためにパーティションごとに 1 回呼び出されます。 ストリーム リーダーには、このメソッドの実装が必要です。 このメソッド内のデータ ソースからデータを読み取る際に必要な、シリアル化不可能なリソースを初期化できます。
Databricks Runtime 15.2 で追加されました
構文
read(partition: InputPartition)
パラメーター
| パラメーター | タイプ | 説明 |
|---|---|---|
partition |
InputPartition | 読み取るパーティション。
partitions()によって返されるパーティション値のいずれかである必要があります。 |
返品
Iterator[Tuple] または Iterator[RecordBatch]
タプルまたは行の反復子。 各タプルまたは行は、最終的な DataFrame の行に変換されます。 また、データ ソースでサポートされている場合は、PyArrow RecordBatch オブジェクトの反復子を返すこともできます。
メモ
このメソッドは静的でステートレスです。 変更可能なクラス メンバーにアクセスしたり、 read()のさまざまな呼び出し間でメモリ内の状態を保持したりしないでください。