Hinweis
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, sich anzumelden oder das Verzeichnis zu wechseln.
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, das Verzeichnis zu wechseln.
Generiert Daten für eine bestimmte Partition und gibt einen Iterator von Tupeln oder Zeilen zurück.
Diese Methode wird einmal pro Partition aufgerufen, um die Daten zu lesen. Die Implementierung dieser Methode ist für lesbare Datenquellen erforderlich. Sie können alle nicht serialisierbaren Ressourcen initialisieren, die zum Lesen von Daten aus der Datenquelle innerhalb dieser Methode erforderlich sind.
Syntax
read(partition: InputPartition)
Parameter
| Parameter | Typ | Beschreibung |
|---|---|---|
partition |
InputPartition | Die zu lesende Partition. Es muss sich um einen der Partitionswerte handeln, die von partitions(). |
Rückkehr
Iterator[Tuple] oder Iterator[RecordBatch]
Ein Iterator von Tupeln oder Zeilen. Jedes Tupel oder jede Zeile wird in eine Zeile im endgültigen DataFrame konvertiert. Sie kann auch einen Iterator von PyArrow-Objekten RecordBatch zurückgeben, wenn die Datenquelle sie unterstützt.
Beispiele
Ergibt eine Liste von Tupeln:
def read(self, partition: InputPartition):
yield (partition.value, 0)
yield (partition.value, 1)
Gibt eine Liste von Zeilen an:
def read(self, partition: InputPartition):
yield Row(partition=partition.value, value=0)
yield Row(partition=partition.value, value=1)
Ergibt PyArrow-Objekte RecordBatch :
def read(self, partition: InputPartition):
import pyarrow as pa
data = {
"partition": [partition.value] * 2,
"value": [0, 1]
}
table = pa.Table.from_pydict(data)
for batch in table.to_batches():
yield batch