lesen (DataSourceReader)

Generiert Daten für eine bestimmte Partition und gibt einen Iterator von Tupeln oder Zeilen zurück.

Diese Methode wird einmal pro Partition aufgerufen, um die Daten zu lesen. Die Implementierung dieser Methode ist für lesbare Datenquellen erforderlich. Sie können alle nicht serialisierbaren Ressourcen initialisieren, die zum Lesen von Daten aus der Datenquelle innerhalb dieser Methode erforderlich sind.

Syntax

read(partition: InputPartition)

Parameter

Parameter	Typ	Beschreibung
`partition`	InputPartition	Die zu lesende Partition. Es muss sich um einen der Partitionswerte handeln, die von `partitions()`.

Rückkehr

Iterator[Tuple] oder Iterator[RecordBatch]

Ein Iterator von Tupeln oder Zeilen. Jedes Tupel oder jede Zeile wird in eine Zeile im endgültigen DataFrame konvertiert. Sie kann auch einen Iterator von PyArrow-Objekten RecordBatch zurückgeben, wenn die Datenquelle sie unterstützt.

Beispiele

Ergibt eine Liste von Tupeln:

def read(self, partition: InputPartition):
    yield (partition.value, 0)
    yield (partition.value, 1)

Gibt eine Liste von Zeilen an:

def read(self, partition: InputPartition):
    yield Row(partition=partition.value, value=0)
    yield Row(partition=partition.value, value=1)

Ergibt PyArrow-Objekte RecordBatch :

def read(self, partition: InputPartition):
    import pyarrow as pa
    data = {
        "partition": [partition.value] * 2,
        "value": [0, 1]
    }
    table = pa.Table.from_pydict(data)
    for batch in table.to_batches():
        yield batch

Feedback

War diese Seite hilfreich?

Last updated on 2026-04-19