Freigeben über


read (DataSourceStreamReader)

Generiert Daten für eine bestimmte Partition und gibt einen Iterator von Tupeln oder Zeilen zurück.

Diese Methode wird einmal pro Partition aufgerufen, um die Daten zu lesen. Die Implementierung dieser Methode ist für Streamleser erforderlich. Sie können alle nicht serialisierbaren Ressourcen initialisieren, die zum Lesen von Daten aus der Datenquelle innerhalb dieser Methode erforderlich sind.

Hinzugefügt in Databricks Runtime 15.2

Syntax

read(partition: InputPartition)

Parameter

Parameter Typ Beschreibung
partition InputPartition Die zu lesende Partition. Es muss sich um einen der Partitionswerte handeln, die von partitions().

Rückkehr

Iterator[Tuple] oder Iterator[RecordBatch]

Ein Iterator von Tupeln oder Zeilen. Jedes Tupel oder jede Zeile wird in eine Zeile im endgültigen DataFrame konvertiert. Sie kann auch einen Iterator von PyArrow-Objekten RecordBatch zurückgeben, wenn die Datenquelle sie unterstützt.

Hinweise

Diese Methode ist statisch und zustandslos. Greifen Sie nicht auf änderbare Klassenmember zu oder behalten Sie den Speicherstatus zwischen verschiedenen Aufrufen von read().