Condividi tramite


read (DataSourceStreamReader)

Genera dati per una determinata partizione e restituisce un iteratore di tuple o righe.

Questo metodo viene richiamato una volta per partizione per leggere i dati. L'implementazione di questo metodo è necessaria per i lettori di flusso. È possibile inizializzare qualsiasi risorsa non serializzabile necessaria per la lettura dei dati dall'origine dati all'interno di questo metodo.

Aggiunta in Databricks Runtime 15.2

Sintassi

read(partition: InputPartition)

Parametri

Parametro Tipo Descrizione
partition InputPartition Partizione da leggere. Deve essere uno dei valori della partizione restituiti da partitions().

Restituzioni

Iterator[Tuple] oppure Iterator[RecordBatch]

Iteratore di tuple o righe. Ogni tupla o riga verrà convertita in una riga nel dataframe finale. Può anche restituire un iteratore di oggetti PyArrow RecordBatch se l'origine dati la supporta.

Note

Questo metodo è statico e senza stato. Non accedere ai membri della classe modificabili o mantenere lo stato in memoria tra chiamate diverse di read().