Nota
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare ad accedere o modificare le directory.
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare a modificare le directory.
Importante
Questa funzionalità è in Anteprima Pubblica.
I connettori basati su query in Lakeflow Connect inseriscono i dati dai database eseguendo query direttamente sull'origine, senza richiedere la configurazione di Change Data Capture (CDC). Invece di basarsi su binlog o sull'infrastruttura CDC, usano una colonna di cursore, ovvero un timestamp o una colonna integer che aumenta in modo monotonico, per tenere traccia delle righe nuove o aggiornate dall'ultima esecuzione della pipeline.
I connettori basati su query usano connessioni del catalogo Unity e Lakehouse Federation per connettersi ai database di origine e scrivono i risultati nelle tabelle di streaming.
Come funziona
In ogni esecuzione della pipeline, un connettore basato su query esegue una query sul database di origine e recupera tutte le righe con un valore di colonna cursore maggiore del valore registrato dall'esecuzione precedente. Il connettore archivia il punto di massimo della colonna del cursore dopo ogni esecuzione riuscita e lo usa come limite inferiore per l'esecuzione successiva.
Poiché il connettore interroga direttamente l'origine, non richiede una porta di ingresso o un volume di staging. La pipeline viene eseguita in base a una pianificazione che definisci, non in modo continuo.
Connettori basati su query rispetto ai connettori di database CDC
I connettori basati su query differiscono dai connettori di database CDC nei modi seguenti:
- Nessun gateway di inserimento: i connettori CDC richiedono un gateway per acquisire eventi binlog. I connettori basati su query non usano un gateway.
- Assenza di volume di staging: i connettori CDC memorizzano i dati estratti in un volume di staging. I connettori basati su query scrivono direttamente dalla query di origine alla tabella di destinazione.
- Pianificato anziché continuo: i connettori basati su query vengono eseguiti secondo una pianificazione. Non acquisiscono tutti gli stati di riga intermedi tra le esecuzioni. Acquisiscono solo lo stato più recente delle righe modificate.
- Compatibilità di origine più ampia: qualsiasi database con una colonna cursore appropriata è un'origine valida, anche se non supporta l'accesso CDC o binlog.
Il compromesso consiste nel fatto che le prestazioni delle query possono essere più lente e le query vengono eseguite direttamente nelle tabelle di origine, che possono inserire più carico nel database di origine rispetto ai connettori CDC che eseguono query nel binlog. Il tracciamento dell'eliminazione morbida è supportato tramite deletion_condition. Il rilevamento dell'eliminazione definitiva è supportato anche in Beta. Entrambi richiedono la configurazione dell'API.
Approcci di inserimento supportati
I connettori basati su query supportano più approcci di inserimento. L'approccio usato determina quali parametri di configurazione sono necessari.
| Avvicinarsi | Modalità di connessione | Parametri obbligatori |
|---|---|---|
| Ingestione di connessioni esterne | Usa una connessione che archivia le credenziali di autenticazione per il database di origine. Il connettore usa la connessione per eseguire query direttamente sul database di origine. |
connection_name, source_catalog, source_schema, , source_table, cursor_column |
| Integrazione del catalogo esterno | Usa un catalogo esterno supportato da un'origine dati Lakehouse Federation . Il connettore usa il catalogo esterno per leggere i dati di origine anziché connettersi direttamente al database di origine. |
ingest_from_uc_foreign_catalog: true, cursor_columns, primary_keys (obbligatorio a meno che non si usi la APPEND_ONLY modalità) |
Origini supportate
Sono supportate le fonti di database seguenti.
Origini di inserimento connessioni esterne:
- Oracle
- Teradata
- SQL Server
- MySQL
- MariaDB
- PostgreSQL
Origini di inserimento del catalogo esterno:
Tutte le origini dati di Lakehouse Federation sono supportate tramite l'inserimento di cataloghi esterni. Per l'elenco completo, vedere Lakehouse Federation.
Interfacce supportate
È possibile usare l'interfaccia utente Azure Databricks o i bundle di automazione dichiarativa per creare pipeline basate su query.
Requisiti di calcolo
Per impostazione predefinita, le pipeline di inserimento basate su query vengono eseguite nel calcolo serverless. Il calcolo classico è supportato nella versione beta, ma solo usando le API. Databricks consiglia di usare l'ambiente di calcolo serverless.
Per utilizzare i connettori basati su query con l'elaborazione senza server, l'ambiente di calcolo deve permettere la connessione di rete al database di origine. Vedere Rete e Raccomandazioni di rete per la Federazione Lakehouse.
Modalità di rilevamento della cronologia (SCD)
I connettori basati su query supportano le modalità di rilevamento della cronologia seguenti, note anche come modalità di modifica lenta delle dimensioni (SCD) per le tabelle di destinazione:
- SCD_TYPE_1: sovrascrive la riga esistente nella tabella di destinazione con la riga di origine più recente. Non viene mantenuta alcuna cronologia.
- SCD_TYPE_2: mantiene la cronologia completa delle modifiche di riga aggiungendo nuove righe con i metadati della versione. Consulta Abilitare il rilevamento della cronologia (SCD tipo 2).
- APPEND_ONLY: Appende ogni riga inserita alla tabella di destinazione senza effettuare unioni o sovrascritture.
Evoluzione dello schema
I connettori basati su query gestiscono l'evoluzione dello schema allo stesso modo degli altri connettori gestiti in Lakeflow Connect. Vedere Come i connettori gestiti gestiscono l'evoluzione dello schema?