Nota
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare ad accedere o modificare le directory.
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare a modificare le directory.
Zerobus Ingest è un'API di inserimento basata su push che scrive i dati direttamente nelle tabelle Delta del catalogo Unity. Si tratta di un connettore serverless che ridimensiona automaticamente per gestire le connessioni in ingresso. Non richiede la configurazione delle partizioni o la gestione dei broker.
Con Zerobus Ingest, la "strategia di ridimensionamento" consiste nell'aprire più connessioni. Ciò semplifica i flussi di lavoro di inserimento eliminando la necessità di un'infrastruttura del bus di messaggi.
Qualsiasi applicazione che può essere integrata con Zerobus Ingest SDK o comunicare tramite API supportate (gRPC, REST e OpenTelemetry) può usare Zerobus Ingest per eseguire il push efficiente dei dati nelle tabelle Delta.
I buffer di inserimento Zerobus trasmettono i dati prima di aggiungerli a una tabella Delta. Questo buffering crea un meccanismo di acquisizione efficiente e durevole che supporta un volume elevato di clienti con velocità effettiva variabile.
Una volta materializzati in formato Delta, i dati diventano completamente compatibili con la piattaforma di Databricks Data Intelligence Platform completa, consentendo agli utenti di sfruttare strumenti e funzionalità familiari per ulteriori analisi ed elaborazione dei dati.
Concetti
Un producer di dati apre prima un flusso all'API Di inserimento Zerobus e specifica una tabella Delta di destinazione, costruisce un messaggio corrispondente allo schema e quindi esegue il push del messaggio tramite il flusso aperto. Il servizio rende durevoli i dati, riconosce il messaggio del client e materializza i dati nella tabella Delta in modo ottimizzato.
Flussi
Un flusso è una connessione diretta tra il client e il server di inserimento Zerobus. Gli SDK usano flussi per facilitare connessioni a velocità effettiva elevata e di lunga durata.
- I flussi vengono usati solo nell'API gRPC con gli SDK.
- Un flusso inserisce i dati in una singola tabella di destinazione.
- L'ordinamento della consegna degli eventi è garantito a livello di stream.
- È possibile aprire flussi aggiuntivi per scrivere dati in tabelle diverse.
- È possibile aprire flussi aggiuntivi per aumentare la velocità effettiva del client.
- Nota: Se il client distribuisce i messaggi a flussi diversi con il metodo round robin, l'ordine dei messaggi non sarà più garantito.
Servidor
Il servizio Inserimento Zerobus non crea o modifica automaticamente le tabelle. Gli utenti devono creare autonomamente la tabella. Le tabelle e i relativi schemi sono le origini autorevoli per le aspettative dei dati in ingresso.
Il server di inserimento Zerobus accetta i dati inviati dai client, verifica che corrisponda allo schema della tabella di destinazione e quindi lo scrive nella tabella. Se i dati si adattano alla tabella, saranno durevoli. Un riconoscimento viene quindi inviato di nuovo al client.
Le responsabilità del servizio includono:
- Convalida dello schema del messaggio nella tabella.
- Materializzazione dei dati in modo tempestivo nella tabella di destinazione.
- Invio di un riconoscimento al client che i dati sono persistenti.
Cliente
L'integrazione client prevede:
- Selezionare una tabella di destinazione.
- Definizione di un flusso con il servizio Di inserimento Zerobus.
- Costruzione di un messaggio compatibile con lo schema.
- Invio del messaggio.
- Gestione degli acknowledgement dei messaggi.
- Implementazione di meccanismi di ripristino in caso di errori lato client, flusso o lato server (ad esempio, problemi di connessione, mancata corrispondenza dello schema)
Gli SDK di inserimento Zerobus forniscono metodi semplici da usare per eseguire l'integrazione client e la documentazione offre esempi di modelli di sviluppo diversi. Per le integrazioni personalizzate, gli SDK possono fungere da riferimento per la gestione della struttura di integrazione e del ripristino.
Introduzione a Zerobus Ingest
- Ottenere un URL di inserimento Zerobus.
- Creare o identificare la tabella in cui inserire i dati.
- Creare un principal del servizio e concedere alla tabella privilegi.
- Connetti un client o un esportatore per avviare l'invio di dati.
Scegliere la guida per il caso d'uso:
Inserire dati personalizzati: usare gli SDK di inserimento Zerobus o l'API REST con uno schema definito. Per istruzioni complete, vedere Usare il connettore Zerobus Ingest.
Inserire dati OpenTelemetry: usare gli SDK OpenTelemetry standard o gli agenti di raccolta per inviare tracce, log e metriche in schemi di tabella predefiniti. Per istruzioni complete, vedere Ingestione dati OpenTelemetry con Zerobus Ingest.
Posizione di fallback durevole
Se viene apportata una modifica di rilievo alla tabella di destinazione dopo che Zerobus Ingest ha reso i dati durevoli, ma prima che Zerobus Ingest abbia la possibilità di pubblicare (ovvero eseguire il push del file nello storage), il connettore renderà i dati disponibili in una cartella separata all'interno del percorso di storage della tabella.
I dati vengono salvati in modo permanente come file Parquet nel percorso seguente relativo alla directory radice della tabella: _zerobus/table_rejected_parquets/
Questa directory viene creata direttamente nel percorso di archiviazione radice fisico della tabella e tutti i file Parquet generati dal servizio vengono memorizzati lì. In questo modo tutti i dati persistenti rimangono entro il limite di archiviazione della tabella e seguono gli stessi criteri di accesso e ciclo di vita della tabella stessa.
Costo
Gli addebiti per Zerobus Ingest verranno fatturati in base allo SKU "Serverless Automatizzato". I prezzi sono disponibili nella pagina dei prezzi di Lakeflow Connect.
Monitoraggio dell'utilizzo
Esistono due metodi per monitorare l'utilizzo del connettore Zerobus Ingest.
Tabelle di sistema di Ingestione Zerobus
È possibile monitorare l'utilizzo tramite le tabelle di sistema zerobus Ingest. Consultare il riferimento alla tabella del sistema di ingestione Zerobus.
Tabella del sistema di fatturazione
È possibile monitorare la spesa tramite la tabella del sistema di utilizzo fatturabile. Consultare Tabella di riferimento del sistema di utilizzo fatturabile. Filtrare l'uso di Zerobus Ingest con:
billing_origin_product = 'LAKEFLOW_CONNECT'-
product_features.lakeflow_connect.zerobus_request_type = 'GRPC'oppure'HTTP'
Importante
L'inserimento di OpenTelemetry (OTLP) è in versione beta e non viene addebitato al momento.