Nota
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare ad accedere o modificare le directory.
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare a modificare le directory.
Importante
La scalabilità automatica di Lakebase è la versione più recente di Lakebase, con calcolo autoscalabile, scalabilità fino a zero, ramificazione e ripristino immediato. Per le aree supportate, vedere Disponibilità dell'area. Se sei un utente provisioning di Lakebase, vedere Lakebase provisioning.
La scalabilità automatica di Lakebase Postgres è un database Postgres completamente gestito creato per qualsiasi applicazione che richiede l'elaborazione delle transazioni online (OLTP) e la gestione dei dati a bassa latenza. È integrato nella piattaforma Databricks, consentendo di creare applicazioni transazionali in tempo reale insieme ai carichi di lavoro di analisi.
La scalabilità automatica di Lakebase Postgres combina l'affidabilità e la familiarità di Postgres con funzionalità di database moderne, tra cui scalabilità automatica, scalabilità a zero, diramazione e ripristino istantaneo. Queste funzionalità consentono flussi di lavoro di sviluppo flessibili, operazioni efficienti in termini di costi e iterazione rapida.
Il diagramma mostra come Lakebase si integra con il resto della piattaforma: funzionalità in tempo reale per i modelli di Machine Learning e Feature Store, lo stato dell'agente per gli agenti di intelligenza artificiale e i dati transazionali per Databricks Apps o qualsiasi applicazione a cui ci si connette.
È possibile spostare i dati in entrambe le direzioni tra lakehouse e Lakebase. Le tabelle sincronizzate spostano i dati dal lakehouse a Lakebase in modo che le applicazioni possano eseguirne query a bassa latenza.
Esempi di casi d'uso e tipi di carico di lavoro
Di seguito sono riportati solo alcuni esempi dei molti modi in cui è possibile usare un database OLTP Postgres come Lakebase in tutti i settori: raccomandazioni personalizzate e offerta di destinazione in e-commerce e retail, dati clinici e sistemi di raccomandazione nel settore sanitario, trading automatizzato e analisi di streaming nei servizi finanziari e dati di telemetria e manutenzione dei computer nella produzione.
I tipi di carico di lavoro comuni per i database OLTP possono includere quanto segue:
- Gestione dei dati: Fornire informazioni dettagliate da tabelle dorate alle applicazioni a bassa latenza e QPS elevato.
- Archiviare lo stato dell'applicazione: Gestire lo stato del flusso di lavoro e dell'agente in un archivio dati transazionale.
- Funzionalità di gestione: Gestire i dati con funzionalità a bassa latenza ai modelli di Machine Learning.
Integrazione di Databricks
Il diagramma precedente evidenzia tre casi d'uso di integrazione chiave:
- Gestione delle funzionalità in tempo reale: Usare i progetti Lakebase come archivio online per modelli di Machine Learning e Feature Store, in modo da poter gestire i dati con funzionalità a bassa latenza. Vedi Online Feature Store (Lakebase) e Feature Serving.
- Stato dell'agente per gli agenti di intelligenza artificiale: Archiviare e gestire lo stato per gli agenti di intelligenza artificiale in un database transazionale, quindi le conversazioni e il contesto del flusso di lavoro vengono mantenuti tra le richieste.
- Dati transazionali per le applicazioni: Rendere persistenti i dati per le app databricks o per qualsiasi applicazione connettiti a Lakebase. Per Databricks Apps aggiungere un progetto Lakebase come risorsa dell'app. Vedere Aggiungere una risorsa Lakebase a un'app Databricks.
Lakebase Provvisto
Lakebase Provisioned è l'offerta Lakebase originale che utilizza risorse di calcolo assegnate che si ridimensionano manualmente. Le istanze esistenti con provisioning continueranno a essere supportate. Lo sviluppo di New Lakebase è incentrato sulla scalabilità automatica. Se si dispone di istanze di cui è stato effettuato il provisioning o si valutano entrambe le opzioni, vedere Che cos'è Il provisioning di Lakebase? e la scalabilità automatica per impostazione predefinita.
Che cos'è un progetto?
Le risorse di scalabilità automatica di Lakebase sono organizzate in una struttura di progetto . Un progetto è il contenitore di primo livello per le risorse del database. Quando si crea un database di scalabilità automatica di Lakebase, si crea un progetto. Il progetto contiene i rami (ambienti di database), i calcoli, i ruoli e i database. Si pensi a un progetto come l'unità dell'organizzazione per un'applicazione o un carico di lavoro. È possibile avere più progetti in un'area di lavoro, ognuno con rami e dati specifici.
Modalità di organizzazione dei progetti
Comprendere la gerarchia degli oggetti all'interno di un progetto consente di organizzare e gestire le risorse:
Databricks Workspace
└── Project(s)
└── Branch(es)
├── Compute (primary R/W)
├── Read replica(s) (optional)
├── Role(s)
└── Database(s)
└── Schema(s)
Ogni livello della gerarchia ha uno scopo specifico:
| Oggetto | Description |
|---|---|
| Project | Contenitore di primo livello per le risorse del database. Un progetto contiene rami, database, ruoli e risorse di calcolo. Vedere Gestire i progetti. |
| Ramo | Ambiente di database isolato che condivide l'archiviazione con il ramo padre. Ogni progetto può contenere più rami. Consulta Gestire i rami. |
| Calcolo | Server Postgres che supporta un ramo. Ogni ramo ha un proprio calcolo che fornisce la potenza di elaborazione e la memoria per le operazioni del database. Vedere Gestire i calcoli. |
| Banca dati | Un database Postgres standard all'interno di un ramo. Ogni ramo può contenere più database con tabelle, schemi e dati personalizzati. Vedere Gestire i database. |
Informazioni sui rami
Una delle funzionalità più potenti di Lakebase Postgres è la diramazione. Come i rami Git per il codice, i rami consentono di creare ambienti di database isolati per lo sviluppo e il test, senza influire sulla produzione.
Perché questo aspetto è importante: I flussi di lavoro di database tradizionali richiedono server di sviluppo e gestione temporanea separati, aggiornamenti manuali dei dati e un'attenta coordinamento. Con i rami è possibile:
- Creare immediatamente un ambiente di sviluppo con i dati di produzione
- Testare le modifiche dello schema in modo sicuro prima di applicarle all'ambiente di produzione
- Recupera dagli errori creando rami da qualsiasi momento nel tempo
- Pagate solo per i dati che modificate, non per interi database duplicati
| Argomento | Description |
|---|---|
| Filiali | Informazioni sul funzionamento dei rami, sui flussi di lavoro comuni e sulle procedure consigliate per il team. |
| Gestire i rami | Creare, reimpostare ed eliminare rami per lo sviluppo e il test. |
| Rami protetti | Proteggere i rami di produzione da modifiche ed eliminazioni accidentali. |
Concetti principali
Lakebase si basa su diverse innovazioni chiave che la differenziano dai sistemi di database tradizionali:
- Calcolo e archiviazione separati: Ridimensionare le risorse di calcolo in modo indipendente dall'archiviazione per ottenere efficienza e flessibilità in termini di costi.
- Scalabilità automatica: Il calcolo si adatta automaticamente in base alla domanda del carico di lavoro, con il supporto per la scalabilità a zero durante i periodi di inattività.
- Archiviazione copy-on-write: Consente una rapida diramazione in cui si paga solo per le modifiche ai dati, non per copie complete.
- Operazioni istantanee puntuali: Crea rami o ripristina in qualsiasi momento nella finestra di ripristino configurata (0-30 giorni)
Questi concetti interagiscono per abilitare flussi di lavoro di sviluppo flessibili, operazioni efficienti in termini di costi e ripristino rapido da errori.
Per una spiegazione dettagliata di ogni concetto di base, vedere Concetti di base.