Condividi tramite


Che cos'è la scalabilità automatica di Lakebase?

Importante

La scalabilità automatica di Lakebase è la versione più recente di Lakebase, con calcolo autoscalabile, scalabilità fino a zero, ramificazione e ripristino immediato. Per le aree supportate, vedere Disponibilità dell'area. Se sei un utente provisioning di Lakebase, vedere Lakebase provisioning.

La scalabilità automatica di Lakebase Postgres è un database Postgres completamente gestito creato per qualsiasi applicazione che richiede l'elaborazione delle transazioni online (OLTP) e la gestione dei dati a bassa latenza. È integrato nella piattaforma Databricks, consentendo di creare applicazioni transazionali in tempo reale insieme ai carichi di lavoro di analisi.

La scalabilità automatica di Lakebase Postgres combina l'affidabilità e la familiarità di Postgres con funzionalità di database moderne, tra cui scalabilità automatica, scalabilità a zero, diramazione e ripristino istantaneo. Queste funzionalità consentono flussi di lavoro di sviluppo flessibili, operazioni efficienti in termini di costi e iterazione rapida.

Integrazione di Lakebase con i servizi Databricks

Il diagramma mostra come Lakebase si integra con il resto della piattaforma: funzionalità in tempo reale per i modelli di Machine Learning e Feature Store, lo stato dell'agente per gli agenti di intelligenza artificiale e i dati transazionali per Databricks Apps o qualsiasi applicazione a cui ci si connette.

È possibile spostare i dati in entrambe le direzioni tra lakehouse e Lakebase. Le tabelle sincronizzate spostano i dati dal lakehouse a Lakebase in modo che le applicazioni possano eseguirne query a bassa latenza.

Esempi di casi d'uso e tipi di carico di lavoro

Di seguito sono riportati solo alcuni esempi dei molti modi in cui è possibile usare un database OLTP Postgres come Lakebase in tutti i settori: raccomandazioni personalizzate e offerta di destinazione in e-commerce e retail, dati clinici e sistemi di raccomandazione nel settore sanitario, trading automatizzato e analisi di streaming nei servizi finanziari e dati di telemetria e manutenzione dei computer nella produzione.

I tipi di carico di lavoro comuni per i database OLTP possono includere quanto segue:

  • Gestione dei dati: Fornire informazioni dettagliate da tabelle dorate alle applicazioni a bassa latenza e QPS elevato.
  • Archiviare lo stato dell'applicazione: Gestire lo stato del flusso di lavoro e dell'agente in un archivio dati transazionale.
  • Funzionalità di gestione: Gestire i dati con funzionalità a bassa latenza ai modelli di Machine Learning.

Integrazione di Databricks

Il diagramma precedente evidenzia tre casi d'uso di integrazione chiave:

  • Gestione delle funzionalità in tempo reale: Usare i progetti Lakebase come archivio online per modelli di Machine Learning e Feature Store, in modo da poter gestire i dati con funzionalità a bassa latenza. Vedi Online Feature Store (Lakebase) e Feature Serving.
  • Stato dell'agente per gli agenti di intelligenza artificiale: Archiviare e gestire lo stato per gli agenti di intelligenza artificiale in un database transazionale, quindi le conversazioni e il contesto del flusso di lavoro vengono mantenuti tra le richieste.
  • Dati transazionali per le applicazioni: Rendere persistenti i dati per le app databricks o per qualsiasi applicazione connettiti a Lakebase. Per Databricks Apps aggiungere un progetto Lakebase come risorsa dell'app. Vedere Aggiungere una risorsa Lakebase a un'app Databricks.

Lakebase Provvisto

Lakebase Provisioned è l'offerta Lakebase originale che utilizza risorse di calcolo assegnate che si ridimensionano manualmente. Le istanze esistenti con provisioning continueranno a essere supportate. Lo sviluppo di New Lakebase è incentrato sulla scalabilità automatica. Se si dispone di istanze di cui è stato effettuato il provisioning o si valutano entrambe le opzioni, vedere Che cos'è Il provisioning di Lakebase? e la scalabilità automatica per impostazione predefinita.

Che cos'è un progetto?

Le risorse di scalabilità automatica di Lakebase sono organizzate in una struttura di progetto . Un progetto è il contenitore di primo livello per le risorse del database. Quando si crea un database di scalabilità automatica di Lakebase, si crea un progetto. Il progetto contiene i rami (ambienti di database), i calcoli, i ruoli e i database. Si pensi a un progetto come l'unità dell'organizzazione per un'applicazione o un carico di lavoro. È possibile avere più progetti in un'area di lavoro, ognuno con rami e dati specifici.

Modalità di organizzazione dei progetti

Comprendere la gerarchia degli oggetti all'interno di un progetto consente di organizzare e gestire le risorse:

Databricks Workspace
  └── Project(s)
      └── Branch(es)
          ├── Compute (primary R/W)
          ├── Read replica(s) (optional)
          ├── Role(s)
          └── Database(s)
                 └── Schema(s)

Ogni livello della gerarchia ha uno scopo specifico:

Oggetto Description
Project Contenitore di primo livello per le risorse del database. Un progetto contiene rami, database, ruoli e risorse di calcolo. Vedere Gestire i progetti.
Ramo Ambiente di database isolato che condivide l'archiviazione con il ramo padre. Ogni progetto può contenere più rami. Consulta Gestire i rami.
Calcolo Server Postgres che supporta un ramo. Ogni ramo ha un proprio calcolo che fornisce la potenza di elaborazione e la memoria per le operazioni del database. Vedere Gestire i calcoli.
Banca dati Un database Postgres standard all'interno di un ramo. Ogni ramo può contenere più database con tabelle, schemi e dati personalizzati. Vedere Gestire i database.

Informazioni sui rami

Una delle funzionalità più potenti di Lakebase Postgres è la diramazione. Come i rami Git per il codice, i rami consentono di creare ambienti di database isolati per lo sviluppo e il test, senza influire sulla produzione.

Perché questo aspetto è importante: I flussi di lavoro di database tradizionali richiedono server di sviluppo e gestione temporanea separati, aggiornamenti manuali dei dati e un'attenta coordinamento. Con i rami è possibile:

  • Creare immediatamente un ambiente di sviluppo con i dati di produzione
  • Testare le modifiche dello schema in modo sicuro prima di applicarle all'ambiente di produzione
  • Recupera dagli errori creando rami da qualsiasi momento nel tempo
  • Pagate solo per i dati che modificate, non per interi database duplicati
Argomento Description
Filiali Informazioni sul funzionamento dei rami, sui flussi di lavoro comuni e sulle procedure consigliate per il team.
Gestire i rami Creare, reimpostare ed eliminare rami per lo sviluppo e il test.
Rami protetti Proteggere i rami di produzione da modifiche ed eliminazioni accidentali.

Concetti principali

Lakebase si basa su diverse innovazioni chiave che la differenziano dai sistemi di database tradizionali:

  • Calcolo e archiviazione separati: Ridimensionare le risorse di calcolo in modo indipendente dall'archiviazione per ottenere efficienza e flessibilità in termini di costi.
  • Scalabilità automatica: Il calcolo si adatta automaticamente in base alla domanda del carico di lavoro, con il supporto per la scalabilità a zero durante i periodi di inattività.
  • Archiviazione copy-on-write: Consente una rapida diramazione in cui si paga solo per le modifiche ai dati, non per copie complete.
  • Operazioni istantanee puntuali: Crea rami o ripristina in qualsiasi momento nella finestra di ripristino configurata (0-30 giorni)

Questi concetti interagiscono per abilitare flussi di lavoro di sviluppo flessibili, operazioni efficienti in termini di costi e ripristino rapido da errori.

Per una spiegazione dettagliata di ogni concetto di base, vedere Concetti di base.