Condividi tramite


Note di rilascio delle pipeline dichiarative di Lakeflow Spark 2026

Nel 2026 sono state rilasciate le seguenti funzionalità, miglioramenti e correzioni di bug per Lakeflow Spark.

Annotazioni

Poiché le versioni dei canali dichiarative di Lakeflow Spark seguono un processo di aggiornamento in sequenza, gli aggiornamenti del canale vengono distribuiti in aree diverse in momenti diversi. La tua versione, comprese le versioni di Databricks Runtime, potrebbe non essere aggiornata per una settimana o più dopo la data di rilascio iniziale. Per trovare la versione corrente di Databricks Runtime per una pipeline, vedere Informazioni sul runtime.

Marzo 2026

Queste funzionalità e miglioramenti alle pipeline dichiarative di Lakeflow Spark sono state rilasciate tra il 26 febbraio 2026 e il 31 marzo 2026.

Versioni di Databricks Runtime usate da questa versione

Le versioni seguenti erano aggiornate a partire dal 31 marzo 2026.

Canale:

  • CURRENT (impostazione predefinita): Databricks Runtime 17.3.8
  • ANTEPRIMA: Databricks Runtime 18.1.0

Nuove funzionalità e miglioramenti

  • Le pipeline serverless supportano ora la scalabilità automatica verticale basata sulla CPU. La funzionalità regola dinamicamente le risorse del cluster in base all'utilizzo effettivo della CPU per migliorare la stabilità del carico di lavoro.
  • È ora possibile conservare le tabelle di Unity Catalog quando si elimina una pipeline, mantenendo gli asset di dati anche dopo la rimozione della pipeline. Ciò offre maggiore flessibilità nella gestione dei cicli di vita della pipeline senza rischiare la perdita di dati.
  • È ora possibile creare tabelle di streaming usando la nuova sintassi del flusso, che offre un modo più diretto e dichiarativo per definire le pipeline di dati di streaming. Ciò semplifica la creazione e l'allineamento della pipeline ai modelli di progettazione dei dati correnti.
  • Gli hook della pipeline sono ora disponibili per le pipeline attivate da job. Usarli per eseguire la logica personalizzata prima e dopo gli aggiornamenti della pipeline all'interno dei processi Lakeflow. Gli hook della pipeline estendono le funzionalità di automazione per l'elaborazione dei dati orchestrata.
  • Le pipeline mantengono ora le configurazioni di filtro di riga e maschera di colonna durante gli aggiornamenti delle tabelle, in modo che i criteri di sicurezza del catalogo Unity rimangano intatti tra gli aggiornamenti della pipeline. Ciò impedisce la rimozione accidentale dei criteri di sicurezza durante l'evoluzione dello schema.
  • CDC applica le modifiche ora supporta la modalità datetime rebase. La funzionalità gestisce correttamente le conversioni di timestamp tra sistemi di calendario legacy e moderni. In questo modo si evitano incoerenze nei dati durante l'elaborazione dei dati datetime cronologici tramite flussi di Change Data Capture.
  • È ora possibile usare istruzioni SQL all'interno foreachBatch delle operazioni nelle pipeline di streaming, consentendo una logica di elaborazione micro batch più flessibile. In questo modo vengono rimosse le precedenti limitazioni che richiedevano l'uso di Python o Scala per la gestione batch personalizzata.
  • Le pipeline supportano ora riferimenti in avanti nella registrazione del sink. È possibile definire flussi di dati che fanno riferimento a tabelle downstream prima di essere dichiarate. Ciò semplifica le definizioni di pipeline complesse e rimuove i vincoli di ordinamento.
  • I flussi append-once vengono ora convalidati durante le esecuzioni asciutte, intercettando gli errori di configurazione prima dell'inizio dell'esecuzione della pipeline. In questo modo si migliora l'esperienza di sviluppo facendo emergere i problemi prima nel flusso di lavoro di creazione della pipeline.

Correzioni di bug

In questo periodo di rilascio non sono state incluse correzioni significative di bug. Tutte le modifiche sono state nuove funzionalità e miglioramenti.

Febbraio 2026

Queste funzionalità e miglioramenti alle pipeline dichiarative di Lakeflow Spark sono state rilasciate tra il 14 gennaio 2026 e il 25 febbraio 2026.

Versioni di Databricks Runtime usate da questa versione

Le versioni seguenti erano aggiornate a partire dal 25 febbraio 2026.

Canale:

  • CURRENT (impostazione predefinita): Databricks Runtime 17.3
  • ANTEPRIMA: Databricks Runtime 17.3

Nuove funzionalità e miglioramenti

  • Le pipeline ora supportano la conversione dei tipi per le tabelle Delta, consentendo di ampliare in modo sicuro i tipi di dati delle colonne (ad esempio, INT a LONG, FLOAT a DOUBLE) senza richiedere un reset completo della pipeline. Ciò consente flussi di lavoro di evoluzione dello schema che in precedenza richiedevano l'intervento manuale.
  • È ora possibile usare la materializzazione SCD Type 1 con AUTO CDC, fornendo un modello CDC più semplice che aggiorna il valore più recente senza mantenere la cronologia completa delle modifiche. In questo modo si riduce il sovraccarico di archiviazione per i casi d'uso che non richiedono la cronologia completa.
  • Le pipeline ora riutilizzano i cluster esistenti quando si riprovano gli aggiornamenti non riusciti, riducendo la latenza dei tentativi e riducendo i costi di calcolo eliminando il tempo di avvio del cluster ridondante.
  • L'abilitazione dell'ottimizzazione predittiva viene ora visualizzata correttamente nelle viste materializzate e nelle tabelle di streaming, se sono state aggiornate entro l'ultimo mese.
  • Le pipeline ora convalidano più flussi insieme, intercettando i conflitti di configurazione e i problemi di dipendenza tra i flussi durante la fase di test prima dell'inizio dell'esecuzione.
  • I metadati modificabili vengono ora mantenuti durante gli aggiornamenti della pipeline di inserimento, abilitando il supporto completo per i comandi 'ALTER' nelle tabelle di streaming di inserimento.
  • Python gli errori nelle pipeline contengono ora codici di stato SQL, migliorando la diagnostica degli errori e abilitando una migliore gestione degli errori a livello di codice negli strumenti downstream.
  • Le pipeline supportano ora le istanze arm per il calcolo classico.

Correzioni di bug

  • I valori delle colonne Identity nelle tabelle di streaming di sola accodamento vengono ora generati correttamente alla prima esecuzione dell'aggiornamento.

Gennaio 2026

Queste funzionalità e miglioramenti alle pipeline dichiarative di Lakeflow Spark sono state rilasciate tra il 14 novembre 2025 e il 13 gennaio 2026.

Versioni di Databricks Runtime usate da questa versione

Le versioni seguenti sono state aggiornate a partire dal 13 gennaio 2026.

Canale:

  • CURRENT (impostazione predefinita): Databricks Runtime 17.3
  • ANTEPRIMA: Databricks Runtime 17.3

Nuove funzionalità e miglioramenti

  • È ora possibile archiviare e gestire le aspettative sulla qualità dei dati direttamente nelle tabelle del catalogo Unity, centralizzando le regole di qualità dei dati con il framework di governance dei dati. Ciò consente di avere regole di qualità sottoposte a controllo di versione che possono essere condivise tra più pipeline.

  • Le pipeline continue che eseguono più di 7 giorni ora vengono riavviate normalmente con tempi di inattività minimi e una causa esplicita di aggiornamento (INFRASTRUCTURE_MAINTENANCE), anziché riavviare bruscamente quando è necessario aggiornare il calcolo sottostante.

  • I pipeline supportano ora la modalità di esecuzione in coda, in cui più richieste di aggiornamento vengono automaticamente accodate ed eseguite in sequenza evitando conflitti di errore. Ciò semplifica le operazioni per le pipeline con trigger di aggiornamento frequenti ed elimina la necessità di coordinamento manuale dei tentativi.

  • È ora possibile materializzare più viste SCD Type 2 da un'unica origine dati delle modifiche, migliorando l'efficienza durante la creazione di più viste storiche degli stessi dati. In questo modo si elimina la necessità di rielaborare i dati di origine per ogni output scD Type 2.

  • Le pianificazioni e la configurazione delle pipeline possono ora essere archiviate e lette dalle proprietà della tabella del catalogo Unity, consentendo la gestione centralizzata delle impostazioni tramite la governance dei dati. In questo modo è possibile gestire il comportamento della pipeline insieme alle definizioni dei dati.

  • MANAGE Le autorizzazioni vengono ora propagate automaticamente alle viste materializzate e alle tabelle di streaming nel catalogo unity, semplificando la gestione delle autorizzazioni per gli output della pipeline. In questo modo si garantisce un controllo di accesso coerente senza concessioni di autorizzazioni manuali.

  • Le operazioni SCD di tipo 2 ora uniscono automaticamente i record duplicati con la stessa chiave naturale, garantendo la coerenza dei dati e prevenendo i duplicati storici nelle tabelle delle dimensioni a cambiamento lento.

  • Le pipeline hanno ora un'opzione per eliminare automaticamente le tabelle inattive che non fanno più parte della definizione della pipeline. In questo modo è possibile mantenere i data warehouse puliti e ridurre i costi di archiviazione dalle tabelle obsolete. Vedere Usare il catalogo Unity con le pipeline.

  • La definizione della pipeline, le operazioni di patch e le modifiche di identità run-as sono ora incluse nel log di controllo, fornendo un rilevamento completo delle modifiche di configurazione per il monitoraggio della conformità e della sicurezza. Vedere Registro eventi della pipeline.

Correzioni di bug

In questo periodo di rilascio non sono state incluse correzioni significative di bug. Tutte le modifiche sono state nuove funzionalità e miglioramenti.