Condividi tramite


Pool live dinamici personalizzati in Microsoft Fabric

Si applica a:✅ Ingegneria dei dati e data science di Fabric

I pool attivi personalizzati sono cluster Spark pre-riscaldati che avviano le sessioni quasi immediatamente per i carichi di lavoro basati su notebook in Microsoft Fabric. Invece di attendere il provisioning del cluster ad ogni esecuzione, i pool live personalizzati mantengono i cluster pronti durante una finestra di programmazione configurata, consentendo tempi di avvio delle sessioni di 5 secondi per i notebook interattivi e pianificati.

Perché usare pool live personalizzati

Le sessioni Spark standard in Fabric richiedono il provisioning del cluster ogni volta che viene avviata una sessione. Per i team che eseguono notebook con frequenza, che siano interattivi, pianificati o attivati dalla pipeline, questo tempo di provisioning può rallentare i cicli di iterazione e aumentare la latenza complessiva dei task.

I pool live personalizzati risolvono questo tramite:

  • Idratare i cluster in anticipo in base a una pianificazione definita dall'utente, quindi il calcolo è pronto all'arrivo dei carichi di lavoro.
  • Consentendo un controllo preciso sul numero di cluster mantenuti caldi e sull'ambiente usato per la configurazione della libreria.
  • Prestazioni di avvio coerenti (~5 secondi) per tutti i tipi di sessione del notebook supportati durante la finestra pianificata.

I pool attivi personalizzati integrano il pool iniziale esistente e le opzioni personalizzate del pool Spark in Fabric.

Opzione di calcolo Ora di avvio Basata su programma Librerie personalizzate Carichi di lavoro supportati
Pool iniziali da 5 a 10 secondi (senza l'uso di librerie) No No Notebook, SJD
Pool di Spark personalizzati ~1 minuto No Attraverso l'ambiente Notebook, SJD
Pool personalizzati attivi ~5 secondi a 10 secondi (dopo il completamento dell'idratazione) Attraverso l'ambiente Solo notebook (interattivo e pianificato)

Concetti chiave

I concetti seguenti illustrano il funzionamento dei pool live personalizzati, tra cui il modo in cui i cluster vengono preparati, quando sono disponibili e come vengono gestiti la capacità e la configurazione della libreria.

Idratazione e riscaldamento

Quando si crea e si pubblica un pool live personalizzato, Fabric inizia a idratare i cluster prima della finestra pianificata. L'idratazione indica che viene eseguito il provisioning completo dei cluster, configurati con l'ambiente collegato e mantenuti attivi fino all'arrivo di una richiesta di sessione.

Il tempo di avvio di circa 5 secondi è disponibile solo dopo che la piscina è completamente idratata. Durante l'installazione iniziale o immediatamente dopo una modifica della configurazione, le sessioni potrebbero riscontrare tempi di avvio più lunghi durante il completamento dell'idratazione. Per la risoluzione dei problemi, vedere L'idratazione richiede più tempo del previsto.

Schedules

Ogni pool live personalizzato richiede una pianificazione che definisce quando il pool è attivo. I cluster vengono mantenuti attivi solo durante la finestra pianificata e la fatturazione viene eseguita solo quando i cluster vengono allocati. Quando la pianificazione scade o un cluster è inattivo oltre la soglia configurata per troppo a lungo, Fabric lo dealloca e la fatturazione si arresta.

Pianifica i tuoi programmi per coprire le finestre di carico di lavoro previste in modo che la capacità di calcolo prontamente disponibile sia disponibile quando il tuo team ne ha bisogno. Per i passaggi di configurazione e le procedure consigliate, vedere Configurare un pool live.

Allegato di ambiente

Ogni pool live personalizzato è associato a un ambiente Fabric. L'ambiente controlla quali librerie sono preinstallate nei cluster idratati. Per aggiornare le librerie, è necessario modificare e pubblicare nuovamente l'ambiente. I cluster idratati esistenti non vengono aggiornati con le nuove librerie fino alla successiva idratazione pianificata o a un aggiornamento manuale. Per i passaggi di configurazione, vedere Configurare un pool live.

Modalità di pubblicazione della libreria

La modalità di pubblicazione della libreria nell'ambiente collegato determina il modo in cui le librerie vengono distribuite ai cluster idratati:

  • Modalità completa: le librerie vengono risolte e incorporate nell'immagine integrata del cluster durante la pubblicazione dell'ambiente. All'avvio di una sessione, lo snapshot in modalità completa è già presente nel cluster, consentendo l'avvio della sessione in circa 5 secondi. Usare la modalità Full quando si necessita di un insieme di librerie stabile e riproducibile, con l'avvio della sessione più veloce possibile.
  • Modalità rapida: le librerie non sono preinstallate nei cluster idratati. Vengono invece installati all'avvio della sessione del notebook. I cluster idratati forniscono ancora un'allocazione di calcolo veloce, ma l'installazione della libreria all'avvio della sessione aggiunge tempo. Usare la modalità rapida per un'iterazione rapida durante lo sviluppo quando la stabilità della libreria è meno critica.

Annotazioni

Le installazioni della cartella Risorse del notebook e delle librerie inline , ad esempio %pip install in una cella di codice, sono approcci manuali per sessione. Sono indipendenti dalla modalità di pubblicazione dell'ambiente e non influiscono sulle librerie preinstallate nei cluster idratati.

Capacità del cluster

Ogni pool ha un numero massimo di cluster impostato durante la configurazione. Fabric non ridimensiona automaticamente il pool oltre questo valore. Quando tutti i cluster idratati sono in uso, i processi aggiuntivi rientrano nel provisioning su richiesta, che richiede circa 3-5 minuti o più a seconda delle dipendenze dei pacchetti di libreria. Per indicazioni sul ridimensionamento, vedere Ridimensionamento del cluster.

Carichi di lavoro supportati

I pool live personalizzati supportano i tipi di sessione Spark basati su notebook seguenti:

  • I notebook interattivi sono avviati dal portale Fabric
  • Esecuzioni pianificate del notebook configurate nell'utilità di pianificazione del notebook
  • Esecuzioni di notebook attivate dalle pipeline

Annotazioni

Le definizioni dei processi Spark (processi batch) non sono supportate nella versione corrente dei pool live personalizzati.

Capacità e licenze

I pool live personalizzati richiedono uno SKU di capacità di Microsoft Fabric a pagamento. Le capacità di prova di Fabric non sono attualmente supportate.

Per informazioni sugli SKU di capacità disponibili, vedere Concetti e licenze di Microsoft Fabric.

Controllo di accesso

Le assegnazioni di ruolo dell'area di lavoro controllano l'accesso alla configurazione e allo stato del pool live personalizzato:

Ruolo Autorizzazioni
Osservatore o membro Accesso in sola lettura allo stato e alla configurazione del pool
Amministratore di sistema Configurazione completa, salvataggio e autorizzazioni di pubblicazione

Agli utenti guest B2B deve essere assegnato un ruolo esplicito di spazio di lavoro per interagire con pool attivi personalizzati.

Limitazioni

I vincoli seguenti si applicano ai pool live personalizzati nella versione corrente:

  • Le sessioni iniziano in circa 5 secondi solo dopo che la piscina è completamente idratata. Durante l'installazione iniziale o dopo la modifica della configurazione, i tempi di avvio potrebbero essere più lunghi.
  • Le modifiche della libreria richiedono la ripubblicazione dell'ambiente collegato. I cluster idratati non vengono aggiornati automaticamente.
  • Quando l'ambiente collegato usa la modalità rapida per alcune librerie, tali librerie non vengono preinstallate nei cluster idratati e devono essere installate all'avvio della sessione. Per l'avvio della sessione più veloce con pool live personalizzati, usare la modalità completa per le dipendenze della libreria.
  • Sono supportate solo le sessioni Spark basate su notebook. Le definizioni dei job Spark non sono supportate.
  • Le capacità di valutazione dell'infrastruttura non sono supportate.
  • Ogni pool deve avere una pianificazione. Non è possibile pubblicare pool senza pianificazione.
  • I pool live personalizzati non possono essere gestiti tramite API pubbliche dell'ambiente o pipeline CI/CD. La configurazione deve essere eseguita tramite il portale di Fabric.