Condividi tramite


Guida rapida al calcolo

Questo articolo mira a fornire indicazioni chiare e autorevoli per la creazione di ambienti di calcolo. Usando i tipi di calcolo corretti per il flusso di lavoro, è possibile migliorare le prestazioni e risparmiare sui costi.

Procedure consigliate Impatto Documenti
Usare il calcolo serverless per la maggior parte dei carichi di lavoro Azure Databricks gestisce automaticamente il ridimensionamento, il ridimensionamento e l'infrastruttura. Non è necessaria alcuna configurazione del cluster.
Per il calcolo classico: usare la modalità di accesso standard, a meno che la funzionalità richiesta non sia supportata Il calcolo con modalità di accesso standard può essere usato da più utenti con isolamento dei dati tra gli utenti.
Per le risorse di calcolo classiche: inizia utilizzando tipi di istanza generali all-purpose se sei nuovo a Azure Databricks La selezione del tipo di istanza appropriato per il carico di lavoro comporta una maggiore efficienza.
Per il calcolo classico: usare i tipi di istanza di generazione più recenti se la disponibilità è sufficiente La generazione più recente dei tipi di istanza offre le migliori prestazioni e le funzionalità più recenti.
Per il calcolo classico: impostare il bilanciamento dell'istanza su richiesta e spot in base alla velocità con cui è necessario eseguire il carico di lavoro Le istanze spot risparmiano sui costi, ma possono influire sul tempo di esecuzione complessivo di un'operazione se le istanze spot vengono recuperate.
Per il calcolo classico: scegliere le dimensioni dei nodi e il numero di ruoli di lavoro in base ai tipi di operazioni eseguite dal carico di lavoro Ad esempio, se ci si aspetta numerosi shuffle, può essere più efficiente usare un singolo nodo di grandi dimensioni anziché più nodi più piccoli.
Per il calcolo classico: eseguire vacuum in un cluster con scalabilità automatica impostata per 1-4 ruoli di lavoro, in cui ogni ruolo di lavoro ha 8 core.
Selezionare un driver con un numero di core compreso tra 8 e 32. Aumentare la dimensione della memoria del driver se si verificano errori di memoria insufficiente.
Le istruzioni sul sottovuoto si svolgono in due fasi, la seconda delle quali richiede un ampio utilizzo del driver. Se non si usa il cluster della dimensione giusta, l'operazione potrebbe provocare un rallentamento e potrebbe non riuscire.
Per il calcolo classico: valutare se il flusso di lavoro batch trarrà vantaggio da Photon Photon offre query più veloci e riduce il costo totale per carico di lavoro.