Condividi tramite


Attività script Python per i lavori

Usare l'attività Python script per eseguire un file di Python.

Configurare un task di script Python

Prima di iniziare, è necessario caricare lo script Python in una posizione accessibile all'utente che configura il processo. Databricks consiglia di usare i file dell'area di lavoro per gli script di Python. Si veda Che cosa sono i file di area di lavoro?.

Note

L'interfaccia utente dei processi visualizza le opzioni in modo dinamico in base ad altre impostazioni configurate.

Databricks sconsiglia di archiviare codice o dati usando la radice o i montaggi DBFS. È invece possibile eseguire la migrazione degli script Python ai file o ai volumi dell'area di lavoro o usare gli URI per accedere all'archiviazione di oggetti cloud.

Per avviare il flusso per configurare un'attività Python script:

  1. Passare alla scheda Attività nell'interfaccia utente Lavori.
  2. Fare clic su Aggiungi attività.
  3. Immettere un nome nel campo Nome attività .
  4. Nel menu a discesa Type selezionare Python script.

Configurare l'origine

Nel menu a discesa Source selezionare un percorso per lo script Python usando una delle opzioni seguenti.

Workspace

Usare Workspace per configurare uno script Python archiviato usando i file dell'area di lavoro.

  1. Cliccare il campo Percorso. Viene visualizzata la finestra di dialogo Select Python File.
  2. Passare allo script di Python, fare clic per evidenziare il file e fare clic su Confirm.

Note

È possibile usare questa opzione per configurare un'attività in uno script di Python archiviato in una cartella Git di Databricks. Databricks consiglia di usare l'opzione Git provider e un repository Git remoto per il versionamento delle risorse pianificate con i processi.

DBFS/ADLS

Usare DBFS/ADLS per configurare uno script di Python archiviato in un volume, in un percorso di archiviazione di oggetti cloud o nella radice DBFS.

Databricks consiglia di archiviare gli script Python nei volumi di Unity Catalog o nell'archiviazione di oggetti cloud.

Nel campo Path immettere l'URI per lo script Python. Ad esempio, dbfs:/path/to/script.py o abfss://container-name@storage-account-name.dfs.core.windows.net/path/to/script.py.

Fornitore Git

Usare ProviderGit per configurare uno script Python archiviato in un repository Git remoto.

Le opzioni visualizzate dall'interfaccia utente dipendono dal fatto che sia già stato configurato un Git provider altrove. È possibile usare un solo repository Git remoto per tutti i task in un processo. Vedere Usare Git con processi Lakeflow.

Il campo Percorso viene visualizzato dopo che è stato configurato un riferimento Git.

Immettere il percorso relativo per lo script di Python, ad esempio etl/bronze/ingest.py.

Important

Quando si immette il percorso relativo, non iniziare con / o ./. Ad esempio, se il percorso assoluto per il codice Python a cui si vuole accedere è /etl/bronze/ingest.py, immettere etl/bronze/ingest.py nel campo Path.

Configurare le librerie di calcolo e quelle dipendenti

  1. Usare Compute per selezionare o configurare un cluster che supporti la logica del tuo script.
  2. Se si utilizza il calcolo Serverless, usare il campo Ambiente e Librerie per selezionare, modificare o aggiungere un nuovo ambiente. Consultare Configurare l'ambiente serverless.
  3. Per tutte le altre configurazioni di calcolo, cliccare + Add (Aggiungi) in Dependent libraries (Librerie dipendenti). Verrà visualizzata la finestra di dialogo Add dependent library (Aggiungi libreria dipendente).
    • È possibile selezionare una libreria esistente o caricare una nuova libreria.
    • È possibile usare solo le librerie archiviate in una posizione supportata dalle configurazioni di calcolo. Vedere supporto della libreria Python.
    • Ogni Sorgente Libreria ha un flusso diverso per selezionare o caricare una libreria. Vedere Installare le librerie.

Finalizzare la configurazione del lavoro

  1. (Facoltativo) Configurare Parameters come elenco di stringhe passate come argomenti della riga di comando allo script Python. Vedere Configurare i parametri dell'attività.
  2. Cliccare Salva task.