Nota
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare ad accedere o modificare le directory.
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare a modificare le directory.
Questa esercitazione illustra come configurare l'estensione Databricks per Visual Studio Code e quindi eseguire Python in un cluster Azure Databricks e come processo di Azure Databricks nell'area di lavoro remota. Vedere estensione Databricks per Visual Studio Code.
Requisiti
Per questa esercitazione è necessario:
- È stata installata l'estensione Databricks per Visual Studio Code. Vedere Installare l'estensione Databricks per Visual Studio Code.
- È disponibile un cluster Azure Databricks remoto da usare. Prendere nota del nome del cluster. Per visualizzare i cluster disponibili, nella barra laterale dell'area di lavoro Azure Databricks fare clic su Compute. Vedi Calcolo.
Passaggio 1: Creare un nuovo progetto Databricks
In questo passaggio si crea un nuovo progetto Databricks e si configura la connessione con l'area di lavoro di Azure Databricks remota.
- Avviare Visual Studio Code, quindi fare clic su File > Apri cartella e aprire una cartella vuota nel computer di sviluppo locale.
- Sulla barra laterale fare clic sull'icona del logo di Databricks . Verrà aperta l'estensione Databricks.
- Nella visualizzazione Configurazione fare clic su Crea configurazione.
- Si apre la Command Palette per configurare l'area di lavoro di Databricks. Per Databricks Host , inserisci o seleziona il tuo URL per spazio di lavoro , ad esempio
https://adb-1234567890123456.7.azuredatabricks.net. - Selezionare un profilo di autenticazione per il progetto. Vedere Impostare l'autorizzazione per l'estensione Databricks per Visual Studio Code.
Passaggio 2: Aggiungere informazioni sul cluster all'estensione Databricks e avviare il cluster
Con la visualizzazione Configurazione già aperta, fare clic su Seleziona un cluster o fare clic sull'icona a forma di ingranaggio (Configura cluster).
Nella Palette dei comandi selezionare il nome del cluster creato in precedenza.
Fare clic sull'icona di avvio (Avvia cluster) se non è già stata avviata.
Passaggio 3: Creare ed eseguire Python codice
Creare un file di codice Python locale: nella barra laterale fare clic sulla cartella (Explorer).
Nel menu principale fare clic su File > Nuovo file e scegliere un file Python. Denominare il file demo.py e salvarlo nella radice del progetto.
Aggiungere il codice seguente al file e quindi salvarlo. Questo codice crea e visualizza il contenuto di un dataframe PySpark di base:
from pyspark.sql import SparkSession from pyspark.sql.types import * spark = SparkSession.builder.getOrCreate() schema = StructType([ StructField('CustomerID', IntegerType(), False), StructField('FirstName', StringType(), False), StructField('LastName', StringType(), False) ]) data = [ [ 1000, 'Mathijs', 'Oosterhout-Rijntjes' ], [ 1001, 'Joost', 'van Brunswijk' ], [ 1002, 'Stan', 'Bokenkamp' ] ] customers = spark.createDataFrame(data, schema) customers.show()# +----------+---------+-------------------+ # |CustomerID|FirstName| LastName| # +----------+---------+-------------------+ # | 1000| Mathijs|Oosterhout-Rijntjes| # | 1001| Joost| van Brunswijk| # | 1002| Stan| Bokenkamp| # +----------+---------+-------------------+Fare clic sull'icona Esegui in Databricks accanto all'elenco delle schede dell'editor e quindi fare clic su Carica ed esegui file. L'output viene visualizzato nella Console di debug.
In alternativa, nella visualizzazione Explorer, fare clic con il pulsante destro del mouse sul
demo.pyfile, quindi scegliere Esegui su Databricks>Carica ed esegui file.
Passaggio 4: Eseguire il codice come processo
Per eseguire demo.py come processo, fare clic sull'icona Esegui in Databricks accanto all'elenco delle schede dell'editor e quindi fare clic su Esegui file come flusso di lavoro. L'output viene visualizzato in una scheda editor separata accanto all'editor di demo.py file.
In alternativa, fare clic con il pulsante destro del mouse sul file demo.py nel pannello Esplora file, quindi scegliere Esegui su Databricks>Esegui file come flusso di lavoro.
Passaggi successivi
Ora che è stata usata correttamente l'estensione Databricks per Visual Studio Code per caricare un file di Python locale ed eseguirlo in remoto, è anche possibile:
- Esplora le risorse e le variabili dei Bundle di Automazione Dichiarativa utilizzando l'interfaccia utente dell'estensione. Vedere Funzionalità di estensione dei bundle di automazione dichiarativa.
- Eseguire o debuggare codice Python con Databricks Connect. Visualizzare il codice di debug usando Databricks Connect per l'estensione Databricks per Visual Studio Code.
- Eseguire un file o un notebook come attività di Azure Databricks. Consultare Eseguire un file o un notebook su un cluster come job in Azure Databricks utilizzando l'estensione Databricks per Visual Studio Code.
- Eseguire test con
pytest. Vedere Eseguire test di Python usando l'estensione Databricks per Visual Studio Code.