Condividi tramite


Esercitazione: Eseguire il codice da PyCharm nel calcolo classico

Annotazioni

Questo articolo si applica a Databricks Connect per Databricks Runtime 13.3 LTS e versioni successive.

Databricks Connect consente di connettere gli IDE più diffusi, ad esempio PyCharm, i server notebook e altre applicazioni personalizzate per Azure Databricks calcolo. Vedi Databricks Connect.

Questo articolo illustra come iniziare rapidamente a usare Databricks Connect per Python usando PyCharm. Si creerà un progetto in PyCharm, si installerà Databricks Connect per Databricks Runtime 13.3 LTS e versioni successive ed eseguirà codice semplice nel calcolo classico nell'area di lavoro di Databricks da PyCharm.

Requisiti

Per completare questa esercitazione, è necessario soddisfare i requisiti seguenti:

  • L'area di lavoro, l'ambiente locale e il calcolo soddisfano i requisiti per Databricks Connect per Python. Vedere Requisiti di utilizzo di Databricks Connect.
  • È installato PyCharm. Questa esercitazione è stata testata con PyCharm Community Edition 2023.3.5. Se si usa una versione o un'edizione diversa di PyCharm, le istruzioni seguenti possono variare.
  • Se si usa il calcolo classico, sarà necessario l'ID del cluster. Per ottenere l'ID cluster, nell'area di lavoro fare clic su Calcolo sulla barra laterale e quindi sul nome del cluster. Nella barra degli indirizzi del Web browser copiare la stringa di caratteri tra clusters e configuration nell'URL.

Passaggio 1: Configurare l'autenticazione Azure Databricks

Questa esercitazione utilizza Azure Databricks OAuth user-to-machine (U2M) authentication e un profilo di configurazione Azure Databricks per autenticarsi all'area di lavoro Azure Databricks. Per usare un tipo di autenticazione diverso, vedere Configurare le proprietà di connessione.

La configurazione dell'autenticazione U2M OAuth richiede l'interfaccia della riga di comando di Databricks. Per informazioni sull'installazione dell'interfaccia della riga di comando di Databricks, vedere Installare o aggiornare l'interfaccia della riga di comando di Databricks.

Avviare l'autenticazione U2M OAuth, come indicato di seguito:

  1. Usare il Databricks CLI per avviare la gestione dei token OAuth in locale eseguendo il seguente comando per ogni area di lavoro di destinazione.

    Nel comando seguente sostituire <workspace-url> con l'URL Azure Databricks per-workspace, ad esempio https://adb-1234567890123456.7.azuredatabricks.net.

    databricks auth login --configure-cluster --host <workspace-url>
    

    Suggerimento

    Per usare il calcolo serverless con Databricks Connect, consulta Configurare una connessione al calcolo serverless.

  2. L'interfaccia della riga di comando di Databricks richiede di salvare le informazioni immesse come profilo di configurazione Azure Databricks . Premere Enter per accettare il nome del profilo suggerito oppure immettere il nome di un profilo nuovo o esistente. Qualsiasi profilo esistente con lo stesso nome viene sovrascritto con le informazioni immesse. È possibile usare i profili per cambiare rapidamente il contesto di autenticazione tra più aree di lavoro.

    Per ottenere un elenco di tutti i profili esistenti, in un terminale o un prompt dei comandi separato, usare il Databricks CLI per eseguire il comando databricks auth profiles. Per visualizzare le impostazioni esistenti di un profilo specifico, eseguire il comando databricks auth env --profile <profile-name>.

  3. Nel Web browser completare le istruzioni visualizzate per accedere all'area di lavoro Azure Databricks.

  4. Nell'elenco dei cluster disponibili visualizzati nel terminale o nel prompt dei comandi usare i tasti freccia su e freccia GIÙ per selezionare il cluster di destinazione Azure Databricks nell'area di lavoro e quindi premere Enter. È anche possibile digitare qualsiasi parte del nome visualizzato del cluster per filtrare l'elenco dei cluster disponibili.

  5. Per visualizzare il valore corrente del token OAuth di un profilo e il timestamp di scadenza imminente del token, eseguire uno dei comandi seguenti:

    • databricks auth token --host <workspace-url>
    • databricks auth token -p <profile-name>
    • databricks auth token --host <workspace-url> -p <profile-name>

    Se si dispone di più profili con lo stesso valore --host, potrebbe essere necessario specificare insieme le opzioni --host e -p per consentire al Databricks CLI di trovare le informazioni corrette corrispondenti sul token OAuth.

Step 2: Creare il progetto

  1. Avviare PyCharm.
  2. Nel menu principale fare clic su File > Nuovo Project.
  3. Nella finestra di dialogo Nuovo Project fare clic su Pure Python.
  4. Per Location, fare clic sull'icona della cartella e completare le indicazioni visualizzate per specificare il percorso del nuovo progetto Python.
  5. Lasciare selezionata l'opzione Crea un main.py script di benvenuto.
  6. Per Tipo interprete, fare clic su Project venv.
  7. Espandi Versione di Python e usa l'icona della cartella o l'elenco a discesa per specificare il percorso dell'interprete Python specificato nei requisiti precedenti.
  8. Clicca su Crea.

Creare il progetto PyCharm

Passaggio 3: Aggiungere il pacchetto Databricks Connect

  1. Nel menu principale di PyCharm fare clic su View > Tool Windows > Python Packages.
  2. Nella casella di ricerca immettere databricks-connect.
  3. Nell'elenco del repository PyPI, fare clic su databricks-connect.
  4. Nell'elenco a discesa più recente del riquadro dei risultati selezionare la versione corrispondente alla versione di Databricks Runtime del cluster. Ad esempio, se nel cluster è installato Databricks Runtime 14.3, selezionare 14.3.1.
  5. Fare clic su Installa pacchetto.
  6. Dopo l'installazione del pacchetto, è possibile chiudere la finestra Python Packages.

Installare il pacchetto Databricks Connect

Passaggio 4: Aggiungere codice

  1. Nella finestra degli strumenti Project fare clic con il pulsante destro del mouse sulla cartella radice del project e scegliere Nuova > Python File.

  2. Immettere main.py e fare doppio clic su Python file.

  3. Immettere il codice seguente nel file e quindi salvare il file, a seconda del nome del profilo di configurazione.

    Se il profilo di configurazione del passaggio 1 è denominato DEFAULT, immettere il codice seguente nel file e quindi salvare il file:

    from databricks.connect import DatabricksSession
    
    spark = DatabricksSession.builder.getOrCreate()
    
    df = spark.read.table("samples.nyctaxi.trips")
    df.show(5)
    

    Se il profilo di configurazione del passaggio 1 non è denominato DEFAULT, immettere il codice seguente nel file. Sostituire il segnaposto <profile-name> con il nome del profilo di configurazione del passaggio 1 e quindi salvare il file:

    from databricks.connect import DatabricksSession
    
    spark = DatabricksSession.builder.profile("<profile-name>").getOrCreate()
    
    df = spark.read.table("samples.nyctaxi.trips")
    df.show(5)
    

Passaggio 5: Eseguire il codice

  1. Avviare il cluster di destinazione nell'area di lavoro di Azure Databricks remota.
  2. Dopo l'avvio del cluster, nel menu principale fare clic su Esegui > Esegui 'main'.
  3. Nella finestra degli strumenti Run (View > Tool Windows > Run ) nel riquadro Runmain, vengono visualizzate le prime 5 righe del samples.nyctaxi.trips.

Passaggio 6: Eseguire il debug del codice

  1. Con il cluster ancora in esecuzione, nel codice precedente fare clic sul margine accanto a df.show(5) per impostare un punto di interruzione.
  2. Nel menu principale fare clic su Esegui > debug 'main'.
  3. Nella finestra degli strumenti Debug (View > Tool Windows > Debug), nella scheda Debugger del riquadro Variables, espandete i nodi variabili df e spark per esplorare le informazioni sulle variabili df e spark del codice.
  4. Nella barra laterale della finestra dello strumento di debug fare clic sulla freccia verde (Riprendi programma).
  5. Nel riquadro Console della scheda Debugger vengono visualizzate le prime 5 righe dell'oggetto samples.nyctaxi.trips .

Eseguire il debug del progetto PyCharm