注
この記事は、Databricks Runtime 13.3 LTS 以降の Databricks Connect に適用されます。
Databricks Connect を使用すると、PyCharm、ノートブック サーバー、その他のカスタム アプリケーションなどの一般的な IDE をAzure Databricksコンピューティングに接続できます。 「Databricks Connect」を参照してください。
この記事では、PyCharm を使用して、Databricks Connect for Pythonの使用をすぐに開始する方法について説明します。 PyCharm でプロジェクトを作成し、Databricks Runtime 13.3 LTS 以降の Databricks Connect をインストールし、PyCharm から Databricks ワークスペースのクラシック コンピューティングで単純なコードを実行します。
要求事項
このチュートリアルを完了するには、次の要件を満たす必要があります。
- ワークスペース、ローカル環境、コンピューティングは、Databricks Connect for Pythonの要件を満たしています。 Databricks Connect の使用要件を参照してください。
- PyCharm がインストールされている。 このチュートリアルは、PyCharm Community Edition 2023.3.5 でテストされました。 別のバージョンまたはエディションの PyCharm を使用する場合、次の手順は異なる場合があります。
- クラシック コンピューティングを使用している場合は、クラスターの ID が必要です。 クラスター ID を取得するには、ワークスペースでサイドバーの [コンピューティング ] をクリックし、クラスターの名前をクリックします。 Web ブラウザーのアドレス バーで、URL の
clustersとconfigurationの間で文字の文字列をコピーします。
手順 1: Azure Databricks認証を構成する
このチュートリアルではAzure Databricks OAuth ユーザー間 (U2M) 認証とAzure Databricks 構成プロファイルを使用して、Azure Databricks ワークスペースに対する認証を行います。 別の認証の種類を使うには、「接続プロパティの構成」をご覧ください。
OAuth U2M 認証を構成するには、Databricks CLI が必要です。 Databricks CLI のインストールの詳細については、「Databricks CLI のインストールまたは更新」を参照してください。
次のように OAuth U2M 認証を開始します。
Databricks CLI を使用して、ターゲット ワークスペースごとに次のコマンドを実行して、OAuth トークン管理をローカルで開始します。
次のコマンドで、
<workspace-url>を Azure Databricks per-workspace URL に置き換えます (例:https://adb-1234567890123456.7.azuredatabricks.net)。databricks auth login --configure-cluster --host <workspace-url>ヒント
Databricks Connect でサーバーレス コンピューティングを使用するには、「 サーバーレス コンピューティングへの接続を構成する」を参照してください。
Databricks CLI では、入力した情報をAzure Databricks 構成プロファイルとして保存するように求められます。
Enterキーを押して提案されたプロファイル名を受け入れるか、新規または既存のプロファイル名を入力します。 同じ名前の既存のプロファイルは、入力した情報で上書きされます。 プロファイルを使用すると、複数のワークスペース間で認証コンテキストをすばやく切り替えることができます。既存のプロファイルの一覧を取得するには、別のターミナルまたはコマンド プロンプト内で、Databricks CLI を使用してコマンド
databricks auth profilesを実行します。 特定のプロファイルの既存の設定を表示するには、コマンドdatabricks auth env --profile <profile-name>を実行します。Web ブラウザーで、画面の指示に従って、Azure Databricks ワークスペースにログインします。
ターミナルまたはコマンド プロンプトに表示される使用可能なクラスターの一覧で、上方向キーと下方向キーを使用してワークスペース内のターゲット Azure Databricks クラスターを選択し、
Enterキーを押します。 クラスターの表示名の任意の部分を入力して、使用可能なクラスターの一覧をフィルター処理することもできます。プロファイルの現在の OAuth トークン値とトークンの今後の有効期限のタイムスタンプを表示するには、次のいずれかのコマンドを実行します。
databricks auth token --host <workspace-url>databricks auth token -p <profile-name>databricks auth token --host <workspace-url> -p <profile-name>
同じ
--host値を持つ複数のプロファイルがある場合は、Databricks CLI が正しく一致する OAuth トークン情報を見つけるのに役立つ--hostと-pのオプションを一緒に指定することが必要になる場合があります。
手順 2: プロジェクトを作成する
- PyCharm を起動します。
- メイン メニューの File > New Project をクリックします。
- 「新しいプロジェクト」ダイアログボックスで、Pure Pythonをクリックします。
- Location の場合は、フォルダー アイコンをクリックし、画面上の指示を完了して、新しいPython プロジェクトへのパスを指定します。
- [Create a main.py welcome script] (main.py ウェルカム スクリプトの作成) は選択したままにします。
- Interpreter type でProject venvをクリックします。
- Python version を展開し、フォルダー アイコンまたはドロップダウン リストを使用して、上記の要件のPython インタープリターへのパスを指定します。
- Create をクリックしてください。
手順 3: Databricks Connect パッケージを追加する
- PyCharm のメイン メニューで、View > Tool Windows > Python Packages をクリックします。
- 検索ボックスに「
databricks-connect」と入力します。 - PyPI リポジトリの一覧で、databricks-connect をクリックします。
- 結果ウィンドウの 最新 のドロップダウン リストで、クラスターの Databricks Runtime バージョンに一致するバージョンを選択します。 たとえば、クラスターに Databricks Runtime 14.3 がインストールされている場合は、[14.3.1] を選択します。
- [パッケージのインストール] をクリックします。
- パッケージのインストール後、Python パッケージ ウィンドウを閉じることができます。
手順 4: コードを追加する
Project ツール ウィンドウで、projectのルート フォルダーを右クリックし、 New > Python File をクリックします。
「
main.py」と入力し、Python ファイルをダブルクリックします。構成プロファイルの名前に応じて、次のコードをファイルに入力してファイルを保存します。
手順 1 の構成プロファイルの名前が
DEFAULTの場合は、次のコードをファイルに入力して、ファイルを保存します。from databricks.connect import DatabricksSession spark = DatabricksSession.builder.getOrCreate() df = spark.read.table("samples.nyctaxi.trips") df.show(5)手順 1 の構成プロファイルの名前が
DEFAULTではない場合は、代わりに次のコードをファイルに入力します。 プレースホルダー<profile-name>を手順 1 の構成プロファイルの名前に置き換えて、ファイルを保存します。from databricks.connect import DatabricksSession spark = DatabricksSession.builder.profile("<profile-name>").getOrCreate() df = spark.read.table("samples.nyctaxi.trips") df.show(5)
手順 5: コードを実行する
- リモート Azure Databricks ワークスペースでターゲット クラスターを起動します。
- クラスターが起動したら、メインメニューで 「実行」 > 「main」を実行 をクリックします。
-
Run ツール ウィンドウ (View > Tool Windows > Run )、Run タブの main ペインに、
samples.nyctaxi.tripsの最初の 5 行が表示されます。
手順 6: コードをデバッグする
- クラスターがまだ実行中の状態で、前述のコードで、
df.show(5)の横にある余白をクリックしてブレークポイントを設定します。 - メインメニューで > をクリックします。
Debug ツール ウィンドウ (View ) のTool Windows Debug Debugger タブのVariables ウィンドウで、df およびspark 変数ノードを展開して、コードの変数に関する情報を参照します。- デバッグ ツール ウィンドウのサイドバーで、緑色の矢印 (プログラムの再開) アイコンをクリックします。
-
[デバッガー] タブの [コンソール] ウィンドウに、
samples.nyctaxi.tripsの最初の 5 行が表示されます。