ジョブのためのPythonスクリプトのタスク

Python ファイルを実行するには、Python スクリプト タスクを使用します。

Python スクリプト タスクを構成する

開始する前に、ジョブを構成しているユーザーがアクセスできる場所にPython スクリプトをアップロードする必要があります。 Databricks では、Python スクリプトにワークスペース ファイルを使用することをお勧めします。 「ワークスペース ファイルとは」を参照してください。

Note

ジョブ UI には、その他の構成済みの設定に基づいてオプションが動的に表示されます。

Databricks では、DBFS ルートまたはマウントを使用してコードやデータを格納しないことをお勧めします。 代わりに、Pythonスクリプトをワークスペース ファイルまたはボリュームに移行したり、URI を使用してクラウド オブジェクト ストレージにアクセスしたりできます。

Python script タスクを構成するフローを開始するには、

  1. ジョブ UI の [タスク] タブに移動します。
  2. [ タスクの追加] をクリックします。
  3. [タスク名] フィールドに名前を入力します。
  4. Type ドロップダウン メニューで、Python script を選択します。

ソースを構成する

Source ドロップダウン メニューで、次のいずれかのオプションを使用して、Python スクリプトの場所を選択します。

Workspace

Workspace を使用して、ワークスペース ファイルを使用して格納されるPython スクリプトを構成します。

  1. [パス] フィールドをクリックします。 Pythonファイル選択ダイアログが表示されます。
  2. Python スクリプトを参照し、クリックしてファイルを強調表示し、Confirm をクリックします。

Note

このオプションを使用すると、Databricks Git フォルダーに格納されているPython スクリプトでタスクを構成できます。 Databricks では、[Git プロバイダー] オプションとリモート Git リポジトリを使用して、ジョブでスケジュールされたアセットをバージョン管理することをお勧めします。

DBFS/ADLS

DBFS/ADLS を使用して、ボリューム、クラウド オブジェクト ストレージの場所、または DBFS ルートに格納されているPython スクリプトを構成します。

Databricks では、Python スクリプトを Unity カタログ ボリュームまたはクラウド オブジェクト ストレージに格納することをお勧めします。

Path フィールドに、Python スクリプトの URI を入力します。 たとえば、dbfs:/path/to/script.py または abfss://container-name@storage-account-name.dfs.core.windows.net/path/to/script.py です。

Git プロバイダー

Git provider を使用して、リモート Git リポジトリに格納されているPython スクリプトを構成します。

UI によって表示されるオプションは、他の場所で Git プロバイダーを既に構成しているかどうかによって異なります。 ジョブ内のすべてのタスクに使用できるリモート Git リポジトリは 1 つだけです。 「Lakeflow ジョブで Git を使用する」を参照してください。

git リファレンスを構成した後、 [パス] フィールドが表示されます。

etl/bronze/ingest.py など、Python スクリプトの相対パスを入力します。

Important

相対パスを入力するときは、 / または ./で始めないでください。 たとえば、アクセスするPython コードの絶対パスが /etl/bronze/ingest.py の場合は、etl/bronze/ingest.py フィールドに「」と入力します。

コンピューティング ライブラリと依存ライブラリを構成する

  1. [コンピューティング] を使用して、スクリプトのロジックをサポートするクラスターを選択または構成します。
  2. Serverless コンピューティングを使用する場合は、[環境とライブラリ] フィールドを使用して、新しい環境を選択、編集、または追加します。 「サーバーレス環境を構成する」を参照してください。
  3. その他のすべてのコンピューティング構成については、[依存関係ライブラリ] の [+ 追加] をクリックします。 [依存ライブラリの追加] ダイアログが表示されます。
    • 既存のライブラリを選択するか、新しいライブラリをアップロードできます。
    • 使用できるのは、コンピューティング構成でサポートされている場所に格納されているライブラリのみです。 Python ライブラリのサポートを参照してください。
    • ライブラリ ソース ごとに、ライブラリを選択またはアップロードするためのフローは異なります。 「 ライブラリのインストール」を参照してください。

ジョブ構成を完了する

  1. (省略可能)cli 引数として Python スクリプトに渡される文字列の一覧として、Parameters を構成します。 「タスク パラメーターを構成する」を参照してください。
  2. [タスクの保存] をクリックします。