通过


作业的Python脚本任务

使用 Python 脚本任务运行Python文件。

配置Python脚本任务

在开始之前,必须将Python脚本上传到用户配置作业可访问的位置。 Databricks 建议对Python脚本使用工作区文件。 请参阅什么是工作区文件?

Note

作业 UI 根据其他配置的设置动态显示选项。

Databricks 建议不要使用 DBFS 根或装载来存储代码或数据。 相反,可以将Python脚本迁移到工作区文件或卷,或使用 URI 访问云对象存储。

要启动配置 Python script 任务的流程:

  1. 在作业 UI 中导航到“任务”选项卡。
  2. 单击“ 添加任务”。
  3. “任务名称 ”字段中输入名称。
  4. Type 下拉菜单中,选择 Python script

配置数据源

Source 下拉菜单中,使用以下选项之一选择Python脚本的位置。

Workspace

使用 Workspace 配置使用工作区文件存储的Python脚本。

  1. 单击“路径”字段。 此时会显示“选择Python文件对话框。
  2. 浏览到Python脚本,单击以突出显示文件,然后单击 Confirm

Note

可以使用此选项在存储在 Databricks Git 文件夹中的Python脚本上配置任务。 Databricks 建议使用“Git 提供程序”选项和远程 Git 存储库来对通过作业安排的资产进行版本控制。

DBFS/ADLS

使用 DBFS/ADLS 配置存储在卷、云对象存储位置或 DBFS 根中的Python脚本。

Databricks 建议将Python脚本存储在 Unity 目录卷或云对象存储中。

Path 字段中,输入Python脚本的 URI。 例如,dbfs:/path/to/script.pyabfss://container-name@storage-account-name.dfs.core.windows.net/path/to/script.py

Git 服务提供商

使用 Git 提供程序配置存储在远程 Git 存储库中的Python脚本。

UI 显示的选项取决于你是否已在其他地方配置 Git 提供程序。 只有一个远程 Git 存储库可用于作业中的所有任务。 请参阅 将 Git 与 Lakeflow 作业配合使用

配置 git 引用后会显示“路径”字段。

输入Python脚本的相对路径,例如 etl/bronze/ingest.py

Important

输入相对路径时,请不要以 /./ 开头。 例如,如果要访问的Python代码的绝对路径为 /etl/bronze/ingest.py,请在 etl/bronze/ingest.py 字段中输入

配置计算库和依赖库

  1. 使用计算选择或配置支持脚本中逻辑的群集。
  2. 如果使用 Serverless 计算,请使用“环境和库”字段选择、编辑或添加新环境。 请参阅 配置无服务器环境
  3. 对于所有其他计算配置,请单击“依赖库”下的“+ 添加”。 此时会显示“添加依赖库”对话框。
    • 可以选择现有库或上传新库。
    • 只能使用存储在计算配置支持的位置中的库。 请参阅 Python 库支持
    • 每个库源具有不同的流,用于选择或上传库。 请参阅 “安装库”。

完成作业配置

  1. (可选)将 Parameters 配置为作为 CLI 参数传递给Python脚本的字符串列表。 请参阅配置任务参数
  2. 单击“保存任务”。