使用 Python 脚本任务运行Python文件。
配置Python脚本任务
在开始之前,必须将Python脚本上传到用户配置作业可访问的位置。 Databricks 建议对Python脚本使用工作区文件。 请参阅什么是工作区文件?。
Note
作业 UI 根据其他配置的设置动态显示选项。
Databricks 建议不要使用 DBFS 根或装载来存储代码或数据。 相反,可以将Python脚本迁移到工作区文件或卷,或使用 URI 访问云对象存储。
要启动配置 Python script 任务的流程:
- 在作业 UI 中导航到“任务”选项卡。
- 单击“ 添加任务”。
- 在 “任务名称 ”字段中输入名称。
- 在 Type 下拉菜单中,选择
Python script。
配置数据源
在 Source 下拉菜单中,使用以下选项之一选择Python脚本的位置。
Workspace
使用 Workspace 配置使用工作区文件存储的Python脚本。
- 单击“路径”字段。 此时会显示“选择Python文件对话框。
- 浏览到Python脚本,单击以突出显示文件,然后单击 Confirm。
Note
可以使用此选项在存储在 Databricks Git 文件夹中的Python脚本上配置任务。 Databricks 建议使用“Git 提供程序”选项和远程 Git 存储库来对通过作业安排的资产进行版本控制。
DBFS/ADLS
使用 DBFS/ADLS 配置存储在卷、云对象存储位置或 DBFS 根中的Python脚本。
Databricks 建议将Python脚本存储在 Unity 目录卷或云对象存储中。
在 Path 字段中,输入Python脚本的 URI。 例如,dbfs:/path/to/script.py 或 abfss://container-name@storage-account-name.dfs.core.windows.net/path/to/script.py。
Git 服务提供商
使用 Git 提供程序配置存储在远程 Git 存储库中的Python脚本。
UI 显示的选项取决于你是否已在其他地方配置 Git 提供程序。 只有一个远程 Git 存储库可用于作业中的所有任务。 请参阅 将 Git 与 Lakeflow 作业配合使用。
配置 git 引用后会显示“路径”字段。
输入Python脚本的相对路径,例如 etl/bronze/ingest.py。
Important
输入相对路径时,请不要以 / 或 ./ 开头。 例如,如果要访问的Python代码的绝对路径为 /etl/bronze/ingest.py,请在 etl/bronze/ingest.py 字段中输入 。
配置计算库和依赖库
- 使用计算选择或配置支持脚本中逻辑的群集。
- 如果使用
Serverless计算,请使用“环境和库”字段选择、编辑或添加新环境。 请参阅 配置无服务器环境。 - 对于所有其他计算配置,请单击“依赖库”下的“+ 添加”。 此时会显示“添加依赖库”对话框。
- 可以选择现有库或上传新库。
- 只能使用存储在计算配置支持的位置中的库。 请参阅 Python 库支持。
- 每个库源具有不同的流,用于选择或上传库。 请参阅 “安装库”。
完成作业配置
- (可选)将 Parameters 配置为作为 CLI 参数传递给Python脚本的字符串列表。 请参阅配置任务参数。
- 单击“保存任务”。