通过


Lakeflow Spark 声明性管道发行说明 2026

2026 年发布了以下 Lakeflow Spark 声明性管道功能、功能改进和漏洞修复。

注释

由于 Lakeflow Spark 声明性管道通道版本遵循滚动升级过程,因此通道升级在不同时间部署到不同的区域。 你的版本(包括 Databricks Runtime 版本)可能在初始发布日期的一周或更长时间后才会更新。 若要查找管道的当前 Databricks Runtime 版本,请参阅 运行时信息

2026 年 3 月

这些功能和对 Lakeflow Spark 声明性管道的改进于 2026 年 2 月 26 日和 2026 年 3 月 31 日发布。

此版本使用的 Databricks Runtime 版本

截至 2026 年 3 月 31 日,以下版本为当前版本。

渠道:

  • 当前(默认值):Databricks Runtime 17.3.8
  • 预览:Databricks Runtime 18.1.0

新功能和改进

  • 无服务器管道现在支持基于 CPU 的垂直自动缩放。 此功能根据实际 CPU 利用率动态调整群集资源,以提高工作负荷稳定性。
  • 现在可以在删除管道时保留 Unity 目录表,即使在删除管道后仍保留数据资产。 这样,便可以更灵活地管理管道生命周期,而不会造成数据丢失的风险。
  • 现在可以使用新的流语法创建流式处理表,该语法提供了更直接的声明性方法来定义流式处理数据管道。 这简化了管道编写,并与当前数据工程模式相一致。
  • 管道挂钩现在可用于作业触发的管道。 使用它们可在 Lakeflow 作业中的管道更新前后运行自定义逻辑。 管道挂钩扩展了用于协调数据处理的自动化功能。
  • 管道现在在表更新期间保留行筛选器和列掩码配置,因此 Unity 目录安全策略在管道刷新期间保持不变。 这可以防止在架构演变过程中意外删除安全策略。
  • CDC 应用更改现在支持日期/时间重新定基模式。 此功能可正确处理旧日历系统与新式日历系统之间的时间戳转换。 防止在使用变更数据捕获流处理历史日期时间数据时发生数据不一致。
  • 现在可以在流式处理管道的 foreachBatch 操作中使用 SQL 语句,从而实现更灵活的微批处理逻辑。 这消除了之前需要使用 Python 或 Scala 才能进行自定义批处理的限制。
  • 管道现在支持接收器注册中的前向引用。 可以在声明下游表之前定义引用下游表的数据流。 这简化了复杂的管道定义并删除排序约束。
  • 现在,在模拟运行期间,会对追加一次流进行验证,以便在管道执行开始之前捕获配置错误。 这通过在管道创建工作流程的早期阶段发现问题来提高开发体验。

故障修复

此版本期间未包含重大 bug 修复。 所有更改都是新功能和改进。

2026 年 2 月

这些功能和对 Lakeflow Spark 声明性管道的改进于 2026 年 1 月 14 日至 2026 年 2 月 25 日发布。

此版本使用的 Databricks Runtime 版本

截至 2026 年 2 月 25 日,以下版本为当前版本。

渠道:

  • 当前(默认值):Databricks Runtime 17.3
  • 预览版:Databricks Runtime 17.3

新功能和改进

  • 管道现在支持 Delta 表的类型扩展,允许安全扩大列的数据类型(例如,从 INT 扩展到 LONG,从 FLOATDOUBLE),而无需完全重置管道。 这可实现以前需要手动干预的架构演变工作流。
  • 现在,可以使用 SCD 类型 1 具体化, AUTO CDC从而提供更简单的 CDC 模式来更新最新值,而无需保留完整的更改历史记录。 这减少了不需要完整历史记录的用例的存储开销。
  • 管道现在在重试失败的更新时重复使用现有群集,通过消除冗余群集启动时间来降低重试延迟和降低计算成本。
  • 预测优化功能现在可以在具体化视图和流式处理表上正确显示,前提是它们在上个月内已被刷新。
  • 管道现在在执行开始前,在干运行阶段一起验证多个流,捕获流中的配置冲突和依赖关系问题。
  • 在数据引入管道更新过程中,现在可以保留可变元数据,从而在流式引入表上启用对“ALTER”命令的完全支持。
  • 管道中的Python错误现在附带SQL状态代码,改进错误诊断能力,并在下游工具中启用更好的编程错误处理。
  • 管道现在支持经典计算的 ARM 实例。

故障修复

  • 在首次更新运行时,追加模式流表中的标识列值现在得以正确生成。

2026 年 1 月

这些功能和对 Lakeflow Spark 声明性管道的改进于 2025 年 11 月 14 日至 2026 年 1 月 13 日发布。

此版本使用的 Databricks Runtime 版本

截至 2026 年 1 月 13 日,以下版本为当前版本。

渠道:

  • 当前(默认值):Databricks Runtime 17.3
  • 预览版:Databricks Runtime 17.3

新功能和改进

  • 现在可以直接在 Unity 目录表中存储和管理数据质量预期,使用数据治理框架集中数据质量规则。 这样就可以跨多个管道共享版本控制的可审核质量规则。

  • 这些运行时间超过 7 天的连续管道现在会从容重启,停机时间最小,并且出现显式的更新原因(INFRASTRUCTURE_MAINTENANCE),而不是在需要刷新基础计算环境时突然重启。

  • 管道现在支持排队执行模式,其中多个更新请求会自动排队并按顺序执行,而不是因冲突而失败。 这简化了频繁更新触发的管道的操作,并且无需手动协调重试。

  • 现在可以从单个更改数据源具体化多个 SCD 类型 2 视图,从而在创建相同数据的多个历史视图时提高效率。 这样就无需重新处理每个 SCD 类型 2 输出的源数据。

  • 管道计划和配置现在可以从 Unity 目录表属性中存储和读取,从而通过数据管理实现集中设置管理。 这样,就可以与数据定义一起管理管道行为。

  • MANAGE 权限现在会自动传播到 Unity Catalog 中的物化视图和流表,从而简化管道输出的权限管理。 这可确保在未经手动权限授予的情况下进行一致的访问控制。

  • SCD 类型 2 操作现在会自动合并具有相同自然键的重复记录,确保数据一致性,并防止慢速变化维度表中的重复历史记录。

  • 管道现在可以选择自动删除不再属于管道定义的非活动表。 这有助于维护干净的数据仓库,并降低过时表的存储成本。 请参阅 将 Unity Catalog 与管道结合使用

  • 管道定义、修补操作和以某身份运行的标识更改现在包含在审核日志中,为合规性和安全性监控提供配置更改的全面跟踪。 请参阅 管道事件日志

故障修复

此版本期间未包含重大 bug 修复。 所有更改都是新功能和改进。