本文旨在为计算创建提供明确且有主见的指导。 通过为工作流使用正确的计算类型,可以提高性能并节省成本。
| 最佳做法 | 影响 | 文档 |
|---|---|---|
| 对大多数工作负荷使用无服务器计算 | Azure Databricks 实现自动化管理规格、可伸缩性和基础设施。 不需要群集配置。 | |
| 对于经典计算:除非不支持所需的功能,否则请使用标准访问模式 | 具有标准访问模式的计算资源可被多个用户共享,并且用户之间的数据是隔离的。 | |
| 对于经典计算:如果不熟悉Azure Databricks,请先使用通用实例类型 | 为工作负载选择合适的实例类型可以提高效率。 | |
| 对于经典计算:如果有足够的可用性,请使用最新一代实例类型 | 最新一代实例类型提供最佳性能和最新功能。 | |
| 对于经典计算:根据需要工作负荷运行的速度设置按需实例和现成实例平衡 | 现成实例可以节省成本,但如果回收现成实例,可能会影响操作的整体运行时间。 | |
| 对于经典计算:请根据您的工作负载执行的操作类型,选择节点的大小和工作节点数。 | 例如,如果预期会出现大量混排,则使用大型单节点而不是多个较小的节点可能更高效。 | |
| 对于经典计算:在为 1-4 个辅助角色设置自动缩放集的群集上运行真空,其中每个辅助角色有 8 个核心。 选择核心数为 8 到 32 的驱动程序。 如果出现内存不足 (OOM) 错误,请增加驱动程序的大小。 |
Vacuum 语句分两个阶段进行,第二个阶段对驱动程序负载很重。 如果不使用正确尺寸的群集,操作可能会导致速度变慢,并且可能不会成功。 | |
| 对于经典计算:评估批处理工作流是否受益于 Photon | Photon 可加快查询速度并降低每个工作负载的总成本。 |