Important
请勿使用 Bloom 筛选器索引。 Azure Databricks已弃用此功能,建议从表中删除任何现有的 Bloom 筛选器索引。
Bloom 筛选器索引是一种传统的数据跳过机制,Azure Databricks 不再推荐用于任何工作负荷。 它们增加了写入开销,难以调整,并被更有效的替代方案所取代。
建议的替代项
请改用以下功能:
- 预测 I/O:使用 Databricks Runtime 12.2 及更高版本启用 Photon 的计算时,预测 I/O 会自动对所有列执行跳过文件。 它完全取代了 Bloom 筛选器索引,并且只有在启用 Photon 时才会增加写入开销。
- 液体聚类:在 Databricks Runtime 13.3 及更高版本中,液体聚类通过根据经常被筛选的列来组织数据,从而提高数据跳过效率。
删除现有的 Bloom 筛选器索引
如果表上有现有的 Bloom 过滤器索引,请删除它们以去除不必要的写入负担。
DROP BLOOMFILTER INDEX ON TABLE table_name
有关语法详细信息,请参阅 DROP BLOOM FILTER INDEX。
删除所有 Bloom 筛选器索引后,运行 VACUUM 以清理目录中的基础索引文件 _delta_index 。