Bloom 筛选器索引 (已弃用)

Important

请勿使用 Bloom 筛选器索引。 Azure Databricks已弃用此功能,建议从表中删除任何现有的 Bloom 筛选器索引。

Bloom 筛选器索引是一种传统的数据跳过机制,Azure Databricks 不再推荐用于任何工作负荷。 它们增加了写入开销,难以调整,并被更有效的替代方案所取代。

请改用以下功能:

  • 预测 I/O:使用 Databricks Runtime 12.2 及更高版本启用 Photon 的计算时,预测 I/O 会自动对所有列执行跳过文件。 它完全取代了 Bloom 筛选器索引,并且只有在启用 Photon 时才会增加写入开销。
  • 液体聚类:在 Databricks Runtime 13.3 及更高版本中,液体聚类通过根据经常被筛选的列来组织数据,从而提高数据跳过效率。

删除现有的 Bloom 筛选器索引

如果表上有现有的 Bloom 过滤器索引,请删除它们以去除不必要的写入负担。

DROP BLOOMFILTER INDEX ON TABLE table_name

有关语法详细信息,请参阅 DROP BLOOM FILTER INDEX

删除所有 Bloom 筛选器索引后,运行 VACUUM 以清理目录中的基础索引文件 _delta_index