Azure Databricks支持多种表类型和存储格式以满足不同的数据管理需求。 有关表类型、存储格式和 Unity 目录集成的概述,请参阅Azure Databricks表概念。
表类型
了解各种数据管理方案的不同表类型及其功能。
| 表类型 | Description |
|---|---|
| Delta Lake 和 Apache Iceberg Azure Databricks中的Unity 目录托管表 | Azure Databricks管理需要优化性能的新表的元数据和数据文件。 |
| 临时表 | 用于中间数据的会话级别 Unity Catalog 托管表。 只能用于 SQL 仓库。 |
| 使用外部表 | 存储在外部系统中的数据。 Unity 目录仅管理元数据。 |
| 使用外部表 | 对通过 Lakehouse Federation 连接的外部系统中数据的只读访问权限。 |
存储格式
使用支持高级数据管理功能的开放表格式。
| Format | Description |
|---|---|
| Delta Lake | 默认存储格式,其中包含托管表和外部表的 ACID 事务、时间旅行和架构强制实施。 |
| Apache Iceberg | 打开表格式以与 Iceberg 生态系统集成,支持高级元数据管理。 |
表管理
配置和优化表行为、结构和性能。
| 功能 / 特点 | Description |
|---|---|
| 表约束 | 使用检查约束定义和强制实施数据质量规则,而不是 null 约束。 |
| 模式验证 | 控制Azure Databricks在写入期间如何处理架构更改和数据类型强制实施。 |
| 表分区 | 按分区键组织数据,以提高查询性能和数据管理。 |
| 表大小监控 | 监视和分析表存储使用情况和增长模式。 |
| 将外部转换为托管 | 将外部表迁移到托管表以提高性能和管理。 |
| 外部分区发现 | 在存储在云存储中的外部表中自动发现和注册分区。 |