本文介绍需要了解的基本组件,以便有效地使用Azure Databricks。
帐户和工作区
在 Azure Databricks 中,workspace是云中的Azure Databricks部署,充当团队访问 Databricks 资产的环境。 组织可以根据需求选择使用多个工作区或只使用一个工作区。
Azure Databricks account表示可以包含多个工作区的单个实体。 为 Unity Catalog 启用的帐户可以用来集中管理用户及其在帐户下所有工作区的数据访问权限。
计费:Databricks 单位 (DBU)
Azure Databricks 根据 Databricks 单位(DBU)进行计费,这些单位表示基于 VM 实例类型的每小时处理能力。
请参阅 Azure Databricks 定价页。
身份验证和授权
本部分介绍在管理Azure Databricks标识及其对Azure Databricks资产的访问权限时需要了解的概念。
用户
有权访问系统的唯一个人。 用户标识由电子邮件地址表示。 请参阅 “管理用户”。
服务主体
用于作业、自动化工具和系统(例如脚本、应用和 CI/CD 平台)的服务标识。 服务主体由应用程序 ID 表示。 请参阅 服务主体。
组
标识集合。 组简化了标识管理,使分配对工作区、数据和其他安全对象的访问权限变得更加容易。 所有 Databricks 标识都可以被分配为组的成员。 请参阅组。
访问控制列表 (ACL)
附加到工作区、群集、作业、表或试验的权限的列表。 ACL 指定向哪些用户或系统进程授予对对象的访问权限,以及允许对资产执行哪些操作。 典型 ACL 中的每个条目都指定主题和操作。 请参阅 访问控制列表。
个人访问令牌 (PAT)
个人访问令牌是用于对 REST API 调用、 技术合作伙伴 连接和其他工具进行身份验证的字符串。 请参阅 使用 Azure Databricks 个人访问令牌(旧版)进行身份验证。
Microsoft Entra ID令牌还可用于向 REST API 进行身份验证。
Azure Databricks接口
本部分介绍用于访问Azure Databricks中资产的接口。
UI
Azure Databricks UI 是一个图形界面,用于与工作区文件夹及其包含的对象、数据对象和计算资源等功能进行交互。
Databricks One
Databricks One 是专为业务用户设计的简化Azure Databricks界面。 它提供了一个入口点来查看 AI/BI 仪表板,使用 Genie 提出数据问题,并使用 Databricks Apps,而无需导航技术工作区概念。 请参阅 什么是 Databricks One?。
REST API
Databricks REST API 提供用于修改或请求有关Azure Databricks帐户和工作区对象的信息的终结点。 请参阅 帐户参考 和 工作区参考。
SQL REST API
使用 SQL REST API 可以自动对 SQL 对象执行任务。 请参阅 SQL API。
CLI
Databricks CLI托管在 GitHub。 CLI 在 Databricks REST API 基础上构建。
数据管理
本部分介绍用于组织和治理Azure Databricks数据的工具和逻辑对象。 请参阅 Azure Databricks 中的 Database 对象。
统一目录
Unity 目录是Azure Databricks上的数据和 AI 资产的统一治理解决方案,可在 Databricks 工作区中提供集中式访问控制、审核、世系和数据发现功能。 请参阅什么是 Unity 目录?
目录
目录是用于组织和隔离Azure Databricks上的数据的最高级别容器。 可以在同一区域和帐户内的工作区之间共享目录。 请参阅 Azure Databricks 中的目录是什么?。
架构
架构(也称为数据库)包含在目录中,并提供更精细的组织级别。 它们包含数据库对象和 AI 资产,例如卷、表、函数和模型。 请参阅 Azure Databricks?中的架构是什么。
表
表组织和管理对结构化数据的访问。 利用 Apache Spark SQL 和 Apache Spark API 查询表。 请参阅 Azure Databricks 表。
视图
视图是派生自一个或多个表和视图的只读对象。 视图保存针对表定义的查询。 请参阅什么是视图?
音量
卷表示在云对象存储位置中的逻辑存储单位,用于组织和控制对非表格数据的访问。 Databricks 建议使用卷来管理对云对象存储上非表格数据的所有访问。 请参阅什么是 Unity Catalog 卷?。
Delta 表
默认情况下,在Azure Databricks中创建的所有表都是 Delta 表。 Delta 表基于 Delta Lake 开放源代码 项目,这是一个用于通过云对象存储实现高性能 ACID 表存储的框架。 Delta 表将数据作为文件目录存储在云对象存储中,并将表元数据注册到目录和架构中的元存储。
元存储
Unity Catalog 提供一个帐户级别的元存储,用于注册关于数据、AI 的元数据信息,以及关于目录、模式和表的权限信息。 请参阅元存储。
Azure Databricks为尚未采用 Unity Catalog 的客户提供旧版 Hive 元存储。 请参阅 Hive 元存储表访问控制(旧版)。
目录资源管理器
使用目录资源管理器可以浏览和管理数据和 AI 资产,包括架构(数据库)、表、模型、卷(非表格数据)、函数和已注册的 ML 模型。 可以使用它来查找数据对象和所有者、了解表之间的数据关系,以及管理权限和共享。 请参阅什么是目录资源管理器?
DBFS 根
重要
使用 DBFS 根或 DBFS 装载存储和访问数据是已弃用的模式,Databricks 不建议这样做。 而 Databricks 建议使用 Unity Catalog 来管理对所有数据的访问。 请参阅什么是 Unity 目录?
默认情况下,DBFS 根是可供所有用户使用的存储位置。 请参阅 什么是 DBFS?。
计算管理
本部分介绍在Azure Databricks中运行计算需要知道的概念。
群集
用于运行笔记本和作业的一组计算资源和配置。 有两种类型的群集:通用和作业。 请参阅 计算。
- 使用 UI、CLI 或 REST API 创建通用群集。 可手动终止和重启通用群集。 多个用户可以共享此类群集,以协作的方式执行交互式分析。
- 在作业完成时,Azure Databricks作业计划程序创建
a 作业群集 ,并在作业完成时运行 <作业>新的作业群集终止群集。 无法重启作业群集。
池
一组空闲的随时可用的实例,可减少群集启动和自动缩放时间。 附加到池时,群集会从池中分配其驱动程序节点和工作器节点。 请参阅 池配置参考。
如果池中没有足够的空闲资源来满足群集的请求,则池会通过从实例提供程序分配新的实例进行扩展。 终止附加的群集后,它使用的实例会返回到池中,可供其他群集重复使用。
Databricks Runtime
在由Azure Databricks管理的群集上运行的核心组件集。 请参阅 计算。 Azure Databricks具有以下运行时:
- Databricks Runtime 包括 Apache Spark,但也增加了许多组件和更新,这些组件和更新可显著提高大数据分析的可用性、性能和安全性。
- Databricks Runtime for 机器学习 构建于 Databricks Runtime 之上,并提供与 Azure Databricks 工作区的所有功能无缝集成的预构建机器学习基础设施。 它包含多个流行库,其中包括 TensorFlow、Keras、PyTorch 和 XGBoost。
作业和管道 UI
作业和管道工作区 UI 提供进入作业、Lakeflow Spark 声明性管道和 Lakeflow Connect UI 的入口,这些工具可用于编排和调度工作流。
作业
用于协调和安排笔记本、库和其他任务的非交互式机制。 请参阅 Lakeflow 作业
Pipelines
Lakeflow Spark 声明性管道提供声明性框架,用于生成可靠、可维护且可测试的数据处理管道。 请参阅 Lakeflow Spark 声明式管道。
工作负荷
工作负荷是执行一项任务或一组任务所需的处理能力量。 Azure Databricks标识两种类型的工作负荷:数据工程(作业)和数据分析(全用途)。
- 数据工程 (自动化)工作负荷运行在 Azure Databricks 作业调度器为每个工作负荷创建的作业群集上。
- 数据分析 在 通用群集上运行(交互式)工作负荷。 交互式工作负荷通常在 Azure Databricks notebook 中运行命令。 但是,在现有通用群集上运行作业也被视为交互式工作负荷 。
执行上下文
每种受支持编程语言的读取-评估-打印循环 (REPL) 环境的状态。 支持的语言是Python、R、Scala 和 SQL。
数据工程
数据工程工具有助于在数据科学家、数据工程师、数据分析师和机器学习工程师之间实现协作。
工作区
workspace是用于访问所有Azure Databricks资产的环境。 工作区将对象(笔记本、库、仪表板和试验)组织到 文件夹中 ,并提供对数据对象和计算资源的访问权限。
Notebook
基于 Web 的界面,用于创建可以包含可运行的命令、可视化效果和叙述文本的数据科学与机器学习工作流。 请参阅 Databricks 笔记本。
库
可对群集上运行的笔记本或作业使用的代码包。 Databricks 运行时包含许多库,你也可以上传自己的库。 请参阅 “安装库”。
Git 文件夹(以前Repos)
一个文件夹,其内容通过同步到远程 Git 存储库来一起进行共同版本控制。 Databricks Git 文件夹 与 Git 集成,为项目提供源和版本控制。
AI 和机器学习
Databricks 提供集成的端到端环境和托管服务,用于开发和部署 AI 和机器学习应用程序。
马赛克 AI
Databricks Mosaic AI 研究产品和服务的品牌名称,该团队由研究人员和工程师组成,负责 Databricks 在生成式 AI 方面的最大突破。 Mosaic AI 产品包括 Databricks 中的 ML 和 AI 功能。 请参阅 马赛克研究。
机器学习运行时
为了帮助你开发 ML 和 AI 模型,Databricks 提供了用于机器学习的 Databricks Runtime,它使用预生成的machine learning和深度学习基础结构(包括最常见的 ML 和 DL 库)自动创建计算。 它还具有内置的预配置 GPU 支持,包括驱动程序和支持库。 可以在 Databricks Runtime 发行说明、版本和兼容性中了解有关最新运行时版本的信息。
试验
用于开发代理、LLM 应用程序和 ML 模型的 MLflow 集合。 请参阅使用 MLflow 试验组织训练运行。
功能
特征是 ML 模型的重要组成部分。 特征存储能够在组织内实现特征共享和发现,还可以确保将相同的特征计算代码用于模型训练和推理。 请参阅 Databricks 特性库。
生成式 AI 模型
Databricks 支持探索、开发和部署生成式 AI 模型,包括:
- AI 操场,工作区中一个类似于聊天的环境,可在其中测试、提示和比较 LLM。 请参阅与 LLM 聊天并使用 AI 操场制作生成式 AI 应用原型。
- 一组内置的预配置基础模型,你可以查询:
- 请参阅 按令牌付费基础模型 API。
- 请参阅 [建议] 从 Unity Catalog 部署基础模型,了解您可以一键提供的基础模型。
- 由第三方托管的 LLM,被称为外部模型。 这些模型旨在按原样使用。
- 自定义基础模型以优化其针对特定应用程序的性能的能力(通常称为微调)。 请参阅 基础模型微调。
模型注册表
Databricks 提供 Unity Catalog 中的 MLflow 模型注册表的托管版本。 在 Unity Catalog 中注册的模型将继承集中式访问控制、世系以及跨工作区的发现和访问。 请参阅 Unity 目录中的管理模型生命周期。
模型服务
Mosaic AI 模型服务为部署、治理和查询 AI 模型提供统一的接口。 你提供的每个模型都可用作 REST API,可以集成到 Web 或客户端应用程序中。 使用 Mosaic AI 模型服务,你可以部署自己的模型、基础模型或托管在 Databricks 之外的第三方模型。 请参阅 使用马赛克 AI 模型服务部署模型。
数据仓库
数据仓库是指从多个来源收集和存储数据,以便可以快速访问这些数据以获取业务见解和报表。 Databricks SQL 是为现有数据湖带来数据仓库功能和性能的服务集合。 请参阅 数据仓库体系结构。
查询
查询是可用来与数据交互的有效 SQL 语句。 可以使用平台内 SQL 编辑器创作查询,也可以使用 SQL 连接器、驱动程序或 API 进行连接。 请参阅 Access 并管理保存的查询 ,详细了解如何使用查询。
SQL 仓库
运行 SQL 查询的计算资源。 有三种类型的 SQL 仓库:经典、专业、无服务器。 Azure Databricks建议使用可用的无服务器仓库。 请参阅 SQL 仓库类型 来比较每种仓库类型的可用功能。
查询历史记录
已执行的查询及其性能特征的列表。 使用查询历史记录可以监视查询性能,从而可以帮助你识别瓶颈并优化查询运行时间。 请参阅 查询历史记录。
可视化
运行查询的结果的图形表示形式。 请参阅 Databricks 笔记本和 SQL 编辑器中的可视化效果。
仪表板
数据可视化效果和注释的表示形式。 可以使用仪表板自动将报表发送到Azure Databricks帐户中的任何人。 使用 Genie Code 可帮助你基于自然语言提示生成可视化效果。 请参阅 仪表板。 还可以从笔记本创建仪表板。 请参阅笔记本中的仪表板。