重要
Lakebase Autoscaling 是 Lakebase 的最新版本更新,具有自动缩放计算、缩放到零、分支和即时还原功能。 有关支持的区域,请参阅 区域可用性。 如果你是 Lakebase 预配的用户,请参阅 Lakebase 预配。
在本指南结束时,你将拥有一个运行中的 Postgres 数据库,其中包含示例数据,并连接到 Unity Catalog,数据将在 Lakebase 和 Databricks 湖仓之间流动。
步骤:(1)创建项目→ (2)连接→ (3)创建表→ (4)在Unity 目录中注册→ (5)服务数据
步骤 1:创建第一个项目
从应用切换器打开 Lakebase 应用。
选择 “自动缩放 ”以访问 Lakebase 自动缩放 UI。
单击“新建项目”。 为项目命名并选择 Postgres 版本。 项目是使用一个单独的 production 分支、默认 databricks_postgres 数据库以及为该分支配置的计算资源创建的。
计算资源可能需要一些时间才能激活。 默认情况下,分支的 production 计算资源始终开启(已禁用缩放到零),但可以根据需要配置此设置。
项目的区域会自动设置为工作区区域。
步骤 2:连接到数据库
在项目中,选择 生产 分支并单击“ 连接”。 连接字符串适用于任何标准 Postgres 客户端(psqlpgAdmin、DBeaver 或应用程序框架)。
若要使用 Databricks 标识进行连接,请从连接对话框中复制 psql 代码片段,并在出现提示时粘贴 OAuth 令牌:
psql 'postgresql://your-email@databricks.com@ep-abc-123.databricks.com/databricks_postgres?sslmode=require'
了解详细信息: 连接快速入门 | psql | pgAdmin | Postgres 客户端
步骤 3:创建第一个表
Lakebase SQL 编辑器预加载了示例 SQL。 在项目中,选择 生产 分支,打开 SQL 编辑器,并运行提供的语句来创建 playing_with_lakebase 表并插入示例数据。
了解详细信息:SQL 编辑器 | | Postgres 客户端
步骤 4:在 Unity 目录中注册
Lakebase 数据库正在运行,但在 Unity 目录中注册之前,Databricks 平台的其余部分不可见。 注册后,可以从 Databricks SQL 查询 Lakebase 表,将操作数据与 Lakehouse 分析联接,并应用统一治理。
在目录资源管理器中,使用 Lakebase 自动缩放 作为类型创建一个新目录,指向项目的 production 分支和 databricks_postgres 数据库。
现在可以从 SQL 仓库查询:
SELECT * FROM lakebase_catalog.public.playing_with_lakebase;
了解详细信息: 在 Unity 目录中注册
步骤 5:在应用中为 Lakehouse 数据提供服务
同步表 将 Unity 目录中的分析数据引入 Lakebase 数据库,以便应用程序可以使用低延迟事务读取对其进行查询。 创建示例 Unity 目录表,然后将其同步到 Lakebase。
在 SQL 仓库或笔记本中,创建源表:
CREATE TABLE main.default.user_segments AS
SELECT * FROM VALUES
(1001, 'premium', 2500.00, 'high'),
(1002, 'standard', 450.00, 'medium'),
(1003, 'premium', 3200.00, 'high'),
(1004, 'basic', 120.00, 'low')
AS segments(user_id, tier, lifetime_value, engagement);
现在,将此表同步到 Lakebase。 在目录资源管理器中,使用user_segments快照模式创建同步表,以项目databricks_postgres的数据库为目标。 快照模式复制一次数据。 对于连续更新,请使用“触发”或“连续”模式。
同步完成后,数据将作为default.user_segments_synced在 Lakebase 中可用。 在 Lakebase SQL 编辑器中查询它:
SELECT * FROM "default".user_segments_synced WHERE engagement = 'high';
注释
default 必须带引号,因为它是 PostgreSQL 保留关键字。 同步表架构继承 Unity 目录架构名称,因此,如果架构命名 default,则必须始终在查询中引用它。 其他标识符的引号是可选的。
您的 Lakehouse 数据分析现已准备好从事务型数据库中提供服务。
后续步骤
- 生成 app:Databricks Apps 教程 | 外部应用
- 使用分支进行开发:基于分支的开发教程
- 设置团队:授予项目和数据库访问权限
- 浏览平台:核心概念 | 项目概述 | 所有教程