通过


开始使用 Lakebase Autoscaling

重要

Lakebase Autoscaling 是 Lakebase 的最新版本更新,具有自动缩放计算、缩放到零、分支和即时还原功能。 有关支持的区域,请参阅 区域可用性。 如果你是 Lakebase 预配的用户,请参阅 Lakebase 预配

在本指南结束时,你将拥有一个运行中的 Postgres 数据库,其中包含示例数据,并连接到 Unity Catalog,数据将在 Lakebase 和 Databricks 湖仓之间流动。

步骤:(1)创建项目→ (2)连接→ (3)创建表→ (4)在Unity 目录中注册→ (5)服务数据

步骤 1:创建第一个项目

从应用切换器打开 Lakebase 应用。

应用切换器

选择 “自动缩放 ”以访问 Lakebase 自动缩放 UI。

单击“新建项目”。 为项目命名并选择 Postgres 版本。 项目是使用一个单独的 production 分支、默认 databricks_postgres 数据库以及为该分支配置的计算资源创建的。

“创建项目”对话框

计算资源可能需要一些时间才能激活。 默认情况下,分支的 production 计算资源始终开启(已禁用缩放到零),但可以根据需要配置此设置。

项目的区域会自动设置为工作区区域。

了解详细信息: 创建项目 | 自动缩放 | 到零

步骤 2:连接到数据库

在项目中,选择 生产 分支并单击“ 连接”。 连接字符串适用于任何标准 Postgres 客户端(psqlpgAdmin、DBeaver 或应用程序框架)。

“连接”对话框

若要使用 Databricks 标识进行连接,请从连接对话框中复制 psql 代码片段,并在出现提示时粘贴 OAuth 令牌:

psql 'postgresql://your-email@databricks.com@ep-abc-123.databricks.com/databricks_postgres?sslmode=require'

了解详细信息: 连接快速入门 | psql | pgAdmin | Postgres 客户端

步骤 3:创建第一个表

Lakebase SQL 编辑器预加载了示例 SQL。 在项目中,选择 生产 分支,打开 SQL 编辑器,并运行提供的语句来创建 playing_with_lakebase 表并插入示例数据。

包含预加载示例 SQL 的 SQL 编辑器

了解详细信息:SQL 编辑器 | | Postgres 客户端

步骤 4:在 Unity 目录中注册

Lakebase 数据库正在运行,但在 Unity 目录中注册之前,Databricks 平台的其余部分不可见。 注册后,可以从 Databricks SQL 查询 Lakebase 表,将操作数据与 Lakehouse 分析联接,并应用统一治理。

在目录资源管理器中,使用 Lakebase 自动缩放 作为类型创建一个新目录,指向项目的 production 分支和 databricks_postgres 数据库。

在 Unity 目录中注册 LKB 数据库

现在可以从 SQL 仓库查询:

SELECT * FROM lakebase_catalog.public.playing_with_lakebase;

了解详细信息: 在 Unity 目录中注册

步骤 5:在应用中为 Lakehouse 数据提供服务

同步表 将 Unity 目录中的分析数据引入 Lakebase 数据库,以便应用程序可以使用低延迟事务读取对其进行查询。 创建示例 Unity 目录表,然后将其同步到 Lakebase。

在 SQL 仓库或笔记本中,创建源表:

CREATE TABLE main.default.user_segments AS
SELECT * FROM VALUES
  (1001, 'premium', 2500.00, 'high'),
  (1002, 'standard', 450.00, 'medium'),
  (1003, 'premium', 3200.00, 'high'),
  (1004, 'basic', 120.00, 'low')
AS segments(user_id, tier, lifetime_value, engagement);

现在,将此表同步到 Lakebase。 在目录资源管理器中,使用user_segments快照模式创建同步表,以项目databricks_postgres的数据库为目标。 快照模式复制一次数据。 对于连续更新,请使用“触发”或“连续”模式。

同步完成后,数据将作为default.user_segments_synced在 Lakebase 中可用。 在 Lakebase SQL 编辑器中查询它:

SELECT * FROM "default".user_segments_synced WHERE engagement = 'high';

注释

default 必须带引号,因为它是 PostgreSQL 保留关键字。 同步表架构继承 Unity 目录架构名称,因此,如果架构命名 default,则必须始终在查询中引用它。 其他标识符的引号是可选的。

在 Lakebase SQL 编辑器中查询同步的用户段

您的 Lakehouse 数据分析现已准备好从事务型数据库中提供服务。

了解详细信息: 同步表 | 同步模式 | 数据类型映射

后续步骤