通过


快速入门:创建第一个用于获取和转换数据的数据流

数据流是基于云的自助式数据准备技术。 在本文中,你创建你的第一个数据流,获取数据流的数据,然后转换数据并发布数据流。

先决条件

在开始之前,需要满足以下先决条件:

创建数据流

在本部分,你创建你的第一个数据流。

注释

从 2026 年 4 月起,所有新的数据流 Gen2 项默认都使用 CI/CD 和 Git 集成支持创建。 不再提供没有 CI/CD 支持的情况下创建数据流 Gen2 项的选项。 现有的非 CI/CD 数据流将继续工作。

  1. 导航到 Microsoft Fabric 门户,从左侧侧边栏中选择 Workspaces,然后在列表中选择您的工作区。

  2. 选择 “+新建项”,然后选择 “数据流 Gen2”。

    突出 Dataflow Gen2 选项的屏幕截图。

获取数据

让我们来获取一些数据吧! 在此示例中,你是从 OData 服务获取数据。 使用以下步骤获取数据流中的数据。

  1. 在数据流编辑器中,选择“获取数据”,然后选择“更多”。

    选择“获取数据”选项并在下拉框中突出“更多”的屏幕截图。

  2. 选择数据源中,选择查看更多

    “获取数据源”的屏幕截图,其中“查看更多”被突出显示。

  3. 新建源中,选择“其他>OData”作为数据源。

    “获取数据源”屏幕截图中,“其他”类别和 OData 连接器均被突出显示。

  4. 输入 URL https://services.odata.org/v4/northwind/northwind.svc/,然后选择“下一步”。

    输入数据 URL 的 OData 数据源的屏幕截图。

  5. 选择 OrdersCustomers 表,然后选择“创建”。

    Power Query导航器的截图,强调了客户和订单表格

可以在 获取数据概述中了解有关获取数据体验和功能的详细信息。

应用转换和发布

您已将数据加载到您的第一个数据流中。 祝贺你! 现在,是时候应用几个转换来将此数据引入我们需要的形状。

在Power Query编辑器中转换数据。 您可以在 Power Query 用户界面 中找到 Power Query 编辑器的详细概述,但本部分将指导你完成基本步骤:

  1. 确保启用 数据分析工具 。 转到 Home>选项>全局选项,然后选择 列配置文件下的所有选项。

    全局选项的屏幕截图,突出了列简介的选择。

    此外,请确保通过在 Power Query 编辑器功能区中的 "视图" 选项卡下使用布局配置启用 关系图视图,或者通过选择 Power Query 窗口右下角的关系图视图图标来进行启用。

    Power Query 界面图示图表视图的整体外观截图

  2. 在“订单”表中,计算每个客户的订单总数:在数据预览中选择 CustomerID 列,然后在功能区中的 转换 选项卡下选择 分组依据

    订单表被选中的屏幕截图,在“转换”选项卡中,“分组依据”被强调显示。

  3. Group By中,你将行计数作为聚合进行。 可以在分组或汇总行中了解有关 Group By 功能的详细信息。

    “分组依据”的屏幕截图,选中了“计数行”操作。

  4. 在 Orders 表中对数据进行分组后,我们将获得一个由 CustomerIDCount 作为列的双列表。

    两列表格的屏幕截图。

  5. 接下来,您需要将“客户”表中的数据与每个客户的订单数量合并:在关系图视图中选择“客户”查询,使用“⋮”菜单访问合并查询为新查询转换功能。

    数据流编辑器的屏幕截图,重点强调了 Customers 表的垂直省略号和“合并为新查询”的功能。

  6. 通过在两个表中选择 CustomerID 作为匹配列来配置合并操作。 然后选择“确定”。

    合并窗口的屏幕截图。

    “合并”窗口的屏幕截图,其中要合并的左侧表设置为“Customers”表,要合并的右侧表设置为“Orders”表。 “Customers”和“Orders”表都选择了“CustomerID”列。 此外,联接类型被设定为“左外联接”。 所有其他选项都设置为默认值。

  7. 现在有一个新查询,其中包含“客户”表中的所有列,还有一列包含“订单”表中的嵌套数据。

    数据流编辑器的屏幕截图,其中新增了“客户”和“订单”表右侧的合并查询。

  8. 让我们只关注“客户”表中的几列。 为此,请通过在数据流编辑器右下角选择架构视图按钮来打开架构视图。

    数据流编辑器的屏幕截图,其中右下角强调架构视图按钮。

  9. 在架构视图中,你将看到表中的所有列。 选择 CustomerIDCompanyNameOrders (2)。 然后,转到 “架构工具 ”选项卡,选择“ 删除列”,然后选择“ 删除其他列”。 这只保留您想要的列。

    显示所有可用列名的架构视图的屏幕截图,其中突出了 CustomerID、CompanyName 和 Orders (2) 列。

    架构工具菜单的屏幕截图,突出了“删除其他列”。

  10. 订单”(2) 列包含合并步骤的额外详细信息。 若要查看和使用此数据,请选择“显示架构视图”旁边的右下角的“显示数据视图”按钮。 然后,在 “订单”(2) 列标题中,选择 “展开列” 图标,然后选择 “计数 ”列。 这会将每个客户的订单计数添加到你的表中。

    使用数据视图的屏幕截图。

  11. 现在,让我们根据客户的订单数量对客户进行排名。 选择 “计数 ”列,然后转到“ 添加列 ”选项卡,然后选择“ 排名”列。 这会添加一个新列,其中根据客户的订单计数显示每个客户的排名。

    数据流编辑器的屏幕截图,其中选择了“计数”列。

  12. 保留“排名列”中的默认设置。 然后选择“确定”以应用此转换。

    显示所有默认设置的排名窗口的屏幕截图。

  13. 现在,使用屏幕右侧的“查询设置”窗格将生成的查询重命名为“排名后的客户”。

    数据流编辑器的屏幕截图,其中“排名客户”名称在查询设置属性下强调。

  14. 你已准备好选择数据流向的位置。 在 “查询设置 ”窗格中,滚动到底部,然后选择“ 选择数据目标”。

    数据流编辑器的屏幕截图,其中突出显示了数据目标选择的位置。

  15. 如果有,则可以将结果发送到 lakehouse;如果没有,可以跳过此步骤。 在这里,您可以选择用于数据的 Lakehouse 和表,并选择是添加新数据(追加)还是替换已有数据(替换)。

    “连接到数据目标”窗口的屏幕截图,其中选择了 Lakehouse。

    选择目标设置窗口的屏幕截图。

  16. 现在可以发布你的数据流了。 查看关系图视图中的查询,然后选择“发布”。

    数据流编辑器的屏幕截图,右下侧突出显示了“发布”按钮。

    选择右下角的 “发布 ”以保存数据流。 你将返回工作区,数据流名称旁边的旋转图标显示它正在发布中。 旋转器消失时,数据流已准备好刷新!

    重要

    首次在工作区中创建 Dataflow Gen2 时,Fabric 会设置一些后台组件(如 Lakehouse 和 Warehouse),以支持数据流的运行。 这些项由工作区中的所有数据流共享,不应将其删除。 它们不打算直接使用,通常在你的工作区中不可见,但你可能会在笔记本或 SQL 分析等其他地方看到它们。 寻找以DataflowStaging开头的名称来识别它们。

  17. 在工作区中,选择“计划刷新”图标。

    工作区的屏幕截图,突出了计划刷新图标。

  18. 打开计划刷新,选择“添加其他时间”,然后配置刷新,如以下屏幕截图所示。

    显示如何选择其他时间的屏幕截图。

    计划刷新选项的屏幕截图,其中打开了计划刷新,刷新频率设置为“每日”,“时区”设置为“协调世界时”,“时间”设置为“凌晨 4:00”。 所有这些元素都被重点突出:“打开”按钮、“添加另一个时间选择”、数据流所有者和“应用”按钮。

清理资源

如果你不打算继续使用此数据流,可按以下步骤删除它:

  1. 导航到Microsoft Fabric工作区。

  2. 选择数据流名称旁边的垂直省略号,然后选择“删除”。

    突出了三个垂直点和下拉菜单中的删除选项的屏幕截图。

  3. 选择“删除”以确认删除数据流。

    删除数据流窗口的屏幕截图,突出了删除按钮。

此示例中的数据流演示如何在 Dataflow Gen2 中加载和转换数据。 你已了解如何执行以下操作:

  • 创建 Dataflow Gen2。
  • 转换数据。
  • 配置已转换的数据的目标设置。
  • 运行并调度你的流水线。

请继续学习下一篇文章,了解如何创建第一个管道。