你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn。
适用于:
Azure Data Factory
Azure Synapse Analytics
提示
Microsoft Fabric 中的 Data Factory 是下一代 Azure Data Factory,具有更加简化的架构、内置人工智能和新功能。 如果不熟悉数据集成,请从Fabric数据工厂开始。 现有 ADF 工作负载可以升级到 Fabric,以跨数据科学、实时分析和报告访问新功能。
在本教程中,你将使用Azure Data Factory用户界面(UI)创建数据工厂。 此数据工厂中的管道使用
注意
如果不熟悉数据工厂,请参阅 Azure Data Factory 简介。
在本教程中,将执行以下步骤:
- 创建数据工厂。
- 创建包含复制活动的管道。
先决条件
- Azure 订阅。 如果没有 Azure 订阅,请在开始前创建一个免费 Azure 帐户。
- Azure存储帐户。 你可以将 Blob 存储用作源数据存储。 如果没有存储帐户,请参阅 创建Azure存储帐户,了解创建存储帐户的步骤。 确保存储帐户仅允许来自选定的网络的访问。
- Azure SQL Database。 你将数据库用作汇聚数据存储。 如果没有Azure SQL数据库,请参阅 创建 SQL 数据库获取创建步骤。 确保 SQL 数据库帐户仅允许来自选定的网络的访问。
创建 Blob 和 SQL 表
现在,请执行以下步骤来准备本教程所需的 blob 存储和 SQL 数据库。
创建源 blob
打开记事本。 复制以下文本并将其在磁盘上另存为 emp.txt 文件:
FirstName,LastName John,Doe Jane,Doe在 blob 存储中创建名为 adftutorial 的容器。 在该容器中创建名为 input 的文件夹。 然后,将 emp.txt 文件上传到 input 文件夹。 使用 Azure 门户或工具(如 Azure Storage Explorer)执行这些任务。
创建接收器 SQL 表
使用以下 SQL 脚本在 SQL 数据库中创建 dbo.emp 表:
CREATE TABLE dbo.emp
(
ID int IDENTITY(1,1) NOT NULL,
FirstName varchar(50),
LastName varchar(50)
)
GO
CREATE CLUSTERED INDEX IX_emp_ID ON dbo.emp (ID);
创建数据工厂
在此步骤中,请先创建数据工厂,然后启动数据工厂 UI,在该数据工厂中创建一个管道。
打开Microsoft Edge或 Google Chrome。 目前,只有Microsoft Edge和 Google Chrome Web 浏览器支持数据工厂 UI。
在左侧菜单中,选择“创建资源”“Analytics”>“数据工厂”。
在“新建数据工厂”页的“名称”下输入 ADFTutorialDataFactory 。
Azure数据工厂的名称必须全球唯一。 如果收到有关名称值的错误消息,请为数据工厂输入其他名称(例如 yournameADFTutorialDataFactory)。 有关数据工厂项目的命名规则,请参阅数据工厂命名规则。
选择要在其中创建数据工厂的 Azure 订阅。
对于“资源组”,请执行以下步骤之一:
- 选择“使用现有资源组”,并从下拉列表选择现有的资源组。
- 选择“新建”,并输入资源组的名称。
若要了解资源组,请参阅 使用资源组来管理Azure资源。
在“版本”下选择“V2”。
在“位置”下选择数据工厂所在的位置。 下拉列表中仅显示支持的位置。 数据工厂使用的数据存储(例如,Azure Storage和 SQL 数据库)和计算(例如,Azure HDInsight)可以位于其他区域。
选择“创建” 。
创建完成后,通知中心内会显示通知。 选择 转到资源 以进入 数据工厂 页面。
在“打开 Azure 数据工厂工作室”磁贴上选择“打开”,在单独的选项卡中启动数据工厂 UI。
在数据工厂托管Virtual Network中创建Azure集成运行时
在此步骤中,您将创建一个 Azure 集成运行时,并且启用数据工厂托管的虚拟网络。
在数据工厂门户中,转到 Manage 并选择 New创建新的Azure集成运行时。
在“集成运行时安装”页上,根据所需的功能选择要创建的集成运行时。 在本教程中,选择Azure、自承载然后单击Continue。
选择 Azure,然后单击 Continue创建Azure集成运行时。
在“虚拟网络配置(预览)”下,选择“启用” 。
选择“创建” 。
创建管道
本步骤在数据工厂中创建包含复制活动的管道。 复制活动将数据从 Blob 存储复制到 SQL 数据库。 在快速入门教程中,已通过以下步骤创建一个管道:
- 创建链接服务。
- 创建输入和输出数据集。
- 创建管道。
在本教程中,你将从创建管道开始。 然后在配置管道时根据需要创建链接服务和数据集。
在主页上,选择编排。
在管道的属性窗格中,输入“CopyPipeline”作为管道名称。
在活动工具箱中,展开移动和转换类别,然后将复制数据活动从工具箱拖动到管道设计器图面。 输入“CopyFromBlobToSql”作为名称。
配置源
提示
本教程使用“帐户密钥”作为源数据存储的身份验证类型。 如果需要,还可以选择其他受支持的身份验证方法,例如 SAS URI、服务主体和托管标识 。 有关详细信息,请参阅 使用 Azure Data Factory 复制和转换 Azure Blob 存储中的数据的相应部分。
若要安全地存储数据存储的机密,我们还建议使用Azure Key Vault。 有关详细信息和插图,请参阅 在 Azure Key Vault 中存储凭据。
创建源数据集和链接服务
转到“源”选项卡。选择“+ 新建”创建源数据集。
在“新建数据集对话框中,选择Azure Blob Storage,然后选择Continue。 源数据位于 Blob 存储中,因此为源数据集选择 Azure Blob Storage。
在“选择格式”对话框中选择数据的格式类型,然后选择“继续” 。
在“设置属性”对话框中,输入“SourceBlobDataset”作为“名称” 。 选中“第一行作为标题”复选框。 在“链接服务”文本框下,选择“+ 新建”。
在
“新建链接服务” 对话框中, 输入 AzureStorageLinkedService 作为Name ,然后从Storage 帐户名称 列表中选择存储帐户。请确保启用“交互式创作”。 启用可能需要大约 1 分钟的时间。
选择“测试连接”。 当存储帐户仅允许从“选定的网络”访问,并要求数据工厂为其创建专用终结点(使用该终结点之前需要获得批准)时,测试连接应会失败。 在错误消息中,应会看到一个用于创建专用终结点的链接,可以通过该链接创建托管的专用终结点。 一种替代方法是直接转到“管理”选项卡,按照下一节中的说明创建托管专用终结点。
注意
“管理”选项卡可能并非适用于所有数据工厂实例。 如果看不到该选项卡,可以通过选择“作者”“连接”“专用终结点”来访问专用终结点。>>
让对话框保持打开状态,然后转到存储帐户。
按照此部分中的说明批准专用链接。
返回对话框。 再次选择“测试连接”,然后选择“创建”以部署链接服务 。
创建链接服务后,将返回到“设置属性”页。 在“文件路径”旁边,选择“浏览”。
转到 adftutorial/input 文件夹,选择 emp.txt 文件,然后选择“确定” 。
选择“确定”。 将自动转到 pipeline 页面。 在“源”选项卡中,确认已选择“SourceBlobDataset”。 若要预览此页上的数据,请选择“预览数据”。
创建托管专用终结点
如果在测试连接时未选择超链接,请按照路径操作。 现在,需要创建一个托管的专用终结点,并将该终结点连接到你创建的链接服务。
转到“管理”选项卡。
注意
“管理”选项卡可能并非适用于所有数据工厂实例。 如果看不到该选项卡,可以通过选择“作者”“连接”“专用终结点”来访问专用终结点。>>
转到“托管专用终结点”部分。
在“托管专用终结点”下选择+ 新建。
从列表中选择 Azure Blob Storage 磁贴,然后选择 Continue。
输入创建的存储帐户的名称。
选择“创建” 。
几秒钟后,应会显示创建的专用链接需要审批。
选择创建的专用终结点。 可以看到一个超链接,该超链接将引导你在存储帐户级别批准专用终结点。
在存储帐户中批准专用链接
在存储帐户中,转到“设置”部分下的“专用终结点连接” 。
选中创建的专用终结点复选框,并选择“批准”。
添加描述,然后选择“是”。
返回到数据工厂中“管理”选项卡的“托管专用终结点”部分。
大约一两分钟后,Data Factory UI 中将显示专用终结点的批准状态。
配置汇聚器
提示
本教程使用“SQL 身份验证”作为接收器数据存储的身份验证类型。 如果需要,还可以选择其他受支持的身份验证方法,例如服务主体和托管标识 。 有关详细信息,请参阅 使用 Azure Data Factory 在 Azure SQL Database 中复制和转换数据 的相应部分。
若要安全地存储数据存储的机密,我们还建议使用Azure Key Vault。 有关详细信息和插图,请参阅 在 Azure Key Vault 中存储凭据。
创建汇聚数据集和链接的服务
请转到“汇聚”选项卡,并选择“+ 新建”以创建一个汇聚数据集。
在“新建数据集”对话框中,在搜索框中输入“SQL”,以筛选连接器 。 选择 Azure SQL Database,然后选择 Continue。 在本教程中,请将数据复制到 SQL 数据库。
在“设置属性”对话框中,输入“OutputSqlDataset”作为“名称” 。 从“链接服务”下拉列表中,选择“+ 新建” 。 数据集必须与链接服务相关联。 链接服务包含数据工厂在运行时用于连接到 SQL 数据库的连接字符串。 数据集指定可将数据复制到其中的容器、文件夹和文件(可选)。
在“新链接服务(Azure SQL Database)对话框中,执行以下步骤:
- 在“名称”下输入 AzureSqlDatabaseLinkedService。
- 在 Server 名称下,选择SQL Server实例。
- 请确保启用“交互式创作”。
- 在“数据库名称”下选择自己的 SQL 数据库。
- 在“用户名”下输入用户的名称。
- 在“密码”下输入用户的密码。
- 选择“测试连接”。 连接应会失败,因为 SQL Server 仅允许从“选定的网络”访问,并要求数据工厂为其创建私有终结点,而在使用该终结点之前需要获得批准。 在错误消息中,应会看到一个用于创建专用终结点的链接,可以通过该链接创建托管的专用终结点。 一种替代方法是直接转到“管理”选项卡,按照下一节中的说明创建托管专用终结点。
- 让对话框保持打开状态,然后转到选定的 SQL Server。
- 按照此部分中的说明批准专用链接。
- 返回对话框。 再次选择“测试连接”,然后选择“创建”以部署链接服务 。
将自动转到“设置属性”对话框。 在“表”中选择“[dbo].[emp]”。 然后选择“确定”。
转到“管道”选项卡,然后在“接收器数据集”中,确认已选中“OutputSqlDataset”。
可以选择按照复制活动中的架构映射中所述将源架构映射到对应的目标架构。
创建托管专用终结点
如果在测试连接时未选择超链接,请按照路径操作。 现在,需要创建一个托管的专用终结点,并将该终结点连接到你创建的链接服务。
转到“管理”选项卡。
转到“托管专用终结点”部分。
在“托管专用终结点”下选择+ 新建。
从列表中选择 Azure SQL Database 磁贴,然后选择 Continue。
输入所选的 SQL Server 的名称。
选择“创建” 。
几秒钟后,应会显示创建的专用链接需要审批。
选择创建的专用终结点。 可以看到一个超链接,该超链接将引导你在 SQL Server 级别批准专用终结点。
在 SQL Server 中批准专用链接
- 在 SQL Server 中,转到“设置”部分下的“专用终结点连接” 。
- 选中创建的专用终结点复选框,并选择“批准”。
- 添加描述,然后选择“是”。
- 返回到数据工厂中“管理”选项卡的“托管专用终结点”部分。
- 需要一到两分钟的时间才能显示针对专用终结点的批准。
调试和发布管道
在将项目(链接服务、数据集和管道)发布到数据工厂或你自己的Azure Repos Git 存储库之前,可以调试管道。
- 若要调试管道,请在工具栏上选择“调试”。 可以在窗口底部的“输出”选项卡中看到管道运行的状态。
- 在管道可以成功运行后,在顶部工具栏中选择“全部发布”。 此操作将所创建的实体(数据集和管道)发布到数据工厂。
- 等待“已成功发布”消息出现。 若要查看通知消息,请选择右上角的“显示通知”(铃铛按钮)。
总结
此示例中的管道通过使用数据工厂托管的虚拟网络中的专用终结点,将数据从 Blob 存储复制到 SQL 数据库。 你已了解如何执行以下操作:
- 创建数据工厂。
- 创建包含复制活动的管道。