你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

使用 Azure Data Factory 或 Synapse Analytics 从 Web 表复制数据

适用于: Azure Data Factory Azure Synapse Analytics

提示

Microsoft Fabric 中的 Data Factory 是下一代 Azure Data Factory,具有更加简化的架构、内置人工智能和新功能。 如果不熟悉数据集成,请从Fabric数据工厂开始。 现有 ADF 工作负载可以升级到 Fabric,以跨数据科学、实时分析和报告访问新功能。

本文概述了如何使用 Azure Data Factory 或 Synapse Analytics 管道中的复制活动从 Web 表数据库复制数据。 它是在复制活动概述一文的基础上,该文章提供了复制活动的总体概述。

此 Web 表连接器、REST 连接器HTTP 连接器之间的区别如下:

  • Web 表连接器用于从 HTML 网页中提取表内容。
  • REST 连接器专门支持从 RESTful API 复制数据。
  • HTTP 连接器是通用的,可从任何 HTTP 终结点检索数据,以执行文件下载等操作。

支持的功能

此 Web 表连接器支持以下功能:

支持的功能 IR
复制操作 (source/-)
查找活动

(1) Azure集成运行时 (2) 自承载集成运行时

如需可以用作源/接收器的数据存储的列表,请参阅支持的数据存储表。

具体而言,此 Web 表连接器支持从 HTML 页提取表内容

先决条件

若要使用此 Web 表连接器,需要设置自承载的集成运行时。 有关详细信息,请参阅自承载 Integration Runtime 一文。

入门

若要使用管道执行复制活动,可以使用以下工具或 SDK 之一:

使用 UI 创建到 Web 表的链接服务

使用以下步骤在 Azure 门户 UI 中创建指向 Web 表的链接服务。

  1. 浏览到Azure Data Factory或 Synapse 工作区中的“管理”选项卡并选择“链接服务”,然后单击“新建”:

  2. 搜索“Web”并选择 Web 表连接器。

    选择 Web 表连接器。

  3. 配置服务详细信息、测试连接并创建新的链接服务。

    配置到 Web 表的链接服务。

连接器配置详细信息

对于特定于 Web 表连接器的数据工厂实体,以下部分提供有关用于定义这些实体的属性的详细信息。

连接的服务属性

Web 表链接服务支持以下属性:

属性 描述 必填
类型 type 属性必须设置为:Web
url 网页来源的 URL
认证类型 允许的值为:Anonymous
connectVia 用于连接到数据存储的 Integration Runtime。 如先决条件中所述,需要自承载 Integration Runtime。

示例:

{
    "name": "WebLinkedService",
    "properties": {
        "type": "Web",
        "typeProperties": {
            "url" : "https://en.wikipedia.org/wiki/",
            "authenticationType": "Anonymous"
        },
        "connectVia": {
            "referenceName": "<name of Integration Runtime>",
            "type": "IntegrationRuntimeReference"
        }
    }
}

数据集属性

有关可用于定义数据集的各部分和属性的完整列表,请参阅数据集一文。 本部分提供 Web 表数据集支持的属性列表。

要从 Web 表复制数据,请将数据集的 type 属性设置为“WebTable” 。 支持以下属性:

属性 描述 必填
类型 数据集的 type 属性必须设置为:WebTable
路径 包含表的资源的相对 URL。 否。 未指定路径时,仅使用链接服务定义中指定的 URL。
索引 资源中表的索引。 请参阅获取 HTML 页中表的索引,了解获取 HTML 页中表的索引的步骤。

示例:

{
    "name": "WebTableInput",
    "properties": {
        "type": "WebTable",
        "typeProperties": {
            "index": 1,
            "path": "AFI's_100_Years...100_Movies"
        },
        "schema": [],
        "linkedServiceName": {
            "referenceName": "<Web linked service name>",
            "type": "LinkedServiceReference"
        }
    }
}

复制活动属性

有关可用于定义活动的各部分和属性的完整列表,请参阅管道一文。 本部分提供 Web 表源支持的属性列表。

网页表格作为数据源

要从 Web 表复制数据,请将复制活动中的源类型设置为“WebSource” ,不支持任何其他属性。

示例:

"activities":[
    {
        "name": "CopyFromWebTable",
        "type": "Copy",
        "inputs": [
            {
                "referenceName": "<Web table input dataset name>",
                "type": "DatasetReference"
            }
        ],
        "outputs": [
            {
                "referenceName": "<output dataset name>",
                "type": "DatasetReference"
            }
        ],
        "typeProperties": {
            "source": {
                "type": "WebSource"
            },
            "sink": {
                "type": "<sink type>"
            }
        }
    }
]

获取 HTML 页中表的索引

若要获取需要在 dataset 属性中配置的表的索引,可以使用Excel 2016作为工具,如下所示:

  1. 启动 Excel 2016 并切换到 Data 选项卡。

  2. 单击工具栏中的“新建查询”,指向“从其他来源”,然后单击“从网页”。

    Power Query menu

  3. 在“从 Web”对话框中,输入要在链接服务 JSON 中使用的 URL(例如:)以及要为数据集指定的路径(例如:AFI%27s_100_Years...100_Movies),并单击“确定”。

    “从 Web”对话框

    此示例中使用的 URL: https://en.wikipedia.org/wiki/AFI%27s_100_Years...100_Movies

  4. 如果出现“访问 Web 内容” 对话框,请选择正确的 URL身份验证,并单击“连接” 。

    “访问 Web 内容”对话框

  5. 单击树视图中的“表” 项,查看表中的内容,并单击底部的“编辑” 按钮。

    “导航器”对话框

  6. Query Editor窗口中,单击工具栏上的Advanced Editor按钮。

    Advanced Editor 按钮

  7. 在“Advanced Editor”对话框中,“源”旁边的数字是索引。

    高级编辑器 - 索引

如果使用 Excel 2013,请参阅 连接到网页 文章以了解详细信息。 如果使用 Microsoft Power BI 桌面版,则步骤类似。

查找活动属性

若要了解有关属性的详细信息,请查看 Lookup 活动

有关复制活动支持作为源和接收器的数据存储的列表,请参阅支持的数据存储