你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn。
适用于:
Azure Data Factory
Azure Synapse Analytics
提示
Microsoft Fabric 中的 Data Factory 是下一代 Azure Data Factory,具有更加简化的架构、内置人工智能和新功能。 如果不熟悉数据集成,请从Fabric数据工厂开始。 现有 ADF 工作负载可以升级到 Fabric,以跨数据科学、实时分析和报告访问新功能。
本文概述了如何使用 Azure Data Factory 或 Synapse Analytics 管道中的复制活动从 Web 表数据库复制数据。 它是在复制活动概述一文的基础上,该文章提供了复制活动的总体概述。
此 Web 表连接器、REST 连接器和 HTTP 连接器之间的区别如下:
- Web 表连接器用于从 HTML 网页中提取表内容。
- REST 连接器专门支持从 RESTful API 复制数据。
- HTTP 连接器是通用的,可从任何 HTTP 终结点检索数据,以执行文件下载等操作。
支持的功能
此 Web 表连接器支持以下功能:
| 支持的功能 | IR |
|---|---|
| 复制操作 (source/-) | ② |
| 查找活动 | ② |
(1) Azure集成运行时 (2) 自承载集成运行时
如需可以用作源/接收器的数据存储的列表,请参阅支持的数据存储表。
具体而言,此 Web 表连接器支持从 HTML 页提取表内容。
先决条件
若要使用此 Web 表连接器,需要设置自承载的集成运行时。 有关详细信息,请参阅自承载 Integration Runtime 一文。
入门
若要使用管道执行复制活动,可以使用以下工具或 SDK 之一:
使用 UI 创建到 Web 表的链接服务
使用以下步骤在 Azure 门户 UI 中创建指向 Web 表的链接服务。
浏览到Azure Data Factory或 Synapse 工作区中的“管理”选项卡并选择“链接服务”,然后单击“新建”:
搜索“Web”并选择 Web 表连接器。
配置服务详细信息、测试连接并创建新的链接服务。
连接器配置详细信息
对于特定于 Web 表连接器的数据工厂实体,以下部分提供有关用于定义这些实体的属性的详细信息。
连接的服务属性
Web 表链接服务支持以下属性:
| 属性 | 描述 | 必填 |
|---|---|---|
| 类型 | type 属性必须设置为:Web | 是 |
| url | 网页来源的 URL | 是 |
| 认证类型 | 允许的值为:Anonymous。 | 是 |
| connectVia | 用于连接到数据存储的 Integration Runtime。 如先决条件中所述,需要自承载 Integration Runtime。 | 是 |
示例:
{
"name": "WebLinkedService",
"properties": {
"type": "Web",
"typeProperties": {
"url" : "https://en.wikipedia.org/wiki/",
"authenticationType": "Anonymous"
},
"connectVia": {
"referenceName": "<name of Integration Runtime>",
"type": "IntegrationRuntimeReference"
}
}
}
数据集属性
有关可用于定义数据集的各部分和属性的完整列表,请参阅数据集一文。 本部分提供 Web 表数据集支持的属性列表。
要从 Web 表复制数据,请将数据集的 type 属性设置为“WebTable” 。 支持以下属性:
| 属性 | 描述 | 必填 |
|---|---|---|
| 类型 | 数据集的 type 属性必须设置为:WebTable | 是 |
| 路径 | 包含表的资源的相对 URL。 | 否。 未指定路径时,仅使用链接服务定义中指定的 URL。 |
| 索引 | 资源中表的索引。 请参阅获取 HTML 页中表的索引,了解获取 HTML 页中表的索引的步骤。 | 是 |
示例:
{
"name": "WebTableInput",
"properties": {
"type": "WebTable",
"typeProperties": {
"index": 1,
"path": "AFI's_100_Years...100_Movies"
},
"schema": [],
"linkedServiceName": {
"referenceName": "<Web linked service name>",
"type": "LinkedServiceReference"
}
}
}
复制活动属性
有关可用于定义活动的各部分和属性的完整列表,请参阅管道一文。 本部分提供 Web 表源支持的属性列表。
网页表格作为数据源
要从 Web 表复制数据,请将复制活动中的源类型设置为“WebSource” ,不支持任何其他属性。
示例:
"activities":[
{
"name": "CopyFromWebTable",
"type": "Copy",
"inputs": [
{
"referenceName": "<Web table input dataset name>",
"type": "DatasetReference"
}
],
"outputs": [
{
"referenceName": "<output dataset name>",
"type": "DatasetReference"
}
],
"typeProperties": {
"source": {
"type": "WebSource"
},
"sink": {
"type": "<sink type>"
}
}
}
]
获取 HTML 页中表的索引
若要获取需要在 dataset 属性中配置的表的索引,可以使用Excel 2016作为工具,如下所示:
启动 Excel 2016 并切换到 Data 选项卡。
单击工具栏中的“新建查询”,指向“从其他来源”,然后单击“从网页”。
在“从 Web”对话框中,输入要在链接服务 JSON 中使用的 URL(例如:)以及要为数据集指定的路径(例如:AFI%27s_100_Years...100_Movies),并单击“确定”。
此示例中使用的 URL: https://en.wikipedia.org/wiki/AFI%27s_100_Years...100_Movies
如果出现“访问 Web 内容” 对话框,请选择正确的 URL 和身份验证,并单击“连接” 。
单击树视图中的“表” 项,查看表中的内容,并单击底部的“编辑” 按钮。
在Query Editor窗口中,单击工具栏上的Advanced Editor按钮。
在“Advanced Editor”对话框中,“源”旁边的数字是索引。
如果使用 Excel 2013,请参阅 连接到网页 文章以了解详细信息。 如果使用 Microsoft Power BI 桌面版,则步骤类似。
查找活动属性
若要了解有关属性的详细信息,请查看 Lookup 活动。
相关内容
有关复制活动支持作为源和接收器的数据存储的列表,请参阅支持的数据存储。