你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn。
适用于:
Azure 数据工厂
Azure Synapse Analytics
提示
Microsoft Fabric 中的 Data Factory 是下一代 Azure 数据工厂,具有更加简化的架构、内置人工智能和新功能。 如果不熟悉数据集成,请从Fabric数据工厂开始。 现有 ADF 工作负载可以升级到 Fabric,以跨数据科学、实时分析和报告访问新功能。
Azure 数据工厂或 Synapse Analytics 管道中的 HDInsight Streaming 活动会在自己的或按需 HDInsight 群集上执行 Hadoop Streaming 程序。 本文基于数据转换活动一文,它概述了数据转换和受支持的转换活动。
若要了解详细信息,请在阅读本文之前阅读有关
使用 UI 将 HDInsight 流式传输活动添加到管道
要将 HDInsight 流式处理活动用于管道,请完成以下步骤:
在管道“活动”窗格中搜索Streaming,然后将 Streaming 活动拖到管道画布上。
在画布上选择新的流式传输活动(如果尚未选择)。
选择“HDI 群集”选项卡以选择或创建新的链接到 HDInsight 群集的服务,该群集将用于执行流式传输活动。
选择“文件”选项卡以指定流式处理作业的映射器和减速器名称,然后选择或创建到 Azure 存储帐户的新链接服务,该帐户将为作业提供映射器、减速器、输入和输出文件。 还可以配置高级详细信息,包括调试配置以及要传递给作业的实参和形参。
显示用于流媒体活动的“文件”选项卡的 UI。
JSON 示例
{
"name": "Streaming Activity",
"description": "Description",
"type": "HDInsightStreaming",
"linkedServiceName": {
"referenceName": "MyHDInsightLinkedService",
"type": "LinkedServiceReference"
},
"typeProperties": {
"mapper": "MyMapper.exe",
"reducer": "MyReducer.exe",
"combiner": "MyCombiner.exe",
"fileLinkedService": {
"referenceName": "MyAzureStorageLinkedService",
"type": "LinkedServiceReference"
},
"filePaths": [
"<containername>/example/apps/MyMapper.exe",
"<containername>/example/apps/MyReducer.exe",
"<containername>/example/apps/MyCombiner.exe"
],
"input": "wasb://<containername>@<accountname>.blob.core.windows.net/example/input/MapperInput.txt",
"output": "wasb://<containername>@<accountname>.blob.core.windows.net/example/output/ReducerOutput.txt",
"commandEnvironment": [
"CmdEnvVarName=CmdEnvVarValue"
],
"getDebugInfo": "Failure",
"arguments": [
"SampleHadoopJobArgument1"
],
"defines": {
"param1": "param1Value"
}
}
}
语法详细信息
| 属性 | 描述 | 必需 |
|---|---|---|
| 名称 | 活动名称 | 是 |
| 描述 | 描述活动用途的文本 | 否 |
| 类型 | 对于 Hadoop 流处理活动,活动类型是 HDInsightStreaming | 是 |
| linkedServiceName | 引用作为连接服务注册的 HDInsight 群集。 若要了解此链接服务,请参阅计算链接服务一文。 | 是 |
| 映射器 | 指定映射器可执行文件的名称 | 是 |
| 减速器 | 指定化简器可执行文件的名称 | 是 |
| 合路器 | 指定合并器可执行文件的名称 | 否 |
| fileLinkedService | 对 Azure 存储链接服务的引用,该服务用于存储要执行的映射器、合并器和化简器程序。 此处仅支持 Azure Blob 存储 和 ADLS Gen2 链接服务。 如果未指定此链接服务,将使用 HDInsight 链接服务中定义的Azure 存储链接服务。 | 否 |
| 文件路径 | 提供一个路径数组,指向 fileLinkedService 引用的 Azure 存储 中存储的 Mapper、Combiner 和 Reducer 程序。 此路径区分大小写。 | 是 |
| 输入 | 指定映射器输入文件的 WASB 路径。 | 是 |
| 输出 | 指定化简器输出文件的 WASB 路径。 | 是 |
| getDebugInfo | 指定何时将日志文件复制到由 scriptLinkedService 指定的 HDInsight 群集(或)使用的Azure 存储。 允许的值:“无”、“始终”或“失败”。 默认值:无。 | 否 |
| 参数 | 指定 Hadoop 作业的参数数组。 参数以命令行参数的形式传递到每个任务。 | 否 |
| 定义 | 在 Hive 脚本中指定参数作为键/值对,以供引用。 | 否 |
相关内容
参阅以下文章了解如何以其他方式转换数据: