通过


你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

Azure 流分析资源模型

Azure 流分析是一种完全托管的平台即服务(PaaS),用于流处理。 本文通过引入流分析群集、作业和作业组件的概念来介绍流分析的资源模型。

流分析作业

流分析作业是流分析中的基本单元,可用于定义和运行流处理逻辑。 作业由 3 个主要组件组成:

  • 输入
  • 输出
  • 查询

输入

作业可以有一个或多个输入,以便从中连续读取数据。 这些流式处理输入数据源可以是 Azure 事件中心、Azure IoT 中心或 Azure 存储。 流分析还支持读取静态或缓慢变化的输入数据(称为引用数据),这通常用于扩充流数据。 将这些输入添加到你的作业中是一种无需编写代码的操作。

输出

作业可以有一个或多个输出,以便连续将数据写入其中。 流分析支持 12 个不同的输出接收器,包括 Azure SQL 数据库、Azure Data Lake Storage、Azure Cosmos DB、Power BI 等。 将这些输出添加到任务中也是无需编码操作。

查询

可以通过在作业中编写 SQL 查询来实现流处理逻辑。 丰富的 SQL 语言支持使你能够处理分析复杂的 JSON、筛选值、计算聚合、执行联接等方案,以及更高级的用例,例如地理空间分析和异常情况检测。 还可以使用 JavaScript 用户定义的函数(UDF)和用户定义的聚合(UDA)扩展此 SQL 语言。 流分析还允许你通过作业设置中的简单配置轻松调整延迟和无序事件。 还可以选择根据输入事件到达输入源的时间或事件在事件源生成的时间来执行查询。

运行作业

通过配置输入、输出和查询来创建作业后,可以通过指定流处理单元数来启动作业。 作业启动后,它将进入 “正在运行 ”状态,并会一直处于该状态,直到显式停止或它遇到无法恢复的失败。 当作业处于运行状态时,它会持续从输入源拉取数据,执行查询逻辑,该逻辑会生成以毫秒的端到端延迟写入输出接收器的结果。

启动作业时,流分析服务负责编译查询,并根据作业中配置的流单元数分配特定数量的计算和内存。 无需担心任何底层基础设施,如群集维护和安全补丁,因为平台会自动处理这些问题。 按标准 SKU 中运行作业时,仅当作业运行时,才会对流单元收费。

流分析群集

默认情况下,流分析作业在构成标准 SKU 的标准多租户环境中运行。 流分析还提供专用 SKU,可在其中预配属于你的整个流分析群集。 这样做能让您完全控制群集上运行的任务。 流分析群集的最小大小为 12 个流式处理单元,在预配整个群集容量时会向你收费。 可以详细了解 流分析群集的优点以及何时使用它

展示流分析中标准多租户环境的示意图。

显示流分析中专用部署环境的示意图。

后续步骤

了解如何管理 Azure 流分析和其他概念: