Tutorial: Gravar em uma tabela Delta armazenada em Azure Data Lake Storage Gen2

Este tutorial mostra como criar um trabalho do Stream Analytics que grava em uma tabela Delta em Azure Data Lake Storage Gen2. Neste tutorial, você aprenderá como:

  • Implantar um gerador de eventos que envia dados de exemplo para o hub de eventos
  • Criar uma tarefa de Stream Analytics
  • Configurar Azure Data Lake Storage Gen2 com uma tabela Delta
  • Executar o trabalho do Stream Analytics

Pré-requisitos

Antes de começar, conclua as seguintes etapas:

Criar uma tarefa de Stream Analytics

  1. Entre no portal do Azure.

  2. Selecione Todos os serviços no menu à esquerda.

  3. Mova o mouse sobre os trabalhos do Stream Analytics na seção Análise e selecione + (mais).

    Captura de tela que mostra a seleção de trabalhos do Stream Analytics na página Todos os serviços.

  4. Selecione Criar um recurso no canto superior esquerdo do portal Azure.

  5. Selecione Analytics>Trabalho do Stream Analytics na lista de resultados.

  6. No novo trabalho do Stream Analytics, siga estas etapas:

    1. Para Assinatura, selecione sua assinatura do Azure.
    2. Para o grupo de recursos, selecione o mesmo recurso usado anteriormente na implantação do TollApp.
    3. Para Nome, insira um nome para o trabalho. O nome do trabalho do Stream Analytics pode conter apenas caracteres alfanuméricos, hifens e sublinhados. Deve ter entre 3 e 63 caracteres.
    4. Para o ambiente de hospedagem, confirme se a nuvem está selecionada.
    5. Para unidades do Stream, selecione 1. As unidades de streaming representam os recursos de computação necessários para executar um trabalho. Para saber mais sobre o dimensionamento de unidades de streaming, confira a compreensão e o ajuste das unidades de streaming.

    Captura de tela que mostra a página Criar trabalho do Stream Analytics.

  7. Selecione Revisar + criar na parte inferior da página.

  8. Em Examinar + criar, examine as configurações e selecione Criar para criar um trabalho do Stream Analytics.

  9. Na página de implantação, selecione Acessar recurso para ir para a página do job do Stream Analytics.

Configurar entrada de trabalho

A próxima etapa é definir uma fonte de entrada para o trabalho ler dados usando o hub de eventos criado na implantação do TollApp.

  1. Localize o trabalho do Stream Analytics criado na seção anterior.

  2. Na seção Topologia do Trabalho do trabalho do Stream Analytics, selecione Entradas.

  3. Selecione + Adicionar entrada e hub de eventos.

    Captura de tela que mostra a página de Entradas.

  4. Preencha o formulário de entrada com os seguintes valores criados por meio do Modelo do Azure do TollApp:

    1. Para alias de entrada, insira entrystream.

    2. Escolha Selecionar Hub de Eventos em suas assinaturas.

    3. Para Assinatura, selecione sua assinatura do Azure.

    4. Para o namespace do Hub de Eventos, selecione o namespace do hub de eventos que você criou na seção anterior.

    5. Use as opções padrão nas configurações restantes e selecione Salvar.

      Captura de tela que mostra a seleção do hub de eventos de entrada.

Configurar saída de trabalho

A próxima etapa é definir um coletor de saída em que o trabalho possa gravar dados. Neste tutorial, você gravará a saída em uma tabela Delta no Azure Data Lake Storage Gen2.

  1. Na seção Topologia do Trabalho do trabalho do Stream Analytics, selecione a opção Saídas .

  2. Selecione + Adicionar saída>Armazenamento de Blobs/ADLS Gen2.

    Captura de tela que mostra a página Saídas.

  3. Preencha o formulário de saída com os seguintes detalhes e selecione Salvar:

    1. Para alias de saída, insiraDeltaOutput.

    2. Escolha Selecionar Armazenamento de Blobs/ADLS Gen2 nas suas assinaturas.

    3. Para Assinatura, selecione sua assinatura do Azure.

    4. Para a conta de armazenamento, escolha a conta do ADLS Gen2 (aquela que começa com o tollapp) que você criou.

    5. Para o contêiner, selecione Criar novo e forneça um nome de contêiner exclusivo.

    6. Para o Formato de Serialização de Eventos, selecione Delta Lake. Embora o Delta Lake esteja listado como uma das opções aqui, ele não é um formato de dados. O Delta Lake usa arquivos Parquet versionados para armazenar seus dados. Para saber mais sobre o Delta Lake.

    7. Para o caminho da tabela Delta, insira a pasta do tutorial/tabela delta.

    8. Use as opções padrão nas configurações restantes e selecione Salvar.

      Captura de tela que mostra a configuração da saída.

Criar consultas

Neste ponto, você configura um trabalho do Stream Analytics para ler um fluxo de dados de entrada. A próxima etapa é criar uma consulta que analise os dados em tempo real. As consultas usam uma linguagem semelhante a SQL que tem algumas extensões específicas do Stream Analytics.

  1. Selecione Consulta em Topologia de trabalho no menu à esquerda.

  2. Insira a consulta a seguir na janela de consulta. Neste exemplo, a consulta lê os dados dos Hubs de Eventos e copia os valores selecionados para uma tabela Delta no ADLS Gen2.

     SELECT State, CarModel.Make, TollAmount
     INTO DeltaOutput
     FROM EntryStream TIMESTAMP BY EntryTime
    
  3. Selecione Salvar consulta na barra de ferramentas.

    Captura de tela que mostra a consulta para o trabalho.

Iniciar o trabalho do Stream Analytics e verificar a saída

  1. Retorne à página de visão geral do trabalho no portal do Azure e selecione Iniciar.

    Captura de tela que mostra a seleção do botão Iniciar trabalho na página Visão Geral.

  2. Na página Iniciar trabalho, confirme se Agora está selecionado para “Hora de início da saída do trabalho” e, em seguida, clique em Iniciar na parte inferior da página.

    Captura de tela que mostra a seleção da página Iniciar trabalho.

  3. Após alguns minutos, no portal, localize a conta de armazenamento e o contêiner que você configurou como saída para o trabalho. Agora você pode ver a tabela delta na pasta especificada no contêiner. A tarefa leva alguns minutos para começar pela primeira vez. Depois que ele é iniciado, ele continua a ser executado à medida que os dados chegam.

    Captura de tela que mostra os arquivos de dados de saída no contêiner.

Limpar os recursos

Quando você não precisar mais dos recursos, exclua o grupo de recursos, o trabalho do Stream Analytics e todos os recursos relacionados. Excluir o trabalho interrompe a cobrança das unidades de streaming que o trabalho consome. Se você planeja usar o trabalho no futuro, poderá pará-lo e reiniciá-lo mais tarde quando precisar. Se você não quiser continuar a usar esse trabalho, exclua todos os recursos que criou neste tutorial usando as seguintes etapas:

  1. No menu à esquerda no portal do Azure, selecione Grupos de recursos e selecione o nome do recurso que você criou.
  2. Na página do grupo de recursos, selecione Excluir, digite o nome do recurso a ser excluído na caixa de texto e selecione Excluir.

Próximas etapas

Neste tutorial, você criou um trabalho simples do Stream Analytics, filtrou os dados de entrada e escreveu resultados em uma tabela Delta na conta do ADLS Gen2. Para saber mais sobre os trabalhos do Stream Analytics, confira: