Tutorial: Escrever numa tabela Delta armazenada no Azure Data Lake Storage Gen2

Este tutorial mostra como criar um trabalho de Stream Analytics que escreve numa tabela Delta no Azure Data Lake Storage Gen2. Neste tutorial, aprenderás como:

  • Implantar um gerador de eventos que envia dados de exemplo para seu hub de eventos
  • Criar uma tarefa do Stream Analytics
  • Configure Azure Data Lake Storage Gen2 com uma tabela Delta
  • Executar a tarefa do Stream Analytics

Pré-requisitos

Antes de começar, conclua as seguintes etapas:

Criar uma tarefa do Stream Analytics

  1. Inicie sessão no portal Azure.

  2. Selecione Todos os serviços no menu esquerdo.

  3. Mova o mouse sobre os trabalhos do Stream Analytics na seção Analytics e selecione + (mais).

    Captura de tela que mostra a seleção de trabalhos do Stream Analytics na página Todos os serviços.

  4. Selecione Criar um recurso no canto superior esquerdo do portal de Azure.

  5. Selecione Analytics>trabalho do Stream Analytics na lista de resultados.

  6. No novo emprego de Stream Analytics, siga estes passos:

    1. Em Assinatura, selecione sua assinatura do Azure.
    2. Para Grupo de recursos, selecione o mesmo recurso que você usou anteriormente na implantação do TollApp.
    3. Em Nome, insira um nome para o trabalho. O nome do trabalho Stream Analytics pode conter apenas caracteres alfanuméricos, hífens e sublinhados. Deve ter entre 3 e 63 caracteres.
    4. Para Ambiente de hospedagem, confirme se a opção Nuvem está selecionada.
    5. Em Unidades de fluxo, selecione 1. As unidades de streaming representam os recursos de computação necessários para executar um trabalho. Para aprender sobre a escala das unidades de streaming, consulte compreender e ajustar as unidades de streaming.

    Captura de tela que mostra a página de trabalho Criar Stream Analytics.

  7. Selecione Revisar + criar no fundo da página.

  8. Em Rever + criar, revise as definições e selecione Criar para criar uma tarefa de Stream Analytics.

  9. Na página de implementação, selecione Ir para recurso para ir à página de trabalho de Stream Analytics .

Configurar entrada de tarefa

O passo seguinte é definir uma fonte de entrada para a tarefa ler dados usando o hub de eventos criado na implementação do TollApp.

  1. Encontre o trabalho do Stream Analytics criado na seção anterior.

  2. Na seção Topologia de trabalho do trabalho do Stream Analytics, selecione Entradas.

  3. Selecione + Adicionar entrada e Hub de eventos.

    Captura de ecrã que mostra a página Entradas.

  4. Preencha o formulário de entrada com os seguintes valores criados por meio do Modelo do Azure TollApp:

    1. Para Alias de entrada, insira entrystream.

    2. Escolha Selecionar Hub de Eventos em suas assinaturas.

    3. Em Assinatura, selecione sua assinatura do Azure.

    4. Para namespace do Hub de Eventos, selecione o namespace do hub de eventos criado na seção anterior.

    5. Use as opções padrão nas configurações restantes e selecione Salvar.

      Captura de tela que mostra a seleção do hub de eventos de entrada.

Configurar saída de trabalho

O passo seguinte é definir um destino de saída onde a tarefa pode escrever dados. Neste tutorial, você grava a saída em uma tabela Delta no Azure Data Lake Storage Gen2.

  1. Na seção Topologia de trabalho do trabalho do Stream Analytics, selecione a opção Saídas .

  2. Selecione + Adicionar saída>Armazenamento Blob/ADLS Gen2.

    Captura de ecrã que mostra a página Resultados.

  3. Preencha o formulário de saída com os seguintes detalhes e selecione Salvar:

    1. Para Alias de saída, insira DeltaOutput.

    2. Escolha Selecionar armazenamento de Blob/ADLS Gen2 nas suas assinaturas.

    3. Em Assinatura, selecione sua assinatura do Azure.

    4. Para Conta de armazenamento, escolha a conta ADLS Gen2 (aquela que começa com tollapp) que você criou.

    5. Para contêiner, selecione Criar novo e forneça um nome de contêiner exclusivo.

    6. Para Formato de serialização de eventos, selecione Delta Lake. Embora o Delta Lake esteja listado como uma das opções aqui, não é um formato de dados. O Delta Lake usa arquivos versionados do Parquet para armazenar seus dados. Para saber mais sobre o lago Delta.

    7. Para Caminho da tabela delta, insira a pasta tutorial/tabela delta.

    8. Use as opções padrão nas configurações restantes e selecione Salvar.

      Captura de tela que mostra a configuração da saída.

Criar consultas

Neste ponto, configura um trabalho de Stream Analytics para ler um fluxo de dados recebido. O próximo passo é criar uma consulta que analise os dados em tempo real. As consultas usam uma linguagem semelhante a SQL que tem algumas extensões específicas para o Stream Analytics.

  1. Selecione Consulta em Topologia de Trabalho no menu esquerdo.

  2. Insira a seguinte consulta na janela de consulta. Neste exemplo, a consulta lê os dados dos Hubs de Eventos e copia os valores selecionados para uma tabela Delta no ADLS Gen2.

     SELECT State, CarModel.Make, TollAmount
     INTO DeltaOutput
     FROM EntryStream TIMESTAMP BY EntryTime
    
  3. Selecione Salvar consulta na barra de ferramentas.

    Captura de tela que mostra a consulta para o trabalho.

Iniciar a tarefa do Stream Analytics e verificar a saída

  1. Retorne à página de visão geral do trabalho no portal do Azure e selecione Iniciar.

    Captura de tela que mostra a seleção do botão Iniciar trabalho na página Visão geral.

  2. Na página Iniciar trabalho , confirme se Agora está selecionado para Hora de início de saída do trabalho e selecione Iniciar na parte inferior da página.

    Captura de tela que mostra a seleção da página Iniciar trabalho.

  3. Depois de alguns minutos, no portal, encontre a conta de armazenamento e o container que configurou como saída para a tarefa. Agora você pode ver a tabela delta na pasta especificada no contêiner. A tarefa demora alguns minutos a começar da primeira vez. Depois de começar, continua a funcionar à medida que os dados chegam.

    Captura de tela que mostra os arquivos de dados de saída no contêiner.

Limpeza de recursos

Quando já não precisares dos recursos, elimina o grupo de recursos, o trabalho de Stream Analytics e todos os recursos relacionados. Eliminar o trabalho impede a faturação das unidades de streaming que o trabalho consome. Se planeias usar o trabalho no futuro, podes pará-lo e recomeçar mais tarde, quando precisares. Se não vais continuar a usar este trabalho, elimina todos os recursos que criaste neste tutorial seguindo os seguintes passos:

  1. No menu do lado esquerdo no portal do Azure, selecione Grupos de recursos e, em seguida, selecione o nome do recurso que criou.
  2. Na página do grupo de recursos, selecione Excluir, digite o nome do recurso a ser excluído na caixa de texto e selecione Excluir.

Próximos passos

Neste tutorial, criaste um trabalho simples de Stream Analytics, filtraste os dados recebidos e escreveste resultados numa tabela Delta na conta ADLS Gen2. Para saber mais sobre empregos em Stream Analytics, veja: