Tipos de implementação para modelos Microsoft Foundry

Quando implementa um modelo no Microsoft Foundry, escolhe um tipo de implementação que determina:

  • Onde os seus dados são processados (global, zona de dados ou região única)
  • Como paga (pagar por token ou capacidade reservada)
  • Características de desempenho (variação de latência, limites de rendimento)

O serviço oferece duas categorias principais: padrão (pay-per-token) e provisionado (capacidade reservada). Dentro de cada categoria, pode escolher processamento global, zona de dados ou regional com base nos seus requisitos de conformidade.

Captura de ecrã do diálogo de implementação do portal Foundry mostrando a caixa de seleção do tipo de implementação com o Global Standard selecionado.

Importante

Residência de dados para todos os tipos de implementação: Os dados armazenados em repouso permanecem na geografia Azure designada. No entanto, os dados de inferência são processados da seguinte forma:

  • Tipos Global: Podem ser processados em qualquer região Azure
  • Tipos de DataZone: Processados apenas dentro da zona de dados Microsoft especificada (EUA ou UE)
  • Tipos Padrão/Regionais : Processados na região de implementação

Saiba mais sobre localização de dados.

Comparação de tipos de implantação

Tipo de implantação Código SKU Processamento de dados Faturamento Melhor para
Padrão Global GlobalStandard Qualquer região do Azure Pagamento por token Cargas de trabalho gerais, quota máxima
Global Provisionado GlobalProvisionedManaged Qualquer região do Azure PTU reservado Taxa de transferência previsível
Global Batch GlobalBatch Qualquer região do Azure 50% de desconto, 24 horas Grandes trabalhos assíncronos
Padrão de Zonas de Dados DataZoneStandard Dentro da zona de dados Pagamento por token Conformidade com zonas de dados UE/EUA
Área de Dados Provisionada DataZoneProvisionedManaged Dentro da zona de dados PTU reservado Zona de dados + taxa de transferência previsível
Data Zone Batch DataZoneBatch Dentro da zona de dados 50% de desconto Grandes trabalhos assíncronos com zona de dados
Standard Standard Região única Pagamento por token Conformidade regional, baixo volume
Provisionamento Regional ProvisionedManaged Região única PTU reservado Conformidade regional + taxa de transferência
Programador DeveloperTier Qualquer região do Azure Pagamento por token Apenas avaliação fina do modelo

Nota

Nem todos os modelos suportam todos os tipos de implementação. Consulte Foundry Models vendidos diretamente por Azure para a disponibilidade de modelos por tipo de implementação e região.

Nota

As garantias de SLA variam consoante o tipo de implantação. Os tipos provisionados proporcionam rendimento garantido e menor variação de latência. Os tipos padrão oferecem um serviço de melhor esforço. As implementações de programadores não incluem um SLA. Para mais detalhes, consulte o SLA Azure para Azure OpenAI Service.

Dica

Para um preçário detalhado, consulte o preçário do Azure OpenAI Service.

Escolha o tipo de implantação certo

Use os seguintes critérios para selecionar um tipo de implementação:

Pelo requisito de residência de dados

  • Sem restrições: Usar Global Standard ou Global Provisioned
  • Zona de dados da UE: Utilizar o Padrão DataZone ou o DataZone Provisionado numa região da UE
  • Zona de Dados dos EUA: Utilize o DataZone Standard ou o DataZone Provisioned numa região nos EUA
  • Apenas região única: Utilizar Padrão ou Regional Provisionado

Por padrão de carga de trabalho

  • Tráfego variável e em rajadas: Utilizar Padrão ou Padrão Global (pago por token)
  • Volume elevado consistente: Usar tipos provisionados (capacidade reservada)
  • Trabalhos de grandes lotes (não sensíveis ao tempo): Use Global Batch ou DataZone Batch (50% poupança de custos)
  • Avaliação fina do modelo: Usar Developer (sem SLA, custo mais baixo)

Por requisito de latência

  • Baixa variação de latência necessária: Utilizar tipos Provisionados
  • Variância de latência aceitável: Usar tipos padrão

Locais de processamento de dados

Para implementações padrão, existem três opções: global, zona de dados e geografia Azure. Para implementações provisionadas, existem duas opções: global e geografia Azure. O Global Standard é um ponto de partida comum para a maioria das cargas de trabalho.

Implantações globais

As implementações globais utilizam a infraestrutura global do Azure para encaminhar dinamicamente o tráfego para os centros de dados disponíveis. As implementações globais oferecem os maiores limites iniciais de largura de banda e a maior disponibilidade de modelos.

Para cargas de trabalho de alto volume, pode experienciar uma variação de latência aumentada. Se precisar de menor variação de latência em escala, use tipos de implementação provisionados.

As implementações globais recebem primeiro novos modelos e funcionalidades.

Implementações em Zona de Dados

Para tipos de distribuição Global, prompts e respostas podem ser processados em qualquer localização geográfica onde o modelo estiver distribuído. Para os tipos de implementação do DataZone , os prompts e respostas são processados apenas dentro da zona de dados especificada:

  • Estados Unidos: Dados processados em qualquer lugar dentro dos EUA
  • União Europeia: Dados processados em qualquer país-membro da UE

Saiba mais na secção "Disponibilidade da região do modelo por tipo de implementação" do Foundry Models vendidos diretamente pela Azure.

Nota

Com os tipos de implementação Global Standard e Data Zone Standard, se a região principal sofrer uma interrupção no serviço, todo o tráfego inicialmente encaminhado para essa região é afetado. Para saber mais, consulte o guia de alta disponibilidade e recuperação de desastres.

Padrão Global

  • Nome do SKU em código: GlobalStandard

As implementações do Global Standard utilizam a infraestrutura global do Azure para encaminhar dinamicamente o tráfego para os centros de dados disponíveis. Este tipo de implementação proporciona a maior quota padrão e elimina a necessidade de balancear a carga entre múltiplos recursos.

Clientes com volume consistente elevado podem experienciar maior variabilidade de latência. O limiar é definido por modelo. Para saber mais, consulte a página de Quotas. Para aplicações que requerem menor variação de latência em altas cargas de trabalho, considere o débito provisionado.

A Global Standard suporta o processamento prioritário (pré-visualização) para tempos de resposta mais rápidos numa base de pagamento conforme o uso. Para saber mais, consulte Processamento Prioritário para modelos Foundry (pré-visualização).

Global Provisionado

  • Nome do SKU em código: GlobalProvisionedManaged

As implementações Global Provisioned utilizam a infraestrutura global do Azure para encaminhar dinamicamente o tráfego para os centros de dados disponíveis. Este tipo de implementação fornece capacidade reservada de processamento de modelos para um débito previsível, combinando o roteamento global com capacidade garantida.

Com a largura de banda provisionada, adquire uma quantidade fixa de unidades de taxa de provisão (PTU) que garantem um nível específico de capacidade de processamento. Este tipo de implementação oferece uma latência menor e mais consistente do que o Global Standard. Para mais informações, consulte Conceitos de throughput provisionado.

Global Batch

  • Nome do SKU em código: GlobalBatch

O Global Batch trata de tarefas de processamento em grande escala e grande volume. Pode processar grupos assíncronos de pedidos com quotas separadas e um prazo objetivo de 24 horas, a um custo 50% inferior ao Global Standard. Com o processamento em lote, em vez de enviar um pedido de cada vez, envia um grande número de pedidos num único ficheiro. Os pedidos globais de lote têm uma quota separada de tokens em fila, que evita qualquer perturbação das suas cargas de trabalho online.

Casos de uso comuns:

  • Processamento de dados em grande escala: Analisar conjuntos de dados em paralelo.
  • Geração de conteúdo: Crie grandes volumes de texto, como descrições de produtos ou artigos.
  • Revisão e resumo de documentos: Processar e resumir documentos extensos.
  • Automação do apoio ao cliente: Tratar várias consultas em simultâneo.
  • Extração e análise de dados: Extrair e analisar informação de grandes quantidades de dados não estruturados.
  • Tarefas de processamento de linguagem natural (PLN): Realizar análise ou tradução de sentimento em grandes conjuntos de dados.

Nota

As implementações em lote trocam a resposta em tempo real por poupanças de custos. Os pedidos de lote não têm um SLA em tempo real — visam a conclusão dentro de 24 horas, mas podem demorar mais.

Padrão de Zonas de Dados

  • Nome do SKU em código: DataZoneStandard

As implementações do Data Zone Standard encaminham dinamicamente o tráfego para centros de dados dentro da zona de dados definida pela Microsoft (EUA ou UE). Este tipo de implementação oferece quotas padrão mais elevadas do que os tipos de implantação baseados na geografia, mantendo os dados dentro da zona especificada.

Clientes com volume consistente elevado podem experienciar maior variabilidade de latência. O limiar é definido por modelo. Para saber mais, consulte a página de quotas e limites. Para cargas de trabalho que requerem baixa variância de latência em grande volume, considere tipos de implementação provisionadas.

O Data Zone Standard suporta processamento prioritário em prévia para tempos de resposta mais rápidos, com pagamento conforme o uso. Para saber mais, consulte Processamento Prioritário para modelos Foundry (pré-visualização).

Zona de Dados Provisionada

  • Nome do SKU em código: DataZoneProvisionedManaged

As implementações provisionadas por Zona de Dados encaminham dinamicamente o tráfego dentro da zona de dados especificada pela Microsoft (EUA ou UE) enquanto fornecem capacidade reservada de processamento de modelos. Este tipo de implementação combina conformidade com zonas de dados com um débito elevado e previsível.

Zona de Dados Lote

  • Nome do SKU em código: DataZoneBatch

As implementações do Data Zone Batch oferecem a mesma funcionalidade do Global Batch, incluindo 50% poupança de custos e um prazo de 24 horas. O tráfego é encaminhado apenas para centros de dados dentro da zona de dados definida pela Microsoft (EUA ou UE).

Standard

  • Nome do SKU em código: Standard

As implementações padrão utilizam faturação por token. Pagas apenas pelo que consomes. Os modelos disponíveis em cada região e a largura de banda podem ser limitados.

As implementações padrão são adequadas para cargas de trabalho de volume baixo a médio com alta carga intermitente. Clientes com volume consistente elevado podem experienciar maior variabilidade de latência.

Provisionamento Regional

  • Nome do SKU em código: ProvisionedManaged

As implementações Regionais Provisionadas permitem-lhe especificar a quantidade de largura de banda que necessita numa implementação. O serviço aloca então a capacidade necessária de processamento de modelos e garante que está pronto para si. O throughput é definido em termos de unidade de throughput provisionada (PTU), que é uma forma normalizada de representar o throughput para a sua implementação. Cada par modelo-versão requer diferentes quantidades de PTUs para ser implantado e fornece diferentes capacidades de processamento por PTU. Os requisitos mínimos da PTU variam consoante o modelo. Para valores mínimos atuais e capacidade disponível, consulte conceitos de débito provisionado.

Desenvolvedor (para modelos afinados)

  • Nome do SKU em código: DeveloperTier

O tipo de implementação Developer foi concebido apenas para avaliação de modelos afinados. Fornece testes económicos de modelos personalizados, mas não inclui garantias de residência de dados nem um SLA. As implementações dos programadores têm uma vida útil fixa de 24 horas e são automaticamente eliminadas após a expiração. Para saber mais sobre a utilização do tipo de implementação Developer, consulte o guia de ajuste fino.

Resolução de problemas de implementação

Problemas comuns ao criar ou utilizar implementações:

Problema Causa Resolução
Tipo de implantação indisponível O modelo não suporta o tipo selecionado Verificar a disponibilidade dos modelos por tipo de implementação
Quota ultrapassada Limite de subscrição de tokens atingido a cada minuto Solicite aumento de quota no portal Azure ou utilize uma região diferente
Região indisponível Modelo não implementado na região selecionada Selecione uma região da lista de disponibilidade do modelo
Capacidade provisionada indisponível Sem capacidade de PTU na região Experimente uma região diferente ou use o Global Provisioned para maior disponibilidade

Para limitações de quota por tipo de implantação, consulte quotas e limites dos Foundry Models.

Restringir tipos de implementação com o Azure Policy

O Azure Policy ajuda a fazer cumprir normas organizacionais e a avaliar a conformidade em larga escala. Através do seu painel de conformidade, pode avaliar o estado geral do ambiente e aprofundar a granularidade por recurso e por política. O Azure Policy também suporta remediação em massa para recursos existentes e remediação automática para novos recursos. Saiba mais sobre Azure Policy e controlos específicos incorporados para Foundry Tools.

Use a seguinte política para desativar o acesso a um tipo específico de implementação do Foundry. Substitui GlobalStandard pelo nome SKU do tipo de implementação que queres restringir.

{
    "mode": "All",
    "policyRule": {
        "if": {
            "allOf": [
                {
                    "field": "type",
                    "equals": "Microsoft.CognitiveServices/accounts/deployments"
                },
                {
                    "field": "Microsoft.CognitiveServices/accounts/deployments/sku.name",
                    "equals": "GlobalStandard"
                }
            ]
        }
    }
}