Tipos de implementação para modelos Microsoft Foundry

Quando implementa um modelo no Microsoft Foundry, escolhe um tipo de implementação que determina:

Onde os seus dados são processados (global, zona de dados ou região única)
Como paga (pagar por token ou capacidade reservada)
Características de desempenho (variação de latência, limites de rendimento)

O serviço oferece duas categorias principais: padrão (pay-per-token) e provisionado (capacidade reservada). Dentro de cada categoria, pode escolher processamento global, zona de dados ou regional com base nos seus requisitos de conformidade.

Importante

Residência de dados para todos os tipos de implementação: Os dados armazenados em repouso permanecem na geografia Azure designada. No entanto, os dados de inferência são processados da seguinte forma:

Tipos Global: Podem ser processados em qualquer região Azure
Tipos de DataZone: Processados apenas dentro da zona de dados Microsoft especificada (EUA ou UE)
Tipos Padrão/Regionais : Processados na região de implementação

Saiba mais sobre localização de dados.

Comparação de tipos de implantação

Tipo de implantação	Código SKU	Processamento de dados	Faturamento	Melhor para
Padrão Global	`GlobalStandard`	Qualquer região do Azure	Pagamento por token	Cargas de trabalho gerais, quota máxima
Global Provisionado	`GlobalProvisionedManaged`	Qualquer região do Azure	PTU reservado	Taxa de transferência previsível
Global Batch	`GlobalBatch`	Qualquer região do Azure	50% de desconto, 24 horas	Grandes trabalhos assíncronos
Padrão de Zonas de Dados	`DataZoneStandard`	Dentro da zona de dados	Pagamento por token	Conformidade com zonas de dados UE/EUA
Área de Dados Provisionada	`DataZoneProvisionedManaged`	Dentro da zona de dados	PTU reservado	Zona de dados + taxa de transferência previsível
Data Zone Batch	`DataZoneBatch`	Dentro da zona de dados	50% de desconto	Grandes trabalhos assíncronos com zona de dados
Standard	`Standard`	Região única	Pagamento por token	Conformidade regional, baixo volume
Provisionamento Regional	`ProvisionedManaged`	Região única	PTU reservado	Conformidade regional + taxa de transferência
Programador	`DeveloperTier`	Qualquer região do Azure	Pagamento por token	Apenas avaliação fina do modelo

Nota

Nem todos os modelos suportam todos os tipos de implementação. Consulte Foundry Models vendidos diretamente por Azure para a disponibilidade de modelos por tipo de implementação e região.

Nota

As garantias de SLA variam consoante o tipo de implantação. Os tipos provisionados proporcionam rendimento garantido e menor variação de latência. Os tipos padrão oferecem um serviço de melhor esforço. As implementações de programadores não incluem um SLA. Para mais detalhes, consulte o SLA Azure para Azure OpenAI Service.

Dica

Para um preçário detalhado, consulte o preçário do Azure OpenAI Service.

Escolha o tipo de implantação certo

Use os seguintes critérios para selecionar um tipo de implementação:

Pelo requisito de residência de dados

Sem restrições: Usar Global Standard ou Global Provisioned
Zona de dados da UE: Utilizar o Padrão DataZone ou o DataZone Provisionado numa região da UE
Zona de Dados dos EUA: Utilize o DataZone Standard ou o DataZone Provisioned numa região nos EUA
Apenas região única: Utilizar Padrão ou Regional Provisionado

Por padrão de carga de trabalho

Tráfego variável e em rajadas: Utilizar Padrão ou Padrão Global (pago por token)
Volume elevado consistente: Usar tipos provisionados (capacidade reservada)
Trabalhos de grandes lotes (não sensíveis ao tempo): Use Global Batch ou DataZone Batch (50% poupança de custos)
Avaliação fina do modelo: Usar Developer (sem SLA, custo mais baixo)

Por requisito de latência

Baixa variação de latência necessária: Utilizar tipos Provisionados
Variância de latência aceitável: Usar tipos padrão

Locais de processamento de dados

Para implementações padrão, existem três opções: global, zona de dados e geografia Azure. Para implementações provisionadas, existem duas opções: global e geografia Azure. O Global Standard é um ponto de partida comum para a maioria das cargas de trabalho.

Implantações globais

As implementações globais utilizam a infraestrutura global do Azure para encaminhar dinamicamente o tráfego para os centros de dados disponíveis. As implementações globais oferecem os maiores limites iniciais de largura de banda e a maior disponibilidade de modelos.

Para cargas de trabalho de alto volume, pode experienciar uma variação de latência aumentada. Se precisar de menor variação de latência em escala, use tipos de implementação provisionados.

As implementações globais recebem primeiro novos modelos e funcionalidades.

Implementações em Zona de Dados

Para tipos de distribuição Global, prompts e respostas podem ser processados em qualquer localização geográfica onde o modelo estiver distribuído. Para os tipos de implementação do DataZone , os prompts e respostas são processados apenas dentro da zona de dados especificada:

Estados Unidos: Dados processados em qualquer lugar dentro dos EUA
União Europeia: Dados processados em qualquer país-membro da UE

Saiba mais na secção "Disponibilidade da região do modelo por tipo de implementação" do Foundry Models vendidos diretamente pela Azure.

Nota

Com os tipos de implementação Global Standard e Data Zone Standard, se a região principal sofrer uma interrupção no serviço, todo o tráfego inicialmente encaminhado para essa região é afetado. Para saber mais, consulte o guia de alta disponibilidade e recuperação de desastres.

Padrão Global

Nome do SKU em código: GlobalStandard

As implementações do Global Standard utilizam a infraestrutura global do Azure para encaminhar dinamicamente o tráfego para os centros de dados disponíveis. Este tipo de implementação proporciona a maior quota padrão e elimina a necessidade de balancear a carga entre múltiplos recursos.

Clientes com volume consistente elevado podem experienciar maior variabilidade de latência. O limiar é definido por modelo. Para saber mais, consulte a página de Quotas. Para aplicações que requerem menor variação de latência em altas cargas de trabalho, considere o débito provisionado.

A Global Standard suporta o processamento prioritário (pré-visualização) para tempos de resposta mais rápidos numa base de pagamento conforme o uso. Para saber mais, consulte Processamento Prioritário para modelos Foundry (pré-visualização).

Global Provisionado

Nome do SKU em código: GlobalProvisionedManaged

As implementações Global Provisioned utilizam a infraestrutura global do Azure para encaminhar dinamicamente o tráfego para os centros de dados disponíveis. Este tipo de implementação fornece capacidade reservada de processamento de modelos para um débito previsível, combinando o roteamento global com capacidade garantida.

Com a largura de banda provisionada, adquire uma quantidade fixa de unidades de taxa de provisão (PTU) que garantem um nível específico de capacidade de processamento. Este tipo de implementação oferece uma latência menor e mais consistente do que o Global Standard. Para mais informações, consulte Conceitos de throughput provisionado.

Global Batch

Nome do SKU em código: GlobalBatch

O Global Batch trata de tarefas de processamento em grande escala e grande volume. Pode processar grupos assíncronos de pedidos com quotas separadas e um prazo objetivo de 24 horas, a um custo 50% inferior ao Global Standard. Com o processamento em lote, em vez de enviar um pedido de cada vez, envia um grande número de pedidos num único ficheiro. Os pedidos globais de lote têm uma quota separada de tokens em fila, que evita qualquer perturbação das suas cargas de trabalho online.

Casos de uso comuns:

Processamento de dados em grande escala: Analisar conjuntos de dados em paralelo.
Geração de conteúdo: Crie grandes volumes de texto, como descrições de produtos ou artigos.
Revisão e resumo de documentos: Processar e resumir documentos extensos.
Automação do apoio ao cliente: Tratar várias consultas em simultâneo.
Extração e análise de dados: Extrair e analisar informação de grandes quantidades de dados não estruturados.
Tarefas de processamento de linguagem natural (PLN): Realizar análise ou tradução de sentimento em grandes conjuntos de dados.

Nota

As implementações em lote trocam a resposta em tempo real por poupanças de custos. Os pedidos de lote não têm um SLA em tempo real — visam a conclusão dentro de 24 horas, mas podem demorar mais.

Padrão de Zonas de Dados

Nome do SKU em código: DataZoneStandard

As implementações do Data Zone Standard encaminham dinamicamente o tráfego para centros de dados dentro da zona de dados definida pela Microsoft (EUA ou UE). Este tipo de implementação oferece quotas padrão mais elevadas do que os tipos de implantação baseados na geografia, mantendo os dados dentro da zona especificada.

Clientes com volume consistente elevado podem experienciar maior variabilidade de latência. O limiar é definido por modelo. Para saber mais, consulte a página de quotas e limites. Para cargas de trabalho que requerem baixa variância de latência em grande volume, considere tipos de implementação provisionadas.

O Data Zone Standard suporta processamento prioritário em prévia para tempos de resposta mais rápidos, com pagamento conforme o uso. Para saber mais, consulte Processamento Prioritário para modelos Foundry (pré-visualização).

Zona de Dados Provisionada

Nome do SKU em código: DataZoneProvisionedManaged

As implementações provisionadas por Zona de Dados encaminham dinamicamente o tráfego dentro da zona de dados especificada pela Microsoft (EUA ou UE) enquanto fornecem capacidade reservada de processamento de modelos. Este tipo de implementação combina conformidade com zonas de dados com um débito elevado e previsível.

Zona de Dados Lote

Nome do SKU em código: DataZoneBatch

As implementações do Data Zone Batch oferecem a mesma funcionalidade do Global Batch, incluindo 50% poupança de custos e um prazo de 24 horas. O tráfego é encaminhado apenas para centros de dados dentro da zona de dados definida pela Microsoft (EUA ou UE).

Standard

Nome do SKU em código: Standard

As implementações padrão utilizam faturação por token. Pagas apenas pelo que consomes. Os modelos disponíveis em cada região e a largura de banda podem ser limitados.

As implementações padrão são adequadas para cargas de trabalho de volume baixo a médio com alta carga intermitente. Clientes com volume consistente elevado podem experienciar maior variabilidade de latência.

Provisionamento Regional

Nome do SKU em código: ProvisionedManaged

As implementações Regionais Provisionadas permitem-lhe especificar a quantidade de largura de banda que necessita numa implementação. O serviço aloca então a capacidade necessária de processamento de modelos e garante que está pronto para si. O throughput é definido em termos de unidade de throughput provisionada (PTU), que é uma forma normalizada de representar o throughput para a sua implementação. Cada par modelo-versão requer diferentes quantidades de PTUs para ser implantado e fornece diferentes capacidades de processamento por PTU. Os requisitos mínimos da PTU variam consoante o modelo. Para valores mínimos atuais e capacidade disponível, consulte conceitos de débito provisionado.

Desenvolvedor (para modelos afinados)

Nome do SKU em código: DeveloperTier

O tipo de implementação Developer foi concebido apenas para avaliação de modelos afinados. Fornece testes económicos de modelos personalizados, mas não inclui garantias de residência de dados nem um SLA. As implementações dos programadores têm uma vida útil fixa de 24 horas e são automaticamente eliminadas após a expiração. Para saber mais sobre a utilização do tipo de implementação Developer, consulte o guia de ajuste fino.

Resolução de problemas de implementação

Problemas comuns ao criar ou utilizar implementações:

Problema	Causa	Resolução
Tipo de implantação indisponível	O modelo não suporta o tipo selecionado	Verificar a disponibilidade dos modelos por tipo de implementação
Quota ultrapassada	Limite de subscrição de tokens atingido a cada minuto	Solicite aumento de quota no portal Azure ou utilize uma região diferente
Região indisponível	Modelo não implementado na região selecionada	Selecione uma região da lista de disponibilidade do modelo
Capacidade provisionada indisponível	Sem capacidade de PTU na região	Experimente uma região diferente ou use o Global Provisioned para maior disponibilidade

Para limitações de quota por tipo de implantação, consulte quotas e limites dos Foundry Models.

Restringir tipos de implementação com o Azure Policy

O Azure Policy ajuda a fazer cumprir normas organizacionais e a avaliar a conformidade em larga escala. Através do seu painel de conformidade, pode avaliar o estado geral do ambiente e aprofundar a granularidade por recurso e por política. O Azure Policy também suporta remediação em massa para recursos existentes e remediação automática para novos recursos. Saiba mais sobre Azure Policy e controlos específicos incorporados para Foundry Tools.

Use a seguinte política para desativar o acesso a um tipo específico de implementação do Foundry. Substitui GlobalStandard pelo nome SKU do tipo de implementação que queres restringir.

{
    "mode": "All",
    "policyRule": {
        "if": {
            "allOf": [
                {
                    "field": "type",
                    "equals": "Microsoft.CognitiveServices/accounts/deployments"
                },
                {
                    "field": "Microsoft.CognitiveServices/accounts/deployments/sku.name",
                    "equals": "GlobalStandard"
                }
            ]
        }
    }
}

Comentários

Esta página foi útil?

Last updated on 2026-05-01

Tipos de implementação para modelos Microsoft Foundry

Comparação de tipos de implantação

Escolha o tipo de implantação certo

Pelo requisito de residência de dados

Por padrão de carga de trabalho

Por requisito de latência

Locais de processamento de dados

Implantações globais

Implementações em Zona de Dados

Padrão Global

Global Provisionado

Global Batch

Padrão de Zonas de Dados

Zona de Dados Provisionada

Zona de Dados Lote

Standard

Provisionamento Regional

Desenvolvedor (para modelos afinados)

Resolução de problemas de implementação

Restringir tipos de implementação com o Azure Policy

Conteúdo relacionado

Comentários

Recursos adicionais