Tipos de implantação para modelos da Microsoft Foundry

Ao implantar um modelo no Microsoft Foundry, você escolhe um tipo de implantação que determina:

Onde seus dados são processados (global, zona de dados ou região única)
Como você paga (pagamento por token ou capacidade reservada)
Características de desempenho (variação de latência, limites de taxa de transferência)

O serviço oferece duas categorias principais: standard (pay-per-token) e provisionado (capacidade reservada). Em cada categoria, você pode escolher processamento global, de zona de dados ou regional com base em seus requisitos de conformidade.

Importante

Residência de dados para todos os tipos de implantação: Os dados em repouso permanecem na geografia do Azure designada. No entanto, os dados de inferência são processados da seguinte maneira:

tipos Global: podem ser processados em qualquer região da Azure
DataZone tipos: processados somente dentro da zona de dados especificada por Microsoft (EUA ou UE)
Tipos padrão/regional : processados na região de implantação

Saiba mais sobre residência de dados.

Comparação de tipos de implantação

Tipo de implantação	Código de SKU	Processamento de dados	Faturamento	Melhor para
Padrão Global	`GlobalStandard`	Qualquer região do Azure	Pagamento por token	Cargas de trabalho gerais, cota mais alta
Provisionado Global	`GlobalProvisionedManaged`	Qualquer região do Azure	PTU reservada	Alta transferência previsível de dados
Lote Global	`GlobalBatch`	Qualquer região do Azure	50% desconto, 24 horas	Tarefas assíncronas grandes
Padrão da Zona de Dados	`DataZoneStandard`	Dentro da zona de dados	Pagamento por token	Conformidade da zona de dados da UE/EUA
Zona de dados provisionada	`DataZoneProvisionedManaged`	Dentro da zona de dados	PTU reservada	Zona de dados + taxa de transferência previsível
Lote de Zona de Dados	`DataZoneBatch`	Dentro da zona de dados	Desconto de 50%	Tarefas assíncronas de grande porte com zona de dados
Padrão	`Standard`	Região única	Pagamento por token	Conformidade regional, baixo volume
Provisionamento Regional	`ProvisionedManaged`	Região única	PTU reservada	Conformidade regional + taxa de transferência
Desenvolvedor	`DeveloperTier`	Qualquer região do Azure	Pagamento por token	Somente avaliação de modelo finamente ajustado

Nota

Nem todos os modelos dão suporte a todos os tipos de implantação. Verifique Foundry Models vendidos diretamente pela Azure para verificar a disponibilidade do modelo por tipo de implantação e região.

Nota

As garantias de SLA variam de acordo com o tipo de implantação. Os tipos provisionados fornecem taxa de transferência garantida e menor variação de latência. Os tipos padrão oferecem um serviço de melhor esforço. As implantações de desenvolvedor não incluem um SLA. Para obter detalhes, consulte o SLA Azure para Serviço OpenAI do Azure.

Dica

Para obter preços detalhados, consulte preços do serviço Azure OpenAI.

Escolher o tipo de implantação correto

Use os seguintes critérios para selecionar um tipo de implantação:

Por requisito de residência de dados

Sem restrições: usar Global Standard ou Global Provisioned
Zona de dados da UE: usar DataZone Standard ou DataZone Provisionado em uma região da UE
Zona de dados dos EUA: Utilize DataZone Standard ou DataZone Provisioned em uma região dos EUA
Somente região única: Use Provisionamento Padrão ou Regional

Por padrão de carga de trabalho

Tráfego variável e com intermitência: usar Standard ou Global Standard (pay-per-token)
Volume alto consistente: usar tipos provisionados (capacidade reservada)
Trabalhos em lotes grandes (não são sensíveis ao tempo): use o Lote Global ou o Lote DataZone (economia de 50% nos custos)
Avaliação de modelo ajustada: Usar Desenvolvedor (sem SLA, menor custo)

Por requisito de latência

Variação de baixa latência necessária: usar tipos provisionados
Variação de latência aceitável: usar tipos padrão

Locais de processamento de dados

Para implantações padrão, há três opções: global, zona de dados e geografia Azure. Para implantações provisionadas, há duas opções: geografia global e Azure. O Global Standard é um ponto de partida comum para a maioria das cargas de trabalho.

Implantações globais

As implantações globais usam a infraestrutura global do Azure para rotear dinamicamente o tráfego para datacenters disponíveis. As implantações globais oferecem os limites de taxa de transferência iniciais mais altos e a disponibilidade mais ampla do modelo.

Para cargas de trabalho de alto volume, você pode experimentar uma variação de latência maior. Se você precisar de menor variação de latência em escala, use tipos de implantação provisionados.

As implantações globais recebem primeiro novos modelos e recursos.

Implantações de Zona de Dados

Para tipos de implantação globais, prompts e respostas podem ser processados em qualquer localização onde o modelo seja implantado. Para tipos de implantação DataZone, prompts e respostas são processados somente dentro da zona de dados especificada.

Estados Unidos: dados processados em qualquer lugar nos EUA
União Europeia: Dados processados dentro de qualquer nação membro da UE

Saiba mais na seção "Disponibilidade da região do modelo por tipo de implantação" dos modelos Foundry vendidos diretamente por Azure.

Nota

Com os tipos de implantação Padrão Global e Padrão de Zona de Dados, se a região primária sofrer uma interrupção no serviço, todo o tráfego inicialmente roteado para essa região será afetado. Para saber mais, confira o guia de alta disponibilidade e recuperação de desastre.

Padrão Global

Nome da SKU no código: GlobalStandard

As implantações padrão global usam a infraestrutura global da Azure para rotear dinamicamente o tráfego para datacenters disponíveis. Esse tipo de implantação fornece a cota padrão mais alta e elimina a necessidade de balanceamento de carga entre vários recursos.

Clientes com alto volume consistente podem experimentar maior variabilidade de latência. O limite é definido por modelo. Para saber mais, confira a página Cotas. Para aplicativos que exigem menor variação de latência em uso de carga de trabalho grande, considere a taxa de transferência provisionada.

O Global Standard dá suporte ao processamento de prioridade (versão prévia) para tempos de resposta mais rápidos conforme o uso. Para saber mais, consulte o processamento prioritário para modelos de Foundry (prévia).

Globalmente Provisionado

Nome da SKU no código: GlobalProvisionedManaged

As implantações provisionadas globais usam a infraestrutura global da Azure para rotear dinamicamente o tráfego para datacenters disponíveis. Esse tipo de implantação fornece capacidade de processamento de modelo reservada para um desempenho previsível, combinando roteamento global com capacidade garantida.

Com a taxa de transferência provisionada, você compra um número fixo de PTUs (unidades de taxa de transferência provisionadas) que garantem um nível específico de capacidade de processamento. Esse tipo de implantação fornece latência menor e mais consistente do que o Padrão Global. Para saber mais, confira os conceitos de taxa de transferência provisionada.

Lote Global

Nome da SKU no código: GlobalBatch

O Lote Global lida com tarefas de processamento em grande escala e de alto volume. Você pode processar grupos assíncronos de solicitações com cota separada e um prazo alvo de 24 horas, a 50% menor do que o custo do Global Standard. Com o processamento em lote, em vez de enviar uma solicitação por vez, você envia um grande número de solicitações em um único arquivo. As solicitações do Global Batch têm uma cota de tokens enfileirados separada, o que evita qualquer interrupção de suas cargas de trabalho online.

Casos de uso comuns:

Processamento de dados em grande escala: analisar conjuntos de dados em paralelo.
Geração de conteúdo: crie grandes volumes de texto, como descrições de produtos ou artigos.
Revisão e resumo de documentos: processar e resumir documentos longos.
Automação de suporte ao cliente: lidar com várias solicitações simultaneamente.
Extração e análise de dados: extraia e analise informações de grandes quantidades de dados não estruturados.
Tarefas de NLP (processamento de idioma natural): execute análise de sentimento ou tradução em grandes conjuntos de dados.

Nota

As implantações em lote trocam a responsividade em tempo real por economia de custos. As solicitações em lote não têm um SLA em tempo real – elas têm como destino a conclusão dentro de 24 horas, mas podem levar mais tempo.

Padrão da Zona de Dados

Nome da SKU no código: DataZoneStandard

As implantações padrão de zona de dados roteiam dinamicamente o tráfego para datacenters dentro da zona de dados definida por Microsoft (EUA ou UE). Esse tipo de implantação fornece cotas padrão mais altas do que os tipos de implantação baseados em geografia, mantendo os dados dentro da zona especificada.

Clientes com alto volume consistente podem experimentar maior variabilidade de latência. O limite é definido por modelo. Para saber mais, confira a página cotas e limites. Para cargas de trabalho que exigem baixa variação de latência em grande volume, considere os tipos de implantação provisionados.

O Data Zone Standard dá suporte ao processamento de prioridade (versão prévia) para tempos de resposta mais rápidos em uma base paga conforme o uso. Para saber mais, consulte o processamento prioritário para modelos de Foundry (prévia).

Zona de dados provisionada

Nome da SKU no código: DataZoneProvisionedManaged

As implantações provisionadas na zona de dados especificada pela Microsoft (EUA ou UE) roteiam o tráfego dinamicamente, enquanto fornecem capacidade reservada de processamento de modelo. Esse tipo de implantação combina a conformidade da zona de dados com uma taxa de transferência alta e previsível.

Lote da Área de Dados

Nome da SKU no código: DataZoneBatch

As implantações do Lote de Zona de Dados fornecem a mesma funcionalidade que o Lote Global, incluindo economia de 50% nos custos e prazo de entrega de 24 horas. O tráfego é roteado apenas para datacenters dentro da zona de dados definida por Microsoft (EUA ou UE).

Standard

Nome da SKU no código: Standard

As implantações padrão usam cobrança por uso por token. Você paga apenas pelo que consome. Os modelos disponíveis em cada região e taxa de transferência podem ser limitados.

As implantações padrão são adequadas para cargas de trabalho de volume de baixo a médio com alta intermitência. Clientes com alto volume consistente podem experimentar maior variabilidade de latência.

Provisionamento Regional

Nome da SKU no código: ProvisionedManaged

As implantações provisionadas regionais permitem especificar a quantidade de largura de banda necessária em uma implantação. Em seguida, o serviço aloca a capacidade de processamento de modelo necessária e garante que ele esteja pronto para você. A taxa de transferência é definida em termos de PTUs (unidades de taxa de transferência provisionadas), que é uma maneira normalizada de representar a taxa de transferência para sua implantação. Cada par de modelo e versão requer quantidades diferentes de PTUs para implantação e fornece uma taxa de transferência diferente por PTU. Os requisitos mínimos de PTU variam de acordo com o modelo. Para obter os mínimos atuais e a capacidade disponível, consulte os conceitos de taxa de transferência provisionada.

Desenvolvedor (para modelos refinados)

Nome da SKU no código: DeveloperTier

O modo de implantação do Desenvolvedor foi projetado apenas para avaliação de modelo afinada. Ele fornece testes econômicos de modelos personalizados, mas não inclui garantias de residência de dados ou um SLA. As implantações de desenvolvedor têm um tempo de vida fixo de 24 horas e são excluídas automaticamente após a expiração. Para saber mais sobre como usar o modo de implantação do Desenvolvedor, consulte o guia de otimização.

Solução de problemas de implantação

Problemas comuns ao criar ou usar implantações:

Questão	Causa	Resolução
Tipo de implantação indisponível	O modelo não dá suporte ao tipo selecionado	Verificar a disponibilidade do modelo por tipo de implantação
Cota excedida	Limite de assinatura atingido para tokens por minuto	Solicitar aumento de cota no portal Azure ou usar uma região diferente
Região indisponível	Modelo não implantado na região selecionada	Selecione uma região na lista de disponibilidade do modelo
Capacidade provisionada indisponível	Nenhuma capacidade de PTU na região	Experimente uma região diferente ou use o Global Provisioned para maior disponibilidade

Para limites de quota por tipo de implantação, consulte quotas e limites de Modelos Foundry.

Restringir tipos de implantação com Azure Policy

Azure Policy ajuda a impor padrões organizacionais e avaliar a conformidade em escala. Por meio de seu painel de conformidade, você pode avaliar o estado geral do ambiente e se aprofundar na granularidade por recurso e por política. Azure Policy também dá suporte à correção em massa para recursos existentes e correção automática para novos recursos. Saiba mais sobre o Azure Policy e os controles internos específicos para Foundry Tools.

Use a política a seguir para desabilitar o acesso a um tipo de implantação do Foundry específico. Substitua GlobalStandard pelo nome do SKU para o tipo de implantação que você deseja restringir.

{
    "mode": "All",
    "policyRule": {
        "if": {
            "allOf": [
                {
                    "field": "type",
                    "equals": "Microsoft.CognitiveServices/accounts/deployments"
                },
                {
                    "field": "Microsoft.CognitiveServices/accounts/deployments/sku.name",
                    "equals": "GlobalStandard"
                }
            ]
        }
    }
}

Comentários

Esta página foi útil?

Last updated on 2026-04-30

Tipos de implantação para modelos da Microsoft Foundry

Comparação de tipos de implantação

Escolher o tipo de implantação correto

Por requisito de residência de dados

Por padrão de carga de trabalho

Por requisito de latência

Locais de processamento de dados

Implantações globais

Implantações de Zona de Dados

Padrão Global

Globalmente Provisionado

Lote Global

Padrão da Zona de Dados

Zona de dados provisionada

Lote da Área de Dados

Standard

Provisionamento Regional

Desenvolvedor (para modelos refinados)

Solução de problemas de implantação

Restringir tipos de implantação com Azure Policy

Conteúdo relacionado

Comentários

Recursos adicionais