Observação
O acesso a essa página exige autorização. Você pode tentar entrar ou alterar diretórios.
O acesso a essa página exige autorização. Você pode tentar alterar os diretórios.
Ao implantar um modelo no Microsoft Foundry, você escolhe um tipo de implantação que determina:
- Onde seus dados são processados (global, zona de dados ou região única)
- Como você paga (pagamento por token ou capacidade reservada)
- Características de desempenho (variação de latência, limites de taxa de transferência)
O serviço oferece duas categorias principais: standard (pay-per-token) e provisionado (capacidade reservada). Em cada categoria, você pode escolher processamento global, de zona de dados ou regional com base em seus requisitos de conformidade.
Importante
Residência de dados para todos os tipos de implantação: Os dados em repouso permanecem na geografia do Azure designada. No entanto, os dados de inferência são processados da seguinte maneira:
- tipos Global: podem ser processados em qualquer região da Azure
- DataZone tipos: processados somente dentro da zona de dados especificada por Microsoft (EUA ou UE)
- Tipos padrão/regional : processados na região de implantação
Comparação de tipos de implantação
| Tipo de implantação | Código de SKU | Processamento de dados | Faturamento | Melhor para |
|---|---|---|---|---|
| Padrão Global | GlobalStandard |
Qualquer região do Azure | Pagamento por token | Cargas de trabalho gerais, cota mais alta |
| Provisionado Global | GlobalProvisionedManaged |
Qualquer região do Azure | PTU reservada | Alta transferência previsível de dados |
| Lote Global | GlobalBatch |
Qualquer região do Azure | 50% desconto, 24 horas | Tarefas assíncronas grandes |
| Padrão da Zona de Dados | DataZoneStandard |
Dentro da zona de dados | Pagamento por token | Conformidade da zona de dados da UE/EUA |
| Zona de dados provisionada | DataZoneProvisionedManaged |
Dentro da zona de dados | PTU reservada | Zona de dados + taxa de transferência previsível |
| Lote de Zona de Dados | DataZoneBatch |
Dentro da zona de dados | Desconto de 50% | Tarefas assíncronas de grande porte com zona de dados |
| Padrão | Standard |
Região única | Pagamento por token | Conformidade regional, baixo volume |
| Provisionamento Regional | ProvisionedManaged |
Região única | PTU reservada | Conformidade regional + taxa de transferência |
| Desenvolvedor | DeveloperTier |
Qualquer região do Azure | Pagamento por token | Somente avaliação de modelo finamente ajustado |
Nota
Nem todos os modelos dão suporte a todos os tipos de implantação. Verifique Foundry Models vendidos diretamente pela Azure para verificar a disponibilidade do modelo por tipo de implantação e região.
Nota
As garantias de SLA variam de acordo com o tipo de implantação. Os tipos provisionados fornecem taxa de transferência garantida e menor variação de latência. Os tipos padrão oferecem um serviço de melhor esforço. As implantações de desenvolvedor não incluem um SLA. Para obter detalhes, consulte o SLA Azure para Serviço OpenAI do Azure.
Dica
Para obter preços detalhados, consulte preços do serviço Azure OpenAI.
Escolher o tipo de implantação correto
Use os seguintes critérios para selecionar um tipo de implantação:
Por requisito de residência de dados
- Sem restrições: usar Global Standard ou Global Provisioned
- Zona de dados da UE: usar DataZone Standard ou DataZone Provisionado em uma região da UE
- Zona de dados dos EUA: Utilize DataZone Standard ou DataZone Provisioned em uma região dos EUA
- Somente região única: Use Provisionamento Padrão ou Regional
Por padrão de carga de trabalho
- Tráfego variável e com intermitência: usar Standard ou Global Standard (pay-per-token)
- Volume alto consistente: usar tipos provisionados (capacidade reservada)
- Trabalhos em lotes grandes (não são sensíveis ao tempo): use o Lote Global ou o Lote DataZone (economia de 50% nos custos)
- Avaliação de modelo ajustada: Usar Desenvolvedor (sem SLA, menor custo)
Por requisito de latência
- Variação de baixa latência necessária: usar tipos provisionados
- Variação de latência aceitável: usar tipos padrão
Locais de processamento de dados
Para implantações padrão, há três opções: global, zona de dados e geografia Azure. Para implantações provisionadas, há duas opções: geografia global e Azure. O Global Standard é um ponto de partida comum para a maioria das cargas de trabalho.
Implantações globais
As implantações globais usam a infraestrutura global do Azure para rotear dinamicamente o tráfego para datacenters disponíveis. As implantações globais oferecem os limites de taxa de transferência iniciais mais altos e a disponibilidade mais ampla do modelo.
Para cargas de trabalho de alto volume, você pode experimentar uma variação de latência maior. Se você precisar de menor variação de latência em escala, use tipos de implantação provisionados.
As implantações globais recebem primeiro novos modelos e recursos.
Implantações de Zona de Dados
Para tipos de implantação globais, prompts e respostas podem ser processados em qualquer localização onde o modelo seja implantado. Para tipos de implantação DataZone, prompts e respostas são processados somente dentro da zona de dados especificada.
- Estados Unidos: dados processados em qualquer lugar nos EUA
- União Europeia: Dados processados dentro de qualquer nação membro da UE
Saiba mais na seção "Disponibilidade da região do modelo por tipo de implantação" dos modelos Foundry vendidos diretamente por Azure.
Nota
Com os tipos de implantação Padrão Global e Padrão de Zona de Dados, se a região primária sofrer uma interrupção no serviço, todo o tráfego inicialmente roteado para essa região será afetado. Para saber mais, confira o guia de alta disponibilidade e recuperação de desastre.
Padrão Global
- Nome da SKU no código:
GlobalStandard
As implantações padrão global usam a infraestrutura global da Azure para rotear dinamicamente o tráfego para datacenters disponíveis. Esse tipo de implantação fornece a cota padrão mais alta e elimina a necessidade de balanceamento de carga entre vários recursos.
Clientes com alto volume consistente podem experimentar maior variabilidade de latência. O limite é definido por modelo. Para saber mais, confira a página Cotas. Para aplicativos que exigem menor variação de latência em uso de carga de trabalho grande, considere a taxa de transferência provisionada.
O Global Standard dá suporte ao processamento de prioridade (versão prévia) para tempos de resposta mais rápidos conforme o uso. Para saber mais, consulte o processamento prioritário para modelos de Foundry (prévia).
Globalmente Provisionado
- Nome da SKU no código:
GlobalProvisionedManaged
As implantações provisionadas globais usam a infraestrutura global da Azure para rotear dinamicamente o tráfego para datacenters disponíveis. Esse tipo de implantação fornece capacidade de processamento de modelo reservada para um desempenho previsível, combinando roteamento global com capacidade garantida.
Com a taxa de transferência provisionada, você compra um número fixo de PTUs (unidades de taxa de transferência provisionadas) que garantem um nível específico de capacidade de processamento. Esse tipo de implantação fornece latência menor e mais consistente do que o Padrão Global. Para saber mais, confira os conceitos de taxa de transferência provisionada.
Lote Global
- Nome da SKU no código:
GlobalBatch
O Lote Global lida com tarefas de processamento em grande escala e de alto volume. Você pode processar grupos assíncronos de solicitações com cota separada e um prazo alvo de 24 horas, a 50% menor do que o custo do Global Standard. Com o processamento em lote, em vez de enviar uma solicitação por vez, você envia um grande número de solicitações em um único arquivo. As solicitações do Global Batch têm uma cota de tokens enfileirados separada, o que evita qualquer interrupção de suas cargas de trabalho online.
Casos de uso comuns:
- Processamento de dados em grande escala: analisar conjuntos de dados em paralelo.
- Geração de conteúdo: crie grandes volumes de texto, como descrições de produtos ou artigos.
- Revisão e resumo de documentos: processar e resumir documentos longos.
- Automação de suporte ao cliente: lidar com várias solicitações simultaneamente.
- Extração e análise de dados: extraia e analise informações de grandes quantidades de dados não estruturados.
- Tarefas de NLP (processamento de idioma natural): execute análise de sentimento ou tradução em grandes conjuntos de dados.
Nota
As implantações em lote trocam a responsividade em tempo real por economia de custos. As solicitações em lote não têm um SLA em tempo real – elas têm como destino a conclusão dentro de 24 horas, mas podem levar mais tempo.
Padrão da Zona de Dados
- Nome da SKU no código:
DataZoneStandard
As implantações padrão de zona de dados roteiam dinamicamente o tráfego para datacenters dentro da zona de dados definida por Microsoft (EUA ou UE). Esse tipo de implantação fornece cotas padrão mais altas do que os tipos de implantação baseados em geografia, mantendo os dados dentro da zona especificada.
Clientes com alto volume consistente podem experimentar maior variabilidade de latência. O limite é definido por modelo. Para saber mais, confira a página cotas e limites. Para cargas de trabalho que exigem baixa variação de latência em grande volume, considere os tipos de implantação provisionados.
O Data Zone Standard dá suporte ao processamento de prioridade (versão prévia) para tempos de resposta mais rápidos em uma base paga conforme o uso. Para saber mais, consulte o processamento prioritário para modelos de Foundry (prévia).
Zona de dados provisionada
- Nome da SKU no código:
DataZoneProvisionedManaged
As implantações provisionadas na zona de dados especificada pela Microsoft (EUA ou UE) roteiam o tráfego dinamicamente, enquanto fornecem capacidade reservada de processamento de modelo. Esse tipo de implantação combina a conformidade da zona de dados com uma taxa de transferência alta e previsível.
Lote da Área de Dados
- Nome da SKU no código:
DataZoneBatch
As implantações do Lote de Zona de Dados fornecem a mesma funcionalidade que o Lote Global, incluindo economia de 50% nos custos e prazo de entrega de 24 horas. O tráfego é roteado apenas para datacenters dentro da zona de dados definida por Microsoft (EUA ou UE).
Standard
- Nome da SKU no código:
Standard
As implantações padrão usam cobrança por uso por token. Você paga apenas pelo que consome. Os modelos disponíveis em cada região e taxa de transferência podem ser limitados.
As implantações padrão são adequadas para cargas de trabalho de volume de baixo a médio com alta intermitência. Clientes com alto volume consistente podem experimentar maior variabilidade de latência.
Provisionamento Regional
- Nome da SKU no código:
ProvisionedManaged
As implantações provisionadas regionais permitem especificar a quantidade de largura de banda necessária em uma implantação. Em seguida, o serviço aloca a capacidade de processamento de modelo necessária e garante que ele esteja pronto para você. A taxa de transferência é definida em termos de PTUs (unidades de taxa de transferência provisionadas), que é uma maneira normalizada de representar a taxa de transferência para sua implantação. Cada par de modelo e versão requer quantidades diferentes de PTUs para implantação e fornece uma taxa de transferência diferente por PTU. Os requisitos mínimos de PTU variam de acordo com o modelo. Para obter os mínimos atuais e a capacidade disponível, consulte os conceitos de taxa de transferência provisionada.
Desenvolvedor (para modelos refinados)
- Nome da SKU no código:
DeveloperTier
O modo de implantação do Desenvolvedor foi projetado apenas para avaliação de modelo afinada. Ele fornece testes econômicos de modelos personalizados, mas não inclui garantias de residência de dados ou um SLA. As implantações de desenvolvedor têm um tempo de vida fixo de 24 horas e são excluídas automaticamente após a expiração. Para saber mais sobre como usar o modo de implantação do Desenvolvedor, consulte o guia de otimização.
Solução de problemas de implantação
Problemas comuns ao criar ou usar implantações:
| Questão | Causa | Resolução |
|---|---|---|
| Tipo de implantação indisponível | O modelo não dá suporte ao tipo selecionado | Verificar a disponibilidade do modelo por tipo de implantação |
| Cota excedida | Limite de assinatura atingido para tokens por minuto | Solicitar aumento de cota no portal Azure ou usar uma região diferente |
| Região indisponível | Modelo não implantado na região selecionada | Selecione uma região na lista de disponibilidade do modelo |
| Capacidade provisionada indisponível | Nenhuma capacidade de PTU na região | Experimente uma região diferente ou use o Global Provisioned para maior disponibilidade |
Para limites de quota por tipo de implantação, consulte quotas e limites de Modelos Foundry.
Restringir tipos de implantação com Azure Policy
Azure Policy ajuda a impor padrões organizacionais e avaliar a conformidade em escala. Por meio de seu painel de conformidade, você pode avaliar o estado geral do ambiente e se aprofundar na granularidade por recurso e por política. Azure Policy também dá suporte à correção em massa para recursos existentes e correção automática para novos recursos. Saiba mais sobre o Azure Policy e os controles internos específicos para Foundry Tools.
Use a política a seguir para desabilitar o acesso a um tipo de implantação do Foundry específico. Substitua GlobalStandard pelo nome do SKU para o tipo de implantação que você deseja restringir.
{
"mode": "All",
"policyRule": {
"if": {
"allOf": [
{
"field": "type",
"equals": "Microsoft.CognitiveServices/accounts/deployments"
},
{
"field": "Microsoft.CognitiveServices/accounts/deployments/sku.name",
"equals": "GlobalStandard"
}
]
}
}
}
Conteúdo relacionado
- Deploy Microsoft Foundry Models no portal da Foundry
- Criar e implantar um Azure OpenAI no recurso Microsoft Foundry Models
- Foundry Models vendidos diretamente pela Azure
- Disponibilidade da região do modelo por tipo de implantação
- Microsoft limites e cotas de Modelos de Fundiário
- Conceitos de taxa de transferência provisionada
- Processamento em Lote Global
- Preços do Serviço OpenAI do Azure
- Privacidade e segurança de dados para Modelos do Foundry
- Alta disponibilidade e recuperação de desastre