Habilitar o processamento de prioridade para modelos de Microsoft Foundry

O processamento prioritário fornece desempenho de baixa latência com a flexibilidade do pagamento conforme o uso. Neste artigo, você habilita o processamento de prioridade em uma implantação de modelo, verifica qual camada de serviço processou suas solicitações e monitora os custos associados.

Pré-requisitos

Uma assinatura Azure – Criar uma gratuitamente.
Um projeto Microsoft Foundry com um modelo do tipo de implantação GlobalStandard ou DataZoneStandard implantado.
Versões 2025-12-01 de modelo ou posteriores.

Principais casos de uso

Latência consistente e baixa para experiências de usuário responsivas.
Simplicidade paga conforme o uso sem compromissos de longo prazo.
Tráfego em horário comercial ou com picos que se beneficia de um desempenho escalável e custo-eficiente. Opcionalmente, você pode combinar o processamento prioritário com Unidades de Taxa de Transferência Provisionada (PTU) para otimização de capacidade e custo em estado estacionário.

Meta de latência

Modelo	Valor de destino de latência²
gpt-5.4, 2026-03-05¹	99% > 50 tokens por segundo
gpt-5.2, 2025-12-11	99% > 50 tokens por segundo
gpt-5.1, 2025-11-13	99% > 50 tokens por segundo
gpt-4.1, 2025-04-14¹	99% > 80 tokens por segundo

¹ Solicitações de contexto longo (ou seja, solicitações estimadas em tokens de prompt maiores que 128k) serão rebaixadas para o processamento padrão e você será cobrado na taxa de camada padrão.

² Calculado como latência de solicitação p50 por 5 minutos.

Disponibilidade de processamento prioritário por tipo de implantação

O processamento de prioridade pode ser habilitado em implantações padrão global ou implantações padrão da Zona de Dados (EUA). Para obter informações sobre preços, consulte a página de preços Azure OpenAI.

Padrão global
Padrão da Zona de Dados

Disponibilidade de modelo padrão global

Região	gpt-5.5, 2026-04-24	gpt-5.4-mini, 2026-03-17	gpt-5.4, 2026-03-05	gpt-5.2, 2025-12-11	gpt-5.1, 2025-11-13	gpt-4.1, 2025-04-14
australiaeast	-	✅	✅	✅	✅	✅
brazilsouth	-	✅	✅	✅	✅	✅
canadacentral	-	✅	✅	✅	✅	✅
canadaeast	-	✅	✅	✅	✅	✅
centralus	-	✅	✅	✅	✅	✅
eastus	-	✅	✅	✅	✅	✅
francecentral	-	✅	✅	✅	✅	✅
germanywestcentral	-	✅	✅	✅	✅	✅
italynorth	-	✅	✅	✅	✅	✅
japaneast	-	✅	✅	✅	✅	✅
koreacentral	-	✅	✅	✅	✅	✅
northcentralus	-	✅	✅	✅	✅	✅
norwayeast	-	✅	✅	✅	✅	✅
Polônia Central	✅	✅	✅	✅	✅	✅
southafricanorth	-	✅	✅	✅	✅	✅
southcentralus	✅	✅	✅	✅	✅	✅
southeastasia	-	✅	✅	✅	✅	✅
sul da Índia	-	✅	✅	✅	✅	✅
spaincentral	-	✅	✅	✅	✅	✅
swedencentral	✅	✅	✅	✅	✅	✅
norte da Suíça	-	✅	✅	✅	✅	✅
SwitzerlandWest	-	✅	✅	✅	✅	✅
uaenorth	-	✅	✅	✅	✅	✅
uksouth	-	✅	✅	✅	✅	✅
westeurope	-	✅	✅	✅	✅	✅
westus	-	✅	✅	✅	✅	✅
westus3	-	✅	✅	✅	✅	✅

Disponibilidade do modelo padrão da zona de dados

Região	gpt-5.5, 2026-04-24	gpt-5.4-mini, 2026-03-17	gpt-5.4, 2026-03-05	gpt-5.2, 2025-12-11	gpt-5.1, 2025-11-13	gpt-4.1, 2025-04-14
centralus	-	✅	✅	✅	✅	✅
eastus	-	✅	✅	✅	✅	✅
northcentralus	-	✅	✅	✅	✅	✅
southcentralus	✅	✅	✅	✅	✅	✅
westus	-	✅	✅	✅	✅	✅
westus3	-	✅	✅	✅	✅	✅

Habilitar o processamento de prioridade no nível de implantação

Você pode habilitar o processamento de prioridade no nível de implantação e (opcionalmente) no nível da solicitação.

Nota

O processamento de prioridade pode ser habilitado em implantações padrão global ou padrão da Zona de Dados (EUA). O processamento de prioridade usa a mesma cota que o processamento padrão.

No portal Microsoft Foundry, ative o alternador de Priority processing na página de detalhes da implantação ao criar a implantação ou atualize a configuração de um modelo já implantado editando os detalhes da implantação.

Nota

Se você preferir usar o código para habilitar o processamento de prioridade no nível de implantação, poderá fazê-lo por meio da API REST para implantação definindo o service_tier atributo da seguinte maneira: "properties" : {"service_tier" : "priority"}. Os valores permitidos para o service_tier atributo são default e priority. default implica o processamento padrão, enquanto priority habilita o processamento de prioridade.

Depois que uma implantação de modelo é configurada para usar o processamento de prioridade, você pode começar a enviar solicitações para o modelo.

Exibir métricas de uso

Você pode exibir a medida de utilização do recurso na seção Azure Monitor no portal do Azure.

Para exibir o volume de solicitações processadas pelo processamento padrão versus o processamento de prioridade, divida pela camada de serviço (padrão ou prioridade) que estava na solicitação original:

Entre em https://portal.azure.com.
Vá para o recurso Azure OpenAI e selecione a opção Metrics na navegação à esquerda.
Na página de métricas, adicione a métrica Azure OpenAI requests. Você também pode selecionar outras métricas, como latência do Azure OpenAI, uso do Azure OpenAI e outras.
Selecione Adicionar filtro para selecionar a implantação padrão para a qual as solicitações de processamento de prioridade foram processadas.
Selecione Aplicar divisão para dividir os valores por ServiceTierRequest e ServiceTierResponse.

Para obter mais informações sobre como monitorar suas implantações, consulte Monitor Azure OpenAI.

Monitorar custos

Você pode ver uma análise dos custos para solicitações prioritárias e padrão na página de análise de custos do portal do Azure, filtrando pelo nome da implantação e pelas tags de cobrança da seguinte maneira:

Vá para a página de análise de custos no Azure portal.
(Opcional) Filtrar por recurso.
Para filtrar pelo nome da implantação: adicione um filtro para a Tag de cobrança, selecione "implantação" como o valor e escolha o nome da implantação.

Para obter informações sobre preços para processamento de prioridade, consulte a visão geral de preços Serviço OpenAI do Azure.

Habilitar o processamento de prioridade no nível da solicitação

Habilitar o processamento de prioridade no nível da solicitação é opcional. A API de conclusões de chat e a API de respostas têm um atributo service_tier opcional que especifica o tipo de processamento a ser usado ao atender a uma solicitação. O exemplo a seguir mostra como definir service_tier para priority em uma requisição de resposta.

curl -X POST https://YOUR-RESOURCE-NAME.openai.azure.com/openai/v1/responses \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer $AZURE_OPENAI_AUTH_TOKEN" \
  -d '{
     "model": "gpt-4.1",
     "input": "This is a test",
     "service_tier": "priority"
    }'

Use o service_tier atributo para substituir a configuração de nível de implantação. service_tier pode levar os valores auto, defaulte priority.

Se você não definir o atributo, ele usará como padrão auto.
service_tier = auto significa que a solicitação usa a camada de serviço configurada na implantação.
service_tier = default significa que a solicitação usa o preço e o desempenho padrão para o modelo selecionado.
service_tier = priority significa que a solicitação usa a camada de serviço de processamento de prioridade.

A tabela a seguir resume qual camada de serviço processa suas solicitações com base nas configurações de nível de implantação e de solicitação para service_tier.

Configuração de nível de implementação	Configuração no nível da solicitação	Solicitação processada por camada de serviço
padrão	auto, padrão	Standard
padrão	Prioridade	Processamento prioritário
Prioridade	auto, prioridade	Processamento prioritário
Prioridade	padrão	Standard

Limitações

Atualmente, o serviço não dá suporte a implantações padrão regionais e implantações padrão de zona de dados da União Europeia.
O serviço pode redirecionar algumas solicitações de prioridade para o processamento padrão* durante estes cenários:
- Se aumentar rapidamente seus tokens de processamento de prioridade por minuto, leve a atingir os limites de taxa de rampa. Atualmente, o limite de taxa de rampa é definido como um aumento do tráfego em mais de 50% de tokens por minuto em menos de 15 minutos.
- Durante períodos de solicitações em pico para processamento prioritário.
- Solicitações de contexto longo enviadas a determinados modelos listados na tabela de metas de latência.
Dica

Se você encontrar rotineiramente limites de taxa de rampa, considere a compra de PTU em vez de ou além do processamento de prioridade.

* O serviço cobra as solicitações processadas pela camada de serviço padrão a taxas padrão. As solicitações processadas pela camada de serviço padrão incluem service_tier = default na resposta, enquanto as solicitações processadas pela camada de processamento de prioridade incluem service_tier = priority na resposta.

Solucionando problemas

Questão	Causa	Resolução
Solicitações rebaixadas para a camada padrão	Uma destas situações: - O tráfego aumentou mais de 50% tokens por minuto em menos de 15 minutos, atingindo o limite de taxa de aumento. - Solicitações enviadas durante períodos de pico de solicitações para processamento de prioridade. - Solicitações de contexto longo enviadas para determinados modelos listados na tabela de latência alvo.	- Aumente o tráfego gradualmente, se você tiver encontrado limites de taxa de rampa. Considere a compra de PTU para capacidade em estado estacionário.

Comentários

Esta página foi útil?

Last updated on 2026-04-30