Habilitar o processamento de prioridade para modelos de Microsoft Foundry

O processamento prioritário fornece desempenho de baixa latência com a flexibilidade do pagamento conforme o uso. Neste artigo, você habilita o processamento de prioridade em uma implantação de modelo, verifica qual camada de serviço processou suas solicitações e monitora os custos associados.

Pré-requisitos

  • Uma assinatura Azure – Criar uma gratuitamente.
  • Um projeto Microsoft Foundry com um modelo do tipo de implantação GlobalStandard ou DataZoneStandard implantado.
  • Versões 2025-12-01 de modelo ou posteriores.

Principais casos de uso

  • Latência consistente e baixa para experiências de usuário responsivas.
  • Simplicidade paga conforme o uso sem compromissos de longo prazo.
  • Tráfego em horário comercial ou com picos que se beneficia de um desempenho escalável e custo-eficiente. Opcionalmente, você pode combinar o processamento prioritário com Unidades de Taxa de Transferência Provisionada (PTU) para otimização de capacidade e custo em estado estacionário.

Meta de latência

Modelo Valor de destino de latência2
gpt-5.4, 2026-03-051 99% > 50 tokens por segundo
gpt-5.2, 2025-12-11 99% > 50 tokens por segundo
gpt-5.1, 2025-11-13 99% > 50 tokens por segundo
gpt-4.1, 2025-04-141 99% > 80 tokens por segundo

1 Solicitações de contexto longo (ou seja, solicitações estimadas em tokens de prompt maiores que 128k) serão rebaixadas para o processamento padrão e você será cobrado na taxa de camada padrão.

2 Calculado como latência de solicitação p50 por 5 minutos.

Disponibilidade de processamento prioritário por tipo de implantação

O processamento de prioridade pode ser habilitado em implantações padrão global ou implantações padrão da Zona de Dados (EUA). Para obter informações sobre preços, consulte a página de preços Azure OpenAI.

Disponibilidade de modelo padrão global

Região gpt-5.5, 2026-04-24 gpt-5.4-mini, 2026-03-17 gpt-5.4, 2026-03-05 gpt-5.2, 2025-12-11 gpt-5.1, 2025-11-13 gpt-4.1, 2025-04-14
australiaeast -
brazilsouth -
canadacentral -
canadaeast -
centralus -
eastus -
francecentral -
germanywestcentral -
italynorth -
japaneast -
koreacentral -
northcentralus -
norwayeast -
Polônia Central
southafricanorth -
southcentralus
southeastasia -
sul da Índia -
spaincentral -
swedencentral
norte da Suíça -
SwitzerlandWest -
uaenorth -
uksouth -
westeurope -
westus -
westus3 -

Habilitar o processamento de prioridade no nível de implantação

Você pode habilitar o processamento de prioridade no nível de implantação e (opcionalmente) no nível da solicitação.

Nota

O processamento de prioridade pode ser habilitado em implantações padrão global ou padrão da Zona de Dados (EUA). O processamento de prioridade usa a mesma cota que o processamento padrão.

No portal Microsoft Foundry, ative o alternador de Priority processing na página de detalhes da implantação ao criar a implantação ou atualize a configuração de um modelo já implantado editando os detalhes da implantação.

Captura de tela mostrando como habilitar o processamento de prioridade durante a implantação do modelo no portal do Foundry.

Nota

Se você preferir usar o código para habilitar o processamento de prioridade no nível de implantação, poderá fazê-lo por meio da API REST para implantação definindo o service_tier atributo da seguinte maneira: "properties" : {"service_tier" : "priority"}. Os valores permitidos para o service_tier atributo são default e priority. default implica o processamento padrão, enquanto priority habilita o processamento de prioridade.

Depois que uma implantação de modelo é configurada para usar o processamento de prioridade, você pode começar a enviar solicitações para o modelo.

Exibir métricas de uso

Você pode exibir a medida de utilização do recurso na seção Azure Monitor no portal do Azure.

Para exibir o volume de solicitações processadas pelo processamento padrão versus o processamento de prioridade, divida pela camada de serviço (padrão ou prioridade) que estava na solicitação original:

  1. Entre em https://portal.azure.com.
  2. Vá para o recurso Azure OpenAI e selecione a opção Metrics na navegação à esquerda.
  3. Na página de métricas, adicione a métrica Azure OpenAI requests. Você também pode selecionar outras métricas, como latência do Azure OpenAI, uso do Azure OpenAI e outras.
  4. Selecione Adicionar filtro para selecionar a implantação padrão para a qual as solicitações de processamento de prioridade foram processadas.
  5. Selecione Aplicar divisão para dividir os valores por ServiceTierRequest e ServiceTierResponse.

Captura de tela da utilização do processamento prioritário na página de métricas do recurso no portal do Azure.

Para obter mais informações sobre como monitorar suas implantações, consulte Monitor Azure OpenAI.

Monitorar custos

Você pode ver uma análise dos custos para solicitações prioritárias e padrão na página de análise de custos do portal do Azure, filtrando pelo nome da implantação e pelas tags de cobrança da seguinte maneira:

  1. Vá para a página de análise de custos no Azure portal.
  2. (Opcional) Filtrar por recurso.
  3. Para filtrar pelo nome da implantação: adicione um filtro para a Tag de cobrança, selecione "implantação" como o valor e escolha o nome da implantação.

Screenshot da utilização de processamento prioritário na página de análise de custo do recurso no portal do Azure.

Para obter informações sobre preços para processamento de prioridade, consulte a visão geral de preços Serviço OpenAI do Azure.

Habilitar o processamento de prioridade no nível da solicitação

Habilitar o processamento de prioridade no nível da solicitação é opcional. A API de conclusões de chat e a API de respostas têm um atributo service_tier opcional que especifica o tipo de processamento a ser usado ao atender a uma solicitação. O exemplo a seguir mostra como definir service_tier para priority em uma requisição de resposta.

curl -X POST https://YOUR-RESOURCE-NAME.openai.azure.com/openai/v1/responses \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer $AZURE_OPENAI_AUTH_TOKEN" \
  -d '{
     "model": "gpt-4.1",
     "input": "This is a test",
     "service_tier": "priority"
    }'

Use o service_tier atributo para substituir a configuração de nível de implantação. service_tier pode levar os valores auto, defaulte priority.

  • Se você não definir o atributo, ele usará como padrão auto.

  • service_tier = auto significa que a solicitação usa a camada de serviço configurada na implantação.

  • service_tier = default significa que a solicitação usa o preço e o desempenho padrão para o modelo selecionado.

  • service_tier = priority significa que a solicitação usa a camada de serviço de processamento de prioridade.

A tabela a seguir resume qual camada de serviço processa suas solicitações com base nas configurações de nível de implantação e de solicitação para service_tier.

Configuração de nível de implementação Configuração no nível da solicitação Solicitação processada por camada de serviço
padrão auto, padrão Standard
padrão Prioridade Processamento prioritário
Prioridade auto, prioridade Processamento prioritário
Prioridade padrão Standard

Limitações

  • Atualmente, o serviço não dá suporte a implantações padrão regionais e implantações padrão de zona de dados da União Europeia.

  • O serviço pode redirecionar algumas solicitações de prioridade para o processamento padrão* durante estes cenários:

    • Se aumentar rapidamente seus tokens de processamento de prioridade por minuto, leve a atingir os limites de taxa de rampa. Atualmente, o limite de taxa de rampa é definido como um aumento do tráfego em mais de 50% de tokens por minuto em menos de 15 minutos.
    • Durante períodos de solicitações em pico para processamento prioritário.
    • Solicitações de contexto longo enviadas a determinados modelos listados na tabela de metas de latência.

    Dica

    Se você encontrar rotineiramente limites de taxa de rampa, considere a compra de PTU em vez de ou além do processamento de prioridade.

    * O serviço cobra as solicitações processadas pela camada de serviço padrão a taxas padrão. As solicitações processadas pela camada de serviço padrão incluem service_tier = default na resposta, enquanto as solicitações processadas pela camada de processamento de prioridade incluem service_tier = priority na resposta.

Solucionando problemas

Questão Causa Resolução
Solicitações rebaixadas para a camada padrão Uma destas situações:
- O tráfego aumentou mais de 50% tokens por minuto em menos de 15 minutos, atingindo o limite de taxa de aumento.
- Solicitações enviadas durante períodos de pico de solicitações para processamento de prioridade.
- Solicitações de contexto longo enviadas para determinados modelos listados na tabela de latência alvo.
- Aumente o tráfego gradualmente, se você tiver encontrado limites de taxa de rampa.
Considere a compra de PTU para capacidade em estado estacionário.