Observação
O acesso a essa página exige autorização. Você pode tentar entrar ou alterar diretórios.
O acesso a essa página exige autorização. Você pode tentar alterar os diretórios.
O processamento prioritário fornece desempenho de baixa latência com a flexibilidade do pagamento conforme o uso. Neste artigo, você habilita o processamento de prioridade em uma implantação de modelo, verifica qual camada de serviço processou suas solicitações e monitora os custos associados.
Pré-requisitos
- Uma assinatura Azure – Criar uma gratuitamente.
- Um projeto Microsoft Foundry com um modelo do tipo de implantação
GlobalStandardouDataZoneStandardimplantado. - Versões
2025-12-01de modelo ou posteriores.
Principais casos de uso
- Latência consistente e baixa para experiências de usuário responsivas.
- Simplicidade paga conforme o uso sem compromissos de longo prazo.
- Tráfego em horário comercial ou com picos que se beneficia de um desempenho escalável e custo-eficiente. Opcionalmente, você pode combinar o processamento prioritário com Unidades de Taxa de Transferência Provisionada (PTU) para otimização de capacidade e custo em estado estacionário.
Meta de latência
| Modelo | Valor de destino de latência2 |
|---|---|
| gpt-5.4, 2026-03-051 | 99% > 50 tokens por segundo |
| gpt-5.2, 2025-12-11 | 99% > 50 tokens por segundo |
| gpt-5.1, 2025-11-13 | 99% > 50 tokens por segundo |
| gpt-4.1, 2025-04-141 | 99% > 80 tokens por segundo |
1 Solicitações de contexto longo (ou seja, solicitações estimadas em tokens de prompt maiores que 128k) serão rebaixadas para o processamento padrão e você será cobrado na taxa de camada padrão.
2 Calculado como latência de solicitação p50 por 5 minutos.
Disponibilidade de processamento prioritário por tipo de implantação
O processamento de prioridade pode ser habilitado em implantações padrão global ou implantações padrão da Zona de Dados (EUA). Para obter informações sobre preços, consulte a página de preços Azure OpenAI.
Disponibilidade de modelo padrão global
| Região | gpt-5.5, 2026-04-24 | gpt-5.4-mini, 2026-03-17 | gpt-5.4, 2026-03-05 | gpt-5.2, 2025-12-11 | gpt-5.1, 2025-11-13 | gpt-4.1, 2025-04-14 |
|---|---|---|---|---|---|---|
| australiaeast | - | ✅ | ✅ | ✅ | ✅ | ✅ |
| brazilsouth | - | ✅ | ✅ | ✅ | ✅ | ✅ |
| canadacentral | - | ✅ | ✅ | ✅ | ✅ | ✅ |
| canadaeast | - | ✅ | ✅ | ✅ | ✅ | ✅ |
| centralus | - | ✅ | ✅ | ✅ | ✅ | ✅ |
| eastus | - | ✅ | ✅ | ✅ | ✅ | ✅ |
| francecentral | - | ✅ | ✅ | ✅ | ✅ | ✅ |
| germanywestcentral | - | ✅ | ✅ | ✅ | ✅ | ✅ |
| italynorth | - | ✅ | ✅ | ✅ | ✅ | ✅ |
| japaneast | - | ✅ | ✅ | ✅ | ✅ | ✅ |
| koreacentral | - | ✅ | ✅ | ✅ | ✅ | ✅ |
| northcentralus | - | ✅ | ✅ | ✅ | ✅ | ✅ |
| norwayeast | - | ✅ | ✅ | ✅ | ✅ | ✅ |
| Polônia Central | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| southafricanorth | - | ✅ | ✅ | ✅ | ✅ | ✅ |
| southcentralus | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| southeastasia | - | ✅ | ✅ | ✅ | ✅ | ✅ |
| sul da Índia | - | ✅ | ✅ | ✅ | ✅ | ✅ |
| spaincentral | - | ✅ | ✅ | ✅ | ✅ | ✅ |
| swedencentral | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| norte da Suíça | - | ✅ | ✅ | ✅ | ✅ | ✅ |
| SwitzerlandWest | - | ✅ | ✅ | ✅ | ✅ | ✅ |
| uaenorth | - | ✅ | ✅ | ✅ | ✅ | ✅ |
| uksouth | - | ✅ | ✅ | ✅ | ✅ | ✅ |
| westeurope | - | ✅ | ✅ | ✅ | ✅ | ✅ |
| westus | - | ✅ | ✅ | ✅ | ✅ | ✅ |
| westus3 | - | ✅ | ✅ | ✅ | ✅ | ✅ |
Habilitar o processamento de prioridade no nível de implantação
Você pode habilitar o processamento de prioridade no nível de implantação e (opcionalmente) no nível da solicitação.
Nota
O processamento de prioridade pode ser habilitado em implantações padrão global ou padrão da Zona de Dados (EUA). O processamento de prioridade usa a mesma cota que o processamento padrão.
No portal Microsoft Foundry, ative o alternador de Priority processing na página de detalhes da implantação ao criar a implantação ou atualize a configuração de um modelo já implantado editando os detalhes da implantação.
Nota
Se você preferir usar o código para habilitar o processamento de prioridade no nível de implantação, poderá fazê-lo por meio da API REST para implantação definindo o service_tier atributo da seguinte maneira: "properties" : {"service_tier" : "priority"}. Os valores permitidos para o service_tier atributo são default e priority.
default implica o processamento padrão, enquanto priority habilita o processamento de prioridade.
Depois que uma implantação de modelo é configurada para usar o processamento de prioridade, você pode começar a enviar solicitações para o modelo.
Exibir métricas de uso
Você pode exibir a medida de utilização do recurso na seção Azure Monitor no portal do Azure.
Para exibir o volume de solicitações processadas pelo processamento padrão versus o processamento de prioridade, divida pela camada de serviço (padrão ou prioridade) que estava na solicitação original:
- Entre em https://portal.azure.com.
- Vá para o recurso Azure OpenAI e selecione a opção Metrics na navegação à esquerda.
- Na página de métricas, adicione a métrica Azure OpenAI requests. Você também pode selecionar outras métricas, como latência do Azure OpenAI, uso do Azure OpenAI e outras.
- Selecione Adicionar filtro para selecionar a implantação padrão para a qual as solicitações de processamento de prioridade foram processadas.
- Selecione Aplicar divisão para dividir os valores por ServiceTierRequest e ServiceTierResponse.
Para obter mais informações sobre como monitorar suas implantações, consulte Monitor Azure OpenAI.
Monitorar custos
Você pode ver uma análise dos custos para solicitações prioritárias e padrão na página de análise de custos do portal do Azure, filtrando pelo nome da implantação e pelas tags de cobrança da seguinte maneira:
- Vá para a página de análise de custos no Azure portal.
- (Opcional) Filtrar por recurso.
- Para filtrar pelo nome da implantação: adicione um filtro para a Tag de cobrança, selecione "implantação" como o valor e escolha o nome da implantação.
Para obter informações sobre preços para processamento de prioridade, consulte a visão geral de preços Serviço OpenAI do Azure.
Habilitar o processamento de prioridade no nível da solicitação
Habilitar o processamento de prioridade no nível da solicitação é opcional. A API de conclusões de chat e a API de respostas têm um atributo service_tier opcional que especifica o tipo de processamento a ser usado ao atender a uma solicitação. O exemplo a seguir mostra como definir service_tier para priority em uma requisição de resposta.
curl -X POST https://YOUR-RESOURCE-NAME.openai.azure.com/openai/v1/responses \
-H "Content-Type: application/json" \
-H "Authorization: Bearer $AZURE_OPENAI_AUTH_TOKEN" \
-d '{
"model": "gpt-4.1",
"input": "This is a test",
"service_tier": "priority"
}'
Use o service_tier atributo para substituir a configuração de nível de implantação.
service_tier pode levar os valores auto, defaulte priority.
Se você não definir o atributo, ele usará como padrão
auto.service_tier = autosignifica que a solicitação usa a camada de serviço configurada na implantação.service_tier = defaultsignifica que a solicitação usa o preço e o desempenho padrão para o modelo selecionado.service_tier = prioritysignifica que a solicitação usa a camada de serviço de processamento de prioridade.
A tabela a seguir resume qual camada de serviço processa suas solicitações com base nas configurações de nível de implantação e de solicitação para service_tier.
| Configuração de nível de implementação | Configuração no nível da solicitação | Solicitação processada por camada de serviço |
|---|---|---|
| padrão | auto, padrão | Standard |
| padrão | Prioridade | Processamento prioritário |
| Prioridade | auto, prioridade | Processamento prioritário |
| Prioridade | padrão | Standard |
Limitações
Atualmente, o serviço não dá suporte a implantações padrão regionais e implantações padrão de zona de dados da União Europeia.
O serviço pode redirecionar algumas solicitações de prioridade para o processamento padrão* durante estes cenários:
- Se aumentar rapidamente seus tokens de processamento de prioridade por minuto, leve a atingir os limites de taxa de rampa. Atualmente, o limite de taxa de rampa é definido como um aumento do tráfego em mais de 50% de tokens por minuto em menos de 15 minutos.
- Durante períodos de solicitações em pico para processamento prioritário.
- Solicitações de contexto longo enviadas a determinados modelos listados na tabela de metas de latência.
Dica
Se você encontrar rotineiramente limites de taxa de rampa, considere a compra de PTU em vez de ou além do processamento de prioridade.
* O serviço cobra as solicitações processadas pela camada de serviço padrão a taxas padrão. As solicitações processadas pela camada de serviço padrão incluem
service_tier = defaultna resposta, enquanto as solicitações processadas pela camada de processamento de prioridade incluemservice_tier = priorityna resposta.
Solucionando problemas
| Questão | Causa | Resolução |
|---|---|---|
| Solicitações rebaixadas para a camada padrão | Uma destas situações: - O tráfego aumentou mais de 50% tokens por minuto em menos de 15 minutos, atingindo o limite de taxa de aumento. - Solicitações enviadas durante períodos de pico de solicitações para processamento de prioridade. - Solicitações de contexto longo enviadas para determinados modelos listados na tabela de latência alvo. |
- Aumente o tráfego gradualmente, se você tiver encontrado limites de taxa de rampa. Considere a compra de PTU para capacidade em estado estacionário. |