Microsoft Foundry モデルの優先度処理を有効にする

優先順位処理により、待機時間の短いパフォーマンスと、従量課金制の柔軟性が提供されます。 この記事では、モデル デプロイで優先順位の処理を有効にし、要求を処理したサービス レベルを確認し、関連するコストを監視します。

[前提条件]

  • Azure サブスクリプション - 無料で作成
  • 配置の種類が GlobalStandard または DataZoneStandard のモデルを持つMicrosoft Foundry プロジェクト。
  • モデル バージョン 2025-12-01 以降。

主なユース ケース

  • 応答性の高いユーザー エクスペリエンスのための一貫性のある低待機時間
  • 長期的なコミットメントを持たない従量課金制のシンプルさ
  • スケーラブルでコスト効率の高いパフォーマンスを活用できる、営業時間内のトラフィックまたはバーストが発生するトラフィック。 必要に応じて、優先順位の処理とプロビジョニング済みスループット ユニット (PTU) を組み合わせて、安定した状態の容量とコストの最適化を行うことができます。

レイテンシターゲット

Model 待機時間の目標値2
gpt-5.4、2026-03-051 99% > 50 トークン/秒
gpt-5.2、 2025-12-11 99% > 50 トークン/秒
gpt-5.1、 2025-11-13 99% > 50 トークン/秒
gpt-4.1、2025-04-141 99% > 80 トークン/秒

1 つの長いコンテキスト要求 (つまり、128k を上回るプロンプト トークンであると推定される要求) は標準処理へと格下げされ、Standard レベルの料金で課金されます。

2 5 分ごとに p50 要求待機時間として計算されます。

デプロイの種類別の優先順位処理の可用性

優先度処理は、グローバル標準デプロイまたはデータ ゾーン標準 (米国) デプロイで有効にすることができます。 価格については、「 OpenAI の価格に関するAzureページを参照してください。

グローバル標準モデルの可用性

リージョン gpt-5.4-mini2026-03-17 gpt-5.42026-03-05 gpt-5.22025-12-11 gpt-5.12025-11-13 gpt-4.12025-04-14
オーストラリアイースト
ブラジルサウス
カナダ中部
カナダ東部
セントララス
イーストアス
francecentral
ドイツ中西部
italynorth
japaneast
コリアセントラル
ノースセントラルUS
ノルウェーイースト
polandcentral
southafricanorth
サウスセントラル
southeastasia
南インド
spaincentral
swedencentral
スイスノース
switzerlandwest
uaenorth
ウクサウス
西ヨーロッパ
ウェストユーエス
westus3

デプロイ レベルで優先度処理を有効にする

優先順位処理は、デプロイ レベルで有効にし 、(必要に応じて) 要求レベルで有効にすることができます。

優先度処理は、グローバル標準またはデータ ゾーン標準 (米国) のデプロイで有効にすることができます。 優先度処理では、標準処理と同じクォータが使用されます。

Microsoft Foundry ポータルで、デプロイの作成時にデプロイの詳細ページで Priority 処理 トグルをオンにするか、デプロイの詳細を編集してデプロイ モデルの設定を更新します。

Foundry ポータルでモデルのデプロイ中に優先度の処理を有効にする方法を示すスクリーンショット。

コードを使用してデプロイ レベルで優先順位の処理を有効にする場合は、デプロイ用の REST API を使用して、 service_tier 属性を次のように設定できます: "properties" : {"service_tier" : "priority"}service_tier属性に許可されている値はdefaultおよびpriorityです。 default は標準処理を意味し、 priority は優先順位処理を有効にします。

優先順位処理を使用するようにモデル デプロイを構成したら、モデルへの要求の送信を開始できます。

使用状況メトリックを表示する

リソースの使用率メジャーは、Azure ポータルの Azure Monitor セクションで確認できます。

標準処理と優先度処理で処理された要求の量を表示するには、元の要求にあったサービス レベル (標準または優先度) で分割します。

  1. https://portal.azure.com にサインインします。
  2. Azure OpenAI リソースに移動し、左側のナビゲーションから Metrics オプションを選択します。
  3. [メトリック] ページで、Azure OpenAI 要求 メトリックを追加します。 Azure OpenAI 待機時間Azure OpenAI の使用状況などの他のメトリックを選択することもできます。
  4. [ フィルターの追加] を選択して、優先度処理要求が処理された標準のデプロイを選択します。
  5. [ 分割の適用] を選択して、 ServiceTierRequestServiceTierResponse で値を分割します。

Azure ポータルのリソースメトリックページにおける優先度処理使用率のスクリーンショット

デプロイの監視の詳細については、「Monitor Azure OpenAI」を参照してください。

コストを監視する

Azure ポータルのコスト分析ページで、優先順位と標準要求のコストの内訳を確認するには、デプロイ名と課金タグを次のようにフィルター処理します。

  1. Azure ポータルのコスト分析ページに移動します。
  2. (省略可能)リソースをフィルターする基準として選択します。
  3. デプロイ名でフィルター処理する: 課金タグ>にフィルターを追加し、値としてデプロイを選択し、デプロイ名を選択します。

Azure portal のリソースのコスト分析ページの優先度処理使用率のスクリーンショット。

優先順位処理の価格については、Azure OpenAI Service 価格の概要を参照してください。

要求レベルで優先度処理を有効にする

要求レベルでの優先順位処理の有効化は 省略可能です。 チャット完了 API と応答 API の両方に、要求を処理するときに使用する処理の種類を指定する省略可能な属性 service_tier があります。 次の例は、応答要求で service_tierpriority に設定する方法を示しています。

curl -X POST https://YOUR-RESOURCE-NAME.openai.azure.com/openai/v1/responses \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer $AZURE_OPENAI_AUTH_TOKEN" \
  -d '{
     "model": "gpt-4.1",
     "input": "This is a test",
     "service_tier": "priority"
    }'

service_tier属性を使用して、デプロイ レベルの設定をオーバーライドします。 service_tier は、 autodefault、および priorityの値を受け取ることができます。

  • 属性を設定しない場合、既定では auto になります。

  • service_tier = auto は、要求がデプロイで構成されたサービス レベルを使用します。

  • service_tier = default は、選択したモデルの標準価格とパフォーマンスが要求で使用されます。

  • service_tier = priority は、要求で優先度処理サービス レベルが使用されます。

次の表は、 service_tierのデプロイ レベルと要求レベルの設定に基づいて、要求を処理するサービス レベルをまとめたものです。

展開レベルの設定 要求レベルの設定 サービス レベルによって処理される要求
デフォルト auto、既定値 Standard
デフォルト priority 優先処理
priority 自動、優先度 優先処理
priority デフォルト Standard

制限事項

  • 現在、このサービスでは、リージョン標準デプロイと EU データゾーン標準デプロイはサポートされていません。

  • サービスは、次のシナリオの間に、一部の優先度要求を標準処理* に再ルーティングする場合があります。

    • 1 分あたりの優先度処理トークンが急激に増加すると、 ランプ レートの制限に達します。 現在、ランプ レートの制限値は、15 分未満に 1 分あたり 50% を上回るトークンでトラフィックを増やすように定義されています。
    • 優先度処理に対するピーク要求の期間中。
    • 待機時間ターゲット テーブルに一覧表示されている特定のモデルに送信される長いコンテキスト要求。

    ヒント

    ランプ レートの制限が定期的に発生する場合は、優先順位処理の代わりに、または優先処理に加えて PTU を購入することを検討してください。

    * サービスは、Standard サービス レベルによって処理された要求を標準料金で請求します。 Standard サービス レベルで処理される要求には応答に service_tier = default が含まれますが、優先順位処理レベルで処理される要求には応答に service_tier = priority が含まれます。

トラブルシューティング

問題点 原因 解決策
Standard レベルにダウングレードされた要求 次のいずれかの状況があります。
- トラフィックは 15 分未満で 1 分あたり 50% トークンを超え、ランプ レート制限に達しました。
- 優先度の高い処理に対するピーク要求の期間中に送信された要求。
- 待機時間ターゲット テーブルに一覧表示されている特定のモデルに送信される長いコンテキスト要求。
- ランプ レートの制限が発生した場合は、トラフィックを徐々に増やします。
- 安定した状態の容量を得るための PTU の購入を検討します。