Microsoft Foundry モデルの優先度処理を有効にする

優先順位処理により、待機時間の短いパフォーマンスと、従量課金制の柔軟性が提供されます。この記事では、モデルデプロイで優先順位の処理を有効にし、要求を処理したサービスレベルを確認し、関連するコストを監視します。

[前提条件]

Azure サブスクリプション - 無料で作成。
配置の種類が GlobalStandard または DataZoneStandard のモデルを持つMicrosoft Foundry プロジェクト。
モデルバージョン 2025-12-01 以降。

主なユースケース

応答性の高いユーザーエクスペリエンスのための一貫性のある低待機時間 。
長期的なコミットメントを持たない従量課金制のシンプルさ。
スケーラブルでコスト効率の高いパフォーマンスを活用できる、営業時間内のトラフィックまたはバーストが発生するトラフィック。必要に応じて、優先順位の処理とプロビジョニング済みスループットユニット (PTU) を組み合わせて、安定した状態の容量とコストの最適化を行うことができます。

レイテンシターゲット

Model	待機時間の目標値²
gpt-5.4、2026-03-05¹	99% > 50 トークン/秒
gpt-5.2、 2025-12-11	99% > 50 トークン/秒
gpt-5.1、 2025-11-13	99% > 50 トークン/秒
gpt-4.1、2025-04-14¹	99% > 80 トークン/秒

¹ つの長いコンテキスト要求 (つまり、128k を上回るプロンプトトークンであると推定される要求) は標準処理へと格下げされ、Standard レベルの料金で課金されます。

² 5 分ごとに p50 要求待機時間として計算されます。

デプロイの種類別の優先順位処理の可用性

優先度処理は、グローバル標準デプロイまたはデータゾーン標準 (米国) デプロイで有効にすることができます。価格については、「 OpenAI の価格に関するAzureページを参照してください。

グローバル標準
データゾーン標準

グローバル標準モデルの可用性

リージョン	gpt-5.4-mini、 2026-03-17	gpt-5.4、 2026-03-05	gpt-5.2、 2025-12-11	gpt-5.1、 2025-11-13	gpt-4.1、 2025-04-14
オーストラリアイースト	✅	✅	✅	✅	✅
ブラジルサウス	✅	✅	✅	✅	✅
カナダ中部	✅	✅	✅	✅	✅
カナダ東部	✅	✅	✅	✅	✅
セントララス	✅	✅	✅	✅	✅
イーストアス	✅	✅	✅	✅	✅
francecentral	✅	✅	✅	✅	✅
ドイツ中西部	✅	✅	✅	✅	✅
italynorth	✅	✅	✅	✅	✅
japaneast	✅	✅	✅	✅	✅
コリアセントラル	✅	✅	✅	✅	✅
ノースセントラルUS	✅	✅	✅	✅	✅
ノルウェーイースト	✅	✅	✅	✅	✅
polandcentral	✅	✅	✅	✅	✅
southafricanorth	✅	✅	✅	✅	✅
サウスセントラル	✅	✅	✅	✅	✅
southeastasia	✅	✅	✅	✅	✅
南インド	✅	✅	✅	✅	✅
spaincentral	✅	✅	✅	✅	✅
swedencentral	✅	✅	✅	✅	✅
スイスノース	✅	✅	✅	✅	✅
switzerlandwest	✅	✅	✅	✅	✅
uaenorth	✅	✅	✅	✅	✅
ウクサウス	✅	✅	✅	✅	✅
西ヨーロッパ	✅	✅	✅	✅	✅
ウェストユーエス	✅	✅	✅	✅	✅
westus3	✅	✅	✅	✅	✅

データゾーン標準モデルの可用性

リージョン	gpt-5.4-mini、 2026-03-17	gpt-5.4、 2026-03-05	gpt-5.2、 2025-12-11	gpt-5.1、 2025-11-13	gpt-4.1、 2025-04-14
セントララス	✅	✅	✅	✅	✅
イーストアス	✅	✅	✅	✅	✅
ノースセントラルUS	✅	✅	✅	✅	✅
サウスセントラル	✅	✅	✅	✅	✅
ウェストユーエス	✅	✅	✅	✅	✅
westus3	✅	✅	✅	✅	✅

デプロイレベルで優先度処理を有効にする

優先順位処理は、デプロイレベルで有効にし、(必要に応じて) 要求レベルで有効にすることができます。

注

優先度処理は、グローバル標準またはデータゾーン標準 (米国) のデプロイで有効にすることができます。優先度処理では、標準処理と同じクォータが使用されます。

Microsoft Foundry ポータルで、デプロイの作成時にデプロイの詳細ページで Priority 処理 トグルをオンにするか、デプロイの詳細を編集してデプロイモデルの設定を更新します。

注

コードを使用してデプロイレベルで優先順位の処理を有効にする場合は、デプロイ用の REST API を使用して、 service_tier 属性を次のように設定できます: "properties" : {"service_tier" : "priority"}。 service_tier属性に許可されている値はdefaultおよびpriorityです。 default は標準処理を意味し、 priority は優先順位処理を有効にします。

優先順位処理を使用するようにモデルデプロイを構成したら、モデルへの要求の送信を開始できます。

使用状況メトリックを表示する

リソースの使用率メジャーは、Azure ポータルの Azure Monitor セクションで確認できます。

標準処理と優先度処理で処理された要求の量を表示するには、元の要求にあったサービスレベル (標準または優先度) で分割します。

https://portal.azure.com にサインインします。
Azure OpenAI リソースに移動し、左側のナビゲーションから Metrics オプションを選択します。
[メトリック] ページで、Azure OpenAI 要求 メトリックを追加します。 Azure OpenAI 待機時間、Azure OpenAI の使用状況などの他のメトリックを選択することもできます。
[ フィルターの追加] を選択して、優先度処理要求が処理された標準のデプロイを選択します。
[ 分割の適用] を選択して、 ServiceTierRequest と ServiceTierResponse で値を分割します。

デプロイの監視の詳細については、「Monitor Azure OpenAI」を参照してください。

コストを監視する

Azure ポータルのコスト分析ページで、優先順位と標準要求のコストの内訳を確認するには、デプロイ名と課金タグを次のようにフィルター処理します。

Azure ポータルのコスト分析ページに移動します。
(省略可能)リソースをフィルターする基準として選択します。
デプロイ名でフィルター処理する: 課金タグ>にフィルターを追加し、値としてデプロイを選択し、デプロイ名を選択します。

優先順位処理の価格については、Azure OpenAI Service 価格の概要を参照してください。

要求レベルで優先度処理を有効にする

要求レベルでの優先順位処理の有効化は 省略可能です。チャット完了 API と応答 API の両方に、要求を処理するときに使用する処理の種類を指定する省略可能な属性 service_tier があります。次の例は、応答要求で service_tier を priority に設定する方法を示しています。

curl -X POST https://YOUR-RESOURCE-NAME.openai.azure.com/openai/v1/responses \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer $AZURE_OPENAI_AUTH_TOKEN" \
  -d '{
     "model": "gpt-4.1",
     "input": "This is a test",
     "service_tier": "priority"
    }'

service_tier属性を使用して、デプロイレベルの設定をオーバーライドします。 service_tier は、 auto、 default、および priorityの値を受け取ることができます。

属性を設定しない場合、既定では auto になります。
service_tier = auto は、要求がデプロイで構成されたサービスレベルを使用します。
service_tier = default は、選択したモデルの標準価格とパフォーマンスが要求で使用されます。
service_tier = priority は、要求で優先度処理サービスレベルが使用されます。

次の表は、 service_tierのデプロイレベルと要求レベルの設定に基づいて、要求を処理するサービスレベルをまとめたものです。

展開レベルの設定	要求レベルの設定	サービスレベルによって処理される要求
デフォルト	auto、既定値	Standard
デフォルト	priority	優先処理
priority	自動、優先度	優先処理
priority	デフォルト	Standard

制限事項

現在、このサービスでは、リージョン標準デプロイと EU データゾーン標準デプロイはサポートされていません。
サービスは、次のシナリオの間に、一部の優先度要求を標準処理* に再ルーティングする場合があります。
- 1 分あたりの優先度処理トークンが急激に増加すると、 ランプレートの制限に達します。現在、ランプレートの制限値は、15 分未満に 1 分あたり 50% を上回るトークンでトラフィックを増やすように定義されています。
- 優先度処理に対するピーク要求の期間中。
- 待機時間ターゲットテーブルに一覧表示されている特定のモデルに送信される長いコンテキスト要求。
ヒント

ランプレートの制限が定期的に発生する場合は、優先順位処理の代わりに、または優先処理に加えて PTU を購入することを検討してください。

* サービスは、Standard サービスレベルによって処理された要求を標準料金で請求します。 Standard サービスレベルで処理される要求には応答に service_tier = default が含まれますが、優先順位処理レベルで処理される要求には応答に service_tier = priority が含まれます。

トラブルシューティング

問題点	原因	解決策
Standard レベルにダウングレードされた要求	次のいずれかの状況があります。 - トラフィックは 15 分未満で 1 分あたり 50% トークンを超え、ランプレート制限に達しました。 - 優先度の高い処理に対するピーク要求の期間中に送信された要求。 - 待機時間ターゲットテーブルに一覧表示されている特定のモデルに送信される長いコンテキスト要求。	- ランプレートの制限が発生した場合は、トラフィックを徐々に増やします。 - 安定した状態の容量を得るための PTU の購入を検討します。

フィードバック

このページはお役に立ちましたか?

Last updated on 2026-04-23