ML モデルエンドポイントを使用してリアルタイム予測を提供する (プレビュー)

Von Bedeutung

Microsoft Fabricを使用すると、セキュリティで保護されたスケーラブルで使いやすいオンラインエンドポイントを使用して、ML モデルからリアルタイムの予測を提供できます。これらのエンドポイントは、ほとんどのFabric モデルの組み込みプロパティとして使用でき、フルマネージドのリアルタイムデプロイを開始するためのセットアップは必要ありません。

公開 REST API を使用して、モデルエンドポイントのアクティブ化、構成、クエリを実行できます。また、Fabric インターフェイスから直接開始することもできます。低コードエクスペリエンスを使用して、モデルエンドポイントをアクティブ化し、予測を即座にプレビューできます。

[前提条件]

機械学習モデルエンドポイントは、テナントで既定で有効になっています。管理者がこの機能を無効にする場合は、Fabric管理ポータルで ml モデルエンドポイントのテナントスイッチ> をオフにすることができます。

制限事項

エンドポイントは現在、Keras、LightGBM、Sklearn、XGBoost など、限られた ML モデルフレーバーのセットで使用できます。
現在、エンドポイントは、テンソルベースのスキーマを持つモデルやスキーマがないモデルでは使用できません。

注

2026 年 1 月の時点で、機械学習エンドポイントで AutoML トレーニング済みモデルがサポートされるようになりました。この以前の制限は削除されました。

モデルエンドポイントを開始する

Fabricの ML モデルには、リアルタイム予測を提供するために使用できるオンラインエンドポイントが事前構築されています。登録されている各モデルバージョンには専用のエンドポイント URL があり、Fabric インターフェイスの [エンドポイントの詳細] 見出しの下にあります。この URL は、その特定のバージョン (たとえば、 /versions/1/score) を指定するサブパスで終わります。

モデルエンドポイントには、次のプロパティがあります。

財産	説明	デフォルト
既定のバージョン	このプロパティ (`Yes` または `No`) は、実際の予測を提供するためのモデルの既定値としてバージョンが設定されているかどうかを示します。モデルの設定で既定のバージョンをカスタマイズできます。	`No`
Status	このプロパティは、エンドポイントが予測を提供する準備ができているかどうかを示します。状態は、 `Inactive`、 `Activating`、 `Active`、 `Deactivating`、または `Failed`にすることができます。アクティブなエンドポイントのみが予測を提供できます。	`Inactive`
自動スリープ	このプロパティ (`On` または `Off`) は、エンドポイントがアクティブになると、トラフィックがない場合に容量使用量をゼロにスケールダウンする必要があるかどうかを示します。自動スリープがオンの場合、エンドポイントは、受信要求なしで 5 分後にアイドル状態になります。アイドル状態のエンドポイントをウェイクアップするための最初の呼び出しには、短い遅延が伴います。	`On`

モデルエンドポイントのアクティブ化

モデルエンドポイントは、Fabric インターフェイスから直接アクティブ化できます。リアルタイム予測を提供するバージョンに移動し、リボンから [バージョンエンドポイントのアクティブ化] を選択します。

&&&&Fabric インターフェースから ML モデルのエンドポイントを有効化する方法を示すスクリーンショット&&&

トーストメッセージは、Fabricによってエンドポイントが予測に対応する準備が整っていることを示し、エンドポイントの状態が "アクティブ化" に変わります。バックグラウンドで、Fabricは基になるコンテナーインフラストラクチャを起動してモデルをホストします。数分以内に、エンドポイントで予測を提供する準備が整います。

すべてのエンドポイントには、リアルタイム予測を提供する準備ができているかどうかを示す状態があります。

Status	説明
`Inactive`	エンドポイントはリアルタイムの予測を提供するためにアクティブ化されず、Fabric容量を消費しません。
`Activating`	エンドポイントは、リアルタイムの予測を提供するように構成されています。バックグラウンドで、Fabricモデルをホストするように基になるコンテナーインフラストラクチャを設定します。数分以内に、エンドポイントがアクティブになります。
`Active`	エンドポイントは、リアルタイムの予測を提供する準備ができています。バックグラウンドで、Fabricは基になるインフラストラクチャを管理し、受信トラフィックに基づいてリソース使用量をスケールアップします。トラフィックが多いほど、Fabric容量の使用量が増加します。
`Deactivating`	エンドポイントは非アクティブ化されているため、リアルタイムの予測を行ったり、容量Fabric消費したりしなくなります。バックグラウンドで、Fabricは基になるコンテナーインフラストラクチャを分解します。

注

ML モデルでは、最大 5 つのバージョンのアクティブなエンドポイントを一度にサポートできます。 6 番目のバージョンからの予測を提供するには、最初にアクティブなエンドポイントを非アクティブ化する必要があります。

モデルエンドポイントの管理

モデルのアクティブなエンドポイントの概要については、インターフェイスのリボンから [エンドポイントの管理] を選択します。すべてのモデルにはカスタマイズ可能な既定のエンドポイントがあり、選択したバージョンからの予測が提供されます。設定ウィンドウのドロップダウンセレクターを使用して、既定のバージョンを更新できます。

Von Bedeutung

既定のプロパティを使用する場合は、必ずアクティブなバージョンに設定してください。既定のプロパティが設定されていない場合、または非アクティブなバージョンに設定されている場合、既定のエンドポイントの呼び出しは失敗します。

アクティブなエンドポイントを持つすべてのバージョンは、モデルのエンドポイント設定の下に一覧表示されます。スイッチャーを "オン" または "オフ" に切り替えることで、各エンドポイントの自動スリーププロパティを変更できます。

ヒント

自動スリープがオンになっているアクティブなエンドポイントは、トラフィックなしで 5 分後にアイドル状態になり、最初に起動する呼び出しには短い遅延が伴います。運用環境のエンドポイントでは、このプロパティをオフにすることができます。

モデルエンドポイントにクエリを実行してリアルタイムの予測を行う

モデルエンドポイントは、Fabricの低コードエクスペリエンスを使用してインスタントテストに使用できます。アクティブなエンドポイントがあるバージョンに移動し、インターフェイスのリボンから [プレビュー予測] を選択します。モデルの入力署名に一致するフォームフィールドを使用して、エンドポイントにサンプル要求を送信し、リアルタイムでサンプル予測を取得できます。

ランダムなサンプル値をフォームフィールドに設定するには、[オートフィル] を選択します。フォーム値のセットをさらに追加して、複数の入力でエンドポイントをテストできます。 [Get predictions]\(予測の取得\) を選択して、サンプル要求のエンドポイントを送信します。

サンプル要求を JSON ペイロードとして書式設定する場合は、ドロップダウンセレクターを使用してビューを変更します。

モデルエンドポイントを非アクティブ化する

モデルエンドポイントは、Fabric インターフェイスから直接非アクティブ化できます。リアルタイム予測を提供する必要がなくなったバージョンに移動し、インターフェイスのリボンから [バージョンエンドポイントの非アクティブ化] を選択します。

Fabric インターフェースで ML モデルのエンドポイントを非アクティブ化する方法を示すスクリーンショット>

トーストメッセージは、Fabricがアクティブなデプロイを分解していることを示し、エンドポイントの状態が "非アクティブ化" に変わります。エンドポイントは、再アクティブ化しない限り、リアルタイム予測を提供できなくなりました。

モデルの設定ウィンドウから、複数のバージョンのエンドポイントを一度に非アクティブ化できます。インターフェイスのリボンから [エンドポイントの管理] を選択し、非アクティブ化するアクティブなエンドポイントを 1 つ以上選択します。

Fabric インターフェイスから複数の ML モデルエンドポイントを一度に非アクティブ化する方法を示すスクリーンショット

消費率

アクティブなモデルエンドポイントをホストすると、Fabric容量ユニット (CU) が消費されます。エンドポイントはコンピューティングノードで実行され、受信トラフィックに基づいて最大 3 つのノードを自動的にスケールアップできます。課金は、エンドポイントがアクティブな間にノードごとに計算されます。次の表は、アクティブなMachine Learning モデルエンドポイントの CU 消費量を示しています。

操作	操作用測定単位	従量課金レート
モデルエンドポイント	ノードあたり 1 秒あたり 1 つのモデルエンドポイント (バージョン)	5 CU 秒

次の表は、シナリオの例と、それに対応する従量課金レートと時間単位のコストを示しています。

シナリオ	説明	従量課金レート	時間単位のコスト
非アクティブなエンドポイントを持つモデル	これらのモデルには、アクティブなバージョンエンドポイントがなく、関連するリソース使用率もありません。追加コストはかからなくなります。	0 CU秒	0 CU 時間
アクティブだがアイドル状態のエンドポイントを持つモデル	これらのモデルには 1 つ以上のアクティブなバージョンエンドポイントがありますが、通常のトラフィックがない場合はすべてゼロにスケーリングされ、コストが自動的に削減されます。	5 CU 秒	0.42 CU時間
エンドポイントが1つだけアクティブで、トラフィックが一定して低いモデル	これらのモデルには、予測を提供するアクティブなバージョンエンドポイントが 1 つだけありますが、フルスケールアウトをトリガーするのに十分なトラフィックがありません。1 つのノードですべてのトラフィックを処理できます。その他のバージョンエンドポイントは、非アクティブまたはアイドル状態である可能性があります。	5 CU 秒	5 CU 時間
アクティブなエンドポイントが 1 つあり、トラフィックが一定のモデル	これらのモデルには、予測を提供するアクティブなバージョンエンドポイントが 1 つだけあり、フルスケールアウトをトリガーするのに十分なトラフィックがあります。その他のバージョンエンドポイントは、非アクティブまたはアイドル状態である可能性があります。	15 CU秒	15 CU時間
アクティブなエンドポイントが 5 つあり、トラフィックが一定のモデル	これらのモデルには5つのアクティブなバージョンエンドポイントがあり、これらはそれぞれの予測サービスに十分なトラフィックがあり、完全なスケールアウトを促進します。これは現在の制限です。	75 CU 秒	75 CU 時間

Fabric容量メトリックアプリでは、モデルエンドポイント操作の合計容量使用量が "モデルエンドポイント" という名前で表示されます。さらに、ユーザーは請求項目 "ML モデルエンドポイント容量使用量 CU" の下で、モデルエンドポイントの使用状況に対する課金料金の概要を表示できます。

モデルエンドポイント操作は、バックグラウンド操作として分類されます。

従量課金制は、いつでも変更される可能性があります。 Microsoftは、電子メールまたは製品内通知を通じて通知を提供するために合理的な努力を使用します。変更は、Microsoftリリースノートまたは Microsoft Fabric ブログに記載されている日付に有効になります。 Fabric従量課金レートでモデルエンドポイントに変更が加わると、使用に必要な容量ユニット (CU) が大幅に増加する場合、顧客は選択した支払い方法で利用可能なキャンセルオプションを使用できます。

ML モデルエンドポイント REST API を使用して、エンドポイントをプログラムで管理およびクエリします。
リアルタイムデータエンリッチメントのために Dataflow Gen2 からモデルエンドポイントを呼び出します。
Fabric ノートブックの PREDICT 関数を使用してバッチ予測を生成します。
Fabricのモデルのトレーニングと実験について説明します。
必要な機能が見逃されましたか? あなたの提案をFabricアイデアフォーラムでしてください。

フィードバック

このページはお役に立ちましたか?

Last updated on 2025-08-27

ML モデル エンドポイントを使用してリアルタイム予測を提供する (プレビュー)

[前提条件]

制限事項

モデル エンドポイントを開始する

モデル エンドポイントのアクティブ化

モデル エンドポイントの管理

モデル エンドポイントにクエリを実行してリアルタイムの予測を行う

モデル エンドポイントを非アクティブ化する

消費率

関連コンテンツ