ML モデル エンドポイントを使用してリアルタイム予測を提供する (プレビュー)

Von Bedeutung

この機能は プレビュー段階です

Microsoft Fabricを使用すると、セキュリティで保護されたスケーラブルで使いやすいオンライン エンドポイントを使用して、ML モデルからリアルタイムの予測を提供できます。 これらのエンドポイントは、ほとんどのFabric モデルの組み込みプロパティとして使用でき、フル マネージドのリアルタイム デプロイを開始するためのセットアップは必要ありません。

公開 REST API を使用して、モデル エンドポイントのアクティブ化、構成、クエリを実行できます。 また、Fabric インターフェイスから直接開始することもできます。低コード エクスペリエンスを使用して、モデル エンドポイントをアクティブ化し、予測を即座にプレビューできます。

リアルタイム予測を提供するための組み込みのエンドポイント プロパティを持つFabricの ML モデルを示すスクリーンショット。

[前提条件]

  • 機械学習モデル エンドポイントは、テナントで既定で有効になっています。 管理者がこの機能を無効にする場合は、Fabric管理ポータルで ml モデル エンドポイントのテナント スイッチ> をオフにすることができます。

制限事項

  • エンドポイントは現在、Keras、LightGBM、Sklearn、XGBoost など、限られた ML モデル フレーバーのセットで使用できます。
  • 現在、エンドポイント 、テンソルベースのスキーマを持つモデルやスキーマがないモデルでは使用できません。

2026 年 1 月の時点で、機械学習エンドポイントで AutoML トレーニング済みモデルがサポートされるようになりました。 この以前の制限は削除されました。

モデル エンドポイントを開始する

Fabricの ML モデルには、リアルタイム予測を提供するために使用できるオンライン エンドポイントが事前構築されています。 登録されている各モデル バージョンには専用のエンドポイント URL があり、Fabric インターフェイスの [エンドポイントの詳細] 見出しの下にあります。 この URL は、その特定のバージョン (たとえば、 /versions/1/score) を指定するサブパスで終わります。

ML モデル エンドポイントのプロパティを示すスクリーンショット。これを使用してリアルタイムの予測を提供できます。

モデル エンドポイントには、次のプロパティがあります。

財産 説明 デフォルト
既定のバージョン このプロパティ (Yes または No) は、実際の予測を提供するためのモデルの既定値としてバージョンが設定されているかどうかを示します。 モデル の設定で既定のバージョンをカスタマイズ できます。 No
Status このプロパティは、エンドポイントが予測を提供する準備ができているかどうかを示します。 状態は、 InactiveActivatingActiveDeactivating、または Failedにすることができます。 アクティブなエンドポイントのみが予測を提供できます。 Inactive
自動スリープ このプロパティ (On または Off) は、エンドポイントがアクティブになると、トラフィックがない場合に容量使用量をゼロにスケールダウンする必要があるかどうかを示します。 自動スリープがオンの場合、エンドポイントは、受信要求なしで 5 分後にアイドル状態になります。 アイドル状態のエンドポイントをウェイクアップするための最初の呼び出しには、短い遅延が伴います。 On

モデル エンドポイントのアクティブ化

モデル エンドポイントは、Fabric インターフェイスから直接アクティブ化できます。 リアルタイム予測を提供するバージョンに移動し、リボンから [バージョン エンドポイントのアクティブ化] を選択します。

&&&&Fabric インターフェースから ML モデルのエンドポイントを有効化する方法を示すスクリーンショット&&&

トースト メッセージは、Fabricによってエンドポイントが予測に対応する準備が整っていることを示し、エンドポイントの状態が "アクティブ化" に変わります。バックグラウンドで、Fabricは基になるコンテナー インフラストラクチャを起動してモデルをホストします。 数分以内に、エンドポイントで予測を提供する準備が整います。

現在アクティブ化中の ML モデル エンドポイントを示すスクリーンショット。

すべてのエンドポイントには、リアルタイム予測を提供する準備ができているかどうかを示す状態があります。

Status 説明
Inactive エンドポイントはリアルタイムの予測を提供するためにアクティブ化されず、Fabric容量を消費しません。
Activating エンドポイントは、リアルタイムの予測を提供するように構成されています。 バックグラウンドで、Fabricモデルをホストするように基になるコンテナー インフラストラクチャを設定します。 数分以内に、エンドポイントがアクティブになります。
Active エンドポイントは、リアルタイムの予測を提供する準備ができています。 バックグラウンドで、Fabricは基になるインフラストラクチャを管理し、受信トラフィックに基づいてリソース使用量をスケールアップします。 トラフィックが多いほど、Fabric容量の使用量が増加します。
Deactivating エンドポイントは非アクティブ化されているため、リアルタイムの予測を行ったり、容量Fabric消費したりしなくなります。 バックグラウンドで、Fabricは基になるコンテナー インフラストラクチャを分解します。

ML モデルでは、最大 5 つのバージョンのアクティブなエンドポイントを一度にサポートできます。 6 番目のバージョンからの予測を提供するには、最初に アクティブなエンドポイントを非アクティブ化する必要があります。

モデル エンドポイントの管理

モデルのアクティブなエンドポイントの概要については、インターフェイスのリボンから [エンドポイントの管理] を選択します。 すべてのモデルにはカスタマイズ可能な既定のエンドポイントがあり、選択したバージョンからの予測が提供されます。 設定ウィンドウのドロップダウン セレクターを使用して、既定のバージョンを更新できます。

特定のバージョンからの予測を提供するように構成できる既定の ML モデル エンドポイント URL を示すスクリーンショット。

Von Bedeutung

既定のプロパティを使用する場合は、必ずアクティブなバージョンに設定してください。 既定のプロパティが設定されていない場合、または非アクティブなバージョンに設定されている場合、既定のエンドポイントの呼び出しは失敗します。

アクティブなエンドポイントを持つすべてのバージョンは、モデルのエンドポイント設定の下に一覧表示されます。 スイッチャーを "オン" または "オフ" に切り替えることで、各エンドポイントの自動スリープ プロパティを変更できます。

ML モデル エンドポイントの自動スリープ プロパティを変更する方法を示すスクリーンショット。

ヒント

自動スリープがオンになっているアクティブなエンドポイントは、トラフィックなしで 5 分後にアイドル状態になり、最初に起動する呼び出しには短い遅延が伴います。 運用環境のエンドポイントでは、このプロパティをオフにすることができます。

モデル エンドポイントにクエリを実行してリアルタイムの予測を行う

モデル エンドポイントは、Fabricの低コード エクスペリエンスを使用してインスタント テストに使用できます。 アクティブなエンドポイントがあるバージョンに移動し、インターフェイスのリボンから [プレビュー予測] を選択します。 モデルの入力署名に一致するフォーム フィールドを使用して、エンドポイントにサンプル要求を送信し、リアルタイムでサンプル予測を取得できます。

アクティブな ML モデル エンドポイントからサンプル予測を取得するための組み込みのプレビュー エクスペリエンスを示すスクリーンショット。

ランダムなサンプル値をフォーム フィールドに設定するには、[オートフィル] を選択します。フォーム値のセットをさらに追加して、複数の入力でエンドポイントをテストできます。 [Get predictions]\(予測の取得\) を選択して、サンプル要求のエンドポイントを送信します。

アクティブな ML モデル エンドポイントにサンプル要求を送信するためのフォーム ベースのビューを示すスクリーンショット。

サンプル要求を JSON ペイロードとして書式設定する場合は、ドロップダウン セレクターを使用してビューを変更します。

アクティブな ML モデル エンドポイントにサンプル要求を送信するための JSON ベースのビューを示すスクリーンショット。

モデル エンドポイントを非アクティブ化する

モデル エンドポイントは、Fabric インターフェイスから直接非アクティブ化できます。 リアルタイム予測を提供する必要がなくなったバージョンに移動し、インターフェイスのリボンから [バージョン エンドポイントの非アクティブ化] を選択します。

Fabric インターフェースで ML モデルのエンドポイントを非アクティブ化する方法を示すスクリーンショット>

トースト メッセージは、Fabricがアクティブなデプロイを分解していることを示し、エンドポイントの状態が "非アクティブ化" に変わります。エンドポイントは、再アクティブ化しない限り、リアルタイム予測を提供できなくなりました。

現在非アクティブ化中の ML モデル エンドポイントを示すスクリーンショット。

モデルの設定ウィンドウから、複数のバージョンのエンドポイントを一度に非アクティブ化できます。 インターフェイスのリボンから [エンドポイントの管理] を選択し、非アクティブ化するアクティブなエンドポイントを 1 つ以上選択します。

Fabric インターフェイスから複数の ML モデルエンドポイントを一度に非アクティブ化する方法を示すスクリーンショット

消費率

アクティブなモデル エンドポイントをホストすると、Fabric容量ユニット (CU) が消費されます。 エンドポイントはコンピューティング ノードで実行され、受信トラフィックに基づいて最大 3 つのノードを自動的にスケールアップできます。 課金は、エンドポイントがアクティブな間にノードごとに計算されます。 次の表は、アクティブなMachine Learning モデル エンドポイントの CU 消費量を示しています。

操作 操作用測定単位 従量課金レート
モデル エンドポイント ノードあたり 1 秒あたり 1 つのモデル エンドポイント (バージョン) 5 CU 秒

次の表は、シナリオの例と、それに対応する従量課金レートと時間単位のコストを示しています。

シナリオ 説明 従量課金レート 時間単位のコスト
非アクティブなエンドポイントを持つモデル これらのモデルには、アクティブなバージョン エンドポイントがなく、関連するリソース使用率もありません。 追加コストはかからなくなります。 0 CU秒 0 CU 時間
アクティブだがアイドル状態のエンドポイントを持つモデル これらのモデルには 1 つ以上のアクティブなバージョン エンドポイントがありますが、通常のトラフィックがない場合はすべてゼロにスケーリングされ、コストが自動的に削減されます。 5 CU 秒 0.42 CU時間
エンドポイントが1つだけアクティブで、トラフィックが一定して低いモデル これらのモデルには、予測を提供するアクティブなバージョン エンドポイントが 1 つだけありますが、フル スケールアウトをトリガーするのに十分なトラフィックがありません。1 つのノードですべてのトラフィックを処理できます。 その他のバージョン エンドポイントは、非アクティブまたはアイドル状態である可能性があります。 5 CU 秒 5 CU 時間
アクティブなエンドポイントが 1 つあり、トラフィックが一定のモデル これらのモデルには、予測を提供するアクティブなバージョン エンドポイントが 1 つだけあり、フル スケールアウトをトリガーするのに十分なトラフィックがあります。その他のバージョン エンドポイントは、非アクティブまたはアイドル状態である可能性があります。 15 CU秒 15 CU時間
アクティブなエンドポイントが 5 つあり、トラフィックが一定のモデル これらのモデルには5つのアクティブなバージョンエンドポイントがあり、これらはそれぞれの予測サービスに十分なトラフィックがあり、完全なスケールアウトを促進します。これは現在の制限です。 75 CU 秒 75 CU 時間

Fabric容量メトリック アプリでは、モデル エンドポイント操作の合計容量使用量が "モデル エンドポイント" という名前で表示されます。 さらに、ユーザーは請求項目 "ML モデル エンドポイント容量使用量 CU" の下で、モデル エンドポイントの使用状況に対する課金料金の概要を表示できます。

モデル エンドポイント操作は 、バックグラウンド操作として分類されます。

従量課金制は、いつでも変更される可能性があります。 Microsoftは、電子メールまたは製品内通知を通じて通知を提供するために合理的な努力を使用します。 変更は、Microsoftリリース ノートまたは Microsoft Fabric ブログに記載されている日付に有効になります。 Fabric従量課金レートでモデル エンドポイントに変更が加わると、使用に必要な容量ユニット (CU) が大幅に増加する場合、顧客は選択した支払い方法で利用可能なキャンセル オプションを使用できます。