Freigeben über


Konfigurieren von AI-Gateway-Endpunkten

Von Bedeutung

Dieses Feature befindet sich in der Betaversion. Kontoadministratoren können den Zugriff auf dieses Feature über die Seite " Vorschau" der Kontokonsole steuern. Siehe Manage Azure Databricks Previews.

Auf dieser Seite wird beschrieben, wie KI-Gateway -Endpunkte (Beta) konfiguriert werden.

Anforderungen

Erstellen eines AI-Gateway-Endpunkts

So erstellen Sie einen AI-Gateway-Endpunkt:

  1. Klicken Sie in der Randleiste auf AI-Gateway.
  2. Klicken Sie auf " AI-Gatewayendpunkt erstellen".
  3. Konfigurieren Sie den Endpunktnamen und das primäre Modell.
  4. Klicken Sie auf "Erstellen".

Konfigurieren von Features auf einem Endpunkt

Sie können AI-Gateway-Endpunkte aktualisieren, um Features zu aktivieren und zu deaktivieren. Aktualisierungen von AI-Gatewaykonfigurationen dauern bis zu 1 Minute.

So aktualisieren Sie KI-Gateway-Features auf einem vorhandenen Endpunkt:

  1. Klicken Sie auf Der Seite "AI-Gateway" auf Ihren Endpunkt.
  2. Klicken Sie in der Randleiste für Gateway-Endpunktdetails auf das Bearbeitungssymbol neben dem Feature, das Sie aktualisieren möchten.
  3. Nehmen Sie Ihre Änderungen vor, und klicken Sie auf "Speichern".

KI-Gateway-Benutzeroberfläche

In der folgenden Tabelle sind die verfügbaren KI-Gateway-Features und deren Konfiguration zusammengefasst:

Merkmal Wie konfiguriert man Einzelheiten
Nutzungsnachverfolgung Standardmäßig aktiviert.
  • Protokolliert Nutzungsdaten in der system.ai_gateway.usage Systemtabelle.
  • Kontoadministratoren müssen das ai_gateway Systemtabellenschema aktivieren, bevor Sie die Systemtabellen verwenden. Siehe Gewähren des Zugriffs auf Systemtabellen.
  • Nur Kontoadministratoren verfügen über die Berechtigung zum Anzeigen oder Abfragen der system.ai_gateway.usage Tabelle.
  • Die Anzahl der Eingabe- und Ausgabetoken wird geschätzt mit (text_length+1)/4, wenn die Tokenanzahl nicht vom Modell zurückgegeben wird.
Ableitungstabellen Wählen Sie "Rückschlusstabellen aktivieren" aus, um Anforderungen und Antworten zu protokollieren.
  • Protokolliert die Delta-Tabellen des Unity-Katalogs.
  • Sie müssen über die Berechtigung im angegebenen Katalogschema verfügen CREATE TABLE .
  • Nutzlasten, die größer als 10 MiB sind, werden nicht protokolliert.
  • Die Antwortpayload aggregiert die Antwort aller zurückgegebenen Blöcke.
Ratenbegrenzungen Wählen Sie "Ratelimits " aus, um Abfragen pro Minute (QPM) oder Token pro Minute (TPM) zu konfigurieren.
  • Konfigurieren Sie Grenzwerte auf Endpunkt-, Benutzer- oder Gruppenebene.
    • Verwenden Sie das Feld "Endpunkt ", um globale Grenzwerte festzulegen. Das Endpunktratenlimit ist ein globales Maximum. Wenn dieser Wert überschritten wird, werden alle Anforderungen blockiert.
    • Verwenden Sie das Feld "Benutzer" (Standard), um benutzerspezifische Grenzwerte festzulegen.
      • Definieren Sie benutzerdefinierte Ratenbeschränkungen für einzelne Benutzer, Dienstprinzipale oder Gruppen.
Leitplanken Wählen Sie "Guardrails" aus, um Inhaltsrichtlinien zu konfigurieren.
  • Wenden Sie die Erkennung personenbezogener Daten (PII), die Inhaltsmoderation und andere vorgefertigte LLM-basierte Richtlinien auf Anfragen und Antworten an.
  • Blockierte Anforderungen geben HTTP 400 zurück und werden in den Verwendungsnachverfolgungs- und Rückschlusstabellen aufgezeichnet.
  • Aktivieren Sie den Testlauf, um Schutzvorkehrungskonfigurationen zu testen, ohne den Produktionsverkehr zu beeinträchtigen. Im Trockenlaufmodus werden Schutzschienen ausgewertet, Aber Anforderungen oder Antworten werden nie blockiert oder geändert.
Fallbacks Wählen Sie "Fallbackmodell hinzufügen" aus, um Fallbackmodelle zu konfigurieren.
  • Anfragen greifen auf andere Modelle zurück, wenn das primäre Modell 429 oder 5XX Fehler zurückgibt.
  • Jedes Fallbackmodell wird einmal in sequenzieller Reihenfolge ausprobiert, bis die Anforderung erfolgreich ist.
  • Der erste erfolgreiche oder letzte fehlgeschlagene Anforderungsversuch und die Antwort werden sowohl in der Verwendungsnachverfolgung als auch in den Rückschlusstabellen protokolliert.
  • Alle Fallbackversuche werden im routing_information Feld der Verwendungsnachverfolgungstabelle aufgezeichnet.
Aufteilung des Datenverkehrs Wählen Sie "Traffic-Splitting hinzufügen" aus, um Anforderungen über mehrere Modell-Backends zu verteilen.
  • Weisen Sie jedem Zielmodell einen Prozentsatz des Datenverkehrs zu. Prozentsätze müssen sich auf 100 summieren.
  • Verwenden Sie die Datenverkehrsteilung, um neue Modelle schrittweise zu rollouten, A/B-Tests auszuführen oder die Auslastung über Anbieter hinweg zu verteilen.
  • Alle Routingentscheidungen werden im routing_information Feld der Verwendungsnachverfolgungstabelle aufgezeichnet.
Benutzerdefinierte APIs Wählen Sie benutzerdefinierte API aus, wenn Sie einen Endpunkt zum Herstellen einer Verbindung mit einer externen API erstellen.
  • Wenden Sie dieselben Zugriffssteuerungen, Geschwindigkeitsbeschränkungen und Protokollierung auf jeden externen API-Endpunkt an.
  • Benutzerdefinierter API-Datenverkehr wird mit einigen Einschränkungen bei der Verwendungsnachverfolgung und -ableitungstabelle protokolliert: Die Tokenzählung ist möglicherweise nicht in der Verwendungsnachverfolgung verfügbar, und die Aggregation von Antwortblöcken für Streaminganforderungen steht möglicherweise nicht in Rückschlusstabellen zur Verfügung.

Das folgende Diagramm zeigt ein Fallbackbeispiel, in dem drei Modelle als Ziele eines AI-Gateway-Endpunkts registriert sind:

  1. Die Anforderung wird ursprünglich an Modell 1 weitergeleitet.
  2. Wenn die Anforderung eine Antwort von 200 zurückgibt, war die Anforderung auf Modell 1 erfolgreich, und die Anforderung und ihre Antwort werden in den Tabellen für die Verwendungsnachverfolgung und -ableitung protokolliert.
  3. Wenn die Anforderung einen 429 oder 5XX Fehler bei Modell 1 zurückgibt, wird auf das nächste Modell am Endpunkt, Modell 2, zurückgegriffen.
  4. Wenn die Anforderung einen 429 oder 5XX Fehler auf Modell 2 zurückgibt, wird auf das nächste Modell, Modell 3 am Endpunkt, zurückgegriffen.
  5. Wenn die Anforderung einen 429 Fehler für 5XX Modell 3 zurückgibt, schlägt die Anforderung fehl, da alle Fallbackmodelle ausprobiert wurden. Die fehlgeschlagene Anforderung und der Antwortfehler werden in den Tabellen zur Verwendungsnachverfolgung und -ableitung protokolliert.

Beispiel für Fallbacks

Nächste Schritte