Hinweis
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, sich anzumelden oder das Verzeichnis zu wechseln.
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, das Verzeichnis zu wechseln.
Von Bedeutung
Dieses Feature befindet sich in der Betaversion. Kontoadministratoren können den Zugriff auf dieses Feature über die Seite " Vorschau" der Kontokonsole steuern. Siehe Manage Azure Databricks Previews.
Auf dieser Seite wird beschrieben, wie Sie Geschwindigkeitsgrenzwerte für AI-Gateway -Endpunkte (Beta) konfigurieren. Zinsgrenzwerte ermöglichen es Ihnen, Verbrauchsgrenzwerte für einen Endpunkt zu erzwingen, um Kapazität und Kosten zu verwalten.
Anforderungen
- Ai Gateway (Beta)-Vorschau für Ihr Konto aktiviert. Siehe Manage Azure Databricks Previews.
- Ein Azure Databricks Arbeitsbereich in einer AI-Gateway (Beta) unterstützten Region.
Konfigurieren von Geschwindigkeitsbeschränkungen für einen Endpunkt
Sie können die Anzahl von Abfragen pro Minute (QPM) oder Token pro Minute (TPM) verwalten und angeben, die Ihr Endpunkt unterstützen kann.
Wählen Sie zum Aktivieren von Ratengrenzwerten beim Konfigurieren Ihres AI-Gateway-Endpunkts Rate-Grenzwerte aus. Sie können abfragebasierte und tokenbasierte Ratelimits auf den folgenden Ebenen definieren:
| Feld | Beschreibung |
|---|---|
| Endpunkt | Geben Sie die maximale QPM oder TPM an, die der gesamte Endpoint verarbeiten kann. Dieser Grenzwert gilt unabhängig vom Benutzer für den gesamten Datenverkehr. |
| Benutzer (Standard) | Legen Sie einen Standard-Anfrageratenbegrenzung pro Benutzer fest, der für alle Benutzer des Endpunkts gilt, es sei denn, es wird eine spezifischere, benutzerdefinierte Anfrageratenbegrenzung definiert. |
| Grenzwerte für benutzerdefinierte Tarife | Benutzerdefinierte Ratenbeschränkungen können für Folgendes angegeben werden:
|
Details und Verhalten
- Preisbeschränkungen gelten nur für Benutzer mit der Berechtigung zum Abfragen des Endpunkts.
- Standardmäßig sind keine Ratenbeschränkungen für Benutzer oder den Endpunkt konfiguriert.
- Das Endpunktratenlimit ist ein globales Maximum. Wenn dieser Grenzwert überschritten wird, werden alle Anforderungen an den Endpunkt blockiert, unabhängig von benutzerspezifischen oder gruppenspezifischen Ratengrenzwerten.
- Wenn ein Endpunkt, ein Benutzer oder ein Dienstprinzipal sowohl ein abfragebasiertes Zinslimit als auch ein tokenbasiertes Ratelimit angegeben hat, wird der restriktivere Satzgrenzwert erzwungen.
- Benutzerdefinierte Ratenbeschränkungen überschreiben die Benutzer (Standard)-Grenzwerte.
- Wenn ein Benutzer sowohl zu einem benutzerspezifischen Grenzwert als auch zu einem gruppenspezifischen Grenzwert gehört, wird der benutzerspezifische Grenzwert erzwungen.
- Wenn ein Benutzer zu mehreren Benutzergruppen mit unterschiedlichen QPM- oder TPM-Ratelimits gehört, ist die Rate begrenzt, wenn er alle QPM-Ratengrenzwerte oder alle TPM-Ratelimits seiner Benutzergruppen überschreitet.
Verhalten des Ratelimiters
Wenn ein Zinslimit überschritten wird, gibt der Endpunkt eine HTTP 429-Antwort (Zu viele Anforderungen) zurück. Clients sollten Wiederholungslogik mit exponentiellem Backoff implementieren.
Der Zinsgrenzer ist für niedrige Latenz ausgelegt, was bedeutet, dass die folgenden Verhaltensweisen erwartet werden:
- Gleichzeitige Anforderungen werden nicht rechtzeitig überprüft. Das System zeichnet die Nutzung auf, nachdem eine Antwort gesendet wurde. Wenn also mehrere Anfragen zur gleichen Zeit eingehen, können sie alle durchlaufen, bevor die Nutzung gezählt wird. Spätere Anforderungen werden dann abgelehnt, bis die Kapazität wiederhergestellt wird. In der Praxis könnten Sie möglicherweise Verkehrsspitzen gefolgt von kurzen Pausen in einem wiederholten Muster sehen.
- Grenzwerte werden unabhängig von Dienstinstanzen durchgesetzt, sodass kurze Spitzen über dem konfigurierten Grenzwert auftreten können, insbesondere direkt nach der Erstellung oder Aktualisierung eines Endpunkts.
Im Laufe eines längeren Zeitfensters konvergiert die durchschnittliche Anforderungsrate zum konfigurierten Grenzwert.
Einschränkungen
- Sie können maximal 20 Zinsgrenzwerte pro Endpunkt angeben.
- Sie können maximal 5 gruppenspezifische Ratengrenzwerte pro Endpunkt angeben.
Nächste Schritte
- AI-Gateway für LLM-Endpunkte
- Konfigurieren von AI-Gateway-Endpunkten
- Abfragen von AI-Gateway-Endpunkten
- Nutzungsüberwachung der AI-Gateway-Endpunkte
- Überwachen von Modellen mithilfe von Rückschlusstabellen