Condividi tramite


Configurare i limiti di frequenza per gli endpoint del gateway di intelligenza artificiale

Importante

Questa funzionalità è in versione beta. Gli amministratori dell'account possono controllare l'accesso a questa funzionalità dalla pagina Anteprime della console dell'account. Consultare Gestisci anteprime Azure Databricks.

Questa pagina descrive come configurare i limiti di frequenza per gli endpoint del gateway di intelligenza artificiale (beta). I limiti di velocità consentono di applicare limiti di consumo per un endpoint per gestire capacità e costi.

Requisiti

Configurare i limiti di frequenza per un endpoint

È possibile gestire e specificare il numero di query al minuto (QPM) o token al minuto (TPM) che l'endpoint può supportare.

Per abilitare i limiti di frequenza, selezionare Limiti di frequenza durante la configurazione dell'endpoint del gateway di intelligenza artificiale. È possibile definire limiti di frequenza basati su query e basati su token ai livelli seguenti:

Campo Descrizione
Punto finale Specificare il valore massimo di QPM o TPM che l'intero endpoint può gestire. Questo limite si applica a tutto il traffico, indipendentemente dall'utente.
Utente (impostazione predefinita) Specificare un limite di frequenza predefinito per utente che si applica a tutti gli utenti dell'endpoint, a meno che non venga definito un limite di frequenza personalizzato più specifico.
Limiti di frequenza personalizzati È possibile specificare limiti di frequenza personalizzati per:
  • Singoli utenti o principali del servizio: hanno la priorità sui limiti di frequenza personalizzati del gruppo di utenti.
  • Gruppi di utenti: questo limite è un limite di frequenza condiviso per tutti i membri del gruppo.

Dettagli e comportamento

  • I limiti di frequenza si applicano solo agli utenti autorizzati a eseguire query sull'endpoint.
  • Per impostazione predefinita, non sono previsti limiti di frequenza configurati per gli utenti o l'endpoint.
  • Il limite di frequenza degli endpoint è un valore massimo globale. Se questo limite viene superato, tutte le richieste all'endpoint vengono bloccate, indipendentemente dai limiti di frequenza specifici dell'utente o del gruppo.
  • Se un endpoint, un utente o un'entità servizio ha sia un limite di frequenza basato su query che un limite di frequenza basato su token specificato, viene applicato il limite di frequenza più restrittivo.
  • I limiti di frequenza personalizzati sostituiscono il limite di velocità utente (predefinito).
    • Se un utente appartiene sia a un limite specifico dell'utente che a un limite specifico del gruppo, viene applicato il limite specifico dell'utente.
    • Se un utente appartiene a più gruppi di utenti con limiti di frequenza TPM o QPM diversi, l'utente è limitato nella frequenza se supera tutti i limiti di frequenza QPM dei gruppi di utenti o tutti i limiti di frequenza TPM dei gruppi di utenti.

Comportamento del limite di velocità

Quando viene superato un limite di velocità, l'endpoint restituisce una risposta HTTP 429 (troppe richieste). I client devono implementare la logica di ripetizione dei tentativi con backoff esponenziale.

Il limite di velocità è progettato per una bassa latenza, il che significa che sono previsti i comportamenti seguenti:

  • Le richieste simultanee non vengono controllate in anticipo. Il sistema registra l'utilizzo dopo l'invio di una risposta, quindi se più richieste arrivano nello stesso momento, possono passare tutte prima che venga conteggiato l'utilizzo. Le richieste successive vengono quindi rifiutate fino al ripristino della capacità. In pratica, è possibile che vengano visualizzati picchi di traffico seguiti da brevi pause in un modello ripetuto.
  • I limiti vengono applicati in modo indipendente nelle istanze del servizio, quindi possono verificarsi brevi picchi leggermente superiori al limite configurato, soprattutto subito dopo la creazione o l'aggiornamento di un endpoint.

In un intervallo di tempo più lungo, la frequenza media delle richieste converge al limite configurato.

Limitazioni

  • È possibile specificare un massimo di 20 limiti di frequenza per endpoint.
  • È possibile specificare un massimo di 5 limiti di frequenza specifici del gruppo per endpoint.

Passaggi successivi