Condividi tramite


Arricchire i dati usando funzioni di intelligenza artificiale

Importante

Questa funzionalità è disponibile in anteprima pubblica.

Le funzioni di intelligenza artificiale sono funzioni predefinite che è possibile usare per applicare llms o tecniche di ricerca all'avanguardia sui dati archiviati in Azure Databricks per la trasformazione e l'arricchimento dei dati. Possono essere eseguiti da qualsiasi posizione in Databricks, tra cui Databricks SQL, notebook, pipeline dichiarative di Lakeflow Spark e flussi di lavoro.

Le funzioni di intelligenza artificiale sono semplici da usare, veloci e scalabili. Gli analisti possono usarli per applicare l'intelligence dei dati ai dati proprietari, mentre i data engineer, i data scientist e i tecnici di Machine Learning possono usarli per creare pipeline batch di livello di produzione.

Specifico per il compito e a uso generale

Le funzioni di intelligenza artificiale comprendono funzioni specifiche per compiti e funzioni per uso generico.

  • Funzioni di intelligenza artificiale specifiche dell'attività: funzioni predefinite ottimizzate per un'attività specifica, ad esempio l'analisi dei documenti, l'estrazione di entità, la classificazione e l'analisi del sentiment. Queste funzioni sono alimentate da sistemi di ricerca gestiti e supportati da Azure Databricks. Alcune funzioni includono esperienze dell'interfaccia utente. Vedere Funzioni di intelligenza artificiale specifiche dell'attività per funzioni e modelli supportati.
  • ai_query — Funzione generica per attività e flessibilità del modello. Fornire un prompt e scegliere qualsiasi API del modello Foundation supportata. Vedere Usare ai_query.

Albero decisionale per le funzioni AI specifiche del compito e ai_query

funzioni di intelligenza artificiale specifiche dell'attività

Le funzioni specifiche dell'attività sono definite per un compito specifico, in modo da poter automatizzare le trasformazioni di routine, ad esempio estrazione di entità, traduzione e classificazione. Databricks consiglia queste funzioni per iniziare perché richiamano tecniche di ricerca all'avanguardia gestite da Databricks e non richiedono alcuna personalizzazione.

Per un esempio, vedere Analizzare le recensioni dei clienti usando Funzioni di intelligenza artificiale .

Nella tabella seguente sono elencate le funzioni supportate e l'attività che eseguono.

Funzione Descrizione
ai_parse_document Analizzare il contenuto strutturato (testo, tabelle, descrizioni delle figure) e layout da documenti non strutturati usando tecniche di ricerca all'avanguardia.
ai_extract Estrarre campi strutturati da documenti o testo usando uno schema definito.
ai_classify Classificare il testo di input in base alle etichette fornite usando tecniche di ricerca all'avanguardia.
ai_analyze_sentiment Esegui l'analisi del sentiment sul testo di input utilizzando un modello AI generativo all'avanguardia.
ai_fix_grammar Correggere gli errori grammaticali nel testo usando un modello di intelligenza artificiale generativo all'avanguardia.
ai_gen Rispondere al prompt fornito dall'utente usando un modello di intelligenza artificiale generativo all'avanguardia.
ai_mask Mascherare le entità specificate nel testo usando un modello di intelligenza artificiale generativo all'avanguardia.
ai_query Una funzione di intelligenza artificiale per utilizzo generico per le attività che vanno oltre a ciò che offrono le funzioni specifiche dell'attività. Specificare un prompt personalizzato e scegliere qualsiasi modello di API Foundation Model supportato.
ai_similarity Confrontare due stringhe e calcolare il punteggio di somiglianza semantica usando un modello di intelligenza artificiale generativo all'avanguardia.
ai_summarize Generare un riepilogo del testo usando SQL e il modello di intelligenza artificiale generativo all'avanguardia.
ai_translate Tradurre il testo in una lingua di destinazione specificata usando un modello di intelligenza artificiale generativo all'avanguardia.
ai_forecast Prevedere i dati fino a un orizzonte specificato. Questa funzione con valori di tabella è progettata per estrapolare i dati delle serie temporali in futuro.
vector_search Cercare ed eseguire query su un indice di Intelligenza Artificiale Mosaico per la Ricerca Vettoriale usando un modello generativo di intelligenza artificiale all'avanguardia.

Usare funzioni di intelligenza artificiale nei flussi di lavoro di produzione

Per l'inferenza batch su larga scala, è possibile integrare funzioni di intelligenza artificiale specifiche dell'attività o la funzione ai_query per utilizzo generico nei flussi di lavoro di produzione, ad esempio pipeline dichiarative di Lakeflow Spark, flussi di lavoro di Databricks e Structured Streaming. Ciò consente l'elaborazione di livello di produzione su larga scala.

Procedure consigliate per le funzioni di intelligenza artificiale nell'ambiente di produzione:

Lasciate che le Funzioni di Intelligenza Artificiale gestiscano il carico di lavoro su larga scala: Funzioni di Intelligenza Artificiale gestiscono automaticamente la parallelizzazione, i tentativi e il ridimensionamento. È consigliabile inviare il set di dati completo in una singola query anziché suddividerlo manualmente in batch di piccole dimensioni. Le prestazioni potrebbero non essere scalabili in modo lineare da carichi di lavoro molto piccoli a carichi di lavoro su larga scala.

Usare i modelli di base ospitati da Databricks: Quando si usa la funzione di intelligenza artificiale ai_query, usare modelli di base ospitati da Databricks (preceduti da databricks-), non throughput provisionato. Questi endpoint senza necessità di provisioning sono completamente gestiti e funzionano meglio per l'elaborazione batch.

Per esempi e dettagli, consultare Distribuire pipeline di inferenza batch.

Monitorare lo stato delle funzioni di intelligenza artificiale

Per comprendere il numero di inferenze completate o non riuscite e risolvere i problemi relativi alle prestazioni, è possibile monitorare lo stato di avanzamento di Funzioni di intelligenza artificiale usando la funzionalità del profilo di query.

In Databricks Runtime 16.1 ML e versioni successive, dalla finestra di query dell'editor SQL nell'area di lavoro:

  1. Selezionare il collegamento Running--- nella parte inferiore della finestra dei Risultati grezzi. La finestra delle prestazioni viene visualizzata a destra.
  2. Fare clic su Visualizza profilo di query per visualizzare i dettagli delle prestazioni.
  3. Fare clic su Query di intelligenza artificiale per visualizzare le metriche per tale query specifica, inclusi il numero di inferenze completate e non riuscite e il tempo totale impiegato per il completamento della richiesta.

Visualizzare i costi per i carichi di lavoro delle funzioni di intelligenza artificiale

I costi delle funzioni di intelligenza artificiale vengono registrati come parte del MODEL_SERVING prodotto nel BATCH_INFERENCE tipo di offerta. Vedere Visualizzare i costi per i carichi di lavoro di inferenza batch per una query di esempio.

Annotazioni

Per ai_parse_document, ai_extracte ai_classify i costi vengono registrati come parte del AI_FUNCTIONS prodotto. Consultare i costi per le esecuzioni ai_parse_document in una query di esempio.

Visualizzare i costi per i carichi di lavoro di inferenza batch

Gli esempi seguenti illustrano come filtrare i carichi di lavoro di inferenza batch in base a processi, calcolo, warehouse SQL e pipeline dichiarative di Lakeflow Spark.

Vedere Monitorare i costi di gestione dei modelli per esempi generali su come visualizzare i costi per i carichi di lavoro di inferenza batch che usano Funzioni di intelligenza artificiale.

Jobs

La query seguente mostra quali processi vengono usati per l'inferenza batch usando la system.workflow.jobs tabella dei sistemi. Vedere Monitorare i costi e le prestazioni dei processi con le tabelle di sistema.


SELECT *
FROM system.billing.usage u
  JOIN system.workflow.jobs x
    ON u.workspace_id = x.workspace_id
    AND u.usage_metadata.job_id = x.job_id
  WHERE u.usage_metadata.workspace_id = <workspace_id>
    AND u.billing_origin_product = "MODEL_SERVING"
    AND u.product_features.model_serving.offering_type = "BATCH_INFERENCE";

Compute

Di seguito viene illustrato quali cluster vengono usati per l'inferenza batch usando la system.compute.clusters tabella dei sistemi.

SELECT *
FROM system.billing.usage u
  JOIN system.compute.clusters x
    ON u.workspace_id = x.workspace_id
    AND u.usage_metadata.cluster_id = x.cluster_id
  WHERE u.usage_metadata.workspace_id = <workspace_id>
    AND u.billing_origin_product = "MODEL_SERVING"
    AND u.product_features.model_serving.offering_type = "BATCH_INFERENCE";

Pipeline dichiarative di Lakeflow Spark

Di seguito viene illustrato quali Pipeline Dichiarative di Lakeflow Spark vengono utilizzate per l'inferenza batch tramite la tabella dei sistemi system.lakeflow.pipelines.

SELECT *
FROM system.billing.usage u
  JOIN system.lakeflow.pipelines x
    ON u.workspace_id = x.workspace_id
    AND u.usage_metadata.dlt_pipeline_id = x.pipeline_id
  WHERE u.usage_metadata.workspace_id = <workspace_id>
    AND u.billing_origin_product = "MODEL_SERVING"
    AND u.product_features.model_serving.offering_type = "BATCH_INFERENCE";

Magazzino SQL

Di seguito viene illustrato quali warehouse SQL vengono usati per l'inferenza batch usando la system.compute.warehouses tabella dei sistemi.

SELECT *
FROM system.billing.usage u
  JOIN system.compute.clusters x
    ON u.workspace_id = x.workspace_id
    AND u.usage_metadata.cluster_id = x.cluster_id
  WHERE u.workspace_id = <workspace_id>
    AND u.billing_origin_product = "MODEL_SERVING"
    AND u.product_features.model_serving.offering_type = "BATCH_INFERENCE";

Visualizzare i costi per ai_parse_document esecuzioni

Nell'esempio seguente viene illustrato come interrogare le tabelle del sistema di fatturazione per mostrare i costi delle esecuzioni ai_parse_document.


SELECT *
FROM system.billing.usage u
WHERE u.workspace_id = <workspace_id>
  AND u.billing_origin_product = "AI_FUNCTIONS"
  AND u.product_features.ai_functions.ai_function = "AI_PARSE_DOCUMENT";