Estrazione di informazioni

Importante

Questa funzionalità è disponibile in anteprima pubblica ed è conforme a HIPAA.

Questa pagina illustra la nuova versione di Estrazione informazioni. Per informazioni sulla versione precedente, vedere Usare l'estrazione delle informazioni (legacy)

L'estrazione delle informazioni trasforma documenti e testo non strutturati in informazioni dettagliate chiave e strutturate usando uno schema definito. In questo modo, le informazioni incorporate in testo non strutturato, PDF, immagini o tabelle possono essere usate direttamente per l'analisi, la creazione di report o gli agenti e le applicazioni downstream.

Esempi di estrazione di informazioni includono:

Estrazione di parti legali e termini dai contratti.
Estrazione di voci e termini di pagamento dalle fatture.
Estrazione dei dettagli chiave dalle cartelle cliniche e dalle note.

L'estrazione delle informazioni si basa sulla funzione di intelligenza artificiale, ai_extract. Estrazione informazioni include un'interfaccia utente visiva per personalizzare e ottimizzare la funzione con uno schema definito per l'estrazione.

Estrazione informazioni usa l'archiviazione predefinita per archiviare trasformazioni di dati temporanee, checkpoint del modello e metadati interni che alimentano ogni agente. In caso di eliminazione dell'agente, tutti i dati associati all'agente vengono rimossi dalla risorsa di archiviazione predefinita.

Requisiti

Un'area di lavoro che include quanto segue:
- AI Extract Public Preview abilitata. Vedere Gestire le anteprime di Azure Databricks.
- Calcolo serverless attivato. Consulta Requisiti di calcolo serverless.
- Catalogo Unity abilitato. Vedere Abilitare un'area di lavoro per il Catalogo Unity.
- Accesso a un criterio di budget serverless con un budget diverso da zero.
Questa funzione è disponibile solo in alcune aree, vedere Disponibilità delle funzioni di intelligenza artificiale.
Possibilità di usare la ai_extract funzione SQL.
Dati non strutturati da cui estrarre informazioni. I dati devono trovarsi in un volume o una tabella di Unity Catalog.
- Per creare l'agente, è necessario almeno 1 file nella volume di Unity Catalog o 1 riga nella tabella.

Creare un agente di estrazione delle informazioni

Vai all'icona Agenti nel riquadro di navigazione a sinistra della tua area di lavoro. Fare clic su Crea agente>Estrazione informazioni.

Passaggio 1: Selezionare i dati da cui estrarre le informazioni

Selezionare i file o i dati da cui estrarre le informazioni. È possibile caricare file, selezionare un volume di Catalogo Unity con tipi di file supportati o una tabella che contiene dati di testo.
Fare clic su Crea agente.

Passaggio 2. Configurare e perfezionare lo schema di estrazione

Dopo che il processo di Estrazione delle Informazioni ha elaborato i tuoi dati, configura e perfeziona quali dati desideri estrarre dai tuoi documenti.

In Configurazione definire lo schema di estrazione. Questa operazione può essere eseguita in diversi modi:
- Immettere il linguaggio naturale che descrive le informazioni da estrarre e fare clic su Genera schema. L'estrazione delle informazioni genera in modo intelligente uno schema JSON con nomi di campo e definizioni. Modificare queste descrizioni in base alle esigenze.
- In alternativa, fare clic su Or, Define manually (Definisci manualmente ) per definire manualmente lo schema:
  1. Fare clic su Aggiungi campo.
  2. Immettere il nome, il tipo e la descrizione del campo.
  3. Cliccare Conferma.
  4. Ripetere per ogni campo da estrarre.
  5. Fare clic su Salva ed esegui estrazione.
- È anche possibile fare clic su JSON per modificare direttamente lo schema JSON. Al termine, fare clic su Applica modifiche .
Ogni volta che si aggiorna lo schema e si preme Salva ed esegui estrazione, Estrazione informazioni aggiorna l'agente di estrazione, esegue l'estrazione e mostra i risultati per ogni input.
Esamina, a sinistra, il documento analizzato e l'estrazione effettuata dall'agente. Iterare i risultati dell'estrazione in due modi. In primo luogo, fornendo feedback in linguaggio naturale su uno o più input. In questo modo le descrizioni verranno ottimizzate in modo intelligente dopo aver raggiunto Salva ed eseguito l'estrazione. In secondo luogo, rivedendo manualmente le descrizioni dello schema. Questa operazione avrà effetto dopo aver premuto Salva ed esegui estrazione.
Usare le versioni per confrontare o ripristinare una configurazione precedente. Fare clic su Versioni, quindi su Confronta per confrontare la definizione dello schema di una versione precedente con la versione corrente. Fare clic su Ripristina per ripristinare una versione precedente.

Passaggio 3. Usare il proprio agente di estrazione

Dopo aver soddisfatto le prestazioni dell'agente, usare l'agente per estrarre informazioni.

Fare clic su Usa agente in alto a destra. È possibile scegliere uno dei seguenti:

Esegui in SQL per usare l'agente per estrarre informazioni da tutti i dati. Verrà aperta una query SQL che usa ai_extract per estrarre informazioni dal volume o dalla tabella usando lo schema definito. Per altre informazioni sull'uso ai_extract nelle query SQL, vedere ai_extract funzione.
Creare una pipeline dichiarativa Spark per distribuire una pipeline ETL che viene eseguita a intervalli pianificati per attivare l'agente sui nuovi dati. In questo modo vengono create pipeline dichiarative di Lakeflow Spark che aggiornano una tabella di streaming con i dati estratti. È possibile configurare la pianificazione della pipeline per essere eseguita quando arrivano nuovi dati. Per altre informazioni sulle pipeline dichiarative di Lakeflow Spark, vedere Pipeline dichiarative di Lakeflow Spark.

Limitazioni

Vedere Limitazioni

Gli agenti di estrazione delle informazioni hanno una lunghezza massima del contesto di 128.000 token.
Le aree di lavoro con sicurezza avanzata e conformità abilitate non sono supportate.
I tipi di schema union non sono supportati.

Commenti e suggerimenti

Questa pagina è stata utile?

Last updated on 2026-04-04