Elaborazione intelligente dei documenti

L'elaborazione intelligente dei documenti converte contenuti non strutturati, ad esempio pdf, file DOCX, immagini e presentazioni, in dati strutturati e arricchiti che alimentano agenti downstream, applicazioni e analisi.

Con Azure Databricks è possibile creare pipeline IDP end-to-end direttamente in Lakehouse usando funzioni di intelligenza artificiale componibili in modo nativo, tra cui ai_parse_document, ai_extracte ai_classify. Queste funzioni sviluppate per la ricerca sono appositamente create per l'elaborazione di documenti ad alte prestazioni. Poiché tutta l'elaborazione avviene all'interno del catalogo Unity, le pipeline IDP di livello di produzione rimangono sicure, governate e completamente gestite.

caso d'uso	Approccio consigliato
Analisi dei documenti	Convertire file PDF, DOCX, immagini e PPT in testo strutturato, tabelle e descrizioni delle figure.
estrazione di informazioni	Estrarre campi strutturati da documenti o testo semplice utilizzando uno schema definito.
Classificare il contenuto	Assegnare categorie predefinite a documenti o testo, supportando fino a 500 etichette.

Casi d'uso comuni

IDP in Azure Databricks supporta un'ampia gamma di applicazioni downstream:

Retrieval-augmented generation (RAG): analizzare e strutturare i documenti per migliorare la suddivisione in blocchi, la qualità del recupero e il fondamento per le applicazioni LLM.
Estrazione e analisi delle informazioni: estrarre campi chiave e metadati per abilitare la ricerca, la creazione di report e la business intelligence sui dati dei documenti.
Flussi di lavoro basati su agenti: instradare, classificare e arricchire i documenti per supportare l'esecuzione automatizzata delle decisioni e delle attività.
Analisi e classificazione dei documenti: organizzare corpora di documenti di grandi dimensioni in base al tipo, all'argomento o al contenuto per l'elaborazione downstream.

Come funziona

Azure Databricks consente l'elaborazione intelligente dei documenti come flusso di lavoro end-to-end unificato in Lakehouse. L'inserimento, l'analisi, l'arricchimento e l'analisi downstream sono basate su una singola piattaforma, quindi ogni fase funziona perfettamente insieme senza richiedere un'integrazione complessa o uno spostamento dei dati.

Inserimento e orchestrazione

Usare le pipeline dichiarative di Lakeflow Spark per inserire documenti non elaborati (ad esempio pdf, immagini e file DOCX) e orchestrare le pipeline. Poiché l'inserimento e l'orchestrazione sono integrati in modo nativo con Lakehouse, i documenti passano direttamente all'elaborazione downstream senza infrastruttura aggiuntiva.
Analizzare i documenti (livello Bronzo)

Applicare ai_parse_document per convertire i file non elaborati in rappresentazioni strutturate. In questo modo viene creato un livello bronzo standardizzato che acquisisce testo, descrizioni di tabelle/immagini e struttura del documento, formando una base coerente per tutti i casi d'uso downstream.
Estrarre e classificare

Usare ai_extract e ai_classify per arricchire i documenti analizzati con campi e metadati strutturati. Queste funzioni operano direttamente sugli output analizzati, consentendo di estrarre informazioni chiave, classificare i documenti e instradarli attraverso flussi di lavoro senza passaggi di trasformazione aggiuntivi.
Analizzare e rendere operativi

Sfruttare funzioni di intelligenza artificiale aggiuntive o altri strumenti (dashboard di intelligenza artificiale/BI, app, ricerca vettoriale) per l'analisi downstream, il recupero (RAG) e i flussi di lavoro basati su agenti. Poiché tutti i dati rimangono in Lakehouse, i dati dei documenti strutturati possono essere usati immediatamente per la ricerca, i dashboard e le applicazioni.

Commenti e suggerimenti

Questa pagina è stata utile?

Last updated on 2026-04-04

Condividi tramite

Elaborazione intelligente dei documenti

Casi d'uso comuni

Come funziona

Commenti e suggerimenti

Risorse aggiuntive