Nota
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare ad accedere o modificare le directory.
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare a modificare le directory.
L'elaborazione intelligente dei documenti converte contenuti non strutturati, ad esempio pdf, file DOCX, immagini e presentazioni, in dati strutturati e arricchiti che alimentano agenti downstream, applicazioni e analisi.
Con Azure Databricks è possibile creare pipeline IDP end-to-end direttamente in Lakehouse usando funzioni di intelligenza artificiale componibili in modo nativo, tra cui ai_parse_document, ai_extracte ai_classify. Queste funzioni sviluppate per la ricerca sono appositamente create per l'elaborazione di documenti ad alte prestazioni. Poiché tutta l'elaborazione avviene all'interno del catalogo Unity, le pipeline IDP di livello di produzione rimangono sicure, governate e completamente gestite.
| caso d'uso | Approccio consigliato |
|---|---|
| Analisi dei documenti | Convertire file PDF, DOCX, immagini e PPT in testo strutturato, tabelle e descrizioni delle figure. |
| estrazione di informazioni | Estrarre campi strutturati da documenti o testo semplice utilizzando uno schema definito. |
| Classificare il contenuto | Assegnare categorie predefinite a documenti o testo, supportando fino a 500 etichette. |
Casi d'uso comuni
IDP in Azure Databricks supporta un'ampia gamma di applicazioni downstream:
- Retrieval-augmented generation (RAG): analizzare e strutturare i documenti per migliorare la suddivisione in blocchi, la qualità del recupero e il fondamento per le applicazioni LLM.
- Estrazione e analisi delle informazioni: estrarre campi chiave e metadati per abilitare la ricerca, la creazione di report e la business intelligence sui dati dei documenti.
- Flussi di lavoro basati su agenti: instradare, classificare e arricchire i documenti per supportare l'esecuzione automatizzata delle decisioni e delle attività.
- Analisi e classificazione dei documenti: organizzare corpora di documenti di grandi dimensioni in base al tipo, all'argomento o al contenuto per l'elaborazione downstream.
Come funziona
Azure Databricks consente l'elaborazione intelligente dei documenti come flusso di lavoro end-to-end unificato in Lakehouse. L'inserimento, l'analisi, l'arricchimento e l'analisi downstream sono basate su una singola piattaforma, quindi ogni fase funziona perfettamente insieme senza richiedere un'integrazione complessa o uno spostamento dei dati.
Inserimento e orchestrazione
Usare le pipeline dichiarative di Lakeflow Spark per inserire documenti non elaborati (ad esempio pdf, immagini e file DOCX) e orchestrare le pipeline. Poiché l'inserimento e l'orchestrazione sono integrati in modo nativo con Lakehouse, i documenti passano direttamente all'elaborazione downstream senza infrastruttura aggiuntiva.
Analizzare i documenti (livello Bronzo)
Applicare
ai_parse_documentper convertire i file non elaborati in rappresentazioni strutturate. In questo modo viene creato un livello bronzo standardizzato che acquisisce testo, descrizioni di tabelle/immagini e struttura del documento, formando una base coerente per tutti i casi d'uso downstream.Estrarre e classificare
Usare
ai_extracteai_classifyper arricchire i documenti analizzati con campi e metadati strutturati. Queste funzioni operano direttamente sugli output analizzati, consentendo di estrarre informazioni chiave, classificare i documenti e instradarli attraverso flussi di lavoro senza passaggi di trasformazione aggiuntivi.Analizzare e rendere operativi
Sfruttare funzioni di intelligenza artificiale aggiuntive o altri strumenti (dashboard di intelligenza artificiale/BI, app, ricerca vettoriale) per l'analisi downstream, il recupero (RAG) e i flussi di lavoro basati su agenti. Poiché tutti i dati rimangono in Lakehouse, i dati dei documenti strutturati possono essere usati immediatamente per la ricerca, i dashboard e le applicazioni.