Processamento inteligente de documentos

O Processamento Inteligente de Documentos (IDP) converte conteúdos não estruturados — como PDFs, ficheiros DOCX, imagens e apresentações — em dados estruturados e enriquecidos que alimentam agentes, aplicações e análises a jusante.

Com o Azure Databricks, pode construir pipelines IDP de ponta a ponta diretamente no Lakehouse usando Funções de IA compostíveis nativamente, incluindo ai_parse_document, ai_extract, e ai_classify. Estas funções desenvolvidas por investigação são concebidas para o processamento de documentos de alto desempenho. Como todo o processamento é executado no local dentro do Catálogo Unity, os seus pipelines IDP de qualidade de produção permanecem seguros, controlados e totalmente geridos localmente.

Caso de uso	Abordagem recomendada
Análise sintática de documentos	Converta PDFs, DOCX, imagens e PPTs em texto estruturado, tabelas e descrições de figuras.
Extração de informações	Extrai campos estruturados de documentos ou texto simples usando um esquema que definas.
Classificar conteúdo	Atribuir categorias pré-definidas a documentos ou textos, suportando até 500+ rótulos.

Casos comuns de utilização

IDP no Azure Databricks alimenta uma vasta gama de aplicações subsequentes:

Geração aumentada por recuperação (RAG): Analisar e estruturar documentos para melhorar a segmentação, a qualidade da recuperação e a fundamentação para aplicações LLM.
Extração de conhecimento e análise: Extrair campos-chave e metadados para permitir pesquisa, relatórios e inteligência de negócio sobre dados documentais.
Fluxos de trabalho orientados por agentes: Encaminhar, classificar e enriquecer documentos para apoiar a tomada automática de decisões e a execução de tarefas.
Compreensão e classificação de documentos: Organizar grandes corpora de documentos por tipo, tema ou conteúdo para processamento a jusante.

Como funciona

O Azure Databricks permite o processamento inteligente de documentos como um fluxo de trabalho unificado de ponta a ponta no Lakehouse. A ingestão, análise sintática, enriquecimento e análise a jusante são construídos numa única plataforma, pelo que cada etapa funciona em conjunto sem necessidade de integração complexa ou movimentação de dados.

Ingerir e orquestrar

Use os Pipelines Declarativos Lakeflow Spark para ingerir documentos brutos (como PDFs, imagens e ficheiros DOCX) e orquestrar os seus pipelines. Como a ingestão e a orquestração estão integradas nativamente com o Lakehouse, os documentos fluem diretamente para o processamento a jusante sem infraestrutura adicional.
Análise de documentos (Camada de bronze)

Aplique ai_parse_document para converter ficheiros brutos em representações estruturadas. Isto cria uma camada bronze padronizada que capta texto, tabelas/descrições de imagens e estrutura do documento, formando uma base consistente para todos os casos de uso posteriores.
Extrair e classificar

Utilizar ai_extract e ai_classify para enriquecer documentos analisados com campos estruturados e metadados. Estas funções operam diretamente sobre os resultados analisados, permitindo-lhe extrair informações-chave, classificar documentos e encaminhá-los através de fluxos de trabalho sem passos adicionais de transformação.
Analisar e operacionalizar

Aproveite funções adicionais de IA ou outras ferramentas (dashboards de IA/BI, aplicações, pesquisa vetorial) para análises a jusante, recuperação (RAG) e fluxos de trabalho orientados por agentes. Como todos os dados permanecem no Lakehouse, os dados estruturados dos documentos podem ser usados imediatamente para pesquisa, dashboards e aplicações.

Comentários

Esta página foi útil?

Last updated on 2026-04-04

Processamento inteligente de documentos

Casos comuns de utilização

Como funciona

Comentários

Recursos adicionais