Processamento inteligente de documentos

O Processamento Inteligente de Documentos (IDP) converte conteúdos não estruturados — como PDFs, ficheiros DOCX, imagens e apresentações — em dados estruturados e enriquecidos que alimentam agentes, aplicações e análises a jusante.

Com o Azure Databricks, pode construir pipelines IDP de ponta a ponta diretamente no Lakehouse usando Funções de IA compostíveis nativamente, incluindo ai_parse_document, ai_extract, e ai_classify. Estas funções desenvolvidas por investigação são concebidas para o processamento de documentos de alto desempenho. Como todo o processamento é executado no local dentro do Catálogo Unity, os seus pipelines IDP de qualidade de produção permanecem seguros, controlados e totalmente geridos localmente.

Caso de uso Abordagem recomendada
Análise sintática de documentos Converta PDFs, DOCX, imagens e PPTs em texto estruturado, tabelas e descrições de figuras.
Extração de informações Extrai campos estruturados de documentos ou texto simples usando um esquema que definas.
Classificar conteúdo Atribuir categorias pré-definidas a documentos ou textos, suportando até 500+ rótulos.

Casos comuns de utilização

IDP no Azure Databricks alimenta uma vasta gama de aplicações subsequentes:

  • Geração aumentada por recuperação (RAG): Analisar e estruturar documentos para melhorar a segmentação, a qualidade da recuperação e a fundamentação para aplicações LLM.
  • Extração de conhecimento e análise: Extrair campos-chave e metadados para permitir pesquisa, relatórios e inteligência de negócio sobre dados documentais.
  • Fluxos de trabalho orientados por agentes: Encaminhar, classificar e enriquecer documentos para apoiar a tomada automática de decisões e a execução de tarefas.
  • Compreensão e classificação de documentos: Organizar grandes corpora de documentos por tipo, tema ou conteúdo para processamento a jusante.

Como funciona

O Azure Databricks permite o processamento inteligente de documentos como um fluxo de trabalho unificado de ponta a ponta no Lakehouse. A ingestão, análise sintática, enriquecimento e análise a jusante são construídos numa única plataforma, pelo que cada etapa funciona em conjunto sem necessidade de integração complexa ou movimentação de dados.

  1. Ingerir e orquestrar

    Use os Pipelines Declarativos Lakeflow Spark para ingerir documentos brutos (como PDFs, imagens e ficheiros DOCX) e orquestrar os seus pipelines. Como a ingestão e a orquestração estão integradas nativamente com o Lakehouse, os documentos fluem diretamente para o processamento a jusante sem infraestrutura adicional.

  2. Análise de documentos (Camada de bronze)

    Aplique ai_parse_document para converter ficheiros brutos em representações estruturadas. Isto cria uma camada bronze padronizada que capta texto, tabelas/descrições de imagens e estrutura do documento, formando uma base consistente para todos os casos de uso posteriores.

  3. Extrair e classificar

    Utilizar ai_extract e ai_classify para enriquecer documentos analisados com campos estruturados e metadados. Estas funções operam diretamente sobre os resultados analisados, permitindo-lhe extrair informações-chave, classificar documentos e encaminhá-los através de fluxos de trabalho sem passos adicionais de transformação.

  4. Analisar e operacionalizar

    Aproveite funções adicionais de IA ou outras ferramentas (dashboards de IA/BI, aplicações, pesquisa vetorial) para análises a jusante, recuperação (RAG) e fluxos de trabalho orientados por agentes. Como todos os dados permanecem no Lakehouse, os dados estruturados dos documentos podem ser usados imediatamente para pesquisa, dashboards e aplicações.