Nota
O acesso a esta página requer autorização. Pode tentar iniciar sessão ou alterar os diretórios.
O acesso a esta página requer autorização. Pode tentar alterar os diretórios.
O Processamento Inteligente de Documentos (IDP) converte conteúdos não estruturados — como PDFs, ficheiros DOCX, imagens e apresentações — em dados estruturados e enriquecidos que alimentam agentes, aplicações e análises a jusante.
Com o Azure Databricks, pode construir pipelines IDP de ponta a ponta diretamente no Lakehouse usando Funções de IA compostíveis nativamente, incluindo ai_parse_document, ai_extract, e ai_classify. Estas funções desenvolvidas por investigação são concebidas para o processamento de documentos de alto desempenho. Como todo o processamento é executado no local dentro do Catálogo Unity, os seus pipelines IDP de qualidade de produção permanecem seguros, controlados e totalmente geridos localmente.
| Caso de uso | Abordagem recomendada |
|---|---|
| Análise sintática de documentos | Converta PDFs, DOCX, imagens e PPTs em texto estruturado, tabelas e descrições de figuras. |
| Extração de informações | Extrai campos estruturados de documentos ou texto simples usando um esquema que definas. |
| Classificar conteúdo | Atribuir categorias pré-definidas a documentos ou textos, suportando até 500+ rótulos. |
Casos comuns de utilização
IDP no Azure Databricks alimenta uma vasta gama de aplicações subsequentes:
- Geração aumentada por recuperação (RAG): Analisar e estruturar documentos para melhorar a segmentação, a qualidade da recuperação e a fundamentação para aplicações LLM.
- Extração de conhecimento e análise: Extrair campos-chave e metadados para permitir pesquisa, relatórios e inteligência de negócio sobre dados documentais.
- Fluxos de trabalho orientados por agentes: Encaminhar, classificar e enriquecer documentos para apoiar a tomada automática de decisões e a execução de tarefas.
- Compreensão e classificação de documentos: Organizar grandes corpora de documentos por tipo, tema ou conteúdo para processamento a jusante.
Como funciona
O Azure Databricks permite o processamento inteligente de documentos como um fluxo de trabalho unificado de ponta a ponta no Lakehouse. A ingestão, análise sintática, enriquecimento e análise a jusante são construídos numa única plataforma, pelo que cada etapa funciona em conjunto sem necessidade de integração complexa ou movimentação de dados.
Ingerir e orquestrar
Use os Pipelines Declarativos Lakeflow Spark para ingerir documentos brutos (como PDFs, imagens e ficheiros DOCX) e orquestrar os seus pipelines. Como a ingestão e a orquestração estão integradas nativamente com o Lakehouse, os documentos fluem diretamente para o processamento a jusante sem infraestrutura adicional.
Análise de documentos (Camada de bronze)
Aplique
ai_parse_documentpara converter ficheiros brutos em representações estruturadas. Isto cria uma camada bronze padronizada que capta texto, tabelas/descrições de imagens e estrutura do documento, formando uma base consistente para todos os casos de uso posteriores.Extrair e classificar
Utilizar
ai_extracteai_classifypara enriquecer documentos analisados com campos estruturados e metadados. Estas funções operam diretamente sobre os resultados analisados, permitindo-lhe extrair informações-chave, classificar documentos e encaminhá-los através de fluxos de trabalho sem passos adicionais de transformação.Analisar e operacionalizar
Aproveite funções adicionais de IA ou outras ferramentas (dashboards de IA/BI, aplicações, pesquisa vetorial) para análises a jusante, recuperação (RAG) e fluxos de trabalho orientados por agentes. Como todos os dados permanecem no Lakehouse, os dados estruturados dos documentos podem ser usados imediatamente para pesquisa, dashboards e aplicações.