Intelligente Dokumentverarbeitung

Intelligent Document Processing (IDP) konvertiert unstrukturierte Inhalte wie PDFs, DOCX-Dateien, Bilder und Präsentationen in strukturierte, angereicherte Daten, die nachgelagerte Agents, Anwendungen und Analysen ermöglichen.

Mit Azure Databricks können Sie End-to-End-IDP-Pipelines direkt auf dem Lakehouse erstellen, indem Sie systemeigene KI-Funktionen verwenden, einschließlich ai_parse_document, ai_extract und ai_classify. Diese von der Forschung entwickelten Funktionen sind für die hochleistungsreiche Dokumentverarbeitung vorgesehen. Da alle Verarbeitungen im Unity-Katalog ausgeführt werden, bleiben Ihre IDP-Pipelines auf Produktionsniveau sicher, geregelt und vollständig verwaltet.

Anwendungsfall	Empfohlener Ansatz
Dokumentanalyse	Konvertieren Sie PDFs, DOCX, Bilder und PPTs in strukturierten Text, Tabellen und Abbildungsbeschreibungen.
Informationsextraktion	Ziehen Sie strukturierte Felder aus Dokumenten oder reinem Text mithilfe eines von Ihnen definierten Schemas.
Klassifizieren von Inhalten	Weisen Sie Dokumenten oder Text vordefinierte Kategorien zu, die bis zu 500 Beschriftungen unterstützen.

Gängige Anwendungsfälle

IDP für Azure Databricks bietet eine breite Palette von downstream-Anwendungen:

Abrufverstärkte Generation (RAG): Dokumente analysieren und strukturieren, um die Segmentierung, Abrufqualität und Verankerung für LLM-Anwendungen zu verbessern.
Wissensextraktion und -analyse: Extrahieren Sie Schlüsselfelder und Metadaten, um Die Suche, Berichterstellung und Business Intelligence für Dokumentdaten zu ermöglichen.
Agentgesteuerte Workflows: Weiterleiten, Klassifizieren und Anreichern von Dokumenten zur Unterstützung automatisierter Entscheidungsfindung und Aufgabenausführung.
Dokumentverständnis und Klassifizierung: Organisieren Sie umfangreiche Dokumentkorpora nach Typ, Thema oder Inhalt für die nachgelagerte Verarbeitung.

So funktioniert es

Azure Databricks ermöglicht die intelligente Dokumentverarbeitung als einheitlicher End-to-End-Workflow im Lakehouse. Aufnahme, Analyse, Anreicherung und Downstream-Analyse basieren auf einer einzigen Plattform, sodass jede Phase nahtlos zusammenarbeitet, ohne dass komplexe Integration oder Datenverschiebung erforderlich ist.

Aufnehmen und Orchestrieren

Verwenden Sie Lakeflow Spark Declarative Pipelines, um Rohdokumente (z. B. PDFs, Bilder und DOCX-Dateien) aufzunehmen und Ihre Pipelines zu koordinieren. Da Aufnahme und Orchestrierung nativ in das Lakehouse integriert sind, fließen Dokumente direkt in die nachgelagerte Verarbeitung ohne zusätzliche Infrastruktur.
Analysieren von Dokumenten (Bronzeschicht)

Wenden Sie sich an ai_parse_document , um Rohdateien in strukturierte Darstellungen zu konvertieren. Dadurch wird eine standardisierte Bronzeschicht erstellt, die Text, Tabellen/Bildbeschreibungen und Dokumentstruktur erfasst und eine einheitliche Grundlage für alle nachgeschalteten Anwendungsfälle bildet.
Extrahieren und Klassifizieren

Verwenden Sie ai_extract und ai_classify, um analysierte Dokumente mit strukturierten Feldern und Metadaten zu erweitern. Diese Funktionen arbeiten direkt an den analysierten Ausgaben, sodass Sie wichtige Informationen extrahieren, Dokumente klassifizieren und sie ohne zusätzliche Transformationsschritte durch Workflows weiterleiten können.
Analysieren und Operationalisieren

Nutzen Sie zusätzliche KI-Funktionen oder andere Tools (AI/BI-Dashboards, Apps, Vektorsuche) für nachgeschaltete Analysen, Abrufe (RAG) und agentgesteuerte Workflows. Da alle Daten im Lakehouse verbleiben, können strukturierte Dokumentdaten sofort für Die Suche, Dashboards und Anwendungen verwendet werden.

Feedback

War diese Seite hilfreich?

Last updated on 2026-04-04

Freigeben über

Intelligente Dokumentverarbeitung

Gängige Anwendungsfälle

So funktioniert es

Feedback

Zusätzliche Ressourcen