Hinweis
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, sich anzumelden oder das Verzeichnis zu wechseln.
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, das Verzeichnis zu wechseln.
Intelligent Document Processing (IDP) konvertiert unstrukturierte Inhalte wie PDFs, DOCX-Dateien, Bilder und Präsentationen in strukturierte, angereicherte Daten, die nachgelagerte Agents, Anwendungen und Analysen ermöglichen.
Mit Azure Databricks können Sie End-to-End-IDP-Pipelines direkt auf dem Lakehouse erstellen, indem Sie systemeigene KI-Funktionen verwenden, einschließlich ai_parse_document, ai_extract und ai_classify. Diese von der Forschung entwickelten Funktionen sind für die hochleistungsreiche Dokumentverarbeitung vorgesehen. Da alle Verarbeitungen im Unity-Katalog ausgeführt werden, bleiben Ihre IDP-Pipelines auf Produktionsniveau sicher, geregelt und vollständig verwaltet.
| Anwendungsfall | Empfohlener Ansatz |
|---|---|
| Dokumentanalyse | Konvertieren Sie PDFs, DOCX, Bilder und PPTs in strukturierten Text, Tabellen und Abbildungsbeschreibungen. |
| Informationsextraktion | Ziehen Sie strukturierte Felder aus Dokumenten oder reinem Text mithilfe eines von Ihnen definierten Schemas. |
| Klassifizieren von Inhalten | Weisen Sie Dokumenten oder Text vordefinierte Kategorien zu, die bis zu 500 Beschriftungen unterstützen. |
Gängige Anwendungsfälle
IDP für Azure Databricks bietet eine breite Palette von downstream-Anwendungen:
- Abrufverstärkte Generation (RAG): Dokumente analysieren und strukturieren, um die Segmentierung, Abrufqualität und Verankerung für LLM-Anwendungen zu verbessern.
- Wissensextraktion und -analyse: Extrahieren Sie Schlüsselfelder und Metadaten, um Die Suche, Berichterstellung und Business Intelligence für Dokumentdaten zu ermöglichen.
- Agentgesteuerte Workflows: Weiterleiten, Klassifizieren und Anreichern von Dokumenten zur Unterstützung automatisierter Entscheidungsfindung und Aufgabenausführung.
- Dokumentverständnis und Klassifizierung: Organisieren Sie umfangreiche Dokumentkorpora nach Typ, Thema oder Inhalt für die nachgelagerte Verarbeitung.
So funktioniert es
Azure Databricks ermöglicht die intelligente Dokumentverarbeitung als einheitlicher End-to-End-Workflow im Lakehouse. Aufnahme, Analyse, Anreicherung und Downstream-Analyse basieren auf einer einzigen Plattform, sodass jede Phase nahtlos zusammenarbeitet, ohne dass komplexe Integration oder Datenverschiebung erforderlich ist.
Aufnehmen und Orchestrieren
Verwenden Sie Lakeflow Spark Declarative Pipelines, um Rohdokumente (z. B. PDFs, Bilder und DOCX-Dateien) aufzunehmen und Ihre Pipelines zu koordinieren. Da Aufnahme und Orchestrierung nativ in das Lakehouse integriert sind, fließen Dokumente direkt in die nachgelagerte Verarbeitung ohne zusätzliche Infrastruktur.
Analysieren von Dokumenten (Bronzeschicht)
Wenden Sie sich an
ai_parse_document, um Rohdateien in strukturierte Darstellungen zu konvertieren. Dadurch wird eine standardisierte Bronzeschicht erstellt, die Text, Tabellen/Bildbeschreibungen und Dokumentstruktur erfasst und eine einheitliche Grundlage für alle nachgeschalteten Anwendungsfälle bildet.Extrahieren und Klassifizieren
Verwenden Sie
ai_extractundai_classify, um analysierte Dokumente mit strukturierten Feldern und Metadaten zu erweitern. Diese Funktionen arbeiten direkt an den analysierten Ausgaben, sodass Sie wichtige Informationen extrahieren, Dokumente klassifizieren und sie ohne zusätzliche Transformationsschritte durch Workflows weiterleiten können.Analysieren und Operationalisieren
Nutzen Sie zusätzliche KI-Funktionen oder andere Tools (AI/BI-Dashboards, Apps, Vektorsuche) für nachgeschaltete Analysen, Abrufe (RAG) und agentgesteuerte Workflows. Da alle Daten im Lakehouse verbleiben, können strukturierte Dokumentdaten sofort für Die Suche, Dashboards und Anwendungen verwendet werden.