インテリジェント ドキュメント処理 (IDP) は、PDF、DOCX ファイル、画像、プレゼンテーションなどの非構造化コンテンツを、ダウンストリーム のエージェント、アプリケーション、分析を強化する構造化されたエンリッチメントされたデータに変換します。
Azure Databricks を使用すると、 ai_parse_document、 ai_extract、 ai_classifyなど、ネイティブに構成可能な AI Functions を使用して、Lakehouse 上にエンド ツー エンドの IDP パイプラインを直接構築できます。 これらの研究によって開発された機能は、高性能なドキュメント処理のために専用に構築されています。 すべての処理が Unity カタログ内で実行されるため、運用グレードの IDP パイプラインは、安全で管理され、完全に管理された状態が維持されます。
| 使用例 | 推奨される方法 |
|---|---|
| ドキュメントの解析 | PDF、DOCX、イメージ、および PPT を構造化されたテキスト、テーブル、および図の説明に変換します。 |
| 情報抽出 | 定義したスキーマを使用して、ドキュメントまたはプレーン テキストから構造化フィールドをプルします。 |
| コンテンツを分類する | ドキュメントまたはテキストに定義済みのカテゴリを割り当て、最大 500 以上のラベルをサポートします。 |
一般的なユース ケース
Azure Databricks 上の IDP は、さまざまなダウンストリーム アプリケーションに対応します。
- 取得拡張生成 (RAG): LLM アプリケーションのチャンク、取得品質、およびグラウンド処理を向上させるために、ドキュメントを解析および構造化します。
- 知識の抽出と分析: 主要なフィールドとメタデータを抽出して、ドキュメント データの検索、レポート、ビジネス インテリジェンスを有効にします。
- エージェント駆動型ワークフロー: ドキュメントのルーティング、分類、エンリッチを行い、自動化された意思決定とタスクの実行をサポートします。
- ドキュメントの理解と分類: ダウンストリーム処理のために、種類、トピック、またはコンテンツごとに大規模なドキュメント コーパスを整理します。
どのように機能するのか
Azure Databricks を使用すると、Lakehouse で統合されたエンドツーエンドのワークフローとしてインテリジェントなドキュメント処理が可能になります。 インジェスト、解析、エンリッチメント、ダウンストリーム分析は 1 つのプラットフォーム上に構築されているため、各ステージは複雑な統合やデータ移動を必要とせずにシームレスに連携します。
取り込みと調整
Lakeflow Spark 宣言パイプラインを使用して、未加工のドキュメント (PDF、イメージ、DOCX ファイルなど) を取り込み、パイプラインを調整します。 インジェストとオーケストレーションは Lakehouse とネイティブに統合されているため、ドキュメントは追加のインフラストラクチャなしでダウンストリーム処理に直接フローします。
ドキュメントの解析 (ブロンズ レイヤー)
ai_parse_documentを適用して、生ファイルを構造化表現に変換します。 これにより、テキスト、テーブル/画像の説明、およびドキュメント構造をキャプチャする標準化されたブロンズ レイヤーが作成され、すべてのダウンストリーム ユース ケースに対して一貫した基盤が形成されます。抽出と分類
ai_extractとai_classifyを使用して、構造化されたフィールドとメタデータを使用して解析されたドキュメントを強化します。 これらの関数は解析された出力に対して直接動作するため、重要な情報を抽出し、ドキュメントを分類し、追加の変換手順なしでワークフローを介してルーティングすることができます。分析と運用化
追加の AI 関数またはその他のツール (AI/BI ダッシュボード、アプリ、ベクター検索) を利用して、ダウンストリーム分析、取得 (RAG)、エージェント駆動型ワークフローを実現します。 すべてのデータは Lakehouse に残るため、構造化されたドキュメント データを検索、ダッシュボード、アプリケーションにすぐに使用できます。