インテリジェントなドキュメント処理

インテリジェント ドキュメント処理 (IDP) は、PDF、DOCX ファイル、画像、プレゼンテーションなどの非構造化コンテンツを、ダウンストリーム のエージェント、アプリケーション、分析を強化する構造化されたエンリッチメントされたデータに変換します。

Azure Databricks を使用すると、 ai_parse_documentai_extractai_classifyなど、ネイティブに構成可能な AI Functions を使用して、Lakehouse 上にエンド ツー エンドの IDP パイプラインを直接構築できます。 これらの研究によって開発された機能は、高性能なドキュメント処理のために専用に構築されています。 すべての処理が Unity カタログ内で実行されるため、運用グレードの IDP パイプラインは、安全で管理され、完全に管理された状態が維持されます。

使用例 推奨される方法
ドキュメントの解析 PDF、DOCX、イメージ、および PPT を構造化されたテキスト、テーブル、および図の説明に変換します。
情報抽出 定義したスキーマを使用して、ドキュメントまたはプレーン テキストから構造化フィールドをプルします。
コンテンツを分類する ドキュメントまたはテキストに定義済みのカテゴリを割り当て、最大 500 以上のラベルをサポートします。

一般的なユース ケース

Azure Databricks 上の IDP は、さまざまなダウンストリーム アプリケーションに対応します。

  • 取得拡張生成 (RAG): LLM アプリケーションのチャンク、取得品質、およびグラウンド処理を向上させるために、ドキュメントを解析および構造化します。
  • 知識の抽出と分析: 主要なフィールドとメタデータを抽出して、ドキュメント データの検索、レポート、ビジネス インテリジェンスを有効にします。
  • エージェント駆動型ワークフロー: ドキュメントのルーティング、分類、エンリッチを行い、自動化された意思決定とタスクの実行をサポートします。
  • ドキュメントの理解と分類: ダウンストリーム処理のために、種類、トピック、またはコンテンツごとに大規模なドキュメント コーパスを整理します。

どのように機能するのか

Azure Databricks を使用すると、Lakehouse で統合されたエンドツーエンドのワークフローとしてインテリジェントなドキュメント処理が可能になります。 インジェスト、解析、エンリッチメント、ダウンストリーム分析は 1 つのプラットフォーム上に構築されているため、各ステージは複雑な統合やデータ移動を必要とせずにシームレスに連携します。

  1. 取り込みと調整

    Lakeflow Spark 宣言パイプラインを使用して、未加工のドキュメント (PDF、イメージ、DOCX ファイルなど) を取り込み、パイプラインを調整します。 インジェストとオーケストレーションは Lakehouse とネイティブに統合されているため、ドキュメントは追加のインフラストラクチャなしでダウンストリーム処理に直接フローします。

  2. ドキュメントの解析 (ブロンズ レイヤー)

    ai_parse_documentを適用して、生ファイルを構造化表現に変換します。 これにより、テキスト、テーブル/画像の説明、およびドキュメント構造をキャプチャする標準化されたブロンズ レイヤーが作成され、すべてのダウンストリーム ユース ケースに対して一貫した基盤が形成されます。

  3. 抽出と分類

    ai_extractai_classifyを使用して、構造化されたフィールドとメタデータを使用して解析されたドキュメントを強化します。 これらの関数は解析された出力に対して直接動作するため、重要な情報を抽出し、ドキュメントを分類し、追加の変換手順なしでワークフローを介してルーティングすることができます。

  4. 分析と運用化

    追加の AI 関数またはその他のツール (AI/BI ダッシュボード、アプリ、ベクター検索) を利用して、ダウンストリーム分析、取得 (RAG)、エージェント駆動型ワークフローを実現します。 すべてのデータは Lakehouse に残るため、構造化されたドキュメント データを検索、ダッシュボード、アプリケーションにすぐに使用できます。