Microsoft Purview での光学式文字認識について説明します

光学式文字認識 (OCR) スキャンを使用すると、Microsoft Purview は画像で機密情報をスキャンできます。 OCR スキャンは、テナントレベルで有効にする必要があるオプションの機能です。有効にした後、画像をスキャンする場所を選択します。 Exchange、SharePoint、OneDrive、Teams、Windows、macOS デバイスで画像をスキャンできます。 OCR 設定を構成すると、Microsoft Purview は、データ損失防止 (DLP)、レコード管理、およびインサイダーリスク管理 (IRM) の既存のポリシーを画像とテキストベースのコンテンツに適用します。たとえば、DLP 条件コンテンツに機密情報が含まれており、クレジットカードの機密情報の種類 (SIT) などのデータ分類子が含まれている場合、Microsoft Purview は、選択したすべての場所のテキストと画像の両方でクレジットカード番号をスキャンします。

ワークフローの概要

フェーズ	前提条件
必要に応じてAzureサブスクリプションを作成する	organizationにテナントの従量課金制サブスクリプションがまだAzureされていない場合は、グローバル管理者がAzure アカウントを作成することから始める必要があります。
OCR スキャン料金を見積もる	OCR コスト見積もりツールを使用して、特定のユースケースで予想される料金を見積もります。
OCR を有効にするために従量課金制を設定します。	グローバル管理者または SharePoint 管理者は、「Azureで課金Microsoft Syntex設定する」の手順に従って、OCR のサブスクリプションを追加する必要があります。
OCR スキャン設定を構成する	organizationのコンプライアンス管理者は、テナントの OCR 設定を構成します。

前提条件

OCR スキャンを使用するには、organizationのグローバル管理者が、従量課金制サブスクリプションがAzureされていることを確認する必要があります。そうでない場合は、「初期Azure サブスクリプションを作成する」の手順に従ってサブスクリプションを設定する必要があります。

請求の構成

OCR を有効にすると、すべての機密情報の種類とトレーニング可能な分類子で、画像内の文字を検出できます。

これはオプションの機能であるため、グローバル管理者は、OCR を有効にするために従量課金制を設定する必要があります。 OCR のサブスクリプションを追加するには、「Azureで課金Microsoft Syntex設定する」の手順を参照してください。

注:

Microsoft Syntexで課金情報を入力した後、コンプライアンス管理者は、追加のセットアップやライセンス要件なしで Microsoft Purview で OCR を構成できます。

OCR 従量課金制の価格情報については、Azureページの「Microsoft Syntex課金の設定」を参照してください。

OCR スキャン料金を見積もる

スキャンされた各イメージは、1 つのトランザクションとしてカウントされます。この価格は、スタンドアロンイメージ (JPEG、JPG、PNG、BMP、または TIFF) がそれぞれ 1 つのトランザクションとしてカウントされることを意味します。また、PDF ファイル内の 各ページ は個別に課金されます。たとえば、PDF ファイルに 10 ページがある場合、PDF ファイルの OCR スキャンは 10 個の個別スキャンとしてカウントされます。 OCR コスト見積もりツールの使用については、「 OCR コストの見積もり」を参照してください。

注:

OCR コストを削減するために、サービスは次のキャッシュメカニズムを使用します。Microsoft Exchange 経由で電子メールで送信されるロゴや署名などの小さな画像は、5 日間の移動期間にテナントのすべてのユーザーの一意の画像ごとに 1 回だけスキャンされ、課金されます。エンドポイントの場合、キャッシュは 30 日間維持されます。キャッシュは各エンドポイントデバイスに対してローカルであり、イメージとイメージハッシュで識別された分類子のみが格納されます。顧客データは保存されません。 SharePoint と OneDrive には、スタンドアロンイメージのキャッシュメカニズムはありません。ただし、埋め込みファイルの種類では、テキストのみが更新された場合、画像は再スキャンされません。

サービスは、イメージストリームハッシュやイメージサイズを含む複数のパラメーターをチェックして、キャッシュを使用できるかどうかを確認します。いずれかのパラメーターが一致しない場合、サービス OCR はイメージをもう一度実行します。

さらに、スキャンされた各イメージを、データ損失防止、インサイダーリスク管理、自動ラベル付け、レコード管理に関する任意の数のポリシーで追加料金なしで使用できます。

重要

PDF ファイルで Microsoft Purview データ損失防止 (DLP) 機能を使用するための Adobe の要件については、「Acrobat での Microsoft Purview Information Protection のサポート」の記事をご覧ください。

OCR 設定を構成する

テナントの OCR スキャンを構成するには、次の手順に従います。

[Microsoft Purview ポータル] にサインインします。
[設定] を選択します。
OCR 構成設定を入力するには、[ 光学式文字認識 (OCR)] を選択します。
画像をスキャンする場所を選択します。
OCR スキャンに含めたり、OCR スキャンから除外したりするグループを選択します。
[完了] を選択します。

OCR が画像をスキャンする場所と結果に作用するソリューションの完全な一覧については、「サポートされている場所とソリューション」を参照してください。

アクセス許可

ポリシーを作成して展開するには、アカウントが次のいずれかの役割グループのメンバーである必要があります。

コンプライアンス管理者
コンプライアンスデータ管理者
グローバル管理者
情報保護
Information Protection 管理者

注:

一般に、OCR 設定はオンにしてから約 1 時間後に有効になります。

注:

Microsoft Purview コミュニケーションコンプライアンスの OCR 機能の詳細については、「コミュニケーションコンプライアンスポリシーの作成と管理」を参照してください。

サポートされている場所とソリューション

場所	サポートされているソリューション
Exchange	データ損失防止情報保護: 自動ラベル付けポリシーレコード管理: 保持ラベルポリシーの自動適用¹
SharePoint サイト	データ損失防止インサイダーリスク管理² レコード管理: 保持ラベルポリシーの自動適用¹
OneDrive アカウント	データ損失防止レコード管理: 保持ラベルポリシーの自動適用¹
Teams チャットおよびチャネルメッセージ	データ損失防止インサイダーリスク管理²
デバイス	データ損失防止インサイダーリスク管理²

¹ キーワードと機密情報の種類をサポートします。
² リスクスコアリングのために、画像に存在する機密情報の種類とトレーニング可能な分類子を考慮します。

サポートされているファイルの種類

この機能では、次のファイルの種類の画像のスキャンがサポートされています。特に説明されている要件があります。

場所	サポートされているファイルの種類
Exchange	JPEG、JPG、PNG、BMP、TIFF、PDF (スキャン済み)。 DOCX、PPTX、XLSX、RAR、TAR、ZIP、7z、およびハイブリッド PDF (検索可能なテキストと画像を含む) の埋め込み画像。ファイルあたり 20 個の埋め込み画像がスキャンされます。
SharePoint および OneDrive	BMP、PNG、JPEG、JPG、JFIF、ARW、CR2、CRW、ERF、GIF、MEF、MRW、NEF、NRW、ORF、 PEF、RAW、RW2、RW1、SR2、TIF、TIFF、HEIC、HEIF、ARI、BAY、CAP、CR3、DCS、DCR、DRF、EIP、FFF、IIQ、K25、KDC、MOS、PTX、PXN、RAF、RWL、SRW、X3F、DNG、DNG、PDFs (スキャンされ、検索可能なテキストと画像を含む) 埋め込まれた画像 PPTX、XLSX
Teams、Windows、macOS エンドポイント	JPEG、JPG、PNG、BMP、TIFF、PDF (画像のみ)

イメージの要件

要件	極限
ファイルサイズ (Exchange、Teams)	最大 20 MB
ファイルサイズ (SharePoint、OneDrive、Windows、macOS エンドポイント)	最大 50 MB
画像の解像度	最小 50 × 50 px、最大 16,000 × 16,000 px

重要

OCR が有効になった後にアップロードされた画像のみがスキャンされます。
OCR では、テキストの最初の 200 万文字のみが抽出されます。
既定では、受信メール (organization外のユーザーからのメール)、内部メール (organizationのユーザー内で共有されているメール)、送信メール (organization外のユーザーに送信された電子メール) は OCR スキャンの対象となります。 OCR スキャンから受信メールを除外するには、[ すべての送信者グループ ] の既定のスコープから [特定の送信者グループ ] に OCR 設定を変更し、OCR でスキャンする内部グループを指定します。 OCR スキャンをorganizationの外部でのみ送信されるメールに制限するには、[詳細設定 (Exchange のみ)] の下のオプションを選択します。このチェックボックスをオンにすると、受信メールも内部通信も OCRed は行いません。構成の変更については、「 OCR 設定の構成」を参照してください。
Exchange のイメージでは、データ損失防止ポリシーのヒントはサポートされていません。
エンドポイントデータ損失防止設定でパスを除外した場合、OCR はそれらのフォルダー内の画像をスキャンしません。
Windows デバイスと macOS デバイスで OCR がオンになると、デバイスはスキャンのためにクラウドへのメッセージの送信を開始します。既定の帯域幅制限は、デバイスあたり 1 日あたり 1,024 MB のデータです。 OCR は、この 1 日の制限に達すると画像のスキャンを停止します。画像のスキャンを続行する場合は、帯域幅の制限を増やすことができます。
エンドポイントデバイスの場合は、ネットワーク設定によって OCR が妨げられていないことを確認し、エンドポイント blob.core.windows.net 許可するワイルドカードが存在する必要があります。
Exchange の場合、この機能では、DOCX、PPTX、XLSX、RAR、TAR、ZIP、7z、ハイブリッド PDF (検索可能なテキストと画像を含む) の埋め込みイメージがサポートされ、ファイルごとに 20 個の埋め込み画像がスキャンされます。

サポートされている言語

OCR スキャンでは、150 を超える言語がサポートされています。

概要

OCR を使用するには、従量課金制Microsoft Syntex設定します。 (Microsoft Syntex自体を設定する必要はありません)。
OCR をテナントレベルで構成するため、OCR が構成されると、Microsoft Purview スタック全体で使用できるようになります。
OCR 用に個別のデータ分類子を作成する必要はありません。 OCR を構成すると、既存の機密情報の種類、正確なデータ一致に基づく機密情報の種類、トレーニング可能な分類子、指紋の SID によって、画像とドキュメントと電子メールがスキャンされます。
Microsoft Purview eDiscoveryでは、ケースレベルで OCR がサポートされます。詳細については、「電子情報開示での検索と分析の設定」を参照してください。

フィードバック

このページはお役に立ちましたか?

Last updated on 2026-05-01