Saiba mais sobre o reconhecimento ótico de carateres no Microsoft Purview

Ao utilizar a análise de reconhecimento ótico de carateres (OCR), o Microsoft Purview pode analisar imagens para obter informações confidenciais. A análise de OCR é uma funcionalidade opcional que tem de ativar ao nível do inquilino. Depois de a ativar, selecione as localizações onde pretende digitalizar imagens. Pode digitalizar imagens em dispositivos Exchange, SharePoint, OneDrive, Teams, Windows e macOS. Quando configura as definições de OCR, o Microsoft Purview aplica as políticas existentes para prevenção de perda de dados (DLP), gestão de registos e gestão de riscos internos (IRM) a imagens e conteúdos baseados em texto. Por exemplo, se configurar o conteúdo da condição DLP contiver informações confidenciais e incluir um classificador de dados, como o tipo de informações confidenciais do Cartão de Crédito (SIT), o Microsoft Purview procura números de card de crédito em texto e imagens em todas as localizações escolhidas.

Fluxo de trabalho em um relance

Fase Requisitos
Criar Azure subscrição, se necessário Se a sua organização ainda não tiver uma subscrição pay as you go Azure para o seu inquilino, o administrador global tem de começar por criar uma conta Azure.
Estimar os custos de análise do OCR Utilize o avaliador de custos do OCR para estimar os custos esperados para os seus casos de utilização específicos.
Configure a faturação pay as you go para ativar o OCR. O administrador Global ou do SharePoint tem de seguir as instruções em Configurar Microsoft Syntex faturação no Azure para adicionar uma subscrição para o OCR.
Configurar as definições de análise de OCR O Administrador de conformidade da sua organização configura as definições de OCR para o seu inquilino.

Pré-requisitos

Para utilizar a análise de OCR, o Administrador global da sua organização tem de verificar se existe uma subscrição pay as you go Azure. Caso contrário, têm de configurar a subscrição ao seguir as instruções em Criar as subscrições Azure iniciais.

Configurar a faturação

Quando ativa o OCR, todos os tipos de informações confidenciais e classificadores treináveis podem detetar carateres que estão em imagens.

Uma vez que é uma funcionalidade opcional, o administrador global tem de configurar a faturação pay as you go para ativar o OCR. Veja as instruções em Configurar Microsoft Syntex faturação no Azure para adicionar uma subscrição do OCR.

Observação

Depois de introduzir as informações de faturação no Microsoft Syntex, o administrador de Conformidade pode configurar o OCR no Microsoft Purview sem quaisquer requisitos adicionais de configuração ou licenciamento.

Pode encontrar informações sobre preços pay as you go do OCR na página Configurar Microsoft Syntex faturação no Azure.

Estimar os custos de análise do OCR

Cada imagem analisada conta como uma transação. Este preço significa que as imagens autónomas (JPEG, JPG, PNG, BMP ou TIFF) contam como uma única transação. Também significa que cada página num ficheiro PDF é cobrada separadamente. Por exemplo, se existirem 10 páginas num ficheiro PDF, uma análise OCR do ficheiro PDF conta como 10 análises separadas. Para obter informações sobre como utilizar o avaliador de custos do OCR, veja Estimar os custos do OCR.

Observação

Para reduzir os custos de OCR, o serviço utiliza os seguintes mecanismos de colocação em cache: as imagens pequenas, como logótipos e assinaturas enviadas por e-mail através do Microsoft Exchange, são analisadas e faturadas apenas uma vez por imagem exclusiva em todos os utilizadores do inquilino para uma janela móvel de cinco dias. Para o Ponto Final, a cache é mantida durante 30 dias. A colocação em cache é local para cada dispositivo de ponto final e apenas os classificadores identificados na imagem e no hash de imagem são armazenados. Os dados do cliente não são armazenados. Não existe nenhum mecanismo de colocação em cache para imagens autónomas no SharePoint e no OneDrive. No entanto, nos tipos de ficheiro incorporados, se apenas o texto for atualizado, as imagens não serão analisadas novamente.

O serviço verifica vários parâmetros, incluindo o hash de fluxo de imagens e o tamanho da imagem, para ver se consegue utilizar a cache. Se algum parâmetro não corresponder, o serviço OCRs volta a criar a imagem.

Além disso, pode utilizar cada imagem digitalizada em qualquer número de políticas em toda a prevenção de perda de dados, gestão de riscos internos, etiquetagem automática e gestão de registos sem custos adicionais.

Importante

Para obter informações sobre os requisitos da Adobe para utilizar funcionalidades Prevenção Contra Perda de Dados do Microsoft Purview (DLP) com ficheiros PDF, consulte este artigo da Adobe: Proteção de Informações do Microsoft Purview Support in Acrobat (Suporte do Adobe: Proteção de Informações do Microsoft Purview no Acrobat).

Configurar as definições de OCR

Para configurar a análise de OCR para o seu inquilino, siga estes passos:

  1. Inicie sessão no portal do Microsoft Purview.
  2. Selecione Configurações.
  3. Selecione Reconhecimento ótico de carateres (OCR) para introduzir as definições de configuração do OCR.
  4. Selecione as localizações onde pretende digitalizar imagens.
  5. Selecione os grupos que pretende incluir ou excluir das análises de OCR.
  6. Selecione Concluído.

Para obter a lista completa das localizações onde o OCR analisa imagens e as soluções que atuam nos resultados, veja Localizações e soluções suportadas.

Permissões

Para criar e implementar políticas, a sua conta tem de ser membro de um destes grupos de funções:

  • Administrador de conformidade
  • Administrador de dados de conformidade
  • Administrador global
  • Proteção de Informações
  • Administrador de Proteção de Informações

Observação

Em geral, as definições de OCR são aplicadas cerca de uma hora depois de as ativar.

Observação

Para obter informações sobre a funcionalidade OCR no Conformidade de Comunicações do Microsoft Purview, veja Criar e gerir políticas de conformidade de comunicação.

Localizações e soluções suportadas

Local Soluções Suportadas
Exchange Prevenção contra perda de dados

Proteção de informações: políticas de etiquetagem automática

Gestão de registos: políticas de etiquetas de retenção da aplicação automática 1
Sites do SharePoint Prevenção contra perda de dados

Gestão de riscosinternos 2

Gestão de registos: políticas de etiquetas de retenção da aplicação automática 1
Contas do OneDrive Prevenção contra perda de dados

Gestão de registos: políticas de etiquetas de retenção da aplicação automática 1
Bater papo e canal de mensagens do Teams Prevenção contra perda de dados

Gestão de riscosinternos 2
Dispositivos Prevenção contra perda de dados

Gestão de riscosinternos 2

1 Suporta palavras-chave e tipos de informações confidenciais.
2 Considera tipos de informações confidenciais e classificadores treináveis presentes em imagens para classificação de risco.

Tipos de arquivo compatíveis

Esta funcionalidade suporta a análise de imagens nos seguintes tipos de ficheiro, com os requisitos indicados:

Localizações Tipos de arquivo compatíveis
Exchange JPEG, JPG, PNG, BMP, TIFF e PDFs (analisados). Imagens incorporadas no DOCX, PPTX, XLSX, RAR, TAR, ZIP, 7z e PDFs híbridos (que contêm texto e imagens pesquisáveis) com um limite de 20 imagens incorporadas analisadas por ficheiro.
SharePoint e OneDrive BMP, PNG, JPEG, JPG, JFIF, ARW, CR2, CRW, ERF, GIF, MEF, MRW, NEF, NRW, ORF, PEF, RAW, RW2, RW1, SR2, TIF, TIFF, HEIC, HEIF, ARI, BAY, CAP, CR3, DCS, DCR, DRF, EIP, FFF, IIQ, K25, KDC, MOS, PTX, PXN, RAF, RWL, SRF, SRW, X3F, DNG, PDFs (digitalizado e híbrido que contém texto e imagens pesquisáveis) Imagens incorporadas no DOCX, PPTX, XLSX
Ponto final do Teams, Windows e macOS JPEG, JPG, PNG, BMP, TIFF e PDF (apenas imagem)

Requisitos de imagem

Requisito Limite
Tamanho do ficheiro (Exchange, Teams) Máximo de 20 MB
Tamanho do ficheiro (pontos finais do SharePoint, OneDrive, Windows e macOS) Máximo de 50 MB
Resolução de imagens 50 × 50 px mínimo, 16.000 × máximo de 16.000 px

Importante

  • Apenas as imagens carregadas após a ativação do OCR são analisadas.
  • O OCR extrai apenas os primeiros 2 milhões de carateres de texto.
  • Por predefinição, os e-mails recebidos (e-mails de utilizadores fora da organização), e-mails internos (e-mails partilhados dentro dos utilizadores da organização) e e-mails enviados (e-mails enviados para utilizadores fora da organização) estão sujeitos à análise de OCR. Para excluir e-mails recebidos da análise de OCR, altere as definições de OCR do âmbito predefinido de Todos os grupos de remetentes para grupos de remetentes específicos e especifique os grupos internos que pretende que o OCR analise. Para restringir as análises OCR a e-mails enviados apenas para fora da organização, selecione a opção em Definição Avançada (Apenas Exchange). Depois de selecionar esta caixa de verificação, nem as mensagens de correio recebidas nem as comunicações internas são OCRed. Para obter informações sobre como alterar as configurações, consulte Configurar as definições do OCR.
  • As sugestões de políticas de prevenção de perda de dados não são suportadas para imagens no Exchange.
  • Se excluir um caminho nas definições de prevenção de perda de dados de ponto final, o OCR não analisa imagens nessas pastas.
  • Quando o OCR está ativado para dispositivos Windows e macOS, os dispositivos começam a enviar mensagens para a cloud para análise. O limite de largura de banda predefinido é de 1024 MB de dados por dispositivo por dia. O OCR deixa de analisar imagens assim que este limite diário for atingido. Se quiser continuar a digitalizar imagens, pode aumentar o limite de largura de banda.
  • Para o Dispositivo de Ponto Final, certifique-se de que as definições de rede não estão a obstruir o OCR e que deve estar presente um caráter universal que permita blob.core.windows.net pontos finais.
  • Para o Exchange, a funcionalidade suporta imagens incorporadas no DOCX, PPTX, XLSX, RAR, TAR, ZIP, 7z e PDFs híbridos (que contêm texto e imagens pesquisáveis) com um limite de 20 imagens incorporadas analisadas por ficheiro.

Idiomas compatíveis

A análise de OCR suporta mais de 150 idiomas.

Resumo

Confira também