Freigeben über


Dokumentbasierte PII-Übersicht

Dokument-basierte PII ist eine Vorschaufunktion in der Erkennung personenbezogener Informationen durch Azure KI Language. Es hilft Ihnen, vertrauliche Daten direkt in systemeigenen Dokumentdateien zu erkennen und zu redigieren, einschließlich Microsoft Word- und PDF-Dateien, ohne Ihre eigene Textextraktions- und Wiederaufbaupipeline zu erstellen.

Dieses Feature verwendet einen asynchronen API-Workflow und gibt bearbeitete Ausgaben zurück, die die Dokumentstruktur und das Layout beibehalten. Sie können sie verwenden, wenn die Dokumenttreue für Complianceüberprüfungen, Freigaben, Analysen und nachgeschaltete KI-Workflows wichtig ist.

Von Bedeutung

Die dokumentbasierte PII befindet sich derzeit in der Vorschau und kann sich vor der allgemeinen Verfügbarkeit (GA) ändern.

Auf einen Blick

Dokumentbasierte PII bietet die folgenden Funktionen:

  • Systemeigene Dokumentredaktion für .pdf, .docx, und .txt Dateien.
  • Beibehaltenes Layout in Ausgabedokumenten, einschließlich Schriftart, Abstand und Farbe.
  • Ein einzelner asynchroner API-Workflow für Extraktion, Erkennung und Redaction.
  • Enterprise-fähige Ausgaben: ein redigiertes Dokument und ein strukturiertes JSON-Ergebnis.

Videodemonstration

In diesem Video stellen wir den PII-Erkennungsdienst vor und zeigen Ihnen, wie vertrauliche Daten direkt aus systemeigenen Dokumenten erkannt und redigiert werden, während die Dateistruktur und Formatierung beibehalten wird. Darüber hinaus behandeln wir gängige Anwendungsfälle, unterstützte Formate und erste Schritte mit dokumentbasierten piI in Azure KI Language:

Geschlossene Untertitel sind für dieses Video verfügbar.

Warum dokumentbasierte PII verwenden?

Viele benutzerdefinierte Pipelines erfordern mehrere Schritte zum Extrahieren von Text, Ausführen der Erkennung und Rekonstruieren der Dokumentausgabe. Dokumentbasierte PII vereinfacht diesen Fluss mit einem einzigen asynchronen API-Muster und Ausgabeartefakten, die für Dokumentverarbeitungssysteme entwickelt wurden.

Dokumentbasierte PII ist besonders nützlich, wenn Sie Folgendes benötigen:

  • Anonymisieren Sie PII in .pdf, .docx, und .txt Dateien.
  • Dokumentlayout für nachgeschaltete Geschäftsprozesse beibehalten.
  • Generieren Sie strukturierte JSON-Ausgabe für Überwachung und Integration.

Dokumentbasierte PII verwendet dieselben vordefinierten PII-Kategorien wie Text-PII, einschließlich Entitäten wie Adressen, Telefonnummern und Kreditkartennummern.

Was es zurückgibt

Wenn ein Auftrag erfolgreich ist, erhalten Sie Folgendes:

  • Ein geschwärztes Dokument in Ihrem Zielspeichercontainer.
  • Eine JSON-Ergebnisdatei mit erkannten Entitäten, Kategorien, Konfidenzbewertungen und Verarbeitungsmetadaten.

So funktioniert es

Dokumentbasierte PII verwendet einen asynchronen Workflow:

  1. Senden Sie einen Auftrag mit Quell- und Zielspeicherorten.
  2. Abrufen Sie den Auftragsstatus mithilfe des Operationsstandorts.
  3. Rufen Sie die Ausgabeartefakte von Ihrem Zielspeicher ab.

Diagramm, das den asynchronen Workflow für die dokumentbasierte PII-Erkennung zeigt.

Implementierungsdetails und Anforderungsbeispiele finden Sie unter Erkennen und Schwärzen von personenbezogenen Daten in nativen Dokumenten.

Wie es sich von anderen PII-Featuretypen unterscheidet

Alle PII-Featuretypen verwenden vordefinierte Entitätskategorien, optimieren aber für unterschiedliche Eingabetypen:

  • Dokumentbasierte PII ist für Workflows mit systemeigener Datei redaction und Dateiausgabetreue optimiert.
  • Text-PII ist für die direkte Zeichenfolgenbasierte Eingabe und App-Integration optimiert.
  • Unterhaltungs-PII ist für turnbasierte und transkriptorientierte Unterhaltungseingaben optimiert.

Gängige Anwendungsfälle

Dokumentbasierte PII wurde für Unternehmens- und regulierte Branchenworkflows entwickelt, bei denen Teams Dateien vor Speicher, Analyse, externer Freigabe oder nachgelagerter KI-Verarbeitung anonymisiert müssen.

Typische Beispiele sind:

  • Gerichtsunterlagen und Rechtsunterlagen.
  • Behördenformulare und interne Datensätze.
  • Finanzdokumente.
  • Interne Unternehmensdokumentationsworkflows.

Unterstützte Formate und Grenzwerte

Dokumentbasierte PII akzeptiert systemeigene Dateiformate direkt, ohne dass textvorverarbeitet werden muss. In der folgenden Tabelle sind die unterstützten Formate aufgeführt:

Dateityp Dateierweiterung Beschreibung
Text .txt Ein unformatiertes Textdokument.
Adobe PDF .pdf Ein als portierbare Dokumentdatei formatiertes Dokument
Microsoft Word .docx Eine Microsoft Word Dokumentdatei.

Die folgenden Eingabeeinschränkungen gelten:

Merkmal Begrenzung
Gesamtanzahl der Dokumente pro Anforderung <= 20
Gesamtinhaltsgröße pro Anforderung <= 10 MB

Die folgenden Inhaltstypen werden nicht unterstützt:

Typ Einschränkung
Vollständig gescannte PDF-Dateien Nicht unterstützt.
Bilder mit eingebetteten Text Digitale Bilder mit eingebetteten Text werden nicht unterstützt.
Tabellen in gescannten Dokumenten Nicht unterstützt.

Weitere Informationen zur aktuellen Sprachabdeckung und zu Dienstkontingenten finden Sie unter Sprachunterstützung und Kontingente und Grenzen.

Preise

Dokumentbasierte PII-Redaktion verwendet die Preisgestaltung von Azure KI Language. Aktuelle Preisdetails finden Sie unter Azure KI Language Pricing.

Nächste Schritte

Verwenden Sie die folgenden Verweise, um die Implementierung fortzusetzen: