Hinweis
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, sich anzumelden oder das Verzeichnis zu wechseln.
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, das Verzeichnis zu wechseln.
Dokument-basierte PII ist eine Vorschaufunktion in der Erkennung personenbezogener Informationen durch Azure KI Language. Es hilft Ihnen, vertrauliche Daten direkt in systemeigenen Dokumentdateien zu erkennen und zu redigieren, einschließlich Microsoft Word- und PDF-Dateien, ohne Ihre eigene Textextraktions- und Wiederaufbaupipeline zu erstellen.
Dieses Feature verwendet einen asynchronen API-Workflow und gibt bearbeitete Ausgaben zurück, die die Dokumentstruktur und das Layout beibehalten. Sie können sie verwenden, wenn die Dokumenttreue für Complianceüberprüfungen, Freigaben, Analysen und nachgeschaltete KI-Workflows wichtig ist.
Von Bedeutung
Die dokumentbasierte PII befindet sich derzeit in der Vorschau und kann sich vor der allgemeinen Verfügbarkeit (GA) ändern.
Auf einen Blick
Dokumentbasierte PII bietet die folgenden Funktionen:
- Systemeigene Dokumentredaktion für
.pdf,.docx, und.txtDateien. - Beibehaltenes Layout in Ausgabedokumenten, einschließlich Schriftart, Abstand und Farbe.
- Ein einzelner asynchroner API-Workflow für Extraktion, Erkennung und Redaction.
- Enterprise-fähige Ausgaben: ein redigiertes Dokument und ein strukturiertes JSON-Ergebnis.
Videodemonstration
In diesem Video stellen wir den PII-Erkennungsdienst vor und zeigen Ihnen, wie vertrauliche Daten direkt aus systemeigenen Dokumenten erkannt und redigiert werden, während die Dateistruktur und Formatierung beibehalten wird. Darüber hinaus behandeln wir gängige Anwendungsfälle, unterstützte Formate und erste Schritte mit dokumentbasierten piI in Azure KI Language:
Geschlossene Untertitel sind für dieses Video verfügbar.
Warum dokumentbasierte PII verwenden?
Viele benutzerdefinierte Pipelines erfordern mehrere Schritte zum Extrahieren von Text, Ausführen der Erkennung und Rekonstruieren der Dokumentausgabe. Dokumentbasierte PII vereinfacht diesen Fluss mit einem einzigen asynchronen API-Muster und Ausgabeartefakten, die für Dokumentverarbeitungssysteme entwickelt wurden.
Dokumentbasierte PII ist besonders nützlich, wenn Sie Folgendes benötigen:
- Anonymisieren Sie PII in
.pdf,.docx, und.txtDateien. - Dokumentlayout für nachgeschaltete Geschäftsprozesse beibehalten.
- Generieren Sie strukturierte JSON-Ausgabe für Überwachung und Integration.
Dokumentbasierte PII verwendet dieselben vordefinierten PII-Kategorien wie Text-PII, einschließlich Entitäten wie Adressen, Telefonnummern und Kreditkartennummern.
Was es zurückgibt
Wenn ein Auftrag erfolgreich ist, erhalten Sie Folgendes:
- Ein geschwärztes Dokument in Ihrem Zielspeichercontainer.
- Eine JSON-Ergebnisdatei mit erkannten Entitäten, Kategorien, Konfidenzbewertungen und Verarbeitungsmetadaten.
So funktioniert es
Dokumentbasierte PII verwendet einen asynchronen Workflow:
- Senden Sie einen Auftrag mit Quell- und Zielspeicherorten.
- Abrufen Sie den Auftragsstatus mithilfe des Operationsstandorts.
- Rufen Sie die Ausgabeartefakte von Ihrem Zielspeicher ab.
Implementierungsdetails und Anforderungsbeispiele finden Sie unter Erkennen und Schwärzen von personenbezogenen Daten in nativen Dokumenten.
Wie es sich von anderen PII-Featuretypen unterscheidet
Alle PII-Featuretypen verwenden vordefinierte Entitätskategorien, optimieren aber für unterschiedliche Eingabetypen:
- Dokumentbasierte PII ist für Workflows mit systemeigener Datei redaction und Dateiausgabetreue optimiert.
- Text-PII ist für die direkte Zeichenfolgenbasierte Eingabe und App-Integration optimiert.
- Unterhaltungs-PII ist für turnbasierte und transkriptorientierte Unterhaltungseingaben optimiert.
Gängige Anwendungsfälle
Dokumentbasierte PII wurde für Unternehmens- und regulierte Branchenworkflows entwickelt, bei denen Teams Dateien vor Speicher, Analyse, externer Freigabe oder nachgelagerter KI-Verarbeitung anonymisiert müssen.
Typische Beispiele sind:
- Gerichtsunterlagen und Rechtsunterlagen.
- Behördenformulare und interne Datensätze.
- Finanzdokumente.
- Interne Unternehmensdokumentationsworkflows.
Unterstützte Formate und Grenzwerte
Dokumentbasierte PII akzeptiert systemeigene Dateiformate direkt, ohne dass textvorverarbeitet werden muss. In der folgenden Tabelle sind die unterstützten Formate aufgeführt:
| Dateityp | Dateierweiterung | Beschreibung |
|---|---|---|
| Text | .txt |
Ein unformatiertes Textdokument. |
| Adobe PDF | .pdf |
Ein als portierbare Dokumentdatei formatiertes Dokument |
| Microsoft Word | .docx |
Eine Microsoft Word Dokumentdatei. |
Die folgenden Eingabeeinschränkungen gelten:
| Merkmal | Begrenzung |
|---|---|
| Gesamtanzahl der Dokumente pro Anforderung | <= 20 |
| Gesamtinhaltsgröße pro Anforderung | <= 10 MB |
Die folgenden Inhaltstypen werden nicht unterstützt:
| Typ | Einschränkung |
|---|---|
| Vollständig gescannte PDF-Dateien | Nicht unterstützt. |
| Bilder mit eingebetteten Text | Digitale Bilder mit eingebetteten Text werden nicht unterstützt. |
| Tabellen in gescannten Dokumenten | Nicht unterstützt. |
Weitere Informationen zur aktuellen Sprachabdeckung und zu Dienstkontingenten finden Sie unter Sprachunterstützung und Kontingente und Grenzen.
Preise
Dokumentbasierte PII-Redaktion verwendet die Preisgestaltung von Azure KI Language. Aktuelle Preisdetails finden Sie unter Azure KI Language Pricing.
Nächste Schritte
Verwenden Sie die folgenden Verweise, um die Implementierung fortzusetzen: