Freigeben über


UnicodeCategory Enumeration

Definition

Definiert die Unicode-Kategorie eines Zeichens.

public enum class UnicodeCategory
public enum UnicodeCategory
[System.Serializable]
public enum UnicodeCategory
[System.Serializable]
[System.Runtime.InteropServices.ComVisible(true)]
public enum UnicodeCategory
type UnicodeCategory = 
[<System.Serializable>]
type UnicodeCategory = 
[<System.Serializable>]
[<System.Runtime.InteropServices.ComVisible(true)>]
type UnicodeCategory = 
Public Enum UnicodeCategory
Vererbung
UnicodeCategory
Attribute

Felder

Name Wert Beschreibung
UppercaseLetter 0

Großbuchstaben. Gekennzeichnet durch die Unicode-Bezeichnung "Lu" (Buchstabe, Großbuchstaben). Der Wert ist 0.

LowercaseLetter 1

Kleinbuchstaben. Gekennzeichnet durch die Unicode-Bezeichnung "Ll" (Buchstabe, Kleinbuchstabe). Der Wert ist 1.

TitlecaseLetter 2

Titelbuchstaben. Gekennzeichnet durch die Unicode-Bezeichnung "Lt" (Buchstabe, Titelbuchstaben). Der Wert ist 2.

ModifierLetter 3

Modifizierer-Buchstabenzeichen, das frei stehendes Abstandszeichen ist, das Änderungen eines vorhergehenden Buchstabens angibt. Gekennzeichnet durch die Unicode-Bezeichnung "Lm" (Buchstabe, Modifizierer). Der Wert ist 3.

OtherLetter 4

Buchstabe, der kein Großbuchstabe, ein Kleinbuchstabe, ein Titelbuchstaben oder ein Zusatzbuchstaben ist. Gekennzeichnet durch die Unicode-Bezeichnung "Lo" (Buchstabe, sonstige). Der Wert ist 4.

NonSpacingMark 5

Nicht übersteigendes Zeichen, das Änderungen eines Basiszeichens angibt. Gekennzeichnet durch die Unicode-Bezeichnung "Mn" (Mark, Nonspacing). Der Wert ist 5.

SpacingCombiningMark 6

Abstandszeichen, das Änderungen eines Basiszeichens angibt und sich auf die Breite der Glyphe für dieses Basiszeichen auswirkt. Gekennzeichnet durch die Unicode-Bezeichnung "Mc" (Markierung, Abstände kombinieren). Der Wert ist 6.

EnclosingMark 7

Umschließendes Zeichen, bei dem es sich um ein nicht übersteigendes Kombinationszeichen handelt, das alle vorherigen Zeichen bis einschließlich eines Basiszeichens umgibt. Gekennzeichnet durch die Unicode-Bezeichnung "Me" (Markierung, eingeschlossen). Der Wert ist 7.

DecimalDigitNumber 8

Dezimalzifferzeichen, d. h. ein Zeichen, das eine ganze Zahl im Bereich von 0 bis 9 darstellt. Gekennzeichnet durch die Unicode-Bezeichnung "Nd" (Zahl, Dezimalziffer). Der Wert ist 8.

LetterNumber 9

Zahl, die durch einen Buchstaben dargestellt wird, anstelle einer Dezimalziffer, z. B. die römische Zahl für fünf, die "V" ist. Der Indikator ist durch die Unicode-Bezeichnung "Nl" (Zahl, Buchstabe) gekennzeichnet. Der Wert ist 9.

OtherNumber 10

Zahl, die weder eine Dezimalziffer noch eine Buchstabenzahl ist, z. B. die Bruchzahl 1/2. Der Indikator ist durch die Unicode-Bezeichnung "Nein" (Zahl, andere) gekennzeichnet. Der Wert ist 10.

SpaceSeparator 11

Leerzeichen, das keine Glyphe enthält, aber kein Steuerelement oder Formatzeichen ist. Gekennzeichnet durch die Unicode-Bezeichnung "Zs" (Trennzeichen, Leerzeichen). Der Wert ist 11.

LineSeparator 12

Zeichen, das zum Trennen von Textzeilen verwendet wird. Gekennzeichnet durch die Unicode-Bezeichnung "Zl" (Trennzeichen, Zeile). Der Wert ist 12.

ParagraphSeparator 13

Zeichen, das zum Trennen von Absätzen verwendet wird. Gekennzeichnet durch die Unicode-Bezeichnung "Zp" (Trennzeichen, Absatz). Der Wert ist 13.

Control 14

Steuercodezeichen mit einem Unicode-Wert von U+007F oder im Bereich U+0000 bis U+001F oder U+0080 bis U+009F. Gekennzeichnet durch die Unicode-Bezeichnung "Cc" (anderes Steuerelement). Der Wert ist 14.

Format 15

Formatzeichen, das sich auf das Layout von Text oder den Vorgang von Textprozessen auswirkt, wird jedoch normalerweise nicht gerendert. Gekennzeichnet durch die Unicode-Bezeichnung "Cf" (anderes Format). Der Wert ist 15.

Surrogate 16

Hoher Ersatz oder ein niedriger Ersatzzeichen. Ersatzcodewerte befinden sich im Bereich U+D800 bis U+DFFF. Gekennzeichnet durch die Unicode-Bezeichnung "Cs" (andere, Ersatz). Der Wert ist 16.

PrivateUse 17

Private-Use-Zeichen mit einem Unicode-Wert im Bereich U+E000 bis U+F8FF. Gekennzeichnet durch die Unicode-Bezeichnung "Co" (andere, private Verwendung). Der Wert ist 17.

ConnectorPunctuation 18

Interpunktionszeichen des Verbinders, das zwei Zeichen verbindet. Gekennzeichnet durch die Unicode-Bezeichnung "Pc" (Interpunktion, Verbinder). Der Wert ist 18.

DashPunctuation 19

Strich- oder Bindestrichzeichen. Gekennzeichnet durch die Unicode-Bezeichnung "Pd" (Interpunktion, Gedankenstrich). Der Wert ist 19.

OpenPunctuation 20

Öffnen des Zeichens eines der paarigen Satzzeichen, z. B. Klammern, eckige Klammern und geschweifte Klammern. Gekennzeichnet durch die Unicode-Bezeichnung "Ps" (Interpunktion, geöffnet). Der Wert ist 20.

ClosePunctuation 21

Schließende Zeichen einer der paarigen Satzzeichen, z. B. Klammern, eckige Klammern und geschweifte Klammern. Gekennzeichnet durch die Unicode-Bezeichnung "Pe" (Interpunktion, schließen). Der Wert ist 21.

InitialQuotePunctuation 22

Öffnen oder anfängliches Anführungszeichen. Gekennzeichnet durch die Unicode-Bezeichnung "Pi" (Interpunktion, anfängliches Anführungszeichen). Der Wert ist 22.

FinalQuotePunctuation 23

Schließende oder endgültiges Anführungszeichen. Gekennzeichnet durch die Unicode-Bezeichnung "Pf" (Interpunktion, endgültiges Anführungszeichen). Der Wert ist 23.

OtherPunctuation 24

Interpunktionszeichen, das kein Verbinder, ein Gedankenstrich, eine offene Interpunktion, eine Interpunktion schließen, ein anfängliches Anführungszeichen oder ein endgültiges Anführungszeichen ist. Gekennzeichnet durch die Unicode-Bezeichnung "Po" (Interpunktion, andere). Der Wert ist 24.

MathSymbol 25

Mathematisches Symbolzeichen, z. B. "+" oder "= ". Gekennzeichnet durch die Unicode-Bezeichnung "Sm" (Symbol, Mathematik). Der Wert ist 25.

CurrencySymbol 26

Währungssymbolzeichen. Gekennzeichnet durch die Unicode-Bezeichnung "Sc" (Symbol, Währung). Der Wert ist 26.

ModifierSymbol 27

Modifizierersymbolzeichen, das Änderungen der umgebenden Zeichen angibt. Der Bruchstrich gibt z. B. an, dass die Zahl links der Zähler ist und die Zahl rechts der Nenner ist. Der Indikator ist durch die Unicode-Bezeichnung "Sk" (Symbol, Modifizierer) gekennzeichnet. Der Wert ist 27.

OtherSymbol 28

Symbolzeichen, das kein mathematisches Symbol, währungssymbol oder Modifizierersymbol ist. Gekennzeichnet durch die Unicode-Bezeichnung "So" (Symbol, andere). Der Wert ist 28.

OtherNotAssigned 29

Zeichen, das keiner Unicode-Kategorie zugewiesen ist. Gekennzeichnet durch die Unicode-Bezeichnung "Cn" (andere, nicht zugewiesen). Der Wert ist 29.

Beispiele

Im folgenden Beispiel werden die Zeichen und die entsprechenden Codepunkte für Zeichen in der Kategorie "UppercaseLetter" angezeigt. Sie können das Beispiel so ändern, dass die Buchstaben in einer beliebigen anderen Kategorie angezeigt werden, indem Sie "UppercaseLetter" durch die Kategorie von Interesse für Sie in der Zuordnung zur category Variablen ersetzen. Beachten Sie, dass die Ausgabe für einige Kategorien umfangreich sein kann.

using System;
using System.Globalization;

public class Example
{
   public static void Main()
   {
      int ctr = 0;
      UnicodeCategory category = UnicodeCategory.UppercaseLetter;

      for (ushort codePoint = 0; codePoint < ushort.MaxValue; codePoint++) {
         Char ch = (char)codePoint;

         if (CharUnicodeInfo.GetUnicodeCategory(ch) == category) {
            if (ctr % 5 == 0)
               Console.WriteLine();
            Console.Write("{0} (U+{1:X4})     ", ch, codePoint);
            ctr++;
         }
      }
      Console.WriteLine();
      Console.WriteLine("\n{0} characters are in the {1:G} category",
                        ctr, category);
   }
}
Imports System.Globalization

Module Example
   Public Sub Main()
      Dim ctr As Integer = 0
      Dim category As UnicodeCategory = UnicodeCategory.UppercaseLetter
      
      For codePoint As UShort = 0 To UShort.MaxValue - 1
         Dim ch As Char = Convert.ToChar(codePoint)

         If CharUnicodeInfo.GetUnicodeCategory(ch) = category Then
            If ctr Mod 5 = 0 Then Console.WriteLine()
            Console.Write("{0} (U+{1:X4})     ", ch, codePoint)
            ctr += 1
         End If 
      Next
      Console.WriteLine()
      Console.WriteLine()
      Console.WriteLine("{0} characters are in the {1:G} category", 
                        ctr, category)   
   End Sub
End Module

Hinweise

Ein Element der UnicodeCategory Aufzählung wird von den Char.GetUnicodeCategory Und-Methoden CharUnicodeInfo.GetUnicodeCategory zurückgegeben. Die UnicodeCategory Enumeration wird auch verwendet, um Methoden zu unterstützen Char , z IsUpper(Char). B. . Diese Methoden bestimmen, ob ein angegebenes Zeichen Mitglied einer bestimmten allgemeinen Unicode-Kategorie ist. Eine allgemeine Unicode-Kategorie definiert die allgemeine Klassifizierung eines Zeichens, d. h. die Bezeichnung als Buchstabentyp, Dezimalziffer, Trennzeichen, mathematisches Symbol, Interpunktion usw.

Diese Enumeration basiert auf Dem Unicode Standard, Version 5.0. Weitere Informationen finden Sie unter den Unterthemen "UCD-Dateiformat" und "Allgemeine Kategoriewerte" in der Unicode-Zeichendatenbank.

Der Unicode-Standard definiert Folgendes:

Ein Ersatzpaar ist eine codierte Zeichendarstellung für ein einzelnes abstraktes Zeichen, das aus einer Abfolge von zwei Codeeinheiten besteht, wobei die erste Einheit des Paares ein hoher Ersatz ist und die zweite eine niedrige Ersatzangabe ist. Ein hoher Ersatz ist ein Unicode-Codepunkt im Bereich U+D800 bis U+DBFF und ein niedriger Ersatz ist ein Unicode-Codepunkt im Bereich U+DC00 bis U+DFFF.

Eine kombinierte Zeichenfolge ist eine Kombination aus einem Basiszeichen und einem oder mehreren kombinierten Zeichen. Ein Ersatzpaar stellt ein Basiszeichen oder ein kombiniertes Zeichen dar. Ein Kombinationszeichen ist entweder Abstand oder Nicht-Abstand. Ein abstandskombinierendes Zeichen nimmt beim Rendern selbst eine Abstandsposition auf, während ein nicht übersteigendes kombinationsfreies Zeichen nicht vorhanden ist. Diakritische Zeichen sind ein Beispiel für nicht miteinander kombinierte Zeichen.

Ein Zusatzbuchstabe ist ein frei stehendes Abstandszeichen, das, z. B. ein kombiniertes Zeichen, Änderungen eines vorherigen Buchstabens angibt.

Bei einer umschließenden Markierung handelt es sich um ein nicht übersteigendes Kombinationszeichen, das alle vorherigen Zeichen bis einschließlich eines Basiszeichens umgibt.

Ein Formatzeichen ist ein Zeichen, das normalerweise nicht gerendert wird, sich aber auf das Layout von Text oder den Vorgang von Textprozessen auswirkt.

Der Unicode-Standard definiert mehrere Variationen für einige Satzzeichen. Ein Bindestrich kann z. B. ein von mehreren Codewerten sein, die einen Bindestrich darstellen, z. B. U+002D (Bindestrich minus) oder U+00AD (weicher Bindestrich) oder U+2010 (Bindestrich) oder U+2011 (geschütztes Bindestrich). Das gleiche gilt für Bindestriche, Leerzeichen und Anführungszeichen.

Der Unicode-Standard weist auch Codes zu Darstellungen von Dezimalziffern zu, die für ein bestimmtes Skript oder eine bestimmte Sprache spezifisch sind, z. B. U+0030 (Ziffer Null) und U+0660 (Arabic-Indic Ziffer Null).

Gilt für:

Weitere Informationen