UnicodeCategory Enumeration

Definition

Namespace:: System.Globalization

Assemblys:: mscorlib.dll, System.Globalization.dll

Assemblys:: netstandard.dll, System.Runtime.dll

Assembly:: System.Globalization.dll

Assembly:: System.Runtime.dll

Assembly:: mscorlib.dll

Assembly:: netstandard.dll

Quelle:: UnicodeCategory.cs

Quelle:: UnicodeCategory.cs

Wichtig

Einige Informationen beziehen sich auf Vorabversionen, die vor dem Release ggf. grundlegend überarbeitet werden. Microsoft übernimmt hinsichtlich der hier bereitgestellten Informationen keine Gewährleistungen, seien sie ausdrücklich oder konkludent.

Definiert die Unicode-Kategorie eines Zeichens.

public enum class UnicodeCategory

public enum UnicodeCategory

[System.Serializable]
public enum UnicodeCategory

[System.Serializable]
[System.Runtime.InteropServices.ComVisible(true)]
public enum UnicodeCategory

type UnicodeCategory =

[<System.Serializable>]
type UnicodeCategory =

[<System.Serializable>]
[<System.Runtime.InteropServices.ComVisible(true)>]
type UnicodeCategory =

Public Enum UnicodeCategory

Vererbung: Object

ValueType

Enum
UnicodeCategory

Attribute: SerializableAttribute ComVisibleAttribute

Felder

Name	Wert	Beschreibung
UppercaseLetter	0	Großbuchstaben. Gekennzeichnet durch die Unicode-Bezeichnung "Lu" (Buchstabe, Großbuchstaben). Der Wert ist 0.
LowercaseLetter	1	Kleinbuchstaben. Gekennzeichnet durch die Unicode-Bezeichnung "Ll" (Buchstabe, Kleinbuchstabe). Der Wert ist 1.
TitlecaseLetter	2	Titelbuchstaben. Gekennzeichnet durch die Unicode-Bezeichnung "Lt" (Buchstabe, Titelbuchstaben). Der Wert ist 2.
ModifierLetter	3	Modifizierer-Buchstabenzeichen, das frei stehendes Abstandszeichen ist, das Änderungen eines vorhergehenden Buchstabens angibt. Gekennzeichnet durch die Unicode-Bezeichnung "Lm" (Buchstabe, Modifizierer). Der Wert ist 3.
OtherLetter	4	Buchstabe, der kein Großbuchstabe, ein Kleinbuchstabe, ein Titelbuchstaben oder ein Zusatzbuchstaben ist. Gekennzeichnet durch die Unicode-Bezeichnung "Lo" (Buchstabe, sonstige). Der Wert ist 4.
NonSpacingMark	5	Nicht übersteigendes Zeichen, das Änderungen eines Basiszeichens angibt. Gekennzeichnet durch die Unicode-Bezeichnung "Mn" (Mark, Nonspacing). Der Wert ist 5.
SpacingCombiningMark	6	Abstandszeichen, das Änderungen eines Basiszeichens angibt und sich auf die Breite der Glyphe für dieses Basiszeichen auswirkt. Gekennzeichnet durch die Unicode-Bezeichnung "Mc" (Markierung, Abstände kombinieren). Der Wert ist 6.
EnclosingMark	7	Umschließendes Zeichen, bei dem es sich um ein nicht übersteigendes Kombinationszeichen handelt, das alle vorherigen Zeichen bis einschließlich eines Basiszeichens umgibt. Gekennzeichnet durch die Unicode-Bezeichnung "Me" (Markierung, eingeschlossen). Der Wert ist 7.
DecimalDigitNumber	8	Dezimalzifferzeichen, d. h. ein Zeichen, das eine ganze Zahl im Bereich von 0 bis 9 darstellt. Gekennzeichnet durch die Unicode-Bezeichnung "Nd" (Zahl, Dezimalziffer). Der Wert ist 8.
LetterNumber	9	Zahl, die durch einen Buchstaben dargestellt wird, anstelle einer Dezimalziffer, z. B. die römische Zahl für fünf, die "V" ist. Der Indikator ist durch die Unicode-Bezeichnung "Nl" (Zahl, Buchstabe) gekennzeichnet. Der Wert ist 9.
OtherNumber	10	Zahl, die weder eine Dezimalziffer noch eine Buchstabenzahl ist, z. B. die Bruchzahl 1/2. Der Indikator ist durch die Unicode-Bezeichnung "Nein" (Zahl, andere) gekennzeichnet. Der Wert ist 10.
SpaceSeparator	11	Leerzeichen, das keine Glyphe enthält, aber kein Steuerelement oder Formatzeichen ist. Gekennzeichnet durch die Unicode-Bezeichnung "Zs" (Trennzeichen, Leerzeichen). Der Wert ist 11.
LineSeparator	12	Zeichen, das zum Trennen von Textzeilen verwendet wird. Gekennzeichnet durch die Unicode-Bezeichnung "Zl" (Trennzeichen, Zeile). Der Wert ist 12.
ParagraphSeparator	13	Zeichen, das zum Trennen von Absätzen verwendet wird. Gekennzeichnet durch die Unicode-Bezeichnung "Zp" (Trennzeichen, Absatz). Der Wert ist 13.
Control	14	Steuercodezeichen mit einem Unicode-Wert von U+007F oder im Bereich U+0000 bis U+001F oder U+0080 bis U+009F. Gekennzeichnet durch die Unicode-Bezeichnung "Cc" (anderes Steuerelement). Der Wert ist 14.
Format	15	Formatzeichen, das sich auf das Layout von Text oder den Vorgang von Textprozessen auswirkt, wird jedoch normalerweise nicht gerendert. Gekennzeichnet durch die Unicode-Bezeichnung "Cf" (anderes Format). Der Wert ist 15.
Surrogate	16	Hoher Ersatz oder ein niedriger Ersatzzeichen. Ersatzcodewerte befinden sich im Bereich U+D800 bis U+DFFF. Gekennzeichnet durch die Unicode-Bezeichnung "Cs" (andere, Ersatz). Der Wert ist 16.
PrivateUse	17	Private-Use-Zeichen mit einem Unicode-Wert im Bereich U+E000 bis U+F8FF. Gekennzeichnet durch die Unicode-Bezeichnung "Co" (andere, private Verwendung). Der Wert ist 17.
ConnectorPunctuation	18	Interpunktionszeichen des Verbinders, das zwei Zeichen verbindet. Gekennzeichnet durch die Unicode-Bezeichnung "Pc" (Interpunktion, Verbinder). Der Wert ist 18.
DashPunctuation	19	Strich- oder Bindestrichzeichen. Gekennzeichnet durch die Unicode-Bezeichnung "Pd" (Interpunktion, Gedankenstrich). Der Wert ist 19.
OpenPunctuation	20	Öffnen des Zeichens eines der paarigen Satzzeichen, z. B. Klammern, eckige Klammern und geschweifte Klammern. Gekennzeichnet durch die Unicode-Bezeichnung "Ps" (Interpunktion, geöffnet). Der Wert ist 20.
ClosePunctuation	21	Schließende Zeichen einer der paarigen Satzzeichen, z. B. Klammern, eckige Klammern und geschweifte Klammern. Gekennzeichnet durch die Unicode-Bezeichnung "Pe" (Interpunktion, schließen). Der Wert ist 21.
InitialQuotePunctuation	22	Öffnen oder anfängliches Anführungszeichen. Gekennzeichnet durch die Unicode-Bezeichnung "Pi" (Interpunktion, anfängliches Anführungszeichen). Der Wert ist 22.
FinalQuotePunctuation	23	Schließende oder endgültiges Anführungszeichen. Gekennzeichnet durch die Unicode-Bezeichnung "Pf" (Interpunktion, endgültiges Anführungszeichen). Der Wert ist 23.
OtherPunctuation	24	Interpunktionszeichen, das kein Verbinder, ein Gedankenstrich, eine offene Interpunktion, eine Interpunktion schließen, ein anfängliches Anführungszeichen oder ein endgültiges Anführungszeichen ist. Gekennzeichnet durch die Unicode-Bezeichnung "Po" (Interpunktion, andere). Der Wert ist 24.
MathSymbol	25	Mathematisches Symbolzeichen, z. B. "+" oder "= ". Gekennzeichnet durch die Unicode-Bezeichnung "Sm" (Symbol, Mathematik). Der Wert ist 25.
CurrencySymbol	26	Währungssymbolzeichen. Gekennzeichnet durch die Unicode-Bezeichnung "Sc" (Symbol, Währung). Der Wert ist 26.
ModifierSymbol	27	Modifizierersymbolzeichen, das Änderungen der umgebenden Zeichen angibt. Der Bruchstrich gibt z. B. an, dass die Zahl links der Zähler ist und die Zahl rechts der Nenner ist. Der Indikator ist durch die Unicode-Bezeichnung "Sk" (Symbol, Modifizierer) gekennzeichnet. Der Wert ist 27.
OtherSymbol	28	Symbolzeichen, das kein mathematisches Symbol, währungssymbol oder Modifizierersymbol ist. Gekennzeichnet durch die Unicode-Bezeichnung "So" (Symbol, andere). Der Wert ist 28.
OtherNotAssigned	29	Zeichen, das keiner Unicode-Kategorie zugewiesen ist. Gekennzeichnet durch die Unicode-Bezeichnung "Cn" (andere, nicht zugewiesen). Der Wert ist 29.

Beispiele

Im folgenden Beispiel werden die Zeichen und die entsprechenden Codepunkte für Zeichen in der Kategorie "UppercaseLetter" angezeigt. Sie können das Beispiel so ändern, dass die Buchstaben in einer beliebigen anderen Kategorie angezeigt werden, indem Sie "UppercaseLetter" durch die Kategorie von Interesse für Sie in der Zuordnung zur category Variablen ersetzen. Beachten Sie, dass die Ausgabe für einige Kategorien umfangreich sein kann.

using System;
using System.Globalization;

public class Example
{
   public static void Main()
   {
      int ctr = 0;
      UnicodeCategory category = UnicodeCategory.UppercaseLetter;

      for (ushort codePoint = 0; codePoint < ushort.MaxValue; codePoint++) {
         Char ch = (char)codePoint;

         if (CharUnicodeInfo.GetUnicodeCategory(ch) == category) {
            if (ctr % 5 == 0)
               Console.WriteLine();
            Console.Write("{0} (U+{1:X4})     ", ch, codePoint);
            ctr++;
         }
      }
      Console.WriteLine();
      Console.WriteLine("\n{0} characters are in the {1:G} category",
                        ctr, category);
   }
}

Imports System.Globalization

Module Example
   Public Sub Main()
      Dim ctr As Integer = 0
      Dim category As UnicodeCategory = UnicodeCategory.UppercaseLetter
      
      For codePoint As UShort = 0 To UShort.MaxValue - 1
         Dim ch As Char = Convert.ToChar(codePoint)

         If CharUnicodeInfo.GetUnicodeCategory(ch) = category Then
            If ctr Mod 5 = 0 Then Console.WriteLine()
            Console.Write("{0} (U+{1:X4})     ", ch, codePoint)
            ctr += 1
         End If 
      Next
      Console.WriteLine()
      Console.WriteLine()
      Console.WriteLine("{0} characters are in the {1:G} category", 
                        ctr, category)   
   End Sub
End Module

Hinweise

Ein Element der UnicodeCategory Aufzählung wird von den Char.GetUnicodeCategory Und-Methoden CharUnicodeInfo.GetUnicodeCategory zurückgegeben. Die UnicodeCategory Enumeration wird auch verwendet, um Methoden zu unterstützen Char , z IsUpper(Char). B. . Diese Methoden bestimmen, ob ein angegebenes Zeichen Mitglied einer bestimmten allgemeinen Unicode-Kategorie ist. Eine allgemeine Unicode-Kategorie definiert die allgemeine Klassifizierung eines Zeichens, d. h. die Bezeichnung als Buchstabentyp, Dezimalziffer, Trennzeichen, mathematisches Symbol, Interpunktion usw.

Diese Enumeration basiert auf Dem Unicode Standard, Version 5.0. Weitere Informationen finden Sie unter den Unterthemen "UCD-Dateiformat" und "Allgemeine Kategoriewerte" in der Unicode-Zeichendatenbank.

Der Unicode-Standard definiert Folgendes:

Ein Ersatzpaar ist eine codierte Zeichendarstellung für ein einzelnes abstraktes Zeichen, das aus einer Abfolge von zwei Codeeinheiten besteht, wobei die erste Einheit des Paares ein hoher Ersatz ist und die zweite eine niedrige Ersatzangabe ist. Ein hoher Ersatz ist ein Unicode-Codepunkt im Bereich U+D800 bis U+DBFF und ein niedriger Ersatz ist ein Unicode-Codepunkt im Bereich U+DC00 bis U+DFFF.

Eine kombinierte Zeichenfolge ist eine Kombination aus einem Basiszeichen und einem oder mehreren kombinierten Zeichen. Ein Ersatzpaar stellt ein Basiszeichen oder ein kombiniertes Zeichen dar. Ein Kombinationszeichen ist entweder Abstand oder Nicht-Abstand. Ein abstandskombinierendes Zeichen nimmt beim Rendern selbst eine Abstandsposition auf, während ein nicht übersteigendes kombinationsfreies Zeichen nicht vorhanden ist. Diakritische Zeichen sind ein Beispiel für nicht miteinander kombinierte Zeichen.

Ein Zusatzbuchstabe ist ein frei stehendes Abstandszeichen, das, z. B. ein kombiniertes Zeichen, Änderungen eines vorherigen Buchstabens angibt.

Bei einer umschließenden Markierung handelt es sich um ein nicht übersteigendes Kombinationszeichen, das alle vorherigen Zeichen bis einschließlich eines Basiszeichens umgibt.

Ein Formatzeichen ist ein Zeichen, das normalerweise nicht gerendert wird, sich aber auf das Layout von Text oder den Vorgang von Textprozessen auswirkt.

Der Unicode-Standard definiert mehrere Variationen für einige Satzzeichen. Ein Bindestrich kann z. B. ein von mehreren Codewerten sein, die einen Bindestrich darstellen, z. B. U+002D (Bindestrich minus) oder U+00AD (weicher Bindestrich) oder U+2010 (Bindestrich) oder U+2011 (geschütztes Bindestrich). Das gleiche gilt für Bindestriche, Leerzeichen und Anführungszeichen.

Der Unicode-Standard weist auch Codes zu Darstellungen von Dezimalziffern zu, die für ein bestimmtes Skript oder eine bestimmte Sprache spezifisch sind, z. B. U+0030 (Ziffer Null) und U+0660 (Arabic-Indic Ziffer Null).

Gilt für:

Weitere Informationen

UnicodeEncoding

Feedback

War diese Seite hilfreich?