UnicodeCategory Enumeration
Definition
Wichtig
Einige Informationen beziehen sich auf Vorabversionen, die vor dem Release ggf. grundlegend überarbeitet werden. Microsoft übernimmt hinsichtlich der hier bereitgestellten Informationen keine Gewährleistungen, seien sie ausdrücklich oder konkludent.
Definiert die Unicode-Kategorie eines Zeichens.
public enum class UnicodeCategory
public enum UnicodeCategory
[System.Serializable]
public enum UnicodeCategory
[System.Serializable]
[System.Runtime.InteropServices.ComVisible(true)]
public enum UnicodeCategory
type UnicodeCategory =
[<System.Serializable>]
type UnicodeCategory =
[<System.Serializable>]
[<System.Runtime.InteropServices.ComVisible(true)>]
type UnicodeCategory =
Public Enum UnicodeCategory
- Vererbung
- Attribute
Felder
| Name | Wert | Beschreibung |
|---|---|---|
| UppercaseLetter | 0 | Großbuchstaben. Gekennzeichnet durch die Unicode-Bezeichnung "Lu" (Buchstabe, Großbuchstaben). Der Wert ist 0. |
| LowercaseLetter | 1 | Kleinbuchstaben. Gekennzeichnet durch die Unicode-Bezeichnung "Ll" (Buchstabe, Kleinbuchstabe). Der Wert ist 1. |
| TitlecaseLetter | 2 | Titelbuchstaben. Gekennzeichnet durch die Unicode-Bezeichnung "Lt" (Buchstabe, Titelbuchstaben). Der Wert ist 2. |
| ModifierLetter | 3 | Modifizierer-Buchstabenzeichen, das frei stehendes Abstandszeichen ist, das Änderungen eines vorhergehenden Buchstabens angibt. Gekennzeichnet durch die Unicode-Bezeichnung "Lm" (Buchstabe, Modifizierer). Der Wert ist 3. |
| OtherLetter | 4 | Buchstabe, der kein Großbuchstabe, ein Kleinbuchstabe, ein Titelbuchstaben oder ein Zusatzbuchstaben ist. Gekennzeichnet durch die Unicode-Bezeichnung "Lo" (Buchstabe, sonstige). Der Wert ist 4. |
| NonSpacingMark | 5 | Nicht übersteigendes Zeichen, das Änderungen eines Basiszeichens angibt. Gekennzeichnet durch die Unicode-Bezeichnung "Mn" (Mark, Nonspacing). Der Wert ist 5. |
| SpacingCombiningMark | 6 | Abstandszeichen, das Änderungen eines Basiszeichens angibt und sich auf die Breite der Glyphe für dieses Basiszeichen auswirkt. Gekennzeichnet durch die Unicode-Bezeichnung "Mc" (Markierung, Abstände kombinieren). Der Wert ist 6. |
| EnclosingMark | 7 | Umschließendes Zeichen, bei dem es sich um ein nicht übersteigendes Kombinationszeichen handelt, das alle vorherigen Zeichen bis einschließlich eines Basiszeichens umgibt. Gekennzeichnet durch die Unicode-Bezeichnung "Me" (Markierung, eingeschlossen). Der Wert ist 7. |
| DecimalDigitNumber | 8 | Dezimalzifferzeichen, d. h. ein Zeichen, das eine ganze Zahl im Bereich von 0 bis 9 darstellt. Gekennzeichnet durch die Unicode-Bezeichnung "Nd" (Zahl, Dezimalziffer). Der Wert ist 8. |
| LetterNumber | 9 | Zahl, die durch einen Buchstaben dargestellt wird, anstelle einer Dezimalziffer, z. B. die römische Zahl für fünf, die "V" ist. Der Indikator ist durch die Unicode-Bezeichnung "Nl" (Zahl, Buchstabe) gekennzeichnet. Der Wert ist 9. |
| OtherNumber | 10 | Zahl, die weder eine Dezimalziffer noch eine Buchstabenzahl ist, z. B. die Bruchzahl 1/2. Der Indikator ist durch die Unicode-Bezeichnung "Nein" (Zahl, andere) gekennzeichnet. Der Wert ist 10. |
| SpaceSeparator | 11 | Leerzeichen, das keine Glyphe enthält, aber kein Steuerelement oder Formatzeichen ist. Gekennzeichnet durch die Unicode-Bezeichnung "Zs" (Trennzeichen, Leerzeichen). Der Wert ist 11. |
| LineSeparator | 12 | Zeichen, das zum Trennen von Textzeilen verwendet wird. Gekennzeichnet durch die Unicode-Bezeichnung "Zl" (Trennzeichen, Zeile). Der Wert ist 12. |
| ParagraphSeparator | 13 | Zeichen, das zum Trennen von Absätzen verwendet wird. Gekennzeichnet durch die Unicode-Bezeichnung "Zp" (Trennzeichen, Absatz). Der Wert ist 13. |
| Control | 14 | Steuercodezeichen mit einem Unicode-Wert von U+007F oder im Bereich U+0000 bis U+001F oder U+0080 bis U+009F. Gekennzeichnet durch die Unicode-Bezeichnung "Cc" (anderes Steuerelement). Der Wert ist 14. |
| Format | 15 | Formatzeichen, das sich auf das Layout von Text oder den Vorgang von Textprozessen auswirkt, wird jedoch normalerweise nicht gerendert. Gekennzeichnet durch die Unicode-Bezeichnung "Cf" (anderes Format). Der Wert ist 15. |
| Surrogate | 16 | Hoher Ersatz oder ein niedriger Ersatzzeichen. Ersatzcodewerte befinden sich im Bereich U+D800 bis U+DFFF. Gekennzeichnet durch die Unicode-Bezeichnung "Cs" (andere, Ersatz). Der Wert ist 16. |
| PrivateUse | 17 | Private-Use-Zeichen mit einem Unicode-Wert im Bereich U+E000 bis U+F8FF. Gekennzeichnet durch die Unicode-Bezeichnung "Co" (andere, private Verwendung). Der Wert ist 17. |
| ConnectorPunctuation | 18 | Interpunktionszeichen des Verbinders, das zwei Zeichen verbindet. Gekennzeichnet durch die Unicode-Bezeichnung "Pc" (Interpunktion, Verbinder). Der Wert ist 18. |
| DashPunctuation | 19 | Strich- oder Bindestrichzeichen. Gekennzeichnet durch die Unicode-Bezeichnung "Pd" (Interpunktion, Gedankenstrich). Der Wert ist 19. |
| OpenPunctuation | 20 | Öffnen des Zeichens eines der paarigen Satzzeichen, z. B. Klammern, eckige Klammern und geschweifte Klammern. Gekennzeichnet durch die Unicode-Bezeichnung "Ps" (Interpunktion, geöffnet). Der Wert ist 20. |
| ClosePunctuation | 21 | Schließende Zeichen einer der paarigen Satzzeichen, z. B. Klammern, eckige Klammern und geschweifte Klammern. Gekennzeichnet durch die Unicode-Bezeichnung "Pe" (Interpunktion, schließen). Der Wert ist 21. |
| InitialQuotePunctuation | 22 | Öffnen oder anfängliches Anführungszeichen. Gekennzeichnet durch die Unicode-Bezeichnung "Pi" (Interpunktion, anfängliches Anführungszeichen). Der Wert ist 22. |
| FinalQuotePunctuation | 23 | Schließende oder endgültiges Anführungszeichen. Gekennzeichnet durch die Unicode-Bezeichnung "Pf" (Interpunktion, endgültiges Anführungszeichen). Der Wert ist 23. |
| OtherPunctuation | 24 | Interpunktionszeichen, das kein Verbinder, ein Gedankenstrich, eine offene Interpunktion, eine Interpunktion schließen, ein anfängliches Anführungszeichen oder ein endgültiges Anführungszeichen ist. Gekennzeichnet durch die Unicode-Bezeichnung "Po" (Interpunktion, andere). Der Wert ist 24. |
| MathSymbol | 25 | Mathematisches Symbolzeichen, z. B. "+" oder "= ". Gekennzeichnet durch die Unicode-Bezeichnung "Sm" (Symbol, Mathematik). Der Wert ist 25. |
| CurrencySymbol | 26 | Währungssymbolzeichen. Gekennzeichnet durch die Unicode-Bezeichnung "Sc" (Symbol, Währung). Der Wert ist 26. |
| ModifierSymbol | 27 | Modifizierersymbolzeichen, das Änderungen der umgebenden Zeichen angibt. Der Bruchstrich gibt z. B. an, dass die Zahl links der Zähler ist und die Zahl rechts der Nenner ist. Der Indikator ist durch die Unicode-Bezeichnung "Sk" (Symbol, Modifizierer) gekennzeichnet. Der Wert ist 27. |
| OtherSymbol | 28 | Symbolzeichen, das kein mathematisches Symbol, währungssymbol oder Modifizierersymbol ist. Gekennzeichnet durch die Unicode-Bezeichnung "So" (Symbol, andere). Der Wert ist 28. |
| OtherNotAssigned | 29 | Zeichen, das keiner Unicode-Kategorie zugewiesen ist. Gekennzeichnet durch die Unicode-Bezeichnung "Cn" (andere, nicht zugewiesen). Der Wert ist 29. |
Beispiele
Im folgenden Beispiel werden die Zeichen und die entsprechenden Codepunkte für Zeichen in der Kategorie "UppercaseLetter" angezeigt. Sie können das Beispiel so ändern, dass die Buchstaben in einer beliebigen anderen Kategorie angezeigt werden, indem Sie "UppercaseLetter" durch die Kategorie von Interesse für Sie in der Zuordnung zur category Variablen ersetzen. Beachten Sie, dass die Ausgabe für einige Kategorien umfangreich sein kann.
using System;
using System.Globalization;
public class Example
{
public static void Main()
{
int ctr = 0;
UnicodeCategory category = UnicodeCategory.UppercaseLetter;
for (ushort codePoint = 0; codePoint < ushort.MaxValue; codePoint++) {
Char ch = (char)codePoint;
if (CharUnicodeInfo.GetUnicodeCategory(ch) == category) {
if (ctr % 5 == 0)
Console.WriteLine();
Console.Write("{0} (U+{1:X4}) ", ch, codePoint);
ctr++;
}
}
Console.WriteLine();
Console.WriteLine("\n{0} characters are in the {1:G} category",
ctr, category);
}
}
Imports System.Globalization
Module Example
Public Sub Main()
Dim ctr As Integer = 0
Dim category As UnicodeCategory = UnicodeCategory.UppercaseLetter
For codePoint As UShort = 0 To UShort.MaxValue - 1
Dim ch As Char = Convert.ToChar(codePoint)
If CharUnicodeInfo.GetUnicodeCategory(ch) = category Then
If ctr Mod 5 = 0 Then Console.WriteLine()
Console.Write("{0} (U+{1:X4}) ", ch, codePoint)
ctr += 1
End If
Next
Console.WriteLine()
Console.WriteLine()
Console.WriteLine("{0} characters are in the {1:G} category",
ctr, category)
End Sub
End Module
Hinweise
Ein Element der UnicodeCategory Aufzählung wird von den Char.GetUnicodeCategory Und-Methoden CharUnicodeInfo.GetUnicodeCategory zurückgegeben. Die UnicodeCategory Enumeration wird auch verwendet, um Methoden zu unterstützen Char , z IsUpper(Char). B. . Diese Methoden bestimmen, ob ein angegebenes Zeichen Mitglied einer bestimmten allgemeinen Unicode-Kategorie ist. Eine allgemeine Unicode-Kategorie definiert die allgemeine Klassifizierung eines Zeichens, d. h. die Bezeichnung als Buchstabentyp, Dezimalziffer, Trennzeichen, mathematisches Symbol, Interpunktion usw.
Diese Enumeration basiert auf Dem Unicode Standard, Version 5.0. Weitere Informationen finden Sie unter den Unterthemen "UCD-Dateiformat" und "Allgemeine Kategoriewerte" in der Unicode-Zeichendatenbank.
Der Unicode-Standard definiert Folgendes:
Ein Ersatzpaar ist eine codierte Zeichendarstellung für ein einzelnes abstraktes Zeichen, das aus einer Abfolge von zwei Codeeinheiten besteht, wobei die erste Einheit des Paares ein hoher Ersatz ist und die zweite eine niedrige Ersatzangabe ist. Ein hoher Ersatz ist ein Unicode-Codepunkt im Bereich U+D800 bis U+DBFF und ein niedriger Ersatz ist ein Unicode-Codepunkt im Bereich U+DC00 bis U+DFFF.
Eine kombinierte Zeichenfolge ist eine Kombination aus einem Basiszeichen und einem oder mehreren kombinierten Zeichen. Ein Ersatzpaar stellt ein Basiszeichen oder ein kombiniertes Zeichen dar. Ein Kombinationszeichen ist entweder Abstand oder Nicht-Abstand. Ein abstandskombinierendes Zeichen nimmt beim Rendern selbst eine Abstandsposition auf, während ein nicht übersteigendes kombinationsfreies Zeichen nicht vorhanden ist. Diakritische Zeichen sind ein Beispiel für nicht miteinander kombinierte Zeichen.
Ein Zusatzbuchstabe ist ein frei stehendes Abstandszeichen, das, z. B. ein kombiniertes Zeichen, Änderungen eines vorherigen Buchstabens angibt.
Bei einer umschließenden Markierung handelt es sich um ein nicht übersteigendes Kombinationszeichen, das alle vorherigen Zeichen bis einschließlich eines Basiszeichens umgibt.
Ein Formatzeichen ist ein Zeichen, das normalerweise nicht gerendert wird, sich aber auf das Layout von Text oder den Vorgang von Textprozessen auswirkt.
Der Unicode-Standard definiert mehrere Variationen für einige Satzzeichen. Ein Bindestrich kann z. B. ein von mehreren Codewerten sein, die einen Bindestrich darstellen, z. B. U+002D (Bindestrich minus) oder U+00AD (weicher Bindestrich) oder U+2010 (Bindestrich) oder U+2011 (geschütztes Bindestrich). Das gleiche gilt für Bindestriche, Leerzeichen und Anführungszeichen.
Der Unicode-Standard weist auch Codes zu Darstellungen von Dezimalziffern zu, die für ein bestimmtes Skript oder eine bestimmte Sprache spezifisch sind, z. B. U+0030 (Ziffer Null) und U+0660 (Arabic-Indic Ziffer Null).