Übersicht der Hauptzeichensätze in Firebird
<< White Paper: Firebird Performance Empfehlungen | Dokumentation | Firebird für Datenbankexperten: Episode 2 - Seitentypen >>
Die deutschsprachige Dokumentation wird seit dem 26. Juli 2016 nicht mehr gepflegt. Aktuelle und vollständige Dokumentation finden Sie auf der englischsprachigen Webseite: IBExpert Documentation
Übersicht der Hauptzeichensätze in Firebird
Von Stefan Heymann
Zeichensätze sind etwas, mit dem sich früher oder später jeder Programmierer beschäftigen muss. Dies ist eine Übersicht über die wichtigsten Zeichensätze.
Name | Bytes pro Zeichen | Beschreibung | Bandbreite | IANA/MIME Code |
---|---|---|---|---|
7-bit ASCII | 1 | Die Mutter aller Zeichensätze. Enthält 32 unsichtbare Kontrollzeichen, die lateinischen Buchstaben A-Z, a-z, Die arabischen Ziffern 0-9 und ein Haufen punktueller Zeichen. Code Rang 0..127. | 0..127 | US-ASCII |
Unicode-basierende Zeichensätze
Unicode, ISO 10646 | N.A. | Ein universeller Code für alle denkbaren Zeichen. Definiert Zeichen, weist ihnen Skalarwerte zu, aber defineirt nicht, wie Zeichen grafisch oder im Speicher bereinigt werden. | U+0000..U+100000 | N.A. |
UTF-8 | 1..6 | Ein Unicode-tTransformationsformat, das 1-Byte Zeichen für alle 7-bit US-ASCII Zeichen nutzt und Sequenzen bis zu 6 Bytes für alle anderen Unicode-Zeichen. | Alle Unicode-Zeichen | UTF-8 |
UCS-2 | 2 | Eine Unicode-Transformationsformat, das 2 Bytes (16 Bits) für jedes Zeichen nutzt. Dieser Zeichensatz ist nicht in der Lage alle Unicode Skalarwerte zu bereinigen und deshalb überflüssig. Er wird jedoch immer noch von vielen Systemen genutzt (Java, NT) | U+0000..U+FFFF | ISO-10646-UCS-2 |
UTF-16 | 2 | Ein Unicode-Transformationsformat, das 2 Bytes (16 Bits) für jedes Zeichen nutzt. Unter Verwendung des Konzepts "Surrogate Pairs (Ersatzpaare)" kann dieses Format alle Unicode-Zeichen bereinigen. | Alle Unicode-Zeichen | UTF-16 |
UCS-4, UTF-32 | 4 | Zwei Unicode-Transformationsformate, die 4 Bytes (32 Bits) für jedes Zeichen nutzen. UCS-4 und UTF-32 sind die einzigen Zeichensätze, die fähig sind, alle Unicode-Zeichen in gleichlangen Wörtern zu bereinigen. UCS-4 und UTF-32 sind technisch identisch. | Alle Unicode-Zeichen | ISO-10646-UCS-4, UTF-32 |
Single-Byte Zeichensätze
ISO 8859-x | 1 | Eine Erweiterung von US-ASCII, nutzt 8 Bit. | 0..127, 160..255 | ISO-8859-x |
Windows 125x | 1 | Gleich ISO 8859-x, plus zusätzliche Zeichen in Range 128..159. | 0..255 | Windows-125x |
ISO 8859-x Zeichensätze
Name | enthaltene Sprachen | MS Windows Gegenstück | |
---|---|---|---|
ISO 8859-1 | Latein-1 | Westen und westeuropäische Sprachen (englisch, deutsch, fransösisch, spanisch, portugiesisch, etc.). Da diese Sprachen überall auf der Welt benutzt werden (Europa, Amerika, Australien, Afrika), sind diese Zeichensätze am weit verbreitesten. Windows 1252 und ISO 8895-1 sind gleich in der 160..255 Bereich. | Windows-1252 |
ISO 8859-2 | Latein-2 | Zentral- und osteuropäische Sprachen (tschechisch, polnisch, etc.) | Windows-1250 |
ISO 8859-3 | Latein-3 | Südeuropäisch, maltesisch, Esperanto | |
ISO 8859-4 | Latein-4 | Nordeuropäisch | |
ISO 8859-5 | Kyrillisch | Russisch, ukrainisch | Windows-1251 |
ISO 8859-6 | Arabisch | Arabisch | Windows-1256 |
ISO 8859-7 | Griechisch | Modern Griechisch | Windows-1253 |
ISO 8859-8 | Hebräisch | Hebräisch | Windows-1255 |
ISO 8859-9 | Latein-5 | Türkisch | Windows-1254 |
ISO 8859-10 | Latein-6 | Nordisch (Sami, Inuit, isländisch) | |
ISO 8859-11 | Thailändisch | Thailändisch | Windows-874 |
ISO 8859-13 | Latein-7 | Baltisch | Windows-1257 |
ISO 8859-14 | Latein-8 | Keltisch | |
ISO 8859-15 | Latein-9 | Gleich ISO 8859-1, enthält zusätzlich Euro-Zeichen (€) und einige andere Zeichen. | |
ISO 8859-16 | Latin-10 | Südosteuropäische Sprachen (albanisch, kroatisch, ungarisch, italienisch, polnisch, rumänisch, slowenisch, und auch finnisch, französisch, deutsch und irische gälisch). |
MS Windows Zeichensatz
Number | Name |
---|---|
1250 | Latein 2 |
1251 | Kyrillisch |
1252 | Latein 1 |
1253 | Griechisch |
1254 | Latein 5 |
1255 | Hebräisch |
1256 | Arabisch |
1257 | Baltisch |
1258 | Vietnamesisch |
874 | Thailändisch |
Letzte Aktualisierung am 2010-02-23
Für eine vollständige Liste aller verfügbaren Zeichensätze für Ihre Datenbankversion, schauen Sie die Zeichensatzliste in der Systemtabelle RDB$CHARACTER_SETS
an:
Siehe auch:
Standardzeichensatz
Zeichensatz
Character sets and Unicode in Firebird: converting your applications (englisch)
InterBase character sets and collation orders (englisch)
New character sets in Firebird 2.1 (englisch)
New character sets in Firebird 2.0 (englisch)
zurück zum Seitenanfang
<< White Paper: Firebird Performance Empfehlungen | Dokumentation | Firebird für Datenbankexperten: Episode 2 - Seitentypen >>