Übersicht der Hauptzeichensätze in Firebird

<< White Paper: Firebird Performance Empfehlungen | Dokumentation | Firebird für Datenbankexperten: Episode 2 - Seitentypen >>

Die deutschsprachige Dokumentation wird seit dem 26. Juli 2016 nicht mehr gepflegt. Aktuelle und vollständige Dokumentation finden Sie auf der englischsprachigen Webseite: IBExpert Documentation

Übersicht der Hauptzeichensätze in Firebird

Von Stefan Heymann

Zeichensätze sind etwas, mit dem sich früher oder später jeder Programmierer beschäftigen muss. Dies ist eine Übersicht über die wichtigsten Zeichensätze.

Name	Bytes pro Zeichen	Beschreibung	Bandbreite	IANA/MIME Code
7-bit ASCII	1	Die Mutter aller Zeichensätze. Enthält 32 unsichtbare Kontrollzeichen, die lateinischen Buchstaben A-Z, a-z, Die arabischen Ziffern 0-9 und ein Haufen punktueller Zeichen. Code Rang 0..127.	0..127	US-ASCII

Unicode-basierende Zeichensätze

Unicode, ISO 10646	N.A.	Ein universeller Code für alle denkbaren Zeichen. Definiert Zeichen, weist ihnen Skalarwerte zu, aber defineirt nicht, wie Zeichen grafisch oder im Speicher bereinigt werden.	U+0000..U+100000	N.A.
UTF-8	1..6	Ein Unicode-tTransformationsformat, das 1-Byte Zeichen für alle 7-bit US-ASCII Zeichen nutzt und Sequenzen bis zu 6 Bytes für alle anderen Unicode-Zeichen.	Alle Unicode-Zeichen	UTF-8
UCS-2	2	Eine Unicode-Transformationsformat, das 2 Bytes (16 Bits) für jedes Zeichen nutzt. Dieser Zeichensatz ist nicht in der Lage alle Unicode Skalarwerte zu bereinigen und deshalb überflüssig. Er wird jedoch immer noch von vielen Systemen genutzt (Java, NT)	U+0000..U+FFFF	ISO-10646-UCS-2
UTF-16	2	Ein Unicode-Transformationsformat, das 2 Bytes (16 Bits) für jedes Zeichen nutzt. Unter Verwendung des Konzepts "Surrogate Pairs (Ersatzpaare)" kann dieses Format alle Unicode-Zeichen bereinigen.	Alle Unicode-Zeichen	UTF-16
UCS-4, UTF-32	4	Zwei Unicode-Transformationsformate, die 4 Bytes (32 Bits) für jedes Zeichen nutzen. UCS-4 und UTF-32 sind die einzigen Zeichensätze, die fähig sind, alle Unicode-Zeichen in gleichlangen Wörtern zu bereinigen. UCS-4 und UTF-32 sind technisch identisch.	Alle Unicode-Zeichen	ISO-10646-UCS-4, UTF-32

Single-Byte Zeichensätze

ISO 8859-x	1	Eine Erweiterung von US-ASCII, nutzt 8 Bit.	0..127, 160..255	ISO-8859-x
Windows 125x	1	Gleich ISO 8859-x, plus zusätzliche Zeichen in Range 128..159.	0..255	Windows-125x

ISO 8859-x Zeichensätze

Name		enthaltene Sprachen	MS Windows Gegenstück
ISO 8859-1	Latein-1	Westen und westeuropäische Sprachen (englisch, deutsch, fransösisch, spanisch, portugiesisch, etc.). Da diese Sprachen überall auf der Welt benutzt werden (Europa, Amerika, Australien, Afrika), sind diese Zeichensätze am weit verbreitesten. Windows 1252 und ISO 8895-1 sind gleich in der 160..255 Bereich.	Windows-1252
ISO 8859-2	Latein-2	Zentral- und osteuropäische Sprachen (tschechisch, polnisch, etc.)	Windows-1250
ISO 8859-3	Latein-3	Südeuropäisch, maltesisch, Esperanto
ISO 8859-4	Latein-4	Nordeuropäisch
ISO 8859-5	Kyrillisch	Russisch, ukrainisch	Windows-1251
ISO 8859-6	Arabisch	Arabisch	Windows-1256
ISO 8859-7	Griechisch	Modern Griechisch	Windows-1253
ISO 8859-8	Hebräisch	Hebräisch	Windows-1255
ISO 8859-9	Latein-5	Türkisch	Windows-1254
ISO 8859-10	Latein-6	Nordisch (Sami, Inuit, isländisch)
ISO 8859-11	Thailändisch	Thailändisch	Windows-874
ISO 8859-13	Latein-7	Baltisch	Windows-1257
ISO 8859-14	Latein-8	Keltisch
ISO 8859-15	Latein-9	Gleich ISO 8859-1, enthält zusätzlich Euro-Zeichen (€) und einige andere Zeichen.
ISO 8859-16	Latin-10	Südosteuropäische Sprachen (albanisch, kroatisch, ungarisch, italienisch, polnisch, rumänisch, slowenisch, und auch finnisch, französisch, deutsch und irische gälisch).

MS Windows Zeichensatz

Number	Name
1250	Latein 2
1251	Kyrillisch
1252	Latein 1
1253	Griechisch
1254	Latein 5
1255	Hebräisch
1256	Arabisch
1257	Baltisch
1258	Vietnamesisch
874	Thailändisch

Letzte Aktualisierung am 2010-02-23

Für eine vollständige Liste aller verfügbaren Zeichensätze für Ihre Datenbankversion, schauen Sie die Zeichensatzliste in der Systemtabelle RDB$CHARACTER_SETS an: