Attention: this page is not being maintained any longer, the information given on this page is probably out of date, and links may not work

Deutsche Homepage

Überblick osteuropäischer Zeichensätze mit Links zu Schriften

  
SLOVO - Home
[Go to Christoph Singer's Homepage]

Zeichensätze (Codepages)

Auf dieser Seite: Begriffserklärung - ASCII-Zeichensatz - 8-bit-Zeichensätze - UNICODE - Besonderheiten von Windows 95


1. Begriffserklärungen

Da ein Computer ja eigentlich nur rechnen kann, werden für ihn alle Buchstaben durch Zahlen repräsentiert, und jeder Text ist für ihn eine Aufeinanderfolge solcher Codenummern.
Eine bestimmte Auswahl von Buchstaben und Zeichen, die durch Zuordnung zu jeweils einer Codenummer identifiziert werden, nennt man "Codepage" oder "Zeichensatz" (auch "Character set", "Encoding" und in Windows 95 "Script" genannt - diese Begriffe sind zwar bei technischer Exaktheit zu unterscheiden, haben aber für den Anwender letztendlich dieselbe angegebene Bedeutung).
Es gibt verschiedener solcher Zeichensätze mit verschiedenen Mengen von Zeichen.
Bei der Eingabe von Text sendet jede Taste eine bestimmte Codenummer an den Computer. Die Zuordnung der Codenummern zu den Tasten erfolgt durch eine "Tastaturtreiber" genannte Datei. Um den Text am Bildschirm darzustellen oder auf dem Drucker auszugeben, muß nun die (Computer-) Schrift (richtiger: das Schriftprogramm, engl. Font) für jede Codenummer das richtige Zeichen darstellen. Daraus ergibt sich, daß es für verschiedene Zeichensätze verschiedene Schriften (Fonts) gibt, und auch der Tastaturtreiber dem verwendeten Zeichensatz entsprechen muß.
Im folgenden ein Überblick über die häufigsten heute verwendeten Zeichensätze.
 


2. 7-Bit Zeichensatz (ASCII-Zeichensatz)

Der ASCII-Zeichensatz ist der "Urvater" aller anderen Zeichensätze und enthält 2 hoch 7 = 128 Zeichen. Das sind die lateinischen Grundbuchstaben, Zahlen und einige sonstige Zeichen, aber keine durch Diakritika oder sonstige Zeichen erweiterten Buchstaben, also auch keine deutschen Umlaute. Mit ihm läßt sich also praktisch nur Englisch schreiben, andere Schriftsysteme müssen transliteriert werden. Dafür ist er der universellste aller Zeichensätze, da er praktisch von jedem Computersystem und jedem Programm verstanden wird, deshalb wird er vor allem im Internet bis heute verwendet. Er ist sozusagen der kleinste gemeinsame Nenner aller anderen Zeichensätze, d. h., die in ihm enthaltenen Zeichen sind in (fast) allen anderen Zeichensätzen identisch angeordnet.


3. Die 8-bit-Zeichensätze

(Übersicht über die verschiedenen osteuropäischen Zeichensätze und Links zu Schriften hier.)

Diese Zeichensätze enthalten 2 hoch 8 = 256 Zeichen. Sie stellen Erweiterungen des ASCII-Zeichensatzes dar: in der ersten Hälfte bis zum 128. Zeichen sind sie mit ihm identisch, und in der zweiten Hälfte enthalten sie je nach Sprache und Computersystem verschiedene weitere Zeichen. So enthalten Zeichensätze für westeuropäische Sprachen z. B. die deutschen Umlaute und französischen akzentuierten Vokale, osteuropäische Zeichensätze enthalten für Tschechisch, Polnisch, Ungarisch notwendige Sonderzeichen, kyrillische Zeichensätze die kyrillischen Buchstaben. Leider gibt es keine einheitliche Norm, sondern für jedes Computersystem sieht die Anordnung der Buchstaben im Zeichensatz anders aus, so daß z. B. ein auf dem Macintosh geschriebener kyrillischer Text nicht ohne weiteres in Windows lesbar ist (man muß ihn zu diesem Zweck konvertieren - dazu gibt es spezielle Konvertierungsprogramme,  manche Textverarbeitungsprogramme oder Webbrowser konvertieren den Text auch automatisch beim Import, oder man muß sich eine spezielle Schrift mit dem entsprechenden Zeichensatz installieren).

8-Bit-Zeichensätze sind die heute am meisten verwendeten Zeichensätze, fast alle Betriebssysteme und Anwendungsprogramme arbeiten mit ihnen. Ihr Problem besteht, wie schon angemerkt, darin, daß einer Codenummer in den verschiedenen Zeichensätzen unterschiedliche Zeichen entsprechen, z. B. bedeutet die Nummer 234 im Zeichensatz "Latin 1" für westeuropäische Sprachen das zeichen "ê" (e mit circumflex), im Windows-Zeichensatz 1250 für mitteleuropäische Sprachen das "e mit ogonek", im Windows-Cyrillic-Zeichensatz das kleine kyrillische "k", im KOI-8-Zeichensatz, der für Russisch im Internet verwendet wird, jedoch das große "i kratkoe". Daher rührt auch die Erscheinung, die wohl jeder, der z. B. eine russische Webpage ansehen wollte, schon mal gesehen hat, daß nämlich ein russischer Text plötzlich so aussieht: "Åâãåíèÿ, äîáðûé ìîé ïðïÿòåëü...". In diesem Falle ist nun eine Schrift mit westeuropäischem Zeichensatz für Text mit dem Zeichensatz Windows-Cyrillic ausgewählt worden; die Verwendung einer entsprechenden Schrift schafft Abhilfe.

In Windows 3.1 und den meisten anderen Betriebssystemen muß man für jeden verwendeten Zeichensatz extra Schriften installieren, da jede Schrift nur die Zeichen eines Zeichensatzes enthalten kann. Eine Ausnahme bildet Windows 95; über dessen Besonderheiten siehe weiter unten auf dieser Seite. Im Internet sollte am Anfang jeder WWW-Seite und jeder E-Mail-Nachricht angegeben sein, welchen Zeichensatz das Dokument enthält; moderne Browser und Mailprogramme wählen dann automatisch die richtige Schrift zur Anzeige, sofern eine entsprechende Schrift installiert ist.

Eine Übersicht der für mittel- und osteuropäische Sprachen wichtigsten Zeichensätze und Links zu im Internet verfügbaren Schriften für diese Zeichensätze finden Sie hier


4. UNICODE

Um dem angeführten "Zeichensalat" der verschiedenen 8-bit-Zeichensätze ein Ende zu schaffen, und da besonders in fernöstlichen Sprachen mehr als 256 Zeichen gebraucht werden, ist der 2-byte-Zeichensatz UNICODE geschaffen worden, der 2 hoch 16 = 65536 Zeichen enthalten kann und damit für jeden Buchstaben in jeder Sprache der Welt eine eindeutige Codenummer bereithält! (Begriffserklärungen Zeichensatz, Codenummer am Anfang dieser Seite.) Über die Zuordnung zu den Codenummern entscheidet das UNICODE-Konsortium, das den UNICODE-Standard veröffentlicht. Es werden immer noch neue Sprachen und Zeichen hinzugefügt. Man informiere sich auf den UNICODE-Webseiten über Details.

So genial UNICODE ist, hat es aber das Problem, daß es bisher von den meisten Betriebssystemen und Programmen nicht unterstützt wird. Das meines Wissens einzige Betriebssystem mit voller UNICODE-Unterstützung ist Windows NT (es soll aber noch irgendein UNIX-Derivat geben, das das auch kann), und dann funktioniert das auch nur, wenn auch das Anwendungsprogramm UNICODE voll unterstützt (z. B. Word 97; nicht jedoch Word 95 oder Word 6.0). Diese Unicode-basierten Programme können auch unter Windows 95 den gesamten Unicode-Bereich verwenden, bei Apple Macintosh soll dies ab MacOS 8 auch möglich sein. Zu den Besonderheiten von Windows 95 siehe den nächsten Abschnitt weiter unten.

UNICODE kann also verwendet werden bei Verwendung von

Schriften (Fonts) für UNICODE: Natürlich wird es keine Schrift geben, die alle 65536 Zeichen enthält, sondern jede UNICODE-kompatible Schrift wird immer nur einen sinnvollen Teilbereich von Zeichen enthalten. Eine Tabelle auf unserer Seite für Windows 95 enthält eine Übersicht über im Internet erhältliche TrueType-Schriften für Windows 95 und NT, die alle Buchstaben der modernen europäischen Sprachen abdecken. Die vollständigste der dort genannten Schriften ist "Lucida Sans Unicode", die noch weitere Zeichen enthält.
Eine gute Abhandlung zum Thema "Unicode-Schriften" findet man bei Monotype.
 


Anmerkungen: Besonderheiten von Windows 95

(ist noch im Aufbau; kurz gesagt soll es hier darum gehen, daß Windows 95 zwar auf 8-bit-Zeichensätzen beruht, aber in Unicode-kompatiblen Anwendungen und mit Unicode-kompatiblen Schriften diejenigen Zeichen darstellen kann, die in den europäischen 8-bit-Windows-Zeichensätzen vorkommen, wenn die Sprachunterstützung installiert ist - dazu siehe unsere Seite für Windows 95)