Logo heiEDITIONS

Zeichenkodierung

Begriffliche Differenzierung von Zeichen und Glyphe

Ein Zeichen im technischen Sinne des Unicode-Standards ist nicht imer eindeutig und indiskutabel ein ›Zeichen‹ (›character‹), das in Abgrenzung zum Begriff der ›Glyphe‹ einer theoretisch fundierten begrifflichen Definition entspricht. Angesichts zahlreicher ambiger Fälle müssen Zeichendefinitionen von Unicode pragmatisch ausgelegt werden und sind gewissermaßen zirkulär: Ein Zeichen im Sinne von Unicode ist das, was der Unicode-Standard als Zeichen definiert. In der editorischen und paläographischen Praxis gestaltet sich die Trennlinie zwischen Zeichen und Glyphe gelegentlich als weniger klar; sie kann sogar je nach konkreter Schriftbeschaffenheit und Schreib- bzw. Druckusus beweglich sein. Sie verläuft ungefähr dort, wo aus linguistischer Perspektive die Grenze zwischen einem Graphem und seinen Allographen gezogen wird; auch diese Grenze ist nicht starr und kann editorisch für optisch ähnlich aussehende Graphe je nach deren Verwendung unterschiedlich bewertet werden. Nicht jedem Unicode-Zeichen kann in jedem konkreten Schriftsystem eines Textträgers graphemischer Charakter als funktional eigenständiges Schriftzeichen zugestanden werden; andererseits können Graphe, die bewusst nicht in Unicode aufgenommen wurden und in der typographischen Praxis unterhalb der Unicode-Zeichen-Ebene in digitalen Fonts als Glyphen etwa auf Codepoints der Private Use Area behandelt werden, in einem konkreten Schriftsystem echten graphemischen Zeichencharakter haben.

Solche Grenzziehungen können Auswirkungen auf editorische Operationen wie Normalisierung und Aufbereitung für maschinelle Suche haben. Wenn ein Herausgeber in der Transkription verschiedene Allographe unterscheidet, sollte klar sein, welchem Graphem und Zeichen diese Allographe zugeordnet werden können, damit (ggf. automatisiert) eine Normalisierungsschicht über der Ebene der transkribierten Allographe angelegt werden kann.

🔧Dieser Abschnitt ist aktuell in Bearbeitung.

Auszeichnung von kombinierenden Zeichen

Im Unicode-Standard gibt es für viele Zeichen, die sich aus einem Basisbuchstaben und einem oder mehreren diakritischen Zeichen zusammensetzen, eigene Codepunkte. Ein Beispiel hierfür ist ›á‹, der lateinische Kleinbuchstabe ›a‹ mit Akut, welcher durch U+00E1 kodiert ist. In Ermangelung dieser Option lassen sich weitere Zeichen durch den Codepunkt des Basisbuchstaben zuzüglich dem eines kombinierenden Diakritikas wiedergeben. Im Beispiel von ›á‹ entspräche dies ›a‹ (U+0061) und ›◌́‹ (U+0301) für den kombinierenden Akut. Sofern es keine Möglichkeit gibt, eine aus kombinierenden Zeichen bestehende Glyphe über einen oder mehrere Unicode-Codepunkte wiederzugeben, können folgende heiEDITIONS-Konzepte zur Auszeichnung und Visualisierung der Glyphe verwendet werden:

decoration