Zeichenkodierung

Begriffliche Differenzierung von Zeichen und Glyphe

Ein Zeichen im technischen Sinne des Unicode-Standards ist nicht immer eindeutig und indiskutabel ein ›Zeichen‹ (›character‹), das in Abgrenzung zum Begriff der ›Glyphe‹ einer theoretisch fundierten begrifflichen Definition entspricht. Angesichts zahlreicher ambiger Fälle müssen Zeichendefinitionen von Unicode pragmatisch ausgelegt werden und sind gewissermaßen zirkulär: Ein Zeichen im Sinne von Unicode ist das, was der Unicode-Standard als Zeichen definiert. In der editorischen und paläographischen Praxis gestaltet sich die Trennlinie zwischen Zeichen und Glyphe gelegentlich als weniger klar; sie kann sogar je nach konkreter Schriftbeschaffenheit und Schreib- bzw. Druckusus beweglich sein. Sie verläuft ungefähr dort, wo aus linguistischer Perspektive die Grenze zwischen einem Graphem und seinen Allographen gezogen wird; auch diese Grenze ist nicht starr und kann editorisch für optisch ähnlich aussehende Graphe je nach deren Verwendung unterschiedlich bewertet werden. Nicht jedem Unicode-Zeichen kann in jedem konkreten Schriftsystem eines Textträgers graphemischer Charakter als funktional eigenständiges Schriftzeichen zugestanden werden; andererseits können Graphe, die bewusst nicht in Unicode aufgenommen wurden und in der typographischen Praxis unterhalb der Unicode-Zeichen-Ebene in digitalen Fonts als Glyphen etwa auf Codepoints der Private Use Area behandelt werden, in einem konkreten Schriftsystem echten graphemischen Zeichencharakter haben.

Solche Grenzziehungen können Auswirkungen auf editorische Operationen wie Normalisierung und Aufbereitung für maschinelle Suche haben. Wenn ein Herausgeber in der Transkription verschiedene Allographe unterscheidet, sollte klar sein, welchem Graphem und Zeichen diese Allographe zugeordnet werden können, damit (ggf. automatisiert) eine Normalisierungsschicht über der Ebene der transkribierten Allographe angelegt werden kann.

Auszeichnung von kombinierenden Zeichen

Im Unicode-Standard gibt es für viele Zeichen, die sich aus einem Basisbuchstaben und einem oder mehreren diakritischen Zeichen zusammensetzen, eigene Codepunkte. Ein Beispiel hierfür ist ›á‹, der lateinische Kleinbuchstabe ›a‹ mit Akut, welcher durch U+00E1 kodiert ist. In Ermangelung dieser Option lassen sich weitere Zeichen durch den Codepunkt des Basisbuchstaben zuzüglich dem eines kombinierenden Diakritikas wiedergeben. Im Beispiel von ›á‹ entspräche dies ›a‹ (U+0061) und ›◌́‹ (U+0301) für den kombinierenden Akut.

Sofern es keine Möglichkeit gibt, eine aus kombinierenden Zeichen bestehende Glyphe über einen oder mehrere Unicode-Codepunkte wiederzugeben, können folgende heiEDITIONS-Konzepte zur Auszeichnung und Visualisierung der Glyphe verwendet werden:

› hc:CombinedAbove ‹
› hc:CombinedBelow ‹

Zeichenangabe über <g>/<glyph>

Beispiel: Codierung von Umlauten

Für die Eingabe des Umlauts ›ö‹ in den TEI-Arbeitsdateien gibt es (mindestens) drei Möglichkeiten:

Direkt in Verbindung mit dem Grundbuchstaben (als vorkombiniertes Zeichen, wie es über die deutsche Tastatur erzeugt wird: ö – U+00F6
Als separates kombinierendes Zeichen nach dem Grundbuchstaben: ö – man sieht den Unterschied zum Vorherigen nur mit speziellen Werkzeugen – U+006F U+0308
Anhand der heiEDITIONS-Entity nach dem Grundbuchstaben: o&combuml; (siehe auch XML-Entitäten)

Technisch ist es egal, welche der drei Möglichkeiten verwendet wird. In normalen deutschen Paratexten (also z.B. in Anmerkungen) gibt es keinen Grund, etwas anderes als die erste Variante zu verwenden. In Editionstexten könnte die letzte Variante wegen einer größeren Transparenz (welches Zeichen ist hier genau kodiert?) oder in <choice>-Konstrukten sinnvoll sein, etwa bei der Normalisierung, wenn nur das Diakritikum normalisiert wird (z.B. u<choice><orig>ï</orig><reg>&combuml;</reg></choice>). Falls auf diese Weise normalisiert wird, könnte man wegen Einheitlichkeit auch sonst im Editionstext &combuml; verwenden, notwendig ist das jedoch nicht.