XML-Entitäten
Bei sog. XML-Entities handelt es sich um Codes, mit denen in XML Zeichen eingegeben werden können, die in XML-Dokumenten eine besondere Funktion haben, weil sie Teil der XML-Syntax sind. Wenn diese Zeichen im Text benötigt werden (also eben nicht als spezielle Operatoren der XML-Syntax), müssen sie über die sog. Entities eingegeben werden. Entities sind also stellvertretende Codes für bestimmte Zeichen, die im Text nicht direkt eingegeben werden können. Stattdessen werden sie bei der Texteingabe durch die entsprechenden Entitäten ›maskiert‹.
Vordefinierte XML-Entitäten
In der Sprachdefinition von XML sind diese fünf Entititäten vordefiniert:
| Zeichen | Entität | Bedeutung |
|---|---|---|
| < | < | Kleiner-als-Zeichen (mathematisches Symbol) |
| > | > | Größer-als-Zeichen (mathematisches Symbol) |
| & | & | Et-Zeichen bzw. kaufmännisches Und-Zeichen |
| " | " | gerade Anführungszeichen (im Text nicht typographisch korrekt) |
| ' | ' | Apostroph (im Text nicht typographisch korrekt) |
Falls also etwa in der Transkription eines Drucks das ›kaufmännische Und-Zeichen‹ eingegeben werden müsste, sähe der TEI-Code so aus:
<p>
...
terra & aqua
</p>
Weitere Entitäten in heiEDITIONS
Menota und MUFI Über diese fünf XML-Entities hinaus definiert heiEDITIONS in Anlehnung an HTML-Konventionen und die mediävistischen Zeichenkodierungsinitiativen von Menota und ↪ MUFI eine Reihe weiterer Entities. Sie dienen zum Einen der sicheren und transparenten Eingabe von Zeichen, die zwar in Unicode definiert sind, aber nicht einfach über die deutsche Tastatur eingegeben werden können, und zum Anderen als stellvertretende Platzhalter für Zeichen, die in Unicode fehlen, in heiEDITIONS mit den standardkonformen TEI-Mitteln eigens definiert sind, die aber mithilfe einer Entity leichter eingegeben (und gelesen) werden können als der vollständig ausgeschriebene TEI-Code.
Die jeweils aktuelle Definition der Entitäten für heiEDITIONS ist unter der URL https://digi.ub.uni-heidelberg.de/schema/tei/heiEDITIONS/declarations/heieditions-entities.txt verfügbar.
Eine Referenz auf diese Datei wird in den TEI-Arbeitsversionen nach den Processing Instructions mit der Schemaangabe eingefügt:
<?xml-model href="https://digi.ub.uni-heidelberg.de/schema/tei/heiEDITIONS/tei_hes.rng" type="application/xml" schematypens="http://relaxng.org/ns/structure/1.0"?>
<?xml-model href="https://digi.ub.uni-heidelberg.de/schema/tei/heiEDITIONS/tei_hes.rng" type="application/xml" schematypens="http://purl.oclc.org/dsdl/schematron"?>
<!DOCTYPE TEI SYSTEM "https://digi.ub.uni-heidelberg.de/schema/tei/heiEDITIONS/declarations/heieditions-entities.txt">
Die heiEDITIONS-Entitäten werden nur in den Arbeitscodierungen verwendet. Im Rahmen der Generierung der TEI-Dateien für die verschiedenen Visualisierungen durch die Verarbeitungspipeline werden diese anhand der angegebenen Entitätendatei ersetzt.
Fälle, in denen heiEDITIONS-Entitäten in den Arbeitscodierungen eingesetzt werden, sind:
- Eindeutig lesbare (und eingebbare) Kodierung von Unicode-Zeichen, die an sich auch direkt eingegeben werden könnten.
- Kodierung von Zeichen, für die es in heiEDITIONS eine eigene Definition gibt, die aber für bei der Anzeige mit einem Standard-Unicode-Zeichen darstellt werden. In solchen Fällen wird die Entität bei der Verarbeitung für die Visualisierung aufgelöst zu einem <g>-Element, das auf die Definition des Zeichens verweist und gleichzeitig ein Standard- oder PUA-Unicode-Zeichen (bzw. die nummerische Entität dafür) für die (ersatzweise) Anzeige als Inhalt hat, z.B. <g ref='char:bar'>̄</g> (siehe auch Zeichenangabe über g/glyph).
- Kodierung von Zeichen, die in heiEDITIONS mit einem ↪ PUA-Zeichen angezeigt werden sollen und deren Definition von MUFI übernommen wurde. Auch hier werden die Entitäten zu einem <g>-Element aufgelöst. Die Empfehlung des TEI-Standards sieht vor, PUA-Zeichen stets so aufzulösen und mit einer Definition zu verknüpfen. Ein Beispiel hierfür wäre die Entität &inodotsup; ("COMBINING LATIN SMALL LETTER DOTLESS I"). Diese wird aufgelöst zu <g ref='char:inodotsup'></g> (siehe auch Zeichenangabe über g/glyph).
Sonderbuchstabenformen
| Entität | Zeichen für Anzeige | Definition | Beschreibung | Beispiel | Unicode / TEI-Auflösung |
|---|---|---|---|---|---|
| Rrot | Ꝛ | LATIN CAPITAL LETTER R ROTUNDA | Großbuchstabe R in Rotunda-Form (rundes R) | [Bsp.] | Ꝛ |
| rrot | ꝛ | LATIN SMALL LETTER R ROTUNDA | Kleinbuchstabe r in Rotunda-Form (rundes r) | [Bsp.] | ꝛ |
Kombinierende diakritische Abkürzungszeichen
| Entität | Zeichen für Anzeige | Definition | Beschreibung | Beispiel | Unicode / TEI-Auflösung |
|---|---|---|---|---|---|
| bar | ◌̄ | COMBINING ABBREVIATION MARK BAR ABOVE | Kürzungszeichen in Form eines horizontalen Strichs, ggf. mit verzierendem Anstrich, Abstrich oder Wellung, mit typischen Funktionen als Nasalersatz oder Suspensionszeichen. | [Bsp.] | <g ref='char:bar'>̄</g> |
| combdblac | ◌̋ | COMBINING DOUBLE ACUTE ACCENT | Kombinierendes doppeltes Akut-Zeichen | [Bsp.] | ̋ |
| combdblgr | ◌̏ | COMBINING DOUBLE GRAVE ACCENT | Kombinierendes doppeltes Gravis-Zeichen | [Bsp.] | ̏ |
| curlbl | ◌̧ | COMBINING ABBREVIATION MARK CURL BELOW | Kombinierendes Kürzungszeichen in Form einer Schlaufe unterhalb des Basiszeichens | [Bsp.] | <g ref='char:curlbl'>̧</g> |
| doublebar | ◌̿ | COMBINING ABBREVIATION MARK DOUBLE BAR ABOVE | Kombinierendes Kürzungszeichen in Form eines doppelten horizontalen Strichs, meist als Suspensionszeichen eingesetzt. | [Bsp.] | <g ref='char:doublebar'>̿</g> |
| er | ◌͛ | COMBINING ABBREVIATION MARK ER ABOVE | Kombinierendes Kürzungszeichen für er oberhalb des Basiszeichens | [Bsp.] | <g ref='char:er'>͛</g> |
| re | ◌̔ | COMBINING ABBREVIATION MARK RE ABOVE | Kombinierendes Kürzungszeichen für re oberhalb des Basiszeichens | [Bsp.] | <g ref='char:re'>̔</g> |
| zig | ◌͛ | COMBINING ABBREVIATION MARK ZIGZAG ABOVE | Kombinierendes Kürzungszeichen in Form eines Zickzacks oberhalb des Basiszeichens | [Bsp.] | <g ref='char:zig'>͛</g> |
| curl | ◌̓ | COMBINING ABBREVIATION MARK CURL ABOVE | Kombinierendes Kürzungszeichen in Form einer Schlaufe oberhalb des Basiszeichens | [Bsp.] | <g ref='char:curl'>̓</g> |
| ra | ◌ᷓ | COMBINING LATIN SMALL LETTER FLATTENED OPEN A ABOVE | Kombinierender übergeschriebener Kleinbuchstabe a (abgeflachte offene Form) | [Bsp.] | ᷓ |
| rabar | ◌ | COMBINING ABBREVIATION MARK SUPERSCRIPT RA OPEN A FORM WITH BAR ABOVE | Kombinierendes Kürzungszeichen für übergeschriebenes ra in offener a-Form mit Strich darüber | [Bsp.] | <g ref='char:rabar'></g> |
| urrot | ◌ᷣ | COMBINING LATIN SMALL LETTER R ROTUNDA | Kombinierender übergeschriebener Kleinbuchstabe r in Rotunda-Form (übergeschriebenes rundes r) | [Bsp.] | ᷣ |
| urlemn | ◌ | COMBINING ABBREVIATION MARK SUPERSCRIPT UR LEMNISKATE FORM | Kombinierendes Kürzungszeichen für übergeschriebenes ur in Lemniskaten-Form | [Bsp.] | <g ref='char:urlemn'></g> |
| us | ◌᷒ | COMBINING US ABOVE | Kombinierendes Kürzungszeichen für us oberhalb des Basiszeichens | [Bsp.] | ᷒ |
Weitere kombinierende diakritische Zeichen
| Entität | Zeichen für Anzeige | Definition | Beschreibung | Beispiel | Unicode / TEI-Auflösung |
|---|---|---|---|---|---|
| combgrave | ◌̀ | COMBINING GRAVE ACCENT | Kombinierendes Gravis-Zeichen | [Bsp.] | ̀ |
| combacute | ◌́ | COMBINING ACUTE ACCENT | Kombinierendes Akut-Zeichen | [Bsp.] | ́ |
| combmacr | ◌̄ | COMBINING MACRON | Kombinierendes Makron | [Bsp.] | ̄ |
| combcar | ◌̌ | COMBINING CARON | Kombinierendes Caron (Háček) | [Bsp.] | ̌ |
| combcirc | ◌̂ | COMBINING CIRCUMFLEX ACCENT | Kombinierendes Zirkumflex-Zeichen | [Bsp.] | ̂ |
| combbreve | ◌̆ | COMBINING BREVE | Kombinierendes Brevis-Zeichen | [Bsp.] | ̆ |
| combdot | ◌̇ | COMBINING DOT ABOVE | Kombinierender Punkt oberhalb | [Bsp.] | ̇ |
| combuml | ◌̈ | COMBINING DIAERESIS | Kombinierendes Trema (Umlautpunkte) | [Bsp.] | ̈ |
| combcomma | ◌̓ | COMBINING COMMA ABOVE | Kombinierendes Komma oberhalb | [Bsp.] | ̓ |
| iuml | ◌̓ | COMBINING APOSTROPHE-LIKE MARK I-UMLAUT ABOVE | Apostrophähnliches kombinierendes Zeichen, das überwiegend in der Funktion des i-Umlauts oder eines Diphthongs über u, v, w und gelegentlich anderen Grundbuchstaben verwendet wird. | [Bsp.] | <g ref='char:iuml'>̓</g> |
| asup | ◌ͣ | COMBINING LATIN SMALL LETTER A | Kombinierender übergeschriebener Kleinbuchstabe a | [Bsp.] | ͣ |
| esup | ◌ͤ | COMBINING LATIN SMALL LETTER E | Kombinierender übergeschriebener Kleinbuchstabe e | [Bsp.] | ͤ |
| isup | ◌ͥ | COMBINING LATIN SMALL LETTER I | Kombinierender übergeschriebener Kleinbuchstabe i | [Bsp.] | ͥ |
| inodotsup | ◌ | COMBINING LATIN SMALL LETTER DOTLESS I | Kombinierender übergeschriebener Kleinbuchstabe i ohne Punkt | [Bsp.] | <g ref='char:inodotsup'></g> |
| osup | ◌ͦ | COMBINING LATIN SMALL LETTER O | Kombinierender übergeschriebener Kleinbuchstabe o | [Bsp.] | ͦ |
| usup | ◌ͧ | COMBINING LATIN SMALL LETTER U | Kombinierender übergeschriebener Kleinbuchstabe u | [Bsp.] | ͧ |
| vsup | ◌ͮ | COMBINING LATIN SMALL LETTER V | Kombinierender übergeschriebener Kleinbuchstabe v | [Bsp.] | ͮ |
| wsup | ◌ | COMBINING LATIN SMALL LETTER W | Kombinierender übergeschriebener Kleinbuchstabe w | [Bsp.] | <g ref='char:wsup'></g> |
| combtilde | ◌̃ | COMBINING TILDE | Kombinierendes Tilde-Zeichen | [Bsp.] | ̃ |
| diagdots | ◌̈ | COMBINING TWO DIAGONAL DOTS ABOVE | Kombinierendes Zeichen in Form von zwei diagonal aufsteigenden Punkten, das in der Regel über Vokalen als Umlaut- oder Diphthong-Marker verwendet wird. | [Bsp.] | <g ref='char:diagdots'>̈</g> |
| cauda | ◌̨ | COMBINING CAUDA | Kombinierender Schwanz (Cauda) unterhalb des Basiszeichens | [Bsp.] | <g ref='char:cauda'>̨</g> |
Griechische kombinierende diakritische Zeichen
| Entität | Zeichen für Anzeige | Definition | Beschreibung | Beispiel | Unicode / TEI-Auflösung |
|---|---|---|---|---|---|
| combperispomeni | ◌͂ | COMBINING GREEK PERISPOMENI | Kombinierendes griechisches Perispomeni | [Bsp.] | ͂ |
Weitere Abkürzungszeichen
| Entität | Zeichen für Anzeige | Definition | Beschreibung | Beispiel | Unicode / TEI-Auflösung |
|---|---|---|---|---|---|
| dstrok | đ | LATIN SMALL LETTER D WITH STROKE | Lateinischer Kleinbuchstabe d mit Strich | [Bsp.] | đ |
| de | | LATIN ABBREVIATION SIGN SMALL DE | Lateinisches Abkürzungszeichen für de (de-Ligatur) | [Bsp.] | <g ref='char:de'></g> |
| Kstrleg | Ꝃ | LATIN CAPITAL LETTER K WITH DIAGONAL STROKE | Lateinischer Großbuchstabe K mit diagonalem Strich | [Bsp.] | Ꝃ |
| kstrleg | ꝃ | LATIN SMALL LETTER K WITH DIAGONAL STROKE | Lateinischer Kleinbuchstabe k mit diagonalem Strich | [Bsp.] | ꝃ |
| condes | ꝯ | LATIN SMALL LETTER CON | Lateinischer Kleinbuchstabe con (Abkürzungszeichen) | [Bsp.] | ꝯ |
| per | ꝑ | LATIN SMALL LETTER P WITH STROKE THROUGH DESCENDER | Lateinischer Kleinbuchstabe p mit Strich durch die Unterlänge | [Bsp.] | ꝑ |
| pro | ꝓ | LATIN SMALL LETTER P WITH FLOURISH | Lateinischer Kleinbuchstabe p mit Schnörkel | [Bsp.] | ꝓ |
| qbardes | ꝗ | LATIN SMALL LETTER Q WITH STROKE THROUGH DESCENDER | Lateinischer Kleinbuchstabe q mit Strich durch die Unterlänge | [Bsp.] | ꝗ |
| qds | ꝙ | LATIN SMALL LETTER Q WITH DIAGONAL STROKE | Lateinischer Kleinbuchstabe q mit diagonalem Strich | [Bsp.] | ꝙ |
| RUM | Ꝝ | LATIN CAPITAL LETTER RUM ROTUNDA | Lateinischer Großbuchstabe rum in Rotunda-Form | [Bsp.] | Ꝝ |
| rum | ꝝ | LATIN SMALL LETTER RUM ROTUNDA | Lateinischer Kleinbuchstabe rum in Rotunda-Form | [Bsp.] | ꝝ |
| tcurl | | LATIN SMALL LETTER T WITH CURL | Lateinischer Kleinbuchstabe t mit Schlaufe (tur-Abbreviatur) | [Bsp.] | <g ref='char:tcurl'></g> |
| is | ꝭ | LATIN SMALL LETTER IS | Lateinischer Kleinbuchstabe is (Abkürzungszeichen) | [Bsp.] | ꝭ |
| etfin | ꝫ | LATIN SMALL LETTER ET | Lateinischer Kleinbuchstabe et (Abkürzungszeichen) | [Bsp.] | ꝫ |
| et | ⁊ | TIRONIAN SIGN ET | Tironisches Zeichen et | [Bsp.] | ⁊ |
| etslash | | LATIN ABBREVIATION SIGN SMALL ET WITH STROKE | Lateinisches Abkürzungszeichen kleines et mit Strich | [Bsp.] | <g ref='char:etslash'></g> |
| lhighstrok | ꝉ | LATIN ABBREVIATION SIGN SMALL LETTER L WITH HIGH STROKE | Lateinisches Abkürzungszeichen Kleinbuchstabe l mit hochgesetztem Strich | [Bsp.] | <g ref='char:lhighstrok'>ꝉ</g> |
| slongflour | | LATIN SMALL LETTER LONG S WITH FLOURISH | Lateinisches langes s mit Schnörkel | [Bsp.] | <g ref='char:slongflour'></g> |
| usbase | | LATIN ABBREVIATION SIGN SPACING BASE-LINE SMALL US | Kürzungszeichen us in Form einer Schlaufe oder eines Spiralenansatzes, das auf der Grundlinie erscheint. | [Bsp.] | <g ref='char:usbase'></g> |
| nlrlegab | ƞ | LATIN ABBREVIATION SIGN SMALL LETTER N WITH LONG RIGHT LEG | Lateinisches Abkürzungszeichen Kleinbuchstabe n mit langem rechtem Schaft (Abkürzung für en) | [Bsp.] | <g ref='char:nlrlegab'>ƞ</g> |
Ligaturen
| Entität | Zeichen für Anzeige | Definition | Beschreibung | Beispiel | Unicode / TEI-Auflösung |
|---|---|---|---|---|---|
| ctlig | | LATIN SMALL LIGATURE CT | Lateinische Ligatur ct | [Bsp.] | <g ref='char:ctlig'></g> |
| ftlig | | LATIN SMALL LIGATURE FT | Lateinische Ligatur ft | [Bsp.] | <g ref='char:ftlig'></g> |
| qet | | LATIN SMALL LETTER Q LIGATED WITH FINAL ET | Lateinischer Kleinbuchstabe q ligiert mit finalem et | [Bsp.] | <g ref='char:qet'></g> |
| etcem | ⁊c | LATIN EARLY MODERN ET CETERA LIGATURE | Frühneuzeitliche Ligatur für et cetera | [Bsp.] | <g ref='char:etcem'>⁊c</g> |
| etcemra | ⁊cᷓ | LATIN EARLY MODERN ET CETERA LIGATURE WITH FLATTENED OPEN A | Frühneuzeitliche Ligatur für et cetera mit abgeflachtem offenem a | [Bsp.] | <g ref='char:etcemra'>⁊cᷓ</g> |
Doppelzeichen
| Entität | Zeichen für Anzeige | Definition | Beschreibung | Beispiel | Unicode / TEI-Auflösung |
|---|---|---|---|---|---|
| dblf4F | F | DOUBLE LATIN SMALL LETTER F REPRESENTING THE CORRESPONDING SIMPLE CAPITAL LETTER | Doppeltes Minuskel-f, das funktional die entsprechende einfache Majuskel oder eine ›littera notabilior‹ repräsentiert. | [Bsp.] | <g ref='char:dblf4F'>F</g> |
| dbll4L | L | DOUBLE LATIN SMALL LETTER L REPRESENTING THE CORRESPONDING SIMPLE CAPITAL LETTER | Doppeltes Minuskel-l, das funktional die entsprechende einfache Majuskel oder eine ›littera notabilior‹ repräsentiert. | [Bsp.] | <g ref='char:dbll4L'>L</g> |
Zeichen der modernen Typographie
| Entität | Zeichen für Anzeige | Definition | Beschreibung | Beispiel | Unicode / TEI-Auflösung |
|---|---|---|---|---|---|
| laquo | « | LEFT-POINTING DOUBLE ANGLE QUOTATION MARK | Links-weisendes doppeltes Winkelzeichen; in der deutschen Typographie als schließendes Anführungszeichen verwendet | [Bsp.] | « |
| raquo | » | RIGHT-POINTING DOUBLE ANGLE QUOTATION MARK | Rechts-weisendes doppeltes Winkelzeichen; in der deutschen Typographie als öffnendes Anführungszeichen verwendet | [Bsp.] | » |
| lsaquo | ‹ | SINGLE LEFT-POINTING ANGLE QUOTATION MARK | Links-weisendes einfaches Winkelzeichen; in der deutschen Typographie als schließendes einfaches Anführungszeichen verwendet | [Bsp.] | ‹ |
| rsaquo | › | SINGLE RIGHT-POINTING ANGLE QUOTATION MARK | Rechts-weisendes einfaches Winkelzeichen; in der deutschen Typographie als öffnendes einfaches Anführungszeichen verwendet | [Bsp.] | › |
Mittelalterliche Interpunktionszeichen
| Entität | Zeichen für Anzeige | Definition | Beschreibung | Beispiel | Unicode / TEI-Auflösung |
|---|---|---|---|---|---|
| posit | | COMMA POSITURA | Mittelalterliches Interpunktionszeichen ›Comma Positura‹ | [Bsp.] | <g ref='char:posit'></g> |
| punctelev | | PUNCTUS ELEVATUS | Mittelalterliches Interpunktionszeichen ›Punctus elevatus‹ | [Bsp.] | <g ref='char:punctelev'></g> |
| punctelevdiag | | PUNCTUS ELEVATUS DIAGONAL STROKE | Mittelalterliches Interpunktionszeichen ›Punctus elevatus‹ mit diagonalem Strich | [Bsp.] | <g ref='char:punctelevdiag'></g> |
| bidotscomposit | | TWO DOTS OVER COMMA POSITURA | Mittelalterliches Interpunktionszeichen Zwei Punkte über ›Comma Positura‹ | [Bsp.] | <g ref='char:bidotscomposit'></g> |
| virgsusp | | VIRGULA SUSPENSIVA | Mittelalterliches Interpunktionszeichen ›Virgula suspensiva‹ | [Bsp.] | <g ref='char:virgsusp'></g> |
Währungszeichen
| Entität | Zeichen für Anzeige | Definition | Beschreibung | Beispiel | Unicode / TEI-Auflösung |
|---|---|---|---|---|---|
| curren | ¤ | CURRENCY SIGN | Allgemeines Währungszeichen; zu verwenden, wenn ein Währungszeichen keinem spezifischen Währungssymbol zugeordnet werden kann. | [Bsp.] | ¤ |
| pennygerm | ₰ | GERMAN PENNY SIGN | Deutsches Pfennigzeichen | [Bsp.] | ₰ |
| florloop | | FLOREN SIGN WITH LOOP | Währungszeichen für Florin bzw. Gulden mit Schlaufe | [Bsp.] | <g ref='char:florloop'></g> |
| libradut | | DUTCH LIBRA SIGN | Niederländisches Pfundzeichen | [Bsp.] | <g ref='char:libradut'></g> |
Sonstige Symbole
| Entität | Zeichen für Anzeige | Definition | Beschreibung | Beispiel | Unicode / TEI-Auflösung |
|---|---|---|---|---|---|
| para | ¶ | PILCROW SIGN | Absatzzeichen (Pilcrow, Paragraphzeichen) | [Bsp.] | ¶ |
| insup | ⌃ | INSERTION SYMBOL UP ARROWHEAD | Einweisungszeichen in Form eines aufwärts zeigenden Pfeils | [Bsp.] | <g ref='char:insup'>⌃</g> |
| insdown | ⌄ | INSERTION SYMBOL DOWN ARROWHEAD | Einweisungszeichen in Form eines abwärts zeigenden Pfeils | [Bsp.] | <g ref='char:insdown'>⌄</g> |
| adm | AD | ALBRECHT DÜRER MONOGRAM | Albrecht-Dürer-Monogramm | [Bsp.] | <g ref='char:adm'>AD</g> |
Leerzeichen
| Entität | Zeichen für Anzeige | Definition | Beschreibung | Beispiel | Unicode / TEI-Auflösung |
|---|---|---|---|---|---|
| emsp | EM SPACE | Leerzeichen in Em-Breite | [Bsp.] |   | |
| nnbsp | NARROW NO-BREAK SPACE | Schmales geschütztes Leerzeichen | [Bsp.] |   |