Logo heiEDITIONS

XML-Entitäten

Bei sog. XML-Entities handelt es sich um Codes, mit denen in XML Zeichen eingegeben werden können, die in XML-Dokumenten eine besondere Funktion haben, weil sie Teil der XML-Syntax sind. Wenn diese Zeichen im Text benötigt werden (also eben nicht als spezielle Operatoren der XML-Syntax), müssen sie über die sog. Entities eingegeben werden. Entities sind also stellvertretende Codes für bestimmte Zeichen, die im Text nicht direkt eingegeben werden können. Stattdessen werden sie bei der Texteingabe durch die entsprechenden Entitäten ›maskiert‹.

Vordefinierte XML-Entitäten

In der Sprachdefinition von XML sind diese fünf Entititäten vordefiniert:

Zeichen Entität Bedeutung
< &lt; Kleiner-als-Zeichen (mathematisches Symbol)
> &gt; Größer-als-Zeichen (mathematisches Symbol)
& &amp; Et-Zeichen bzw. kaufmännisches Und-Zeichen
" &quot; gerade Anführungszeichen (im Text nicht typographisch korrekt)
' &apos; Apostroph (im Text nicht typographisch korrekt)

Falls also etwa in der Transkription eines Drucks das ›kaufmännische Und-Zeichen‹ eingegeben werden müsste, sähe der TEI-Code so aus:


               <p>
                  ...
                  terra &amp; aqua
               </p>
            

Weitere Entitäten in heiEDITIONS

Menota und MUFI Über diese fünf XML-Entities hinaus definiert heiEDITIONS in Anlehnung an HTML-Konventionen und die mediävistischen Zeichenkodierungsinitiativen von Menota und ↪ MUFI eine Reihe weiterer Entities. Sie dienen zum Einen der sicheren und transparenten Eingabe von Zeichen, die zwar in Unicode definiert sind, aber nicht einfach über die deutsche Tastatur eingegeben werden können, und zum Anderen als stellvertretende Platzhalter für Zeichen, die in Unicode fehlen, in heiEDITIONS mit den standardkonformen TEI-Mitteln eigens definiert sind, die aber mithilfe einer Entity leichter eingegeben (und gelesen) werden können als der vollständig ausgeschriebene TEI-Code.

Die jeweils aktuelle Definition der Entitäten für heiEDITIONS ist über die Adresse https://digi.ub.uni-heidelberg.de/schema/tei/heiEDITIONS/declarations/heieditions-entities.txt verfügbar.

Eine Referenz auf diese Datei wird in den TEI-Arbeitsversionen nach den Processing Instructions mit der Schemaangabe eingefügt:


               <?xml-model href="https://digi.ub.uni-heidelberg.de/schema/tei/heiEDITIONS/tei_hes.rng" type="application/xml" schematypens="http://relaxng.org/ns/structure/1.0"?>
               <?xml-model href="https://digi.ub.uni-heidelberg.de/schema/tei/heiEDITIONS/tei_hes.rng" type="application/xml" schematypens="http://purl.oclc.org/dsdl/schematron"?>
               <!DOCTYPE TEI SYSTEM "https://digi.ub.uni-heidelberg.de/schema/tei/heiEDITIONS/declarations/heieditions-entities.txt">
            

Die heiEDITIONS-Entitäten werden nur in den Arbeitscodierungen verwendet. Im Rahmen der Generierung der TEI-Dateien für die verschiedenen Visualisierungen durch die Verarbeitungspipeline werden diese anhand der angegebenen Entitätendatei ersetzt.

Fälle, in denen heiEDITIONS-Entitäten in den Arbeitscodierungen eingesetzt werden, sind:

  • Eindeutig lesbare (und eingebbare) Kodierung von Unicode-Zeichen, die an sich auch direkt eingegeben werden könnten.
  • Kodierung von Zeichen, für die es in heiEDITIONS eine eigene Definition gibt, die aber für bei der Anzeige mit einem Standard-Unicode-Zeichen darstellt werden. In solchen Fällen wird die Entität bei der Verarbeitung für die Visualisierung aufgelöst zu einem <g>-Element, das auf die Definition des Zeichens verweist und gleichzeitig ein Standard- oder PUA-Unicode-Zeichen (bzw. die nummerische Entität dafür) für die (ersatzweise) Anzeige als Inhalt hat, z.B. <g ref='char:bar'>&#x0304;</g> (siehe auch Zeichenangabe über g/glyph).
  • Kodierung von Zeichen, die in heiEDITIONS mit einem ↪ PUA-Zeichen anzeigt werden sollen und deren Definition von MUFI übernommen wurde. Auch hier werden die Entitäten zu einem <g>-Element aufgelöst. Die Empfehlung des TEI-Standards sieht vor, PUA-Zeichen stets so aufzulösen und mit einer Definition zu verknüpfen. Ein Beispiel hierfür wäre die Entität &inodotsup; ("COMBINING LATIN SMALL LETTER DOTLESS I"). Diese wird aufgelöst zu <g ref='char:inodotsup'>&#xF02F;</g> (siehe auch Zeichenangabe über g/glyph).

Entitäten für moderne Interpunktion

Zeichen Entität Bedeutung Umsetzung in Verarbeitungspipeline
» &raquo; öffnende Guillemets (nach deutscher Typographie) &#x00BB;, danach »
« &laquo; schließende Guillemets (nach deutscher Typographie) &#x00AB;, danach «
decoration