XML

Das XML-Logo des World Wide Web Consortiums (W3C)

XML ist eine der am weitesten verbreiteten Technologien für die Auszeichnung von Publikationen. Bei vielen Unternehmen wären viele Publikationsprozesse ohne XML nicht mehr vorstellbar. Viele Publikationen und deren Metadaten werden heute medienneutral, d.h. unabhängig ihres späteren Verwendungszwecks in XML gespeichert. Die XML-Daten können dann leicht mit Programmiersprachen wie XSLT oder Ruby in eine andere Form konvertiert werden, z.B. eine Druckvorlage, ein E-Book oder eine Website (Single Source Publishing).

XML steht als Abkürzung für Extensible Markup Language, d.h. es handelt sich um eine Auszeichnungssprache, die sich erweitern lässt. XML ist textbasiert und gleichzeitig von Maschinen und Menschen lesbar und kann unabhängig von Betriebssystem und Plattform überall verwendet werden. Hier ist ein sehr einfaches Beispiel für die Auszeichnung eines Buchladensortiments mit XML:

<?xml version="1.0" encoding="UTF-8"?>
<buchladen>
  <buch>
    <titel>Warten auf Godot</titel>
    <autoren>
      <person>Samuel Beckett</person>
    </autoren>
    <umschlag href="beckett-godot.jpg"/>
  </buch>
</buchladen>

In der ersten Zeile steht die sogenannte Deklaration mit der Auskunft gegeben wird, dass es sich um eine XML-Datei handelt. Die XML-Syntax besteht im Wesentlichen aus sogenannten Elementen und Attributen. Die Inhalte werden mit Elementen ausgezeichnet, das sind in Spitzklammern gefasste Namen, welche die Inhalte einrahmen. XML ist hierarchisch aufgebaut: Die Elemente können weitere Elemente enthalten, z.B. das Element <buch> schließt die Elemente <titel>, <autoren> und <umschlag> mit ein. Mit Attributen können den Elementen zusätzliche Eigenschaften mitgegeben werden, z.B. bei dem Element <umschlag> beschreibt das href-Attribut den Dateinamen der Coverdatei.

XML hat vielen anderen Auszeichnungssprachen voraus, dass sich die Struktur von Elementen und Attributen durch ein Schema definieren lässt. Um bei unserem Beispiel zu bleiben könnte ein Schema vorschreiben, dass das Element <umschlag> nur in einem <buch>-Element vorkommen darf, dort nur ein einziges Mal und dass es zwingend ein href-Attribut enthalten muss. Mit Schematechnologien wie RelaxNG oder XML Schema lassen sich Schemas beschreiben und mit den entsprechenden Tools auch validieren.

Häufig genutzte Schemas sind TEI (Text Encoding Initiative) für kritische Editionen in den Geisteswissenschaften, JATS (Journal Article Tag Suite) für wissenschaftliche Artikel oder NISO STS für technische Normen. Aber auch für kleinteiligere Daten spielt XML eine wichtige Rolle: So lassen sich mit ONIX bibliografische Metadaten beschreiben und austauschen und SVG und MathML sind die wichtigsten Formate für die Darstellung von Vektorgrafiken und mathematischen Formeln im World Wide Web.

XML wird in vielen Branchen und Technologien verwendet. Auch viele bekannte Office- und Publishinganwendungen basieren auf XML oder haben XML-Schnittstellen: Die Datenformate von Microsoft Word und Excel und Adobe InDesigns IDML (InDesign Markup Language) basieren alle auf XML. Mit XML-Editoren lassen sich Publikationen auch direkt in XML verfassen.

XML wurde bereits 1998 als Standard des W3C offiziell veröffentlicht. Seitdem hat es sich rasant verbreitet, bekam aber auch Konkurrenz von leichtgewichtigeren Formaten wie JSON und MarkDown. Dennoch gibt es für viele Publikationen keine Auszeichnungssprache, die effizienter, robuster und vielseitiger als XML ist.