Word-Satz

Word ist ein beliebtes Autorenwerkzeug und unterstützt durch Features wie Änderungsverfolgung zahlreiche Workflows im Verlagsbereich. Für den eigentlichen Umbruch kommen jedoch meistens geeignetere Tools, wie InDesign oder TeX, zum Einsatz. Die Konvertierung in deren Formate stellt prinzipiell keine große Herausforderung dar, ist jedoch häufig mit Nachbearbeitungs- oder Kontrollaufwand, also mit Kosten, verbunden. Dies ist insbesondere dann der Fall, wenn der Autor nicht konsequent und konsistent Formatvorlagen verwendet.

Ein Word-Manuskript in Word zu finalisieren, kann eine kostengünstige Alternative zum Umbruch in TeX, InDesign oder anderen Satzsystemen sein, wenn einige Voraussetzungen erfüllt sind. So gibt es u. a. Probleme bei anspruchsvollen Layouts, bestimmten Abbildungstypen oder besonders umfangreichen Werken. Eine große Anzahl von Manuskripten eignet sich jedoch für einen Nur-Word-Workflow.

Einen solchen Workflow zu meistern, bedarf besonderer Erfahrung. le-tex hat Methoden und Werkzeuge entwickelt, um gerade mit umfangreichen oder technisch anspruchsvollen Word-Dokumenten effizient umgehen zu können. Diese Kompetenz hat le-tex in über hundert Projekten mit insgesamt mehreren 10.000 Seiten unter Beweis gestellt.

Im Detail werden folgende Leistungen erbracht:

  • Satz von Büchern, Zeitschriften und Proceedings; 
  • Beratung von Autoren und Verlagen; 
  • „Reparatur“ von Word-Dateien; 
  • Finalisierung von Word-Dokumenten (d. h. Umbruch, Bildimport und Verzeichniserstellung); 
  • Organisation und Zusammenfassung einzelner Dateien zu Gesamtdokumenten; 
  • Bearbeitung umfangreicher Dokumente (> 1000 Seiten); 
  • Generierung von komplexen Verzeichnissen (z. B. für Proceeding-Reihe mit Bänden à 5000 Seiten); 
  • Erstellung und Anpassung von Templates; 
  • Makroprogrammierung; 
  • Konvertierung von Word-Daten in PDF-Dokumente; 
  • Konvertierung von formel- und tabellenhaltigen Word-Dokumenten nach TeX und umgekehrt sowie 
  • Konvertierung von Word-Dokumenten allgemein nach XML und umgekehrt. 

Word als Autorenwerkzeug: Word to XML, XML to Word

Ungefähr 90% aller Autoren (je nach Fachrichtung) bestehen auf Word als Werkzeug, um ihre Manuskripte zu bearbeiten. le-tex erstellt Formatvorlagen und Konverter, um einerseits diesem Interesse der Autoren und andererseits dem Interesse der Verlage an standardisiertem, mehrfach verwendbaren Content in gefälligem Layout gerecht zu werden.

Word-Autorvorlagen können auf die gewünschten Absatz- und Zeichenformate eingeschränkt werden, so dass der Inhalt ohne manuelle Eingriffe nach XML oder anderen Formaten konvertiert werden kann.

Aber auch die Gegenrichtung ist interessant, insb. für die stetig wachsende Zahl von Verlagen, die ihre Bücher als Volltext-XML speichern. le-tex ist in der Lage, strukturierte XML-Inhalte, incl. Tabellen, Formeln, Indexeinträgen oder geschachtelten Aufzählungen, zuverlässig nach Word zu konvertieren. Dann können Autoren ihre gewohnte Word-Umgebung verwenden, um Folgeauflagen ihrer Werke zu bearbeiten. Auch ein Copy-Editing in Word ist dann möglich. Anschließend kann der Text, je nach Striktheit der Word-Formatvorlage bzw. Kooperation des Autors, wieder automatisch nach XML konvertiert werden und dann mit Hilfe anderer Tools, wie z. B. LaTeX, InDesign, XSL-FO-Prozessoren oder HTML-Konvertern, gerendert werden.

le-tex setzt bei der Konvertierung auf das Word-2007-Format Office Open XML (.docx), wobei seitens Microsoft die Kompatibilität mit älteren Word-Versionen gewährleistet wird. Das heißt, selbst wenn die eigentliche Konvertierung immer zwischen Word-XML und dem XML-Zielformat stattfindet, können Autoren mit herkömmlichen Word-Daten (z. B. Word 2003) der Vorauflage beliefert werden.

Technologisch hat le-tex die Konvertierung zwischen Word und anderen XML-Formaten im Wesentlichen in XSLT/XPath 2.0 implementiert. Der Ansatz ähnelt dem von roundtrip aus dem Projekt DocBook XSL, wobei sich der le-tex-Konverter auszeichnet durch:

  • eine umfangreichere Abdeckung der Auszeichnungsmerkmale (u. a. Tabellen, Listen), 
  • durch die Unterstützung anderer XML-Formate als DocBook (wobei DocBook eine herausgehobene Rolle als neutrales Zwischenformat zukommt) 
  • und schließlich durch Verwendung mächtiger XSLT/Xpath-2.0-Konstrukte, wodurch sich neben kompakterem, wartbarem Code überhaupt erst Lösungen für einige der roundtrip-Defizite ergaben.