Computerlinguistik als Aufreger: Natural Language Watermarking

Ein Wort, ein Satz -: aus Chiffren steigen
erkanntes Leben, jäher Sinn
(Gottfried Benn)

„Tja, mit Lyrik geht das wohl nicht“, zitiert Dr.-Ing. Martin Steinebach einen spontan geäußerten Satz auf einer Besprechung ganz zu Anfang seines Projekts Sichere Dokumente durch individuelle Markierung (SiDiM). „Wir haben die Sache schnell als risikoreich angesehen. Egal, was technisch möglich ist, Autoren und Leser müssen es akzeptieren.“ Und das ist laut dem ersten Echo auf das Projekt bei Bücherleuten nicht der Fall.

Worum geht es? „Grundsätzlich geht es darum, Text mit einem Wasserzeichen zu markieren, so wie das bei Fotos, Videos und Audiodateien schon länger der Fall ist.“ Steinebachs Arbeitgeber, das Fraunhofer SIT (Institut für Sicherheit in der Informationstechnik) in St. Augustin und Darmstadt, lizenziert schon seit einem Jahrzehnt die entsprechenden Verfahren für Bilder und Töne.

Digitale Wasserzeichen

Aus technischer Sicht sind digitale Wasserzeichen eine elegante Lösung für die Markierung eines Digitalprodukts mit einem Hersteller-Vermerk. Sie sind unsichtbar oder unhörbar, da sie in den von Auge oder Gehör nicht wahrnehmbaren Anteilen versteckt werden. Sie werden von zahllosen Rechteinhabern bereits genutzt, zum Beispiel von Bildagenturen.

Häufig wird Name und Maildresse des Fotografen oder der Agentur genutzt. Doch es gibt natürlich auch die Möglichkeit, in jedes herunter geladene Bild eine Identifikation des Käufers einzuprägen. Das kann zum Beispiel Name, Mailadresse und Kreditkartennummer sein. Der technische Aufwand ist für die Anbieter gering.

Da digitale Käufe ohnehin nicht anonym sind, müssen Anbieter lediglich ihre Shops um eine Prägeroutine für ein Wasserzeichen anhand der Käuferdaten erweitern. Dadurch erhält jeder Kunde eine individualisierte Kopie. Sollte die nun in einem illegalen Kontext auftauchen, haben die Rechtsanwälte direkt eine Anschrift für die Zustellung der Abmahnung.

Diese Verfahren werden auch in der Buchbranche genutzt – zum Beispiel von Hörbuch- oder E-Book-Verlagen. Sie gelten als so genanntes „Soft DRM“, das weder so umständlich noch problematisch ist wie „Hard DRM“ mit Kopierschutz, Hardware-Bindung & Co. Letztlich geht es darum, eine illegale Nutzung nachweisen zu können und nicht, sie mit technischen Tricks zu verhindern.

„Bei Büchern ohne Abbildungen ist ein Wasserzeichen nicht mehr so einfach anzubringen“, nennt Martin Steinebach den Grund, warum in einem Projekt unter dem Label „KMU-innovativ“ mit Fördermitteln des Bundesministerium für Bildung und Forschung an der Anwendung von Textwasserzeichen in deutschsprachigen Texten gearbeitet wird.

Am Forschungsprojekt beteiligt sind ein paar im Digitalbuchmarkt aktive Mittelständler (CoSee, 4Readers, juni.com), die IT-Rechtler von Notos Rechtsanwälte sowie die MVB Marketing- und Verlagsservice des Buchhandels GmbH und die Computerlinguisten der TU Darmstadt. Ziel des Ganzen: Konzeption eines IT-Ökosystems, das die Texte in Digitalbüchern individuell markieren, vertreiben und im Falle des Falles auch wieder auffinden kann.

Das ist bei Text aber nicht so einfach, denn ein digitales Wasserzeichen verändert die Byte-Struktur einer Datei. Bei Bildern und Tönen ist sind Varianten bei ein paar Dutzend oder sogar ein paar hundert Bytes nicht sicht- oder hörbar. Ein Beispiel: Ein Bildwasserzeichen verändert die Helligkeit einiger Bildpunkte minimal. Das reicht als Erkennungszeichen aus, dürfte aber von niemandem bemerkt werden.

Natural Language Watermarking

Bei Wasserzeichen für Texte gibt es nur die Möglichkeit, die Zeichen zu ändern. Da E-Books in aller Regel vom Lesegerät oder -programm formatiert werden, entfällt die nahe liegende Möglichkeit, mit Schriftgrößen und Auszeichnungen zu arbeiten. Auch der Trick, doppelte Lesezeichen oder Leerzeichen vor Satzzeichen einzufügen, bringt es nicht: Es ist äußerst einfach, ein E-Book nach dem Kopieren einfach umzuarbeiten und dabei auf solche Dinge zu achten.

Also geht es dem Text an den Kragen. Durch Veränderungen am Text gegenüber dem Original kann eine Markierung erzeugt werden, die sogar individualisiert werden kann. Da drängt sich direkt eine Frage auf: Wird dadurch denn nicht der Sinn des Textes verändert? Nicht unbedingt, denn die Veränderungen geschehen in Form eines „Synonymtauschs“ („unbekannt“ wird zu „nicht bekannt“, „Dieb“ zu „Räuber“) oder indem Aufzählungen umsortiert werden.

In der englischsprachigen (Computer-)Linguistik wird dieses Thema schon seit langem unter dem Stichwort „Natural Language Watermarking“ diskutiert. Eine guter Überblick ist in diesem Paper der Purdue-Universität in den USA. Die im SiDiM-Projekt genutzte Übertragung der gängigen Verfahren auf die deutsche Sprache wird in diesem Aufsatz der Fraunhofer-Forscher dargestellt.

Anders ausgedrückt: Die technische Lösung ist nicht das Problem. Die Verfahren zur Erkennung von Texten („Parsing“) sind leistungsfähig und einsatzbereit. Es ist sogar möglich, dass ein Autor mitwirkt und von vorne herein Varianten für sein eigenes Buch festlegt, um vor Sinn entstellenden Änderungen geschützt zu sein.

Außerdem gehört eine Erkennung von feststehenden Ausdrücken („Rat und Tat“, „Ich kam, sah, siegte“) sowie die flexible Reaktion auf unterschiedliche Textarten (Sachbuch vs. Literatur) ebenfalls zu der geplanten Vorgehensweise. Mögliche Variationsformen nennt dieses Dokument, das die Akzeptanz von Textvarianten bei Lesern und Autoren erheben soll.

Und damit ist das Problem der Lösung erreicht: Nicht alles, was technisch möglich ist, ist auch gesellschaftlich sinnvoll. So basiert zum Beispiel unser Wissenschaftssystem darauf, das Fachtexte „referenzierbare“ Unikate sind. Etwas weniger akademisch ausgedrückt bedeutet dies, dass sich Wissenschaftler auf jederzeit gleichbleibende (und damit zitierfähige) Texte beziehen müssen.

Aber auch ein Literaturfreund wird darauf bestehen, den Text des Autoren unverfälscht zu bekommen. Und die Autoren sind sicher nicht mit beliebigen Eingriffen in den Text einverstanden. Außerdem könnte es gut sein, dass das Urheberrecht dem Watermarking entgegen steht.

Plagiatsverfolgung und vertrauliche Texte

„In dem Forschungsprojekt geht es nicht nur darum herauszufinden, für welche Texte das Verfahren technisch geeignet ist“, betont Martin Steinebach. „Es geht auch darum zu ermitteln, wie und wo die Verfahren akzeptiert werden.“

Die letzte Frage ergab auch für Steinebach in Sachen Buchmarkt eine eindeutige Antwort: „Bei Büchern wird das nicht akzeptiert.“ Die Beweise landen regelmäßig in seiner Mail-Inbox oder werden in Blogs erbracht: Flammende Anklagen, dass er die Literatur vernichten wolle. „Es gibt recht emotionale Reaktionen“, fasst er seine Erfahrungen mit Ingenieur-Understatement zusammen.

Bleibt also die Frage, ob das Forschungsprojekt genau die Verschwendung von Steuergeldern ist, als die es angeprangert wird. „Wir haben nur einen Prototypen entwickelt, der die Machbarkeit beweist“, erklärt Steinebach. Bei diesem wie bei vielen anderen Projekten in den Fraunhofer-Instituten ginge es um angewandte Forschung, die sich aber nicht in der Entwicklung eines marktreifen Produkts erschöpfe.

Steinebach sieht einige Szenarios für die Anwendung des „Natural Language Watermarking“. So kann es zur Plagiatsverfolgung bei Gebrauchstexten genutzt werden. Ein typisches Beispiel sind Bedienungsanleitungen, die von Konkurrenten gerne kopiert werden.

Außerdem kann das Verfahren zur individuellen Kennzeichnung vertraulicher Texte mit kleinem Leserkreis genutzt werden, etwa vertrauliche Vorstandsvorlagen oder Geschäftsberichte während der Entwurfsphase. So hat also die Lösung doch noch ein weniger umstrittenes Problem gefunden.

Bildquelle: Matthias Riesenberg / pixelio.de

Natural language watermarking is a well known technique in computational linguistics. Basically it is the same as watermarking fotos, videos oder audio tracks. But it needs to change bits or bytes. Altering some bits in a photo is more or less invisible. Doing the same in an audio file does not affect the overall musical experience. Altering text leads to possibly noticeable changes. If the reader will realize them depends on the type of alterations. The Fraunhofer Institute for Secure Information Technology (Fraunhofer SIT) has identified some text alterating algorithms for natural language processing in german that can be helpful for watermarking.

Most german publishing companies propagate „Soft DRM“ as opposed to the typical hardcore Digital Rights Managements with all its flaws affecting the user experience. So some mid-sized companies contracted the Fraunhofer SIT to develop a watermarking application. The watermarks are distinct to each customer and will be applied on the fly during shopping. The Fraunhofer SIT proves: It can be done. The echo from the german blogosphere of bibliophilic connaisseurs and professionals working in libraries, bookshops and publishers shows: It should not be done. The killer argument against it may be scientific citation: An altered book is no reliable source of references in science papers.

Kommentar posten

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.