Der Ritt auf dem Drachen

Ein Jahr Schreiben mit der Spracherkennung (2017)

Seit dem Frühjahr 2016 schreibe ich mit einem Programm zur Spracherkennung. Auf diese Technik habe ich über 40 Jahre lang gewartet. Warum das? Darum: 1975 hatte ich mir bei der Bundeswehr in großer Eile das Tippen beigebracht, um meinen angenehmen Job im Geschäftszimmer nicht wieder zu verlieren. Doch damit verdarb ich mich für immer; nie gelang es mir später, mehr als zwei Finger einzusetzen, und mein Blick klebte beim Schreiben auf der Tastatur. Dabei war mein Fehlerquotient dramatisch hoch, nicht zwei Zeilen vermochte ich fehlerfrei zu tippen. Das Schreiben von Hausarbeiten im Studium war anfangs eine Qual. Unmengen von flüssigem Tipp-Ex verschmierten die Typen, und letztlich baute ich meine Arbeiten erst im Copy-Shop aus einigermaßen fehlerfreien Schnipseln zusammen. Später wurde es besser, aber nicht wirklich gut. Ich konnte günstig eine IBM Kugelkopfmaschine erwerben. Zwar bediente ich die ebenso dilettantisch wie zuvor meine kleine Reiseschreibmaschine, aber jetzt gab es eine Korrekturfunktion, die das Schlimmste verhinderte, vorausgesetzt ich bemerkte meine Fehler sofort. Ein paar Zeilen später wurde es wieder heikel. Als ich dann 1985 grauenhaft viel Geld für einen PC der ersten Generation (noch ohne Festplatte!) ausgab, da tat ich es vor allem wegen meiner erbärmlichen Tipperei. Denn jetzt kommandierte ich mit dem Textverarbeitungsprogramm (WordStar) eine Korrekturtruppe, die hinter meiner miserablen Produktion herlief und spurlos aufräumte. Anfangs habe ich gejubelt. Allerdings war ich jetzt versucht, viel schneller zu schreiben, um so den peinlichen Abstand zwischen Gedachten und Geschriebenen zu verkleinern, was wiederum zu immer mehr Tippfehlern führte. Zu Beginn dieses Jahrtausends begegnete mir dann zum ersten Mal eine Spracherkennungssoftware. Mein Orthopäde benutzte sie, um eine für mich sehr unerfreuliche Diagnose (die sich später zum Glück als falsch erwies) in den PC zu sprechen. Keine guten Umstände für ein erstes Date, aber seitdem hielt ich mich auf dem Laufenden. Lange erhielt ich leider nur diese Auskunft: „Für dich ist das noch nichts. Deine Ansprüche sind komplexer und differenzierter als die von Ärzten oder Rechtsanwälten.“ Eigene Experimente unterließ ich; ich wollte ja nicht hinter den mühsam erreichten Status meiner Schreibfähigkeit zurückfallen. Im letzten Jahr dann berichtete mir jemand, wie gut er mit einer neuen Spracherkennungssoftware zurechtkomme. Ich war ganz Ohr, denn der Betreffende galt nun eher als das Gegenteil eines Technik-Freaks. Kurz darauf brachte mir gegen zwei Uhr nachmittags die Post den Zugangscode zu „Dragon NaturallySpeaking“ (Version 13, Home). Ich erwartete das Übliche: Schwierigkeiten beim Download, Muckereien bei der Installation, Überforderung durch komplizierte Bedienungsanleitungen oder durch deren Fehlen etc. Doch nichts davon trat ein. Und am Abend wusste ich, dass mein Leben sich geändert hatte. Das Programm funktionierte, nicht problemlos, das nun wirklich nicht; aber mir war sofort klar, dass für einen wie mich die Vorteile die Nachteile deutlich überwogen. Dies war der große Sprung nach vorn, auf den ich seit meinem Herumgehacke auf der Bundeswehrmaschine gewartet hatte. Umgehend richtete ich mir einen ganz neuen Arbeitsplatz ein. Hier sitze ich jetzt, wie ich es mir immer erträumt habe, nämlich möglichst entspannt, zurückgelehnt, die Schultern hängend, statt verkrampft hochgezogen, die Beine ausgestreckt. Die Körperhaltung hat mehr vom Betrachten (wie im Kino) und viel weniger von irgendeiner Handarbeit. Es gibt natürlich noch Maus und Tastatur vor mir, beide sind auch nach wie vor unverzichtbar, aber ich brauche sie fast nur noch für Eingriffe oder Befehle, die selbst ich blind geben kann. Wenn es im nicht-geistigen Teil meiner Arbeit der letzten 40 Jahre einen Paradigmenwechsel gegeben hat, der diesen Namen verdient, dann diesen hier. Ich sagte es schon, das System arbeitet nicht perfekt. Wie denn auch? Die hochgradig individuell gefärbte Sprache eines Menschen zu erkennen, stellt enorme Ansprüche an die Technik. Dragon wird seit 1997 kontinuierlich weiterentwickelt, dabei liegen die Anfänge der Spracherkennung noch etwa 20 Jahre weiter zurück. Die verbliebenen Mängel sind also solche, in deren Vermeidung schon Abertausende von Arbeitsstunden investiert wurden. Wer einen kurzen Kurs in Demut vor dieser Technik absolvieren will, der lese den entsprechenden Artikel in der Wikipedia, wo erklärt wird, was alles auf dem Weg vom gesprochenen Wort zum Erscheinen des geschriebenen auf dem Monitor passiert. Ich beschwere mich daher auch gar nicht über die bestehenden Mängel. Außerdem befinden sich mein Drachen und ich noch in einer Phase, in der wir uns aneinander gewöhnen. Die Software ist lernfähig, und das auf eine recht unangestrengte Art und Weise, man integriert ihr Lernen am besten in den normalen Schreiballtag, statt es gesondert zu praktizieren. Dazu rät das Programm selbst, und ich mache damit gute Erfahrungen. Eigentlich interessiere ich mich ja überhaupt nicht für die innere Konstruktion der Programme, mit denen ich arbeite. Sie sollen nur funktionieren, so wie mein Auto. Im Falle der Spracherkennung ist es aber wichtig zu begreifen, dass das Programm nicht „mitschreibt“ wie ein Schüler beim Diktat, sondern seine Entscheidungen nach statistischen Wahrscheinlichkeiten trifft, deren Grundlage die gesprochene Sprache ist. Daher identifiziert es womöglich ein quasi Buchstabe für Buchstabe gesprochenes Wort wesentlich schlechter als dasselbe Wort in einem Satzkontext. Bis heute mache ich noch viel zu oft den Fehler, überdeutlich zu diktieren, wie Lehrer es beim Diktat in der Grundschule tun. Das Programm aber fügt nicht wie der menschliche Schreibschüler Buchstaben zusammen, um einen Wortklang in Schrift umzusetzen. Stattdessen helfen ihm Wahrscheinlichkeitsberechnungen, wenn es entscheidet, welches Wort es gehört hat. Ein Beispiel: das Wort „höre“, gesondert diktiert, erscheint meistens als „höhere“, im Kontext „ich höre Radio“ wird es hingegen korrekt wiedergegeben. Da das Programm also nicht „buchstabiert“, sondern aus seinem Bestand auswählt, macht es praktisch keine klassischen Tippfehler mehr. Mag sein, dass es das Wort „Zellophan“ anfangs als „Zählung fahren“ wiedergibt, doch einmal gelernt oder richtig erkannt erscheint es zuverlässig in der richtigen Schreibung. Am erfolgreichsten sind wir zwei, wenn ich kurze bis mittellange Satzeinheiten im Kopf formuliere und sie dann deutlich zwar, aber im normalen Tonfall und ohne große Pausen zwischen den Wörtern ausspreche. Gibt es wiederkehrende Probleme, so kann ich an meiner Aussprache feilen, um sie abzustellen. Etwa sollte ich bei Satzenden die Stimme nicht zu sehr senken und den schließenden Punkt möglichst nahe an das letzte Wort sprechen. So hilft man seinem Drachen. Das Programm lernt aber nicht nur, mich zu verstehen; es lernt auch Neues. Ich kann ihm unbekannte Worte mehrfach sagen oder über die Tastatur eingeben, in der Hoffnung, dass sie „behalten“ werden. Hier bemerke ich nun die schmerzlichsten Mängel und Grenzen. Den Namen „Blamberger“, den ich einer Romanfigur geben möchte, will der Drachen partout nicht schlucken. Da heißt es dann ein bisschen tricksen oder verhandeln, wie man es ja auch mit menschlichen Mitarbeitern oft genug tut. In diesem Fall habe ich mich mit dem Drachen auf den Namen Landsberger geeinigt, um ihn später vom Textprogramm durch Blamberger ersetzen zu lassen. Solche Einschränkungen haben mich anfangs gestört, jetzt tun sie es kaum noch. Man gewöhnt sich eben aneinander, auch an seine Schwächen. Eine Gefahr stellt das Programm meines Erachtens nur dann dar, wenn ich seinen Problemen zu begegnen versuche, indem ich bestimmte Worte oder Formulierungen vermeide, mit denen es wiederkehrende Schwierigkeiten gibt. „Le style, c’est le homme“, sagte Buffon, nicht „la machine“. Der Drachen soll mir nicht meinen Stil diktieren. Und ich will seine Erziehung zwar betreiben, mich aber nicht darin verbeißen. In sehr vielen Fällen ist eine Intervention über die Tastatur auch wesentlich schneller absolviert als ein Lernvorgang mit ungewissem Ausgang. Ich persönlich habe die Erfahrung gemacht, dass bei den momentanen Fähigkeiten der Spracherkennungssoftware ein gut gelaunter und undogmatischer Umgang mit ihr sinnvoller ist als das sportliche Bestreben, sie von 98 % auf 99 % Erkennungsleistung zu bringen. Außerdem wird das Programm ja kontinuierlich verbessert. Die, zumindest für mich als Schriftsteller, wichtigsten Veränderungen beim Schreiben durch die Spracherkennung habe ich mir für das Ende reserviert. Von der veränderten Körperhaltung sprach ich ja schon. Sie reduziert meine bis dato üblichen Verspannungen im Schulter-Nacken-Bereich und in der Lendenwirbelsäule. Auch nach Stunden vor dem Monitor fühle ich mich heute besser als zu Zeiten der Tipperei. Ich bemerke keine Taubheit mehr in den Handgelenken und keinen Tennis- bzw. Mausarm. Das ist schon eine große Erleichterung, aber noch um einiges wichtiger ist, dass ich, der ewig schlechte Tipper, jetzt nicht mehr unentwegt von der Tastatur zum Monitor und wieder zurück schauen muss. Die Augen bleiben weitgehend auf dem Geschriebenen. Dergestalt gewinne ich ein Maß an unangestrengter Kontrolle über meinen Text, das ich vorher so nicht gekannt habe. Galt meine Aufmerksamkeit früher zu einem großen Prozentsatz dem reinen Handwerk des Schreibens, so habe ich jetzt das Gefühl, fast permanent mit meinem Text auf dem Monitor zu kommunizieren. Ich überschaue ihn erheblich besser als zuvor; das gilt schon beim Schreiben und insbesondere für Korrekturdurchgänge. Dazu kommt, dass ich meine Sätze gleich bei der Eingabe ein erstes Mal höre, was, zumindest für mich, auch eine erste Kontrolle bedeutet. Vor ein paar Wochen fiel mein PC aus, und ich musste mich mit einem Ersatzgerät ohne Spracherkennungssoftware behelfen. Ach, wie habe ich da meinen Drachen vermisst!