Spinvox transkribiert Mailboxansagen mit Hilfestellung: Taktik statt Technik – manuelle Texteingabe statt Spracherkennung
von Raymond Wiseman
Wörtliche Rede, schwere Sprache. Das kann jeder bestätigen, der schon einmal mit einer Spracherkennung gearbeitet hat. Der Mensch denkt und der PC renkt die Wörter hin, wie er es versteht. Mit Mikrophon, Lautsprecher und Soundkarte sollen Texte sich direkt akustisch erfassen lassen, auf dass dann der Computer phonetische Zeichen in graphische wandle, wiewohl der Rechner nicht weiß, was er schreibt.
Letzteres ist ein Problem, da sich Sinn oft nur aus dem Kontext ergibt. Gerade wenn die Sprachqualität zu wünschen übrig lässt, ist es für die Maschine schwer, die richtigen Worte zu finden. So erstaunt es nicht, dass die sprecherunabhängige Transkription noch immer zu wünschen übrig lässt. Immer? Nein, denn Spinvox bietet anscheinend eine überzeugende Lösung: Ansagen, die auf dem Anrufbeantworter des Mobiltelefons hinterlassen werden, wandelt der Dienst in Texte, die per SMS und Mail den Adressaten erreichen. So geht keine wichtige telefonische Mitteilung verloren, selbst wenn wir nicht in der Lage sind, das Gespräch anzunehmen. So überzeugend der Service, so zweifelhaft ist seine technische Umsetzung. (Doch davon am Ende mehr.) Auf jeden Fall wünschten wir uns auch für den PC eine sprecherunabhängige Spracherkennung, bei der wir ohne Training und Personenbeschränkung einfach drauflosreden könnten, gerne auch mit mehreren Personen. Mitschriften von Telefonaten, Diskussionen und geistreichen Unterhaltungen (selbstverständlich nach vorheriger Ansage), ließen sich so leicht archivieren und rasch durchsuchen. Doch noch sind wir nicht soweit.
Zwar hat die Technik in den letzten 10 Jahren hier erstaunliche Fortschritte gemacht, doch noch immer bedarf der gesprochene Text der Nachbearbeitung. Das gilt, obwohl alle funktionierenden Diktiersysteme, die Sprache in Text wandeln, vorab trainiert werden müssen. Das heißt, vor der Transkription muss die Software den Sprecher und seine Ausprache erst einmal kennenlernen, um anschließend durchaus passable Texte zu schreiben.
Ein Blick zurück lehrt uns, dass dies nicht immer so war. Vor rund einem Dutzend Jahren teste ich Dragons Natural Speaking und IBM ViaVoice mit Heinrich Heines “Lorelei“. Das Ergebnis war nicht gerade textnah, wohl aber kreativ und insprierend: Natürliche Spracherkennungen entwickeln durchaus ihre dichterische Leistung, wenn auch unfreiwillig. Denn wenn auch dem Computer der Transfer von Laut in Schrift gelingt, der Inhalt bleibt okkult: Er weiß nicht, was soll es bedeuten.
“Ich weiß nicht Wasser des bedeutenden
daß ich so traurig in;”
Nicht traurig, eher heiter läßt der Rechner als ansehnliches Bächlein den Anfang der Loreley ab. Konkreter Poet der Nachdichtung war die Dragon NaturallySpeaking in der Version 2.0, die sich untrainiert, nicht jedoch untalentiert unseres Vortrags annahm. Inzwischen sind ist Natural Speaking übrigens bei der Version 10 angelangt.
Die andere Spracherkennung, die mir damals zur Verfügung stand, war die erste Version vom IBM ViaVoice, das 2003 in der Version 10 erschien, aber seit 2005 nicht mehr weiterentwickelt wird. ViaVoice hielt sich zunächst eng ans Original und schafft erst ab der dritten Zeile kreative Distanz zu Heines Text:
“ein mehr sehen aus alten Zeiten,
daß, wenn nicht aus dem Sinn.”
Werktreue im traditionellen Sinn kehrt in die diktierten Texte erst ein, wenn wir uns Zeit nehmen, die Software individuell einzustimmen. Nur wer auf diese Lernphase verzichtet, kommt in den Genuß, des freien poetisch Textflußes:
“die Luft ist kühl und ist. Gilt,
unruhig fließt der Freien;
der gibt für des Tages. Held
im abends Sonnenschein.”
Naturbetrachtungen aus der Maschine. Im elektrischen Licht von ViaVoice gewinnt die Lyrik beinahe adoleszente Züge:
“die schönste Jugend Krause zeigt
dort oben wunderbar;”
Da wäre mancher gerne dabei gewesen, mitten in der Daten Fülle, wenn die Spracherkennung im Fluß der Rede die Wörter ortet. Daß der Rechner dem Sprecher kein Verständnis entgegenbringen kann und der Sinn, den er gibt, analytisch ist, gibt dem berechneten Unsinn eine neue Dimension. So geht ViaVoice mit eigener Dynamik die nächsten Zeilen medienfreundlich an, um dann beinahe maßlos zu werden:
“Sie kennt es mit goldenen Kamera
und singt ein Lied der prallen;
das hat eine Wunder Sammer,
gewaltige Mengen und darlegen.”
Das hat eine wundersame, gewaltige Melodei, hätte wohl Heine geschrieben, ließe ihn die Spracherkennung noch zu Wort kommen. Doch der Computer ist unbeeindruckt von Rang und Namen, Stellung und Stand, weiß nichts vom Ruhm des Autors und der Situation des Sprechers, kennt weder Ziele noch Werte. Der Rechner kennt weder Alter noch Geschlecht, weder Eigenheiten oder noch Sprachfehler des Redners, kann ihn nicht sehen und nur so weit hören, wie es die Qualität der Soundkarte und des Mikrophons zuläßt. Unbeeinflußt von Sympathie und Geschmack entwickelt er sich zum gerechtesten Medium der Literatur:
“ich glaube die Quellen verschwinden”
Ja, es geht nur noch um die direkte Authentizität des schriftlichen Zeichens. Der Rechner entkoppelt seine literarische Innenwelt und bevölkert sie. So bleiben in ViaVoice
“am Ende Chef, Frauen,”
und – nomen est omen – in Natural Speaking
“Schäfer und Hahn;”
Nun das Idyll stürzte, als wir Hand anlegten und uns gemeinsam mit der Sprachsoftware den empfohlenen Trainingsmethoden unterwarfen. Nach gewissenhaftem Proben ereilte uns am Bildschirm in klassischer Textnähe der Erfolg der Übung. Sowohl IBMs ViaVoice als auch Dragons Natural Speaking brachten dann schon damals das Lied der Loreley beinahe fehlerfrei zu Datei.
Noch einmal schmunzeln läßt uns das Quentchen Naivität, mit dem ViaVoice nach der Vokabularerweiterung mit Heines Loreley fragt, ob der analysierte Text typisch sei für unsere Diktate. Wir schütteln bedauernd den Kopf und lassen Heine noch einmal in ViaVoices Stimme erklingen. Da heißt es am Ende:
“und das hat mit Ihrem Sinne
die Lore leid getan.”
Uns auch, denn den ersten Status kreativer Unschuld erlangen weder Spracherkennungen noch Sprechende je zurück.
Diese archivierte Erfahrung vor Augen, erstaunten wir, als wir vor anderthalb Jahren damit begannen, Spinvox zu testen. Sprecherunabhängig sollte der Dienst Nachrichten, die in durchaus reduzierter Sprachqualität übers Telefon auf dem Anrufbeantworter unserer Mobilmailbox landeten, in geschriebene Texte wandeln. Und es funktionierte so gut, dass wir an der technischen Errungenschaft zweifelten, spätesten als uns ein Kollege aus dem Ruhrpott den “Prolog im Himmel” aus Gothes Faust I auf den Anrufbeantworter zitierte. Spinvox transkribierte fehlerfrei:
Sie haben eine neue Voicemail von +49203586xxx
--------- "Die Sonne tönt nach alter Weise in Brudersphären Wettgesang und ihre vorgeschriebene Reise vollendet sie mit Donnergang. Ihr Anblick gibt den Engeln Stärke, wenn keiner sie ergründen mag, die unbegreiflich hohen Werke sind herrlich wie am ersten Tag. Ciaoui." - via SpinVox. ----------
Nachricht erhalten am Jan 23, 2008 7:08:01 PM

An diesen Text wäre spätestens beim “Brudersphären Wettgesang” so mancher orthografisch gescheitert. Lässliche Verfehlung ist daher, dass die “vorgeschriebene Reise” sich Original auf eine “vorgeschriebne” rhythmisch verkürzt. Wir wiederholten diesen Test im Laufe der Zeit mir manigfachen Texten und ganz normalen Nachrichten. Das Ergebnis überzeugte jedes Mal – abgesehen von kleinen Mißverstehern – und war’s dann schon. Wir konnten uns es nur so erklären, dass jemand handisch alles nachbearbeitet. Was die automatische Spracherkennung nicht versteht, wird von Mitarbeitern abgehört und eingetippt. Das hat sich nun bei der Spinnvox-Demo bestätigt, an der Milo Yiannopoulos teilnahm und in TechCrunch (UK) über sie berichtete. Sein Selbstversuch endete – wie er schreibt – beim menschlichen Nachbearbeiter:
Here’s where it got ugly. From observing the “tenzing” process in action, it was clear to us that the system had failed to pick up a single word in the message correctly. The agent in the room had to listen to and manually type the entire message, from beginning to end. SpinVox has previously claimed that agents do not get to hear entire voicemail messages; only enough to give context and enable transcription. That’s not what I saw this morning.
Da bleibt von der technischen Innovation nicht viel übrig. Der Dienstleistung tut dies keinen Abbruch, einmal abgesehen davon, dass auch vertrauliche Nachrichten nicht ungehört bleiben. Doch Abschreiben kann jeder. Vorausgesetzt er weiß, wie sich “Brudersphären Wettgesang” buchstabiert. Doch im Wettgesang der Spracherkenner hat Spinvox sein Solo verspielt. Hier bleibt mit gutem Willen höchstens noch Platz im begleitenden Chor. Statt innovativer Hightech ein solider Service. Schön und gut: Doch Konzert der IT-Konzerne geht Spinvox damit sang und klanglos unter. Oder, um abschließend noch die letzte Strophe von Heines “Lorelei” erklingen zu lassen:
“Ich glaube, die Wellen verschlingen
Am Ende Schiffer und Kahn;
Und das hat mit ihrem Singen
Die Lorelei getan.”




















[...] (Technik-Blog von Raymond Wiseman) [...]
Bitte mit richtiger E-Mail-Adresse posten.