Premiere: Spracherkennung der Adobe Creative Suite 4 mit Premiere Pro und Soundbooth
von Raymond Wiseman
Wer etwas zu sagen hat, schreibt es besser auf. Ansonsten lässt es sich im Web nicht finden. Und welches Recherchemedium vermag den Internet-Suchmaschinen heute noch den Rang abzulaufen? Das große Manko bleibt: Audioaufzeichnungen, Bilder, Videos lassen sich über Suchbegriffe nur entdecken, wenn die Medien zuvor schriftlich kommentiert wurden. Multimediale Inhalte ergründen die Suchmaschinen nämlich nicht. Voraussetzung für den Sucherfolg ist also, dass Stichwörter angegeben werden, über die Google und Konsorten die Medien finden und einordnen können. Somit ist die Veröffentlichung von Medien, die nicht in Textform vorliegen, eine arbeitsintensive Tätigkeit.
Wie viel einfacher wäre es zumindest für Redebeiträge, wenn sie per Spracherkennung die Schlüsselwörter, besser aber noch der gesamte gesprochene Text in Schrift umgesetzt würde. Dies ersparte einerseits viel Arbeit beim Veröffentlichen und ließe andererseits im Internet einen besseren, gezielten Zugriff auf Sound- und Videodokumente zu. Wie es funktionieren kann, hat Google bereits zur Wahl in den Vereinigten Staaten mit seiner “Election Video Search” gezeigt. Hier konnte der Interessent über Stichwörter gezielt suchen, was die Kandidaten zu sagen hatten und mehr noch, die relevante Stelle ließ sich zeitsparend direkt im Video anspringen.
Adobe stellt zur Zeit für die Transkribierung Sprachanalysemodelle in Deutsch, Englisch, Französisch, Italienisch Spanisch, Japanisch und Koreanisch zur Verfügung. Im Lauf der Zeit sollen auch Spezialwörterbücher für bestimmte Themen und Berufsgruppen folgen. Eine qualitative gute Ausgangsbasis soll bereits mit Klangdateien gegeben sein, die dem MP3-Format (128 kbit/s, besser 192 kbit/s) entsprechen. Entscheidender sind aber die Nebengeräusche und der Duktus des Sprechers, ob es sich also um eine lockere Unterhaltung, ein Interview oder einen abgelesenen, professionell gesprochenen Text handelt. Während bei guten Material eine vollständige Transkription möglich ist und sogar der Sprecherwechsel dokumentiert wird, soll bei schlechterer Sprachqualität zumindest die Erkennung von Schlüsselbegriffen gewährleistet sein.
Was bei Google bislang eine einmalige Aktivität darstellte, hat Adobe nun in seinen Produkten Premiere Pro und Soundbooth implementiert. Auf der Basis der sprecherunabhängigen Spracherkennung von Autonomy – gegründet 1996 in Cambridge – wandelt Adobe Inhalte digitalisierter Filme in Text und fügt ihn den Metadaten der Medien bei. So gespeicherte Medien lassen sich von den Suchmaschinen auffinden. Das schafft die Voraussetzung, bei den Suchergebnissen auch Links zu inhaltlich passenden Flash-Medien anzubieten. Nicht möglich ist allerdings von der Seite der Suchmaschine bislang der direkte Ansprung der gesuchten Stelle. Diesen Service anzubieten obliegt nach wie vor dem Anbieter des Videos auf seiner Seite. So wird diese nützliche Zusatzfunktion zur Zeit auch noch nicht von Videoportalen wie YouTube unterstützt.
Vorteile bieten die Spracherkennungsfunktionen nicht nur beim Einsatz von Medien im Internet, sondern auch bei der Nachbearbeitung von Videos, beispielsweise beim Video-Schnitt. Hier wird es dank des Textprotokolls einfach auch in umfangreichem Filmmaterial, bestimmte Passagen anzuspringen, gezielt zu markieren und zu schneiden. Hierbei ist auch die Korrektur des transkribierten Materials möglich. Momentan beschränkt sich die Sprache-zu-Text-Wandlung auf die CS4-Versionen von Premiere Pro und Soundbooth beschränkt, beide Bestandteil der Adobe Creative Suite 4 Production Premium. Für die reine Wiedergabe der produzierten Medien steht der aktuelle, kostenfreie Adobe Flash Player 10 zur Verfügung.
Ich hatte die Chance mit Adobe über die Zukunft der Spracherkennung in Ihren Produkten zu sprechen. Hierbei konnte ich einige Perspektiven ansprechen. Noch offen ist zur Zeit, ob Adobe für die Spracherkennung im Rahmen ihrer Internetservices Angebote machen wird, die auch abseits der Vollprodukte den punktuellen Einsatz der Transkriptionstechnik ermöglicht. Sollte diese Option realisiert werden, wäre folgendes Szenario denkbar: Ich produziere beispielsweise mit Adobe Premiere Elements ein Flash-Video. Dann extrahiere ich die Tonspur und übertrage sie an den Online-Service. Der versieht sie mit einer Textspur, die ich dann wieder ins Video importiere. Noch allerdings ist solch eine Dienstleistung, die unter acrobat.com in Adobes wachsendes Online-Portfolio passen würde, weder spruchreif noch aktuell als konkretes Produkt geplant. Zumindest denkbar aber sei diese Entwicklung, bestätige Giles Baker, Senior Group Product Manager für Digital Video, in unserem Gespräch.




















bei MP3s heisst es nicht “128-Bit”, sondern “128 kbit/s” oder “128 kbps” oder umgangssprachlich “128k”.
Das ist ne Bitrate, eine Geschwindigkeit.
Danke für den Hinweis. Ich habe es im Text korrigiert.