Audiotranskription mit der Google Cloud Speech

Wie schon mal erwähnt, mache ich auch einen Podcast. Schon von Anfang an gibt es den Wunsch bei mir, die Interviews und Texte auch zu verschriftlichen. Die bis zu 2-stündigen Interviews abzutippen ist allerdings eine Aufgabe, die ich bisher gemieden habe. Aber eigentlich gibt es dafür ja auch Sprachdienste. Einer von den Diensten ist Google: die Cloud Speech. Ich habe ausprobiert, ob er so funktioniert, wie ich es mir vorstelle.

Vorweg: dieser Artikel stammt aus dem Februar 2018. Wenn Du ihn also deutlich später liest, kann sich da schon wieder einiges getan haben.

Die Nutzung der API ist relativ einfach und kann mit verschiedenen Skript-Sprachen realisiert werden. Beispielcodes liegen auf Github und sind auch in der Dokumentation von Google zu finden. Letztlich dient die Skriptsprache nur dazu, das Audio mit den entsprechenden Parametern an den Server zu schicken und dann die Textantwort zu erhalten. Ich habe zum Test eine Folge aus dem Podcast genommen: Folge 21 – Olga Witt – Unverpackt.

Die Anforderungen an die Transkription sind hoch

Mein Wunsch war, dass möglichst viel mit wenig Aufwand dabei rum kommt. Im Idealfall werden also wechselnde Stimmen erkannt, Grammatik und Rechtschreibung sind sauber und die Formatierug passt einigermaßen. Das folgende Bild zeigt dann schon sehr gut, wie nah diese Vorstellung mit der Realität übereinstimmte:

Strukturell ist das Ergebnis, das von Google kommt, immer in Abschnitte aufgeteilt, die wechseln zwischen der Transkription und dem Wert der "Confindence", also dem Wert, der angibt, wie sicher sich der Dienst mit dem Ergebnis ist, also in dem Beispiel im Bild oben: 96%.

100% habe ich zum Glück nicht erwartet und es wäre sicher auch vermessen zu glauben, dass ein System die Sprache immer korrekt erkennt. Entsprechend finde ich 96% schon sehr gut. Trotzdem wird aber auch deutlich, welche Probleme es noch gibt:
* Gefühlt gibt es relativ viele Wörter, die falsch erkannt werden, zum Beispiel: "feste" statt fester (1. Zeile oben).
* Fehlende Zeichensetzung, die es anstrengend macht, das Transkribierte zu lesen, zum Beispiel die Aufzählung in der ersten Zeile.
* Entsprechend werden Sprechpausen nicht angezeigt, zum Beispiel durch Doppelpunkt, Gedankenstrich oder ähnlichem. Im Beispiel oben in der ersten Zeile direkt hinter "Müll".
* Verschiedene Sprecher werden nicht deutlich gemacht. Das ist gerade in einem Interviewpodcast wichtig, um zu erkennen, wer hier eigentlich was sagt. So ist das für den Leser schwer auseinaner zuhalten.

2. Versuch der Transkription

Diesmal eine Folge, die zum Zeitpunkt des Artikels noch nicht online ist (wird nachgereicht). Es geht dabei um den Onlinekäsevsersand. Es liest sich insgesamt schon mal etwas besser:

Das sieht schon etwas besser aus. Dinge, die das Programm noch nicht beherrscht, sind hier natürlich auch wieder auffallend (keine Stimmtrennung, fehlende Satzzeichen, zusammenhängende Wörter werden nicht erkannt), dafür scheint die Worterkennenung nun besser zu sein. Aber auch hier gibt es interessante Nebenerscheinungen. So tut sich die Software zum Beispiel schwer damit, Wörter aus einer anderen Sprache richtig zu beschreiben. Zum Beispiel der Käse "Comté" wird übersetzt mit ".com Theo". Der ganze Satz sieht dann so aus:

vermitteln gar nicht mehr ja ich erwarte ich heute und mittelalten Gouda mitgebracht eine 12-monatige reifen.com Theo und einen klassischen Camembert

Übersetzung von Audio in Text aus einer Podcastfolge von Ausgang Podcast. Es handelt sich um die Aufzählung von drei Käsesorten.

Der aktuelle Stand – das kleine Fazit

Da ist noch einiges an Verbesserungspotential vorhanden, um die Spracherkennung exakter zu machen und das Ergebnis einfacher und verwendbarer zu machen. In dem aktuellen Status halte ich sie noch nicht mal im Ansatz das Ergebnis so für verwendbar, dass ich es den Hörern des Podcasts als Service anbiete. Die Verständlichkeit ist leider noch zu gering.

Es klingt insgesamt sehr negativ, man sollte aber sagen, dass die Erkennung ansonsten grundsätzlich wirklich gut ist. Viele Worte werden erkannt und aufgeschrieben. Einzig eben die Satzzusammenstellungen und die Gramatik sind einfach noch Verbesserungswürdig, damit es im Ansatz wirklich nachvollziehbar lesbar ist. Das sollte auf absehbare Zeit keine unlösbare Aufgabe sein.

Disclaimer: Die API bietet auch die Möglichkeit, Alternativvorschläge anzuzeigen, die es auch sein könnten und dann die bessere Variante auszuwählen. Allerdings ist das gerad für solche Textlängen auch wenig sinnvoll. Es ist in meinen Augen für meinen Zweck, das transkribieren von Podcasts, zur Zeit noch nicht ohne Nachbearbeitung geeignet.