Audioformat: welches benötigen Google Assistant und Alexa?

Sebastian

vor 7 Jahren

Ein Foto von der Verpackung von Amazons Echo Dot und dem Echo Dot selbst.

Wer für Alexa und Google Assistant eigene Skills oder Actions schriebt, möchte früher oder später auch Audiodateien in die Anwendungen einbauen. Aber es gibt einige Kriterien rund um das Audioformat, die dabei zu erfüllen sind. Nachfolgende Tabelle soll diese zusammenfassen und auch gegenüberstellen. Denn die beiden Dienste verhalten sich hier doch recht unterschiedlich.

Die nachfolgende Tabelle erhebt natürlich keinen Anspruch auf Vollständigkeit und kann nur den Stand von heute widerspiegeln. Evtl. hat sich zwischenzeitlich etwas geändert, sollte aber eine sehr gute Orientierung bieten. (Stand: 22.09.2018)

Das Audioformat für Amazon Echo und Google-Assistant (mp3, Opus, WAV)

	Amazon Echo / Alexa	Google Assistant / Google Home
Protokoll	nur https	nur https
Encoder	mp3	mp3, WAV, Opus in Ogg-Vorbis
kbps	konstante Bitrate bei 48 kbps, 16000 Hz	mp3 und Opus: konstante Bitrate bei 24-96 kbps, WAV 16 Bit, 24 k samples per second
maximale Audiolänge	90 Sekunden	120 Sekunden
Mono / Stereo	mono	mono bevorzugt, stereo aber möglich
maximale Dateigröße	nicht notwendig, da festes Dateiformate und maximale Zeit.	5 MB

Gerade Amazon Echo hat hier sehr starke Beschränkungen, was das Audioformat angeht. Man hört es zum Teil auch deutlich und ich empfinde das wirklich als nicht schön.

Google bietet an, Opus-Dateien einzubinden. Diese sind deswegen interessant, weil dieses Audioformat bei starker Kompression trotzem eine gute Klangqualität anbietet. Deswegen ist es durchaus zu empfehlen, es in Betracht zu ziehen.

Unabhängig vom Ausspielen von längeren Audios

Was hier nicht berücksichtigt wird, ist das Abspielen von zum Beispiel Podcasts. Bei diesen Dateien geht es nur um die Antwort in der direkten Interaktion mit dem Benutzer. Längere Audiodateien wir zum Beispiel Podcasts werden bei beiden Geräten über die Player bzw. Audio-Engine des Geräts abgespielt und sind deswegen von der Längenbeschränkung ausgenommen, ermöglichen aber auch keine Interaktion.

Wie geht es euch? Ist das Audioformat für euch ausreichend oder würdet ihr euch hier auch eine Anpassung an ein besseres Audioformat wünschen?