Future of Voice

Wie funktionieren Smart Speaker?

Stand: 10.5.2022, 18:23 Uhr

Ein Blick nach draußen zeigt grauen Himmel und Wolken. „Alexa, brauche ich heute einen Regenschirm?“. Ein paar Sekunden später kommt die Antwort: „In Mainz wird es voraussichtlich ab 16 Uhr bis in den späten Abend regnen.“
Egal, ob die Frage nach dem Wetter, dem aktuellen Weltgeschehen oder der Aufforderung einen bestimmten Radiosender abzuspielen – Smart Speaker wissen immer die passende Antwort und führen die richtige Aktion aus. Wie funktioniert das eigentlich?

Der Unterschied zwischen Smart Speakern und digitalen Sprachassistenten

Smart Speaker bedeutet wörtlich übersetzt ‘intelligenter Lautsprecher’ – also ein Lautsprecher, der mittels WLAN mit dem Internet verbunden ist und mit der Sprache gesteuert werden kann. Die eigentliche Arbeit wird aber gar nicht vom Smart Speaker erledigt, sondern vom Sprachassistenten, der integrierten Software. Also beispielsweise von Alexa, Siri, Bixby, oder dem Google Assistant. Der Smart Speaker ist sozusagen der Körper und der Sprachassistent das Gehirn. Obwohl jedes intelligente Lautsprechersystem etwas anders funktioniert, ist es möglich, die grundlegenden Konzepte leicht zu verallgemeinern.

Hören Smart Speaker immer zu?

Die intelligenten Lautsprecher besitzen mehrere Mikrofone, die meistens im 360-Grad-Radius angeordnet sind und auf das jeweilige Aktivierungswort warten. Sobald das jeweilige Aktivierungswort, wie ‘Alexa’, ‘Hey Google’ oder ‘Hey Siri’ fällt, werden die Smart Speaker aktiv und zeichnen das Audiosignal – also das gesprochene Wort- auf. Das Aufgenommene wird als Audio-Datei über das Internet an die Sprachassistenten-Software in die Cloud des jeweiligen Herstellers geschickt. Ab diesem Zeitpunkt befindet sich die Aufnahme nicht mehr auf dem Smart Speaker, sondern liegt im Rechenzentrum des jeweiligen Anbieters. Das ist notwendig, weil die kleinen Geräte nicht genug Rechenkapazität besitzen, um die Aufnahmen lokal zu verarbeiten.

Eines der Probleme, das viele Menschen bei der Verwendung von intelligenten Lautsprechern fürchten, ist die Datensicherheit. Mehr zu dem Thema gibt’s in diesem Artikel.

Wie funktionieren Sprachassistenten?

Da Sprachassistenten menschliche Sprache nicht verstehen, muss die Audio-Datei in mehreren Schritten in Computersprache umgewandelt werden. Zuerst wird das Audio-Signal in Text umgewandelt. Dieses Verfahren nennt sich „Automatic Speech Recognition“ (ASR) oder auch „Speech To Text“ (STT).

Wie verstehen Sprachassistenten unsere Sprache?

Der Sprachassistent hat jetzt Wort für Wort vorliegen was wir gesagt haben, aber weiß noch nicht, was damit gemeint ist. Im nächsten Schritt muss dem Gesagten also eine Bedeutung zugeordnet werden. Hier kommt das sogenannte Natural Language Understanding (NLU) zum Einsatz. Vereinfacht ausgedrückt handelt es sich um eine KI (künstliche Intelligenz), die den Text analysiert und daraus die Satzbedeutung ableitet.

Das Sprachmodell wird mithilfe von Daten trainiert und versteht mit der Zeit immer besser, was mit einem bestimmten Satz gemeint ist. Dadurch versteht der Sprachassistent, dass die Fragen „Wie ist das Wetter“ oder „Brauche ich einen Regenschirm?“ auf dieselbe Antwort abzielen – das Wetter.

Woher haben Sprachassistenten ihr Wissen?

Nachdem das Audio in Text umgewandelt und analysiert wurde, fehlt nur noch die passende Antwort. In unserem Fall greift der Sprachassistent auf eine Wetter-Datenbank zu und ruft die aktuellen Daten ab. Nachdem der Sprachassistent die gesuchte Antwort abgerufen hat, wird eine Antwort in Textform erstellt.

So antworten Smart Speaker

Damit wir eine Antwort von unserem Smart Speaker erhalten, muss der Text wieder in Sprache umgewandelt werden. Das übernimmt die Text-to-speech Komponente (TTS). Der geschriebene Satz wird mittels TTS wieder in ein Audiosignal umgewandelt und zurück an unseren Smart Speaker geschickt, der uns verrät, dass das Wetter in Mainz heute regnerisch wird und wir einen Regenschirm brauchen.

Wie kommt die Sprache in den Sprachassistenten?

Gar nicht so kompliziert, oder? Den ganzen Prozess erklärt Ihnen Ralph von der Sendung mit der Maus nochmal ausführlich in einem Video.

Megatrend Smart Speaker

Jetzt wissen Sie im Wesentlichen, wie Smart Speaker funktionieren. Die Technologie der intelligenten Lautsprecher entwickelt sich rasant weiter. Laut einer Befragung von OMD Germany ist bereits in 33 % der deutschen Haushalte mindestens ein intelligenter Lautsprecher vorhanden. Dank besserer Mikrofone und Algorithmen zur Audioverarbeitung wird die Anzahl in den nächsten Jahren vermutlich deutlich steigen und es werden zahlreiche neue Funktionen dazukommen.