Leben und Wissen: Computer, jetzt reden wir mal: Macht die Sprachsteuerung Maus und Tastatur überflüssig?

Facebook
WhatsApp
E-Mail
Drucken

Antje Müller, dpa

Captain Picard in der Kult-Serie „Star Trek“ hat ein ziemlich alltägliches Lieblingsgetränk. Er bestellt es jedoch auf eine trendige Weise. „Tee. Earl Grey. Heiß“, diese Worte richtet der Kommandant der „Enterprise“ nicht an ein Besatzungsmitglied, sondern an einen Computer. Was vor Jahren noch wie Science-Fiction erschien, wird für viele Menschen gerade Teil des Alltags: Reden ersetzt Tastatur, Maus und das Tippen auf Handy-Bildschirmen.

Einen Computer hat die Masse der Menschen in Form eines Smartphones fast immer dabei. Darin stecken – je nach Modell – der Google Assistant, Siri oder etwa Alexa. Diese sogenannten digitalen Assistenten können uns erzählen, wie viele Einwohner der Pazifikstaat Vanuatu hat (rund 260 000). Sie berichten, wie das Wetter heute wird (Regen oder Schneefall) und welcher Film (Jumanji und Star Wars) heute Abend im Kino läuft.

Einer der beliebtesten klugen Lautsprecher ist Alexa von Amazon. | Bild: Andrea Warnecke (dpa-tmn)

Sprache ist die Maus

Die Assistenten stecken aber nicht nur in Smartphones. Sie ziehen in Form von sogenannten Smart-Speakern, also klugen Lautsprechern, auch in Küchen, Wohn- und Schlafzimmer ein. In die Lautsprecher sind meist mehrere hochsensible Mikrofone eingebaut. Diese reagieren auf Schlüsselwörter, die jemand an sie richtet wie „Alexa“, „Okay Google“, „Hey Cortana“ und „Hey Siri“. Dann startet der Helfer. Der eigentliche Computer, der die Befehle verarbeitet, steckt aber nicht in den Lautsprechern. Er befindet sich in der Cloud, sprich in entfernten, über das Internet angesteuerten Rechenzentren.

Für die Nutzer heißt das: Die Hände bleiben frei. Das Eintippen von Anfragen und Begriffen in Suchmaschinen entfällt. Und oft auch das Lesen der Ergebnisse. Wir sprechen – sie antworten. „Wenn ich im Bett liege und vergessen habe, den Wecker zu stellen, kann ich einfach sagen: ‚Alexa, stelle den Wecker auf sieben Uhr.’ Und Alexa sagt: ‚Ok. Der Wecker ist auf sieben Uhr gestellt’“, so beschreibt Michael Wilmes, Pressesprecher bei Amazon, die Funktion der virtuellen Helferin seines Unternehmens.

Berührungsempfindlich: Lautstärke und Aktivierung kann man bei Google Home auch über die Fläche an der Oberseite steuern. | Bild: Franziska Gabbert/dpa-tmn

Alexa steckt in Amazon-Geräten wie Echo und Echo Dot. Auch beim Kochen und in der Freizeit hilft sie: Man kann bei einem Rezept fragen: „Wie viel Gramm Mehl kommen in den Teig?“ Oder bei Amazon online einkaufen – in einige Orten kann man sich sogar Lebensmittel liefern lassen. Auch Musik, Hörbücher und Nachrichten lassen sich über den Lautsprecher aufrufen. Ähnlich funktioniert Google Home. In dem Lautsprecher steckt der Google Assistant. Er liest auf Befehl die Nachrichten des Tages vor, spielt Musik vom Streamingdienst Spotify, zeigt Tanzvideos von Youtube auf dem Fernseher und stellt eine Eieruhr.

Google hat mit den Google Mini (hier im Bild) und dem Google Home Lautsprecher entwickelt, die über einen Sprachbefehl gesteuert werden ... — Google hat mit den Google Mini (hier im Bild) und dem Google Home Lautsprecher entwickelt, die über einen Sprachbefehl gesteuert werden können. | Bild: -/kyodo/dpa

Den Alltag bequemer machen

Ein weiteres Konkurrenzprodukt zu den bereits vorhandenen Smartspeakern (klugen Lautsprechern) soll 2018 auf den Markt kommen: der HomePod von Apple. Der iPhone-Hersteller positioniert sein Gerät eher als Alternative zur Stereo-Anlage. Der Lautsprecher klinge besonders gut, heißt es. Er hat mit Siri ein Sprachassistenz-System an Bord. All diese Teile sind keine Notwendigkeit, eher Spielerei.

Die Software erkennt Wörter, die sie gelernt hat, und verwandelt sie in Text, unter anderem mit Hilfe von Statistik: „Wenn ich sage ‚guten Morgen, meine Damen und ...’, dann kann man das nächste Wort vorhersagen“, sagt Nils Lenke, Forschungschef bei Nuance. Und die Software könne es auch. „Wenn ich aber sage ‚Guten Tag, Frau ...’, dann kann das einer von 100 000 Nachnamen in Deutschland sein.“ Ähnlich wie Menschen lernen Computer über Regeln, die ihnen der Mensch beigebracht hat. Sie analysieren Text und erkennen wiederkehrende Muster.

Schon seit einigen Jahren gibt es Sprachassistenten auf dem Smartphone, wie hier auf dem iPhone Siri. | Bild: Alexander Heinl/dpa

Kann ein Programm aus gesprochener Sprache einen Text formulieren, folgt der nächste Schritt: dem Satz eine Bedeutung zu geben. Die Systeme werden mit so vielen Beispielen gefüttert, dass sie lernen, den Text zu verstehen. Beginnt eine Frage mit dem Wort „Wie“, erkennt das System: Hier ist eine Beschreibung gefragt. Fragt jemand „Wie viele“, hat das System gelernt: Eine Zahl wird gesucht.

Text bekommt Bedeutung

Sprachsteuerung und maschinelles Lernen haben in den vergangenen Jahren enorme Fortschritte gemacht, berichtet Google-Manager Scott Huffman. Die Worterkennung funktioniert immer besser. Und die Geschwindigkeit beim Sprechen sei ein großer Vorteil gegenüber dem Eintippen. „Die Herausforderung ist, die Kommunikation so natürlich wie möglich zu gestalten“, sagt Huffman.

Assistenten können sogar über ein Kurzzeitgedächtnis verfügen. Ist beispielsweise eine Fahrt von München nach Hamburg geplant, kann man den Google Assistant fragen: „Wie lange brauche ich nach Hamburg?“ Er nutzt den aktuellen Standort, berechnet den Verkehr auf der Route und gibt die Antwort. Und er merkt sich, worum es geht und nimmt dieses Wissen mit in das folgende Gespräch. Lautet dann die zweite Frage „Wie ist das Wetter dort?“, gibt der Assistent die Vorhersage für die Stadt an der Elbe an. Das mag einfach klingen. Ist es aber nicht. Bis vor Kurzem hätte die zweite Frage noch „Wie ist das Wetter in Hamburg?“ lauten müssen. Mittlerweile erinnert sich der Assistent daran: Es geht um Hamburg. Ein Schritt hin zu einer natürlichen Kommunikation mit Maschinen.

Natürlich klingen mittlerweile auch die Stimmen – weil dahinter oft Menschen stecken. Um einen virtuellen Sprachassistenten zu bauen, der jedes Wort sagen kann, muss die Software weiter mit Wörtern gefüttert werden. Dazu stehen Sprecher Hunderte von Stunden in Tonstudios und nehmen oft zusammenhanglose Sätze in verschiedenen Stimmungen auf: fröhlich, ernst, neutral, fragend. Die synthetische Stimme kann dann später Beliebiges sagen – und es klingt wie ein Mensch.

Grenzen der künstlichen Intelligenz

Doch so gut die Stimmen sind, und so gut maschinelles Lernen funktioniert: Es existieren Grenzen, sagt Dietrich Klakow. Er ist Professor für Sprach- und Signalverarbeitung an der Universität des Saarlandes. Probleme gebe es „dort, wo es keine Trainingsdaten gibt, wo Menschen sich nicht sicher sind, ob die Antwort dieses oder jenes ist“. Ironie ist so ein Bereich – und Humor. Auch Fragen nach dem „Warum“ sind von Maschinen bisher schwer zu beantworten. „Alles wo man Beispiele geben kann und wo Menschen unzweifelhaft sagen, das wäre die richtige Antwort, da funktioniert es“, erläutert Klakow. Eins plus eins ist zwei. Das kann der Computer. Bei der Frage „warum ist die Banane krumm“ wird es schon schwieriger.

Mit den Assistenten dringt auch die künstliche Intelligenz in immer mehr Bereiche unseres Lebens vor. Deshalb mahnen Experten, man müsse die Risiken im Blick haben: So haben manche Menschen Angst davor, von Alexa & Co. ungewollt belauscht zu werden.

Bild 5: Computer, jetzt reden wir mal: Macht die Sprachsteuerung Maus und Tastatur überflüssig?

Die Anbieter betonen zwar, dass die Systeme nicht rund um die Uhr Gespräche aufzeichnen, sondern nur auf die Eingabe des Schlüsselwortes warten. Aber es kann Pannen geben. So horchte der Lautsprecher Google Home Mini ungewollt auf. Grund war ein Fehler: Die Aufnahme sollte zusätzlich zum Sprachbefehl „Okay Google“ auch per Fingerdruck auf das Gehäuse aktiviert werden können. Wegen eines Defekts registrierten einige Geräte eine Berührung, wenn es keine gab. Die Funktion wurde deaktiviert.

Und selbst wenn Lautsprecher und Smartphone-Systeme wie vorgesehen laufen, tun sich Datenschutz-Probleme auf. Bei führenden Sprachassistenten werden die Eingaben auf Servern der US-Anbieter verarbeitet und zum Teil sehr lange gespeichert. Bei Google und Amazon kann der Nutzer sich die Liste der Sprachaufzeichnungen anschauen und bei Bedarf einzeln löschen.

Der Direktor des Hasso-Plattner-Instituts in Potsdam, Christoph Meinel, sagt: „Alle Segnungen, die IT bringt, haben ihren Preis.“ Früher habe es eine Verletzung der Privatsphäre bedeutet, wenn man ausspionierte, wo jemand ist und was er gerade tut. Heute teilen viele ihren Standort den Anbietern verschiedener Apps einfach sorgenfrei mit. Nutzt man Sprachsteuerung, kommen viele weitere Daten hinzu, „die da herumschwirren und von denen man nicht weiß, wer darauf Zugriff hat“. Wie die Gesellschaft damit umgehe, werde sich in einem langen Prozess zeigen müssen, sagt Meinel.

Alexa zum Testen

Die Sprachassistenten Google Assistant oder Amazon Alexa stecken in immer mehr Lautsprechern auf dem Markt. Wer sich für solch ein Gerät interessiert, sich aber nicht sicher ist, ob ihm die Möglichkeiten der Sprachsteuerung zusagen oder ausreichen, kann zumindest Alexa vorab einfach und ohne Ausgaben testen.

Dies funktioniert mit einem angeschlossenen, funktionsfähigen Mikrofon an jedem Rechner mit dem "Alexa Skill Testing Tool", das über die Webseite https://echosim.io/welcome einfach zu erreichen ist. Voraussetzung zum Ausprobieren ist – wie bei der regulären Alexa-Nutzung auch – ein Amazon-Konto.

Ein Testlauf lässt sich aber auch auf Smartphones starten. Dazu kann man zum Beispiel die App "Reverb for Amazon Alexa" installieren – wahlweise auf Android- oder iOS-Mobilgeräten. Danach muss man sich ebenfalls bei Amazon anmelden und ausprobieren.

Die offizielle Alexa-App von Amazon dagegen taugt nicht zum Testen. Sie ist nur für die Einrichtung, Fernsteuerung und die Nutzung von erweiterten Funktionen von schon vorhandener Alexa-Hardware gedacht. (dpa)

Zur Startseite