"Akustischer Schwarm" liefert klaren Sound in lauter Umgebung

Roboter-Mikrofone erkennen selbständig Sprecher und können Teile des Raums stummschalten. Ist ihre Arbeit getan, fahren sie brav in ihre Ladestation zurück.

In Pocket speichern vorlesen Druckansicht 14 Kommentare lesen
Audioroboter

Die Roboter aus der Draufsicht.

(Bild: Paul G. Allen School)

Lesezeit: 3 Min.
Von
  • Eike Kühl

Dass in der Einführung einer wissenschaftlichen Arbeit der Science-Fiction-Klassiker "Dune" und die Animationsserie "Rick and Morty" erwähnt werden, ist ungewöhnlich. Im Fall einer neuen Studie, die im Fachjournal Nature Communications erschienen ist, hat das aber gute Gründe: In den beiden genannten Werken wird nämlich eine Technologie erwähnt, die es ermöglicht, verschiedene Sprecher in einem Raum akustisch hervorzuheben oder "stumm" zu schalten. Zumindest ansatzweise ist das einem Forscherteam der University of Washington gelungen – mithilfe eines "akustischen Schwarms".

Dieser Schwarm besteht aus sieben kleinen Mikrofonen, die jeweils nur wenige Zentimeter groß sind. Sie können Sprecherinnen und Sprecher in einem Raum wahrnehmen und anhand dieser Informationen sogenannte Sprach- und Stummzonen einrichten. Damit ist es beispielsweise möglich, in einer lauten Umgebung wie einem öffentlichen Café ein einzelnes Gespräch zur aktiven Sprachzone zu machen, indem man alle anderen Hintergrundgeräusche ausblendet.

Das Besondere: Jedes der Mini-Mikrofone ist ein kleiner Roboter, der sich selbstständig auf einem Tisch bewegen kann. Wie eine Flotte kleiner Staubsaugerroboter schwärmen die Mikrofone aus ihrer Ladestation aus. Mithilfe elektroakustischer Signale erkennen sie Objekte wie Kaffeetassen und Tischkanten und kommunizieren gleichzeitig ihre Position untereinander. Identifizieren sie einen oder mehrere Sprecher, richten sie sich dementsprechend aus. Sie können die Sprechenden anschließend sogar verfolgen, wenn diese sich in der Umgebung bewegen, um etwa den Platz zu wechseln. Ist der Akku leer oder die Aufnahme beendet, fahren die Mikrofone von selbst wieder in die Ladestation zurück.

"Zum ersten Mal sind wir mit einem akustischen Roboterschwarm in der Lage, die Positionen mehrerer Personen zu verfolgen, die in einem Raum sprechen, und ihre Sprache zu trennen", sagt der an der Entwicklung beteiligte Doktorand Malek Itani.

Das Team hat die Roboter in Büros, Wohnzimmern und Küchen mit Gruppen von drei bis fünf Sprechern getestet. In 90 Prozent der Fälle konnte der Schwarm verschiedene Stimmen innerhalb eines Abstands von 50 Zentimetern voneinander erkennen. Um die Stimmen zu identifizieren und voneinander zu trennen, kommt ein neuronales Netzwerk zum Einsatz. Es erkennt, mit welcher Verzögerung die akustischen Signale ankommen und bestimmt anhand dessen, wo sich die Sprechenden im Raum befinden.

Empfohlener redaktioneller Inhalt

Mit Ihrer Zustimmmung wird hier ein externes Video (Kaltura Inc.) geladen.

Ich bin damit einverstanden, dass mir externe Inhalte angezeigt werden. Damit können personenbezogene Daten an Drittplattformen (Kaltura Inc.) übermittelt werden. Mehr dazu in unserer Datenschutzerklärung.

Das funktioniert derzeit noch mit einer Verzögerung von knapp zwei Sekunden, weshalb der akustische Schwarm sich nur bedingt für Videokonferenzen eignet. Mögliche Anwendungsmöglichkeiten sehen die Forscherinnen und Forscher bei Live-Übertragungen aus einer lauten Umgebung sowie im Smart Home: Hier könnten neuartige Smart Speaker mithilfe der Technologie die Wohnung in verschiedene Sprach- und Stummzonen einteilen und dadurch etwa ermöglichen, dass nur diejenige das Fernsehprogramm per Sprachbefehl ändern kann, die gerade auf der Couch sitzt.

Die Verantwortlichen sind sich bewusst, dass selbstfahrende Mikrofone auf Rädern gewisse Überwachungsfantasien wecken könnten. Tatsächlich könne die Technologie aber auch die Privatsphäre schützen, sagt Malek Itani: Man könnte dem System etwa gezielt verbieten, jegliche Gespräche rund um einen Schreibtisch herum aufzunehmen. Anders als bei aktuellen Smart Speakern, die ständig nach Aktivierungswörtern lauschen, würde nichts in dieser Blase aufgezeichnet werden.

(bsc)