Automatisierte Aufmerksamkeitserkennung

Am verräterischsten ist das Sprechen selbst

3. Dezember 2018, 17:00 Uhr | Universität Ulm
Nur freundlich oder auch aufmersam: Der Mensch erkennt den Unterschied aber kann das auch ein Computer?
© Pixabay

Der Mensch hat ein untrügliches Gespür dafür, ob sein Gegenüber ihm aufmerksam zuhört oder nicht. Denn seine Mimik und Gestik ist sehr aufschlussreich, zumindest für den Menschen. Forscher haben untersucht, mit welchen Merkmalen ein Computer die Aufmerksamkeit von Menschen am besten erfassen kann.

Die automatische Gefühlserkennung, im Englischen spricht man hier von Affective Computing, ist ein gleichermaßen innovatives und lukratives Tätigkeitsfeld der Informatik. Ob beim hochautomatisierten Fahren, in der Werbewirtschaft, der virtuellen Medizin – oder bei vielen anderen Anwendungen aus dem Bereich Mensch-Technik-Interaktion – werden bereits Programme eingesetzt, die mehr oder weniger gut in Lage sind, das menschliche Gefühlsleben zu analysieren. Dazu gehören nicht nur die Parameter der emotionalen Befindlichkeit, sondern auch die der Aufmerksamkeit und Anteilnahme.

»Wir haben nun untersucht, welche Merkmale und Methoden für den Computer am aufschlussreichsten sind, um herauszufinden, ob Menschen in einer Zuhörersituation aktiv involviert sind oder nicht«, erklärt Dmitrii Fedotov. Der Systemanalytiker promoviert bei Prof.  Wolfgang Minker am Institut für Communications Engineering der Universität Ulm. Für dieses Forschungsprojekt kooperierte Fedotov eng mit drei Moskauer Wissenschaftlerinnen der Firma Neurodata Lab. Das junge Unternehmen, mit Firmensitzen in Italien, der Schweiz, Russland und der USA – ist spezialisiert auf Fragen der Künstlichen Intelligenzforschung, des Affective Computing und Data Mining.

Für das Forschungsprojekt hat das Neurodata Lab einen riesigen Datenkorpus aus Videomaterial auf einer sogenannten EmotionMiner Plattform zusammengestellt. Szene für Szene wurde dafür systematisch »von Hand« gesichtet und nach bestimmten Kriterien charakterisiert. Welche Emotionen zeigen Sprecher und Zuhörer? Ist der Zuhörer aufmerksam oder unkonzentriert? Insgesamt wurden dabei mehr als 26 000 Filmfragmente aus 981 Videos verarbeitet. Die kurzen Filmsequenzen, die rund vier Sekunden lang sind, zeigen menschliche Kommunikationssituationen und stammen aus öffentlich zugänglichen Tonfilmaufnahmen von Gesprächen, Interviews, Debatten und Talkshow, die in englischer Sprache geführt wurden. Jede Videosequenz wurde dabei von zehn menschlichen Analysten untersucht. Rund 1500 Menschen waren an der Analyse beteiligt.

Neuronales Netzwerk mit mehr als 10.000 Gesichtern gefüttert

Und wozu der ganze Aufwand? »Man braucht diese von Menschen erhobenen Daten als Referenzdaten, um später herauszufinden, wie genau der Computer in der Lage ist, menschliche Gefühle und mentale Zustände zu erfassen«, erklärt Olga Perepelkina. Die Psychologin ist Chief Research Officer bei Neurodata Lab und war gemeinsam mit Evdokia Kazimirova und Maria Konstantinova an dem deutsch-russischen Gemeinschaftsprojekt beteiligt. Alle drei Wissenschaftlerinnen promovieren zudem an der Lomonosov Moscow State University (MSU) im Bereich Psychologie.

Die eigentliche Herausforderung besteht in der technischen Umsetzung für die automatische Emotions- beziehungsweise Aufmerksamkeitserfassung selbst. Wie bekommt man den Computer dazu, sich anhand des Videomaterials ein Bild davon zu machen, ob ein dort gezeigter Mensch ein aktiver Zuhörer oder eher unbeteiligt ist? Die Wissenschaftler benutzen hierfür das Begriffspaar Engagement - Disengagement, um das Ausmaß der mentalen Involvierung zu erfassen.

Für die automatische Aufmerksamkeitserkennung haben sich in den letzten Jahren mehrere Verfahren etabliert, um mimische und gestische Hinweise sowie Körperhaltungen zu erfassen. Vereinfacht ausgedrückt werden hier Lippen- oder Augenbewegungen untersucht sowie Gesichtsausdrücke oder die emotionale Färbung gesprochener Sprache (»Audio«-Faktor). Präziser gesagt geht es hier um den Einsatz von Software-Werkzeugen, die beispielsweise in der Lage sind, in Videosequenzen die Emotionen von Sprecher und Hörer automatisch zu analysieren. Oder es handelt sich um Algorithmen, die in der Lage sind, aus der Bewegung der Lippen die Wahrscheinlichkeit zu berechnen, mit der im nächsten Moment jemand zu sprechen beginnt. Allein für die Gesichtserkennung haben die Forscher ein neuronales Netzwerk mit den Bilddaten von mehr als 10.000 Gesichtern gefüttert.

»Wir wollten nun herausfinden, welche Kombination an Modalitäten bei der automatischen Aufmerksamkeitserfassung am effektivsten ist«, so Fedotov. Er hat dafür alle möglichen Zwei- und Dreifachkombinationen von fünf verschiedenen Erkennungsweisen (Augen, Lippen, Gesicht, Körper und Audio) statistisch kombiniert. Das Ergebnis: Am effektivsten im Verhältnis zum Aufwand erwies sich dabei die Zweierkombination aus »Lippen« und »Audio«. Gut 70 Prozent aller Fälle lassen sich damit richtig zuordnen; ein Ergebnis, das für die automatisierte Aufmerksamkeitserkennung richtig gut ist. (me)

 


Lesen Sie mehr zum Thema


Jetzt kostenfreie Newsletter bestellen!

Weitere Artikel zu Universität Ulm