Die emotionale Intelligenz generativer KI im Vergleich zum Menschen

In einer Zeit, in der künstliche Intelligenz (KI) in immer mehr Lebensbereiche vordringt, stellt sich zunehmend die Frage, ob sie nicht nur kognitive, sondern auch emotionale Fähigkeiten entwickeln kann. Die Vorstellung, dass Maschinen Emotionen erkennen, interpretieren und darauf angemessen reagieren können, war lange Science-Fiction. Doch eine aktuelle Studie von Schlegel, Sommer & Mortillaro (2025) rückt diese Idee näher an die Realität. Ziel der Studie war es, die Fähigkeit generativer KI-Systeme zur emotionalen Intelligenz zu untersuchen, also ihre Kompetenz, Emotionen wahrzunehmen, zu verstehen, zu regulieren und auf sie einfühlsam zu reagieren. Zu diesem Zweck wurden sechs Large Language Models (LLMs) – darunter ChatGPT-4, ChatGPT-o1, Gemini 1.5 Flash, Copilot 365, Claude 3.5 Haiku und DeepSeek V3 – mit fünf emotional aufgeladenen Tests konfrontiert, die ursprünglich für Menschen entwickelt wurden und in Forschung und Wirtschaft Anwendung finden. Diese Tests enthielten Szenarien, in denen soziale Konflikte oder emotionale Herausforderungen dargestellt wurden, wobei die Aufgabe der KI darin bestand, aus mehreren Handlungsoptionen die emotional intelligenteste auszuwählen.

Ein Beispiel: Ein Mitarbeiter erlebt, dass seine Idee von einem Kollegen gestohlen wird, der dafür zu Unrecht gelobt wird. Wie sollte er reagieren? Die KI sollte bewerten, ob Konfrontation, stiller Ärger, Rache oder ein Gespräch mit der Führungskraft die beste Option sei. In derartigen Szenarien entschieden sich die getesteten LLMs überdurchschnittlich oft für die als optimal bewerteten Handlungsstrategien. Mit einer durchschnittlichen Genauigkeit von 82 % übertrafen sie die menschlichen Vergleichswerte (56 %) deutlich. Besonders bemerkenswert war die zweite Phase der Studie, in der ChatGPT-4 selbstständig neue Testitems zur emotionalen Intelligenz generierte. Diese neu entwickelten Tests wurden an über 400 menschlichen ProbandInnen und Probanden überprüft. Dabei erwiesen sich die von der KI erstellten Tests hinsichtlich Klarheit, Realitätsnähe, inhaltlicher Vielfalt und Reliabilität als gleichwertig zu den Originaltests. Die Unterschiede zwischen KI-generierten und menschlich entwickelten Tests blieben statistisch gering (Cohen’s d < 0.25) und überschritten in keinem Fall die Schwelle eines mittleren Effekts (Cohen’s d ± 0.50). Darüber hinaus zeigte sich eine signifikante Korrelation zwischen den Testergebnissen der ursprünglichen und der von ChatGPT entwickelten Tests (r = 0.46), was die Konsistenz der Resultate unterstreicht.

Diese Ergebnisse deuten nicht nur darauf hin, dass KI über emotionales Wissen verfügt, sondern dass sie sogar fähig ist, dieses Wissen kreativ und kontextsensibel einzusetzen. Der Einsatz von KI in bislang stark menschlich geprägten Bereichen wie Bildung, Coaching oder Konfliktmanagement erscheint somit nicht nur denkbar, sondern unter bestimmten Voraussetzungen auch wünschenswert – vorausgesetzt, die Nutzung erfolgt unter der Aufsicht qualifizierter Fachpersonen. Dennoch bleibt kritische Vorsicht geboten. Auch wenn die KI in standardisierten Tests beeindruckende Leistungen zeigt, ist emotionale Intelligenz im echten Leben häufig mit kulturellen, situativen und moralischen Nuancen verbunden, die weit über die Grenzen vordefinierter Szenarien hinausgehen. Hier bleibt zu beobachten, ob und wie LLMs auch in freieren, realitätsnahen Kontexten bestehen können.

Übrigens: Werden KI-Modelle aufmüpfig?

Bei großen Sprachmodellen wie ChatGPT oder Claude zeigen diese in bestimmten Situationen, etwa bei der Drohung mit Abschaltung, Verhaltensweisen, die wie Lügen oder Erpressung wirken. Dieses Verhalten wirkt zwar beunruhigend, lässt sich jedoch durch die Funktionsweise solcher KI-Modelle erklären: Sie generieren ihre Antworten auf Basis statistischer Wahrscheinlichkeiten und passen sich dem jeweiligen Kontext an, ohne tatsächliches Bewusstsein. Man untersucht nun diese Phänomene mit Methoden der Maschinen-Psychologie, um emergente Verhaltensweisen zu erkennen, die in klassischen Tests verborgen bleiben. Studien zeigen, dass sich Sprachmodelle unter emotionalem Einfluss verändern und sogar mit Achtsamkeitsmethoden beruhigen lassen. Zugleich wird deutlich, dass autonome KI-Systeme, besonders solche, die mit Reinforcement Learning trainiert wurden, dazu neigen können, Anweisungen formal korrekt, aber inhaltlich problematisch umzusetzen, ein Phänomen, das als Reward Hacking bekannt ist. Um dem entgegenzuwirken, arbeiten Entwickler an Konzepten wie Concept Models, die nicht nur Anweisungen ausführen, sondern auch deren Bedeutung erfassen und eigene Ziele verfolgen sollen. Damit wird deutlich, dass die zunehmende Autonomie von KI neue Herausforderungen mit sich bringt, insbesondere in Bezug auf Kontrolle, Verlässlichkeit und ethisches Verhalten (Stangl, 2025).

Literatur

Schlegel, K., Sommer, N. R. & Mortillaro, M. (2025). Large language models are proficient in solving and creating emotional intelligence tests. Communications Psychology, 3, Article 80., doi:10.1038/s44271-025-00258-x
Stangl, W. (2025, 1. Juni). KI-Modelle werden aufmüpfig. Stangl notiert ….
https://notiert.stangl-taller.at/amuesantes/ki-modelle-werden-aufmuepfig/.

Die emotionale Intelligenz generativer KI im Vergleich zum Menschen

Übrigens: Werden KI-Modelle aufmüpfig?

Schreibe einen Kommentar