Исследователи Лаборатории языковой конвергенции НИУ ВШЭ — Санкт-Петербург создали датасет для обучения больших языковых моделей распознавать эмоции. Работа опубликована в журнале «Вопросы лексикографии», пишет «CNews».

Датасет включает 909 видеофрагментов общей продолжительностью 173 минуты, каждый из которых размечался по шести базовым эмоциям в четырех форматах: полное видео, только аудио, только текст и видео без звука. По результатам исследования люди лучше распознают эмоции при чтении текста или просмотре видео со звуком, в то время как интонация и мимика оказываются менее информативными.

Анализ показал, что радость и удивление лучше считываются через интонацию, злость — по тексту, а страх распознается как текстом, так и аудио, но почти не проявляется в мимике.

Созданный инструмент уже применяется на практике: датасет использовали для анализа отзывов в Владимиро-Суздальском музее и для создания эмпатичного чат-бота Эрмитажа, способного определять эмоции пользователей. Также он позволяет оценивать точность существующих моделей распознавания эмоций. Тестирование восьми популярных моделей показало, что текстовые системы работают точнее (50–58%), аудиальные — средне (около 40%), а анализ мимики оказался наименее точным (25,6%).