
Тесты на теорию разума проверяют, способен ли человек анализировать невербальные сигналы, поставить себя на место другого и представить мир с иной точки зрения.
Международная группа психологов и нейробиологов проанализироваладанные 1907 добровольцев, которые прошли стандартные тесты теории разума. И сравнили их с результатами больших лингвистических моделей, например, Llama 2-70b и GPT-4.
Обе группы ответили вопросы, каждый из которых предназначен для оценки случайных ошибок, иронии, правдивости утверждения, «ложных убеждений».
Большие лингвистические модели справлялись с вопросами не хуже людей, а иногда и лучше. Самые лучшие результаты по всем типам вопросов показал GPT-4.
16.3°
