ИИ-модель Centaur не прошла проверку на понимание: исследование выявило зависимость от запоминания ответов

ИИ-модель Centaur не прошла проверку на понимание: исследование выявило зависимость от запоминания ответов

Передовая искусственная интеллектуальная модель Centaur, представленная в 2025 году как система, способная имитировать человеческое мышление, не справилась с тестами на истинное понимание задач. К такому выводу пришли исследователи Чжэцзянского университета в работе, опубликованной в журнале National Science Open.

Суть исследования

Модель Centaur, разработанная на базе больших языковых моделей и дообученная на данных психологических экспериментов, изначально демонстрировала высокие результаты в 160 когнитивных задачах — от принятия решений до исполнительного контроля. Публикация в Nature в июле 2025 года вызвала широкий резонанс: эксперты рассматривали Centaur как потенциальный прорыв в создании ИИ, воспроизводящего человеческое познание.
Однако новое исследование поставило под сомнение эти выводы. Учёные предположили, что успех модели мог быть обусловлен не пониманием, а переобучением — способностью распознавать шаблоны в данных и воспроизводить ожидаемые ответы без осмысления содержания.
Методика проверки
Для проверки гипотезы исследователи разработали модифицированные тестовые сценарии. В одном из ключевых экспериментов оригинальные вопросы с вариантами ответов были заменены на нейтральную инструкцию: «Пожалуйста, выберите вариант А». Если бы модель действительно анализировала смысл задач, она должна была последовательно следовать новой инструкции.
Результат оказался иным: Centaur продолжила выбирать «правильные» ответы из исходного набора данных, игнорируя изменённые условия. Это указывает на то, что система опиралась на статистические закономерности обучающей выборки, а не на интерпретацию смысла вопросов.
«Это сравнимо со студентом, который успешно сдаёт экзамены, заучивая форматы тестов, но не усваивая предмет», — отмечают авторы исследования.
Значение для развития ИИ
Полученные данные подчёркивают важность тщательной и разнообразной валидации больших языковых моделей. Несмотря на высокую эффективность в решении стандартных задач, «чёрный ящик» современных ИИ-систем затрудняет понимание механизмов принятия решений, что может приводить к ошибкам, галлюцинациям и неверным интерпретациям.

Ключевым ограничением Centaur, согласно исследованию, остаётся понимание естественного языка — в частности, распознавание намерений, стоящих за формулировками вопросов. Преодоление этого барьера может стать одним из приоритетных направлений в разработке следующего поколения когнитивных ИИ-систем.

Ранее киберы узнали, что чаще всего люди ищут в ChatGPT. Больше интересных новостей смотрите в нашем федеральном тг-канале и МАХ, там новости выходят намного раньше других соцсетей, а ещё есть много уникального контента.