Делает непростительные ошибки: искусственный интеллект проверили на компетентность в образовании
Основываясь на таксономии Блума, исследователи предложили новый подход к оценке больших языковых моделей в образовании. Система проверяет качество работы ChatGPT и подобных систем в 16 педагогических областях: от методики преподавания до управления классом. В тестировании использовали более 3900 заданий разной сложности.
«В нашем подходе мы опираемся на принципы доказательной оценки. Проверяем главные для преподавания навыки ИИ — от базовых знаний до умения решать сложные практические задачи», — объясняет ведущий автор проекта Елена Карданова.
Результаты исследования показали, что даже современные модели, такие как ChatGPT-4, уверенно справляются с проверкой фактических знаний, но испытывают затруднения при решении реальных педагогических задач.
«Мы все еще сталкиваемся с ошибками ИИ — он придумывает ответы, когда не знает их, или не понимает контекст. До уверенного использования в педагогике еще далеко», — говорит Тарас Пащенко, заведующий Лабораторией проектирования содержания образования.
«У современных ИИ-систем есть фундаментальное ограничение, — отмечает научный руководитель ВШЭ Ярослав Кузьминов. — Они ошибаются даже в простых заданиях. А помощник, которого надо постоянно проверять, вряд ли будет востребован».
Тем не менее исследователи видят перспективы ИИ как помощника учителя — в создании учебных материалов, проверке заданий и составлении планов. Однако для широкого внедрения технологии нужно существенно доработать модели и оценить риски их применения, в том числе этические
Карданова Елена Юрьевна
Центр мониторинга качества образования: Директор центра
Кузьминов Ярослав Иванович
Руководство Университета: Научный руководитель
Пащенко Тарас Валерьевич
Лаборатория проектирования содержания образования: Главный эксперт