Оценивают роботы: в чем искусственный интеллект готов разгрузить учителя уже сейчас
GPT врет? Ну и пусть!
«Я вышел на улицу и увидел, что на снегу лежит большая белая птица. Она лежала на боку, и её крылья были как будто вдавлены в снег. Я подошёл к ней и стал смотреть, как она дышит. Вдруг птица встрепенулась и стала быстро-быстро перебирать крыльями. Потом она поднялась и улетела». Автор этого текста — модель обработки естественного языка ruGPT-3L, опубликованная командой Сбербанка (SberDevices). Психометрики Инобра и преподаватели магистерской программы «Обучение и оценивание как наука» привлекли модель к разработке тестовых заданий для школьников с помощью заданных параметров: помогли ей придать нужную структуру художественным текстам, дообучили на лексике из множества детских книг, придумали, как верифицировать результаты генерации. Теперь мы можем создавать тексты-задания, разные «снаружи», но одинаковые «внутри». То есть, все проверяемые навыки и знания одинаковы (что делает возможным, в том числе, машинную проверку), но внешне каждый текст индивидуален — подготовиться к контрольной заранее или списать у соседа не получится.
Сделаны только первые шаги в этом направлении, специалисты продолжают донастраивать систему критериев — доказывают, что разные задания измеряют одну и ту же способность, соответствуют ожидаемому уровню измерения материала, не слишком просты или сложны для каждого конкретного возраста и т.д.
«Интересно, что вокруг этого проекта на конференции разгорелся целый этический спор, — рассказывает Алина Иванова, председатель круглого стола и старший научный сотрудник ЦПИО. — Дискуссанты отмечали, что часто генерируется текст, который не может быть правдивым с точки зрения содержания. Для каких предметов это критично, а для каких нет? Допустим, для русского языка или чтения — насколько важно содержание текстов с точки зрения истинности? Художественным вымыслом может считаться всё, что угодно?»
Игра в тест
Работе психометриков с данными предшествует этап разработки самих тестов. И современные технологии позволили значительно продвинуться в тест-девелопменте. Тесты из разряда CPBA (computer-based performance assessment) или GBA (game based assessment) вовлекают тестируемых в перформанс, игру. Такие тесты сделаны в технологически насыщенной интерактивной среде. В свою очередь, они дают «пищу» для развития все более сложных математических моделей сбора, обработки и анализа данных. Пример такого подхода — разрабатываемый в ЦПИО инструмент измерения цифровой грамотности.
Оценка цифровой грамотности учеников происходит с помощью заданий сценарного типа, воспроизводящих ситуации из реальной жизни, с симуляцией разнообразных программ и цифровых сервисов. А с помощью современного подхода к разработке тестов — метода доказательной аргументации (Evidence-Centered Design) — стало возможным создать единую модель цифровой грамотности для разных целевых групп. Таким образом, чтобы разработать тест для новой возрастной аудитории, нужно изменить только контекст сценариев заданий. А интерфейс можно достаточно легко обновлять. За такой методологией создание тестов будущего.
Предусмотрели даже опечатки
Еще один доклад был посвящен проблемам автоматической проверки заданий открытого типа, то есть тех, где надо не выбрать ответ, а написать самому. Разбирали на примере инструмента «Прогресс», созданного в Инобре для оценки математической, читательской и языковой грамотности в 3 – 4 классах. Задания разной степени сложности. «Напиши, где родина попугая жако?» — ответ предполагается одним словом (правильный — Африка). Чем нужно кормить попугая, чтобы он был здоров? — уже более развернутый ответ. Наконец, подробный рассказ нужен в задании «Дай совет детям, которые хотят завести морскую свинку». Сначала ребенок читает информационный текст, и далее его ответ должен быть связан с идеями из этого текста. Правильный ответ — несколько фраз, связанные с идеей физической активности свинки и имитацией действий в естественной среде.
Сложность в том, что ответы учеников отличаются большим разнообразием. Даже на первый и самый простой вопрос — несколько вариантов правильного ответа, потому что не только «Африка», но и «африка», «аврика» и т.д. «Маленькие дети плохо печатают на клавиатуре, у них дополнительно возникает много ошибок, несоответствий, не связанных с тем, что мы проверяем. Задача — все это предусмотреть, и моим коллегам из ЦПИО удается добиться точности автоматической оценки в 90%, они готовы улучшать инструмент и дальше», — говорит Алина Иванова.
Оценка развернутого ответа содержит и автоисправление орфографических ошибок, и разбивку текста на токены, и удаление стоп-слов, которые не несут смысловой нагрузки, и использование разных алгоритмов, которые позволяют машине по самым разным признакам (вплоть до длины текста) «прочитать», насколько правильно отвечает ученик.
«Якори» для оценки прогресса
Еще один инструмент позволяет измерить образовательный прогресс. Традиционно у школы здесь не очень много возможностей: или опираться на текущие оценки учеников, которые чаще всего относятся к разным темам и не особо вариативны, или на экзаменационные работы. Но их проблема в высоких ставках (то есть ученики усиленно готовятся конкретно под них), и они измеряют результат лишь в неких финальных точках обучения.
В Инобре разработали «золотую середину» — инструмент мониторинга индивидуального образовательного прогресса: это компьютерное тестирование с низкими ставками, которое ученики старших и средних классов могут проходить несколько раз за учебный год (например, в начале и конце). В данном инструменте увидеть прогресс можно через «якорные задания», которые очень близки между собой в соседних тестированиях, поэтому результаты этих тестирований можно положить на одну шкалу, то есть один и тот же балл будет говорить об одном уровне учебных достижений. Причем, коллеги из ЦПИО показали, что эти задания могут быть близки не только по содержанию, но и по одинаковым учебным действиям (или когнитивным операциям), которые ученик совершает с внешне непохожими заданиями.
Вокруг этого инструмента на конференции тоже возник спор: можно ли применять его только для точных наук, или, например, для языковых навыков тоже — они ведь более подвижны.
«Из дискуссии было приятно узнать, что коллеги приходят послушать нас, чтобы узнать о чем-то передовом, что однажды будет введено в массовую практику. Но звучали и опасения: мол, вы пытаетесь искусственным интеллектом заменить разработчиков заданий. Нет, только в части рутинной работы, от которой любой человек избавится с радостью», — рассказала Алина Иванова.
Круглый стол организован в рамках гранта, предоставленного Министерством науки и высшего образования Российской Федерации (№ соглашения о предоставлении гранта: 075-15-2022-325)
Подробнее о Центре психометрики и измерений в образовании
Подробнее о программе «Обучение и оценивание как наука»
Дарья Грачева (PPTX, 1.46 Мб)
Сергей Тарасов (PPTX, 2.00 Мб)
Элен Юсупова (PPTX, 2.08 Мб)
Ксения Тарасова (PDF, 2.19 Мб)