Анализ покрепче — тест покороче: ученые нашли способ проверять знание иностранного языка в два раза быстрее

Ученые сравнили два способа обработки результатов тестирования. Первый — метод максимального правдоподобия, самый распространенный в тестировании. В этом случае метод как-бы спрашивает: «При каком уровне способности такие ответы на тест были бы наиболее вероятны?». Этот метод хорошо работает на длинных тестах, однако на коротких такой расчет может давать сбои. Два студента с одинаковыми знаниями могут получить разные оценки только потому, что один из них попросту угадал ответ на одно-два задания.
Второй подход — байесовский метод. Он учитывает не только ответы конкретного студента, но и то, как обычно распределяются уровни знаний в большой группе. Благодаря этому оценка меньше зависит от случайных угадываний и остается более устойчивой.
Для проверки результатов ученые использовали моделирование Монте-Карло. Точность и устойчивость оценки они измеряли с помощью средней квадратичной ошибки. Этот показатель показывает, насколько сильно итоговая оценка может отклоняться от реального уровня знаний.
Байесовский метод показал заметно меньшую ошибку и более ровное ее снижение по мере увеличения числа вопросов в тесте. Это означает, что он остается устойчивым даже на коротких тестах.
«При двадцати вопросах байесовский метод оказывается почти в 30 раз надежнее метода максимального правдоподобия, — объясняет Елена Карданова, научный руководитель Центра психометрики и измерений в образовании ВШЭ. — Но когда тест увеличивается до 40 заданий, оба подхода дают сопоставимые по точности результаты. Другими словами, при длинных тестах преимущество байесовского метода исчезает. В массовой практике такие тесты почти не используют, потому что они слишком долгие для студентов и слишком дорогие для организаторов».
Такой подход дает языковым центрам прямую экономию времени. Если центр тестирует около трехсот студентов в месяц и сокращает продолжительность теста с сорока до двадцати минут, он высвобождает примерно сто часов. Это означает либо больше участников при тех же ресурсах, либо меньшие расходы на аудитории и персонал. В условиях массового тестирования даже несколько сэкономленных минут быстро складываются в десятки часов, отмечает Елена Карданова.
Читать полностью
Карданова Елена Юрьевна
Центр психометрики и измерений в образовании: Ведущий научный сотрудник