Стажировка преподавателей в Нидерландах

Преподаватели магистерской программы «Измерения в психологии и образовании» вернулись из CITO (Нидерланды) – крупнейшего центра по разработке инструментов оценивания и измерения в образовании в Европе. На протяжении стажировки они глубже познакомились с такими темами, как компьютерное адаптивное тестирование, новый подход в измерениях evidence-centered design и совершенно революционный подход к исследованию межгрупповой сопоставимости.

Стажировка стала возможной благодаря гранту Всемирного банка для развития магистерской программы в рамках проекта READ 2. На протяжении недели преподаватели знакомились с самыми последними тенденциями в психометрике и разработке тестов. Скоро преподаватели интегрируют свой новый опыт в материалы занятий и познакомят с ним своих студентов.

Ирина Брун

Evidence-centered design, или, как мы его называем, систематический подход к разработке тестов, основывается на идее поиска наблюдаемого поведения для измерения латентных, скрытых от глаза наблюдателей конструктов. Но это не просто поиск наблюдаемого поведения, этот подход использует принципы формальной логики для валидизации инструмента уже в процессе его разработки. Эта методология идеально подходит для разработки инструментов измерения сложных, новых конструктов, относящихся к компетенциям XXI века. Например, критического мышления, креативности и информационной грамотности. За счет чего? За счет того, что эта методология подразумевает современное компьютерное тестирование и обработку результатов с помощью байесовских сетей.

Денис Федерякин

Проблемы межгрупповой сопоставимости данных всегда возникают в социальных исследованиях, когда исследователь хочет сравнить выраженность какой-либо психологической черты или освоенность образовательного материала. Без установления межгрупповой эквивалентности результатов неясно, были ли найдены определенные различия (или их отсутствие), потому что они действительно существуют между группами или потому что измерительный инструмент работает неадекватно.

Сама идея проверки межгрупповой сопоставимости результатов достаточно молода – о ней заговорили всего около 50 лет назад в контексте расовых и половых различий. Но по-настоящему громко эта идея начала звучать именно в образовательном оценивании после так называемого PISA-шока, когда результаты крупных межстрановых проектов по сравнению качества образования стали очень сильно влиять на образовательную политику. Руководители национальных образовательных систем хотели быть уверенными, что выводы, сделанные из таких исследований как PISA, TIMSS, PIRLS, достоверны, и на них можно опираться при принятии управленческих решений.

Чаще всего в этой области исследуется, работает ли задание одинаково для всех групп респондентов. В случае, если задание работает по-разному, исследователи говорят, что в данных обнаружен «DIF» (Differential Item Functioning) или «Измерительная эквивалентность определенного уровня».

Традиционно обнаруженный DIF рассматривается как проблема. Это логично, потому что если исследователь хочет сравнить группы по определенным знаниям, навыкам или психологическим чертам, этот исследователь не может допустить, чтобы в сравнение вмешивались дополнительные факторы.

В CITO разработали подход к пониманию DIF, в котором его рассматривают не как проблему, а как дополнительный источник информации. Такой подход к моделированию результатов тестирования для интерпретации является революционным во многих смыслах. В практическом смысле сравнения групп он позволяет «очистить» интересующую способность от вклада посторонних размерностей и сравнить группы еще и по этим дополнительным размерностям. Таким образом, DIF означает не столько проблему, сколько то, что исследователь собрал больше информации о разнице групп, чем хотел изначально.

Кроме того, в CITO мы смогли поговорить со специалистами в области компьютерного адаптивного тестирования (CАТ, Computerized Adaptive Testing).

В современной теории тестирования существует допущение, что разные вопросы дают разное количество информации о респонденте. Не имеет смысла предъявлять очень способному респонденту очень легкие вопросы – скорее всего, он решит эти вопросы правильно. И наоборот – очень трудные вопросы едва ли будут под силу респонденту с низкой способностью. CAT представляет собой оптимизацию процесса тестирования. После нескольких «калибровочных» заданий для грубого определения уровня способности респонденту предъявляются только те задания, которые подходят ему по уровню способности, то есть дают о нем максимальное количество информации. Такой подбор заданий существенно экономит время тестирования, поддерживает мотивацию и ресурсы респондента. А еще делает инструмент более безопасным – снижает вероятность обмана. С помощью адаптивного инструмента можно измерять любые конструкты, но к инструменту возникают новые требования. Для применения CAT требуется большой банк заданий (набор заданий, психометрические свойства которых известны именно для целевой аудитории) и комплекс программных и аппаратных решений, которые не всегда дешевы.

Мы пообщались с людьми, которые специализируются в руководстве проектами по разработке таких инструментов, познакомились с трудностями, с которыми они сталкиваются, и подчерпнули большое количество опыта, связанного с предупреждением потенциальных проблем в разработке таких инструментов.

Дата

12 февраля, 2018 г.

Рубрики

Образование

Темы

репортаж о событии магистратура международное сотрудничество

В статье упомянуты

Институт образования

Персоны

Брун Ирина Викторовна

Федерякин Денис Александрович