Темы и материалы прошедших семинаров
Rater Effects and Their Influence in Open-Ended Assessments (10 апреля 2017)
When raters evaluate students' products and performances, there are a number of problems that might arise. The act of rating is not a clear-cut,systematic process that raters carry out in an identical fashion.Unfortunately, a number of factors can influence their judgment processes,causing distortions in the ratings and compromising their quality. Such rater effects, if left unchecked, can seriously threaten the validity of ratings. In this presentation, we will examine some of those rater effects and discuss how researchers can use a many-facet Rasch measurement approach to monitor rater performance.
Докладчик: Carol Myford, PhD, University of Illinois at Chicago (UIC), Chicago, USA
Sequences with stopping rules: an effective algorithm? (6 марта 2017)
Computer adaptive tests can be a very efficient way of carrying out an assessment. But the most efficient algorithm may not always be suitable. The talk will describe when and why a sequences-with-stopping-rules approach is effective. It will discuss adaptive assessments when a limited number of items are available, when the candidates might be upset if they are presented with very hard items and when the factor structure of the main construct is different for different candidates. Examples will be taken from the iPIPS project.
Докладчики: Peter Tymms, Christine Merrell
Систематический подход к разработке тестовых заданий: от сбора свидетельств до анализа результатов (18 февраля 2015 года)
Доклад посвящен систематическому подходу к разработке тестовых заданий (Evidence Centered Design), который связывает в одну теоретическую схему представления о структуре измеряемого конструкта, ситуации, в которой этот конструкт может проявиться и способах записи этих проявлений. Данный подход руководствуется такими вопросами как: «Какие данные, касающиеся навыка, мы можем получить, наблюдая за поведением тестируемого?» и «Как создать ситуацию, которая помогла бы в получении этих данных?».
Этот подход помогает создавать тесты, конструктная валидность которых обеспечивается самим способом разработки. Созданный более 10 лет назад, этот подход, в силу особенностей отрасли, достаточно редко применялся. В докладе мы продемонстрируем его применение в рамках Теста Информационно-Коммуникационной Компетентности (ICL Test), коснувшись теоретических основ и показав реализацию на примерах конкретных тестовых заданий сценарного типа.
Отдельное внимание будет уделено системе оценки результатов при помощи Байесовских сетей – гибкой статистической модели латентных переменных, позволяющей учитывать как структуру конструкта, так и способы сбора свидетельств о нем.
Докладчики: Светлана Авдеева, заместитель исполнительного директора Национального фонда подготовки кадров, Георгий Васин, эксперт Национального фонда подготовки кадров, Ксения Тарасова, эксперт Национального фонда подготовки кадров
Презентации доклада: BNs for HSE НФПК.pdf, Evidence Centered Design_inHSE.pdf
Scientific Concepts Test: parallel semantically equal tests development in two languages (1 апреля 2015 года)
Education in Latvia is realized either in state Latvian language in majority schools or in both Russian and Latvian languages in minority schools. Nevertheless, there are no tests for scientific concepts’ comprehension that allow comparing students from majority and minority schools, and bilinguals’ comprehension in both languages. The presentation will focus on Scientific Concepts Test development in Latvian (SCT-L) and Russian (SCT-R). The SCT-R and SCT-L are developed in parallel as semantically equal forms with similar difficulty level. The content of each test is based on educational curriculum at the 9th grade. Initial item pool was selected based on scientific concepts proposed by experts. The further item selection procedure included analysis of the items’ meaning and difficulty in each language. To avoid a bias in bilingual studies, only items that pronounced differently in Russian and Latvian were included. The items’ difficulty and discrimination indices were analysed. The content validity, concurrent and convergent validity as well as Spearman-Brown split-test reliability were established for both versions.
Докладчик: Татьяна Канонир, Dr. Psych., postdoc researcher of International Laboratory for Socio-Cultural Research
Презентация доклада: Scientific Concepts Test_presentation_1.04.2015.pdf
Оценка профессиональных и профессионально-специализированных компетенций (28 апреля 2015 года)
В основу подхода положены нормативные документы Министерства образования и науки и Методические рекомендации по разработке основных профессиональных образовательных программ с учетом соответствующих профессиональных стандартов, утвержденные Министерством образования и науки.
Рассматриваются общие проблемы оценивания уровня освоения компетенций и их специфические особенности, требующие использования специальных методов операционализации в форме дескрипторов.
Предлагаются модели многостадийных измерений для оценки освоения компетенций в процессе промежуточной и итоговой аттестации студентов, выстроенные с учетом требований компетентностного подхода и возрастных возможностей обучающихся.
Значительное внимание уделяется проблеме оценивания надежности и валидности многостадийных измерений в рамках компетентностного подхода.
Для шкалирования результатов студентов в многостадийных измерениях предлагается компенсационный подход и методы установления пороговых баллов на уровневой шкале освоения компетенций.
Докладчик: М.Б. Челышкова, директор Учебно-научного центра аккредитации образовательных программ и обеспечения деятельности УМО, д.п.н, проф.
Дискуссант: Серова Александра Владимировна, руководитель Методического Центра Дирекции основных образовательных программ НИУ ВШЭ
Презентация доклада: Оценка профессиональных компетенций.pdf
Мастер-класс «Scenario-based scales: Integrating Guttman facet theory and Rasch measurement» (14 октября 2014)
This seminar will address the construction of scenario-based scales with comparative-response formats. These scales have item structures and response formats that are more complex than traditional short Likert-based stems and response categories. The item structures are based on Guttman's facet theory and sentence mapping procedures. The comparative-response format was developed by the authors listed below. The scales are constructed specifically to fit Rasch models. Participants are expected to read Ludlow LH, Matz-Costa C, Johnson C, Brown M, Besen E, & James JB (2014). Measuring engagement in later life activities: Rasch-based scenario scales for work, caregiving, informal helping, and volunteering. Measurement and Evaluation in Counseling and Development. 47(2), 127-149. (The paper is attached).
Докладчик: Larry Ludlow, Ph.D. (University of Chicago) is Professor and Chair of the Department of Educational Research, Measurement and Evaluation in the Lynch School of Education at Boston College, USA. He teaches courses in research methods, applied statistics, and psychometric theory and procedures. His research interests include longitudinal models for faculty course evaluations (e.g., adjustments for lag-3 and lag-6 serial correlations), Rasch model instrument development (e.g., scenario-based scales, and fit/residual analyses), and teacher retention and attrition models (e.g., identification of “at-risk of leaving teaching” teachers)
Презентации доклада: Scenario-based scales.ppt, Ludlow-MECD-2014.pdf
Investigating Validity of International and Cross-cultural assessment: iPIPS Study (first results) (21 февраля 2014)
В докладе было представлено международное сравнительное исследование, реализуемое НИУ ВШЭ совместно с Университетом Дарема (Великобритания), задачей которого является оценивание готовности ребенка к обучению в школе и его индивидуального прогресса в течение первого года обучения на основе инструмента iPIPS. Основное внимание в докладе было уделено вопросам адаптации инструментов при использовании на другом языке и в другой культуре. В докладе были представлены результаты анализа данных, полученных в ходе пилотного тестирования инструмента iPIPS на выборке первоклассников одного из регионов РФ осенью 2013 г. Были затронуты проблемы адаптации инструмента на русский язык и последующих трудностей, возникающих при построении шкал, как национальных, так и международных. В заключение были рассмотрены перспективы валидизационных исследований инструмента iPIPS в России.
Докладчики: David Hawker, профессор, университет Дарема (Великобритания), Иванова Алина, научный сотрудник Центра мониторинга качества образования НИУ ВШЭ
Дискуссант: Ковалева Галина Сергеевна, к.п.н., руководитель Центра оценки качества образования Института содержания и методов обучения РАО
Презентации доклада: Investigating Validity of International ..t - iPIPS Study (first results).pdf, Baseline Assessment in Schools - The iPIPS project.pdf
Возможности построения шкал и проведения кросскультурных сравнений с помощью SEM и IRT (29 ноября 2013)
В докладе описаны основные положения модели SEM (моделирования структурными уравнениями) и возможности её сопоставления с моделями IRT. Представлены результаты анализа данных, полученных путём опроса учителей (в рамках проекта NorBA) в трёх пост-советских странах: России, Латвии и Эстонии.
В ходе анализа структуры установок учителей были выделены шкалы независимо с помощью моделей SEM и IRT. Показаны возможности SEM для проведения кросс-культурных сравнений в показателях измеряемого конструкта даже при условии неполной психометрической эквивалентности пунктов шкалы на разных языках. В ходе дискуссии результаты применения модели SEM были сопоставлены с результатами применения IRT-моделей.
Докладчик: Осин Евгений Николаевич, канд. псих. наук, доцент, ст.научный сотрудник факультета психологии НИУ ВШЭ
Дискуссант: Карданова Елена Юрьевна, канд.физ.-мат.наук, доцент, директор Центра мониторинга качества образования Института образования НИУ ВШЭ
Презентация доклада: «Возможности построения шкал и проведения кросс-культурных сравнений с помощью SEM и IRT»