Контроль качества обучения при аттестации: компетентностный подход - Виктор Звонников
Шрифт:
Интервал:
Закладка:
Типичный пример подобного упрощенного толкования объективности встречается сейчас среди части педагогов, учащихся и их родителей в связи с проведением эксперимента по введению ЕГЭ. Широкий круг пользователей системы ЕГЭ не видит той работы профессионалов, которая стоит за созданием контрольно-измерительных материалов (КИМ), но в абсолютном большинстве своем полагает, что устранение педагогов из контрольно-оценочного процесса, сведение их участия к минимальному на этапе организации процедуры тестирования и выставления баллов позволяет говорить об объективности результатов ЕГЭ. На деле такое упрощенное толкование наносит вред развитию тестирования в России, поскольку допускает применение любых, в том числе некачественных, тестов. Оно не опирается на теорию педагогических измерений и лишь частично охватывает научные представления об объективности результатов выполнения теста.
Второе углубленное понимание объективности измерений основано на некоторых понятиях и аксиомах традиционной или, как ее называют иначе, классической теории тестирования. К числу таких понятий относится сырой (наблюдаемый, индивидуальный) балл, получаемый простым суммированием результатов испытуемого по отдельным заданиям теста. При дихотомической оценке результатов по заданиям (1 или 0) индивидуальный балл просто равен количеству правильно выполненных заданий теста. Другое понятие классической теории – истинный балл (параметр испытуемого) – отождествляется с абсолютно объективной оценкой испытуемого, свободной от влияния любых ошибок измерения. В отличие от наблюдаемого балла, который меняется в зависимости от теста и способа подсчета результата испытуемого, истинный балл трактуется как не зависящая от средств измерения константа учащегося, характеризующая оцениваемое свойство испытуемого в момент измерения с нулевой ошибкой измерения и меняющаяся в процессе обучения.
Согласно основной аксиоме классической теории тестов, предполагается, что любой наблюдаемый балл отличается от истинного на величину ошибки измерения. В тех случаях, когда ошибка измерения не превышает выбранные пределы точности измерений, говорят о высокой объективности результатов тестирования и принимают индивидуальные баллы испытуемых за их истинные баллы. Таким образом, углубленное понимание объективности измерений требует оценивания величины ошибки измерения, на размер которой влияют не только условия проведения тестирования, но и характеристики самого теста. Если эти характеристики не удовлетворяют определенным требованиям к качеству измерителей, то ошибка измерения, как правило, становится слишком большой, превышающей допустимую погрешность измерения и не позволяющей говорить о высокой объективности полученных результатов выполнения теста.
Третья трактовка объективности лежит в области современной теории конструирования тестов Item Response Theory (IRT). Преимущества IRT, позволяющие оценить подготовленность обучаемых независимо от трудности заданий теста, обеспечивают достижение так называемой инвариантной объективности измерений, которая превышает объективность, обеспечиваемую при использовании классической теории тестов [28, 29, 31, 37].
Согласно основным положениям теории IRT, инвариантная объективность характеризуется тем, что на оценку каждого испытуемого выборки не влияют оценки других испытуемых и трудность заданий теста. Благодаря этому оценки подготовленности студентов, обладающие высокой инвариантной объективностью, будут более точными, чем те, которые получаются при использовании традиционной теории при конструировании и применении тестов.
Правда, достижение эффекта инвариантной объективности обеспечивается не автоматически при обработке результатов тестирования с помощью алгоритмов теории IRT. Оно реализуется благодаря применению специальных процедур подгонки данных тестирования к требованиям моделей теории IRT и длительной серьезной работе над тестом. Поэтому на практике тестологи часто сталкиваются с тем, что эффект специфической объективности обеспечивается слишком дорогим путем либо не реализуется вообще в силу недостаточно высокого качества теста.
2.4. Размерность пространства измерений
После постановки цели измерения выбирают одну (одномерный случай) или несколько (многомерный случай) переменных измерения. При объединении одномерного и многомерного случая для обозначения измеряемых характеристик часто используют обобщающий термин – «конструкт». Концептуальное определение переменных измерения и их числа до начала разработки теста отличается обманчивой легкостью. Каждый разработчик теста уверен в том, что он ясно представляет себе измеряемые характеристики и способен на основании своего педагогического опыта точно подобрать задания, обеспечивающие оценивание конструкта. Можно так и остаться в заблуждении относительно того, что на деле измеряет тест, если не проверить соответствие задуманного конструкта и реальных результатов измерения.
Анализируют такое соответствие чаще всего с привлечением независимых экспертов до проведения тестирования, но, как правило, получают недостаточно достоверную информацию, поскольку объединение нескольких субъективных мнений не приводит к объективным выводам и суждениям. Практика измерений показывает, что априорное определение размерности, основанное на экспертном анализе концептуально выделенного конструкта, обычно оказывается недостаточным. Число априорно выделенных переменных измерения часто не подтверждается данными статистической обработки и интерпретации эмпирических результатов выполнения теста.
Каждый педагог вкладывает в оценивание учебных достижений обучаемых собственное понимание оптимального набора переменных измерения, характеризующих качество подготовленности по своей дисциплине, и, соответственно, свое видение размерности пространства измерений. Неоднозначность усугубляется по мере продвижения от начальных ступеней образования к более высоким. Если в школе и на начальных курсах высшего профессионального образования можно с определенной степенью общности считать уровень учебных достижений по дисциплине одномерным, то на старших курсах допущение об одномерности неправомерно в силу междисциплинарного характера содержания специальных дисциплин.
Хотя этап предварительной экспертизы качества содержания заданий обязателен при разработке теста, для детального выявления соответствия концептуальной и реальной переменных измерения необходим факторный и корреляционный анализ эмпирических данных тестирования, применяемый при оценивании конструктной валидности теста. Таким образом, понять, что же мы на самом деле измеряем, можно лишь после применения теста.
Выявление размерности конструкта – сложная задача, но ее решение необходимо, поскольку без знания размерности невозможно проведение надежных измерений и создание валидных тестов. Сложность процедуры установления размерности пространства измерений увеличивают проблемы, возникающие при переводе концептуальной переменной в область педагогических измерений, в силу неоднозначной трактовки и слабой операционализируемости (измеряемости) многих конструктов, характерных для образования и других социальных наук.
Пример такой неоднозначной трактовки приведен на рис. 2.2 (рисунок с третьей переменной).
Рис. 2.2. Пример неоднозначной трактовки конструкта
Процесс перевода латентных конструктов в эмпирические референты, сопровождающийся приданием оцениваемым латентным характеристикам формы, удобной для фиксации определенными правилами измерения, называется операционализацией. При педагогических измерениях в качестве конструктов обычно выступают знания, умения навыки, компетентности и так далее, которые в целом можно назвать обобщающим термином «учебные достижения».
В процессе операционализации происходит формирование набора эмпирических индикаторов, в роли которых выступают задания теста. Суммарный балл по правильно выполненным заданиям, подсчитанный и преобразованный по определенным правилам, дает основания для присвоения испытуемому определенного места на шкале переменной измерения. Результаты операционализации позволяют поставить в соответствие каждой точке оси латентной переменной определенный балл испытуемого, полученный путем тех или иных преобразований оценок по отдельным правильно выполненным заданиям теста.
Взаимосвязь результатов измерения и положения испытуемого на шкале переменной для одномерного случая представлена на рис. 2.3. Каждая оценка переменной измерения для учащихся из тестируемой группы соответствует одной из точек оси. В свою очередь, каждая точка определяет положение испытуемого или группы испытуемых с одинаковым тестовым баллом, полученным по результатам выполнения теста.