23 апреля 2018

Об оценке качества теста и тестового задания

Л.А.Сафонова,

Доктор экономических наук,

профессор кафедры ПММ Сибирского государственного университета телекоммуникаций и информатики

e-mail: larisa@sibguti.ru

http://uverenniy.ru/ob-ocenke-kachestva-testa-i-testovogo-zadaniya.html

В статье рассматривается методический инструментарий оценки качества тестовых заданий и тестов.

Ключевыеслова: тестовое задание, тест, валидность, надежность.

ABOUT EVALUATION OF THE QUALITY OF THE TEST AND TEST TASKS

L.A. Safonova

Doctor of economic sciences,

Professor of the Department of PMM Siberian state University of telecommunications and Informatics

The article describes quality valuation methodical tools of test tasks and tests.

Keywords: test task, test, validity, reliability

Условия реализации ФГОС требуют разработки, как неотъемлемой части нормативно-методического обеспечения системы оценки качества освоения студентами основной образовательной программы высшего образования, фонда оценочных средств (ФОС). В состав ФОС включаются, наравне с другими составляющими, и тестовые задания (или тесты). Разработчик ФОС уделяя внимание количеству тестов, как правило, оставляет открытым вопрос оценки качества тестовых заданий.

Тесты направлены на оценку, следовательно, измерение знаний студентов. Насколько составленные нами тесты позволяют адекватно, достоверно оценить знания студентов? Как количественно оценить качество разработанных тестов?

Проблеме качества тестового контроля в нашей стране уже более 30 лет занимается доктор педагогических наук, профессор Аванесов Вадим Сергеевич. Рассмотрим основные подходы и методы, позволяющие произвести оценку разработанных тестов.

Общий педагогический замысел является исходным моментом в процессе разработки заданий и их превращения в тесты, однако ключевым моментом в этой логической цепочке становится эмпирическая проверка тестовых свойств на основе использования статистических методов обработки. Именно рассчитанные статистические характеристики являются главным средством диагностики тестовых свойств заданий.

Проверки тестовых свойств заданий производится на основе матрицы результатов тестирования, в которой указывается число правильных ответов, данных каждым испытуемым по каждому тестовому заданию.

Одним из методов оценки меры трудности задания является расчет отношения правильно данных ответов к общему числу опрошенных. (Следует отметить, что в технологиях адаптивного обучения и контроля используется и другая мера – логит трудности задания.) Поскольку тест представляет собой систему заданий возрастающей трудности, то необходимо исключить те задания, где отсутствуют неверные ответы, т.к. эти задания не обладают известной мерой трудности.

Следующим показателем оценки качества тестовых заданий является вариация баллов. Если на какое-то задание правильно отвечают все тестируемые, то такое задание тоже следует исключить из перечня тестового, т.к. все опрошенные ответили на него одинаково и между ними нет вариации, а нулевая вариация означает необходимость удаления задания из проектируемого теста. (Действительно, в этом случае задание не позволяет нам дифференцировать сильных студентов от слабых).

Задание в тестовой форме нельзя называть тестовым, если оно не коррелирует с суммой баллов по всему тесту, поэтому следующим этапом является расчет коэффициента корреляции. Чем выше значения коэффициента корреляции (как правило, больше 0,4), тем больше вероятность включения этого задания в тест. Если коэффициент корреляции меньше или равен нулю, то это свидетельствует об отсутствии у задания системных свойств, присущих тесту, и такие задания устраняются из тестовых материалов, как не выдержавшие эмпирической проверки. Расчет коэффициента детерминации позволяет производить интерпретацию полученных результатов в более удобной форме. Например, если значение коэффициента составляет 0,4, то это означает, что 40% вариации суммы тестовых баллов опрошенных по всем заданиям связано с вариацией баллов по одному только этому заданию, т.е. это задание вносит существенный вклад в общую дисперсию теста.

Расчет полной корреляционной матрицы позволяет проанализировать тестовые свойства заданий с целью выявления таких, у которых более высокое значение коэффициента корреляции с суммой баллов, что является непосредственным признаком необходимости их включения в тест. Такая матрица позволяет выявить и наличие интеркорреляции, т.е., корреляции заданий между собой внутри теста.

Использование среды дистанционного обучения Moodle позволяет оперативно оценить качество тестовых заданий на основе анализа ряда статистических показателей (индекс лёгкости, стандартное отклонение; индекс дискриминации и эффективность дифференциации, показывающие, насколько взаимосвязаны правильность ответа на данный вопрос и остальные вопросы теста, и др.) и скорректировать тестовые задания, т.е. является эффективным механизмом повышения качества тестовых заданий, точности и объективности оценки уровня знаний.

На основе отобранных тестовых заданий составляются тесты, качество которых оценивается на основе определения меры надежности и валидности результатов опроса.

Понятие "валидность" характеризует меру пригодности, способности теста давать результаты, позволяющие осуществить их правильную интерпретацию с точки зрения цели тестирования. Валидность теста зависит от многих факторов, например, от качества и количества включенных в него тестовых заданий, степени полноты и глубины охвата содержания учебной дисциплины, баланса и распределения заданий по трудности, метода отбора заданий в тест из общего банка заданий, интерпретации тестовых результатов, организации сбора испытуемых и т.д. Различают три подхода к оценке валидности теста:

–валидность по распределению,

–валидность на основе ошибок регрессионной модели,

–валидность по плотности покрытия.

При первом подходе тест считается валидным, если средний результат тестирования характерен для большей части опрошенных, а сами результаты распределяются по нормальному закону.

При втором подходе на основе опроса обучаемых строится регрессионная модель прогноза результатов опроса, достоверность которой проверяется путем опроса новой группы студентов.Если прогнозируемые и фактические оценки близки, то делается вывод о валидности рассматриваемого набора тестовых заданий.

Валидность плотности покрытия характеризует степень охвата учебного материала.

Надежность теста можно оценить мерой корреляции между двумя параллельными вариантами теста, а также с использованием формулы Kuder–Richardson (KR – 20,KR-8). Полученные в процессе выполнения расчетов значения надежности и стандартного отклонения тестовых баллов могут быть использованы для определения стандартной ошибки измерения и доверительного интервала, в пределах которого находится, с определенной вероятностью, истинное значение тестового балла испытуемого. Чаще всего в подобных случаях используется пяти процентный уровень риска допущения ошибки и соответствующее ему значение табличное значение t- распределения Стьюдента.

Кроме отмеченных выше, в практической деятельности возможно использование и других методов определения надежности тестов.

1.Повторное тестирование с оценкой корреляции полученных результатов при условии, что тестирование осуществляется с использованием того же теста и в одинаковых условиях. Рассчитанное значение коэффициента корреляции характеризует надежность измерения как устойчивость результатов опроса (test-retest reliability).

2.Тестирование на основе параллельных тестов с последующей оценкой корреляции результатов, которое интерпретируется как близость или параллельность результатов (testreproducibility).

Эффективным считается тот тест, которыйкачественнее, чем другие измеряет знания испытуемых интересующего уровня подготовленности, с меньшим числом заданий.

Литература

1.Аванесов В.С. Основы педагогической теории измерений//Педагогически измерения, 2004,№1, С.24-26.

2.Аванесов В.С. Понятийный аппарат педагогической тестологии. Педдиагностика, №2, 2002г. С. 33-37.

3.Аванесов В.С. Этапы разработки теста// «Конструирование педагогических тестов по русскому языку как иностранному. Доклады и сообщения. ЦМО МГУ им. М.В.Ломоносова. 15-16 апреля 2003 г. М.2003. с.7-12.