30 июля 2018
2007

Параллельные варианты теста в автоматизированных системах диагностики

Александр Колгатин

Харьковский национальный педагогический университет имени Г.С.Сковороды

kolgatin@yahoo.com

Опубликовано в ж. Педагогические Измерения №2 2008 г.

 

Показано, что автоматизированное формирование вариантов теста, приводит к появлению дополнительной погрешности педагогического измерения, связанной с недостаточной параллельностью выбираемых заданий. На основе модели G.Rash предложена формула для оценки указанной компоненты погрешности и определены ее возможные значения. Исследуемая компонента погрешности сравнивается с погрешностью, вносимой угадыванием правильных ответов. Проведен анализ опыта применения автоматизированной системы педагогической диагностики с автоматически создаваемыми вариантами теста. Сопоставлены различные способы разработки параллельных заданий одинаковой трудности.

 

Введение

Автоматизированные системы педагогической диагностики позволяют генерировать варианты тестов индивидуально для каждого тестируемого, случайным образом выбирая задания из некоторой базы данных или используя фасеты. Такая возможность очень полезна при организации самостоятельной работы студентов по закреплению изученного материала, подготовке к зачетам и экзаменам. Применение индивидуальных вариантов теста для каждого студента полезно и на зачетном тестировании, поскольку снижаются требования к «секретности» заданий. Однако случайный выбор заданий отрицательно сказывается на точности измерения. При формировании параллельных вариантов теста необходимо совершенствовать алгоритмы отбора заданий. А также разрабатывать методы оценки той компоненты погрешности измерений, которая вызвана различием тех вариантов теста, которые предлагаются разным студентам.

 

Традиционные подходы к оценке точности педагогических измерений

Точность педагогических измерений с помощью тестов всегда была в центре внимания исследователей, как необходимый атрибут всякого измерения. Классическая теория надежности тестовых результатов предполагает оценку погрешности измерения на основе коэффициента надежности, который определяется как отношение дисперсии истинных значений измеряемого признака к дисперсии результатов измерения (тестовых баллов) . Поскольку измеренные значения тестовых баллов y отличаются от истинных значений измеряемого признака y∞ на величину погрешности E, которая статистически независима от y∞ , то коэффициент надежности можно представить в виде , где – дисперсия ошибки измерения. Отсюда выводится формула для вычисления стандартной ошибки измерения: , где – среднеквадратическое отклонение тестовых балов в группе тестированных.

В предположении о нормальном законе распределения тестовых баллов можно определить доверительный интервал для измеренного тестового бала, с границами от до , где , множитель t определяется из уравнения , где βнад – доверительная вероятность. В педагогике обычно принимают доверительную вероятность 95%, тогда t ≈1,96.

Известно несколько подходов к определению коэффициента надежности результатов:

  • коэффициент стабильности (“coefficient of stability”) или надежности, определяемый методом повторного тестирования. Вычисляется как коэффициент корреляции между результатами тестирований, проведенных одно за другим через определенное время, в одной и той же группе, на основе одного и того же теста. Коэффициент стабильности учитывает погрешность, связанную с фактором времени, устойчивости уровня подготовленности, угадывания, невнимательности, пробелов в структуре учебных достижений;

  • коэффициент эквивалентности (“coefficient of equivalence”) или надежности параллельных вариантов теста. Вычисляется как коэффициент корреляции между результатами тестирований, проведенных по параллельным вариантам теста. Этот коэффициент чувствителен к погрешности, вызванной угадыванием, невнимательностью, различиями в трудности заданий параллельных вариантов теста. Однако этот коэффициент не чувствителен к пробелам в структуре учебных достижений, если при формировании параллельных вариантов теста стараются сохранить содержательную направленность заданий4;

  • внутренняя согласованность результатов теста (“internal consistency”) – является мерой гомогенности теста и показывает, действительно ли все задания теста измеряют один и тот же признак. Коэффициент надежности оценивается коэффициентом α-Кронбаха6: , где – дисперсия баллов j-го задания, – дисперсия тестового балла, m – количество заданий. Этот коэффициент учитывает погрешности измерения, связанные с угадыванием, невнимательностью, пробелами в структуре учебных достижений4;

  • надежность по частям теста;, также является показателем его гомогенности6. Выбираются две эквивалентные по характеру и трудности группы заданий5, которые рассматриваются как отдельные параллельные варианты теста6. В случае, когда тест разделен на две равные части, коэффициент надежности оценивается по формуле1: , де – коэффициент корреляции между баллами, набранными по каждой части теста. Приведенная формула получается из общей формулы Спирмана-Брауна для случая разделения теста пополам;

  • коэффициент структурированности знаний в соответствии с теорией надежности Л.Гуттмана определяется на основе анализа индивидуального профиля испытуемого по формуле , где ei,j – ошибки в индивидуальном профиле тестируемого, N – количество тестируемых, m – количество заданий в тесте. Следует отметить, что ошибки в индивидуальном профиле отражают не только пробелы в структуре учебных достижений, но и влияние других факторов, таких как погрешности в ранжировании заданий по трудности, угадывание, невнимательность.

 

Компоненты погрешности измерения

Все выше описанные способы оценки надежности являются интегральными и не позволяют анализировать степень влияния различных источников на суммарную погрешность тестовых результатов, в частности, не позволяют определить вклад недостаточной эквивалентности параллельных вариантов теста в суммарную погрешность измерения. Целесообразно анализировать погрешность измерения, разложив ее на компоненты в соответствии с источниками погрешности: угадывание, невнимательность, пробелы в структуре учебных достижений, недостаточная эквивалентность автоматически создаваемых компьютером параллельных вариантов теста4. Поскольку все компоненты погрешности – независимые случайные величины, то можно представить дисперсию суммарной ошибки измерения в виде

и каждую компоненту погрешности рассматривать отдельно. Такой подход позволяет оценить погрешность тестовых результатов каждого генерируемого компьютером варианта теста по данным апробации входящих в него заданий еще до того, как тестируемый выполнит этот тест. Для разработки оптимального алгоритма автоматической генерации теста особое значение имеет оценка компоненты погрешности, связанной со случайным выбором вариантов заданий, то есть .

Цель данной работы – создание метода предсказания возможного различия в результатах тестирования при замене некоторых заданий.

 

Вывод формулы для оценки возможного изменения тестового бала

при замене некоторых заданий

Для проведения анализа будем полагать, что зависимость вероятности правильного ответа от подготовленности студента может быть описана двухпараметрической моделью G.Rash:

,                (1)

где =1, если ответ i-го испытуемого на j-ое задание правильный; θi – логит знаний (уровень подготовленности); aj – параметр, который дает информацию о задании с точки зрения его дифференцирующей способности; bj – уровень трудности j-го задания теста, выраженный в логитах.

    Для определенности допустим, также, что расчет тестового балла осуществляется по методике, предложенной на основе работы В.В.Кромера. Чтобы исключить систематическое влияние правильных ответов, полученных в результате случайного угадывания, тестовый балл i-го испытуемого рассчитывается как доля осознанно правильных ответов:

/m,    де                     (2)

где j – номер задания; i – номер испытуемого; m – количество заданий в тесте; сj – вероятность случайного предоставления правильного ответа для j-го задания.

    Величину yi можно рассматривать как среднюю вероятность того, что студент способен правильно выполнить взятое наугад задание теста или как долю правильных ответов. Таким образом, можно прогнозировать изменение тестового балла yi при замене j-го задания другим при условии, что параметры a и b модели уже определены по результатам апробации заданий теста на некоторой репрезентативной случайной выборке студентов:

,

где приближенное значения уровня подготовленности может быть оценено через тестовый балл:

.

Безусловно, приведенная оценка является вероятностной и верна только как средняя при большом числе опытов. Истинное изменение тестового балла при одном замененном задании дискретно и может принимать значения 0, , или . Для достаточно большого числа замененных заданий в тесте получаем оценку изменения тестового балла:

.

Предположим, что автоматизированная система формирует индивидуальные варианты теста путем формирования каждого j-го задания на основе фасета или путем выбора из некоторой j-ой совокупности однотипных заданий в базе данных. Для краткости будем называть множество заданий, из которого осуществляется случайный выбор j-го задания для теста, j-ым блоком заданий. В этом случае, изменение тестового балла есть сумма взаимно независимых случайных величин. Следовательно, компонента дисперсии тестового балла, определяемая неэквивалентностью заданий, – есть сумма дисперсий величин :

, где, ,            (3)

 

– вероятность события, заключающегося в том, что i-ый студент способен дать правильный ответ на k-ое задание из j-го блока – оценивается на основе модели (1); – средняя для j-го блока вероятность события, заключающегося в том, что i-ый студент способен дать правильный ответ на задание; k – номер задания в блоке; zj – количество заданий в блоке.

 

Гипотетический эксперимент и обсуждение результатов

    Из формулы (3) видно, что рассматриваемая компонента погрешности уменьшается при увеличении числа заданий в тесте. Погрешность, связанная со случайным формированием варианта теста не может превышать максимального значения, которое определяется асимптотическим случаем, когда комплект заданий формируется путем равновероятного их выбора из множества предельно трудных (P = 0) и предельно легких заданий (P = 1). В этом случае , . Из сравнения полученного результата с нашими оценками компоненты погрешности, связанной с угадыванием правильных ответов , видно что погрешность, вносимая случайным формированием варианта теста не может превышать погрешности, вносимой угадыванием при выборе одного правильного ответа из 5 возможных.

    Чтобы понять, какую величину может иметь на практике погрешность измерения, связанная со случайным выбором заданий, рассмотрим гипотетический пример теста. Пусть тест состоит из 41 задания с равномерно распределенными от –1 до +1 значениями параметра трудности b, пусть параметр разделяющей способности для всех заданий. Пусть логит знаний испытуемых θ = 0, поскольку именно в этом случае погрешность максимальна. Пусть внутри каждого j-го блока параметр трудности заданий равновероятно принимает значения –Δb и +Δb. Тогда

,

,

На рис.1 представлены графики зависимости от вариации параметров трудности заданий в блоке Δb. На рис.2 представлена соответствующая оценка погрешности измерения для доверительной вероятности 95 %, в предположении, что вклад других источников погрешности пренебрежимо мал, по сравнению с влиянием различия трудности вариантов теста.

Компонента дисперсии тестового балла, связанная с вариацией трудности вариантов теста при m = 41 и θ = 0

Рис. 1.

 

Погрешность тестового балла для 95% доверительной вероятности, определяемая разбросом трудности вариантов теста при отсутствии других источников погрешности

(m = 41, θ = 0)

Рис. 2.

 

Величина погрешности, связанной с формированием вариантов в реальных тестах  

    Для обеспечения заданного коэффициента надежности необходимо . В предположении равномерного распределения тестового бала , получаем грубую оценку сверху . В реальных тестах эта величина меньше. Так, например, дисперсия тестового бала по результатам внешнего оценивания по математике 2006 года составляла 95,1 при максимально возможном тестовом балле 62, что в пересчете на нашу систему обозначений дает и . Например, чтобы обеспечить надежность 0,95 для реального теста при отсутствии других источников погрешности, кроме случайного выбора заданий, необходимо выполнение условия , что достигается при , как это видно из рис.1.

    Из выше сказанного следует, что погрешность измерения, определяемая случайным формированием вариантов теста, достаточно существенна. Поэтому важно изучить возможную вариацию трудности заданий в фасете, выяснить причины, вызывающие различие трудности внешне эквивалентных заданий, выработать педагогические рекомендации по созданию блоков параллельных заданий.

    Рассмотрим экспериментальные результаты, полученные при использовании автоматизированной системы педагогической диагностики «Эксперт». Она была создана для организации самостоятельной работы студентов и проведения модульного контроля по курсам «Математические методы в психологии» и «Теоретические основы информатики» в Харьковском национальном педагогическом университете имени Г.С.Сковороды. В таб.1 представлены статистические характеристики для некоторых блоков заданий. Оценка параметра трудности b производилась по однопараметрической модели G.Rash (a = 1), без выполнения итераций, то есть, логит подготовленности студента вычислялся на основе тестового балла по формуле . Такой подход оправдывается тем, что модель G. Rash применяется в данной работе только для оценки погрешности;  цель работы – определение погрешности тестового балла, вычисленного по формуле (2).

 

Статистические характеристики блоков заданий

Таблица 1.

№ блока

Способ создания вариантов задания

Коэффициент корреляции задания с оценкой по 12-бальной шкале

Среднее по блоку значение параметра трудности задания b,

Стандартное отклонение значений b среди заданий блока,

sb

Объем выборки по всем заданиям блока

241

Фасет

0,42

-0,69

0,14

6230

240

Фасет

0,43

-0,70

0,14

6230

290

перестановка дистракторов

0,33

-0,75

0,24

2797

390

перестановка дистракторов

0,42

0,54

0,27

1389

248

Фасет

0,45

0,00

0,33

6230

217

Фасет

0,33

-1,07

0,36

110

254

Ситуации

0,32

-0,17

0,41

6230

38

числовой фасет

0,32

-0,79

0,46

697

214

числовой фасет

0,30

-0,58

0,46

3004

35

Ситуации

0,35

0,29

0,47

703

37

числовой фасет

0,34

-0,51

0,47

463

88

два числовых фасета

0,34

-0,07

0,48

47

31

числовой фасет

0,47

-0,84

0,54

3007

213

числовой фасет

0,33

-0,13

0,55

3003

40

два фасета

0,43

0,63

0,57

3014

30

числовой фасет

0,48

-0,79

0,61

3007

89

два числовых фасета

0,44

0,66

0,67

62

42

два фасета

0,39

0,19

0,74

657

32

числовой фасет

0,45

-0,39

0,76

3007

41

два фасета

0,40

-0,43

0,81

657

36

числовой фасет

0,40

0,87

0,82

700

327

три фасета

0,33

-1,08

0,87

318

252

три фасета

0,33

-0,09

0,88

1135

249

Фасет

0,36

-0,78

0,92

6230

91

разные наборы дистракторов и разное задание

0,67

1,58

0,98

643

269

Фасет

0,71

-0,32

1,05

1580

259

Ситуации

0,36

-0,35

1,17

1135

86

Фасет

0,39

-0,13

1,23

643

218

три числовых фасета

0,77

-1,21

1,43

102

 

 

    Наиболее сбалансированными по трудности заданий оказались блоки 241 и 240 (табл.1). Примеры заданий из блока 240 (всего в блоке 6 заданий) представлены на рис.3.

 

Задания, близкие по трудности

Рис. 3.

 

    Блок 290 содержит 4 задания, отличающиеся только взаимным расположением дистракторов (рис.4). Трудность этих заданий действительно очень близка, однако наблюдаемые различия эмпирической трудности являются статистически значимыми. Оценка параметра b модели G.Rash проведена нами приближенно. Поэтому для доказательства значимости различий лучше использовать классическую характеристику эмпирической трудности задания, определяемую как доля правильных ответов. Здесь используется эта характеристика с поправкой на угадывание9.

Статистический анализ проведён на основе критерия Пирсона. Нулевая гипотеза «трудность всех четырех заданий одинакова» должна быть отклонена на уровне значимости 0,05 в пользу альтернативной гипотезы «задания различаются по трудности», поскольку рассчитанное значение вероятности ошибки первого рода равно 0,02 и меньше, чем 0,05. Задание, в котором правильный вариант ответа расположен в конце списка, оказалось труднее других. Повторение статистического анализа без этого задания доказывает параллельность по трудности оставшихся трех заданий (вероятность ошибки первого рода равна 0,83, что не позволяет отклонить нулевую гипотезу).

 

Задания, отличающиеся только взаимным расположением дистракторов

(так выглядит задание после того, как студент выберет правильный ответ)

 

Доля правильных ответов 0,604.

Объем выборки 685.

 

Доля правильных ответов 0,588.

Объем выборки 697.

 

Доля правильных ответов 0,528.

Объем выборки 695.

Это задание труднее других.

 

Доля правильных ответов 0,593.

Объем выборки 720.

 

Рис.4.

 

    Близкие по трудности задания блока 390, также, отличаются только перестановкой дистракторов. Наиболее трудными оказались 2 задания из 7, одно из них имеет расположение правильного ответа в конце списка дистракторов. Однако объем выборки не достаточен для доказательства значимости различий с доверительной вероятностью 95%.

    Задания блока 248 являются обратными по отношению к заданиям блоков 241 и 240, в них требуется выбрать из списка, что вычисляет формула. Различие эмпирической трудности внутри блока определяется содержанием заданий, но удовлетворяет описанным выше требованиям.

Задания блока 217 формируются на основе фасета с изменяющимся числовым параметром в задании и фиксированным набором дистракторов. Задание, для которого правильный ответ оказался расположенным в конце списка дистракторов, характеризуется долей правильных ответов 0,65 против 0,74 у другого задания, однако, объем выборки не достаточен для доказательства значимости различий.

Блок 214 формируется на основе фасета заданий открытой формы (ввод числового ответа):

 

ДЕСЯТИЧНОЕ ЧИСЛО В ДВОИЧНОЙ СИСТЕМЕ СЧИСЛЕНИЯ ИМЕЕТ ВИД ___

 

Задание приведено в переводе с украинского языка. Различие трудности заданий, получаемых на основе этого фасета доказано с помощью критерия Пирсона с вероятностью ошибки 10-12. Доля правильных ответов на задания, предполагающие перевод в двоичную систему счисления четных чисел, находится в пределах 0,6...0,7, в то время как эта характеристика для заданий по переводу нечетных чисел составляет 0,75...0,78. Более высокая трудность перевода четных чисел объясняется особенностями алгоритма выполнения действий. Данный факт показывает, что сам по себе фасетный подход к формированию вариантов заданий не обеспечивает параллельности по трудности. Даже незначительные различия числовых параметров в формулировках заданий могут приводить к существенным изменениям умственных действий, которые необходимо выполнить испытуемому для правильного ответа на задание. Следует с осторожностью подходить к автоматизации формирования заданий и обязательно предусматривать экспертную оценку качества каждого задания, которое может быть сформировано на основе фасета, с последующим наблюдением за статистическими характеристиками задания в процессе эксплуатации теста.  

    Как пример блока, построенного на основе фасета с внешне однородными вариантами, но разной трудностью, целесообразно рассмотреть блок 86. Ниже приводятся задания этого блока в переводе с украинского языка с указанием доли правильных ответов:

 

1. ЧИСЛО БИТ В 1 БАЙТЕ ______

(доля правильных ответов 0,76)

 

2. ЧИСЛО БАЙТ В 1 КИЛОБАЙТЕ ______

(доля правильных ответов 0,52)

 

3. ЧИСЛО КИЛОБАЙТ В 1 МАГАБАЙТЕ ______

(доля правильных ответов 0,31)

    Это задание соответствует начальному уровню учебных достижений, оно предлагалось только тем студентам, которые получили неудовлетворительные оценки по результатам предварительного тестирования12, поэтому, доля правильных ответов невелика. Из приведенных данных видно, что различия трудности заданий блока 86 существенны, статистический анализ на основе критерия Пирсона подтверждает этот вывод с вероятностью ошибки 10-14. Единицы измерения количества информации по-разному усваиваются студентами, недоучившими материал.

    Из проведенного анализа экспериментального материала видно, что наименьшая вариация по трудности заданий блока обеспечивается, когда варианты заданий отличаются только взаимным расположением дистракторов. В этом случае стандартное отклонение параметра трудности b в блоке заданий может достигать sb=0,27, доля правильных ответов на задания может отличаться на 0,07...0,09. Формирование заданий на основе фасета в нашем эксперименте приводит к стандартному отклонению параметра трудности заданий в блоке от 0,14 до 1,23. В случаях, когда фасет содержит только один числовой параметр, sb=0,46...0,82. Задания с одинаковыми наборами дистракторов, предполагающие оценку сходных ситуаций обеспечивают sb от 0,41 до 1,17.  Наибольшая вариация параметров трудности заданий в блоке имеет место, когда задания блока отличаются по формулировке и набору дистракторов, хотя и направлены на проверку одного учебного содержания (sb =0,98) и в случаях, когда одно задание содержит несколько фасетов (sb =0,48...1,43). Понятно, что все приведенные цифры отражают только опыт конкретного эксперимента и не могут быть обобщены для других тестов, без дополнительного анализа.

 

Выводы

1.    Предложена формула для оценки компоненты погрешности измерения учебных достижений с помощью автоматизированных систем диагностики, которая вызвана случайным формированием вариантов теста.

    2.    Проведенные оценки показывают, что погрешность измерения, связанная со случайным формированием вариантов теста существенна, однако она не превышает погрешности угадывания при случайном выборе одного правильного ответа из 5 предложенных.

    3.    Исследуемая компонента погрешности уменьшается при увеличении числа заданий в тесте.

    4.     На основе анализа экспериментальных данных, полученных при проведении диагностики учебных достижений студентов в реальном учебном процессе, определены возможные пределы изменения параметров, характеризующих вариацию по трудности заданий.

    5.     Обнаружено, что перестановка местами дистракторов может приводить к статистически значимым изменениям трудности заданий. В нашем примере доля правильных ответов на 0,07...0,09 меньше для заданий, в которых правильный вариант ответа расположен в конце списка дистракторов.

    6.    Показано, что получение параллельных заданий на основе фасета эффективно. Однако, для каждого из заданий, которые могут быть получены на основе фасета, необходим предварительный экспертный анализ их трудности, с последующим анализом доли правильных ответов. Часто задания, отличающиеся только числовым параметром, имеют существенно различную трудность.

    В перспективе данного исследования предполагается разработать методические рекомендации авторам тестов для автоматизированных систем педагогической диагностики, а также создать системы, способные оценивать точность результатов непосредственно в процессе тестирования на основе предложенных формул.

Рейтинг всех персональных страниц

Избранные публикации

Как стать нашим автором?
Прислать нам свою биографию или статью

Присылайте нам любой материал и, если он не содержит сведений запрещенных к публикации
в СМИ законом и соответствует политике нашего портала, он будет опубликован