29 мая 2018
2631

Модель нечеткого оценивания как методологический базис автоматизации педагогического тестирования знаний

И.Д. Рудинский

Опубликовано в ж. «Педагогические Измерения» №2, 2005 года.

Анализ проблемы

Традиционные способы контроля и оценивания знаний путем тестирования сводятся к предъявлению обучаемому фиксированного множества тестовых заданий и различных вариантов ответов на каждое из них. Задача обучаемого состоит в выборе одного или нескольких, правильных, по его мнению, ответов на каждое тестовое задание. Основу этих способов составляет оценивание истинности предлагаемых вариантов ответов с позиций классической двоичной логики в категориях “правильно – неправильно”, что требует от организатора тестирования признать абсолютную истинность одного или нескольких вариантов ответа и абсолютную ложность – всех остальных вариантов.

Органический недостаток подобного подхода заключается в невозможности учитывать при тестировании неполные или не совсем точные ответы обучаемого, принимаемые во внимание преподавателем в ходе очного диалогового оценивания знаний. Особенно остро этот недостаток проявляется при попытке организовать автоматизированное тестирование знаний по дисциплинам, характеризующимся высокой диалектичностью (в частности, по предметам гуманитарного, социально-экономического и общественно-политического циклов). Степень формализации знаний по этим дисциплинам недостаточна для формулирования единственного абсолютно правильного ответа, а их контроль не может сводиться к проверке того, насколько хорошо помнит экзаменуемый отдельные факты, точные определения или конкретные формулы и правила их применения.

В то же время, естественный и повсеместно практикуемый подход к оцениванию знаний преподавателем в процессе диалога с обучаемым заключается в определении степени истинности ответов, т.е. в априори признаваемой принципиальной возможности получения частично правильного (не совсем точного) ответа и выведения итоговой оценки - на основании того, насколько модель знаний обучаемого, реконструируемая на основании его ответов, близка к эталонной модели знаний.

Истинность ответов – это субъективный фактор, поскольку каждый преподаватель, не обладая абсолютными знаниями по конкретной дисциплине, способен оценивать правильность ответа только исходя из того объема знаний, которым он обладает на момент проведения проверки. Для “точных” дисциплин (в частности, естественно-научного цикла) вопрос соответствия частных моделей знаний отдельных преподавателей “абсолютному знанию” не является острым (правильный ответ на вопрос “чему равно произведение 2 ´ 2 в десятичной системе счисления?” очевиден для любого преподавателя математики и других “точных” дисциплин). Однако проблема субъективности знаний по дисциплинам, например, общественно-политического цикла весьма актуальна, причем на признание истинности или ложности конкретного ответа могут оказывать влияние различные факторы, в том числе и политическая ориентация преподавателя. В частности, можно предполагать, что истинность утвердительного ответа на вопрос: “Была ли роль КПСС в истории развития России положительной?” будет оцениваться диаметрально противоположно преподавателями, придерживающимися либерально-демократических и коммунистических взглядов.

Диалектический характер вопросов, исследуемых в гуманитарных дисциплинах, в подавляющем большинстве случаев не позволяет давать на них абсолютно истинные ответы (за исключением вопросов типа “В каком году произошло событие Х?” или “Кто был автором произведения Y?”). Действительно, можно ли предложить абсолютно истинный (по крайней мере, признаваемый таковым ведущими специалистами по отечественной истории) ответ на вопрос: “Почему после победы в Бородинском сражении русские войска оставили Москву”? Как показано в [1], наиболее целесообразными считаются коллективные экспертные оценки степени истинности ответов, однако и они при использовании категорий “правильно – неправильно” зачастую оказываются неэффективными из-за разделения экспертов на группы, приводящего к недостаточной согласованности коллективного мнения.

Наиболее общая из традиционных форм построения множества V = {vj} тестовых заданий в заданиях с выбором одного или нескольких правильных ответов [2] допускает, что для каждого задания vj Î V тестируемому предлагаются 1 £ n < Lj правильных и (Lj n) неправильных вариантов ответов (здесь Lj – общее количество вариантов ответов на задание vj). Однако подобный подход для большинства слабо формализованных дисциплин остается слишком сильным упрощением, вследствие которого тестирование знаний по таким дисциплинам считается недостоверным и нецелесообразным.

Изучение результатов использования автоматизированных систем контроля знаний в высших и других учебных заведениях показывает, что невозможность учесть в категориях классической двоичной логики (“правильно – неправильно”) неполные или не совсем точные ответы, принимаемые во внимание преподавателем в ходе очного оценивания знаний, часто называется одной из главных причин, вызывающих настороженное и даже негативное отношение педагогов к тестированию как форме проверки знаний [3].

Отдельные технологические усовершенствования тестового процесса - ограничение времени сдачи теста, прекращение тестирования при вводе априори заданного количества ошибочных ответов, сортировка предъявляемых вопросов по уровню сложности и т.п.) - не носят принципиального характера, а лишь позволяют субъективировать процесс оценивания знаний, адаптируя его к особенностям и предпочтениям конкретного преподавателя-технолога.

Следовательно, для автоматизированного тестирования знаний по недостаточно строго формализованным дисциплинам необходим принципиально иной подход к оцениванию правильности ответов на предъявляемые вопросы, чем, например, при проверке знаний правил дорожного движения. Этот подход должен заключаться в априорном экспертном определении того, в какой степени можно считать истинным и в какой степени ложным каждый из наиболее вероятных ответов тестируемого.

 

Содержательная постановка задачи нечеткого оценивания знаний. Математический аппарат, более адекватный предлагаемому подходу, чем классическая двоичная логика, связан с исчислением нечетких множеств и отношений [4]. Методы этого направления позволяют получать количественную оценку принимаемых решений по их качественным описаниям. Применительно к формированию вариантов ответов на тестовые задания это означает, что организатор тестирования получает возможность задавать степень истинности каждого ответа путем построения так называемой функции принадлежности его к используемой шкале оценивания истинности. Таким образом, появляется принципиальная возможность формулировать и предъявлять экзаменуемому варианты ответов, степень истинности которых не может быть однозначно определена в категориях “правильно” или “неправильно”. Для таких ответов в качестве шкалы оценивания может применяться, в частности, предложенная в [5] пятизначная лингвистическая шкала вида

 

I = [«правильно», «неполно», «неточно», «неопределенно», «неправильно»]

 

либо другие привычные для организатора тестирования оценочные категории. При этом для количественного учета истинности выбираемых ответов и расчета итоговой оценки служит аппарат нечеткой алгебры [4].

Истинность каждого варианта ответа характеризуется функцией принадлежности, заданной на лингвистической переменной, в качестве базового множества дискретных значений которой используется лингвистическая оценочная шкала. Совокупность вариантов ответов на каждое тестовое задание представляется нечетким множеством, каждый элемент которого – пара вида (<вариант ответа>; <функция принадлежности>). В ходе тестирования оценивается степень «суммарной» истинности ответов обучаемого на все предъявленные тестовые задания. Этот показатель рассчитывается с использованием аппарата нечеткой алгебры путем построения функции принадлежности совокупности выбранных ответов применяемой лингвистической шкале.

Для вывода итоговой оценки используется эталонная шкала оценивания результатов тестирования. Эта шкала также представляется нечетким множеством, каждый элемент которого – пара вида (<оценка>; <функция принадлежности>). Оценка знаний тестируемого выводится в процессе сравнения функции принадлежности совокупности выбранных ответов с эталонными функциями принадлежности каждой оценки шкалы итогового оценивания. В качестве итоговой оценки принимается та, для которой скалярное расстояние между ее функцией принадлежности и функцией принадлежности совокупности выбранных ответов оказывается минимальным.

 

Модель нечеткого оценивания знаний

Формальная модель нечеткого оценивания знаний может быть представлена следующим образом [3].

Определим процедуру Р задания степени истинности предлагаемых вариантов ответов на каждое тестовое задание  vj Î V формализмом

 

"vjÎV: Р:(vj, МЕ, I)® Аj = {(aij;mij)}, ,

 

где МЕ – эталонная модель знаний (с некоторым упрощением можно считать, что в ее роли выступает коллегиальное мнение экспертов, взаимодействующих с  организатором тестирования);

I – лингвистическая переменная, базовое множество значений которой представляет собой применяемую лингвистическую шкалу оценивания истинности ответов;

Aj = {(aij;mij)},  – нечеткое множество вариантов возможных ответов (здесь Lj – мощность множества Aj, т.е. количество вариантов ответов на тестовое задание vjÎV, aiji–й вариант ответа на j–е задание, mij – функция принадлежности, определяющая степень истинности ответа aij).

Шкала оценивания истинности ответов задается лингвистической переменной I = [I1, I2, ..., Ik], где k – количество значений I, а Il,  – значения, используемые в качестве оценочных категорий при построении функций принадлежности. Например, для 5-значной лингвистической шкалы I = [«правильно», «неполно», «неточно», «неопределенно», «неправильно»]    k = 5 и, соответственно, I1 = «правильно», I2 = «неполно», ...,                             I5 = «неправильно».

Для вывода итоговой оценки по результатам тестирования формируется эталонная шкала итоговых оценок в виде нечеткого множества

 

SO = {(sr; mr)}, ,

 

где R – количество значений итоговой оценки, выставляемой по результатам тестирования;

 srr-е значение оценки;

 mr – эталонная функция принадлежности, определяющая, в какой степени истинность совокупности выбранных тестируемым ответов на предъявленные тестовые задания соответствует оценке sr.

Так, для принятой в России четырехбалльной системы оценивания знаний R = 4 и, соответственно, s1 = “неудовлетворительно”,                            s2 = “удовлетворительно”,   s3 = “хорошо”, s4 = “отлично”.

Эталонные функции принадлежности mr задаются в виде 

 

mr = {O1r/I1, O2r/I2, ..., Okr/Ik},

 

где Olr,  – степень соответствия совокупности ответов тестируемого оценочной категории Il.

Например, при использовании приведенной выше 4-значной шкалы итогового оценивания организатор тестирования может задать эталонную функцию принадлежности оценки s4 = “отлично” в виде

 

m4 = {1/правильно, 0.3/неполно, 0.1/неточно, 0.0/неопределенно, 0.0/неправильно},

 

а эталонную функцию принадлежности оценки s2 = “удовлетворительно” – в виде

 

m2 = {0.2/правильно, 0.4/неполно, 0.9/неточно, 0.7/неопределенно, 0.3/неправильно}.

 

Для контроля знаний обучаемого формируется конечное множество тестовых заданий

V = {vj}, ,

где Jmax – количество заданий, включенных в множество V.

Для каждого j-го задания vj ÎV создается нечеткое множество вариантов возможных ответов Aj = {(aij;mij)}, . Функции принадлежноcти mij определяются в виде

 

mij = {O1/I1, O2/I2, ..., Ok/Ik},

 

где Ol,  – степень соответствия ответа aij оценочной категории Il. Так, например, при использовании приведенной выше 5-значной шкалы оценивания степень истинности некоторого ответа aij может иметь вид

 

mij = {0.4/правильно, 0.8/неполно, 0.6/неточно, 0.2/неопределенно, 0.0/неправильно}.

 

При проведении автоматизированного контроля знаний теcтируемому последовательно предъявляются включенные в носитель ST теста Т задания vjkiÎ ST и варианты ответов Aj = {aij}, на каждое j-е задание. На основании выбранных вариантов ответов a*ij Î Aj  и соответствующих этим ответам функций принадлежности  рассчитывается истинность совокупности выбранных тестируемым ответов  на  все  задания  теста  в  виде функции принадлежности mS, нормированной относительно количества заданий n:

Итоговая оценка OT за тест определяется по результатам сравнения mS со всеми эталонными функциями принадлежности mr. Для каждого допустимого значения оценки sr Î вычисляется скалярное расстояние  между ее функцией принадлежности mr и функцией принадлежности совокупности выбранных ответов mS:,

где символом \ обозначена операция вычисления скалярного расстояния.

Расчетная формула для получения конкретного значения  зависит от выбора метрики определения расстояния между векторами. Так, в частности, при использовании меры Хемминга [4] значение  вычисляется по формуле,

а при использовании меры Эвклида [4] значение  вычисляется по формуле

В качестве итоговой оценки принимается то значение оценки sr Î , для которого скалярное расстояние  между ее функцией принадлежности mr и функцией принадлежности совокупности выбранных ответов  оказывается минимальным:.

Например, если эталонные функции принадлежности итоговых оценок описываются табл. 1, а функция принадлежности совокупности выбранных ответов mS имеет вид

 

mS = {0.7/правильно, 0.2/неполно, 0.3/неточно, 0.1/неопределенно, 0.2/неправильно},

 

то скалярные расстояния (по Хеммингу) до итоговых оценок рассчитываются согласно табл. 2:

 

Таблица 1. Эталонные функции принадлежности итоговых оценок

 

Оценка

sr

Оценочная категория

правильно

не совсем правильно

неполно

неточно

неправильно

Неудовлетворительно

0

0

0,1

0,3

1

Удовлетворительно

0,2

0,4

0,9

0,7

0,3

Хорошо

0,7

0,9

0,7

0,3

0,1

Отлично

1

0,3

0,1

0

0

 

Минимальным оказывается расстояние до оценки “отлично” (см. табл. 2), поэтому за выполнение такого гипотетического теста обучаемому можно выставить оценку “отлично”.

 

Таблица 2. Расчет скалярных расстояний до итоговых оценок

Итоговая оценка

Скалярное расстояние между mS и mr

Неудовлетворительно

|0,7 – 0| + |0,2 – 0| + |0,3 – 0,1| + |0,1 – 0,3| + |0,2 – 1| =

0,7 + 0,2 + 0,2 + 0,2 + 0,8 = 2,1

Удовлетворительно

|0,7 – 0,2 | + |0,2 – 0,4| + |0,3 – 0,9| + |0,1 – 0,7| + |0,2 – 0,3| =

0,5 + 0,2 + 0,6 + 0,6 + 0,1 = 2,0

Хорошо

|0,7 – 0,7| + |0,2 – 0,9| + |0,3 – 0,7| + |0,1 – 0,3| + |0,2 – 0,1| =

0 + 0,7 + 0,4 + 0,2 + 0,1 = 1,4

Отлично

|0,7 – 1| + |0,2 – 0,3| + |0,3 – 0,1| + |0,1 – 0| + |0,2 – 0| =

0,6 + 0,1 + 0,2 + 0,1 + 0,2 = 1,2

 

Отметим, что нечеткое определение степени истинности ответов функцией принадлежности не отрицает традиционного двоичного определения истинности по шкале “правильно – неправильно”. Можно выделить две ситуации. В первой при использовании многозначной (n  > 2) шкалы оценивания организатор тестирования может определить степень истинности некоторых вариантов ответов  а1j, a2j Î Aj , например, в виде 

 

m1j = {1.0/правильно, 0.0/неполно, 0.0/неточно, 0.0/неопределенно, 0.0/неправильно}

и

m2j = {0.0/правильно, 0.0/неполно, 0.0/неточно, 0.0/неопределенно, 1.0/неправильно}.

 

Это означает, что ответ а1j считается однозначно правильным, а ответ a2j – однозначно неправильным. При этом степени истинности других вариантов ответов могут быть нечеткими.

Во второй ситуации организатор тестирования изначально формирует    2-значную лингвистическую шкалу оценивания истинности, имеющую вид      I = [I1, I2] со значениями I1 = “правильно”, I2 = “неправильно”.  В этом случае функции принадлежности mij ответов aij Î Aj могут принимать только одну из двух форм: mij = {1.0/правильно, 0.0/неправильно} для каждого правильного ответа и mij = {0.0/правильно, 1.0/неправильно} для каждого неправильного ответа.

Следовательно, можно утверждать, что традиционное однозначное оценивание степени истинности ответов по двоичной шкале “правильно – неправильно” является вырожденным случаем нечеткого оценивания степени истинности многозначной функцией принадлежности.

Пример нечеткого оценивания знаний

Пусть для задания степени истинности предлагаемых вариантов ответов используется лингвистическая переменная I, имеющая k = 5 значений (I1 = “правильно”, I2 = “неполно”, I3 = “неточно”, I4 = “неопределенно”, I5 = “неправильно”). Шкала итоговых оценок имеет R = 4 значения: s1 = “неудовлетворительно”, s2 = “удовлетворительно”, s3 = “хорошо”, s4 = “отлично”. Двум тестируемым предлагается один и тот же тест Т, состоящий из n = 10 заданий. Для каждого j-го задания vj Î ST сформулировано от 3 до 4 вариантов ответов Aj = {(aij;mij)}, функции принадлежности которых приведены в столбцах 3–7 табл. 3. При выводе итоговых оценок по результатам тестирования используется эталонная шкала итоговых оценок, функции принадлежности которой заданы табл. 4. Для определения скалярного расстояния  между эталонными функциями принадлежности mr оценок sr Î и функцией принадлежности совокупности выбранных ответов mS используется мера Хемминга. Тестовые задания представлены в закрытой форме, и при выполнении каждого из них тестируемые должны выбрать единственный (по мнению каждого из них – наиболее близкий к правильному) вариант ответа.

При проведении автоматизированного контроля знаний каждому тестируемому последовательно предъявляются включенные в тест Т задания vjki Î ST и варианты ответов на них Aj = {aij}. Выбранные тестируемыми ответы обозначены символом “*” в столбцах 8 и 9 табл. 3. Рассчитанные по ответам тестируемых значения функций принадлежности mS, которыми характеризуется истинность совокупностей выбранных каждым тестируемым ответов, приведены в табл. 5. Рассчитанные по мере Хемминга значения скалярных расстояний  для ответов каждого тестируемого приведены в столбцах 2–5 табл. 6. Итоговые оценки, выставленные каждому тестируемому, приведены в столбце 6 табл. 6.

Вычислительная сложность представленной математической модели и применяемый формально-математический аппарат не должны восприниматься как препятствие на пути ее практического применения. Модель создана с расчетом на реализацию с применением современных информационных технологий, поэтому все вычислительные процедуры будут скрыты «под оболочкой» дружественного к пользователю внешнего интерфейса системы тестирования, а методика построения функций принадлежности и других компонентов модели формулируется в терминах, привычных и понятных специалистам–экспертам.

 

Таблица 3.  Функции принадлежности вариантов ответов на задания теста

 

Номер

задания

j

Номер

ответа

на

 j –е задание

i

 

Функция принадлежности

mij

 

Ответы

тестируемых

 

I1

I2

I3

I4

I5

1–й

2–й

 1

2

3

4

5

6

7

8

9

1

1

0

0

0.3

0.6

0.9

 

 

 

2

1

0.1

0

0

0

*

 

 

3

0.1

0.3

0.8

0.6

0.3

 

*

2

1

0.1

0.2

0.4

0.6

0.9

 

 

 

2

0.2

0.6

0.9

0.8

0.7

 

*

 

3

1

0.1

0

0

0

*

 

 

4

1

0.1

0

0

0

 

 

 

     Таблица 3 - окончание

 

 

 

 

 

 

 

 

1

2

3

4

5

6

7

8

9

3

1

1

0.1

0

0

0

 

*

 

2

0.1

0.2

0.6

0.7

0.9

 

 

 

3

0.2

0.4

0.7

0.8

0.9

*

 

4

1

0.2

0.6

0.9

0.8

0.4

 

 

 

2

1

0.1

0

0

0

 

*

 

3

0.8

0.5

0.3

0.2

0.1

*

 

 

4

0

0

0

0.1

1

 

 

5

1

0

0.2

0.4

0.8

1

 

 

 

2

0.2

0.4

0.7

0.6

0.4

 

*

 

3

0

0.1

0.4

0.8

0.5

 

 

 

4

1

0.1

0

0

0

*

 

6

1

0

0.3

0.6

0.5

0.3

 

 

 

2

0.1

0.5

0.7

0.4

0.1

 

*

 

3

1

0.1

0

0

0

 

 

 

4

0.7

0.8

0.5

0.2

0

*

 

7

1

0

0.1

0.6

0.7

0.4

 

*

 

2

1

0.2

0

0

0

*

 

 

3

0

0

0.1

0.7

0.9

 

 

8

1

1

0.1

0

0

0

*

 

 

2

0

0.1

0.4

0.8

0.5

 

*

 

3

0.8

0.5

0.3

0.2

0.1

 

 

 

4

0.7

0.8

0.5

0.2

0

 

 

9

1

0.1

0.2

0.4

0.6

0.9

 

 

 

2

0.3

0.6

0.9

0.6

0

 

 

 

3

0

0.3

0.8

0.6

0.3

 

*

 

4

1

0.1

0

0

0

*

 

10

1

1

0.1

0

0

0

*

 

 

2

0

0.1

0.6

0.7

0.4

 

 

 

3

0

0.2

0.4

0.8

1

 

*

 

4

0.1

0.2

0.4

0.6

0.9

 

 

 Таблица 4.  Функции принадлежности эталонной шкалы итоговых оценок

 

Оценка

Sr

Функция принадлежности

mr

I1

I2

I3

I4

I5

Неудовлетворительно

0

0

0.1

0.3

1

Удовлетворительно

0.2

0.4

0.9

0.7

0.3

Хорошо

0.7

0.9

0.7

0.3

0.1

Отлично

1

0.3

0.1

0

0

 

Таблица 5.  Расчетные функции принадлежности совокупностей

                       ответов тестируемых

 

Тестируемый

Функция принадлежности

mS

I1

I2

I3

I4

I5

1–й

0.87

0.24

0.15

0.12

0.1

2–й

0.25

0.27

0.53

0.53

0.38

 

Таблица 6.   Вывод итоговых оценок

 

Тестируемый

Скалярное расстояние до оценки

 

Итоговая

оценка

 

Неуд.

Удовл.

Хорошо

Отлично

1–й

2.24

2.36

1.56

0.46

Отлично

2–й

1.8

0.8

1.76

2.12

Удовл.

 

 

ЛИТЕРАТУРА

 

1.  Аванесов В.С. Композиция тестовых заданий. – М.: 3 изд. Центр тестирования, 2002. – 239 с.

2. Рудинский И.Д. Основы формально-структурного моделирования систем обучения и автоматизации тестирования знаний. – М.: Горячая линия – Телеком, 2004. – 204 с.

3. Рудинский И.Д., Клеандрова И.А.  Математические основы педагогического тестирования знаний. Часть 1. Модели нечеткого оценивания знаний и количественного оценивания степени объективности тестирования. – Калининград, 2003. – 70 стр.

4. Кофман А. Введение в теорию нечетких множеств. – М.: Радио и связь, 1982. – 432 с.

5. Рудинский И.Д., Грушецкий С.В. Многозначная лингвистическая шкала оценивания истинности тестовых заданий // Сборник трудов XXIII МНТК «Проблемы обеспечения эффективности и устойчивости функционирования сложных технических систем». – Серпухов, 2004, ч.5. – 3 с.

Рейтинг всех персональных страниц

Избранные публикации

Как стать нашим автором?
Прислать нам свою биографию или статью

Присылайте нам любой материал и, если он не содержит сведений запрещенных к публикации
в СМИ законом и соответствует политике нашего портала, он будет опубликован