Валентин Идиатулин
ФГОУ ВПО Ижевская государственная сельскохозяйственная академия
Опубликовано в ж. «Педагогические Измерения» № 1, 2005 год.
root @ isa.nivad.ru
Рассмотрены вопросы разработки тестов уровней обученности и их применения для дидактических исследований. Обсуждаются принципы составления тестовых заданий с выбором одного правильного ответа, описываются способы их эмпирической проверки. Приводятся результаты исследования структуры обученности студентов.
Субъекты обучения не тождественны по миропониманию, мотивации, ценностям, структурам знаний и способам усвоения [7]. Гетерогенность обучаемых, делает неразрешимой практически любую дидактическую задачу [3]. Это требует диагностики каждого обучаемого, измерения структуры его обученности на всех этапах. Цель настоящей работы – изучение обученности студентов и ее отражение в тестовой форме. Это потребовало выделения в структуре обученности трех уровней усвоения базового для учебной дисциплины и отдельно остального программного учебного материала. Первый уровень назван фактуальным, он проверяет усвоение фактов, определений, терминов, понятий, формул, формулировок, всего того, что можно усвоить и выучить. Второй – уровень умений выполнять операции по освоенному правилу, алгоритму, образцу…, т. е. того, чему можно научиться. Третий – уровень эвристического анализа нетиповых заданий, требующий трансформации усвоенного, интуиции и логики, развития способностей.
Пропозициональный характер хранения учебного знания [6, 11] дает возможность представления диагностируемой части учебного материала в виде утверждений и высказываний, отражающих основные положения, факты и понятия, формулы и выражения, следствия и выводы, составляющие содержание курса в их логической последовательности [8]. С целью разработки средств измерения многомерной структуры обученности система утверждений преобразована в форму тестовых заданий разных уровней [10]. При этом содержательная основа (stem) задания на фактуальном уровне повторяет сформулированное утверждение, на операционном на его основе предлагается сделать расчет, на эвристическом стем включает в себя нестандартную либо проблемную ситуацию, устанавливающую связи утверждений, их причины и следствия. Переформулировка задания была необходима также для формирования вариативных частей стема (фасетов) и составления достаточного числа дистракторов, т.е. выражений, включение которых в утверждение, превращает его в ложное высказывание, которое обучаемый ошибочно принимает за истинное из-за неполноты, непрочности, неуверенности в своих знаниях, несформированности умений и навыков, либо из-за неразвитости способностей к трансформации знаний.
Принципы составления дистракторовПри составлении дистракторов использовано большое число принципов, достаточно полно описанных в учебной книге [1], с теми ограничениями, которые накладывали форма и вид разработанных заданий, и личный опыт автора. В частности, сравнительно редко употреблен принцип формального противоречия, который широко применяется в заданиях с одним дистрактором, отрицающим истинное утверждение. Зато очень часто использован принцип противоречия диалектического, в соответствии с которым дистрактор представляет собой не формальное отрицание, а конструктивное высказывание другого утверждения или его отрицания. Так для утверждения, что объект обладает данным свойством, могут быть составлены дистракторы, согласно которым объект может обладать рядом других свойств, отличных от данного. Это расширяет число дистракторов, а также способствует более полному пониманию.
Наиболее просто составлять дистракторы по принципу однородности, перечисляя варианты ответов. Принцип кумуляции, при котором содержание дистракторов вбирает в себя часть предыдущих, ставит их в зависимость друг от друга. Менее полные ответы тоже бывают верными, в связи с чем в инструкции по тестированию приходится требовать выбора наиболее правильного из них. Для параллельных заданий использованы принципы фасетности и обратимости. Последняя удобна на операционном уровне, когда расчетное выражение связывает несколько величин, каждая из которых может выводиться за пределы стема задания и сопровождаться набором дистракторов, мотивированных либо типичными ошибками обучаемых, либо стремлением к упрощению процедуры вычислений.
В естественнонаучных дисциплинах важен принцип импликации, который отражает причинно-следственные или логические связи; при этом функциональная связь не всегда является причинно-следственной. Принцип градуирования степени какого-либо свойства дает возможность проверки усвоения хода зависимостей. Здесь полезны варианты: с ростом параметра значение величины убывает, возрастает, не меняется, достигает экстремума, проходит через него, колеблется около среднего значения и т.п.
Принцип неотрицательности дидактически не является абсолютным. Так, известно несколько эквивалентных формулировок второго начала термодинамики, но едва ли целесообразно сочинять другие в достаточном для набора дистракторов количестве. Форма задания: "Не эквивалентно второму началу термодинамики утверждение, что невозможны процессы:
1) полного преобразования механической работы во внутреннюю энергию,
2) совершения работы только за счет уменьшения внутренней энергии тел,
3) перехода энергии к более нагретому телу без изменений во внешней среде, 4) самопроизвольного уменьшения энтропии замкнутой системы
5) осуществления вечных двигателей второго рода." – даже при наличии двух отрицаний когнитивно уместна, во-первых, потому, что второе начало отрицает возможность протекания некоторых процессов; во-вторых, потому, что формулировки не тавтологичны, за каждой свое глубокое содержание; в-третьих, все они верны, и лишний раз напомнить их очень полезно для обучаемого. Подогнано по форме лишь неэквивалентное утверждение, но чтобы осознать это, придется проделать заметную умственную работу. Такая форма задания не противоречит принципу логической определенности его содержания, понимаемому как способность продуцировать правильный ответ и организовывать мыслительный процесс по его нахождению. Во многих случаях бывает полезна и форма задания с одним отрицанием: «Неверно утверждение: (следует перечень верных с одним исключением).
Большинство авторов полагают, что задания с выбором двух-трех ответов не дают достаточной надежности, повышают вероятность угадывания, редко используются, исключая те случаи, когда два или три ответа только и возможны в данном задании, но это всегда можно обойти. Задания с четырьмя ответами не всегда исчерпывают полную систему альтернатив. Удвоенная альтернатива дает четыре варианта ответов, их отрицание добавляет пятый, отдельные альтернативы увеличивают это число, а кумуляция может дать еще больше. Последней, однако, лучше избегать, т.к. самый подробный ответ чаще кажется и самым правильным, а дополнения ведут к загромождению заданий недостоверной информацией.
Продуцирование неверных ответов допустимо только для изучения и фиксации степени распространенности типичных ошибок обучаемых. Избыток дистракторов на этапе составления тестовых заданий лишь способствует их эффективному отбору после эмпирической проверки. Обосновать выбор дистракторов в заданиях операционного уровня возможно, когда они подобраны не произвольно, а являются результатом какой-либо процедуры, предугадать которую помогает опыт работы и хорошее знание контингента обучаемых. Только в этом случае дистрактор связывается с ошибочным алгоритмом действий испытуемого, что может быть проанализировано в дальнейшем. Если же дистракторы и верный ответ задавать в виде аналитических выражений, то причину выбора одного из них установить будет непросто, вероятнее всего, это будет сделано наугад.
Другая опасность использования аналитических выражений кроется в том, что входящие в них величины допускают предельные переходы, комбинирование которых во многих случаях позволяет отвергать дистракторы без выполнения задания. Такие случаи разобраны автором [4].
О композиции заданийТребования к составлению заданий в тестовой форме отражены в работе [1]. В первую очередь, это одинаковость заданий для всех испытуемых, не обязательно понимаемая как их идентичность, а, во всяком случае, как параллельность их в узком или широком смыслах. Системность заданий, связность и упорядоченность обеспечиваются их принадлежностью как к одной системе знаний, т.е. учебной дисциплине, так и к отдельным ее тематическим разделам, что как раз необходимо для текущего тематического контроля. Специфическая форма утверждений позволяет легко кодировать их истинность (единицей) или ложность (нулем). Определенность содержания предполагает включение в тестовые задания только того учебного материала, который подлежит усвоению и проверке.
В педагогическом тесте задания должны упорядочиваться по степени их трудности [1]. Это удобно при теоретическом анализе и обработке результатов тестирования, но плохо вписывается в систему последовательно тематического представления учебного материала, разрывает логические связи и вступает в противоречие с многомерной структурой знаний и умений. Расположение по возрастанию трудности не всегда можно сделать априорно, эмпирические данные нестабильны, зависят от контингента обучаемых. Такое требование не включено в глоссарий педагогических тестов [12]. Трудность задания, как субъективный параметр, не согласуется с иерархией уровней обученности: трудными могут быть и задания фактуального уровня. Принцип возрастающей трудности заданий лучше применять по стадиям и с учетом логических связей. Для тематического тестирования дидактически оправдан путь упорядочивания тестовых заданий – их взаимная обусловленность, логическая и каузальная последовательность, упорядочение же по степени трудности (сложности) возможно в пределах блока заданий, относящихся к какому-либо разделу темы, где развитие идет от простого к сложному. Разрывы в знаниях велики тогда, когда они нарушают логические связи учебного материала, а не просто искажают правильный профиль трудности заданий. Правильность профиля является необходимым условием применимости статистической теории тестов, которая опирается на нормальное распределение обученности и строит соответствующие математические модели [2]. Распределения обученности не всегда близки к нормальному.
Ограничение числа слов в заданиях допустимо в той мере, которая не искажает смысл задания, его понятность для обучаемого. Читается, как правило, задание целиком, при этом охватывается весь набор дистракторов, а не поочередная подстановка их в высказывание. По этой причине не обязательно стремиться к такому грамматическому совершенству, которое по форме правильно, но логике восприятия противоречит. Грамматика нужна для понимания, но от нее можно отходить тогда, когда это способствует еще большему и лучшему пониманию. В дидактических целях допустимы отклонения от строгой предметной чистоты и единства формы тестовых заданий, которые возникают при исключении неработающих дистракторов, достижении полноты альтернатив и сочетания более чем двух понятий в ответах, различий в степени градуирования объектов и явлений, последовательном проведении логических принципов и т.д.
Эмпирическая проверкаВ соответствии с изложенными принципами автором составлено более тысячи заданий в тестовой форме для контроля уровней обученности студентов по курсу физики [10]. Их эмпирическая проверка проводилась по нескольким направлениям. Для повышения надежности проверялась параллельность тематических блоков на случайной выборке испытуемых, которые по итогам тестирования разделялись на две группы: верно ответившие более чем на половину заданий и верно ответившие менее чем на половину заданий. Размах баллов по параллельным блокам не превысил единицы в обеих группах, что демонстрирует их достаточную надежность. Содержательный анализ заданий позволил выделить те из них, на которые испытуемые первой группы отвечают верно, а второй неверно. Антилогичных заданий, для которых эта ситуация обратна, не оказалось.
Другим направлением эмпирической проверки тестовых заданий стало анализ частот выбора дистракторов. Теория педагогических измерений требует примерно равной привлекательности ответа для незнающих испытуемых, что достижимо только в тех случаях, когда содержание дистрактора безразлично для них. В педагогической же практике наиболее удачными являются дистракторы, которые отражают распространенные ошибки и заблуждения обучаемых. Их не приходится даже придумывать, предпочитаемый дистрактор становится важным дидактическим фактором процесса обучения.
Процедура проверки сводилась к построению матриц тестовых результатов с тем отличием, что вместо нуля на пересечении строки и столбца ставился номер выбранного дистрактора, а правильный ответ при этом отмечался уже не единицей, а другим обусловленным знаком. Анализ в первую очередь использовался в дидактических целях, иногда это требовалось делать немедленно, пока заблуждение не закрепилось в памяти. В некоторых случаях причиной выбора дистрактора явилось недопонимание содержания задания, что выяснялось при обсуждении и требовало его коррекции, иногда коррекция скорее была нужна знаниям самих испытуемых. Когда дистракторы строились по принципу кумуляции, то значительная часть испытуемых пренебрегала уточнениями, останавливаясь на первом из них. В связи с этим не следует в таких случаях упорядочивать расположение дистракторов.
Если выбор дистрактора происходит при полном незнании предмета, то включаются уже не когнитивные, а скорее аффективные механизмы, содействовать чему едва ли уместно при диагностике когнитивной сферы. А ведь так называемые неработающие дистракторы здесь могли бы заставить задуматься над тем, что не все обстоит так просто, хотя классическая тестология рекомендует их исключать. Неработающий дистрактор может также входить в перечень противоположных альтернатив, так что его отсутствие просто станет подсказкой для выбора одной из них.
Необходимо, чтобы за выбором дистрактора стояла некоторая логика. Составление дистракторов весьма полезно и преподавателю, заставляет его вникать в сущность знакомых положений и представлять, как они воспринимаются обучаемыми. Когда выявляется предпочитаемый большинством дистрактор, необходима коррекция самой учебной работы. Если 70 % испытуемых считают, что согласно принципу относительности Галилея никакими опытами невозможно определить относительное движение системы отсчета (т.е. даже посмотрев на нее!), то важнее выявить распространенную ошибку и отразить ее в наборе дистракторов, чем отслеживать разброс гаданий при незнании предмета.
Структура тестовых заданий формировалась методом групповых экспертных оценок (ГЭО) [13]. Экспертам предлагалось отнести каждое задание к одной из градаций объемов знаний и к одному из уровней обученности. По данным экспертизы подсчитаны коэффициенты конкордации по уровням усвоения (0,76) и объемам знаний (0,75). Из первичного банка заданий после эмпирической проверки сформировалась структура тематических и рубежных тестов, доли базового и программного объемов 38 % и 62 % оказались связанными уникальным соотношением, известном как золотое сечение полного объема. Доли фактуального уровня в тестах одинаковы (@ 30 %), а доля операционного в рубежных тестах при отборе возросла за счет уменьшения доли эвристического от 30 до 25 %.
Динамика структуры обученностиРубежный контроль выполнял две функции: изучения изменений в обученности при сопоставлении с данными текущего тестирования, для чего отдельно анализировались те же тематические блоки; и оценки обученности студентов, для чего требовалась параллельность тестов по измеряемым блокам матрицы обученности. Надежность проверялась большей частью эмпирически при повторном тестировании одних и тех же испытуемых. Всегда, когда удавалось сохранить условия тестирования и уровень мотивации, результатом являлся один и тот же тестовый балл, лишь изредка отклоняющийся на единицу, что давало возможность считать ее естественной мерой его погрешности. Сравнение с оценками, полученными другими методами, также служило характеристикой их надежности.
Усвоение базовых знаний на всех уровнях на треть выше программных– они действительно чаще используются. Степень усвоения фактуальных знаний в целом не меняется даже при подготовке к экзамену. Наибольший прогресс в степени усвоения отмечен на операционном уровне, главным образом за счет базового учебного материала. Измерительный диапазон тестов был достаточно широк для диагностики индивидуального развития обучаемых. Критериальный для оценки тестовый балл удален от математического ожидания числа правильных ответов при их случайном выборе и находился за пределами утроенного стандартного отклонения.
Результативность обучения проявляется в первую очередь в смене знака асимметрии распределений обученности или увеличении отрицательной асимметрии по модулю, что свидетельствует о динамике обученности в сторону полного усвоения. Для гетерогенной группы степень усвоения на разных уровнях обученности соответствует их иерархии. Однако эта иерархия нарушается, в частности, в выборке испытуемых со степенью обученности, большей 50 %, где две трети имели ее на фактуальном уровне меньшую, чем на операционном или эвристическом. Особенно это сказалось на оценке учебных достижений студентов, когда формальный перевод тестовых баллов в академическую шкалу практически игнорировал бы качественные особенности структуры обученности.
Тесты уровней обученности негомогенны по когнитивной сложности, распределение тестовых баллов не совпадает с нормальным и меняется в процессе обучения. Изменения моды, дисперсии, асимметрии и эксцесса распределений характеризуют направленность и действующие факторы учебного процесса. Включение тематических тестов в содержание учебной деятельности вовлекает субъектов обучения в исследование ее эффективности, обеспечивая педагогическую рефлексию преподавания и учения наиболее объективным способом [5, 6]. Процедура измерения обученности придает исследовательский характер всему комплексу учебного процесса. Она позволяет количественно определять эффективность тех дидактических процессов, которыми были охвачены обучаемые.
Заключительные замечанияОсновной тезис статистической теории тестов сводится к утверждению, что эмпирический тестовый балл студента складывается из его истинной компоненты и случайной; как правило, нормально распределенной ошибки, обусловленной угадыванием, забыванием, состоянием испытуемых, качеством теста, подсказкой .... Даже сам этот перечень включает в себя неслучайные факторы, к которым нередко относят все неопределенные, не характеризуемые устойчивой частотой или аксиоматической вероятностью. Неопределенными являются состояние и забывание испытуемых, подсказка и заимствование; систематический фактор есть качество теста, которое можно улучшить. Случайным может быть только угадывание, но его частота известна заранее, параметры распределения прогнозируемы и легко вычисляемы, само наличие угадывания проявляется в распределении обученности и может быть учтено.
Возможность угадывания рассматривается обычно в двух аспектах: случайный выбор одного из вариантов либо определение наиболее правильного из них без выполнения задания. Первое легко узнается из распределения тестовых баллов, как описано автором ранее [5, 9]; второе требует содержательного анализа [4]. Впечатляющие результаты получены И.Ф. Шарыгиным на материале ЕГЭ по математике [14]. Безусловно, нет смысла решать уравнение, если можно подставить решение, но и другие формы заданий оказались такими, что от их применения страдают как математическая, так и общая культура обучаемых. Без анализа распределений обученности не следует вводить коррекцию на угадывание там, где оно отсутствует. Работа над заданиями, поиск решения – все это требует напряжения ума, работы мысли и следует отделять их от бездумного гадания. Смешивание этих процессов как раз и служит почвой для критиков, которые не вникают в существо тестирования как деятельности, происходящей на высоком умственном уровне.
ЛИТЕРАТУРА