29 мая 2018

Одномерное шкалирование гетерогенных тестов

Третьякова Т.Г.

Опубликовано в ж. «Педагогические Измерения» №2, 2005 г.

Известное определение гомогенного теста предполагает использование заданий, выявляющих одно какое-либо качество (свойство) [1, с. 190, 193]. Гомогенный тест, измеряющий уровень подготовленности учащихся по одной учебной дисциплине или одному разделу объемной учебной дисциплины, одномерен, т.е. одномерна шкала, на которой фиксируются результаты.

Интегративные тесты диагностируют общую подготовленность учащихся. Конструирование или выбор правильного ответа на задание интегративного теста требует знаний по двум и более учебным дисциплинам. Из общих соображений следует, что если для выполнения какого-либо задания интегративного теста требуется наличие свойства A с уровнем не ниже определенного и свойства B с уровнем не ниже определенного, то система заданий (интегративный тест) будет фактически измерять наименее выраженное свойство испытуемого, практически игнорируя свойство с максимальной выраженностью.

Пример: тестовые задания предполагают перевод предложений с родного языка на иностранный, без словаря. Если тест будет составлен из заданий с последовательно возрастающей от задания к заданию лексической и грамматической трудностью, испытуемый в ходе тестирования дойдет до задания (или группы заданий, учитывая вероятностный характер ответа), где откажет либо его лексический запас, либо знание грамматики. Тестовый балл (т.е. количество верно выполненных заданий) отразит наименее развитое качество (свойство). Установить по тестовому баллу, является это свойство знанием лексики либо грамматики, невозможно. Из сказанного вытекает основное назначение интегративных тестов – диагностика подготовленности выпускника образовательного учреждения [1, с. 191], поскольку текущий контроль тестами с подобными характеристиками нецелесообразен.

Проблемой при создании заданий интегративного теста является установление баланса между необходимыми для выполнения каждого задания свойствами. Любое задание гомогенного теста можно рассматривать так же, как интегративное, с сознательно нарушенным балансом между необходимыми для его выполнения свойствами. Необходимый уровень всех остальных свойств (кроме основного, измеряемого тестом в соответствии с его назначением) устанавливается в гомогенном тесте ниже некоторого определенного, устанавливаемого экспертным путем, уровня. Так, при составлении заданий гомогенных тестов по грамматике тексты заданий должны содержать только хорошо усвоенную лексику, обеспечивающую достаточную ситуативность и однозначность стимула (основы задания) [2, с. 83]. Нарушение этого требования неизбежно переводит задание в разряд интегративных. Аналогично лексические задания, вне зависимости от уровня их сложности, должны требовать для своего выполнения минимума грамматических знаний.

Проблемы другого рода возникают при использовании гетерогенных тестов. Гетерогенный тест – система, создаваемая с целью измерения уровня подготовленности учащихся по нескольким учебным дисциплинам [1, с. 191]. Используются они там, где необходима комплексная оценка (проверка знаний выпускников школ, абитуриентов на вступительных экзаменах). Классический гетерогенный тест, по сути, состоит из отдельных гомогенных тестов (далее называемых субтестами), по одному субтесту на каждую дисциплину или раздел дисциплины. Отсюда вытекают две методики шкалирования: раздельное оценивание заданий каждого субтеста либо агрегирование баллов по каждому субтесту. Идее комплексной оценки более отвечает агрегирование баллов, чем раздельное оценивание. Самый простой агрегирующий метод – подсчет суммарного тестового балла без учета вклада каждого субтеста в конечный результат. Здесь результат существенно зависит от соотношения между размерами отдельных субтестов. Убедительной аргументации в пользу агрегирования посредством суммирования не существует. Положение не исправляется и при взвешенном суммировании (т.е. приписывании заданиям отдельных субтестов различных весов в зависимости от их предполагаемой важности).

Возможна следующая геометрическая интерпретация процесса измерения. Гомогенный тест одномерен, т.е. измеряемое свойство характеризуется одним параметром – расстоянием между точкой, отражающей уровень проявления измеряемого свойства у данного испытуемого, и точкой абсолютного нуля (полного незнания). Гетерогенный тест многомерен, и его размерность определяется количеством измеряемых свойств. Отсюда вытекает геометрическая интерпретация комплексного знания как некоторого многомерного тела в многомерном пространстве знаний. Для случая двух измеряемых свойств речь идет о плоской фигуре.

При упрощении картины и предположении всего трех уровней у каждого из двух свойств получается хорошо известный в философии даосизма пятичастный крест [3, с. 15], в центре которого располагаются «типичные середняки» со средним значением обоих свойств, а на периферии – четыре группы, у которых одно из свойств в норме, а другое отклоняется в ту или иную сторону (рис. 1).

Учет групп испытуемых с отклонениями по двум свойствам дает еще четыре группы, и на смену пятичастному кресту выступает девятипольная колодезная система (рис. 2).

Дальнейшее обобщение модели с выходом еще в одно измерение дает «кубическую генетическую модель мироздания» [3, с. 16], которая может быть интерпретирована как модель измерения трех свойств, в предположении трех уровней у каждого свойства.

Для рассматривавшегося случая двух измеряемых свойств и геометрической интерпретации области тестирования как плоской фигуры агрегирование посредством суммирования баллов характеризует периметр фигуры, а здравый смысл заставляет искать метод оценивания ее площади. Один из методов оценивания площади фигуры заключается в том, что фигура покрывается сетью параллельных линий, расположенных на единичном расстоянии друг от друга, и суммарная длина всех отрезков, образованных пересечением линий с границей фигуры, дает искомую площадь. Отсюда и проистекает идея гетерогенных тестов нового типа.

В качестве примера рассматривается по-прежнему тест для комплексной оценки двух свойств (свойства A и свойства B). Тест составлен из нескольких гомогенных субтестов. В каждом субтесте требуемый для выполнения уровень свойства B фиксирован, а уровень свойства A меняется от задания к заданию в пределах заданного уровня трудности в соответствии с общими правилами изменения уровня трудности тестовых заданий. В других субтестах уровень A меняется в тех же пределах при ином уровне B. Все уровни B также изменяются закономерно в заданных пределах от субтеста к субтесту. Построенный таким образом тест можно обратить, т.е. считать его состоящим из субтестов с фиксированным A при меняющемся B. Для нас интерес здесь представляет то, что все пространство знаний окажется заполненным равномерно размещенными точками (во всяком случае, к этому необходимо стремиться), и подсчет количества точек в пределах области знаний (т.е. количества верно выполненных заданий) позволяет оценить площадь этой области. Аналогом описываемого метода оценивания является известный метод определения площади фигуры палеткой с точками. При необходимости произвести комплексную оценку знания по трем дисциплинам (или трем разделам дисциплины) речь идет уже об объеме трехмерного тела знаний и т.д.

На рис. 3 изображено двумерное пространство знаний.

Для количественной оценки знаний испытуемых по двум свойствам предназначен тест из 36 заданий (каждое задание представлено точкой). Задания, на которые испытуемый дал верные ответы, изображены жирными точками. Согласно рис. 3 знания испытуемого оцениваются в 12 баллов. Комплексная оценка знаний тестом подобного вида более объективна, чем двумя гомогенными тестами (горизонтальная и вертикальная линии) при агрегировании баллов или интегративным тестом (диагональная линия) ввиду тестирования испытуемого набором заданий с варьирующейся трудностью и изменением соотношения между измеряемыми свойствами в широких пределах.

Таким образом, рассматриваемый гетерогенный тест нового типа схож с классическим гетерогенным тестом в том, что состоит из отдельных гомогенных тестов, но ввиду отказа от принципа непревышения заданного (невысокого) уровня требований к сопряженному свойству (свойствам), правильнее говорить о вхождении в состав гетерогенного теста ряда интегративных тестов (субтестов) с фиксированным для каждого субтеста уровнем сопряженного свойства.

Тест подобного рода на примере лексико-грамматического теста будет состоять из ряда грамматических субтестов с постоянным в пределах каждого субтеста, но закономерно меняющимся от субтеста к субтесту уровнем лексических требований. Есть все основания полагать, что подобные тесты объективно оценивают комплексное свойство на одномерной шкале.