Вадим Аванесов
Опубликовано в ж. «Педагогические Измерения» №1, 2004 г. С.15-21
Рассматривается проблема построения общей теории педагогических измерений. Сформулировано новое определение педагогического теста и других основных понятий, исследованы формы тестовых заданий и критерии содержания тестов.
1. Педагогические измерения
Педагогические измерения – это прикладная научная теория, сформировавшаяся на стыке педагогики, психологии, теории измерений, статистики, математики, логики и философии. Одновременно, педагогические измерения можно рассматривать как процесс практической образовательной деятельности, нацеленной на получение объективных, а точнее, объективированных оценок уровня текущей и итоговой подготовленности обучаемых. Это часть общего процесса педагогического оценивания, имеющего на Западе название «evaluation». Там же этой проблемой занимается наука, называемая «Educational Measurement». Её основной предмет – разработка качественных тестов для измерения уровня подготовленности обучаемых. Последнее понятие включает в себя традиционный процесс субъективного оценивания и методы получения объективированных оценок. Получение таких оценок образуют цель и главный смысл педагогических измерений.
Педагогические измерения можно также определить как процесс отображения числами уровней проявления интересующих качеств личности обучаемых. F.M.Lord и M.Novick определяют измерение как такое присвоение чисел, которое верно отражает расположение испытуемых на числовой шкале в зависимости от выраженности измеряемого качества[1].
В отличие от элементарных оценок и некоторых простых физических измерений, педагогические измерения требуют теоретизации, в которую входят: определение ведущего понятия, уточнение имени измеряемого качества, определение предмета измерения. Важно построить систему индикаторов, понятийных и эмпирических, указывающих на наличие или отсутствие интересующего качества[2]. Далее требуются аксиоматика и математические формализмы, выбор подходящей модели и стандартизация условий измерения. И, наконец, полученные результаты подлежат аргументированной интерпретации.
2. Основные понятия педагогической теории измерений
Исходя из авторской концепции этапности тестового процесса[3], выделяются три основных понятия теории: это "задание в тестовой форме", "тестовое задание" и "педагогический тест".
В подлинном образовательном процессе ведущая роль отводится педагогическим заданиям. А потому в педагогике не случайно говорят о задачном подходе к организации обучения. В наши дни, наряду с задачами и развивающими вопросами, заметную роль приобрели и задания в тестовой форме.
Педагогическое задание определяется как средство интеллектуального развития, образования и обучения, способствующее активизации учения, повышению качества знаний, а также повышению эффективности педагогического труда. Это понятие является общим, охватывающим цель и смысл всех возможных заданий, посредством которых активизируется процесс собственной познавательной деятельности учащихся. Оно включает такие средства, как вопрос, задача, учебная проблема и другие, используемые для активизации собственной учебной деятельности (учения).
Композиция заданий в тестовой форме
Творческое соединение формы и содержания является сутью содержания другого важного понятия педагогических измерений. Это композиция тестовых заданий. Композиция, одновременно, является и главным предметом методики разработки заданий в тестовой форме. Композицию не случайно считают уделом сосредоточения многих проблем, связанных с замыслом и исполнением, содержанием и формой.
Успех в композиции заданий, как и в создании произведений искусства, зависит не только от оригинальности идеи и сюжета, но и от мастерского владения формой. Вот почему хорошо сделанное задание - это всегда лучшее, на текущий момент, содержание и наилучшая форма; то и другое - результат, появляющийся вследствие осознания важности их взаимосвязи. «Там...где создание формы, - писал Гегель, - является существенным интересом и настоящей задачей, вместе с успехами изображения незаметно и неявно движется вперед также и содержание, как и вообще мы до сих пор видели, что форма и содержание идут в своем совершенствовании рука об руку[4]. Разработка теста начинается, помимо прочего, с композиции заданий в тестовой форме.
Форма заданий
Форма – это способ связи, упорядочения элементов задания. По форме все известные в теории и практике тестовые задания можно разделить на четыре основные группы. Первую форму образуют задания с выбором одного или нескольких правильных ответов. Если к заданиям даются готовые ответы на выбор (обычно один правильный, остальные неправильные), то такие задания лучше называть заданиями с выбором одного правильного ответа. Автор этой работы предлагает шире внедрять в практику задания с выбором нескольких правильных ответов. По содержанию они труднее, чем задания с выбором одного ответа. Этим заданиям предшествует инструкция - Обвести кружком номера всех правильных ответов.
Вторую форму образуют задания, в которых правильный ответ надо дописать; обычно это одно слово, или один знак. Заданиям этой формы предшествует стандартная инструкция – Дополнить.
Третью форму образуют задания, состоящие из элементов двух столбцов. Таким заданиям предшествует инструкция – Установить соответствие.
Четвертая форма - задания процессуального или алгоритмического толка. Каждому заданию предшествует инструкция - «Установить правильную последовательность». Испытуемый ставит цифры рангов в прямоугольниках, стоящих слева перед каждым элементом задания. При компьютерном тестировании испытуемый работает с помощью инструментальной программы, сделанной с учётом этой формы заданий; там после проставления каждого ранга курсор автоматически передвигается от одного квадрата к другому.
Задания в тестовой форме отвечают следующим требованиям:
- краткость;
- технологичности
- правильность формы;
- логическая форма высказывания;
- одинаковость правил оценки ответов;
- наличие определенного места для ответов;
- правильность расположения элементов задания;
- одинаковость инструкции для всех испытуемых;
- адекватность инструкции форме и содержанию задания.
Тестовое задание
Вторым основным понятием теории педагогических измерений является понятие «тестовое задание» Тестовое задание - это составная единица теста, отвечающая перечисленным выше требованиям формы и, кроме того, статистическим требованиям: 1) известной трудности;
2) достаточной вариации тестовых баллов;
3) положительной корреляции баллов задания с баллами по всему тесту.
Наличие достаточного числа тестовых заданий, полученных в результате обязательной эмпирической апробации заданий в тестовой форме, позволяет перейти к разработке теста как системы, обладающей целостностью, составом и структурой.
Требование известной трудности оказывается важнейшим системообразующим признаком тестового задания. Если тест - это система заданий возрастающей трудности, то в нем нет места заданиям с неизвестной мерой трудности. Вариация тестовых баллов по каждому заданию является необходимым условием проведения измерения. Снижение такой вариации ведет к снижению общей точности измерений. В тест не включаются задания, корреляция которых с суммой баллов ниже 0,200.
Третьим, и главным, понятием теории является педагогический тест, который разрабатывается педагогами для педагогических целей. Удивительный факт - в западной литературе уделяется мало внимания поиску точных определений теста. Педагогический тест - это система параллельных заданий возрастающей трудности, специфической формы, определенного содержания, создаваемая с целью аргументированной оценки уровня и структуры подготовленности обучаемых. Полезно дать краткое истолкование основных терминов. Это означает, что каждое задание теста имеет параллельные варианты.
Система означает, что в тесте есть состав заданий и структура их связи. В тесте собраны только такие задания, которые обладают образующими систему свойствами. Здесь, в первую очередь, надо выделить общую принадлежность заданий к одной и той же предметной области знаний, т.е. к одной учебной дисциплине, их связь и упорядоченность. В тесте задания располагаются в порядке возрастающей трудности - от самого легкого, до самого трудного.
Специфическая форма тестовых заданий отличается тем, что задания теста представляют собой не вопросы и не задачи, а задания, сформулированные в форме высказываний, в зависимости от ответов, истинных или ложных. Традиционные вопросы, напротив, истинными или ложными не бывают, а ответы на них нередко неопределенны и многословны; для выявления их правильности требуются заметные, в суммарном исчислении, затраты интеллектуальной энергии преподавателей.
Содержание теста
Содержание теста определяется как оптимально редуцированное отображение фрагмента учебной дисциплины в тестовой форме. Содержание теста существует, сохраняется и передается в одной из четырех основных форм заданий. Вне тестовых форм ни тест, ни его содержание не существуют. Определенное содержание означает использование в тесте только такого контрольного материала, который соответствует содержанию учебной дисциплины; остальное в педагогический тест не включается, ни под каким предлогом. Например, проверка уровня интеллектуального развития является предметом психологического тестирования.
Критерии отбора содержания теста:
- Соответствие содержания теста целям тестирования;
- Значимость проверяемых знаний в общей системе знаний.
- Взаимосвязь содержания и формы.
- Содержательная правильность тестовых заданий.
- Репрезентативность содержания учебной дисциплины в содержании теста.
- Соответствие содержания теста уровню современного состояния науки.
- Комплексность и сбалансированность содержания теста.
- Системность содержания.
- Вариативность содержания.
- Соответствие уровня трудности содержанию цели тестирования.
Трудность
Трудность задания может определяться двояко: а) умозрительно, на основе предполагаемого числа и характера умственных операций, необходимых для успешного выполнения заданий, и б) после эмпирической апробации заданий, с подсчетом доли неправильных ответов. В классической теории тестов многие годы рассматривались только эмпирические показатели трудности. В новых вариантах тестов стало уделяться больше внимания характеру умственной деятельности учащихся и числу выполняемых операций при решении каждого отдельного задания.
Ответ на задание педагогического теста представляет собой краткое суждение, связанное по содержанию и по форме с содержанием задания. Для каждого задания ответы делятся на правильные и неправильные. Критерии правильности заранее определяются авторами теста.
Уровень и структура знаний
выявляются при анализе ответов каждого ученика на все задания теста. Чем больше правильных ответов, тем выше индивидуальный тестовый балл испытуемых. Обычно этот тестовый балл ассоциируется с понятием "уровень знаний" и проходит процедуру уточнения на основе той или иной модели педагогического измерения. Один и тот же уровень знаний может быть получен за счет ответов на различные задания. Например, в тесте из тридцати заданий испытуемый получил десять баллов. Эти баллы, скорее всего, получены за счет правильных ответов на первые десять, сравнительно легких заданий. Присущую для такого случая последовательность единиц, а затем нулей называют правильным профилем знаний.
Если же обнаруживается противоположная картина, когда испытуемый правильно отвечает на трудные задания и неправильно - на легкие, то это противоречит логике теста и потому такой профиль знаний можно назвать инвертированным. Он встречается редко, и чаще всего, по причине ошибочности теста, в котором задания расположены с нарушениями требования возрастающей трудности. При условии, что тест сделан правильно, каждый профиль свидетельствует о структуре знаний. Эту структуру можно назвать элементарной, поскольку есть еще факторные структуры.
Каждое учебное заведение должно стремиться, в первую очередь, к формированию правильных индивидуальных структур знаний, в которых не было бы досадных пробелов (разрывов в знаниях), и на этой основе повышать уровень подготовки. Эта логика заметно выражена в Японии и в быстро развивающихся странах Азиатско-Тихоокеанского региона. Уровень знаний в значительной степени зависит от личных усилий и способностей учащихся, в то время как структура знаний заметно зависит от правильной организации учебного процесса, от индивидуализации обучения, от мастерства педагога, от объективности контроля - в общем, от всего того, чего обычно не хватает.
3. Теории педагогических измерений
Ни один тест не может непосредственно и абсолютно точно измерить интересующее качество личности. Потому что все качества личности прямо не наблюдаемы; они выражаются через совокупность эмпирически наблюдаемых индикаторов. Поэтому в теории принято считать все качества личности латентными. Латентными называются положительные и отрицательные качества личности, примерами которых являются «подготовленность студентов», «знание учебной дисциплины», «способность понимать» «интеллектуальное развитие» и многие другие. Попытки измерения подобных качеств[5] на уровне обыденного сознания оканчиваются словесными или численными оценками, содержащими в себе немалые погрешности.
В современной литературе нет ясности относительно теоретической основы педагогических измерений. Раньше в качестве такой основы ошибочно рассматривались статистические теории. Ситуация несколько выправилась после классических работ Лорда[6]. Однако затем, в последние тридцать лет, она вновь ухудшилась под влиянием сторонников теории измерений, называемой на Западе Item Response Theory (IRT). Правда, последняя имеет там и другое, более общее и точное название, но, к сожалению, менее употребляемое название - Latent Trait Theory (LTT), что лучше перевести как математическую теорию измерения латентных качеств личности.
В России IRT нередко ошибочно провозглашается как «единственная» и «современная» теоретическая основа педагогических измерений. Между тем, два сравнительно новых варианта классической теории измерения - Strong True Score Theory и Random Sampling Theory, а также Theory of Generalizability[7], не менее современны, чем IRT. Во-вторых, в фокусе изучения IRT находятся, строго говоря, не тесты, как системы заданий, а отдельные задания. Вот почему это, скорее, не современная теория тестов, а математическая теория оценки качества тестовых заданий и уровня подготовленности испытуемых.
Между тем ни одна из упомянутых теорий не являются ни современными, ни педагогическими. Это уже давно известные формальные и общие теории, применение которых в педагогических измерениях хотя и плодотворно, но имеет вполне понятные пределы. Общность проявляется в применимости их математического аппарата к измерениям в различных общественных науках, таких как политология, психология, социология и многие другие, что имеет положительные и отрицательные следствия. К отрицательным последствиям можно отнести подмену научной проблематики собственно педагогических измерений неадекватной математической и псевдонаучной лексикой[8]. А также не всегда подходящими моделями измерения, что, например, неоднократно было установлено исследованиями G. Karabatsos[9].
Нельзя сказать, что эта подмена не замечалась. Например, известны попытки преодоления такой ситуации и создания теории педагогических измерений в США[10]. В России этой проблемой занимался автор данного доклада. Ниже приводятся основные результаты исследований.
Если взять за основу классификации, например, философские понятия общего, особенного и единичного, то можно предложить такую классификацию теорий:
Общая теория педагогических измерений
Контуры общей теории педагогических измерений удачно просматривались в работах R.Ebel[11] и других педагогов-специалистов по педагогическим измерениям. Последовавшее затем увлечение большинства американских авторов математической стороной проблемы измерения отвлекло их от построения целостной общей педагогической теории измерения.
Главный предметом такой теории должны стать разработка и применение заданий в тестовой форме, тестовых заданий и тестов - для активизации учебного процесса, научной организации тестовой формы самоконтроля, в процессе самообразования. Настоящее тестирование начинается, развивается и прекращается вместе с учебным процессом. Отстраненное от такого процесса тестирование неизбежно становится объектом бюрократических искажений, несовместимых с тестовой культурой.
Другие предметы общей теории - разработка целей и задач педагогических измерений; создание программ проведения массового тестирования, их положительных и отрицательных последствий на личность, общество и государство. К сугубо научным вопросам общей теории можно отнести анализ понятий, положенных в основу измерений; содержание заданий и теста в целом; разработка педагогических критериев эффективности и качества проводимых измерений. Попытки разработки общей теории педагогических измерений представлены в ряде публикаций автора данной работы[12].
Частные педагогические теории.
С общей теорией соотносятся частные теории. В качестве одной из таковых могла бы стать логико-педагогическая теория композиции заданий в тестовой форме. Учитывая непосредственную зависимость качества любого теста от правильной композиции содержания и формы каждого отдельного задания, вряд ли можно признать конструктивными известные попытки недооценки в потребности такого рода теории. Ведь каждое нарушение формы, содержания, того и другого – источники погрешностей измерения. Прообразы такой теории можно обнаружить в работах многих авторов второго поколения западных специалистов и в публикациях на русском языке[13]. Предмет теории – разработка принципов композиции заданий в тестовой форме, позволяющих творчески соединять содержание каждого задания с подходящей для него формой.
Общие математические теории педагогического измерения.
К числу таких теорий надо отнести известную на Западе, но неисследованную в России Random Sampling Theory. Известные варианты классической теории тестов полезно рассматривать в связке с положениями Random Sampling Theory, учитывая их общую опору на статистические теории индуктивного вывода. Более общей является другая теория, Theory of Generalizability (Dependability)[14]так же не исследованная в России. Это самые общие теории, сосредоточившие в себе мощный статистический аппарат исследования точности результатов измерения, возможности использования дисперсионных комплексов для оценки достоверности влияния различных источников погрешностей при измерении латентых качеств.
Специальные математические теории педагогического измерения. К ним можно отнести частную математико-педагогическую теорию тестовых заданий, в которую целесообразно включить часть положений классической теории тестов, известной на Западе под названием «Item Analysis», а также постулаты, модели и вычислительные методы IRT. Только взятые вместе они позволяют проводить тщательный анализ эффективности каждого задания с последующим решением о включения их в тест, в банк заданий, или об исключении из разработки[15].
[1] Lord F.M. Lord F.M., Novick M. Statistical Theories of Mental Test Scores. Addison-Wesley Publ. Co. 1968, Reading, Mass. - 560 pp.
[2]Об этом процессе подробнее см., например, на стр. 87-105 книги: Аванесов В.С. Тесты в социологическом исследовании. М.: Наука , 1982.- 199с.
[3] Аванесов В.С. Этапы разработки теста// «Конструирование педагогических тестов по русскому языку как иностранному. Доклады и сообщения. ЦМО МГУ им. М.В.Ломоносова. 15-16 апреля 2003 г. М.2003. с.7-12.
[4] Гегель Г. Лекции по эстетике // Соч., т.13, кн.2.- М.: Соцэкгиз, 1940.- 362с.
[5]Понятия «качество», «свойство», «признак» удобно рассматривать как обобщенный аналог английского trait.
[6] Что подчеркивается, например, точным названием уже упоминавшейся классической монографии Lord F. M. & Novick M.R. Statististical Theories of Mental Test Scores. Reading, MA: Addison-Wesley. 1968.
[7] Точного перевода названий этих теорий на русский язык пока нет.
[8] Аванесов В.С. Понятийный аппарат педагогической тестологии. Педагогическая диагностика, №2, 2002г. С. 33-37. .
[9] Например: Karabatsos G. Axiomatic measurement theory as a basis for model selection in item response theory. Paper presented at 32nd annual conference of the Society for Mathematical Psychology, Santa Cruz, CA: 1999, July.
[10]Например, в работе Ebel, R.L. Measuring Educational Achievement. Prentice-Hall, Inc.Englewood Cliffs, New Jersey, 1965. –481pp.
[11] Ebel, R. Measuring Educational Achievement. Prentice Hall, Inc.
Englewood Cliffs, New Jersey. 1965. -481pp.
[12]Аванесов В.С. Форма тестовых заданий // Труды Иссл. центра. М. 1991.-33с.
Аванесов В.С. Основы научной организации педагогического контроля в высшей школе. М.: Иссл. центр, 1989. –167с.
Аванесов В.С. Методологические и теоретические основы тестового контроля". Дисс… докт. пед. наук. СПб госуниверситет, 1994.-339с.;
Аванесов В.С. Педагогическое измерение латентных качеств //Педагогическая диагностика, №4, 2003г.;
[13]Аванесов В.С. Теоретические основы разработки заданий в тестовой форме. Пособие для профессорско-преподавательского состава высшей школы. М.: МГТА, 1995.-95с.
Аванесов В.С. Композиция тестовых заданий. 1,2 и 3 изд.; 3 изд. М.: Центр тестирования 2002г. – 217с.
[14] Перевода названий всех этих теорий на русский язык пока нет.
[15] См. напр. Аванесов В.С. Математические модели педагогического измерения. Научное издание. М.: Иссл. центр проблем качества подготовки специалистов, 1994. - 26с.; «Научные проблемы тестового контроля знаний». М.: Иссл. Центр, 1994. – 135с.
Так же 11 глава книги автора «Композиция тестовых заданий». 3 изд. М.: Центр тестирования 2002г. – -239с.