Первая страница
Наша команда
Контакты
О нас

    Главная страница


Общая психодиагностика




страница5/22
Дата06.07.2018
Размер5.74 Mb.
ТипРеферат
1   2   3   4   5   6   7   8   9   ...   22
Таблица 5


Квантиль λt

0,44

0,52

0,57

0,61

0,65

0,71



Вероятность p

0,99

0,95

0,90

0,85

0,80

0,70



Квантиль λt

0,89

0,97

1,07

1,22

1,36

1,52

1,63

Вероятность p

0,40

0,30

0,20

0,15

0,05

0,02

0,01

Если проверка согласованности эмпирического распределения с нормальным дает положительные результаты, то это означает, что полученное распределение можно рассматривать как устойчивое -репрезентативное по отношению к генеральной совокупности - и, следовательно, на его основе можно определить репрезентативные тестовые нормы. Если проверка не выявляет нормальности на требу­емом уровне, то это означает, что либо выборка мала и нерепрезента­тивна к популяции, либо измеряемые свойство и устройство теста (спо­соб подсчета) вообще не дают нормального распределения.

В принципе отнюдь не обязательно все нормативные распределе­ния сводить к нормальным. Можно с равным успехом пользоваться хорошо разработанными моделями гамма-распределения, пуассоновского распределения и т. п. Критерий Колмогорова позволяет оценить близость вашего эмпирического распределения к любому теоретичес­кому распределению. При этом устойчивым и репрезентативным мо­жет оказаться распределение любого типа. Если из нормальности, как правило, следует устойчивость, то обратное неверно -устойчивость вовсе не обязательно предполагает нормальность распределения.

Наличие значимой положительной асимметрии (см. рис. 2,а) сви­детельствует о том, что в системе факторов, детерминирующих зна­чение измеряемого показателя, преобладают факторы, действующие в одном направлении - в сторону повышения показателя. Такого рода отклонения появляются при использовании хронометрических пока­зателей: испытуемый не может решить задачу быстрее определенно­го минимально необходимого периода, но может существенно долго задерживаться с ее решением. На практике распределения такого рода преобразуют в приближенно нормальное распределение с помощью логарифмической трансформации:



(3.1.11)
При этом говорят, что распределение хронометрических показа­телей подчиняется «логнормальному» закону.

Подобную алгебраическую нормализацию тестовой шкалы при­меняют и к показателям с еще более резко выраженной положитель­ной асимметрией. Например, в процедурах контент-анализа сам тес­товый показатель является частотным: он измеряет частоту появле­ния определенных категорий событий в текстах. Для редких катего­рий вероятность появления значительно меньше 0,5. Формула преобразования


(3.1.12)
позволяет придать необходимую 5-образную форму кумуляте.

Стандартизация шкалы. В психометрике следует различать две формы стандартизации. Под стандартизацией теста понимают преж­де всего стандартизацию самой процедуры проведения инструкций, бланков, способа регистрации, условий и т. п. Без стандартизации теста невозможно получить нормативное распределение тестовых баллов и, следовательно, тестовых норм.

Под стандартизацией шкалы понимают линейное преобразование масштаба нормальной (или искусственно нормализованной) шкалы. В общем случае формула стандартизации выглядит так:

, (3.1.13).

где xi - исходный балл по «сырой» шкале, для которой доказана нор­мальность распределения;



- среднее арифметическое по «сырому» распределению; S - «сырое» стандартное отклонение;

М- математическое ожидание по выбранной стандартной шкале;

σ - стандартное отклонение по стандартной шкале.

Если шкала подвергалась предварительной искусственной норма­лизации интервалов, то формула упрощается:

zj =σ zj =M (3.1.14)
Приведем параметры для наиболее популярных стандартных шкал:

1) T -шкала Маккола (тест-опросник MMPI и другие тесты):

М = 50 и σ = 10,

2) шкала IQ : М = 100 и σ = 15,

3) шкала «стэнайнов» (целые численные значения от 1 до 9 -стан­дартная девятка): М = 5,0 и σ = 2,

4) шкала «стенов» (стандартная десятка, 16PF Кеттелла):

М = 5,5 .и σ = 2.

Чтобы различать стандартные баллы, полученные с помощью линейной стандартизации и нелинейной нормализации интервалов, Р. Кеттелл ввел понятие «S-стенов» и «n-стенов». Таблицы «и-стенов», естественно, точнее отражают квантили эмпирического нормального распределения. Приведем образец такой таблицы для фактора А из тест-опросника 16PF;


Сырые баллы 0-4 5-6 7 8-9 10-12 13 14-15 16 17-18 19-20 Стены 1 2 3 4 5 6 7 8 9 10
Применение стандартных шкал позволяет использовать более грубые, приближенные способы проверки типа распределения тесто­вых баллов. Если, например, процентильная нормализация с перево­дом в стены и линейная нормализация с переводом в стены по фор­муле (3.1.13) дают совпадающие целые значения стенов для каждого Y, то это означает, что распределение обладает нормальностью с точ­ностью до «стандартной десятки».

Применение стандартных шкал необходимо для соотнесения ре­зультатов по разным тестам, для построения «диагностических про­филей» по батарее тестов и тому подобных целей.

Проверка устойчивости распределения. Общая логика проверки устойчивости распределения основывается на индуктивном рассуж­дении: если половинное (полученное по половине выборки) распре­деление хорошо моделирует конфигурацию целого распределения, то можно предположить, что это целое распределение будет также хоро­шо моделировать распределение генеральной совокупности.

Таким образом, доказательство устойчивости распределения оз­начает доказательство репрезентативности тестовых норм. Традици­онный способ доказательства устойчивости сводится к наличию хо­рошего приближения эмпирического распределения к какому-либо те­оретическому. Но если эмпирическое распределение не приближается к теоретическому, несмотря на значительное увеличение объема выборки, то приходится прибегать к более общему индуктивному ме­тоду доказательства.

Простейший его вариант может быть сведен к получению таблиц перевода сырых баллов в нормализованную шкалу по данным всей выборки и применению этих таблиц для каждого испытуемого из по­ловины выборки; если распределение нормализованных баллов из по­ловины выборки хорошо приближается к нормальному, то это значит, что заданные таблицами нормализации тестовые нормы определены устойчиво. Близость к нормальному распределению проверяется с по­мощью критерия Колмогорова (при n <200 целесообразно использо­вать более мощные критерии: «хи-вадрат» или «омега-квадрат»).

При этом под «половиной выборки» подразумевается случайная половина, в которую испытуемые зачисляются случайным образом -с помощью двоичной случайной последовательности (типа подбра­сывания монетки и т. п.). В более общем случае такой простейший метод установления однородности двух эмпирических распределений может быть применен и при разбиении выборки по какому-либо сис­тематическому признаку. Если, в частности, по какому-либо из популяционно значимых признаков (пол, возраст, образование, профес­сия) психолог получает значимую неоднородность эмпирических распределений; то это значит, что относительно данных популяционных категорий тестовые нормы должны быть специализированы (одна таблица норм - для мужчин, другая - для женщин и т. д.).

Более статистически корректный метод проверки однородности двух распределений, полученных при расщеплении выборки на рав­ные части, опять же связан с применением критерия Колмогорова. Для этого с табличным значением сравнивается:
(3.1.15)
где Ке - эмпирическое значение статистики Колмогорова;

Fj1 - кумулятивная относительная частота для у-того интервала шкалы по первой половине выборки;

Fj2 - та же частота для второй половины;

n - полный объем выборки.

Точные значения квантилей распределения Колмогорова для опре­деления размеров выборки можно найти в кн.: Мюллер П. и др., 1982.

Применение критерия Колмогорова не зависит от нормальности целого распределения и от необходимости производить нормализа­цию интервалов.

* * *
Итак, априорная предпосылка нормальности распределения тес­товых баллов основывается скорее на принципах операционального удобства, чем на теоретической необходимости. Психометрически корректные процедуры получения устойчивых тестовых норм возмож­ны с помощью специальных методов непараметрической статистики (критерий «хи-квадрат» и т. п.) для распределений произвольной фор­мы. Выбор статистической модели распределения - законный произ­вол психометриста, пока сам тест выступает в качестве единственно­го эталона измеряемого свойства. В этом случае остается лишь тща­тельно следить за соответствием сферы применения диагностичес­ких норм той выборке испытуемых, на которой они были получены. Произвольность в выборе статистической модели шкалы исчезает, когда речь заходит о внешних по отношению к тесту критериях.

Репрезентативность критериальных тестов. В таких тестах в качестве реального эталона применяется критерий, ради которого со­здается тест, - целевой критерий. Особое значение такой подход имеет в тех областях практики, где высокие результаты могут дать узкоспеци­ализированные диагностические методики, нацеленные на очень кон­кретные и узкие критерии. Такая ситуация имеет место в обучении: тестирование, направленное на получение информации об уровне ус­воения определенных знаний, умений и навыков (При профессиональ­ном обучений), должно точно отражать уровень освоения этих навы­ков и тем самым давать надежный прогноз эффективности конкретной профессиональной деятельности, требующей применения этих навы­ков. Так возникают «тесты достижений», по отношению к которым критериальный подход обнаружил свою высокую эффективность (Гуревич К. М, Лубовский В. И,, 1982).

Рассмотрим операциональную схему шкалирования, применяе­мую при создании критериального теста. Пусть имеется некоторый критерий С, ради прогнозирования которого психодиагност создает тест X. Для простоты представим С как дихотомическую перемен­ную с двумя значениями: 1 и 0. С, = 1 означает, что j-й субъект достиг критерия (попал в «высокую» группу по критерию), Сj=0 означает, что i-й субъект не достиг критерия (попал в «низкую» группу). Пси­ходиагност применяет на нормативной выборке тест X, и в ре­зультате каждый индивид получает тестовый балл Xi. После того как для каждого индивида из выборки становится известным значение С (иногда на это требуются месяцы и годы после момента тестирова­ния), психодиагност группирует индивидов по порядку возрастания балла Xi и для каждого деления исходной шкалы сырых тестовых бал­лов подсчитывает эмпирическую вероятность Р попадания в «высо­кую» группу по критерию С. На рис. 5 показаны распределения веро­ятности Р (Ci = 1) в зависимости от Xi

Рис. 5 Эмпирическая зависимость между вероятностью критериального события и тестовым баллом
Очевидно, что кривая на рис. 5 по своей конфигурации может со­вершенно не совпадать с кумулятивной кривой распределения частот появления различных Xi. Кривая, представленная на рис. 5, является эмпирической линией регрессии С по Xi Теперь можно сформулиро­вать основное требование к критериальному тесту: линия регрессии должна быть монотонной функцией С от Xi Иными словами, ни для одного более высокого значения X. вероятность Р не должна быть мень­шей, чем для какого-либо менее высокого значения Xi Если это усло­вие выполняется, то открывается возможность для критериального шка­лирования сырых баллов X. Так же как в случае с интервальной норма­лизацией», когда применяется поточечный перевод интервалов Х в ин­тервалы Z, для которых выполняется нормальная модель распределения, так и при критериальном шкалировании к делениям сырой шкалы X применяется поточечный перевод прямо в шкалу Р на основании эмпи­рической линии регрессии. Например, если испытуемый А получил по тесту X 18 сырых баллов и этому результату соответствует Р=0,6, то испытуемому А ставится в соответствие показатель 60 %.

Конечно, любая эмпирическая кривая является лишь приближен­ной моделью той зависимости, которая могла бы быть воспроизведе­на на генеральной совокупности. Обычно предполагается, что на ге­неральной совокупности линия регрессии С по Х должна иметь более сглаженную форму. Поэтому обычно предпринимаются попытки ап­проксимировать эмпирическую линию регрессии какой-либо функ­циональной зависимостью, что позволяет затем производить прогноз с применением формулы (а не таблицы или графика).

Например, если линия регрессии имеет вид приблизительно та­кой, какой изображен на рис. 6, то применение процентильной нор­мализации позволяет получить простую линейную регрессию С по нормализованной шкале Z. Это как раз тот случай, когда имеет мес­то эквивалентность стратегии, использующей выборочно-статисти­ческие тестовые нормы, и стратегии, использующей критериальные нормы.

Рис. 6. Зависимость вероятности критериального события Р от

нормально распределенного диагностического параметра X
Операции по анализу распределения тестовых баллов, построе­нию тестовых норм и проверке их репрезентативности. Завершая этот раздел, кратко перечислим действия, которые последовательно должен произвести психолог при построении тестовых норм.

1. Сформировать выборку стандартизации (случайную или стра­тифицированную по какому-либо параметру) из той популяции, на которой предполагается применять тест. Провести на каждом ис­пытуемом из выборки тест в сжатые сроки (чтобы устранить иррелевантный разброс, вызванный внешними событиями, происшедшими за время обследования).

2. Произвести группировку сырых баллов с учетом выбранного интервала квантования (интервала равнозначности). Интервал опре­деляется величиной W/m , где W=x max — х max; m - количество интерва­лов равнозначности (градаций шкалы).

3. Построить распределение частот тестовых баллов (для задан­ных интервалов равнозначности) в виде таблицы и в виде соответ­ствующих графиков гистограммы и кумуляты.

4. Произвести расчет среднего арифметического значения и стандар­тного отклонения, а также асимметрии и эксцесса с помощью компьюте­ра. Проверить гипотезы о значимости асимметрии и эксцесса. Сравнить результаты проверки с визуальным анализом кривых распределения.

5. Произвести проверку нормальности одного из распределений с помощью критерия Колмогорова (при n < 200 с помощью более мощ­ных критериев) или произвести процентильную нормализацию с пе­реводом в стандартную шкалу, а также линейную стандартизацию и сравнить их результаты (с точностью до целых значений стандарт­ных баллов).

6. Если совпадения не будет - нормальность отвергается; в этом случае произвести проверку устойчивости распределения расщепле­нием выборки на две случайные половины. При совпадении норма­лизованных баллов для половины и для целой выборки можно счи­тать нормализованную шкалу устойчивой.

7. Проверить однородность распределения по отношению к варь­ированию заданного популяционного признака (пол, профессия и т. п.) с помощью критерия Колмогорова. Построить в совмещенных коор­динатах графики гистограммы и кумуляты для полной и частной вы­борок. При значимых различиях разбить выборку на разнородные подвыборки.

8. Построить таблицы процентильных и нормализованных тесто­вых норм (для каждого интервала равнозначности сырого балла). При наличии разнородных подвыборок для каждой из них должна быть своя таблица.

9. Определить критические точки (верхнюю и нижнюю) для до­верительных интервалов (на уровне Р < 0,01) с учетом стандартной ошибки в определении среднего значения.

10. Обсудить конфигурацию полученных распределений с учетом предполагаемого механизма выполнения того или иного теста.

11. В случае негативного результата: отсутствия устойчивых норм для шкалы с заданным числом градаций (с заданной точнос­тью прогноза критериальной деятельности) - осуществить обсле­дование более широкой выборки или отказаться от использования, данного теста.


3.2. НАДЕЖНОСТЬ ТЕСТА
В дифференциальной психометрике проблемы валидности и надежности тесно взаимосвязаны, тем не менее мы последуем традиции раздельного изложения методов проверки этих важнейших пси­хометрических свойств теста.

Надежность и точность. Как уже отмечалось в разделе 3.1, общий разброс (дисперсию) результатов произведенных измерений мож­но представить как результат действия двух источников разнообразия: самого измеряемого свойства и нестабильности измерительной процедуры, обусловливающей наличие ошибки измерения. Это пред­ставление выражено в формуле, описывающей надежность теста и виде отношения истинной дисперсии к дисперсии эмпирически заре­гистрированных баллов:


(3.2.1)
Так как истинная дисперсия и дисперсия ошибки связаны оче­видным соотношением, формула (3.2.1) легко преобразуется в фор­мулу Рюлона:
(3.2.2)
где а - надежность теста; . -дисперсия ошибки.

Величина ошибки измерения - обратный индикатор точности из­мерения. Чем больше ошибка, тем шире диапазон неопределенности на шкале (доверительный интервал индивидуального балла), внутри которого оказывается статистически возможной локализация истинного балла данного испытуемого. Таким образом, для проверки гипо­тезы о значимости отличия балла испытуемого от среднего значения оказывается недостаточным только оценить ошибку среднего, нужно еще оценить ошибку измерения, обусловливающую разброс в поло­жении индивидуального балла (рис. 7).



Рис. 7. Соотношение распределений Sm – стандартное отклонение эмпирического среднего, St – стандартное отклонение ошибки
Как же определить ошибку измерения? На помощь приходят кор­реляционные методы, позволяющие определить точность (надеж­ность) через устойчивость и согласованность результатов, получае­мых как на уровне целого теста, так и на уровне отдельных его пун­ктов.

Надежность целого теста имеет две разновидности.

1. Надежность-устойчивость (ретестовая надежность). Измеряется с помощью повторного проведения теста на той же выборке испыту­емых, обычно через две недели после первого тестирования. Для ин­тервальных шкал подсчитывается хорошо известный коэффициент корреляции произведения моментов Пирсона:

где х1i. - тестовый балл i-го испытуемого при первом измерении;

х2i. - тестовый балл того же испытуемого при повторном измерении;

n - количество испытуемых.

Оценка значимости этого коэффициента основывается на несколь­ко иной логике, чем это обычно делается при проверке нулевой гипо­тезы - о равенстве корреляций нулю. Высокая надежность достига­ется тогда, когда дисперсия ошибки оказывается пренебрежительно малой. 'Относительную долю дисперсии ошибки легко определить по формуле
(3.2.4)
Таким образом, для нас существеннее близость к единице, а не отдаленность от нуля. Обычно в тестологической практике редко уда­ется достичь коэффициентов, превышающих 0,8. При г = 0,75 отно­сительная доля стандартной ошибки равна . Этой ошиб­кой, очевидно, нельзя пренебречь. При такой ошибке эмпирически полученное отклонение индивидуального тестового балла от средне­го по выборке оказывается, как правило, завышенным. Для того что­бы выяснить «истинное» значение тестового балла индивида, приме­няется формула

(3.2.5)

где - истинный балл; '

хi — эмпирический балл i-го испытуемого;

r - эмпирически измеренная надежность теста;



- среднее для теста.

Предположим, испытуемый получил балл IQ по шкале Стэнфорда.-Бине, равный 120 нормализованным очкам, М = 100, г = 0,9. Тог­да истинный балл = 0,9 120 + 0,1 100 =118.

Конечно, требование ретестовой надежности является коррект­ным лишь по отношению к таким психическим характеристикам ин­дивидов, которые сами являются устойчивыми во времени. Если мы создаем тест для измерения эмоциональных состояний (бодрости, тре­воги и т. д.), то, очевидно, требовать от него ретестовой надежности бессмысленно: у испытуемых быстрее изменится состояние, чем они забудут свои ответы по первому тестированию.

Для шкал порядка в качестве меры устойчивости к перетестиро­ванию используется коэффициент ранговой корреляции Спирмена:



, (3.2.6)
где di — разность рангов /-го испытуемого в первом и втором ранго­вом ряду.

С помощью компьютера определяется более надежный коэффи­циент ранговой корреляции Кендалла (1975).

2. Надежность- согласованность (одномоментная надежность).

Эта разновидность надежности не зависит от устойчивости, име­ет особую содержательную и операциональную природу. Простей­шим способ ее измерения состоите коррелировании параллельных форм теста (Анастази Д., 1982, кн. 1,с. 106). Чаще всего параллель­ные формы теста получают расщеплением составного теста на «чет­ную» и «нечетную» половины: к первой относятся четные пункты, ко второй - нечетные. По каждой половине рассчитываются суммар­ные баллы и между двумя рядами баллов по испытуемым определя­ются допустимые (с учетом уровня измерения) коэффициенты кор­реляции. Если параллельные тесты не нормализованы, то предпоч­тительнее использовать ранговую корреляцию. При таком расщеп­лении получается коэффициент, относящийся к половинам теста. Для того чтобы найти надежность целого теста пользуются формулой Спирмена - Брауна:


(3.2.7)
где rx - эмпирически рассчитанная корреляция для половин.

Делить тест на две половины можно разными способами, и каж­дый раз получаются несколько разные коэффициенты (Аванесов В. С., 1982, с. 122), поэтому в психометрике существует способ оценки син­хронной надежности, который соответствует разбиению теста на та­кое количество частей, сколько в нем отдельных пунктов. Такова фор­мула Кронбаха:


(3.2.8)
где а - коэффициент Кронбаха;

k- количество пунктов теста;



- дисперсия по j-му пункту теста;

- дисперсия суммарных баллов по всему тесту.
Обратите внимание на структурное подобие формулы Кронбаха (3.2.2) и формулы Рюлона (3.2.8).

Несколько раньше была получена формула Кьюдера - Ричардсо­на, аналогичная формуле Кронбаха для частного случая - когда отве­ты на каждый пункт теста интерпретируются как дихотомические переменные с двумя значениями (1 и 0):


(3.2.9)

где KR20 - традиционное обозначение получаемого коэффициента;



-дисперсия i-и дихотомической переменной, какой является

i-й пункт теста; р = , q = 1 - p

В 1957 г. Дж. Ките предложил следующий критерий для оценки статистической значимости коэффициента a:


(3.2.10)
где - эмпирическое значение статистики % квадрат с п-1 степе­нью свободы;

k - количество пунктов теста;

n - количество испытуемых;.

a - надежность.

Формулы (3.2.8) и (3.2.9) позволяют оценить взаимную согласо­ванность пунктов теста, используя при этом только подсчет диспер­сий. Однако коэффициенты а и KR2I> позволяют оценить и среднюю корреляцию между i-м и j-м произвольными пунктами теста, так как связаны с этой средней корреляцией следующей формулой:


11)
где - средняя корреляция между пунктами теста. Легко увидеть идентичность формулы (3.2.11) обобщенной формуле Спирмена - Бра­уна, позволяющей прогнозировать повышения синхронной надежно­сти теста с увеличением количества пунктов теста в k раз (Аванесов В. С., 1982, с. 121). Из этой формулы видно, что при больших k малое значение может сочетаться с высокой надежностью. Пусть = 0,1, a k =100, тогда по формуле (3.2.11)


Широкое распространение компьютерных программ факторного анализа для исследования взаимоотношений между пунктами теста (по одномоментным данным) привело к обоснованию еще одной до­статочно эффективной формулы надежности теста, которой легко воспользоваться, получив стандартную распечатку компьютерных результатов факторного анализа по методу главных компонент:
(3.2.12)
где θ - коэффициент, получивший название тета-надежности теста;

k - количество пунктов теста;

λ1 - наибольшее значение характеристического корня матрицы

интеркорреляций пунктов (наибольшее собственное значение, или аб­солютный вес первой главной компоненты).

Как и предыдущие формулы, формула (3.2.12) также относится к оценке надежности теста, направленного на измерение одной характе­ристики. Но, кроме того, она применима и для многофакторного теста, хотя и нуждается в пересчете после первоначального отбора пунктов, релевантных фактору (после того, как на основании многофакторного анализа отобраны пункты по одному фактору, снова проводится фак­торный анализ - только для этих отобранных пунктов).

Надежность отдельных пунктов теста. Надежность теста обес­печивается надежностью пунктов, из которых он состоит. Чтобы по­высить ретестовую надежность теста в целом, надо отобрать из ис­ходного набора пунктов, апробируемых в пилотажных психометри­ческих экспериментах, такие пункты, на которые испытуемые дают устойчивые ответы. Для дихотомических пунктов (типа «решил - не решил», «да - нет») устойчивость удобно измерять с использованием четырехклеточной матрицы сопряженности:

Тест 1
Да Нет


a

B

c

D
Да Тест 2

Нет
Здесь в клеточке а суммируются ответы «Да», данные испытуе­мым при первом и втором тестировании, в клеточке b - число случа­ев, когда испытуемый при первом тестировании отвечал «Да», а при втором - «Нет» и т. д. В качестве меры корреляции вычисляется фи-коэффициент:


(3.2.13)
Как известно, значимость фи-коэффициента определяется с по мощью критерия хи-квадрат:
(3.2.14)
Если вычисленное значение хи-квадрат выше табличного с од­ной степенью свободы, то нулевая гипотеза (о нулевой устойчивос­ти) отвергается. Удобство использования фи-коэффициента состоит в том, что он одновременно оценивает степень оптимальности данного пункта теста по силе (трудности): фи-коэффициент оказывает­ся тем меньшим, чем сильнее частота ответов «да» отличается от частоты ответа «нет».

Кроме того, сама четырехклеточная матрица позволяет просле­дить возможную несимметричность в устойчивости ответов «да» и «нет» (это важнее для задач, чем для вопросов: например, может ока­заться, что все испытуемые, уже решившие однажды данную задачу, решают ее при повторном тестировании; это наводит на мысль о том, что при втором тестировании происходит сбережение опыта, приоб­ретенного при первом тестировании). Выявленные в результате тако­го анализа неустойчивые и неинформативные (слишком сильные или слишком слабые) пункты должны быть исключены из теста. Пункты следует считать недостаточно устойчивыми, если на репрезентатив­ной выборке величина превышает 0,71. При этом φ< 0,5.

Для т1. В отсутствие ком­пьютера согласованность для пунктов также очень просто определяет­ся с помощью четырехклеточной матрицы. В этом случае в первом стол­бце суммируются ответы испытуемых из «высокой».группы (пр величине суммарного балла), во втором столбце - из «низкой».
Высокая Низкая


A

B

C

D
Да

Нет
При нормальном распределении частот суммарных баллов «вы­сокая» и «низкая» группы отсекаются справа и слева 27%-ными мар­гинальными квантилями (рис. 8).

Для оценки согласованности с суммарным баллом применяется полная1 или упрощенная формула фи-коэффициента:
(3.2.15)2
где - количество ответов «верно» («да») на i-й пункт теста;

N* - сумма всех элементов матрицы;

N* = n • 0,54 где n - объём выборки;

Pi = а + b - При включении в эстремальную группу 1/3 выборки

N* = 0,66 • n.


Рис. 8. Квантили «высокой» и «низкой» группы на графике распределения тестовых баллов
В некоторых случаях подобный анализ позволяет уточнить ключ для пункта: если пункт получает значимый положительный фи-коэф­фициент, то ключ определяется значением «+1», если пункт получает значимый отрицательный фи-коэффициент значением «-1». Если пункт получает незначимый фи-коэфф.ициент, то его целесообразно исключить из теста.

При ручных вычислениях фи-коэффициента удобно вначале с помощью формул (3.2.14) и (3.2.15) определить граничное значение значимого (по модулю) фи-коэффициента. Например, при объеме выборки в 100 человек и уровне значимости р < 0,01 пороговое зна­чение вычисляется так:


(3.2.16)
При постоянном использовании компьютера при подсчете сум­марных баллов ключ для каждого пункта Q целесообразно опреде­лить в виде самого фи-коэффициента (или другого коэффициента корреляции), определенного при коррелировании ответов на пункт с сум­марным баллом. Тогда тестовый балл подсчитывается по формуле
(3.2.17)

где хi — суммарный балл i-го испытуемого;



- ответ «верно» (+1) или «неверно» (-1) i-го испытуемого на i-й пункт;

Сi- ключ для i-го пункта: С = +1 для прямого, С= -1 для обрат­ного.

Более чувствительный коэффициент, который также применяет­ся для дихотомических пунктов, - это точечный бисериальный коэф­фициент корреляции, учитывающий амплитуду отклонения индиви­дуальных суммарных баллов от среднего балла:
3.2.18)
где x* - сумма финальных баллов тех индивидов, которые дали утвердительный ответ на i-й пункт теста (решили i-ю задачу);

Sx - стандартное отклонение для суммарных баллов всех индиви­дов из выборки;



- стандартное отклонение по i-му пункту;

- средний балл по всем пунктам.

А. Анастази относит критерий внутренней согласованности тес­та к валидности (Анастази А., 1982, кн. 1, с. 143), однако если и мож­но в данном случае говорить о валидности, то только в смысле осо­бой внутренней валидности теста. Как правило, слишком высокая со­гласованность снижает внешнюю валидность теста по критерию (см. раздел 3.3). Если проверяется согласованность пунктов, составлен­ных одним автором (одним коллективом по стандартной инструкции), то выявление достаточного набора согласованных пунктов свидетель­ствует о внутренней валидности (согласованности) разработанного диагностического понятия (конструкта).

В компьютерных данных факторного анализа аналогом корреля­ции пункта с суммарным баллом является нагрузка пункта на веду­щий фактор («факторная валидность» в терминах А. Анастази). Если прибегать к геометрическому изображению нагрузки как проекции вектора-пункта на ось-фактор, то структура пунктов хорошо согласо­ванного теста предстанет в виде пучка векторов, плотно прилегаю­щих к фактору и вытянувшихся вдоль его оси (рис. 9).

Рис. 9. Векторная модель соотношения «прямых» и «обратных» эмпирических пунктов с релевантным (измеряемым) фактором и иррелевантными («шумовыми») факторами
Последовательность действий при проверке надежности:

1. Узнать, существуют ли данные о надежности теста, предпо­лагаемого к использованию, на какой популяции и в какой диагнос­тической ситуации проводилась проверка. Если проверки не было или признаки новых популяции и ситуации явно специфичны, про­вести заново проверку надежности с учетом указанных ниже воз­можностей.

2. Произвести повторное тестирование на всей выборке стан­дартизации и подсчитать все коэффициенты, как для целого теста, так и для его отдельных пунктов. Анализ полученных коэффициен­тов позволит понять, насколько пренебрежима ошибка измерения, дает ли данный тест интервальную шкалу (высокий r) или только диагностичен для крайних групп (высокий φ), насколько устойчиво измеряемое свойство во времени (возможен ли статистический про­гноз - проекция тестового балла на будущее), в каких своих пунк­тах тест менее надежен (анализ этих пунктов позволяет психологи­чески осмыслить содержательный механизм взаимодействия пунк­тов с испытуемыми).

3. Если возможности обследования испытуемых ограниченны, произвести повторное тестирование только на части выборки (не ме­нее 30 испытуемых), подсчитать (вручную) ранговую или четырех-клеточную корреляцию для оценки внутренней согласованности и ста­бильности теста в целом.


3.3. ВАЛИДНОСТЬ ТЕСТОВ
Проблемы валидизации психологических тестов являются цент­ральными для дифференциальной психометрики, но, к сожалению, до сих пор решенными не до конца. Решение этой проблемы зависит не от статистического аппарата, а от уровня развития теоретического аппарата дифференциальной психологии.

Валидность и надежность. Валидность (или обоснованность) всякой процедуры измерения состоит в однозначности (устойчивос­ти) получаемых результатов относительно измеряемых свойств объек­тов, т, е. относительно предмета измерения. Отличие понятия валидности от надежности измерения удобно раскрывать с помощью раз­личения «объекта» и «предмета» измерения. Надежность - это устой­чивость процедуры относительно объектов. Надежность не обязательно предполагает валидность. В психологии довольно часто возникает такая ситуация, когда исследователь вначале предлагает определенную процедуру измерения, показывает ее надежность -способность устойчиво различать объекты, но вопрос о валидности остается открытым.

Если в сенсорной психофизике вопрос о валидности измерений оказывается в значительной степени затушеванным тем обстоятель­ством, что простейшие физические стимулы достаточно однозначно детерминируют измеряемые свойства ощущений, то в дифференци­альной психометрике значимость проблемы валидности резко возра­стает. Здесь ситуация подобна той, когда в психофизическом опыте испытуемому не указывают, по какому именно параметру следует срав­нивать стимулы. Пусть испытуемый А понял инструкцию так, что стимульные объекты надо сравнивать по весу, а испытуемый Б - по раз­меру. Если процедура измерения будет повторена по отношению к тем же объектам, то она даст вполне устойчивые данные относитель­но объектов, но не даст валидной информации ни о шкале ощущений «веса», ни о шкале ощущений «размера».

При измерении способностей предъявляемый тест отнюдь не обя­зательно актуализирует именно тот психический процесс, который предполагается измерить. Например, столкнувшись с уже встречав­шейся однажды задачей (например, с анаграммой «дзиканпр»), испы­туемый может начать запоминать просто то решение, к которому он уже однажды пришел (слово «праздник»), чем заново решать эту за­дачу. Здесь будет измеряться скорее уровень словесной памяти, чем уровень вербального интеллекта. Точно так же реальная валидность некоторых тестов раскрывается только в результате значительного опыта работы с ними. Например, доказано, что ряд тестов, внешне вы глядящих интеллектуальными, на деле измеряют скорее личностно-стилевые особенности индивида, чем операциональные возмож­ности интеллекта, например, методика «креативного поля» Д. Б. Бо­гоявленской.

Устойчивость теста относительно объектов (испытуемых) явля­ется необходимым, но не достаточным условием его устойчивости относительно измеряемых атрибутов (свойств) объектов. Надежность является необходимым, но не достаточным условием валидности. Отсюда вытекает основное соотношение психометрики:
валидность ≤ надежность.
Это означает, что валидность теста не может превышать его надеж­ность.

Данное соотношение, однако, неверно трактовать как указание на прямую пропорциональную связь валидности и надежности. По­вышение надежности отнюдь не обязательно приводит к повышению валидности1. В терминах А. Анастази валидность определяется ре­презентативностью теста относительно измеряемой области поведе­ния. Если эта область поведения складывается из разнообразных фе­номенов, то содержательная валидность теста автоматически требует представленности в нем моделей всех этих разнообразных феноме­нов. Возьмем глобальное понятие «речевая способность» (этому психолингвистическому термину в традиционной тестологии соответству­ет термин «вербальный интеллект»). Сюда относятся такие относи­тельно независимые друг от друга навыки, как навыки письма и чте­ния. Если заботиться о содержательной валидности соответствую­щего теста, то нужно ввести в него группы заданий на проверку этих довольно разных по своему операциональному составу компонентов вербального интеллекта. Вводя разнородные пункты и субшкалы (суб­тесты), мы обязательно сокращаем внутреннюю согласованность, од­номоментную надежность теста, но зато добиваемся существенного повышения валидности. Таким образом, для расширения области при­менения теста психодиагност должен избегать излишнего повыше­ния внутренней согласованности. Одновременно с этим снижением внутренних корреляций между различными пунктами теста (об этом уже говорилось в разделе 3.1) обязательно исчезает отрицательный эксцесс на кривой распределения тестовых баллов, и она все более приближается по форме к нормальной кривой.

Эмпирическая валидность. Если в случае с содержательной ва-лидностью оценка теста производится за счет экспертов (устанавли­вающих соответствие заданий теста содержанию предмета измере­ния), то эмпирическая валидность измеряется всегда с помощью ста­тистического коррелирования: подсчитывается корреляция двух ря­дов значений - баллов по тесту и показателей по внешнему параметру, избранному в качестве критерия валидности.

Прагматические традиции западной тестологии привязывали эм­пирическую валидность теста к внешним для психологии социально-прагматическим критериям. Эти критерии являются показателями, обладающими непосредственной ценностью для определенных об­ластей практики. Практика всегда имеет целью либо повысить, либо понизить эти показатели. Например, в области педагогической пси­хологии это «успеваемость» (которую надо повысить), в психологии труда это «производительность труда» и «текучесть кадров», в меди­цине - «состояние здоровья пациента», в психологии управления -«совместимость», «срабатываемость» коллектива, в юридической пси­хологии - «преступность» (которую надо понизить) и т. п.

Ориентируясь непосредственно на эти категории, психолог, пы­тающийся скоррелировать результаты теста с этими показателями, фактически решает сразу две задачи: задачу измерения валидности и задачу измерения практической эффективности своей психодиагнос­тической программы. Если получен значимый коэффициент корреля­ции, то можно считать, что решены с позитивным результатом сразу обе эти задачи. Но если корреляции не обнаружено, то остается нео­пределенность: либо невалидна сама процедура (тестовый балл не отражает, например, стрессоустойчивость оператора), либо неверна гипотеза о наличии причинно-следственной связи между психичес­ким свойством и социально значимым показателем (стрессоустойчивость не влияет на процент аварийных ситуаций).

Таким образом, социально-прагматические критерии являются комплексными: они позволяют измерить валидность-эффективность, но не каждое из этих двух свойств теста отдельно. На практике пси­холога часто ожидает и еще более сложная ситуация, когда заказчик требует от психолога на основании полученного диагноза сразу же определенных мер по вмешательству в ситуацию (отбор, консульти­рование, обучение и т. п.). В этом случае повышение показателей (достоверное по сравнению с контрольной группой) доказывает од­новременно и валидность-эффективность диагностики, и эффектив­ность самого вмешательства. А отрицательный результат дает еще большую неопределенность, так как оказывается невозможным от­делить неэффективность вмешательства от низкой валидности ди­агностики.

Ориентация на социально-прагматические критерии, приводящие к склейке понятий «валидности измерения» и «причинного прогноза по результатам измерения», бесспорно, сдерживала и продолжает сдер­живать развитие концептуального аппарата дифференциальной пси­хологии. При этом суть самого предмета измерения: измеряемого пси­хического свойства - оказывается вне фокуса внимания не только заказчика, но и самого психолога, превращающегося в этом случае в тестолога, которого не интересует, что именно он измеряет, главное лишь, чтобы от этого «нечто» перекидывался мостик к полезному эффекту, обеспечивающему психологу социальное признание.

Процедура эмпирической валидизации. Организация выборки при эмпирической валидизации зависит от временного статуса критерия. Если этот критерий - событие в прошлом (ретроспективная валидизация), то к участию в психодиагностическом обследовании доста­точно привлечь только тех испытуемых, которые оказались на экстремальных полюсах по этому критерию1. В результате применяется ме­тод экстремальных (контрастных) групп. Коррелирование с суммар­ным баллом по тесту оценивается с помощью бисериального коэф­фициента по формуле (3.2.17). При этом в статусе дихотомической переменной (на месте отдельного пункта) оказывается сам критерий валидности: x— сумма баллов по тесту, полученных «высокой» груп­пой по критерию; - стандартная ошибка критерия, связанная с численностью «высокой» (р) и «низкой» (q) групп.

Если критерий - будущее событие (проспективная валидизация), то выборка должна быть составлена с запасом - с учетом вероятного объема экстремальных групп в будущем. Например, нужно выяснить, позволяет ли диагностика темперамента прогнозировать повышен­ный риск психосоматических заболеваний (гипертония, язва, астма и т. п.). Пусть на основании эпидемиологических исследований извес­тно, что в течение трех лет из. 1000 здоровых людей этими болезнями заболевают 57 человек. Это означает, что превентивной (предупреж­дающей) диагностикой должно быть охвачено около 2000 человек, чтобы получить численность «высокой» группы (заболевших) поряд­ка 100 человек. Проспективная валидизация выявляет прогностичес­кую эффективность диагностической процедуры. Высокая прогнос­тическая валидность доказывает как валидность самого измерения, так и наличие предполагаемой причинной связи.

Ретроспективная валидизация позволяет в лучшем случае решить только первую из двух задач. Например, если для исследования лич­ностной предрасположенности к совершению краж проведено обсле­дование лиц, находящихся под следствием (т. е. уже совершивших преступление), то выявление акцентированных черт «тревожности», «агрессивности» и т. п. еще не может интерпретироваться как свиде­тельство причинных факторов преступности - эти черты могут быть лишь следствием сложившихся обстоятельств: лишение свободы, уг­рызения совести и т. п. (Ратинов А. Р., 1979). Во многих медико-пси­хологических исследованиях был выделен особый диагностический синдром «госпитализации», который обнаруживается у любой кате­гории госпитализированных больных (обычно он выражается в по­вышении шкал «депрессии» и «ипохондрии» по MMPI – Шхвацабая, 1980). Очевидно, что подобные личностные сдвиги никак нельзя ин­терпретировать в смысле симптомов предрасположенности к опреде­ленным психогенным заболеваниям, ибо они относятся к следстви­ям, а не к причинам этих заболеваний.

Конструктная валидность. В отличие от прагматической валидизации собственно психологическую валидизацию порой оказыва­ется провести гораздо труднее в силу отсутствия какого-либо более объективного внутрипсихологического критерия, чем сам тест.

Наиболее благополучная ситуация имеется тогда, когда для из­мерения данного свойства в психологии уже имеется процедура с известной валидностью. В этом случае корреляция между балла­ми двух тестов - линейная (см. формулу 3.2.3) или ранговая (см. формулу 3.2.5)- указывает на то, обладает ли новый тест конвер­гентной валидностью по отношению к старому. Если новый тест обнаруживает высокую конвергентность результатов со старым и одновременно оказывается более компактным и экономичным 'в проведении и подсчете, то психодиагносты получают возможность использовать новый тест вместо старого.

Однако во многих случаях для измеряемого свойства психодиа­гност не может найти в литературе ни одного уже апробированного теста с известной валидностью. В этом случае он может сформулиро­вать ряд предсказательных гипотез о том, как будет коррелировать его новый тест с другими тестами, измеряющими родственные характеристики испытуемых. Эти гипотезы выдвигаются на основе теоретических представлений об измеряемом свойстве. Их подтвержде­ние указывает на валидность выдвигаемого конструкта, т. е. на конструктную валидность теста. В западной литературе это операциональное определение конструктяой валыидности называется предполага­емой валидностью (assumed validity).

Представления о конструктной валидности тестов постоянно развиваются с пополнением репертуара методик. Эмпирические иссле­дования взаимосвязей результатов, получаемых с помощью разных методик, обогащают теоретические представления об измеряемых свойствах.

С другой стороны, понятие конструктной валидности указывает на высокую зависимость эмпирических связей теста от теоретичес­ких представлений его автора об измеряемом свойстве. Для иллюст­рации приведен пример взаимоотношений между двумя популярны­ми тест-опросниками: MAS Ж. Тейлор и EPI Г. Айзенка. Многочис­ленные корреляционные исследования, проведенные на репрезента­тивных выборках, показали, что шкала MAS (тревожность) Ж. Тейлор положительно коррелирует со шкалой «нейротизм» и отрицательно со шкалой «экстраверсия» Айзенка. Эти соотношения можно проил­люстрировать графически (рис. 10): вектор MAS оказывается распо­ложенным в квадранте «Нейротизм - Интроверсия», образованном си­стемой из ортогональных (статистически независимых) факторов EPL С точки зрения концепции Г. Айзенка, эти данные можно рассмат­ривать как свидетельства низкой валидности шкалы Ж. Тейлор: MAS коррелирует не только с релевантным фактором «нейротизм», но и с иррелевантным фактором «интроверсия». С этой точки зрения, оп­росник EPI оказывается просто нечувствительным к особой разно­видности «нейротизма» - к нейротизму (тревожности) экстравертов; в перечне пунктов MAS отсутствуют высказывания, в которых могла бы проявиться тревожность экстраверта. Однако с точки зрения тоготеоретического смысла, который приписывают показателям MAS К. Спенс и Ж. Тейлор, эта ситуа­ция вполне закономерна, жела­тельна и никак не является арте­фактом - следствием дефекта их диагностического средства. Со­гласно К. Спенсу, пытавшемуся перенести на человеческое пове­дение теорию научения Халла, MAS измеряет общий уровень драйва - неспециализированного побуждения, которое достигает максимума как раз при сочетании нейротизма (специфическая ак­тивация по Г. Айзенку) и интро-версии (неспецифическая активация)


Рис. 10. Векторная модель соотношения показателя «Тревожность» по тест-опроснику MAS с факторами тест-опросника EPI
Таким образом, вовсе не всегда краткие названия тестов од­нозначно выражают теоретический статус диагностического конст­рукта - понятия об измеряемом свойстве.

Конвергентная и дискриминантная валидность. От того, как пси­холог определяет диагностический конструкт, зависит стратегия вклю­чения в тест определенных пунктов. Если Айзенк определяет свой­ство «нейротизм» как независимое от экстраверсии-интроверсии, то это означает, что в его опроснике примерно поровну должны быть представлены пункты, с которыми будут соглашаться невротичные интроверты и невротичные экстраверты (векторы этих пунктов дол­жны быть примерно поровну распределены в правом и левом нижних квадрантах; см. рис. 10).-Если же на практике окажется, что в тесте будут преобладать пункты из квадранта «Нейротизм-Интроверсия», то, с точки зрения теории Айзенка, это означает, что фактор «нейро­тизм» оказывается нагруженным иррелевантным фактором - «интроверсией». (Точно такой же эффект возникает, если появится перекос в выборке - если в ней будет больше невротичных интровертов, чем невротичных экстравертов.)

Для того чтобы не сталкиваться с такими сложностями, психо­логи хотели бы иметь дело с такими эмпирическими показателями (пунктами), которые однозначно информируют только об одном факторе. Но это требование реально никогда не выполняется: вся­кий эмпирический показатель оказывается детерминированным не ; только тем фактором, который нам нужен, но и другими - иррелевантными задаче измерения (рис. 11).

На рис. 11 постоянным для всех показателей является релевант­ный фактор А, но каждый раз он оказывается сопряжен с иррелевант-ными факторами - X, К и Z. Задача состоит в таком подборе пунктов,


чтобы все потенциальные иррелевантнв!е факторы были уравнове­шены, т. е. чтобы ни один из них не встречался бы чаще других на множестве показателей (пунктов), включенных в тест.


Рис, 11. Связь эмпирических показателей П1, П2, П, с релевантным (измеряемым) фактором А и с иррелевантными («шумовыми») факторами X, Y, Z, обусловливающими невалидность показателей
Таким обра­зом, по отношению к факторам, которые концептуально определяют­ся как ортогональные к измеряемому (встречающиеся с ним во всех комбинациях), составитель теста должен при отборе пунктов приме--нить стратегию искусственного балансирования (Готтсданкер Р., 1982);

Соответствие пунктов измеряемому фактору обеспечивает конвергентную валидность теста. Сбалансированность пунктов относи­тельно иррелевантных факторов обеспечивает дискриминантную валидностъ. Эмпирически она выражается в отсутствии значимой кор­реляции с тестом, измеряющим концептуально независимое свойство.

С точки зрения теории Айзенка, тест Ж. Тейлор не обладает дискриминантной валидностью по отношению к факторам «экстраверсия-интроверсия», хотя и обладает определенной конвергентной ва­лидностью по отношению к релевантному фактору - «нейротизм».

Экспертная эмпирическая валидизация. В отсутствие какого-либо уже валидизированного теста, параллельно измеряющего изучаемое свойство, а также в отсутствие разработанного теоретического кон­текста, позволяющего проверять конструктную валидность; психодиагност оказывается перед необходимостью привлечения экс­пертов к валидизации теста. В отличие от экспертного анализа содер­жания теста., эмпирическая экспертная валидизация предполагает ра­боту экспертов не с тестом (лучше, чтобы о нем эксперты вообще ничего не знали), а с испытуемыми из выборки стандартизации.

Необходимо экспертам обеспечить стандартные условия для на­блюдения за испытуемыми. Но не всегда такое стандартизованное на­блюдение удается организовать. Даже если предприняты серьезные усилия по организации наблюдения за поведением испытуемых в ка­кой-либо искусственной лабораторной ситуации, такое наблюдение все равно будет значительно уступать по информативности полевому наблюдению - в естественных условиях. Если измеряемое свойство теоретически определено как устойчивая универсальная черта лич­ности - как диспозиция к инвариантному поведению в широком спек­тре ситуаций (см. главу 4), то и отдельного полевого наблюдения ока­жется недостаточно для получения полноценного экспертного критерия валидности.

Поэтому на практике часто прибегают к оценкам особого типа -к субъективным оценкам, которые выносят испытуемому люди из его круга, имеющие опыт реального общения с ним. С учетом этого, про­цедура оценивания приспосабливается к обычным людям, не являю­щимся психологами. На психолога падает большая нагрузка по со­ставлению детальной инструкции оценщикам, однозначно задающей смысл оцениваемой характеристики. Лучшие условия для такой процедуры возникают при наличии группы испытуемых, тесно общаю­щихся между собой; тех, которые могут одновременно побывать и испытуемыми по отношению к тесту, и оценщиками по отношению друг к другу. В отечественной литературе эта процедура получила со­кращенное обозначение ГОЛ - «групповая оценка личности» (Кузь­мин Н. В., Семенов В. С., 1977).

Для того чтобы групповая оценка личности была источником дей­ствительно валидной информации, оценщики должны согласованно оценивать испытуемых. Если в оценках разных оценщиков нет согла­сованности, то это означает, что либо оцениваемое свойство не про­явилось у объекта оценивания, либо оценщики по-разному проинтерпретировали инструкцию. Для измерения согласованности должна быть составлена таблица с оценками (табл. 6).

1   2   3   4   5   6   7   8   9   ...   22

  • Рис. 5 Эмпирическая зависимость между вероятностью критериального события и тестовым баллом
  • Рис. 6. Зависимость вероятности критериального события Р от нормально распределенного диагностического параметра X
  • 3.2. НАДЕЖНОСТЬ ТЕСТА
  • Рис. 7. Соотношение распределений S m – стандартное отклонение эмпирического среднего, S t – стандартное отклонение ошибки
  • Рис. 8. Квантили «высокой» и «низкой» группы на графике распределения тестовых баллов
  • Рис. 9. Векторная модель соотношения «прямых» и «обратных» эмпирических пунктов с релевантным (измеряемым) фактором и иррелевантными («шумовыми») факторами
  • 3.3. ВАЛИДНОСТЬ ТЕСТОВ
  • Рис. 10. Векторная модель соотношения показателя «Тревожность» по тест-опроснику MAS с факторами тест-опросника EPI