Метод расчета описательных статистик

Перед психологом или эргономистом, работающим в какой-нибудь авиакомпании, могут поставить такую задачу: отобрать из контингента летающих пилотов тех, кто способен наиболее быстро и успешно переучиться на новые (высоко компьютеризированные) самолеты. Понятно, что этими лицами должны быть опытные пилоты, но опытные пилоты имеют один недостаток: их психические функции могут оказаться сниженными по причине старения головного мозга с возрастом. В этой связи необходимо сначала определить, какой уровень сохранности психических функций демонстрирует каждый из пилотов по тестам. А затем определить, какие именно показатели по тестам можно считать высокими, средними и низкими для данного контингента.

Для этого существует специальная процедура, которая в статистике называется нормированием результатов, поскольку она вырабатывает «нормы», т.е. некие стандарты, с которыми можно сравнивать чьи-либо результаты. Нормы – это определенные интервалы значений показателей, которые разграничивают зоны высоких, средних и низких показателей. Количество зон может быть и больше, если использовать более мелкие разграничения, например, ввести зоны показателей «выше среднего» и «ниже среднего» или зоны «очень высоких» и «очень низких» показателей.
Сразу заметим, что существует два вида норм:

  1. статистические;
  2. критериальные.

Критериальные нормы отличаются от статистических норм тем, что они строятся по другим правилам и на их основе можно не только судить о высоте результата тестирования, но и прогнозировать степень успешности какой-то профессиональной деятельности.

Но на первом занятии мы рассмотрим подробно только первый вид норм – статистические нормы, а критериальным нормам будет посвящено следующее занятие.
Статистические нормы выводятся на том статистическом материале, который имеется в данный момент у экспериментатора. Нормирование результатов, т.е. расчет определенных зон значений показателей делается по специальной процедуре. Чтобы была понятна суть этой процедуры, необходимо вспомнить сначала, что такое «закон нормального распределения данных».

Многочисленные исследования в биологии, антропологии, физиологии и психологии показали, что многие признаки живых существ, будь то размер листьев деревьев или размер пальцев рук у человека, его рост или проявления его интеллекта, подчиняются одному закону. Этот закон заключается в том, что частота встречаемости средних показателей среди этих признаков явно преобладает над частотой встречаемости крайних значений, т.е. высоких или низких. Поскольку явное доминирование средних проявлений в природе носит естественный характер, то закон получил название «нормального распределения». Если изобразить этот закон в виде графика, то он будет иметь форму колоколообразной кривой.

Кривая нормального распределения частоты встречаемости данных (показателей теста) в выборке испытуемых

Кривая нормального распределения частоты встречаемости данных (показателей теста) в выборке испытуемых

Необходимо подчеркнуть, что закон нормального распределения отражает глобальную закономерность, т.е. его проявление особенно четко заметно на очень больших (генеральных) совокупностях данных. При малых по объему выборках данных (если, например, была взята малая группа обследуемых лиц), закон может не проявляться в полной мере или быть выражен в виде небольшой тенденции, но это не означает, что он не работает на данном контингенте лиц. Просто маленькая выборка не отражает реального процесса распространения признака в природе: в нее могли случайно попасть только лица с высокими показателями или только с низкими. Но по мере пополнения выборки проявления изучаемого признака начнут все более подчиняться закону нормального распределения, что выразиться в существенном увеличении доли средних значений в общем массиве данных.

Необходимость вспомнить о законе нормального распределения данных возникла потому, что разработку норм можно производить лишь в том случае, когда распределение данных в собранном вами массиве хотя бы в общих чертах напоминает этот закон. Если же график распределения данных по частоте встречаемости очень отличается от нормального распределения, т.е. частота встречаемости крайних значений (высоких или низких) преобладает над частой средних значений, то в таком случае собранная вами выборка данных не отражает закономерности, присущей большим группам (генеральной совокупности). Поэтому на ее основе нельзя вырабатывать статистические нормы — они окажутся просто неприемлемыми для групп большей численностью, и вынесение заключений по таким нормам будет неверным. Вид кривой, которая не подчиняется закону нормального распределения, представлен на рисунке ниже.

Кривая не нормального распределения данных по частоте

Кривая не нормального распределения данных по частоте

На графике не нормального распределения те части кривой, которые отражают частоты встречаемости низких и высоких значений, выгнуты вверх, а центральная часть кривой, соответствующая средним значениям, вогнута вниз. Такая «двугорбая» по краям кривая (вместо «одногорбой» кривой в центре) может иметь место не только в случае малочисленности выборки (10-15 человек), но и в том случае, когда выборка неоднородна по своему составу. Например, известно, что размеры обуви мужчин тяготеют к более высоким значениям, а размеры обуви женщин к более низким значениям. Поэтому если построить частоту встречаемости размеров обуви на смешенной выборке, то она может оказаться «двугорбой», т.е. с двумя пиками по разные стороны от середины кривой. В этой связи корректнее брать однородную выборку по половому признаку (мужскую или женскую), чтобы увидеть закон нормального распределения, либо оговаривать причину полученной «двугорбости» распределения. Такое распределение называют в статистике «антимодальным», т.к. на нем нельзя выделить четкой «моды» — преобладающего значения, которое встречается чаще остальных.

Характер кривой частотного распределения показателей может зависеть не только от пола, но и от возраста испытуемых. Так, например, предъявление одного и того же теста молодым и пожилым людям приведет, как уже говорилось ранее, к получению высоких (у молодых) и  низких (у пожилых) результатов по причине снижения психических возможностей у лиц старшего возраста, т.е. по причине старения мозга. Поэтому нормы надо разрабатывать на однородном по возрасту контингенте: для молодых должна использоваться одна база данных, полученная на лицах именно молодого возраста, а для пожилых – другая база данных, полученная при обследовании пожилых лиц.

В этой связи прежде, чем приступить к процедуре нормирования, в обязательном порядке необходимо проверить, соответствует ли распределение данных в выборке закону нормального распределения. Если не соответствует, то продолжить сбор данных с учетом выше указанных факторов, влияющих на распределение, до тех пор, пока не появится, хотя бы тенденция к нормальности.

При получении четкого нормального распределения нормирование результатов, т.е. определение зон высоких, средних и низких значений в этой базе данных, можно произвести с помощью так называемых «описательных статистик». А в случае, когда так и не удалось получить четкого нормального распределения, но, тем не менее, требуется сделать расчет норм, лучше применить метод нормирования по так называемой «перцентильной кривой». Сейчас мы рассмотрим каждый из этих способов нормирования отдельно.

Начнем с понятия «описательные статистики»: это такие показатели, которые характеризуют, т.е. описывают особенности полученного распределения результатов. Они позволяют сравнивать особенности различных распределений данных между собой и определять, являются ли различия между распределениями (базами данных) статистически достоверными или нет. К числу описательных статистик относятся, прежде всего, такие показатели:

  • среднее арифметическое (М);
  • отклонение конкретного результата от среднего арифметического (d);
  • среднее квадратичное отклонение (σ );
  • мода (m);
  • зет – оценка (Z-оценка).

Рассмотрим содержание данных понятий более подробно, чтобы было понятно, почему на их основе можно производить нормирование результатов. При этом мы будем использовать понятие «точечное значение» (Х), которое обозначает любой конкретный результат в нашей базе данных.

Казалось бы, простое понятие «среднее арифметическое», но на самом деле этот показатель обладает двумя важными математическими свойствами:

  1. сумма всех отклонений точечных (конкретных) значений от среднего арифметического равна нулю;
  2. сумма квадратов этих отклонений – минимальна.

На рисунке ниже видно, что точечные результаты по-разному удалены от среднего арифметического,  эта степень удаленности выражается в величине отклонения от среднего, которое обозначается буквой (d):

d =Х – М.

Понятно, что часть величин отклонений будут иметь положительный знак (если Х>M), а часть будет иметь отрицательный знак (если Х <M). Если среднее арифметическое найдено правильно, то алгебраическая сумма всех отклонений точечных значений от М даст ноль. В этом смысле среднее арифметическое является своего рода точкой симметрии  в кривой распределения результатов, так как значения, которые расположены от среднего справа, удалены  от него в той же мере, что и значения слева. Благодаря этой равной удаленности точечных результатов от среднего арифметического, сумма квадратов отклонений (d) будет минимальный, если сравнивать эту сумму квадратов отклонений от любого другого числа, кроме М. Иными словами, самые кратчайшие «расстояния» связывают каждое точечное значение в распределении данных именно со средним арифметическим, а не с каким-либо другим показателем, например, «модой», т.е. самым частым (популярным) результатом в базе данных. Это делает удобным использовать среднее арифметическое  для описания степени разброса (удаленности) всех точечных значений от центральной точки распределения. Чем дальше уходят «хвосты» кривой распределения от центральной точки М, тем большим является разброс (разнообразие) данных.

Специально для описания степени разброса данных используется величина, которая опирается на усредненный квадрат отклонений от среднего арифметического. Данная величина называется «среднее квадратичное отклонение», она обозначается буквой S применительно к маленьким выборкам или буквой σ («сигма») применительно к большим выборкам и генеральной совокупности. В дальнейшем мы будем в основном использовать букву σ, формула расчета данного показателя следующая:

1

Рассматриваемый показатель удобен тем, что с его помощью можно описать степень разброса данных, полученных в конкретном распределении. В частности, структурное построение данных при нормальном распределении таково, что весь разброс данных в нем (от минимального до максимального значения) укладывается в 6 σ ( правило шести сигм).

Весь диапазон данных укладывается в 6 величин σ (сигм)

Весь диапазон данных укладывается в 6 величин σ (сигм)

Как видно на рисунке, если отложить три величины сигмы влево от среднего арифметического, то получим крайнее (самое минимальное) точечное значение, и если отложить три величины сигмы вправо, тоже достигнем крайнего (но уже самого высокого) точечного значения. Таким образом, благодаря среднему квадратичному отклонению мы можем отложить от среднего арифметического три диапазона значений влево и три диапазона значений вправо, чтобы охватить весь спектр значений распределения данных. Это позволяет описывать местоположение какого-то отдельно взятого результата по тесту на кривой распределения данных через величину σ (или ее долей)!  Если результат отстоит от М на 1 сигму, то он находится достаточно близко к среднему арифметическому, а если отстоит на 3 сигмы, значит, он отстоит от М очень далеко — в зоне крайних значений.

На основе этих шести стандартных диапазонов становится возможным выделить зоны: средних, низких, крайне низких, высоких и крайне высоких  значений. Для этого берут сначала два ближайших к среднему арифметическому диапазона, лежащие по обе стороны от него, и  объединяют в одну зону средних значений; диапазон  самый крайний слева относят к зоне крайне низких значений, а оставшийся слева диапазон между крайним и серединным принимают за зону просто низких значений. По такому принципу происходит деление  на зоны и с правой стороны распределения: крайний по удаленности диапазон относят к зоне крайне высоких значений, а более близкий к середине диапазон причисляют к зоне высоких значений.

Заметим, что два серединных диапазона, которые соответствуют зоне средних значений, охватывают 50% данных распределения, на зону высоких значений, как и на зону низких значений, выпадает примерно по 22,5%, а на зоны крайних значений по 2,5%. Как видим, зона средних значений оказалась самой массивной: она в два раза больше по объему, чем зона высоких или низких значений (50% против 25%). Это вполне соответствует закону нормального распределения признаков в природе. Следовательно, производить нормирование результатов с помощью таких показателей, как среднее арифметическое и стандартное отклонение вполне корректно, но с одной оговоркой, если рассматриваемое распределение данных в большой мере соответствует закону нормального распределения (кривая частоты встречаемости результатов в выборке имеет вид классической колоколообразной  кривой).

Ознакомившись с теоретическими знаниями, попробуем  применить их на практике. Вернемся к той задаче, которая была поставлена вам в начале занятия, а именно, как определить, какие пилоты предпочтительнее для переучивания на новые типы самолетов. Предположим, что вы уже провели тестирование интеллекта у этих пилотов и имеете протокол всех полученных данных (он представлен в виде ниже приведенной таблицы, где написаны продемонстрированные пилотами  коэффициенты интеллекта – коротко IQ).

Протокол  результатов (упорядоченный по возрастанию значений).

60 90 100 100 120
60 90 100 100 120
70 90 100 100 120
70 90 100 100 120
70 90 100 100 120
70 90 100 110 120
70 90 100 110 120
70 90 100 110 120
70 90 100 110 120
70 90 100 110 120
80 90 100 110 130
80 90 100 110 130
80 90 100 110 130
80 90 100 110 130
80 90 100 110 130
80 100 100 110 130
80 100 100 110 130
80 100 100 110 130
80 100 100 110 140
80 100 100 110 140

Теперь вам нужно оценить каждый результат с точки зрения того, можно ли его отнести к зоне высоких, средних или низких значений. Для этого вам потребуется выделить зоны этих значений. А это, в свою очередь, потребует от вас сделать расчет двух показателей: среднего арифметического и среднего квадратичного  отклонения. Начнем работу с расчета среднего арифметического: для этого сложим все полученные в протоколе результаты и разделим на количество слагаемых. Мы получим результат равный 100. Теперь  составим обобщенную таблицу результатов тестирования, чтобы сделать более наглядным расчет среднего квадратичного отклонения.

Таблица 1

Значения  результатов Отклонение от среднего Квадрат  отклонения Число случаев Сумма квадратов
60 -40 1600 2 3200
70 -30 900 8 7200
80 -20 400 10 4000
90 -10 100 15 1500
100 0 0 30 0
110 +10 100 15 1500
120 +20 400 10 4000
130 +30 900 8 7200
140 +40 1600 2 3200

Вспомним, что для расчета σ необходимо найти сумму всех квадратов отклонений, чтобы разделить его на число слагаемых N и извлечь корень квадратный. Все квадраты отклонений для точечных значений уже посчитаны и представлены в последней графе таблицы, остается их только сложить и произвести последующие действия. В итоге получается, что под корнем будет величина 31800/100, после  преобразования  это будет число 318, а после вычисления корня результат составит 17,8, т.е. примерно 18 единиц, значит σ = 18.

Вспомним, также, что для определения зоны средних значений надо отложить по одной сигме влево и вправо от среднего арифметического, т.е. отнять и прибавить к среднему арифметическому, т.е. к 100 единицам, величину 18 единиц. Получится, что диапазон средних значений простирается от 82 баллов до 118 баллов. Зона низких значений – это следующий интервал стандартного отклонения, уходящий влево от 82 единиц, т.е. диапазон значений от 81 до 63  единиц. А зона крайне низких значений включает все остальные показатели, которые левее (меньше по величине), чем 62 единицы. Проведем аналогичное разграничение зон высоких значений: показатели от 119 до 137 единиц составят зону просто высоких значений, а свыше 138 единиц будут уже принадлежать к зоне очень высоких значений.

Итак, мы определили практическим путем, что зона высоких значений, включая зону очень высоких значений, начинается с показателей 119 единиц коэффициента интеллекта (IQ) и простирается выше до 140 баллов. Теперь только пилоты с такими показателями могут быть рекомендованы вами для переучивания на новые типы высоко компьютеризированных самолетов!

Обратите внимание на то, как были распределены частоты встречаемости тех или иных результатов по IQ в полученном распределении (см. графу таблицы под названием «число случаев»). Из таблицы видно, что данное распределение соответствует закону нормального распределения данных, поэтому нормирование его результатов по среднему квадратичному отклонению было вполне корректной статистической процедурой.

Степень удаленности конкретного результата от среднего арифметического и попадание его в ту или иную зону значений  можно определить при нормальном распределении и еще одним путем. Рассмотрим этот путь более подробно, поскольку его применяют довольно часто.

Здесь нам потребуется познакомиться с понятием Z-оценка. Если величину отклонения точечного результата от среднего арифметического (т.е. величину d) разделить на величину среднего квадратичного отклонения (σ), то получится  результат, который показывает, во сколько раз отклонение превышает величину σ, иными словами, результат деления показывает, сколько сигм вмещает данное отклонение (d) конкретного результата от среднего. Благодаря этому показателю мы можем выражать степень удаленности результата от среднего арифметического через количество целых сигм или долей сигм (σ). Такое выражение удаленности результата через величину среднего квадратичного отклонения называется Z- оценка результата, ее формула  выглядит следующим образом:

2

Теперь если Z- оценка окажется равной по величине + 3 ( имеется в виду трем сигмам), то можно сказать, что результат удален от среднего арифметического (центра распределения) в сторону высоких показателей предельно далеко и попадает в зону очень высоких значений. Удаленность результата в пределах + 1σ и менее одной сигмы означает, что он явно попадает в зону средних значений. Таким образом, даже не прибегая к расчету зон в баллах, что было выполнено нами ранее, можно по одной лишь Z-оценке определить, в зону каких значений попадает тот или иной результат.

Вы можете оставить комментарий, или ссылку на Ваш сайт.

Оставить комментарий

Вы должны быть авторизованы, чтобы разместить комментарий.