Метод расчета корреляции по Пирсону | Statyx.ru Статистическая обработка данных в пакете SPSS

Метод расчета корреляции по Пирсону

В природе многие явления взаимосвязаны между собой. Например, чем на большую глубину моря или океана погружается водолаз, тем большее давление он испытывает со стороны водных масс. И наоборот, чем меньше глубина, тем меньше и давление. Эта зависимость подчиняется определенному физическому закону, благодаря которому можно рассчитать, каким будет давление воды на человека при погружении его на определенную глубину. Но бывают случаи, когда две характеристики какого-нибудь объекта, например, той же воды — взаимосвязаны, но не столь однозначно, как глубина и давление, т.е. их взаимосвязь трудно описать точной формулой. Взять хотя бы связь глубины погружения и температуры воды. Хотя общая тенденция их взаимосвязанного изменения известна: чем больше глубина, тем ниже (меньше в градусах) температура воды, однако предсказать точное значение температуры воды для конкретной глубины довольно сложно. Это зависит не только от температуры атмосферы и интенсивности прогрева воды, но и от рельефа дна, а также от подводных (глубинных) течений, которые могут быть теплыми и холодными, что влияет на изменение температуры основного водного массива в данном регионе. Таким образом, связь глубины и температуры воды не такая прямая, как с давлением, но она все же существует, поскольку на очень больших глубинах океана почти повсеместно (там где нет подводных вулканов), температура колеблется в районе 4 градусов, т.е. вода там довольно холодная.

Итак, из примеров видно, что есть характеристики, которые связаны четкой закономерностью, и их изменения носят синхронизированный характер: прирост одного показателя влечет за собой одновременное увеличение другого показателя в определенной пропорции. Но есть еще характеристики, которые тоже имеют тенденцию к взаимосвязанному изменению, хотя эта связь прослеживается не столь однозначно (она несколько «размыта») по причине влияния на нее еще целого ряда внешних факторов. Когда две характеристики взаимосвязаны  в своих изменениях (пусть четко или нечетко), принято говорить, что они коррелируют. Что означает термин корреляция?

Вот его определение: если две какие-либо характеристики, полученные для одного и того же «объекта», имеют тенденции изменяться совместно так, что создается возможность предсказать величину одной из них по значению другой, то говорят, что эти характеристики коррелируют друг с другом.

Силу, или тесноту, рассматриваемой взаимосвязи двух характеристик выражает так называемый коэффициент корреляции. Он обозначается латинской буквой «r» и может изменяться в диапазоне от (-1,0) до (+1,0), включая все дробные значения между ними и ноль. Знак перед коэффициентом корреляции очень важен: он показывает, изменяются ли обе характеристики в одном направлении или в разных (противоположных друг другу). Если вернемся к примерам с океанической водой, то две ее характеристики изменяются однонаправлено – это глубина (размер толщи воды) и давление. Действительно, при нарастании глубины нарастает по величине и давление – такую корреляционную связь называют еще положительной в отличие от отрицательной связи, когда при росте одной характеристики наблюдается спад (уменьшение)  другой. Такая отрицательная  связь имеет место между глубиной и температурой воды, т.к. нарастание показателя глубины сопровождается понижением показателя температуры, т.е. их изменения разнонаправлены.

Итак, направления изменения характеристик отражают знаки «+» или «-» перед коэффициентом корреляции, а вот сама величина этого коэффициента показывает «силу» связи, т.е. насколько синхронно происходят изменения в двух переменных. Предположим первая переменная (х) приросла от начального значения на 2 единицы, этот прирост сопровождался приростом второй переменной на 5 единиц. Если при дальнейшем приросте первой переменной на 4 единицы, мы увидим, что вторая переменная приросла на 10 единиц, то такой прирост можно рассматривать как  достаточно синхронизированный. Иными словами, о синхронизированном изменении переменных можно говорить в том случае, когда изменению первой переменной на определенное количество единиц всегда соответствует изменение второй переменной на вполне конкретное число единиц (соблюдается пропорция в нарастании переменных).

Чем выше степень синхронности изменений двух переменных, тем больше величина коэффициента корреляции приближается к 1(единице), а чем слабее связь двух переменных, тем ближе коэффициент корреляции к 0. Посмотрим, как это выглядит на примерах.

Сейчас вам представлен материал, где имеются две таблицы. В них отражены  две характеристики: 1) успеваемость студентов, которые учились в престижных американских университетах (в десятибалльной системе) и  2)  их зарплата в долларах, которую им удалось найти после окончания университета. Первая таблица отражает возможную (гипотетическую) связь этих двух переменных, которую мы могли бы предполагать, зная, что у студентов с хорошими баллами успеваемости больше шансов найти высоко оплачиваемую работу. А вторая таблица отражает реальную связь этих переменных, которая была получена после сбора сведений о трудоустройстве студентов  после университета.

Таблица 1

Успеваемость Зарплата
1 1000
2 2000
3 3000
4 4000
5 5000
6 6000
7 7000
8 8000
9 9000
10 10000

Таблица 2

Успеваемость Зарплата
1 1500
2 2500
3 3000
4 3000
5 4500
6 3500
7 5500
8 5000
9 7000
10 6500

Чтобы визуально (наглядно) определить силу связи между успеваемостью и зарплатой, нужно построить график их совместного, т.е. взаимосвязанного изменения. Для этого на оси абсцисс отложим успеваемость в баллах (переменная Х), а на оси ординат зарплату в долларах (переменная Y).

Площади рассеяния точек, построенных по двум переменным, взятым  из первой  и второй таблиц данных

Площади рассеяния точек, построенных по двум переменным, взятым из первой и второй таблиц данных

Если построим распределение точек по данным первой таблицы, то заметим, что они точно выстраиваются в одну прямую линию, идущую вверх. А если посмотреть, как  распределились на плоскости точки по данным второй таблицы (с реальными результатами), то их площадь распределения напоминает эллипс. Таким образом, в ситуации, где связь характеристик очень четкая и тесная (все пары значений изменяются одинаково), график рассеяния значений выглядит как прямая линия, а в ситуации, где нет четкой тенденции в изменении двух переменных, площадь рассеяния приобретает вид эллипса. Поэтому «диаграмма рассеяния» является показателем силы связи двух переменных. Она же может указывать на знак «+» или «-» направления связи, т.е. является ли связь однонаправленной (когда большим значениям одной переменной соответствуют большие значения другой) или разнонаправленной (когда большим значениям одной переменной соответствуют меньшие значения другой).

Как выглядят диаграммы рассеяния при той или иной силе связи с учетом знака (направления) связи, показано на рисунке ниже.

Диаграммы рассеяния точек при разной силе корреляции

Диаграммы рассеяния точек при разной силе корреляции

Из рисунков видно, что чем более сильной (полной) является корреляция, тем более узкой оказывается ее диаграмма рассеяния, превращаясь практически в прямую линию. Когда же связь слабая или почти нулевая, то диаграмма имеет вид эллипса, который расширяясь, приближается к форме круга.

Если ось эллипса или прямая направлена в сторону слева направо, как показано в левом ряду рисунков, то корреляция – положительная, если же ось поднимается в обратную сторону, т.е. справа налево, то корреляция – отрицательная (характеристики меняются в противоположные стороны).

Однако графики дают лишь общее представление о характере изучаемой  корреляции, поэтому при необходимости сделать точные расчеты коэффициента корреляции, нужно произвести его расчеты по формуле. Формула коэффициента корреляции по Пирсону такая:

20

где Zx и Zy — это Z-оценки переменных х и у.

Напомним, что Z-оценка показывает степень удаленности конкретного результата (точечного значения) от среднего арифметического в распределении результатов, которая выражена через величину среднего квадратичного отклонения (количество сигм или долей сигм):

21Как уже говорилось, у нас имеются две переменные, одну из которых мы обозначили как « х» (успеваемость), а другую как «у» (зарплата).  Z-оценка для переменной «у» считается по той же формуле, что и для переменной «х», только вместо значений «х» подставляются значения «у» и вместо σх берется σу, т.е. стандартное отклонение, посчитанное для распределения значений «у»:22

Смысл формулы коэффициента корреляции можно выразить так: это усредненное произведение Z-оценок результатов двух переменных. Иными словами, берется какой-то результат Х из переменной «х», определяется его Z-оценка, затем берется соответствующее этому Х значение У из переменной «у» и определяется его Z-оценка, после чего данная пара Z-оценок перемножается, — получилось произведение одной пары Z-оценок. Теперь требуется сложить все произведения Z-оценок с учетом их знаков (+ или -), рассчитанных для каждой пары, и поделить сумму на количество таких пар, — получим коэффициент корреляции (r) с определенным знаком.

Надо помнить, что минимальный по абсолютной величине  коэффициент корреляции соответствует 0, а максимальный соответствует 1. Однако нельзя сказать, что коэффициент, равный 0,2, означает очень небольшую степень корреляции двух характеристик, а коэффициент, равный 0,6, всегда соответствует достаточно высокой, т.е. достоверной корреляции. Чтобы судить, является ли полученная величина r достоверной, что служит свидетельством надежной корреляции, проявляющейся почти на всех парах значений, необходимо обратиться к статистической таблице критических значений коэффициента корреляции.

Таблица критических значений коэффициента корреляции

Таблица критических значений коэффициента корреляции

Чем меньше выборка участников (объем значений переменных), тем выше порог критического значения, который необходимо преодолеть экспериментально рассчитанному коэффициенту (rэксп), чтобы вы смогли сделать о том, что полученная вами корреляция – достоверна. Как и в случае с F и t критериями,  rэксп должно быть больше rкрит для вывода о достоверности на уровне 5% (р=0,05) и или 1% (р=0,01) ошибочности.

Вы можете оставить комментарий, или ссылку на Ваш сайт.

Оставить комментарий

Вы должны быть авторизованы, чтобы разместить комментарий.