Метод прогнозирования данных на основе расчета регрессионного уравнения

Теперь перейдем к другому аспекту проблемы корреляции. Зачем нужно вычислять в исследовании величину коэффициента корреляции, кроме того, как убедиться в связи двух характеристик? Оказывается, коэффициент корреляции необходим, чтобы осуществлять прогноз данных одной характеристики на основе данных другой характеристики. Поскольку связаны сами величины двух переменных, то связанными являются и их Z-оценки, но функция зависимости здесь несколько иная, чем у переменных.

Эту зависимость открыл эмпирическим путем английский ученый-статистик по фамилии Гальтон и дал ей название «регрессионное уравнение». Поясним, почему появилось такое название и что оно означает.

Более 100-та лет назад Ф. Гальтона попросили изучить, как связан рост детей с ростом их родителей. Проведя достаточно массовое исследование, статистик заметил, что распределение данных, касающихся роста родителей, имеет вид кривой, подчиняющейся закону нормального распределения. Это означало, что преобладали люди среднего роста, а очень высоких и очень низких людей было гораздо меньше. Когда же Гальтон изучил рост детей, то оказалось, что в случае, когда рост родителей далеко отстоял от средней по их группе в сторону высоких значений, тем не менее рост  детей не уходил также далеко от средней величины в детской  группе, т.е. дети оказывались по росту ближе к средним значениям в своей группе. Аналогичная картина наблюдалась и в отношении роста детей у очень низких родителей: хотя сами родители далеко отстояли от средней по их группе в сторону низких значений, тем не менее, дети стояли ближе к средней в своей возрастной группе.

Природа как бы корректировала отклонения, возникшие в росте родителей и не «закрепляла» отклонения от нормы (средних значений). Иными словами, природа стремилась возвратить  рост детей в зону средних значений, которые как бы отражают некий предпочтительный «стандарт» природы будь то в отношении человека или любых других живых существ. Не случайно существует понятие «золотая середина» — это гармоничный размер, а любые крайности трактуются природой как дисгармония и не закрепляются. Обнаруженная тенденция была названа ученым «регресс» к среднему, т.е. возврат к среднему арифметическому значению роста популяции.

Изучив на математическом уровне, как связаны рост родителей и рост детей, Гальтон открыл такую закономерность: если взять удаленность роста конкретного ребенка от среднего арифметического значения роста в  популяции детей (Z-оценка роста ребенка), то эта величина всегда оказывается меньше той удаленности, на которую отстоит рост родителя (например, отца) от среднего арифметического  значения в популяции родителей (Z-оценка роста отца). Ученый также обнаружил, что  рост ребенка  больше коррелировал (был связан) с ростом отца, чем с ростом матери. Это означает, что коэффициент корреляции роста ребенка с ростом отца был по величине выше, чем коэффициент корреляции роста ребенка и роста матери. Иначе говоря, коэффициент корреляции с ростом отца был ближе к 1,0 (максимальному значению) по сравнению с коэффициентом корреляции, который относился к росту матери, (последний был дальше от 1,0). Хотя коэффициенты корреляции были определены им применительно к самим переменным (абсолютным показателям роста детей и каждого из  родителей), тем не менее, оказалось, что и Z-оценки показателей роста тоже находятся в такой же связи между собой, что и переменные. Это означало, что если брать Z-оценку роста ребенка, то она больше похожа по величине на Z-оценку роста отца, чем на Z-оценку роста матери. Следовательно, коэффициент корреляции двух переменных показывает не только степень связи между ними, но он отражает и связь Z-оценок (мер удаленности от средних значений в популяциях).

Это позволило Гальтону  выразить обнаруженную им закономерность возвращения (регресса) роста детей к среднему значению для человеческой популяции через Z-оценки родителей и коэффициент корреляции:

Zу = r• Zх

Эта формула получила название «регрессионное уравнение», применяемое при нормальном распределении данных.

Важно подчеркнуть, что если мы будем вычислять Z-оценку ребенка через Z-оценку отца, то нам придется подставить в формулу регрессионного уравнения коэффициент корреляции для отца (между ростом детей и отцов), а если будем вычислять  Z-оценку ребенка через Z-оценку матери, то мы должны будем подставить в формулу другой коэффициент корреляции (между ростом детей и матерей). Заметим, Z-оценка ребенка всегда оказывается меньше по своей величине Z-оценки любого из родителей, так как для вычисления этой оценки производится умножение Z-оценки родителя на коэффициент корреляции, который всегда меньше 1,0 (т.е. всегда представляет собой дробное значение), а умножение на дробь дает величину меньшую, чем исходная.

Тот, кто пытается возразить выше изложенному и сказать, что рост детей нередко превышает рост родителей (и это действительно так) – просто не понял смысл  регрессионного закона. Еще раз подчеркнем, что речь шла не об абсолютной величине роста детей, а о степени удаленности величин роста от среднего значений в популяции детей, т.е. о Z-оценках. В силу того, что в последние годы наблюдается процесс акселерации детей (увеличения их абсолютного роста), то среднее арифметическое в популяции детей не совпадает со средним значением роста в популяции родителей – оно уже переместилось в сторону более высоких значений. Но ведь речь шла не об этом, а том, что степень удаленности роста конкретного ребенка в своей возрастной группе не превышает степень удаленности роста родителя в своей возрастной группе – в этом главный смысл регрессионного уравнения. Гальтон заметил лишь то, что если даже распределение результатов в целом смещается в сторону высоких значений, как рост современных детей, все равно это распределение стремится сохранить свою нормальность, т.е. в нем опять-таки будут доминировать средние значения. Так природа сдерживает неуправляемые отклонения в изменении признаков живых существ, и в этом смысле регрессионное уравнение отражает один из фундаментальных законов природы.

Но мы так подробно остановились на регрессионном уравнении не только по причине его фундаментальности (оно применимо к любым признакам в природе, подчиняющимся закону нормального распределении), а еще и потому, что в опоре на него можно осуществлять прогноз величины одной переменной (неизвестной до этого), взяв за основу величину связанной с ней (коррелирующей) другой переменной, которая является  уже  известной. Перейдем непосредственно к изучению метода прогнозирования значений переменных с применением регрессионного уравнения.

Предположим, мы хотим спрогнозировать уровень интеллекта подрастающего ребенка, располагая лишь информацией об уровне интеллекта его отца. Регрессионное уравнение, как мы видели, позволяет вычислить Z-оценку величины интеллекта ребенка, по которой уже можно определить сам показатель (абсолютный) интеллекта ребенка. Напомним, по какой формуле можно это сделать.

22То у = Zy∙σy + My

Вычислить значение Zу (ребенка) можно с помощью регрессионного уравнения, где требуется подставить значения r (коэффициента корреляции между показателями интеллекта отцов и детей), а также значение Zх (зет-оценки интеллекта отца). Где взять эти показатели?

Из психологической литературы известно, что интеллект обычно измеряют посредством теста, разработанного американским психологом Бине, под названием «Шкала  интеллекта». Его показатели отражают уровень интеллекта по 150-балльной  шкале, который обозначается как показатель «IQ». Мы уже работали с вами ранее с этим показателем (на практическом занятии №2). Американские психологи, проведя тестирование большой выборки мужчин, определили, что среднее арифметическое значение интеллекта приходится на значение 100 баллов. Среднее квадратичное отклонение в этом распределении составляет 15 единиц: σх =15. Знание величины М и σ позволит нам в дальнейшем сделать расчет Zх (отца) применительно к какому-то конкретному показателю его интеллекта (Х). Психологи также посчитали коэффициент корреляции между показателями интеллекта детей и отцов и определили, что он равен: r =0,6, что является достаточно высоким и достоверным показателем корреляции с учетом многочисленности выборки (более тысячи человек). Теперь, чтобы сделать все необходимые расчеты с помощью регрессионного уравнения, остается только  определить величину Zх. Для ее расчета берем значение интеллекта отца: пусть оно, например, окажется равным 130 баллам по шкале Бине, и вычитаем его из среднего арифметического показателя IQ для мужчин, который равен 100 баллам, затем делим полученную разницу на величину среднего квадратичного отклонения в выборке отцов, которое равно 15 единицам, в итоге получаем Zх.

Zx=(130 — 100)/15=+2

Результат +2 означает, что показатель отца отстоит на 2σ (каждая сигма равна 15 единицам) от среднего арифметического в сторону высоких значений в популяции мужчин. Поскольку максимально удаленное значение от среднего арифметического в сторону высоких значений составляет +3σ (имеется в виду три сигмы), а зона средних значений ограничивается ±1 σ, то понятно, что Z-оценка, равная +2, соответствует достаточно высокому результату – по крайней мере, выше среднего уровня.

Зная теперь величину Zх (+2) и величину r (0,6), можно определить величину Z-оценки ребенка (Zу) по формул регрессионного уравнения:

Zу = 0,6•(+2)= +1,2

На основе Z-оценки можем восстановить саму величину «у», т.е. абсолютное значение в баллах показателя интеллекта ребенка, по формуле:

у = σу• Zуу

Здесь надо сделать важное замечание. Для расчета величины «у» требуется знать Му и σу. К сожалению, психологи не сделали расчет этих показателей (среднего арифметического и среднего квадратичного отклонения) на детской популяции, поэтому мы можем просто предположить, что эти показатели совпадают с родительскими данными (для того, чтобы просто выполнить необходимые расчеты). Итак, пусть у детской популяции будут те же показатели, что и у взрослой популяции: Му =100, а σу=15.

Тогда у = (15)• (+1,2) +100=118

Таким образом, мы вычислили, что у ребенка прогнозируется показатель интеллекта, равный 118 баллам, по шкале Бине. Однако на этом единственном значении поставить точку в вопросе прогноза интеллекта ребенка нельзя! Дело в том, что на интеллект ребенка, который во многом определяется, конечно, наследственными факторами, могли повлиять еще какие-нибудь внешние случайные факторы (травма головы, заболевания мозга и т.п.), которые изменили наиболее вероятный показатель (118 баллов) в ту или иную сторону. Поэтому к наиболее вероятному показателю необходимо добавить так называемую «ошибку прогноза», т.е. поправку на случайные отклонения.

Как известно, при любом измерении имеются погрешности, или ошибки измерения. Величину ошибки измерения обычно добавляют в обе стороны (большую и меньшую) от основного рассчитанного значения. Таким образом, вокруг основного значения формируется своего рода диапазон значений, которые тоже являются вполне вероятными в силу неточности измерения. Так же обстоит дело и с прогнозом: мы рассчитали сначала наиболее вероятное (основное) прогнозируемое значение, а теперь должны добавить к нему по обе стороны  «ошибку прогноза». Тот диапазон значений, который при этом образуется, принято называть «доверительным интервалом», так как вполне вероятно, что правильным прогнозом окажется не основное значение, а какое-нибудь значение из данного интервала  значений.

Ошибка прогноза обозначается как σух, поскольку эта величина тоже показывает своего рода разброс значений (как далеко они уходят) от основного прогнозируемого значения. Формула расчета ошибки прогноза такова:

σух =  σу•√ 1- r2

Мы можем рассчитать ошибку прогноза для рассмотренного выше случая. Известно, что σу =15, а r2= 0,36 (т.к. r =0,6), тогда, подставив эти значения в формулу, получим: σух= 15•√1-0,36= 12 . Итак, ошибка прогноза составляет 12 единиц, т.е. баллов, если речь идет о единицах шкалы Бине.

Теперь мы можем определить доверительный интервал прогнозируемых значений с учетом ошибки прогноза. Он будет составлять:

{у} = 118 баллов ± 12 баллов, иными словами, диапазон значений от 106 баллов до 130 баллов. Как видим, у ребенка есть шансы иметь такой же уровень интеллекта, что и у его отца, но все же более вероятным является значение 118 баллов.

Чтобы проиллюстрировать важность добавления ошибки  прогноза к основному прогнозируемому значению, воспользуемся наглядным примером. К одному молодому психологу, работавшему в детском саду, обратились две мамы с просьбой помочь им решить вопрос: смогут ли их дети учиться в специальной школе, где обучение ведется по программам повышенной сложности.

Психолог, протестировав показатели интеллекта родителей, сделал расчет наиболее вероятного значения интеллекта каждого ребенка. Но по какой-то причине не добавил к нему величины ошибки прогноза в ту и в другую сторону, в результате чего значение получилось точечным вместо прогнозируемого диапазона значений, которые тоже являются вполне вероятными при прогнозе. На основе точечных оценок психолог порекомендовал маме одного ребенка (А), у которого прогнозируемое значение оказалось на уровне 118 баллов по шкале интеллекта, подавать документы в спецшколу. А маме другого ребенка (Б), у которого прогноз интеллекта соответствовал 109 баллов, не делать этого. Когда же дети выросли и пришли в свои школы, то при тестировании выяснилось, что реальный уровень интеллекта первого ребенка (А) соответствует 108 баллам, а уровень другого ребенка (Б) равен 120 баллам. Получается, психолог сделал неверный прогноз?

Такое недоразумение случилось именно потому, что психолог не учел ошибку прогноза. Попробуем исправить его оплошность и сделать корректный прогноз. Предположим, рассчитанная по выше указанной формуле σух  ошибка прогноза оказалась равной 12 единицам. Тогда применительно к первому ребенку (А) доверительный интервал прогноза составит 118±12, т.е. в него войдут  значения в диапазоне 106 – 130 баллов. Применительно ко второму ребенку (Б) доверительный интервал прогноза будет таким: 109±12, т.е. он включит в себя значения в диапазоне 97 – 121 балл. Отсюда видно, что получить оценку интеллекта в 108 баллов было вполне реально для первого ребенка, и также реально было получить оценку в 120 баллов для второго ребенка, поскольку их предусматривали доверительные интервалы этих двух детей. Если бы психолог сделал выводы с учетом ошибки прогноза, то никто не смог бы упрекнуть его в некомпетентности.

Для наглядной иллюстрации рассмотренного примера обратимся к рисунку № 13, где на горизонтальной оси изображены вычисленные нами доверительные интервалы. Обозначим при этом доверительный интервал для ребенка А как интервал Y3, а доверительный интервал для ребенка Б как интервал Y2.  Заметим, что высоко вероятным значением является то, которое мы определили по регрессионному уравнению, другие значения по мере удаления от основного значения становятся все менее вероятными, а те, что лежат за гранью доверительного интервала обладают очень малой вероятностью (практически невероятны).

На рисунке, приведенном ниже, видно, что диапазоны доверительных интервалов для ребенка (А) и (Б) во многом перекрывают друг друга – это говорит о том, что они имеют много общих значений в плане прогноза.

Пересечение доверительных интервалов, рассчитанных для разных детей

Пересечение доверительных интервалов, рассчитанных для разных детей

Возьмем и добавим, к примеру, на рассматриваемую ось еще один доверительный интервал Y1, который принадлежит какому-то третьему ребенку под буквой С. Пусть основным прогнозируемым значением его интеллекта будет значение в 91 балл, а его доверительный интервал прогноза включает значения от 79 до 103 баллов. Вот этот доверительный интервал, действительно, почти не пересекается с другими интервалами и отстоит от них особняком, поэтому реальные значения интеллекта ребенка (С) не могут достигнуть значений двух предыдущих ребят (А) и (Б). Вероятность получить этим ребенком более 100 баллов при тестировании крайне мала, поэтому только ему, чей интеллект ниже среднего, следовало бы рекомендовать не посещать школу с повышенным уровнем сложности обучения. В то время, как первые два ребенка мало чем отличаются друг от друга, т.е. их интеллектуальные способности примерно равны, и они оба могут учиться в специальной школе. Имея перед собой графическое изображение доверительных интервалов прогноза легче вести обоснование своих выводов, потому что они становятся наглядными и убедительными.

Когда вы ознакомились с методом прогнозирования одной переменной на основании данных другой переменной, попробуем сделать прогноз подобного рода с применением компьютерной программы SPSS.

Вам выдана таблица, где написаны две колонки данных – это две переменных. Первая переменная представляет собой результаты тестирования технического мышления у бортмехаников воздушных судов. Поскольку данный тест фиксирует количество допущенных технических ошибок, то хорошими результатами считаются те, где число ошибок  меньше, т.е. тестовый показатель ниже. Вторая колонка данных отражает оценки технической грамотности, которые получили  эти же бортмеханики от руководства, по результатам  выполнения ими технического обслуживания воздушных судов. Причем чем выше была грамотность специалиста, тем выше была и его оценка (в баллах) со стороны руководства.

Показатель теста (количество допущенных ошибок) Показатель технической грамотности
2 17
2 17
2 16
3 15
3 16
3 15
4 14
4 15
4 14
5 12
5 13
17 9
17 8
18 6
18 7
18 6
19 4
19 3
19 4
19 3
20 1
20 1
20 2

Перед вами ставится задача: сделать прогноз технической грамотности поступающего на работу нового бортмеханика, если по тесту на техническое мышление он показал результат, равный 4 (допустил 4 ошибки при решении технических задач).

Необходимо вспомнить, какие статистические показатели нам понадобятся для прогноза. В регрессионном уравнении требуется применение Z-оценок и коэффициента корреляции (r). Для расчета самих Z-оценок нужно знать среднее арифметическое (М) и среднее квадратичное отклонение (σ). Поскольку мы будем работать с двумя различными переменными (оценки теста и оценки руководства), то, разумеется, что у каждой переменной будут свои значения  М и σ. Как посчитать эти описательные статистики в программе SPSS, уже рассказывалось ранее. Напомним лишь, что сначала надо набрать  две колонки данных в базе данных, где они будут обозначены как V1 и V2. Затем выбрать команду Analyze, в предъявленном меню выбрать строку Descriptive Statistics. В окошке указать (путем переноса нужных переменных), по каким переменным сделать расчеты. Программа выдаст показатели М и σ применительно к V1 и V2.

Поскольку переменную, которую берут за основу для прогнозирования, называют переменной «х», а ту переменную, которую прогнозируют, называют переменной «у», то соответственно показатели по V1 будут обозначаться индексом «х», а показатели по переменной V2 будут обозначаться с индексом «у».

Сейчас наберите обе переменных в базу данных компьютерной программы и сделайте расчеты М и σ (напомним, стандартное отклонение в SPSS обозначается в программе не как сигма, а как «St.d»). Выпишем полученные данные на отдельный листок.

Мх = 11,35; σх = 7,89

Му = 9,48; σу = 5,74

Произведем расчет коэффициента корреляции. Для этого в меню вместо Descriptive Statistics надо выбрать другую строку, где написано слово Correlate, а затем слово Bevariate (т.е. между двумя переменными). Далее в окошке надо опять-таки выбрать нужные переменные для корреляции аналогичным способом (нажимая стрелку вправо). Когда на экране появятся значения «r» и «sig», которое соответствует «р «(уровню значимости) следует их переписать. Величина «sig» хотя и не будет участвовать в дальнейших расчетах, но она интересует нас с точки зрения того, можно ли считать полученную корреляцию достоверной, т.е. надежной, проявляющейся на большинстве пар значений.

Расчеты показали, что корреляция является отрицательной, т.е. при возрастании значений первой переменной значения второй переменной убывают, и выражается высоким коэффициентом (близким к 1,0):

r = -0,965.

Чтобы оценить его достоверность, воспользуемся приведенной выше таблицей критических значений, где выберем строку с численностью группы N=23.

Получив необходимые значения, перейдем к прогнозированию. К сожалению, эта процедура не предусмотрена для выполнения в SPSS, программа может помочь лишь в расчете ошибки прогноза, что мы и сделаем несколько позже, когда получим основное прогнозируемое значение (вручную).

Итак, нам нужно определить, какова наиболее вероятная оценка технической грамотности будущего бортмеханика, если он при тестировании получил оценку 4. Если Х= 4, то для него Z-оценка равна:

Zх=(4 — 11,35)/7,89=0,93

Zу=(-0,965)∙(-0,93)=0,899

у=5,74∙(0,899) + 9,48=14,6

Когда сделан расчет основного прогнозируемого значения, можно перейти к вычислению ошибки прогноза. Для этого в меню действий (там же где выбирали строку  Correlate) теперь надо выбрать строку со словом Regression. Из возможных видов регрессии выбрать Liner. Задать известным способом нужные переменные. На экране будет выдана таблица, где указана ошибка прогноза – в программе SPSS она обозначена как  Std. Error of the  Estimate.

σух =5,74∙√[1- (-0,965)]2 = 5,74∙√1-0,93=5,74∙√0,74=5,74∙0,26=1,49≈1,5

Зная ошибку прогноза, определим теперь доверительный интервал прогнозируемых значений:

{у} ={ 14,6 ± 1,5}={16,1; 13,1}

Это означает, что вероятны значения от 16,1 до 13,1. Если мы обратимся к той таблице, данные которой использовались для построения прогноза, то убедимся, что наш прогноз верен, поскольку, действительно, все лица, получившие по тесту оценку 4, имели оценки их технической грамотности со стороны руководства именно в этом интервале значений.

Вы можете оставить комментарий, или ссылку на Ваш сайт.

Оставить комментарий

Вы должны быть авторизованы, чтобы разместить комментарий.