Метод дисперсионного анализа и расчета F-критерия | Statyx.ru Статистическая обработка данных в пакете SPSS

Метод дисперсионного анализа и расчета F-критерия

Достаточно часто при проведении научных исследований будь то в психологии, педагогике, медицине и эргономике сравнению подлежат две группы данных. Первая группа данных представляет собой результаты, полученные после применения какого-то нового метода (метода тренировки или коррекции, лечения, моделирования и т.п.). Поскольку эти данные являются показателями эксперимента по проверке метода, то данную группу, как правило, называют «экспериментальной». Вторая группа данных обычно используется как фон (изначальный уровень) для сравнения с экспериментальными данными. В этой группе не применяется ничего нового, наоборот, в ней применяются традиционные методы или стандартные условия вместо нового метода. Такая группа называется «контрольной».

Чтобы доказать, что применение  нового метода  дает какой-то ощутимый позитивный результат по сравнению с условиями, где он не используется, необходимо  показать существенные  различия  между данными экспериментальной и контрольной групп. Но понятие «существенные различия»  может иметь субъективное токование: для одного исследователя существенными могут показаться различия, превышающие 20% , а для другого – различия, превышающие 50%. Поэтому в статистике разработан специальный метод, который позволяет сравнить данные двух групп и по-научному ответить на вопрос, являются ли различия между ними достоверными, т.е. значимыми с точки зрения статистических критериев. (В данном случае и в контексте этого занятия слово «критерий» употребляется в общепринятом смысле и обозначает «основание», по которому сравнивают результаты). Этот метод называется дисперсионный анализ, а для сравнения результатов используются два критерия, обозначаемые латинскими буквами: F и t. Как пользоваться методом дисперсионного анализа  и определять достоверность различий между группами с помощью каждого из критериев, мы изучим немного позже, а сейчас рассмотрим суть основных понятий, на которые опирается дисперсионный анализ.

Проведем рассмотрение на примере из медицинской психологии. Предположим, что психологи разработали новый метод психологической коррекции для лиц, перенесших стрессы, который быстро избавляет от навязчивых страхов. Чтобы доказать эффективность метода,  провели эксперимент в двух  группах: экспериментальной (где метод применялся) и в контрольной (где метод не применялся). На основе полученных данных  были построены графики частотного распределения результатов для двух групп (см. рис. 9). На оси абсцисс указаны  величины результатов теста, оценивающего наличие навязчивых страхов у испытуемых (тест на тревожность) по мере их возрастания. Чем больше баллов набирал испытуемый по тесту, тем больше была степень выраженности у него навязчивых страхов. По оси ординат откладывался процент случаев встречаемости того или иного тестового результата. Среднее арифметическое всех результатов, полученных в экспериментальной группе, обозначено на графике буквой М1, а среднее арифметическое всех результатов в контрольной группе – М2.

Распределения результатов в двух группах испытуемых

Распределения результатов в двух группах испытуемых

Как видно из рисунка, средние арифметические показатели результатов М1 и М2 не совпадают, причем среднее арифметическое экспериментальной группы меньше по величине, чем у контрольной группы, что уже вроде бы указывает на эффективность применения метода. Однако делать такой вывод преждевременно. Необходимо  сравнить степень разброса данных внутри каждой группы. Здесь нам придется вспомнить такое понятие, как среднее квадратичное отклонение, с помощью которого характеризуют разброс данных в распределении. Чем меньше «хвосты» распределения, расходящиеся по обе стороны от среднего арифметического, тем меньше будет величина среднего квадратичного отклонения (σ), так как длина каждого «хвоста» (левого или правого) равна стандартной величине — трем σ. На рисунке видно, что разбросы данных («хвосты» распределений) небольшие и в той и другой группе, благодаря чему, данные экспериментальной группы легко обособляются в отдельную совокупность от данных  контрольной группы. Можно сказать, что практически все результаты экспериментальной группы по тесту укладываются в диапазон невысоких значений: примерно от 1-го до 5-ти баллов. В то время как результаты контрольной группы укладываются в совершенно другой более высокий диапазон значений от 5-ти до 9-ти баллов, что означает большую степень выраженности страхов в данной группе (где не было лечения по новому методу).

На рисунке видно, что разбросы данных двух групп практически не пересекаются, т.е. в экспериментальной группе не оказалось лиц, которые сохранили свои страхи на высоком уровне, а в контрольной группе нет лиц, которые бы смогли сами избавиться от страхов и показать низкие значения по тесту на тревожность. Таким образом, чтобы сделать заключение о том, что данные двух сравниваемых групп действительно существенно расходятся между собой, необходимо проанализировать не только  наличие расхождений в величинах средних арифметических (М), но и характер распределения данных в целом, т.е. степень их разбросов (длины «хвостов»). Это делается с целью увидеть, совпадают или нет диапазоны значений, показанные одной группой и другой.

Мы бы предостерегли делать  преждевременный вывод о достоверных различиях только на основе сравнения средних арифметических величин двух групп потому, что мы могли получить два распределения, где разброс данных в группах был бы совершенно иным: «хвосты» распределений были бы очень длинными, что привело бы  к накладке диапазона значений одной группы на диапазон значений другой группы.

Распределение результатов при большом разбросе данных

Распределение результатов при большом разбросе данных

 

Иными словами, диапазоны результатов двух групп в этом примере оказались не обособленными, как в предыдущем примере, а по многим значениям совпадающими друг с другом, т.е. повторяющими значения друг друга. Получается, что значения результатов двух групп мало чем отличаются, несмотря на определенное расхождение М1 и М2.

В приведенном нами втором примере, видно, что испытуемые из экспериментальной группы продемонстрировали не только низкие, но и высокие значения по тесту на наличие страхов, следовательно, метод коррекции оказался для них не эффективным. Более того, в контрольной группе наблюдались не только высокие, но и низкие результаты, что указывает на возможность самопроизвольного снижения уровня страхов со временем. Поэтому можно предположить, что улучшение результатов и в экспериментальной группе  не исключает возможности самопроизвольного снижения уровня страхов, а значит, применение метода дает совсем незначительный эффект.  Теперь мы видим, что стоило измениться разбросу данных (увеличились «хвосты» распределений и вместе с ними величины σ), и эффективность метода коррекции  перестала быть столь уж очевидной, как в первом примере. Во втором примере эта эффективность уже поставлена под сомнение, поскольку данные экспериментальной и контрольной групп  мало чем отличаются  между собой из-за большого разброса данных в каждой из них.

Разбор этих двух примеров показывает, что при сравнении результатов двух групп обязательно нужно учитывать характер разброса данных, поэтому критерии оценки различий включают в себя показатель разброса. Метод анализа  разбросов, т.е. анализа вариативности данных,  по-английски звучит как Analyze of Variance (сокращенное название метода – ANOVA), а по-русски его называют дисперсионный анализ.

Основным показателем разброса, как мы уже отмечали, служит среднее квадратичное отклонение (сигма) – это корень квадратный из усредненного квадрата отклонений всех точечных значений (конкретных результатов) от среднего арифметического в данном распределении. Но есть еще одна величина, которая тоже характеризует степень разброса данных (длину «хвостов» распределения) – это так называемая «дисперсия». Термин «дисперсия» пришел из физики, где он означает рассеяние световых волн. Поскольку при построении графиков частоты встречаемости результатов мы тоже получаем некое рассеяние результатов вдоль оси абсцисс, то данный термин вполне уместен. Дисперсия есть ни что иное, как среднее квадратичное отклонение, возведенное в квадрат, и обозначается σ2. Дисперсию удобнее применять в промежуточных расчетах, чем просто сигму, так как не требуется вычислять корень квадратный. Полная формула дисперсии такова:

7

Итак, мы разобрали основные понятия, чтобы перейти непосредственно к ознакомлению с методом дисперсионного анализа. Напомним, что цель этого статистического метода – оценить степень достоверности (существенности) различий между двумя группами данных. В основу анализа положено сравнение дисперсий. Сравнению будут подлежать дисперсии двух видов. С одним видом дисперсии вы уже знакомы из предыдущих примеров – это разброс (рассеяние) данных внутри какого-то распределения, иными словами, это широта размаха «крыльев» распределения (или длина его «хвостов» в обе стороны – любое сравнение здесь уместно).

Теперь познакомимся с различными видами дисперсии.

Частотные распределения данных четырех групп

Частотные распределения данных четырех групп

На рисунке видно, что средние арифметические величины четырех групп (М1, М2, М3, М4) расходятся между собой, поэтому их четыре значения можно тоже воспринимать как отдельное (самостоятельное) распределение данных. А если это – некое распределение, то к нему также применимо понятие рассеяние, т.е. можно описать степень удаленности каждой точки ( в данном случае точками выступают М1, М2, М3, М4) от их общего среднего арифметического (М0), посчитанного для этих четырех значений М. Общее групповое  среднее арифметическое (М0), которое мы посчитали для четырех значений М (самих «средних арифметических» групп) расположено на графике между М2 и М3 . Теперь мы можем определить степень удаленности от М0 каждого значения М из четырех имеющихся – это будут величины, обозначаемые d (d1, d2, d3, d4).

d1 = M1 – M0

d2 = M2– M0

d3= M3 – M0

d4 = M4 – M0;

Знание степени удаленности каждой точки распределения от среднего арифметического, как известно, позволяет сделать расчет величины дисперсии, т.е. расчет степени разброса данных (в данном случае речь идет о разбросе самих М для нескольких групп, поэтому отклонения средних обозначаем как dM).

8

где n соответствует числу слагаемых, но в данном случае число слагаемых — это не испытуемые, а количество групп!

Поскольку данная дисперсия отражает степень удаленности средних арифметических (присущих отдельным группам) от их общегруппового среднего арифметического M0 и одновременно показывает степень удаленности значений М между группами, то ее принято называть «межгрупповой» дисперсией (международное название «between groups» — BG) и обозначать как σ2BG.

В отличие от нее та дисперсия, о которой мы говорили в начале занятия и которая отражает степень разброса данных внутри каждой отдельной группы ( от своего среднего арифметического в группе), получила название «внутригрупповая» дисперсия (международное название «within groups» — WG), она обозначается как  σ2WG. Пока мы говорили о внутригрупповой дисперсии применительно к одной группе, но если данные всех четырех групп представить как  некоторую целостную совокупность данных, т.е. условно принять их за данные одной большой (генерализованной) группы, то можно сделать расчет внутригрупповой дисперсии для всей этой большой совокупности данных, объединяющей в себя четыре группы (посмотрите на разбросы внутри групп на последнем рисунке).

Обычно этот расчет ведется в два этапа:

  1. сначала берется каждое  точечное значение Х из всей этой большой совокупности данных, объединяющей четыре группы, и определяется его удаленность от среднего арифметического той группы, которой он принадлежит по формуле d= X – M;
  2. затем общая для всей совокупности данных внутригрупповая дисперсия  рассчитываться по формуле:
    σ2WG=Σd2X/N, где Х – это точечные значения результатов, а N – общее число испытуемых во всей совокупности, охватывающей все четыре группы.

Таким образом, мы познакомились с двумя видами дисперсии, которые можно рассчитать применительно ко всей совокупности данных, включающей в себя несколько групп:

  • Межгрупповая дисперсия, обозначаемая как σ2BG;
  • Внутригрупповая дисперсия, обозначаемая как σ2WG.

Эти два вида дисперсии нужны для того, чтобы с их помощью делать расчет статистического критерия F, который как раз и позволяет дать научно обоснованный ответ на вопрос: являются ли различия между группами достоверными и насколько достоверными. Теперь перейдем непосредственно к ознакомлению с критерием F. Суть F- критерия заключается в том, что он сравнивает две дисперсии: межгрупповую и внутригрупповую, поэтому их соотношение называют F – отношением:

9

Чем больше межгрупповая дисперсия (BG) превышает внутригрупповую дисперсию (WG), тем больше оснований считать различия между группами достоверными. И это вполне логично, ведь если  средние арифметические показатели, принадлежащие отдельным группам, расходятся очень далеко между собой, а внутренний разброс в этих группах  маленький, то это говорит об обособленности данных каждой группы от других групп – вспомните первый рисунок занятия с аналогичной ситуацией. А если средние арифметические групп, наоборот,  стоят близко друг к другу, в то время, как внутри групп разброс очень велик, то это свидетельствует в пользу отсутствия  достоверных различий между группами данных – вспомните второй рисунок занятия, где отображена подобная ситуация.

Образно можно выразить суть F- отношения как сравнение двух чаш весов: на одной из них находится σ2BG, а на другой — σ2WG. Чем больше перевешивает первая чаша, тем достовернее различия.

Подчеркнем, что мы пока вели речь об F- отношении, чтобы просто понять суть дисперсионного анализа и его конечного показателя под названием F-критерий, который дает точное определение степени достоверности различий (в количественном выражении этой степени). Формула F-критерия очень похожа на формулу F- отношения, но имеет одно принципиальное отличие: в этой формуле используются так называемые «несмещенные» дисперсии. Необходимо остановиться на этом новом понятии несколько более подробно.

Итак, что такое «несмещенная» дисперсия? Чтобы объяснить суть данного понятия придется сначала разобраться с понятием «степень свободы», на которое первое понятие опирается. Для примера возьмем ряд чисел, в котором  сумма всех его членов уже известна, например, она равняется 70. Из шести чисел ряда также известны его первые пять членов, это числа: 9, 12, 14, 17, 20, … Неизвестно только последнее шестое число из этого ряда. Зная, что данный ряд подчиняется определенной закономерности, а именно, сумма его членов составляет число 70, можно вычислить недостающий член – им оказывается число (-2). Никакого другого числа на этом месте быть не может, потому что иначе не выполнится заложенная в нем закономерность. Следовательно, это последнее число не свободно в своем проявлении, т.е. оно не может свободно меняться. Первые пять членов ряда могут быть какими угодно (в этом смысле они считаются «свободными» членами), но для того, чтобы выполнилась та закономерность, которой этот ряд подчиняется, последнее число оказывается всегда зависимым от величин  предыдущих членов ряда (в этом смысле один член ряда не является «свободным»). Поэтому принято считать, что число степеней свободы какого-то числового ряда определяется как общее число его членов за вычетом одного, т.е. (N – 1). Таким образом, истинная вариативность (разнообразие) членов ряда, т.е. степень их свободы проявлений определяется не количеством всех его членов (N), а количеством, уменьшенным на единицу. Поскольку такая вариативность, выраженная через число степеней свободы, более истинно отражает положение вещей, то рекомендуется в формуле дисперсии вместо числа (N) в знаменателе использовать показатель числа степеней свободы, т.е. (N – 1). Та дисперсия, которая в знаменателе своей формулы имеет число степеней свободы, называется «несмещенной» и обозначается буквой σ2 с галочкой ^ над ней.

Для обозначения числа степеней свободы используются большая буква K и маленькая буква k, но применительно к разным видам дисперсии. Как отмечалось ранее, в знаменателе формулы межгрупповой дисперсии σ2BG стоит буква n, которая обозначает число слагаемых, а в данном случае – это число групп. Чтобы перейти к показателю степеней свободы применительно к количеству групп, нужно из величины n вычесть 1. Полученный показатель обозначается большой буквой К:

К= n -1

Таким образом, число групп становится уменьшенным на 1(теперь оно равно трем, если у нас было четыре группы). Формула несмещенной дисперсии, которая  обозначается сигмой с галочкой наверху,  выглядит так:

10

Обратимся к другому виду дисперсии – внутригрупповой и напомним, что в знаменателе у обычной дисперсии стоял значок N, который обозначал количество всех участников исследования (общее количество людей в четырех группах). Если мы хотим перейти к несмещенной внутригрупповой дисперсии, то нам следует в знаменателе поставить число степеней свободы применительно к количеству испытуемых во всех четырех группах — это количество определяется как суммированное число степеней свободы, взятое по каждой группе в отдельности. А поскольку число степеней свободы испытуемых всех четырех групп складывается из суммы числа степеней свободы каждой отдельной группы, значит, сначала требуется определить число степеней свободы испытуемых внутри групп. Для этого мы берем количество членов группы и вычитаем из него 1, и так поступаем в каждой группе. Следовательно, когда мы просуммируем числа степеней свободы испытуемых для всех четырех групп, то это количество будет равно прежнему числу N (количеству  всех участников), но за минусом стольких единиц, сколько групп у нас было, ведь каждая группа потребовала вычесть одну единицу при расчете ее степени свободы.

В конечном итоге степень свободы для внутригрупповой дисперсии (σ2WG) можно обозначить маленькой k и выразить формулой:

k= N — n

Таким образом, формула внутригрупповой несмещенной дисперсии (она обозначается сигмой с галочкой наверху) приобрела следующий вид:

11

Если, к примеру, общее число испытуемых во всех четырех группах составляло 40 человек, то в знаменателе несмещенной дисперсии их будет на 4 единицы меньше (в каждой группе пришлось вычесть 1 член), тогда согласно приведенной формуле число степеней свободы составит всего36 человек – это и будет показатель k.

Теперь мы можем записать итоговую формулу расчета F- критерия, к которой так долго шли. Эта формула отражает отношение двух несмещенных дисперсий, т.е. дисперсий, которые в знаменателе имеют число степеней свободы, а не просто число слагаемых, как в обычных дисперсиях:

12

Познакомившись с расчетом F- критерия, далее необходимо понять, как интерпретировать полученную по нему величину, которая называется «экспериментальное значение» критерия. Это экспериментальное значение нужно сравнить с так называемым «критическим значением», которое иногда называют еще «табличным значением» критерия. Критическое значение представляет собой некую пороговую величину, указанную в специальной статистической  таблице (любые статистические таблицы имеются в справочниках по статистике).

Если рассчитанное вами экспериментальное значение F-критерия превысило критическое значение, приведенное в таблице, значит, различия между сравниваемыми группами являются достоверными на статистическом уровне – это главный принцип построения вывода в дисперсионном анализе! Далее приведены таблицы критических значений для F- критерия и t-критерия Стьюдента, который мы рассмотрим позднее.

Но работать с таблицей F- критерия — не просто, поэтому мы разберем данный вопрос отдельно. Далее в материалах занятия представлена для изучения такая таблица, где приведены критические значения F-критерия.

Таблица отражает в себе следующую закономерность: величина критического значения (порога достоверности) зависит от размера анализируемой совокупности данных. А именно, чем меньше объем выборки, тем выше соответствующее ему критическое значение в таблице, поскольку результаты, полученные на малой выборке менее надежны, чем результаты, полученные на большой выборке. По этой причине в таблице приводятся критические значения для конкретных размеров выборок (каждая строка соответствует определенному объему данных). На величину критического значения влияет и количество групп, принимавших участие в эксперименте: чем меньше групп, тем выше критическое значение, которое необходимо превысить экспериментальному значению F- критерия, чтобы различия были признаны достоверными. В этой связи  графы (столбцы) таблицы показывают зависимость критических значений от количества групп.

Таблица

Таблица

Как известно, в расчете F- критерия фигурируют несмещенные дисперсии, которые используют в своих расчетах понятие «число степеней свободы». Поскольку одна из дисперсий использует число степеней свободы относительно количества групп (K= n – 1), то графы таблицы отражают именно этот показатель K. Напомним, что показатель К соответствует числу степеней свободы числителя в критерии
13
Другая дисперсия использует число степеней свободы относительно количества испытуемых (k= N — n), и этот показатель k отражен в строках таблицы. Напомним, что показатель k соответствует числу степеней свободы знаменателя в критерии

14

В связи с тем, что оба показателя (K и k) должны учитываться, то нужное критическое значение необходимо искать на пересечении строки с соответствующим значением k со столбцом, где указано соответствующее значение K. Если мы вернемся к примеру с четырьмя группами, то K будет равно трем, а k будет равно 36, т.к. из первоначальных 40-ка человек пришлось вычесть 4 человек (по 1-му в каждой группе). Найдите в таблице получившееся критическое значение, лежащее на пересечении выше названных значений K и k. Чтобы различия между группами были признаны достоверными, необходимо, чтобы  полученное в исследовании экспериментальное значение  F- критерия превысило именно эту величину!

Но вы уже, наверное, обратили внимание, что в клеточке таблицы, где указано интересующее вас  критическое значение, стоит не одно, а целых два значения, написанные одно под другим. Что это означает? Верхнее критическое значение идет с пометкой 0,05, а нижнее идет с пометкой 0,01 (пометки приведены в левой части таблицы на каждой строке). Когда ваше Fэксп превышает Fкрит на уровне пометки 0,05, то это означает, что ваш вывод о достоверности различий может оказаться ошибочным в  5-ти процентах случаев. А когда Fэксп превышает Fкрит на уровне пометки 0,01, значит, вы можете сделать вывод о достоверности различий, и он окажется ошибочным лишь в 1-ом проценте случаев. Чем меньше процент вероятности ошибки вывода о достоверности различий, тем он надежнее. Поэтому лучше, если ваше Fэксп превышает Fкрит на уровне 1% ошибочности, но приемлемым уровнем для признания достоверности различий считается и 5%-ый уровень.

Вы можете оставить комментарий, или ссылку на Ваш сайт.

Оставить комментарий

Вы должны быть авторизованы, чтобы разместить комментарий.