Расчет критерия Колмогорова-Смирнова (Kolmogorov-Smirnov test) часть 2 | Statyx.ru Статистическая обработка данных в пакете SPSS

Расчет критерия Колмогорова-Смирнова (Kolmogorov-Smirnov test) часть 2

В окне готовых результатов будет выдана таблица, которая приведена далее. В ней будут отражены основные и промежуточные показатели критерия Колмогорова — Смирнова. Основной показатель, т.е. собственно величина критерия расположена в таблице на строке «Most Extreme Differences Absolute» (абсолютное максимальное расхождение экспериментальной кривой с кривой нормального распределения). В данном примере она составила D=0,175.

One-Sample Kolmogorov-Smirnov Test
VAR00001
N 36
Normal Parametersa,b Mean 4,3333
Std. Deviation 2,07020
Most Extreme Differences Absolute ,175
Positive ,175
Negative -,093
Kolmogorov-Smirnov Z 1,050
Asymp. Sig. (2-tailed) ,220

a. Test distribution is Normal. b. Calculated from data.

Чтобы правильно проинтерпретировать полученную величину критерия, необходимо сравнить это значение с критическим значением, установленным для данного критерия. Критическое значение берется из специальной таблицы, которую можно найти в учебниках по статистике.

Кратко можно сказать, что для выбора нужного критического значения необходимо взять строку, которая соответствует количеству человек в экспериментальной выборке за минусом 1 (эта величина равна степени свободы выборки). Потом в разделе «Проверка единичной выборки» найти столбец, где написано D0,05, после чего взять значение, стоящее на пересечении с выбранной строкой, – это и будет то критическое значение критерия, с которым Вы должны сравнить полученное в SPSS значение.

Например, число членов Вашей выборки (N) составило 36, как указано в приведенной выше таблице. Следовательно, степень свободы выборки равна: 36-1=35, значит должна быть выбрана строка, где указано число 35. Далее смотрим, чему соответствует критическое значение критерия для D0,05: оно оказалось равным 0,230. Сравнив экспериментальное значение критерия (0,175) с критическим значением (0,230), мы видим, что оно не превысило последнее, из чего делается вывод об отсутствии достоверных различий между экспериментальным распределением данных и нормальным распределением. Если же экспериментальное значение оказалось бы равным или больше, чем критическое значение, то вывод был бы иным: имеющееся распределение достоверно отличается от нормального распределения.

Существует еще один очень популярный способ оценки достоверности различий между распределениями или какими-то группами данных — он касается такого показателя, как «уровень значимости». Данный показатель является чрезвычайно важным показателем для всех методов статистики, поэтому умение его интерпретировать дает ключ к пониманию сути результатов любой статистической обработки данных!

По этой причине очень рекомендуем Вам ознакомиться с содержанием этого показателя и правилам его интерпретации здесь.

Если изложить суть показателя «уровня значимости» кратко, то можно сказать, что он показывает то, насколько можно доверять выводу о наличии достоверных различий, иными словами, насколько ошибочным может оказаться такой вывод. Если ошибочность вывода составляет всего 5%, это означает, что только 5% данных не подтверждают гипотезу о наличии достоверных различий, а остальные 95% данных свидетельствуют в пользу наличия достоверных различий между распределениями или группами данных. При таком раскладе данных вполне возможно принять гипотезу о наличии различий и признать ее достоверной, т.е. надежной.

Уровень значимости (достоверности) гипотезы обычно обозначается в книгах по статистике буквой «р» (это сокращение от слова «probability» — «вероятность» ошибки в выводе, т.е. величина обратная степени надежности вывода).

Но в статистических пакетах уровень значимости принято обозначать тремя буквами «sig» (это сокращение от слова «significance» — «значимость», т.е. «весомость», обоснованность вывода). Величина уровня значимости выражается обычно не в процентах, а в долях от целого (от единицы): например, пяти процентный уровень ошибочности вывода будет обозначаться как sig=0,05, что соответствует р=0,05.

Еще лучше, когда уровень ошибочности оказывается равным sig=0,01, что указывает на 1% данных, которые не согласуются с гипотезой о наличии достоверных различий, при этом 99% данных подтверждают эту гипотезу, следовательно, вывод о достоверных различиях будет очень надежным или, как говорят, высоко достоверным.

В тех случаях, когда рассчитанный в SPSS показатель уровня значимости (Sig) составляет р>0,05, тогда нельзя делать вывод о наличии достоверных различий между сравниваемыми распределениями или группами данных.

Решающее правило при построении вывода о достоверности различий можно выразить следующим образом:

  • если sig получился равным или меньше, чем 0,05, то делается вывод о наличии достоверных различий, что записывается в отчете или публикации как р≤ 0,05* (и помечается одной звездочкой);
  • если sig получился равным или меньше, чем 0,01, то делается вывод о наличии высоко достоверных различий, что записывается в отчете или публикации как р≤ 0,01**(и помечается двумя звездочками);
  • если sig получился больше 0,05, то делается вывод об отсутствии достоверных различий и наличии только тенденции в различиях данных двух групп, что записывается в отчете или публикации как р> 0,05;
  • если sig получился больше 0,95, то делается вывод о достоверном отсутствии различий между данными двух групп, что записывается в отчете или публикации как р>0,95*(и помечается одной звездочкой);
  • если sig получился больше 0,99, то делается вывод о высоко достоверном отсутствии различий между данными двух групп, что записывается в отчете или публикации как р>0,99**(и помечается двумя звездочками).

В рассмотренном выше примере величина Sig, указанная в самой нижней строке таблицы, оказалась на уровне 0,22, что превышает величину 0,05 (р>0,05), значит необходимо сделать вывод об отсутствии достоверных различий между полученным в эксперименте распределением и нормальным распределением данных. Иными словами, полученное распределение достаточно близко к нормальному распределению.

Как видим, вывод, сделанный по показателю уровня значимости, совпадает с выводом, сделанным на основе сравнения величин самого критерия (рассчитанного в SPSS и критического значения из таблицы).

Чтобы убедиться в правильности сделанных выводов, можно построить частотное распределение экспериментальных данных, которые имеются в базе данных. Для этого нужно вернуться к таблице базы данных (через вкладку SPSS в панеле задач) и выбрать команду «Graphs». Далее выбрать строку «Chart Builder», после чего откроется окно, где нужно задать характеристики для построения графика.

Выбор характеристик для построения графика частотного распределения данных

Выбор характеристик для построения графика частотного распределения данных

В рубрике «Choose from» нужно выбрать строку со словом «Histogram». После этого появятся маленькие картинки (образцы) построения гистограмм. Следует выбрать, например, первый рисунок-образец и нажать на него два раза. При построении простого частотного распределения на правом поле в окне «Statistic» выбирается «Frequency Percent». После выбора курсором данной строки обязательно нажимается кнопка «Apply» в нижней части этого поля, что приводит к появлению данной характеристики на оси ординат в окне условного графика. Только теперь можно нажать на кнопку «ОК» для реального построения графика.

Открывается окно «Output» с построенным графиком (если не открывается, то вызвать его через вкладку SPSS в панеле задач).

Кривая частотного распределения данных (частота встречаемости результатов выражена просто в процентах)

Кривая частотного распределения данных (частота встречаемости результатов выражена просто в процентах)

Из графика видно, что наиболее часто (на уровне 25-20%) встречаются средние величины, соответствующие значениям результатов в диапазоне от 3 до 6 единиц. А крайние значения, такие как 1-2 или 7-10 встречаются с частотой на уровне 7-5%. Следовательно, в этом распределении частота встречаемости средних по величине значения явно доминирует над частотой встречаемости крайних значений (низких и высоких). Это указывает на то, что данное распределение носит характер достаточно близкий к нормальному, который показан на рисунке.

Кривая нормального распределения частоты встречаемости данных (результатов теста) в выборке испытуемых

Кривая нормального распределения частоты встречаемости данных (результатов теста) в выборке испытуемых

Таким образом, число наглядно удалось проверить вывод о том, что полученное в эксперименте распределение не имеет достоверных отличий от нормального распределения, а наоборот, достаточно близко к нему по своему характеру. Распределение, отличное от нормального, носит иной характер.

Кривая не нормального распределения данных по частоте

Кривая не нормального распределения данных по частоте

Достоверно отличаться от нормального распределения будет то распределение данных, где крайние результаты встречается гораздо чаще, чем средние значения, как это показано на рисунке.

Если в области средних значений наблюдается «провал» и при этом присутствуют два «горба» по краям, то такая конфигурация кривой может означать, что выборка не является гомогенной по своему составу, т.е. в ней объединены две подгруппы людей, которые существенно различаются между собой по изучаемому признаку, что и приводит к появлению двух пиков в распределении данных.

Вы можете оставить комментарий, или ссылку на Ваш сайт.
Реставрація ванн наливним акрилом http://semobile.com.ua Реставрация ванн акрилом

Оставить комментарий

Вы должны быть авторизованы, чтобы разместить комментарий.