Расчет критерия хи-квадрат (Chi-Square test)

Критерий «хи-квадрат» существенно отличается от остальных статистических методов (критериев) как по принципу анализа полученных результатов, так и по способу ввода данных в статистический пакет SPSS. В этой связи рассмотрим данный критерий более подробно, чем остальные.

Главной отличительной особенностью критерия хи-квадрат является то, что с его помощью можно сравнивать не количественные характеристики, а качественные оценки изучаемых объектов. Например, требуется сравнить мнение покупателей о продукции двух мебельных фирм и оценить, существуют ли достоверные различия между оценками, которые выдаются продукции первой фирмы, и оценками, которые относятся к продукции второй фирмы. Сами оценки мебели должны быть представлены в виде качественных характеристик, т.е. должны выражаться положительными и отрицательными эпитетами: комфортная, красивая, прочная или  неудобная, грубая, ненадежная и т.п. Чтобы сделать заключение о том, что продукция первой фирмы больше нравится покупателям, чем продукция второй фирмы, необходимо доказать, что положительные оценки встречаются статистически чаще в первой группе отзывов (о продукции первой фирмы), чем во второй группе отзывов (о продукции второй фирмы). Произвести сравнение частот встречаемости тех или иных качественных оценок позволяет выполнить именно критерий хи-квадрат.

Этот критерий вполне подходит и для сравнения того, насколько наблюдаемая частота встречаемости объектов совпадает с ожидаемой частотой их встречаемости. Такое сравнение необходимо, например, чтобы ответить на вопрос о том, насколько оправдываются какие-то прогнозы, в частности, прогнозы погодных явлений: дождя, снега, града, урагана и т.п. Но если группу ожидаемых событий (прогнозов) принять за результаты наблюдений в каких-то уже реализованных условиях, предположим, в другой стране, то это позволит сравнивать частоты природных явлений двух стран, а не оценивать правдоподобность прогнозов, — в этом заключается гибкость метода анализа.

Однако изначально рассматриваемый критерий создавался именно для сравнения ожидаемых частот появления объектов и наблюдаемых частот их проявления (по факту).

С учетом данной особенности метода ввод первичных результатов в таблицу данных SPSS осуществляется не традиционным способом! Сначала качественным характеристикам присваиваются цифровые коды. В примере с оценками мебели, это будет выглядеть так:  комфортная – 1, красивая – 2, прочная – 3; неудобная — 4, грубая — 5, ненадежная – 6.

Далее в таблице данных в первом столбце (переменная номер один – VAR0001) вводится каждая цифра, которая служит кодом определенной качественной характеристики, причем цифра набирается в строках таблицы столько раз, сколько она встретилась в первой группе данных. Например, если характеристика с кодом «3» встретилась в первой группе данных 12 раз, то следует заполнить 12 строк подряд (сверху вниз), набрав в них цифру 3.

Набор цифр лучше вести в упорядоченной последовательности, т.е. по мере нарастания величин цифр, обозначающих коды, а именно, после набора всех случаев встречаемости кода «1», надо вводить количество случаев встречаемости «2» и так далее, что облегчит ввод второй группы данных. Необходимо подчеркнуть, что таким способом вводится только первая переменная, т.е. наблюдавшиеся по факту частоты проявлений изучаемых характеристик в первой группе данных.

Обратите внимание на то, что вторая группа данных должна вводиться не в таблицу базы данных, как следующий столбец результатов под ярлыком (VAR0002), а в специальное окошко, которое будет предоставлено позднее – на этапе запроса программы об ожидаемых частотах появления введенных ранее кодов (качественных характеристик). Это – вторая отличительная особенность расчета критерия хи-квадрат. Даже в том случае, когда вторая переменная отражает не ожидаемые частоты, а  реальные частоты, проявленные в какой-то другой группе (например, сравниваются две группы вместо прогнозов), то все равно их следует вводить в качестве «ожидаемых» частот, о чем будет подробно рассказано далее.

Итак,  после того, как в таблицу базы данных занесены частоты встречаемости результатов первой группы (заполнен столбик первой переменной), таблица данных больше не нужна и потому следует нажать команду «Analyze», расположенную над таблицей. После этого появится меню методов, из которого необходимо выбрать строку «Nonparametric Tests», а далее  из предложенного списка уточнений выбрать строку Chi-Square test.

Выбор нужного критерия из предложенного меню методов

Выбор нужного критерия из предложенного меню методов

После выполнения указанных действий откроется окно, где необходимо будет продолжить работу с двумя переменными. В верхнем левом окошке будет предъявлен список переменных, имеющихся в базе данных. Из него необходимо выбрать курсором ту переменную, которая вводилась в базу данных для обработки критерием хи-квадрат, и нажать стрелочку между окнами, чтобы эта переменная перешла в правое окошко.

Ввод 2-й переменной (с чем  будет сравниваться 1-я переменная)

Ввод 2-й переменной (с чем будет сравниваться 1-я переменная)

Теперь потребуется ввести данные второй переменной в окошко под названием «Expected Values», что переводится как «ожидаемые значения». Для этого необходимо выбрать сначала принцип распределения вероятностей появления качественных характеристик во второй группе данных: если ожидается равновероятное появление каждой из характеристик во второй группе, то надо активировать позицию под названием «All categories equal», если же ожидается, что характеристики будут встречаться с неравной вероятностью, то следует активировать строку под названием «Values», для чего поставить галочку, нажав на кружок рядом с этим словом.

При вводе данных второй переменной потребуется соблюсти ряд условий. Необходимо вспомнить, в каком порядке вводились коды качественных характеристик в таблицу базы данных. В рассматриваемом примере коды вводились по порядку: 1,2,3,4,5,6.

С учетом этого программа SPSS сразу заготавливает специальную колонку данных (скрытую от Вас), где указано, сколько раз встретился тот или иной код в первой  группе данных.

Эта колонка выглядит таким образом:

Observed N

1 – 7

2 – 8

3 – 9

4 – 6

5 – 7

6 – 9

Слева стоит код, обозначающий качественную характеристику, а  напротив него число, соответствующее количеству случаев его появления в первой группе данных, т.е. частота его встречаемости в этой группе.

Для расчета критерия хи-квадрат потребуется ввести в программу дополнительную колонку, где каждому коду будет приписана ожидаемая частота его встречаемости.  Дополнительную колонку нужно формировать по тому же принципу, соблюдая прежнюю очередность кодов:

1 – 6

2 – 10

3 – 8

4 – 10

5 – 5

6 – 7

Но при вводе дополнительной колонки в программу не нужно набирать сами коды (они сами и их последовательность известны из базы данных), необходимо набрать только величины, обозначающие суммарное количество случаев встречаемости того или иного кода во второй группе данных. В приведенном примере дополнительная колонка, которая должна подлежать вводу, выделена курсивом.

Дополнительная колонка вводится через окошко «Values». Для этого в маленьком окошке рядом с этим словом набирается суммарное количество случаев встречаемости характеристики с кодом «1» (например, число 6). Затем нажимается расположенная ниже команда «Add», после чего набранное значение само переместится в отдельную колонку ниже, освободив место для набора нового значения. Надо вновь поместить курсор в окошко рядом с «Values» и набрать частоту встречаемости кода «2» (например, число 10), после чего снова нажать «Add». Таким образом вводятся все частоты, предназначенные для дополнительной колонки (второй переменой). Если какая-то величина частоты была ведена неверно, то ошибку можно исправить следующим образом: в формируемой колонке выбрать курсором неверное значение и нажать на команду «Remove». Далее при вводе нового значения надо обязательно проверить, соответствуют ли вводимые частоты установленному порядку кодов характеристик!

Здесь важно отметить еще один момент, касающийся общего количества частот во второй группе данных. Оно должно  в сумме соответствовать общему количеству случаев наблюдений, зарегистрированных в первой группе. Если вернуться к примеру с оценками мебели, то это означает, что при опросе 100-та покупателей относительно мебели первой фирмы, должны быть опрошены тоже 100 покупателей относительно мебели второй фирмы, — только в этом случае опрос будет считаться вполне корректным. Однако если оказалось, что во второй группе данных зарегистрировано меньшее количество оценок, чем в первой группе, то это допустимо потому, что программа сама посчитает предполагаемые вероятности встречаемости кодов с учетом тех пропорций между частотами, которые Вы введете в колонку «Values». Главное требование состоит в том, чтобы были указаны частоты применительно ко всем кодам, фигурирующим в базе данных! Причем необходимо, чтобы для каждого кода число наблюдений составило не менее 5-ти случаев, поскольку меньшее число случаев встречаемости неприемлемо для построения обоснованных статистических выводов.

Когда ввод второй переменной (дополнительной колонки частот) завершен, нужно нажать кнопку «ОК» для выполнения расчетов критерия.

Продолжение статьи о расчете критерия хи-квадрат (Chi-Square test).

Вы можете оставить комментарий, или ссылку на Ваш сайт.

Оставить комментарий

Вы должны быть авторизованы, чтобы разместить комментарий.