Метод кластерного анализа

При изучении этого нового вида статистического анализа данных мы будем использовать термины «сходство» или «близость» объектов в сознании людей. Так в сознании одного человека понятия «любовь» может тяготеть (группироваться) с понятиями «семья», «дети», «преданность», а в сознании другого человека понятие «любовь» может располагаться  ближе к иной группе понятий: «развлечение», «свобода поведения», «непостоянство». Зная особенности «расположения» (группировки) понятий в сознании людей, можно прогнозировать и их реальное поведение. За каждым понятием стоит смысловое содержание, поэтому, когда речь идет об изучении расположения смыслов на поле сознания, то психологи называют это — изучением структуры семантических полей (смысловых полей).

Методом изучения семантических полей является метод кластерного анализа, поскольку он изучает, как объединяются в группы и в классы отдельные понятия, какие из них очень близки друг другу по свои субъективным смыслам, а какие расходятся очень далеко.

Классификации объектов, сделанные ребенком и взрослым

Классификации объектов, сделанные ребенком и взрослым

Если вы предложите сделать классификацию одних и тех же понятий ребенку и взрослому, то сможете получить совершено разные классификации, что указывает на различия в группировании понятий.

Мы видим, что в сознании ребенка «комар» стоит ближе к крысе и крокодилу, чем к бабочке. Эти понятия объединяет в сознании ребенка чувство страха, которые  эти три живых существа вызывают у ребенка. Бабочка же оказывается ближе к кролику и лебедю, которые  вызывают приятные ощущения и чувство красоты. Таким образом, чтобы  воспроизвести субъективную классификацию человека, необходимо знать, степень близости объектов в его сознании, которая, в свою очередь, базируется на степени их субъективного сходства (например, по ощущениям или эмоциям, которые они вызывают).

Но помимо понятия «класс», с которым мы знакомы по классификациям, существует еще и другое понятие — «кластер», которое применимо в отношении субъективных классификаций и структурированию психосемантических полей. Что же такое «кластер» и чем он отличается от класса?

Кластер – это подмножество объектов некоторой совокупности объектов, в котором элементы находятся ближе друг к другу, чем к остальным элементам совокупности. Отличие кластера от класса состоит в том, что класс может существовать теоретически, т.е. быть незаполненным реальными объектами, как, например, пустые ячейки таблицы химических элементов Менделеева (по причине того, что сами элементы еще не открыты); кластер – это уже не теоретический конструкт, а реально выявленное множество объектов, близость которых друг к другу установлена эмпирическим путем, т.е. является доказанным фактом. Таким образом, отличительной особенностью кластера является то, что он – не может быть «пустым» множеством объектов, т.е. теоретически ожидаемым множеством, поскольку он – плод экспериментальной обработки данных и констатирует реально обнаруженные связи между объектами! Если создание классов опирается на строгие научные критерии, т.е. объективные основания классификации, то кластеры могут возникать стихийно, ничем не обосновано, как этого захочет сознание человека, ведь кластер лишь показывает, что человек субъективно размещает какие-то объекты ближе друг к другу, а какие-то дальше. Причем содержание кластеров (какие объекты он объединяет) у одного человека может существенно отличаться от содержания кластеров другого человека, как мы это видели на примере психосемантических полей ребенка и взрослого.

Для описания кластеров используют определенные параметры:

  • объем, занимаемый кластером (число включенных в него элементов);
  • порог — это мере близости объектов, позволяющая отнести их к одному кластеру ( количество признаков сходства);
  • эталонные точки – это те объекты, которые могут быть выделены в качестве типичных представителей данной группы объектов;
  • дистанции, т.е. промежутки между отдельными кластерами.

Выделение кластеров делается для построения классификаций, как субъективных (на уровне сознания людей), так и объективных (по реальным физическим проявлениям объектов в природе). Известны две процедуры построения классификаций: дивизимная и агломеративная. Дивизимная процедура предполагает движение при построении классификации от крупных кластеров к более мелким. Агломеративная процедура, наоборот, означает построение классификации от мелких кластеров к более крупным (агломерация – объединение в крупные скопления). Мы рассмотрим более популярную агломеративную процедуру.

Эта процедура кластерного анализа  включает следующие операции:

  1. Сначала каждый отдельный объект из представленного множества принимается за самостоятельный кластер;
  2. Затем оценивают наличие признаков сходства между каждой парой объектов (первичных кластеров) и выделяют ту пару, где сходство оказалось наибольшим ( например, кластеры А и Б);
  3. Объединяют наиболее близкие первичные кластеры в новый  (объединенный) кластер и присваивают ему новый индекс (например, В), тем самым кластеры А и Б прекращают свое существование;
  4. Определяется сходство между оставшимися кластерами и опять выделяются из них наиболее схожие с целью дальнейшего объединения, в результате которого образуется один крупный кластер и упраздняются два мелких.

Объединение длится до тех пор, пока все кластеры не будут объединены в один всеобщий кластер, включающий все множество элементов. Стадии объединения кластеров фиксируются на специальном графике, который в конечном итоге становится графическим изображением классификации объектов данного множества.

Разберемся с этой процедурой на конкретном примере. В одном вузе решили изучить, каким видят мир профессий студенты гуманитарного профиля. Им дали список, где были перечислены 11 представителей различных профессий, а 12-м пунктом в списке должна была стать профессия, которой обучался данный студент (предположим, социолог):

I — экскурсовод, II — учитель, III — врач, IV — строитель, V — шофер, VI — инженер, VII — программист, VIII — агроном, IX — лесничий, X — писатель, XI — актер, XII — социолог.

Студентам была поставлена задача: разделить профессии на группы на основании их сходства между собой, чтобы психологи могли  изучить, какая субъективная классификация существует в сознании студентов относительно мира профессий. Психологи построили эту классификацию, а теперь попробуйте вы сделать то же самое посредством кластерного анализа. Для этого вам раздали на отдельном листе протоколы, где представлены результаты группирования профессий студентами. Вместо фамилий в протоколах указаны условные коды испытуемых в буквах алфавита (от А до П – всего 15 испытуемых).

Протокол 1. Испытуемый А

  1. 1, 10, 11, 12 – ненавязчиво воспитывают других;
  2. 2, 3 – требовательны и поучают других;
  3. 4, 5, 6, 7 – «технари»;
  4. 8, 9 – близки к природе.

Протокол 2. Испытуемый Б

  1. 1, 2, 3, 11 – связаны с постоянным общением;
  2. 9, 10, 12 – ориентированы на свой внутренний мир;
  3. 4, 5, 6, 7, 8 – не связаны с общением;

Протокол 3. Испытуемый В

  1. 9 -охраняет природу;
  2. 4, 6, 8 – изменяют природу;
  3. 2, 5, 7 – «программируют», определяют поведение людей или машин;
  4. 1, 11 – передают готовое знание;
  5. 3, 10, 12 – работа требует творчества;

Протокол 4. Испытуемый Г

  1. 1, 2, 3, 10, 11 – производят духовные ценности;
  2. 4, 5, 6, 7, 8, 9, 12 – производят материальные ценности;

Протокол 5. Испытуемый Д

  1. 1, 2, 3, 6, 8 – руководят другими людьми;
  2. 4, 5, 7, 11, 12 – обслуживают потребности других людей, подчиняются их требованиям;
  3. 9, 10 – работают сами по себе;

Протокол 6. Испытуемый Е

  1. 1, 2, 3, 4, 5, 6, 8, 12 – связаны с активным действием;
  2. 7, 9, 10, 11 – связаны с созерцательным отношением к жизни, больше ориентируются на понимание, чем на действие;

Протокол 7. Испытуемый Ж

  1. 1, 2, 3, 12 – работают с людьми;
  2. 4, 5, 6 – работают с техникой;
  3. 7 – обрабатывают информацию;
  4. 8, 9 – воздействуют на природу;
  5. 10, 11 – создают художественные образы;

Протокол 8. Испытуемый З

  1. 3, 7, 10, 11 – престижные профессии;
  2. 1, 2, 4, 5, 6, 8, 9 – не престижные профессии;
  3. 12 – еще не знаю, кем стану;

Протокол 9. Испытуемый И

  1. 3, 5 – устраняют неполадки в работе машин и болезни людей;
  2. 2, 4, 6, 7, 8, 10, 12 – создают что-то новое: вещи, идеи, и т.п.
  3. 1, 9, 11 – ничего не создают, стремятся к сохранению доверенных им памятников природы или истории;

Протокол 10. Испытуемый К

  1. 1, 2, 3, 6, 8, 10, 11 – профессии, с которыми мне было бы трудно справиться;
  2. 4, 5 – легкие, но очень интересные профессии;
  3. 7, 9, 12 – хотелось бы приобрести такую специальность;

Протокол 11. Испытуемый Л

  1. 1,10,11 – заняты развлечением людей;
  2. 2, 3 – исправляют духовные и телесные недуги;
  3. 8, 9  – работают на земле;
  4. 4, 5 – рабочие, физический труд;
  5. 6, 7, 12 – люди умственного труда;

Протокол 12. Испытуемый М

  1. 4, 5, 9 – рабочие специальности;
  2. 1, 2, 3, 6, 7, 8, 12 —  служащие;
  3. 10, 11 – творческие работники;

Протокол 13. Испытуемый Н

  1. 2, 3, 12 – женские профессии;
  2. 4, 5, 8, 9, 10 – мужские профессии;
  3. 1, 6, 7, 11 —  подходят как к мужчинам, так и к женщинам;

Протокол 14. Испытуемый О

  1. 2, 3, 10, 11, 12 – творческие профессии, связанные с работой с людьми;
  2. 4, 5, 6, 7 – технические профессии;
  3. 8, 9 – «бионические»  профессии;

1 – трудно считать самостоятельной специальностью;

Протокол 15. Испытуемый П

  1. 3, 4, 7, 9, 10, 11 – романтические профессии;
  2. 1, 2, 5, 6, 8, 12 – профессии, связанные с обыденными обязанностями, бытом, повседневной жизнью.

Чтобы начать кластерный анализ, нужно сначала записать все результаты из протоколов в сводную таблицу. Ниже представлена получившаяся таблица. В этой таблице столбцы соответствуют испытуемым (они обозначены буквами), а строки соответствуют различным профессиям (они обозначены римскими цифрами). Арабские цифры в таблице показывают, к какой группе отнесена та или иная профессия данным испытуемым. Здесь не играет роли, что номера групп различаются у разных испытуемых, важно то, как группировались профессии на индивидуальном уровне, т.е. какие именно профессии поместил в одну группу испытуемый.

А Б В Г Д Е Ж З И К Л М Н О П
I 1 1 4 1 1 1 1 2 3 1 1 2 3 4 2
II 2 1 3 1 1 1 1 2 2 1 2 2 1 1 2
III 2 1 5 1 1 1 1 1 1 1 2 2 1 1 1
IV 3 3 2 2 2 1 2 2 2 2 4 1 2 2 1
V 3 3 3 2 2 1 2 2 1 2 4 1 2 2 1
VI 3 3 2 2 1 1 2 2 2 1 5 2 3 2 2
VII 3 3 3 2 2 2 3 1 2 3 5 2 3 2 1
VIII 4 3 2 2 1 1 4 2 2 1 3 2 2 3 2
IX 4 2 1 2 3 2 4 2 3 3 3 1 2 3 1
X 1 2 5 1 3 2 5 1 2 1 1 3 2 1 1
XI 1 1 4 1 2 2 5 1 3 1 1 3 3 1 1
XII 1 2 5 2 2 1 1 3 2 3 5 2 1 1 2

Теперь приступаем непосредственно к кластерному анализу. Согласно первой процедуре, мы должны сначала принять все профессии за самостоятельные кластеры и начать искать сходство между этими первичными кластерами. Анализ необходимо вести попарно, т.е. сравнивать поочередно две различные профессии. Возьмем две первых профессии из списка (профессию экскурсовода и учителя) и проанализируем их сходство. В приведенной ниже таблице мы будем сравнивать верхнее и нижнее значение (стоящие строго в одной колонке): если цифры совпадают, значит, конкретный испытуемый, которому  принадлежит эта колонка данных, отнес профессию экскурсовода и учителя к одной и той же группе. Нам неважен сам номер группы – важно установить лишь факт сходства или несходства номеров групп, т.е. верхнего и нижнего значения в отдельной колонке данных! Когда номера групп совпадают, тогда в самой нижней (третьей) строке этой же колонки мы ставим знак «+», при несовпадении номеров ставим знак «-». Образец анализа показан ниже.

Экскурсовод 1 1 4 1 1 1 1 2 3 1 1 2 3 4 2
Учитель 2 1 3 1 1 1 1 2 2 1 2 2 1 1 2
Совпадения + + + + + + + + +

Считаем теперь количество совпадений, которые обозначены в составленной табличке плюсами. Их сумма достигает 9 – это и есть условная мера сходства рассмотренных двух профессий: экскурсовода и учителя.

Аналогичным образом надо сравнить первую профессию (экскурсовод) с третьей (врач), а затем с четвертой (строитель) и так далее до конца списка. При этом также следует считать для каждой новой пары профессий количество совпадений, т.е. случаев, когда обе профессии помещались в одну и ту же группу. После чего надо перейти к профессии учителя и так далее.

Когда вы проделаете эту кропотливую работу, то у вас получится, что степень сходства каждой пары профессий отражает  определенное число – количество совпадений групп у них. Построим теперь матрицу сходства.

Первичная матрица сходства

Кластер I II III IV V VI VII VIII IX X XI XII
I 9 7 2 3 7 2 6 2 4 8 5
II   11 3 4 7 3 7 1 4 4 7
III     2 2 4 3 4 1 6 6 6
IV       12 9 7 7 5 3 2 4
V         8 6 6 4 1 1 4
VI           8 10 2 2 2 6
VII             4 4 4 5 6
VIII               7 3 1 5
IX                 5 3 3
X                   10 5
XI                     3
XII                      

Поскольку матрица сходства симметрична по отношению к ее диагонали, обозначенной косыми крестиками, то дальше мы будем работать лишь с одной половиной матрицы. Посмотрим, между какими парами профессий наблюдается наибольшая степень сходства, т.е. где стоит максимальное число совпадений в матрице. Максимальное число совпадений – это 12, и оно стоит на пересечении IV-ой строки и V-го столбца. Значит, наиболее схожи между собой IV-ая и V-я профессия, если обобщить мнение студенческой группы в целом. Следовательно, эти два самостоятельных (до настоящего момента) кластера можно объединить в один новый (интегральный) кластер – назовем его «IV+V». Его появление заменяет существование кластера IV и кластера V. Теперь оставшееся количество кластеров уменьшилось, поэтому следует переписать матрицу сходства заново. Но при этом вместо двух прежних строк, которые соответствовали кластерам IV и V, мы должны написать одну строку, соответствующую новому кластеру «IV+V». То же самое придется сделать и в отношении столбцов: заменить два прежних столбца на один новый. Что же должно быть записано в новой строке и в новом столбце, иными словами, какие степени сходства будут у нового кластера с остальными кластерами?  Для решения данного вопроса выписываем из матрицы значения, которые соответствовали прежним двум столбцам, и выбираем из двух парных значений то, которое больше по величине – оно и заменит два прежних .

Там, где стоит значок прочерка ( ▬ ) или всего одна цифра вместо пары, ничего не пишется в новой строке.

Кластер IV Кластер V Кластер «IV+V»
2 3 3
3 4 4
2 2 2
12
 

Вопрос с заменой строк решается аналогичным образом: берутся значения, которые стояли в прежних строках и оставляются для новой строки наибольшие из них.

Кластер IV 12 9 7 7 5 3 2 4
Кластер V   8 6 6 4 1 1 4
Кластер «IV+V» 9 7 7 5 3 2 4

Запишем новые строки и столбцы, которые мы только что вывели для нового кластера «IV+V», в матрицу сходства. Она приобретет такой вид.

Преобразованная матрица сходства

Кластеры I II III IV+V VI VII VIII IX X XI XII
I 9 7 3 7 2 6 2 4 8 5
II   11 4 7 3 7 1 4 4 7
III     2 4 3 4 1 6 6 6
IV+V       9 7 7 5 3 2 4
VI         8 10 2 2 2 6
VII           4 4 4 5 6
VIII             7 3 1 5
IX               5 3 3
X                 10 5
XI                   3
XII                    

В новой матрице вновь ищем максимальное число совпадений (в смысле причисления двух профессий к одной и той же группе). Теперь самым большим числом совпадений, которое составляет 11, обладает пара, включающая II-ой и III-ий кластеры. Следовательно, их можно объединить в один общий кластер под названием «II+III», после чего заменить предыдущие строки и столбцы, которые им соответствовали, на новые. Поскольку в матрицу должны вноситься изменения в связи с появлением нового кластера «II+III», то ее придется переписывать заново.

Преобразованная матрица сходства

Кластеры I II+III IV+V VI VII VIII IX X XI XII
I 9 3 7 2 6 2 4 8 5
II+III   4 7 3 7 1 6 6 7
IV+V     9 7 7 5 3 2 4
VI       8 10 2 2 2 6
VII         4 4 4 5 6
VIII           7 3 1 5
IX             5 3 3
X               10 5
XI                 3
XII                  

Продолжаем объединение кластеров до тех пор, пока не получим всеобщий кластер, т.е. объединяющий все кластеры. После этого переходим к построению классификации – конечной цели кластерного анализа.

Структура объединения кластеров (профессий) по степени сходства между ними

Структура объединения кластеров (профессий) по степени сходства между ними

Из классификации видно, как именно сортирует сознание молодых людей  мир профессий.

Как вы могли заметить, метод кластерного анализа применяется для изучения не количественных, а качественных характеристик (в данном случае он применялся к изучению профессий).

Вы можете оставить комментарий, или ссылку на Ваш сайт.
Здесь карта Луганска со спутника

Оставить комментарий

Вы должны быть авторизованы, чтобы разместить комментарий.