Статистика в SPSS: за пределами кнопочного интерфейса. Выпуск 24 (comp.soft.others.spss) : Рассылка : Subscribe.Ru

Отправляет email-рассылки с помощью сервиса Sendsay

Статистика в SPSS: за пределами кнопочного интерфейса

Рассылка закрыта

Вы можете найти рассылки сходной тематики в Каталоге рассылок.

← Июнь 2006 →
	1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30

Автор

Балабанов Антон

Статистика

592 подписчиков
0 за неделю

← Все выпуски →

Статистика в SPSS: за пределами кнопочного интерфейса. Выпуск 24

В рассылке используются материалы веб-сайта www.spsstools.ru

Содержание выпуска

Неединственность и инверсии кластерных решений: примеры в SPSS

Здравствуйте, уважаемые подписчики!

Неединственность и инверсии кластерных решений: примеры в SPSS

Как можно почувствовать из названия выпуска, сегодня он посвящён в большей степени некоторым методологическим вопросам анализа, нежели техническим аспектам программирования в пакете. Но, разумеется, и здесь мы прибегнем к помощи синтаксиса SPSS в разборе примеров.

Есть такая статья: Morgan, Byron J., Ray, Andrew P.G. Non-uniqueness and Inversions in Cluster Analysis // Applied Statistics, 1995, Vol. 44, No 1 (pp. 117-134). Авторы рассматривают особенности широко распространённых методов иерархического кластерного анализа, связанные с возможностью появления неединственных или инверсных решений. Указанные вопросы изучались и ранее. Заслуга авторов статьи - в подробном обсуждении связанных с ними проблем, а также в демонстрации на 20 "классических" массивах данных для кластерного анализа того, что данные особенности возникают достаточно часто, тогда как в большинстве публикаций и руководств по кластерному анализу они вовсе не обсуждаются.

Данный выпуск подготовлен по материалам этой статьи. Я не пересказываю здесь её содержание, а концентрируюсь на демонстрации проблем неединственности и инверсии кластерных решений в пакете SPSS. Но в начале полезно коротко охарактеризовать, что именно мы понимаем под неединственностью и инверсией.

Неединственность кластерного решения (non-uniqueness)

Иерархические алгоритмы объединяющего (агломеративного) кластерного анализа строят цепочки кластерных решений с количеством кластеров от n до 1, где n - число наблюдений. На первом шаге алгоритма каждое наблюдение представляет из себя отдельный кластер, а на последнем шаге - все наблюдения объединены. Формирование промежуточных решений происходит за счёт объединения "похожих" друг на друга наблюдений, наблюдений и кластеров и пар кластеров. В этом смысле, не ограничивая общности, каждое наблюдение можно считать кластером. Объединение каждый раз происходит на основе поиска наиболее похожих пар кластеров в матрице сходства (или матрице различий, чаще - матрице расстояний). В первом случае наиболее похожая пара - это пара кластеров, имеющих наибольшую меру сходства, во втором случае - эта пара кластеров, имеющих наименьшую меру различия (например, наименьшее евклидово расстояние, если используется эта метрика). Ситуация неединственности возникает тогда, когда на некотором этапе объединения в матрице сходства/различий существует более одной пары "наиболее похожих" кластеров (например, когда кластеры 1 и 2 удалены друг от друга на то же расстояние, что и 3 и 4, и это расстояние является минимальным среди всех остальных расстояний).

В этом случае некоторые статистические пакеты (авторы пишут про SAS, мои эксперименты говорят, что и SPSS тоже) для определённости идут по так называемому стандартному пути кластеризации (default clustering path). Его идея такова... Ещё перед началом кластеризации каждое наблюдение получает порядковый номер. При объединении наблюдений в кластер результирующий кластер получает номер, равный наименьшему номеру объединяемых наблюдений. Та же логика сохраняется и при дальнейшем объединении кластеров, а также кластеров и отдельных наблюдений. В случае появления двух равнозначных пар-кандидатов на объединение, объединяется пара с наибольшим номером кластера/наблюдения. Т.е. в примере выше в первую очередь будут объединены кластеры 3 и 4. Если же кластер с наибольшим номером сам участвует в двух таких "связках" (например, расстояние (1, 4) = расстоянию (2, 4)), объединяется пара с наименьшим идентификационным номером (в нашем примере - 1 и 4). Таким образом, для того, чтобы получить альтернативное кластерное решение на тех же данных и теми же методами, достаточно соответствующим образом изменить порядок наблюдений, участвующих в "связках", в файле данных или матрице сходства/различия.

Так или иначе, в случае наличия "связок", благодаря принципу стандартного пути кластеризации пользователь получает лишь одну из нескольких возможных цепочек кластерных решений, а значит волен выбирать не из всего множества разбиений, а из некоторого их поднабора. Проблема может и не быть слишком острой, если только альтернативные цепочки кластерных решений не будут различаться слишком сильно. Неприятный момент состоит в том, что пользователь, как правило не знает о степени различий альтернатив (а иногда и не подозревает об их существовании).

Проблема неединственности характерна не только для иерархических методов. Так, в методе k-средних окончательное кластерное разбиение будет зависеть и от порядка наблюдений, и от выбора начальных центроидов, и от наличия равноудалённых центроидов от некоторого наблюдения... Тем не менее, даже разные варианты решений в методе k-средних редко получаются принципиально различными из-за заложенной в методе возможности перераспределения наблюдений между кластерами.

В ситуации с иерархическими алгоритмами неоднозначность цепочки решений может приводить к драматическим различиям в выводах. Ведь выбор одной альтернативы может кардинально изменить всю дальнейшую цепочку подобно тому, как выбор, например, учебного заведения в молодости может определить всю дальнейшую жизнь индивида. При этом альтернативные пути построения цепочки решений могут встречаться несколько раз на одних и тех же данных. Разумеется, такие альтернативы будут, если изначально несколько пар наблюдений являются равнозначными кандидатами на объединение. Но ситуации неоднозначности могут возникать и далее по ходу решения, когда в матрице сходства/различий появятся "связанные" кластеры.

Ситуации альтернативных решений возникают реже, если кластеризуются данные, измеренные с высокой степенью точности по числовой шкале, и чаще, если мы имеем дело с более "дискретными" данными (например, с ситуацией сильного округления числовых значений). Наиболее часто альтернативные варианты появляются при кластеризации с участием двоичных переменных с использованием специальных метрик. В этом случае количество альтернативных решений может быть настолько велико, что все их рассмотреть практически невозможно. Кроме этого, наличие и число альтернатив, безусловно зависит и от выбранных метрик сходства, и непосредственно от метода кластерного анализа.

Авторы упомянутой выше статьи ратуют за то, чтобы в профессиональных статистических пакетах была включена проверка на неединственность иерархического кластерного решения. Пользователю в этом случае необходимо выдавать соответствующее предупреждение.

В данном выпуске мы не решаем подобной задачи, а лишь демонстрируем на одном примере существование двух альтернативных решений.

Инверсии кластерных решений (reversals, inversions)

Инверсия возникает когда нарушается принцип монотонности построения иерархии. Монотонность имеет место, когда добавление каждого нового кластера к уже существующим кластерам (объединение) происходит на основе "меньшего сходства" чем наблюдалось в кластере до этого. Соблюдение монотонности гарантирует получение монотонного графика функции объединения (возрастающего, если используются меры различий или убывающего, если используются меры сходства). Соответственно, по заметным скачкам на данном графике мы можем видеть снижение однородности при переходе к решению с меньшим числом кластеров и задумываться о вариантах окончательного решения. В упрощенном понимании принцип монотонности заключается в том, что при каждом объединении к кластеру присоединяется нечто менее (а точнее - не более) похожее на него, чем то, что присоединялось к нему до этого. Монотонно снижающаяся однородность кластеров с их укрупнением кажется вполне естественным процессом.

Авторы указывают, что среди 7 наиболее популярных методов иерархического кластерного анализа -"ближнего соседа", "дальнего соседа", средней связи, средней взвешенной связи, метода Варда, центроидного метода и медианного метода - лишь последним двум присуща возможность образования инверсий. В центроидном или схожем с ним медианном методе кластеризации на очередном шаге алгоритма некоторый кластер может оказаться на меньшем расстоянии от центроида второго кластера, чем то расстояние, на котором к этому второму кластеру ранее присоединялись другие кластеры. Связана эта особенность с самим принципом центроида-представителя кластера и возможностью перемещения центроида. Ниже мы покажем на простом примере механизм возникновения инверсии, а на более сложном - продемонстрируем, как инверсия может возникать на одной цепочке решений несколько раз.

По мнению авторов, инверсии не расставляют каких-либо серьёзных ловушек для исследователей. Иногда их присутствие может быть малозаметным. С другой стороны, в случае множественных инверсий дендрограмма становится "нечитабельной". Множественность инверсий может свидетельствовать в пользу отсутствия чёткой кластерной структуры в данных. С этих позиций мне лично кажется непоследовательной рекомендация авторов... не использовать вовсе центроидный и медианный методы. Непоследовательной - потому, что в кластерном анализе индикаторы отсутствия чёткой структуры столь же важны, как и индикаторы её наличия. Абсолютно бесспорная рекомендация авторов производителям статистического ПО - по крайней мере, предупреждать пользователя о ситуации инверсии, а авторам учебников - освещать подобные вопросы в обязательном порядке.

Неединственность - пример в SPSS

Возьмём для примера один из массивов данных, исследованных авторами статьи на неединственность решений. Данный файл приводится в наиболее часто цитируемом учебнике по кластерному анализу - John Hartigan, Clustering Algorithms, Wiley, 1975. Этот массив (как и все массивы из учебника) можно найти на веб сайте http://www.csit.fsu.edu/~burkardt/datasets/hartigan (file29.txt).

В примере исследуется схожесть между собой некоторых биологических видов: человека, обезьяны, свиньи, собаки, грибка и проч. В данном случае мы разбираем не исходные данные, а готовую матрицу расстояний, в которой расстояния вычислены по некоторой метрике (возможно, это округлённые евклидовы расстояния, полученные по каким-то исходным переменным, возможно - экспертные оценки силы различий между видами, возможно - какие-то частоты). Перед нами стоит задача провести кластерный анализ этих видов, чтобы установить возможность их классификации на чётко отделимые группы по тем параметрам, которые принимались в расчёт при составлении матрицы расстояний.

Команда CLUSTER в SPSS может принимать в качестве входных данных матрицы сходства/различий, однако при этом данные нуждаются в соответствующем описании. Так, кроме непосредственно названий видов и расстояний между ними, необходимо в каждой строке в переменной с характерным именем ROWTYPE_ указать значение PROX (от PROXIMITIES - близости), что сообщает программе о том, что в данной строке находятся показатели схожести объектов между собой. Кроме этого, следует провести соответствие между строками и столбцами матрицы, последовательным именованием переменных с расстояниями как VAR1, VAR2 и т.д., VAR20 (всего имеется 20 видов) и дублированием этих имён в соответствующих строках матрицы (в переменной VARNAME_). Обратите внимание, в нашей матрице на главной диагонали стоят нули, что является необходимым свойством матрицы расстояний в принципе (а по факту наблюдения в файле данных можно легко менять местами; перед началом кластеризации SPSS легко восстановит исходный порядок по значениям переменной VARNAME_). Данные вводятся в программу посредством известных команд DATA LIST и BEGIN DATA - END DATA. Наименование видов указывается в переменной species. Поскольку некоторые виды включают в своём имени пробелы, при использовании подкоманды LIST имена должны быть заключены в кавычки.

DATA LIST LIST /ROWTYPE_(A8) species(A20) VARNAME_(A8) VAR1 to VAR20.

BEGIN DATA
PROX "Man" VAR1 0 1 13 17 16 13 12 12 17 16 18 18 19 20 31 33 36 63 56 66
PROX "Monkey" VAR2 1 0 12 16 15 12 11 13 16 15 17 17 18 21 32 32 25 62 57 65
PROX "Dog" VAR3 13 12 0 10 8 4 6 7 12 12 14 14 13 30 29 24 28 64 61 66
PROX "Horse" VAR4 17 16 10 0 1 5 11 11 16 16 16 17 16 32 27 24 33 64 60 68
PROX "Donkey" VAR5 16 15 8 1 0 4 10 12 15 15 15 16 15 31 26 25 32 64 59 67
PROX "Pig" VAR6 13 12 4 5 4 0 6 7 13 13 13 14 13 30 25 26 31 64 59 67
PROX "Rabbit" VAR7 12 11 6 11 10 6 0 7 10 8 11 11 11 25 26 23 29 62 59 67
PROX "Kangaroo" VAR8 12 13 7 11 12 7 7 0 14 14 15 13 14 30 27 26 31 66 58 68
PROX "Peking Duck" VAR9 17 16 12 16 15 13 10 14 0 3 3 3 7 24 27 26 30 59 62 66
PROX "Pigeon" VAR10 16 15 12 16 15 13 8 14 3 0 4 4 8 24 27 26 30 59 62 66
PROX "Chicken" VAR11 18 17 14 16 15 13 11 15 3 4 0 2 8 28 26 26 31 61 62 66
PROX "King Penguin" VAR12 18 17 14 17 16 14 11 13 3 4 2 0 8 28 27 28 30 62 61 65
PROX "Snapping Turtle" VAR13 19 18 13 16 15 13 11 14 7 8 8 8 0 30 27 30 33 65 64 67
PROX "Rattlesnake" VAR14 20 21 30 32 31 30 25 30 24 24 28 28 30 0 38 40 41 72 66 69
PROX "Tuna" VAR15 31 32 29 27 26 25 26 27 27 27 26 27 27 38 0 34 41 72 66 69
PROX "Screwworm Fly" VAR16 33 32 24 24 25 26 23 26 26 26 26 28 30 40 34 0 16 58 63 65
PROX "Moth" VAR17 36 35 28 33 32 31 29 31 30 30 31 30 33 41 41 16 0 59 60 61
PROX "Baker's Mold" VAR18 63 62 64 64 64 64 62 66 59 59 61 62 65 61 72 58 59 0 57 61
PROX "Bread Yeast" VAR19 56 57 61 60 59 59 59 58 62 62 62 61 64 61 66 63 60 57 0 41
PROX "Skin Fungus" VAR20 66 65 66 68 67 67 67 68 66 66 66 65 67 69 69 65 61 61 41 0

END DATA.

Ещё один технический момент - для порядка нужно указать программе, что мы используем меры различия (dissimilarities), т.е. большее значение в матрице соответствует меньшему сходству (см. команду VALUE LABELS). Впрочем, это, скорее аккуратность. По умолчанию это задано и так. Но обратное действие совершенно необходимо, если в матрице стоят меры сходства (similarities).

VALUE LABELS ROWTYPE_ 'PROX' 'DISSIMILARITIES'.

Теперь проведём кластерный анализ всех 20 видов (переменные с VAR1 по VAR20) методом полной связи ("дальнего соседа") - COMLETE, выведем функцию объединения (SCHEDULE), данные представлены в виде матрицы в текущем файле (MATRIX = IN(*)), пометим везде наблюдения именами видов (ID=species) и, наконец, покажем дендрограмму (PLOT DENDROGRAM). Обратите внимания, поскольку расстояния заданы из матрицы, определения метрики отсутствуют в команде (а если бы были заданы, то игнорировались бы программой).

CLUSTER VAR1 to VAR20
/METHOD COMPLETE
/PRINT SCHEDULE
/MATRIX=IN(*)
/ID=species
/PLOT DENDROGRAM.

Непосредственный разбор структуры полученных кластеров и интерпретация решения в данный момент нас мало интересует. Тем не менее, где-то в глубине души приятно отметить, что "ближайшим родственником" для нас в этой классификации явилась обезьяна, а не гремучая змея или хлебные дрожжи. :-)

Теперь - о неединственности. Вернёмся к матрице расстояний. Видно, что многие виды оказались расположены друг от друга на одинаковых расстояниях (например, человек с обезьяной и лошадь с ослом, свинья с собакой и свинья с ослом). Хотя наличие одинаковых расстояний в исходной матрице и не является обязательным условием возникновения неединственности, это обстоятельство увеличивает вероятность получения принципиально разных альтернативных решений. Впрочем, альтернатива альтернативе рознь. В проведённой классификации в первую очередь были объединены в один кластер лошадь и осёл (хотя в равной степени можно было начать с человека и обезьяны). Но, поскольку у осла был больший порядковый номер, согласно принципу стандартного пути кластеризации была объединена именно эта пара животных. Если изменить порядок строк и столбцов в матрице корреляций, чтобы порядковый номер человека или обезьяны превосходил максимальный порядковый номер лошади и осла, то первый сформированный кластер окажется "человекоподобным". При этом, однако, все остальные решения с числом кластеров 18, 17, ..., 1, окажутся в точности такими же, как и без изменения порядка видов в матрице расстояний. Это пример достаточно "безобидной" неединственности. Более интересный пример можно получить так изменив порядок следования видов, что изменится кластерная структура. Рассмотрим содержательно эквивалентную матрицу расстояний с иным порядком видов.

DATA LIST LIST /ROWTYPE_(A8) species(A20) VARNAME_(A8) VAR1 to VAR20.

BEGIN DATA
PROX "Donkey" VAR1 0 15 1 16 4 8 10 12 15 15 15 16 15 31 26 25 32 64 59 67
PROX "Monkey" VAR2 15 0 16 1 12 12 11 13 15 17 16 17 18 21 32 32 25 62 57 65
PROX "Horse" VAR3 1 16 0 17 5 10 11 11 16 16 16 17 16 32 27 24 33 64 60 68
PROX "Man" VAR4 16 1 17 0 13 13 12 12 16 18 17 18 19 20 31 33 36 63 56 66
PROX "Pig" VAR5 4 12 5 13 0 4 6 7 13 13 13 14 13 30 25 26 31 64 59 67
PROX "Dog" VAR6 8 12 10 13 4 0 6 7 12 14 12 14 13 30 29 24 28 64 61 66
PROX "Rabbit" VAR7 10 11 11 12 6 6 0 7 8 11 10 11 11 25 26 23 29 62 59 67
PROX "Kangaroo" VAR8 12 13 11 12 7 7 7 0 14 15 14 13 14 30 27 26 31 66 58 68
PROX "Pigeon" VAR9 15 15 16 16 13 12 8 14 0 4 3 4 8 24 27 26 30 59 62 66
PROX "Chicken" VAR10 15 17 16 18 13 14 11 15 4 0 3 2 8 28 26 26 31 61 62 66
PROX "Peking Duck" VAR11 15 16 16 17 13 12 10 14 3 3 0 3 7 24 27 26 30 59 62 66
PROX "King Penguin" VAR12 16 17 17 18 14 14 11 13 4 2 3 0 8 28 27 28 30 62 61 65
PROX "Snapping Turtle" VAR13 15 18 16 19 13 13 11 14 8 8 7 8 0 30 27 30 33 65 64 67
PROX "Rattlesnake" VAR14 31 21 32 20 30 30 25 30 24 28 24 28 30 0 38 40 41 72 66 69
PROX "Tuna" VAR15 26 32 27 31 25 29 26 27 27 26 27 27 27 38 0 34 41 72 66 69
PROX "Screwworm Fly" VAR16 25 32 24 33 26 24 23 26 26 26 26 28 30 40 34 0 16 58 63 65
PROX "Moth" VAR17 32 35 33 36 31 28 29 31 30 31 30 30 33 41 41 16 0 59 60 61
PROX "Baker's Mold" VAR18 64 62 64 63 64 64 62 66 59 61 59 62 65 61 72 58 59 0 57 61
PROX "Bread Yeast" VAR19 59 57 60 56 59 61 59 58 62 62 62 61 64 61 66 63 60 57 0 41
PROX "Skin Fungus" VAR20 67 65 68 66 67 66 67 68 66 66 66 65 67 69 69 65 61 61 41 0

END DATA.

Запустим кластерный анализ с теми же параметрами.

CLUSTER VAR1 to VAR20
/METHOD COMPLETE
/PRINT SCHEDULE
/MATRIX=IN(*)
/ID=species
/PLOT DENDROGRAM.

Серьёзных изменений не видно, но пытливый исследователь увидит на ранних стадиях кластеризации незначительные отличия. То, что началась кластеризация с человека и обезьяны - это ерунда. Обратите внимание на четвёрку "курица, пингвин, голубь, утка" (Chicken, King Penguin, Pigeon, Peking Duck). В первом варианте курица, пингвин и утка сформировали один достаточно однородный кластер, к которому позже (на несколько большем расстоянии) присоединился голубь. Во втором варианте вначале мы получили два однородных кластера (курица - пингвин) и (голубь - утка), которые затем объединили в один. Кто-то скажет, что пример вышел натянутым: всё равно кластерная структура анализируется на более значительных расстояниях (например, чётко выделяется кластер млекопитающих и множество малопохожих "всех остальных" видов). Но, тем не менее, факт - на ранних этапах кластеризации кластерная структура получилась иной. Произошло это всё из-за тех же происков стандартного пути кластеризации.

В первом случае после того, как разобрались с человеком, обезьяной, лошадью и ослом, дошла очередь до курицы и пингвина (они находятся на расстоянии 2, объединили). Далее встал вопрос о присоединении утки к голубю (расстояние 3) или утки к кластеру (курица - пингвин, расстояние 3: что до пингвина, что до курицы). Сделан выбор в пользу укрупнения кластера (курица - пингвин), поскольку среди исследовавшихся альтернатив наибольший идентификационный номер был именно у кластера (курица - пингвин - 11) - он достался кластеру по наследству от курицы, чей идентификационный номер был наименьшим из пары (курица (11) - пингвин (12)). И лишь после этого наибольшее расстояние между кластером (курица - пингвин - утка) и голубем (расстояние 4) оказалось наименьшим среди остальных альтернатив. А точнее, альтернативные решения были и в этот раз, но за счёт большого идентификационного номера голубя (10) он выиграл в честной борьбе за право объединиться у собаки со свиньёй.

Во втором случае мы повлияли на начальные идентификационные номера и на перепутье утка оказалась присоединённой к голубю, так как её номер (11) оказался выше, чем номер кластера (курица - пингвин - 10).

...перечитал последние 2 абзаца и понял, что вне контекста они будут представлять из себя полный бред... :-)

Авторы статьи написали специальную программу, через которую пропустили 20 подобных "классических" примеров данных для кластерного анализа. Ровно в половине массивов возникала неединственность решений, причём иногда различия в решениях оказывались весьма существенными. В статье даже предлагается специальная метрика для исследования отличий решений. Авторы отмечают, что, по результатам их опытов, метод "ближнего соседа" всегда давал уникальные результаты. Наихудшая ситуация с уникальностью наблюдается именно с методом "дальнего соседа" - из всех 7 рассмотренных методов кластеризации он даёт неединственные решения наиболее часто.

В заключение исследователи напоминают, что матрица расстояний, как правило, является результатом реализации случайных переменных, а значит единственность наблюдаемого решения в кластерном анализе, вообще говоря, может быть весьма иллюзорной.

Инверсии: пример в SPSS

Продемонстрируем механизм возникновения инверсий когда исходными данными являются 4 наблюдения (a - d), измеренные в 2 переменных (x, y).

DATA LIST LIST /point (A1) x y.

BEGIN DATA
a 11 8
b 12 2
c 1 6
d 6 16

END DATA.

В качестве метода кластеризации выберем центроидный, в качестве метрики расстояния - евклидово расстояние. Кластеризация, таким образом, допускает прозрачную геометрическую интерпретацию. Рассмотрим относительное положение точек на диаграмме разброса:

GRAPH /SCATTERPLOT(BIVAR)=x WITH y BY point (NAME).

И запустим процедуру кластеризации:

CLUSTER x y
/MEASURE EUCLID
/METHOD CENTROID
/PRINT SCHEDULE
/ID=point
/PLOT DENDROGRAM.

На первом шаге будут объединены точки a и b, как наиболее близкие. Центроид кластера займёт положение между ними и наиболее близкой до него окажется точка c. После присоединения c центроид укрупнённого кластера заметно "переезжает" влево. Осталось подсоединить точку d, что и было сделано. Но вот незадача: расстояние от d до нового центроида оказалось меньше, чем от c до старого центроида кластера (a - b). Получается, согласно функции расстояния, более крупный кластер оказался менее разнородным, чем был до этого. Разумеется, такого не могло бы произойти, если бы мы в качестве функции объединения использовали, например, среднее взвешенное расстояние, или статистику Варда - что-то, что более адекватно характеризует дисперсию внутри кластера. Из рисунка, полученного выше, впрочем, очевидно, что доводить дело до 1 кластера не стоило. После объединения a и b стоило остановиться и принять решение с 3 кластерами.

Кстати, можно заметить, что в случае использования центроидного, медианного методов и метода Варда, SPSS настаивает на необходимости использования квадрата евклидова расстояния в качестве метрики. (Я затрудняюсь назвать причину подобной рекомендации и буду глубоко признателен, если кто-то из уважаемых подписчиков просветит меня на этот счёт письмом) В данном случае выбор квадрата евклидова расстояния нам поможет - инверсия исчезнет. Но вообще квадрат расстояния, безусловно, не снимает проблему инверсий, как это будет видно из следующего примера.

Рассмотрим более практическую задачу из той же книги Хартигана. Данные доступны по ссылке, приведённой выше (file03.txt).

Массив представляет собой данные о числе зарегистрированных преступлений различного вида (на 100 000 населения) в 16 американских городах в 1970 году (первоисточник: United States
Statistical Abstracts). После ввода данных мы расшифровываем значения переменных (указываем виды преступлений в команде VARIABLE LABEL).

DATA LIST LIST /city (A16) murder rape robbery assault burglary larceny autothf (7F4.1).

BEGIN DATA
Atlanta 16.5 24.8 106 147 1112 905 494
Boston 4.2 13.3 122 90 982 669 954
Chicago 11.6 24.7 340 242 808 609 645
Dallas 18.1 34.2 184 293 1668 901 602
Denver 6.9 41.5 173 191 1534 1368 780
Detroit 13.0 35.7 477 220 1566 1183 788
Hartford 2.5 8.8 68 103 1017 724 468
Honolulu 3.6 12.7 42 28 1457 1102 637
Houston 16.8 26.6 289 186 1509 787 697
'Kansas City' 10.8 43.2 255 226 1494 955 765
'Los Angeles' 9.7 51.8 286 355 1902 1386 862
'New Orleans' 10.3 39.7 266 283 1056 1036 776
'New York' 9.4 19.4 522 267 1674 1392 848
Portland 5.0 23.0 157 144 1530 1281 488
Tucson 5.1 22.9 85 148 1206 757 483
Washington 12.5 27.6 524 217 1496 1003 739

END DATA.

VARIABLE LABEL murder 'убийства'
/rape 'изнасилования'
/robbery 'грабежи'
/assault 'насилие'
/burglary 'кражи со взломом'
/larceny 'кражи'
/autothf 'автоугоны'.

Проведём кластерный анализ по всем имеющимся переменным с квадратом евклидова расстояния центроидным методом.

CLUSTER murder to autothf
/MEASURE SEUCLID
/METHOD CENTROID
/PRINT SCHEDULE
/ID=city
/PLOT DENDROGRAM.

Из таблицы со значениями функции объединения видно, что на 12 и 13 шагах алгоритма функция убывает, хотя, по логике, должна возрастать. Центроид "слитых" на 11 шаге Бостона и Чигаго оказывается ближе к центроиду кластера Атланта - Тусон - Хартфорд, чем расстояние, на котором были объединены Бостон и Чикаго. А затем относительно неподалёку от центра этого крупного и разнородного кластера оказывается Новый Орлеан. Если произвести несложные манипуляции с таблицей Agglomeration Schedule, можно быстро вывести значения функции объединения на график и увидеть на нём участок отрицательной динамики. Внимательно: двойной клик на таблице, курсор - в заголовок графы Coefficients, правый клик мыши - Select - Data Cells and Label, правый клик мыши - Create Graph - Line. Можно расслабиться.

График указывает, что имело смысл остановиться на 9 шаге, когда функция резко пошла вверх (однородность кластеров стала стремительно убывать), либо на 11. Впрочем, окончательное решение лучше принимать, попробовав проведение анализа с другими параметрами: другим методом, например.

Необходимо отметить, что существенные различия в дисперсиях переменных (например, между убийствами и кражами со взломом), приводят к тому, что убийства и изнасилования оказываются непоказательными параметрами при группировке городов по криминальной обстановке. Имеет смысл рассмотреть вопрос о стандартизации всех переменных. Забавно, но инверсии не исчезают и в этом случае. Проверьте:

PROXIMITIES murder to autothf
/MATRIX OUT ('C:\temp\spssclus.tmp')
/VIEW = CASE
/MEASURE = SEUCLID
/ID= city
/STANDARDIZE = VARIABLE Z.

CLUSTER
/MATRIX IN ('C:\temp\spssclus.tmp')
/METHOD CENTROID
/ID = city
/PRINT SCHEDULE
/PLOT DENDROGRAM.

ERASE FILE = 'C:\temp\spssclus.tmp'.

Да, стандартизация "на лету" проходит незаметно при проведении анализа через диалоговые окна, но в синтаксисе оборачивается предварительным построением матрицы расстояний через команду PROXIMITIES. Инверсия в цепочке решений наблюдается дважды, причём "виновниками" наиболее заметной из них по-прежнему являются Бостон и Чикаго.

На дендрограмме в пакете SPSS инверсия выглядит так, будто происходит несколько объединений в один кластер на примерно одинаковом расстоянии.

В заключение - прошу понять меня правильно: разобранные сегодня вопросы и выводы по ним - не столько критика кластерного анализа в целом, сколько анализ особенностей работы его методов!

Всего доброго!

Ведущий рассылки,

Балабанов Антон

В избранное

{#template MAIN} <div id="loginForm" style="display:none;" class="subscriberu_popup"> <div class="popup_register"> {#include js_tmpl_auth_reg_tab} {#if $P.login_register_tab == 1} <form class="authentication-form" method="post" action="/MEMBERLOGIN_authen_cred"> <dl class="rg_block_options"> <dt id="js_tap_panel_auth"> <h1>Войти на сайт</h1> {* {#include js_tmpl_auth_reg_button} *} {#include js_tmpl_auth_reg_action} <hr class="logreg_line noPhones"> <div class="logreg_descr noPhones"><p>{#include js_tmpl_auth_reg_descr} </p></div> <div class="logreg_advice noPhones"> Если вы еще не с нами, то начните с <a href="#" onclick="rgNav('js_tab_reg');return false;" class="dashed" data-func="registr">регистрации</a> </div> <br><br> <a class="dashed auth-enter" href="/manage/author/"><b>Вход для авторов</b></a> </dt> </dl> </form> {#/if} {#if $P.login_register_tab == 2} <div class="rg_block_options"> <div id="js_tap_panel_auth"> <h1>Регистрация</h1> <div class="social_reg"> {* <div class="rg_description">{#include js_tmpl_soc_auth_reg_descr}</div> *} {#include js_tmpl_auth_reg_soc} <div class="rg_soc_auth_agree">{#include js_tmpl_auth_reg_agree}</div> </div> <div class="subscribe_reg"> {* <div class="rg_description"> #include js_tmpl_auth_reg_descr </div> *} {#include js_tmpl_auth_reg_action} </div> {* {#include js_tmpl_auth_reg_button} *} <div class="clr"> </div> <hr class="logreg_line noPhones"> <div class="logreg_descr noPhones">{#include js_tmpl_auth_reg_descr} {#include js_tmpl_soc_auth_reg_descr} </div> </div> </div> {#/if} </div> {* <div class="gray_bg register_shadow"></div> *} </div> {#/template MAIN} {#template js_tmpl_auth_reg_tab} <ul class="rg_nav"> <li id="js_tab_auth" class="{#if $P.login_register_tab == 1} rg_active_nav {#/if} rg_first_nav"><a onclick="rgNav('js_tab_auth');return false;" href="">Вход на сайт</a></li> <li id="js_tab_reg" class="{#if $P.login_register_tab == 2} rg_active_nav {#/if}"><a onclick="rgNav('js_tab_reg');return false;" href="">Регистрация </a></li> </ul> <span onclick="hidebo();" class="rg_closed"> </span> {#/template js_tmpl_auth_reg_tab} {#template js_tmpl_auth_reg_action} {#if $P.login_register_tab == 1} {#include js_tmpl_auth_reg_soc} {#/if} <div class="rg_forms"> <input type="hidden" id="login_register_destination" value="{$P.login_register_destination}"/> {#if $P.login_register_tab == 1} <div class="rg_for_input"> <span class="rg_text_inner">E-mail или код подписчика</span> <input id="credential_0" class="js_keydown_selector rg_input_text" data-js_submit="no" data-js_next_input_name="credential_1" name="" type="text" /> </div> <div class="rg_for_input"> <span class="rg_text_inner">Пароль</span> <input id="credential_1" class="js_keydown_selector rg_input_text" data-js_submit="yes" data-js_action="js_loginFormBut" name="" type="password" onkeyup="showAttention(this,!!window.event.shiftKey)" /> <span class="pswd_attention" id="attention_pswd"> <span class="icon_attention"></span> <span class="pswd_attention-text" id="attention-text_pswd1">Русская раскладка клавиатуры!</span> <span class="pswd_attention-text" id="attention-text_pswd2">У вас включен Caps Lock!</span> <span class="pswd_attention-text" id="attention-text_pswd3">У вас включен Caps Lock и русская раскладка клавиатуры!</span> </span> </div> <div class="rg_for_input input-alien"> <span class="chk noPhones"><input id="chk_alien" name="" type="checkbox" /></span><label for="chk_alien" class="noPhones"> Чужой компьютер</label> <a class="forgot_pass" href="/member/totalrecall">Забыли пароль?</a> </div> <div class="rg_for_input"> <em id="auth_msg" class="reg_error"></em> <input id="lf_typeauthid" value="email" type="hidden"> <input type="submit" class="button button-red logreg_submit" id="js_loginFormBut" value="Войти">  <div class="loading loading-cover" style="display: none;"><div class="loader"></div></div> </div> {#/if} {#if $P.login_register_tab == 2} <div class="rg_for_input"> <span class="rg_text_inner">E-mail</span> <input id="arfemail" class="js_keydown_selector rg_input_text" name="" type="text" data-js_submit="yes" data-js_action="js_regFormBut"/> </div> <div class="rg_for_input rg_set_lineh rg_for_input_wide"> <label class="js_tap_panel_checkbox"> <span class="chk"><input name="" id='js_tap_panel_checkbox_terms' type="checkbox" data-js_submit="yes" /></span> Я ознакомился и согласен с <a class="link_txd logreg_accLink" href="/faq/vereinbarung.html">условиями сервиса Subscribe.ru</a> </label> <br /> <label class="js_tap_panel_checkbox"> <span class="chk"><input name="" id='js_tap_panel_checkbox_personal' type="checkbox" data-js_submit="yes" /></span> Нажимая на кнопку "Готово!", я даю <a class="link_txd logreg_accLink" href="/faq/persverordnung.html">согласие на обработку персональных данных</a> </label> </div> {* <div style="float: left;position: absolute;left: 11em;"> <img src="http://www.kupivip.ru/images/vip/logo.png?1604" style="width: 86px; vertical-align: middle;display: block;"> </div> <div class="rg_for_input rg_set_lineh"> <label class="js_tap_panel_checkbox"><input name="" id="js_tap_panel_checkbox_kupivip" type="checkbox" data-js_submit="yes"> Я хочу получать новости о скидках на одежду</label> </div> *} <div class="rg_for_input"> <em id="reg_msg" class="reg_error rg_for_input_wide"></em> <em id="reg_msg2" class="reg_error rg_for_input_wide"></em> <input id="rf_typeauthid" value="email" type="hidden"> <a class="button button-red logreg_submit" id="js_regFormBut" href="#">Готово!</a> <div class="loading loading-cover" style="display: none;"><div class="loader"></div></div> </div> {#/if} </div> {#/template js_tmpl_auth_reg_action} {#template js_tmpl_auth_reg_agree} <div class="rg_for_input rg_set_lineh rg_for_input_wide"> <label class="js_tap_panel_checkbox"> <span class="chk"><input name="" id='js_tap_panel_checkbox_terms_reg' type="checkbox" data-js_submit="yes" /></span> Я ознакомился и согласен с <a class="link_txd logreg_accLink" href="/faq/vereinbarung.html">условиями сервиса Subscribe.ru</a></label> <em id="reg_msg_soc" class="reg_error rg_for_input_wide"></em> </div> {#/template js_tmpl_auth_reg_agree} {#template js_tmpl_auth_reg_button} <div class="rg_butons_socials"> {#if $P.login_register_tab == 1} <a class="rg_btn_soc rg_bs_01 js_tap_panel_selector" action="auth_email" href="#"><span><i></i>Email</span></a> <a class="rg_btn_soc rg_bs_01 js_tap_panel_selector" action="auth_openid" href="#"><span><i></i>OpenID</span></a> <a class="rg_btn_soc rg_bs_02 js_tap_panel_selector" action="auth_vkontakte" href="#"><span><i></i>Вконтакте</span></a> <a class="rg_btn_soc rg_bs_02 js_tap_panel_selector" action="auth_mailru" href="#"><span><i></i>Mail.Ru</span></a> {#/if} {#if $P.login_register_tab == 2} <a class="rg_btn_soc rg_bs_01 js_tap_panel_selector" action="reg_email" href="#"><span><i></i>Email</span></a> <a class="rg_btn_soc rg_bs_01 js_tap_panel_selector" action="reg_openid" href="#"><span><i></i>OpenID</span></a> <a class="rg_btn_soc rg_bs_02 js_tap_panel_selector" action="reg_vkontakte" href="#"><span><i></i>Вконтакте</span></a> <a class="rg_btn_soc rg_bs_02 js_tap_panel_selector" action="reg_mailru" href="#"><span><i></i>Mail.Ru</span></a> {#/if} </div> {#/template js_tmpl_auth_reg_button} {#template js_tmpl_auth_reg_descr} {#if $P.login_register_tab == 1} Для оформления подписки на выбранную рассылку, работы с интересующей вас группой или доступа в нужный вам раздел, просим авторизоваться на Subscribe.ru {#/if} {#if $P.login_register_tab == 2} Для регистрации укажите ваш e-mail адрес. Адрес должен быть действующим, на него сразу после регистрации будет отправлено письмо с инструкциями и кодом подтверждения. {#/if} {#/template js_tmpl_auth_reg_descr} {#template js_tmpl_soc_auth_reg_descr} Или зарегистрируйтесь через социальную сеть. {#/template js_tmpl_soc_auth_reg_descr} {#template js_tmpl_auth_reg_soc} <div class="rg_soc"> {#if $P.login_register_tab == 1} <a onclick="return _checkSocConfirm(event)" href="https://oauth.vk.com/authorize?client_id=3954260&scope=wall,offline,photos,groups,video,audio,email&redirect_uri={location.protocol+'//'+location.host}/member/login/vk/&response_type=code&v=5.15" class="login_register_vk_button"> <span class="login_register_vk_icon"></span> </a> {#/if} {#if $P.login_register_tab == 2} <a onclick="return _checkSocConfirm(event)" href="https://oauth.vk.com/authorize?client_id=3954260&scope=wall,offline,photos,groups,video,audio,email&redirect_uri={location.protocol+'//'+location.host}/member/join/vk&response_type=code&v=5.15" class="login_register_vk_button"> <span class="login_register_vk_icon"></span> </a> {#/if} </div> {#/template js_tmpl_auth_reg_soc}

{#template MAIN} <div id="loginForm" style="display:none;" class="subscriberu_popup"> <div class="popup_register"> {#include js_tmpl_auth_reg_tab} <dl class="rg_block_options"> <dt id="js_tap_panel_auth"> <p class="rg_description">{#include js_tmpl_auth_reg_descr}</p> <div class="clr"> </div> {#include js_tmpl_auth_reg_action} <div class="clr"> </div> </dt> </dl> </div>  </div> {#/template MAIN} {#template js_tmpl_auth_reg_tab} <ul class="rg_nav"> <li id="js_tab_reg" class="rg_active_nav rg_first_nav"><a href="" onclick="return false;" >Регистрация</a></li> </ul> <span onclick="hidebo();" class="rg_closed"> </span> {#/template js_tmpl_auth_reg_tab} {#template js_tmpl_auth_reg_descr} <strong>Пожалуйста, подтвердите ваш адрес.</strong><br><br>Вам отправлено письмо для подтверждения вашего адреса {$P.register_confirm_mail}.<br>Для подтверждения адреса перейдите по ссылке из этого письма. {#/template js_tmpl_auth_reg_descr} {#template js_tmpl_auth_reg_action} <div class="rg_forms confirm_code_from_letter"> <div class="rg_for_input"> <span class="rg_inp_descr" style="width:15em;">Или введите код из письма:</span> <input type="text" value="" id="confirm_code" name="" data-js_submit="yes" data-js_action="js_confirmFormBut" class="js_keydown_selector rg_input_text_conf" > </div> <div class="rg_for_input"><label>Не пришло письмо? <b>Пожалуйста, проверьте папку Спам</b><br /> (папку для нежелательной почты).</label><br /> <a href="" onclick="ajax_recall_code();return false" >Вышлите мне письмо еще раз!</a></div> <div class="rg_for_input"> <em class="reg_error" id="confirm_msg"></em> <a href="#" class="button button-red" id="js_confirmFormBut">Готово</a> <div class="loading loading-cover" style="display: none;"><div class="loader"></div></div> <br> </div> </div> {#/template js_tmpl_auth_reg_action}