Множество методов иерархического кластерного анализа различается не только используемыми мерами сходства (различия), но и алгоритмами классификации. Из них наиболее распространен метод наиболее удаленных соседей или метод полной связи.
Пусть требуется провести классификацию заданного множества объектов методом наиболее удаленных соседей. Расстояние между классами определяется как расстояние между наиболее отдаленными представителями; объединяются те кластеры расстояние между самыми отдаленными представителями которых наименьшее.
Перед началом работы алгоритма рассчитывается матрица расстояний между объектами. На каждом шаге в матрице расстояний ищется минимальное значение, соответствующее расстоянию между двумя наиболее близкими кластерами. Найденные кластеры объединяются, образуя новый кластер. Эта процедура повторяется до тех пор, пока не будут объединены все кластеры. Допустим, задана следующая матрица расстояний:
0 | 2.06 | 4.03 | 6.32 | |
2.06 | 0 | 4.12 | 2.25 | |
4.03 | 4.12 | 0 | 3.50 | |
6.32 | 2.25 | 3.50 | 0 |
Решение:
Шаг 1. На первом шаге, когда каждый объект представляет собой отдельный кластер. Согласно критерию классификации, объединение происходит между кластерами, расстояние между, которыми наименьшее. Т.о. на этом шаге объединяются кластеры: кластеры и . Расстояние объединения – . Необходимо произвести перерасчет матрицы расстояний с учетом нового кластера (напомним, что расстояние между классами определяется как расстояние между наиболее отдаленными представителями):
0 | 4.12 | 6.32 | |
4.12 | 0 | 3.50 | |
6.32 | 3.50 | 0 |
Шаг 2. Кластеры на данном шаге: и . Согласно новой матрицы расстояний, кластеры и наиболее близкие. Расстояние объединения – . Необходимо произвести перерасчет матрицы расстояний с учетом нового кластера:
0 | 6.32 | |
6.32 | 0 |
Шаг 3. Кластеры на данном шаге: и . Расстояние между кластерами равно – это расстояние между и объектом. Образование кластеров закончено. Результат работы алгоритма представлен в виде дендрограммы: