Курсовая работа: Статистический анализ банковской деятельности. Исследование моделей оценки кредитных рисков
Алгоритм заключается в следующем:
выбирается заданное число k- точек
и на первом шаге эти точки рассматриваются как "центры" кластеров.
Каждому кластеру соответствует один центр. Объекты распределяются по кластерам
по такому принципу: каждый объект относится к кластеру с ближайшим к этому
объекту центром. Таким образом, все объекты распределились по k кластерам. Затем заново вычисляются
центры этих кластеров, которыми после этого момента считаются покоординатные
средние кластеров. После этого опять перераспределяются объекты. Вычисление
центров и перераспределение объектов происходит до тех пор, пока не
стабилизируются центры.
Если данные понимать как
точки в признаковом пространстве, то задача кластерного анализа формулируется
как выделение "сгущений точек", разбиение совокупности на однородные
подмножества объектов.
При проведении
кластерного анализа обычно определяют расстояние на множестве объектов;
алгоритмы кластерного анализа формулируют в терминах этих расстояний. Мер
близости и расстояний между объектами существует великое множество. Их выбирают
в зависимости от цели исследования. В частности, евклидово расстояние лучше использовать
для количественных переменных, расстояние хи-квадрат - для исследования
частотных таблиц, имеется множество мер для бинарных переменных.
Меры близости отличаются
от расстояний тем, что они тем больше, чем более похожи объекты.

Пусть имеются два объекта
X=(X1,…,Xm) и Y=(Y1,…,Ym). (табл.4.
) Используя эту запись для объектов, определить основные виды расстояний, используемых
процедуре CLUSTER:
·
Евклидово
расстояние (Euclidian
distance).
·
Квадрат евклидова
расстояния (Squared
Euclidian distance)
·
Эвклидово
расстояние и его квадрат целесообразно использовать для анализа количественных
данных.
·
Мера близости -
коэффициент корреляции , где и компоненты стандартизованных векторов
X и Y. Эту меру целесообразно использовать для выявления кластеров переменных,
а не объектов. Расстояние хи-квадрат получается на основе таблицы
сопряженности, составленной из объектов X и Y (таблица 4.), которые,
предположительно, являются векторами частот. Здесь рассматриваются ожидаемые
значения элементов, равные E(Xi)=X.*(Xi+Yi)/(X.+Y.)
и E(Yi)=Y.*(Xi+Yi)/(X.+Y.), а расстояние
хи-квадрят имеет вид корня из соответствующего показателя
.
·
Расстояние Фи-квадрат
является расстоянием хи-квадрат, нормированным "число объектов" в
таблице сопряженности, представляемой строками X и Y,
т.е. на корень квадратный из N=X.+Y. .
Кластерный анализ
является описательной процедурой, он не позволяет сделать никаких статистических
выводов, но дает возможность провести своеобразную разведку - изучить
"структуру совокупности".
Проведем кластеризацию по
всем 20 признакам и всем наблюдениям. В результате работы программы выводится
таблица 5. (показана лишь ее часть)
Таблица
5. Cluster Membership
Case Number |
Y |
Cluster |
Distance |
………… |
… |
…… |
………… |
822 |
0 |
0 |
2985,732 |
823 |
1 |
0 |
2996,715 |
824 |
0 |
0 |
3040,706 |
825 |
1 |
0 |
3054,689 |
826 |
0 |
0 |
3099,727 |
827 |
1 |
0 |
3108,674 |
828 |
1 |
1 |
3100,310 |
829 |
1 |
1 |
3053,258 |
830 |
1 |
1 |
3043,285 |
831 |
1 |
1 |
2991,286 |
………… |
…… |
……… |
………… |
Столбец
Y показывает, относится ли наблюдение
к группе вернувших кредит “0” или навернувших “1”, столбец «Cluster» показывает принадлежность к той или
иной группе наблюдения на основе кластеризации.
Страницы: 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12 |