Компонентный и факторный анализ
Компонентный и факторный анализ
Министерство образования Российской Федерации ОРЕНБУРГСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ Финансово-экономический факультет Кафедра МММЭ КУРСОВАЯ РАБОТА по дисциплине "Многомерные статистические методы" Компонентный и факторный анализ ОГУ 061700.5001.06 00 Руководитель работы __________________ Реннер А.Г. “____”_____________2001г. Исполнитель студент гр.99ст ______________ Рамазанов М.И. “_____”____________2001г. Оренбург 2001 Содержание
Задание……………………………………………………………………………3
Введение……………………………………………………………………….….4
1 Исследование на мультиколлинеарность……………………………..……5
2 Метод главных компонент………………………………………………..….7
2.1 Вычисление главных компонент……………………………………….…7 2.2 Экономическая интерпретация полученных главных компонент…..…12 2.3 Матрица наблюденных значений главных компонент……………...….12 2.4 Классификация объектов…………………………………………………13 2.5 Уравнение регрессии на главные компоненты………………………….13
3 Факторный анализ………………………………...…………………………15 3.1 Преобразование матрицы парных коэффициентов корреляции в редуцированную матрицу, получение матрицы факторных нагрузок и экономическая интерпретация ………………………………………………..…...16 3.2 Графическая классификация объектов по двум общим факторам…….19 3.3 Переход к обобщенным факторам с помощью варимаксного вращения ……………………………………………………………………...19 3.4 Построение функции регрессии на выделенные общие факторы…......21
Список использованной литературы………………………………………...22
Приложения………………………………………………………..………...…23 Задание По имеющимся данным производственно-хозяйственной деятельности предприятий машиностроения:
Y1 – производительность труда;
X5 – удельный вес рабочих в составе ППП;
X6 – удельный вес покупных изделий;
X7 – коэффициент покупных изделий;
X9 – удельный вес потерь от брака;
X17 – непроизводственные расходы.
1. Выявить наличие мультиколлинеарности.
2. Снизить размерность признакового пространства и удалить наличие
мультиколлинеарности следующими методами:
Метод главных компонент: - для факторных признаков найти оценку матрицы парных коэффициентов корреляции, найти собственные числа и собственные вектора; - на основании матрицы собственных чисел определить вклад главных компонент в суммарную дисперсию признаков, отобрать и указать m (m[pic] , то гипотеза Н0 отвергается и матрица является значимой,
следовательно, имеет смысл проводить компонентный анализ. Проверим гипотезу о диагональности ковариационной матрицы Выдвигаем гипотезу: Н0: соv[pic]=0, [pic] Н1: соv[pic] Строим статистику [pic], распределена по закону [pic] с [pic]
степенями свободы.
[pic]=123,21, [pic](0,05;10) =18,307 т.к [pic]>[pic] то гипотеза Н0
отвергается и имеет смысл проводить компонентный анализ. Для построения матрицы факторных нагрузок необходимо найти
собственные числа матрицы [pic], решив уравнение[pic]. Используем для этой операции функцию eigenvals системы MathCAD, которая
возвращает собственные числа матрицы: [pic]
Т.к. исходные данные представляют собой выборку из генеральной
совокупности, то мы получили не собственные числа [pic] и собственные
вектора матрицы, а их оценки. Нас будет интересовать на сколько “хорошо” со
статистической точки зрения выборочные характеристики описывают
соответствующие параметры для генеральной совокупности. Доверительный интервал для i-го собственного числа ищется по
формуле:[pic] Доверительные интервалы для собственных чисел в итоге принимают вид: [pic] [pic][pic] Оценка значения нескольких собственных чисел попадает в доверительный
интервал других собственных чисел. Необходимо проверить гипотезу о
кратности собственных чисел. Проверка кратности производится с помощью статистики [pic] , где r-количество кратных корней. Данная статистика в случае справедливости [pic]распределена по закону
[pic] с числом степеней свободы [pic]. Выдвинем гипотезы:[pic][pic] [pic] Так как [pic], то гипотеза [pic] отвергается, то есть собственные числа
[pic] и [pic] не кратны. Далее, :[pic][pic] [pic] Так как [pic], то гипотеза [pic] отвергается, то есть собственные числа
[pic] и [pic] не кратны. :[pic][pic] [pic] Так как [pic], то гипотеза [pic] отвергается, то есть собственные числа
[pic] и [pic] не кратны. Необходимо выделить главные компоненты на уровне информативности
0,85. Мера информативности показывает какую часть или какую долю дисперсии
исходных признаков составляют k-первых главных компонент. Мерой
информативности будем называть величину: [pic]
I1=[pic]=0,458
I2=[pic]=0,667
I3=[pic] На заданном уровне информативности выделено три главных компоненты. Запишем матрицу [pic]=[pic] Для получения нормализованного вектора перехода от исходных признаков к
главным компонентам необходимо решить систему уравнений: [pic], где [pic]-
соответствующее собственное число. После получения решения системы
необходимо затем нормировать полученный вектор. Для решения данной задачи воспользуемся функцией eigenvec системы
MathCAD, которая возвращает нормированный вектор для соответствующего
собственного числа.
В нашем случае первых четырех главных компонент достаточно для достижения
заданного уровня информативности, поэтому матрица U (матрица перехода от
исходного базиса к базису из собственных векторов) Строим матрицу U, столбцами которой являются собственные вектора:
U=[pic]. Матрица весовых коэффициентов: [pic] [pic]
А=[pic]. Коэффициенты матрицы А являются коэффициентами корреляции между
центрировано – нормированными исходными признаками и ненормированными
главными компонентами, и [pic] показывают наличие, силу и направление
линейной связи между соответствующими исходными признаками и
соответствующими главными компонентами. 2.2 Экономическая интерпретация полученных главных компонент Коэффициент [pic] матрицы А представляют собой коэффициенты корреляции
между i-ой главной компонентой и j-ым исходным признаком. Так как первая главная компонента зависит главным образом от первого
(X5 – удельный вес рабочих в составе ППП) и третьего (X7 – коэффициент
сменности оборудования) исходного признака, следовательно ее можно
обозначить как «Эффективность основного производства». Вторая главная
компонента тесно взаимосвязана со вторым (X6 – удельный вес покупных
изделий) и четвертым (X9 – удельный вес потерь от брака) исходными
признаками, ее можно обозначить как «Удельный вес затрат не приносящих
прибыль». Третья главная компонента взаимосвязана с четвертым исходным
признаком, поэтому ее обозначим «Удельный вес потерь от брака». 2.3 Матрица наблюденных значений главных компонент. Мы получили ненормированные главные компоненты. Проведя нормирование
полученных центрированных [pic], получим [pic]. При нормировании [pic]
дисперсия должна равняться 1, [pic]. Для этого нужно разделить [pic] на
среднеквадратическое отклонение [pic].
[pic] Обозначим [pic] - это матрица весовых коэффициентов, с помощью
которой устанавливается связь между нормированными исходными признаками и
нормированными главными компонентами. Модель метода главных компонент: [pic] где
[pic]- значение I-той стандартизированной переменной по j-ому объекту
наблюдения;
[pic]- m-тая главная компонента по j-ому объекту наблюдения; [pic]- весовой коэффициент m-той главной компоненты и I-той переменной. Эту матрицу будем строить, исходя из соотношения [pic], где [pic]- диагональная матрица, на главной диагонали которой стоят
дисперсии соответствующих главных компонент в минус первой степени; [pic] - транспонированная матрица факторных нагрузок; Х- матрица наблюденных значений исходных признаков. Данная формула хороша тем, что она верна и в том случае, если матрица
А не квадратная (т.е. выделено m
|