Факторный анализ, некоторые проблемы |
Здравствуйте, гость ( Вход | Регистрация )
Факторный анализ, некоторые проблемы |
3.03.2008 - 15:38
Сообщение
#1
|
|
Группа: Пользователи Сообщений: 1114 Регистрация: 10.04.2007 Пользователь №: 4040 |
При анализе данных методами факторного анализа (в частности - методом максимума правдоподобия) возникла проблема необходимости выявления линейно зависимых векторов исходных данных (линейно зависимых параметров). Знаю, данная проблема имеет место и в других приложениях многомерной статистики.
Существуют эффективные статистические критерии, но - выявления коллинеарности. В этой связи вопрос - линейная зависимость векторов и коллинеарность векторов - это одно и то же? Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!
|
|
4.03.2008 - 11:39
Сообщение
#2
|
|
Группа: Пользователи Сообщений: 1013 Регистрация: 4.10.2006 Пользователь №: 1933 |
А нельзя ли поподробнее, в чем проблема, чтобы быть уверенным, что используем одни термины. Просто строгая линейная зависимость исходных данных (коллинеарность) не является проблемой для факторного анализа - более того, это один из подходов решения проблемы линейной регрессии в случае зависимости коллинеарных параметров.
|
|
4.03.2008 - 11:48
Сообщение
#3
|
|
Группа: Пользователи Сообщений: 1114 Регистрация: 10.04.2007 Пользователь №: 4040 |
В методе главных факторов - да, это благоприятная ситуация.
Если используем метод факторного анализа, автоматически вычисляющий общности - метод максимума правдоподобия Лоули, то нет. Харман дал подробную схему вычислений по шагам. В случае линейной зависимости параметров (чем более сильная зависимость, тем хуже) получается вырожденной матрица характерностей. А в схеме алгоритма ее нужно обращать. Имеем ситуацию, что пока не устранена мультиколлинеарность (методы "устранения" очевидны и представлены, например, во вводном курсе эконометрики Бородича), метод неприменим. Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!
|
|
4.03.2008 - 12:08
Сообщение
#4
|
|
Группа: Пользователи Сообщений: 1013 Регистрация: 4.10.2006 Пользователь №: 1933 |
В методе главных факторов - да, это благоприятная ситуация. Если используем метод факторного анализа, автоматически вычисляющий общности - метод максимума правдоподобия Лоули, то нет. Харман дал подробную схему вычислений по шагам. В случае линейной зависимости параметров (чем более сильная зависимость, тем хуже) получается вырожденной матрица характерностей. А в схеме алгоритма ее нужно обращать. Имеем ситуацию, что пока не устранена мультиколлинеарность (методы "устранения" очевидны и представлены, например, во вводном курсе эконометрики Бородича), метод неприменим. Ага, понятно. Метод максимума правдоподобия Лоули неоднократно критиковался и предлагается для замены методом отношения правдоподобий (см., например, http://gifi.stat.ucla.edu/psychoR/lssem/factor/factor.pdf). Решение было предложено Hei-Ki Dong в статье Non-Gramian and Singular Matrices in Maximum Likelihood Factor Analysis (Applied Psychological Measurement, Vol. 9, No. 4, 363-366 (1985)) SAS предлагает использовать невзвешенные наименьшие квадраты в случае вырожденной матрицы. Но, кроме того, рекомендует разобраться, почему коммунальности оказались равными единице или превысили ее (ошибки в измерениях?, недостаточная точность? мало данных?). В последнем случае факторного решения не существует (детали см., например, тут http://www.asu.edu/sas/sasdoc/sashtml/stat...htm#facheywood). |
|
4.03.2008 - 12:46
Сообщение
#5
|
|
Группа: Пользователи Сообщений: 1114 Регистрация: 10.04.2007 Пользователь №: 4040 |
Спасибо большое.
Статью попробую найти. Судя по названию, чрезвычайно интересно. Первая из указанных ссылок битая. Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!
|
|
4.03.2008 - 19:10
Сообщение
#6
|
|
Группа: Администраторы Сообщений: 301 Регистрация: 6.10.2004 Из: Саратов Пользователь №: 4 |
|
|
4.03.2008 - 19:51
Сообщение
#7
|
|
Группа: Пользователи Сообщений: 1114 Регистрация: 10.04.2007 Пользователь №: 4040 |
Спасибо, сейчас ссылка открывается. Видимо, кратковременная проблема с сайтом была.
Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!
|
|
27.03.2008 - 22:37
Сообщение
#8
|
|
Группа: Пользователи Сообщений: 1202 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704 |
Поскольку мой вопрос тоже относится к "некоторым проблемам" - новую тему создавать не стал. Моя проблема - "плоские" данные, когда число переменных заметно превышает число наблюдений. Согласно распространенным рекомендациям для получения надежного решения методом главных компонент или методами факторного анализа число наблюдений должно в 5-10 раз превышать число переменных, в крайнем случае в 3. Исследования, в которых это соотношение меньше 2 вообще рассматриваются как нечто маргинальное. В моих данных корреляции настолько сильные и независимые друг от друга, а шум так мал, что красивое и логичное разложение на компоненты получается при равном числе переменных и наблюдений + на малых выборках. Более того сейчас такие же красивые результаты получил на данных, где число переменных 30 (микроэлементы), а объектов - 10, хотя программа и "ругалась" по поводу плохой обусловленности. Потратил два дня на освоение пакета pcaPP для среды R, который как раз заточен на такие и много более плоские данные, но результат совсем не понравился + не нашел как вычислять для объектов шкалы выделенных компонент.
Посоветуйте, пожалуйста, как быть в такой ситуации. В принципе, если рассматривать метод главных компонент как ординационную технику, то я просто выбрал удачную для интерпретации точку зрения на многомерное корреляционное гипероблако и какая разница насколько оно многомерное! Но сомневаюсь: можно ли публиковать результаты такого исследования и на что при этом можно сослаться? Может существуют еще какие подходы? (Совсем эмпирические - типа предварительного отбора для анализа переменных с наиболее сильными корреляциями использовать не хотелось бы + все равно остается проблема малой выборки). |
|
28.03.2008 - 10:07
Сообщение
#9
|
|
Группа: Пользователи Сообщений: 1114 Регистрация: 10.04.2007 Пользователь №: 4040 |
Не встречал, чтобы в факторном анализе накладывались формальные ограничения на соотношение количества переменных и индивидуумов. Плохая обусловленность возникает не по этой причине.
Сообщение отредактировал Игорь - 3.09.2023 - 12:51 Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!
|
|
29.03.2008 - 23:45
Сообщение
#10
|
|
Группа: Пользователи Сообщений: 1013 Регистрация: 4.10.2006 Пользователь №: 1933 |
А проблема не в том, что решения не будет при малом числе наблюдений, а в его устойчивости. Поскольку основой является корреляционная матрица - прикиньте доверительный интервал для коэффициентов корреляции при малом числе наблюдений и ситуация станет понятной. Поэтому правило вообще-то 5-10 наблюдений на переменную ИЛИ 100, что больше.
|
|
21.01.2009 - 13:12
Сообщение
#11
|
|
Группа: Пользователи Сообщений: 13 Регистрация: 16.12.2008 Из: Санкт-Петербург Пользователь №: 5627 |
Добрый день! факторный анализ с помощью SPSS, практически разобралась. остался один маленький вопрос: после того, как получила ротированную матрицу компонентов, нужно переменные сгруппировать, чтобы понять, кто есть кто и к какому фактору относится... как это сделать не вручную?
|
|
21.01.2009 - 15:13
Сообщение
#12
|
|
Группа: Пользователи Сообщений: 1013 Регистрация: 4.10.2006 Пользователь №: 1933 |
Добрый день! факторный анализ с помощью SPSS, практически разобралась. остался один маленький вопрос: после того, как получила ротированную матрицу компонентов, нужно переменные сгруппировать, чтобы понять, кто есть кто и к какому фактору относится... как это сделать не вручную? Никак. Формально можно исходить из исходной численности наблюдений, оценить пограничный уровень значимости коэффициента корреляции (с поправкой Бонферронни) и затем признавать связанными с фактором только те переменные, для которых факторная нагрузка больше этого коэффициента корреляции. Т.е. у Вас 10 переменных и Вы остановились на модели с двумя факторами. Соответственно, у Вас 20 факторных нагрузок. Пограничное значение достоверности 0,05/20=0,0025. Если у Вас 100 человек, то пограничные значения значимых факторных нагрузок около 0,3 |
|
21.01.2009 - 17:15
Сообщение
#13
|
|
Группа: Пользователи Сообщений: 13 Регистрация: 16.12.2008 Из: Санкт-Петербург Пользователь №: 5627 |
жаль, но спасибо большое за ответ!
|
|
10.08.2023 - 19:21
Сообщение
#14
|
|
Группа: Пользователи Сообщений: 1114 Регистрация: 10.04.2007 Пользователь №: 4040 |
Для полноты информации. Новая статья по исследованию мультиколлинеарности:
https://www.scirp.org/journal/paperinformat...?paperid=125846 Кстати, за время после обсуждения факторный анализ реализован в ПО AtteSat и StatAnt. С картинками. Сообщение отредактировал Игорь - 3.09.2023 - 12:52 Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!
|
|