Помощь - Поиск - Пользователи - Календарь
Полная версия этой страницы: Факторный анализ
Форум врачей-аспирантов > Разделы форума > Медицинская статистика
Игорь
При анализе данных методами факторного анализа (в частности - методом максимума правдоподобия) возникла проблема необходимости выявления линейно зависимых векторов исходных данных (линейно зависимых параметров). Знаю, данная проблема имеет место и в других приложениях многомерной статистики.

Существуют эффективные статистические критерии, но - выявления коллинеарности.

В этой связи вопрос - линейная зависимость векторов и коллинеарность векторов - это одно и то же?
плав
А нельзя ли поподробнее, в чем проблема, чтобы быть уверенным, что используем одни термины. Просто строгая линейная зависимость исходных данных (коллинеарность) не является проблемой для факторного анализа - более того, это один из подходов решения проблемы линейной регрессии в случае зависимости коллинеарных параметров.
Игорь
В методе главных факторов - да, это благоприятная ситуация.

Если используем метод факторного анализа, автоматически вычисляющий общности - метод максимума правдоподобия Лоули, то нет. Харман дал подробную схему вычислений по шагам.

В случае линейной зависимости параметров (чем более сильная зависимость, тем хуже) получается вырожденной матрица характерностей. А в схеме алгоритма ее нужно обращать. Имеем ситуацию, что пока не устранена мультиколлинеарность (методы "устранения" очевидны и представлены, например, во вводном курсе эконометрики Бородича), метод неприменим.
плав
Цитата(Игорь @ 4.03.2008 - 11:48) *
В методе главных факторов - да, это благоприятная ситуация.

Если используем метод факторного анализа, автоматически вычисляющий общности - метод максимума правдоподобия Лоули, то нет. Харман дал подробную схему вычислений по шагам.

В случае линейной зависимости параметров (чем более сильная зависимость, тем хуже) получается вырожденной матрица характерностей. А в схеме алгоритма ее нужно обращать. Имеем ситуацию, что пока не устранена мультиколлинеарность (методы "устранения" очевидны и представлены, например, во вводном курсе эконометрики Бородича), метод неприменим.

Ага, понятно.
Метод максимума правдоподобия Лоули неоднократно критиковался и предлагается для замены методом отношения правдоподобий (см., например, http://gifi.stat.ucla.edu/psychoR/lssem/factor/factor.pdf).
Решение было предложено Hei-Ki Dong в статье Non-Gramian and Singular Matrices in Maximum Likelihood Factor Analysis (Applied Psychological Measurement, Vol. 9, No. 4, 363-366 (1985))
SAS предлагает использовать невзвешенные наименьшие квадраты в случае вырожденной матрицы. Но, кроме того, рекомендует разобраться, почему коммунальности оказались равными единице или превысили ее (ошибки в измерениях?, недостаточная точность? мало данных?). В последнем случае факторного решения не существует (детали см., например, тут http://www.asu.edu/sas/sasdoc/sashtml/stat...htm#facheywood).
Игорь
Спасибо большое.

Статью попробую найти. Судя по названию, чрезвычайно интересно.

Первая из указанных ссылок битая.
logvin
Цитата(Игорь @ 4.03.2008 - 12:46) *
Первая из указанных ссылок битая.

У меня обе ссылки нормально работают smile.gif
Игорь
Спасибо, сейчас ссылка открывается. Видимо, кратковременная проблема с сайтом была.
nokh
Поскольку мой вопрос тоже относится к "некоторым проблемам" - новую тему создавать не стал. Моя проблема - "плоские" данные, когда число переменных заметно превышает число наблюдений. Согласно распространенным рекомендациям для получения надежного решения методом главных компонент или методами факторного анализа число наблюдений должно в 5-10 раз превышать число переменных, в крайнем случае в 3. Исследования, в которых это соотношение меньше 2 вообще рассматриваются как нечто маргинальное. В моих данных корреляции настолько сильные и независимые друг от друга, а шум так мал, что красивое и логичное разложение на компоненты получается при равном числе переменных и наблюдений + на малых выборках. Более того сейчас такие же красивые результаты получил на данных, где число переменных 30 (микроэлементы), а объектов - 10, хотя программа и "ругалась" по поводу плохой обусловленности. Потратил два дня на освоение пакета pcaPP для среды R, который как раз заточен на такие и много более плоские данные, но результат совсем не понравился + не нашел как вычислять для объектов шкалы выделенных компонент.
Посоветуйте, пожалуйста, как быть в такой ситуации. В принципе, если рассматривать метод главных компонент как ординационную технику, то я просто выбрал удачную для интерпретации точку зрения на многомерное корреляционное гипероблако и какая разница насколько оно многомерное! Но сомневаюсь: можно ли публиковать результаты такого исследования и на что при этом можно сослаться? Может существуют еще какие подходы? (Совсем эмпирические - типа предварительного отбора для анализа переменных с наиболее сильными корреляциями использовать не хотелось бы + все равно остается проблема малой выборки).
Игорь
Не встречал, чтобы в факторном анализе накладывались формальные ограничения на соотношение количества переменных и индивидуумов. Плохая обусловленность возникает не по этой причине.
плав
А проблема не в том, что решения не будет при малом числе наблюдений, а в его устойчивости. Поскольку основой является корреляционная матрица - прикиньте доверительный интервал для коэффициентов корреляции при малом числе наблюдений и ситуация станет понятной. Поэтому правило вообще-то 5-10 наблюдений на переменную ИЛИ 100, что больше.
Олик)
Добрый день! факторный анализ с помощью SPSS, практически разобралась. остался один маленький вопрос: после того, как получила ротированную матрицу компонентов, нужно переменные сгруппировать, чтобы понять, кто есть кто и к какому фактору относится... как это сделать не вручную?
плав
Цитата(Олик) @ 21.01.2009 - 13:12) *
Добрый день! факторный анализ с помощью SPSS, практически разобралась. остался один маленький вопрос: после того, как получила ротированную матрицу компонентов, нужно переменные сгруппировать, чтобы понять, кто есть кто и к какому фактору относится... как это сделать не вручную?

Никак.
Формально можно исходить из исходной численности наблюдений, оценить пограничный уровень значимости коэффициента корреляции (с поправкой Бонферронни) и затем признавать связанными с фактором только те переменные, для которых факторная нагрузка больше этого коэффициента корреляции. Т.е. у Вас 10 переменных и Вы остановились на модели с двумя факторами. Соответственно, у Вас 20 факторных нагрузок. Пограничное значение достоверности 0,05/20=0,0025. Если у Вас 100 человек, то пограничные значения значимых факторных нагрузок около 0,3
Олик)
жаль, но спасибо большое за ответ! smile.gif
Игорь
Для полноты информации. Новая статья по исследованию мультиколлинеарности:
https://www.scirp.org/journal/paperinformat...?paperid=125846
Кстати, за время после обсуждения факторный анализ реализован в ПО AtteSat и StatAnt. С картинками.
Для просмотра полной версии этой страницы, пожалуйста, пройдите по ссылке.
Форум IP.Board © 2001-2025 IPS, Inc.