Scree Plot |
Здравствуйте, гость ( Вход | Регистрация )
Scree Plot |
20.03.2015 - 20:08
Сообщение
#1
|
|
Группа: Пользователи Сообщений: 94 Регистрация: 18.06.2014 Пользователь №: 26469 |
|
|
21.03.2015 - 09:42
Сообщение
#2
|
|
Группа: Пользователи Сообщений: 219 Регистрация: 4.06.2013 Из: Тверь Пользователь №: 24927 |
|
|
21.03.2015 - 09:57
Сообщение
#3
|
|
Группа: Пользователи Сообщений: 94 Регистрация: 18.06.2014 Пользователь №: 26469 |
Спасибо
|
|
21.03.2015 - 10:38
Сообщение
#4
|
|
Группа: Пользователи Сообщений: 94 Регистрация: 18.06.2014 Пользователь №: 26469 |
Подскажите мне пожалуйста еще по следующему вопросу. Исследую 2 методики. По критерию Кайзера, было выделено 6 факторов в обоих случаях (значения больше 1). А вот по критерию Кеттела (каменистая осыпь) точка перегиба в приходится на второй фактор (также в обоих случаях). Графики в приложении (методика 1 и методика 2). Правильно ли я понимаю, что по критерию Кеттела отобрано от одного до трёх факторов для анализа? И как принято поступать в случаях когда получается такая значительная разбежка между результатами проверки по указанным критериям?
|
|
21.03.2015 - 10:56
Сообщение
#5
|
|
Группа: Пользователи Сообщений: 219 Регистрация: 4.06.2013 Из: Тверь Пользователь №: 24927 |
Нужно начинать с проверки пригодности данных для проведения ФА: КМО и критерий сферичности Барлетта.
Большая "разбежка" обычно происходит из-за низкого качества данных. В противном случае (качество высокое) нужно ориентироваться на содержательную интерпретацию факторов: оставляем столько факторов (в пределах критериев) , сколько можно достаточно просто интерпретировать с содержательной точки зрения. Сообщение отредактировал anserovtv - 21.03.2015 - 11:20 |
|
21.03.2015 - 15:29
Сообщение
#6
|
|
Группа: Пользователи Сообщений: 94 Регистрация: 18.06.2014 Пользователь №: 26469 |
|
|
21.03.2015 - 17:14
Сообщение
#7
|
|
Группа: Пользователи Сообщений: 1091 Регистрация: 26.08.2010 Пользователь №: 22699 |
Используемые критерии (в приложении) показывают, что выполнение факторного анализа в данном случае целесообразно. Значит оставить столько факторов, сколько нормально интерпретируются? Естественно нет. Надо получить размерность "простой структуры". Иначе последующая процедура её ортогонального вращения для интерпретации становиться бесполезной. Некоторый ориентир дает получение с помощью рандомизации графика собственных значений для данных с разрушенной корреляцией. (также легко бутстрепом оценить сами нагрузки) Вот рисунок что должно получиться. PS в принципе появилось несколько пакетов R которые более тонко выхватывают "незначащие" компоненты после svd разложения. |
|
22.03.2015 - 11:43
Сообщение
#8
|
|
Группа: Пользователи Сообщений: 94 Регистрация: 18.06.2014 Пользователь №: 26469 |
Спасибо.
Подскажите мне пожалуйста еще. Что делать если в выделенном факторе только одна переменная подходящая по уровню для интерпретации? Назвать этот фактор именем переменной? |
|
26.03.2015 - 20:29
Сообщение
#9
|
|
Группа: Пользователи Сообщений: 1202 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704 |
Подскажите мне пожалуйста еще по следующему вопросу. Исследую 2 методики. По критерию Кайзера, было выделено 6 факторов в обоих случаях (значения больше 1). А вот по критерию Кеттела (каменистая осыпь) точка перегиба в приходится на второй фактор (также в обоих случаях). Графики в приложении (методика 1 и методика 2). Правильно ли я понимаю, что по критерию Кеттела отобрано от одного до трёх факторов для анализа? И как принято поступать в случаях когда получается такая значительная разбежка между результатами проверки по указанным критериям? Методов много, есть и более современные вещи типа "сломанной трости" ("стержня") - broken stick, но лучше уже рекомендованого вам р2004r бутстрепа всё равно нет. Отсутствие чёткого излома на графике осыпи указывает на слабые корреляции в наборе данных. На практике это обычно бывает тогда, когда в анализ включают дихотомические переменные и/или порядковые с малым числом рангов. Если у вас в наборе именно такие переменные, то факторный анализ (в узком смысле этого термина) проводить некорректно, лучше ограничиться анализом главных компонент, но с вращением. Также пирсоновские корреляции снижают нелинейные связи - с этим тоже обязательно нужно попытаться бороться: 1) Использовать преобразования шкалы из семейства степенных преобразований, лучше - преобразование Бокса - Кокса. Многие связи являются слабыми или нелинейными именно в результате "эффекта шкалы" - нужно его снять. Вот здесь можете посмотреть интересную тему, где я показывал как преобразование позволят линеаризировать связь, а следом - найти что-то важное: http://molbiol.ru/forums/index.php?showtopic=553421 , URL # 19. Многомерное преобразование Бокса - Кокса насколько я знаю, есть только в пакете И. Гайдышева AtteStat, но на практике хорошие результаты даёт и одномерное попеременное преобразование, которое проще всего сделать в PAST. 2) Использовать специальное линеаризующее преобразование для многомерного пространства - преобразование Джифи (Gifi transformation). Оно есть в пакете SPSS (снижение размерности - оптимальное шкалирование - CATPCA) и в пакете homals для R. Что делать если в выделенном факторе только одна переменная подходящая по уровню для интерпретации? Назвать этот фактор именем переменной? Да. Но появление таких специфических факторов указывает на ту же проблему плохой обобщаемости данных. Он, конечно, берёт на себя часть общей объяснённой дисперсии (в рамках модели главных компонент) или восстановленной корреляции ( в рамках модели факторного анализа), но по-сути не обобщает никак данные, т.е. он - сам по себе. Сообщение отредактировал nokh - 26.03.2015 - 21:14 |
|
26.03.2015 - 20:44
Сообщение
#10
|
|
Группа: Пользователи Сообщений: 1091 Регистрация: 26.08.2010 Пользователь №: 22699 |
Спасибо. Подскажите мне пожалуйста еще. Что делать если в выделенном факторе только одна переменная подходящая по уровню для интерпретации? Назвать этот фактор именем переменной? Увы не заметил почему то первоначально вопроса Вам практически уже ответил nokh. Могу только попробовать пояснить. На самом деле все выделенные значимые компоненты представляют собой некую "простую структуру" (этакое "фазовое пространство" в котором всё неслучайное в системе происходит), и в принципе ортогональные вращения этой простой структуры можно проводить сколько угодно (естественно имея целью получить картину интерпретируюмую в терминах переменных). Если хорошо развито пространственное воображение, то обычно просто достаточно посмотреть на "кластеры векторов переменных" в исходном пространстве "простой структуры". Но можно пойти и на всякие варимакс вращения и даже на косоугольные вращения и они дадут "объективно" существующие "кластеры векторов переменных". |
|
26.01.2016 - 20:51
Сообщение
#11
|
|
Группа: Пользователи Сообщений: 94 Регистрация: 18.06.2014 Пользователь №: 26469 |
Отсутствие чёткого излома на графике осыпи указывает на слабые корреляции в наборе данных. На практике это обычно бывает тогда, когда в анализ включают дихотомические переменные и/или порядковые с малым числом рангов. Если у вас в наборе именно такие переменные, то факторный анализ (в узком смысле этого термина) проводить некорректно, лучше ограничиться анализом главных компонент, но с вращением Да именно такие порядковые переменные у меня: 0,1,2. Провел анализ главных компонент (АГК). Даже при принудительном выделении большего количества факторов практически все переменные пригодные для интерпретации сваливаются в один компонент. Интерпретируются они хорошо, но Альфа Кронбаха в первом факторе высокая а в остальных (там по 2-3 переменных) альфа плохая. Последующий ROC анализ тоже хвалит первый фактор, последующие ругает как совсем непригодные (кривая лежит на диагональной линии). Такие результаты значат, что АГК себя не оправдал или наоборот и нужно принимать первую компоненту за эффективный вариант методики а остальные просто игнорировать? Сообщение отредактировал малой - 27.01.2016 - 00:08 |
|
27.01.2016 - 10:29
Сообщение
#12
|
|
Группа: Пользователи Сообщений: 1202 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704 |
Да именно такие порядковые переменные у меня: 0,1,2. Провел анализ главных компонент (АГК). Даже при принудительном выделении большего количества факторов практически все переменные пригодные для интерпретации сваливаются в один компонент. Интерпретируются они хорошо, но Альфа Кронбаха в первом факторе высокая а в остальных (там по 2-3 переменных) альфа плохая. Последующий ROC анализ тоже хвалит первый фактор, последующие ругает как совсем непригодные (кривая лежит на диагональной линии). Такие результаты значат, что АГК себя не оправдал или наоборот и нужно принимать первую компоненту за эффективный вариант методики а остальные просто игнорировать? Хорошо это или плохо - зависит от целей работы. 1). Eсли это только разведочный (эксплораторный) анализ, то на альфу Кронбаха можно вообще не смотреть, руководствуясь более специфическими индикаторами необходимого и достаточного для понимания структуры данных числа факторов. Здесь важно максимально контрастировать факторы, поэтому обязательно нужно применять прямоугольное вращение (обычно используют варимакс). Может быть такая ситуация, что в обычном АГК первые компоненты объясняют, скажем, 50, 20 и 15% дисперсии, а после выделения именно 3 факторов и вращения получится 45, 35 и 10%. Т.е. после вращения часто вклады факторов перераспределяются так, что "вес" второстепенного (второстепенных) фактора (ов) увеличивается + сильно улучшается их интерпретируемость. В таком варианте анализа один единственный главный фактор - плохо с точки зрения новизны выводов из работы. В первый фактор всегда выходят уже достаточно подробно изученные явления или процессы, к пониманию которых люди пришли уже давно и безо всяких хитрых статистических техник; как правило, они даже описаны в учебниках. А вот то, что входит в последующие факторы часто - менее изученное, т.к. завуалировано более сильными процессами первого фактора. 2). Если цель анализа - конструирование шкалы, индекса для измерения чего-либо, то, напротив, один фактор - это здорово. Если все показатели сильно вкладываются в один латентный фактор, значит шкала имеет высокую факторную валидность, которую можно рассматривать как показатель конструктной валидности - т.е. что шкала измеряет именно то самое и единственное, для чего она, собственно, и разрабатывается. Причём чем сильнее коррелируют между собой показатели этого фактора (показывает альфа Кронбаха), тем надёжнее шкала. В этом случае наличие сильных второстепенных факторов вообще нежелательно, т.к. они являются по-сути вмешивающимися (confounding) - стоящие за ними процессы только вносят раздрай в процесс первого фактора и неопределённость в его измерение. Если цель работы такая, то от показателей, не вкладывающих в первый фактор можно просто избавиться. С теоретической точки зрения валидность и надёжность - более важные характеристики чем просто AUC ROC-кривой: они показывают, что разработанный инструмент работает правильно и полученные с его помощью оценки надёжны. А оценка эффективности этого инструмента для диагностики - следующий шаг с явным прикладным аспектом. Сообщение отредактировал nokh - 27.01.2016 - 11:14 |
|
27.01.2016 - 12:36
Сообщение
#13
|
|
Группа: Пользователи Сообщений: 94 Регистрация: 18.06.2014 Пользователь №: 26469 |
Спасибо огромное
|
|
27.01.2016 - 19:56
Сообщение
#14
|
|
Группа: Пользователи Сообщений: 94 Регистрация: 18.06.2014 Пользователь №: 26469 |
Уточните, что значит ситуация если тот единственный фактор, который имеет такую хорошую альфу и собирает большинство переменных имеет дисперсию всего в 25%?
И скажите пожалуйста, какие приняты процедуры после ФА для улучшения прогностической способности выделенного фактора? Что если все входящие в него переменные провести через ROC- анализ и оставить потом только те у которых AUC будет больше 0,6? Сообщение отредактировал малой - 27.01.2016 - 22:52 |
|
30.01.2016 - 10:37
Сообщение
#15
|
|
Группа: Пользователи Сообщений: 1202 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704 |
Уточните, что значит ситуация если тот единственный фактор, который имеет такую хорошую альфу и собирает большинство переменных имеет дисперсию всего в 25%? И скажите пожалуйста, какие приняты процедуры после ФА для улучшения прогностической способности выделенного фактора? Что если все входящие в него переменные провести через ROC- анализ и оставить потом только те у которых AUC будет больше 0,6? Объясняемая дисперсия для первого фактора 25% - это мало. Значит последующие - ещё меньше, т.е. вся система не сильно коррелированная. Для ФА в любом его приложении это не очень хорошо. Но насколько я понял у вас задача другая: вы просто ищете разные способы разделить свои группы. Если цель именно в этом, то ФА даже теоретически не очень хорош: задача этого метода - выявлять общее, а не специфику. По выделенному общему фактору группы могут и не сильно различаться или даже вообще не различаться. Например, если мы будем искать этнические различия между людьми по морфометрии 100 признаков тела и черепа, то они никак не окажутся в первом факторе: в него войдёт размерно-возрастная изменчивость общая для всех. При этом какой-нибудь специфический лицевой индекс из всего двух-трёх показателей из 100 замечательно справится с задачей. На всякий случай посмотрите распределение индивидуальных меток (factor scores) для ГК1 или Фактора 1 - если оно выраженное бимодальное - есть шансы использовать значение фактора в качестве различающей функции, если нет - и смысла нет что-то улучшать. В рамках факторного анализа можно ввести в анализ показатель "группа", с метками 1, 2 и посмотреть какие переменные сильнее войдут в один фактор с фактором, для которого нагрузка показателя "группа" будет максимальной - по ним группы и различаются сильнее всего. Или ввести метку "группа", которая сама в анализе участвовать не будет, но будет отслеживаться (SPSS, например, это позволяет). Но это только несколько экзотические пути разведочного анализа, но не путь поиска лучшего дискриминатора. Для задачи разделения групп более уместны методы дискриминантного анализа, логистической регресси и того, что вам ещё советовали для этого. В самых сложных и запутанных ситуациях классическая (и не очень) статистика вообще может оказаться бессильной и нужно искать что-то из арсеналов Data mining (хотя бы деревья классификации (classification tree) и их леса (random forest)) или нейронных сетей. Посоветовал бы начать с дискриминантного анализа, но сам знаю только линейный, а он, строго говоря, для порядковых переменных не годится. Может вам другие участники ещё порекомендуют чего-то полезного в этой ситуации. Сообщение отредактировал nokh - 30.01.2016 - 11:10 |
|