Форум врачей-аспирантов

Здравствуйте, гость ( Вход | Регистрация )

2 страниц V   1 2 >  
Добавить ответ в эту темуОткрыть тему
> Scree Plot
малой
сообщение 20.03.2015 - 20:08
Сообщение #1





Группа: Пользователи
Сообщений: 94
Регистрация: 18.06.2014
Пользователь №: 26469



Подскажите пожалуйста: в SPSS 17 предусмотрено построение графика Scree Plot (каменистая осыпь)? Не скрывается под названием "График нормализованного простого стресса" та самая осыпь?
Эскизы прикрепленных изображений
Прикрепленное изображение
 
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
anserovtv
сообщение 21.03.2015 - 09:42
Сообщение #2





Группа: Пользователи
Сообщений: 219
Регистрация: 4.06.2013
Из: Тверь
Пользователь №: 24927



Да.
Учебник http://filegiver.com/free-download/nasledo...-dannykh.p.html
стр. 277.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
малой
сообщение 21.03.2015 - 09:57
Сообщение #3





Группа: Пользователи
Сообщений: 94
Регистрация: 18.06.2014
Пользователь №: 26469



Спасибо
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
малой
сообщение 21.03.2015 - 10:38
Сообщение #4





Группа: Пользователи
Сообщений: 94
Регистрация: 18.06.2014
Пользователь №: 26469



Подскажите мне пожалуйста еще по следующему вопросу. Исследую 2 методики. По критерию Кайзера, было выделено 6 факторов в обоих случаях (значения больше 1). А вот по критерию Кеттела (каменистая осыпь) точка перегиба в приходится на второй фактор (также в обоих случаях). Графики в приложении (методика 1 и методика 2). Правильно ли я понимаю, что по критерию Кеттела отобрано от одного до трёх факторов для анализа? И как принято поступать в случаях когда получается такая значительная разбежка между результатами проверки по указанным критериям?
Эскизы прикрепленных изображений
Прикрепленное изображение
Прикрепленное изображение
 
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
anserovtv
сообщение 21.03.2015 - 10:56
Сообщение #5





Группа: Пользователи
Сообщений: 219
Регистрация: 4.06.2013
Из: Тверь
Пользователь №: 24927



Нужно начинать с проверки пригодности данных для проведения ФА: КМО и критерий сферичности Барлетта.
Большая "разбежка" обычно происходит из-за низкого качества данных. В противном случае (качество высокое) нужно ориентироваться на содержательную интерпретацию факторов:
оставляем столько факторов (в пределах критериев) , сколько можно достаточно просто интерпретировать с содержательной точки зрения.

Сообщение отредактировал anserovtv - 21.03.2015 - 11:20
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
малой
сообщение 21.03.2015 - 15:29
Сообщение #6





Группа: Пользователи
Сообщений: 94
Регистрация: 18.06.2014
Пользователь №: 26469



Используемые критерии (в приложении) показывают, что выполнение факторного анализа в данном случае целесообразно. Значит оставить столько факторов, сколько нормально интерпретируются?
Эскизы прикрепленных изображений
Прикрепленное изображение
 
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
p2004r
сообщение 21.03.2015 - 17:14
Сообщение #7





Группа: Пользователи
Сообщений: 1091
Регистрация: 26.08.2010
Пользователь №: 22699



Цитата(малой @ 21.03.2015 - 15:29) *
Используемые критерии (в приложении) показывают, что выполнение факторного анализа в данном случае целесообразно. Значит оставить столько факторов, сколько нормально интерпретируются?


Естественно нет. Надо получить размерность "простой структуры". Иначе последующая процедура её ортогонального вращения для интерпретации становиться бесполезной.

Некоторый ориентир дает получение с помощью рандомизации графика собственных значений для данных с разрушенной корреляцией. (также легко бутстрепом оценить сами нагрузки)

Вот рисунок что должно получиться.

PS в принципе появилось несколько пакетов R которые более тонко выхватывают "незначащие" компоненты после svd разложения.

Эскизы прикрепленных изображений
Прикрепленное изображение
 


Signature
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
малой
сообщение 22.03.2015 - 11:43
Сообщение #8





Группа: Пользователи
Сообщений: 94
Регистрация: 18.06.2014
Пользователь №: 26469



Спасибо.

Подскажите мне пожалуйста еще. Что делать если в выделенном факторе только одна переменная подходящая по уровню для интерпретации? Назвать этот фактор именем переменной?
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
nokh
сообщение 26.03.2015 - 20:29
Сообщение #9





Группа: Пользователи
Сообщений: 1202
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704



Цитата(малой @ 21.03.2015 - 12:38) *
Подскажите мне пожалуйста еще по следующему вопросу. Исследую 2 методики. По критерию Кайзера, было выделено 6 факторов в обоих случаях (значения больше 1). А вот по критерию Кеттела (каменистая осыпь) точка перегиба в приходится на второй фактор (также в обоих случаях). Графики в приложении (методика 1 и методика 2). Правильно ли я понимаю, что по критерию Кеттела отобрано от одного до трёх факторов для анализа? И как принято поступать в случаях когда получается такая значительная разбежка между результатами проверки по указанным критериям?

Методов много, есть и более современные вещи типа "сломанной трости" ("стержня") - broken stick, но лучше уже рекомендованого вам р2004r бутстрепа всё равно нет. Отсутствие чёткого излома на графике осыпи указывает на слабые корреляции в наборе данных. На практике это обычно бывает тогда, когда в анализ включают дихотомические переменные и/или порядковые с малым числом рангов. Если у вас в наборе именно такие переменные, то факторный анализ (в узком смысле этого термина) проводить некорректно, лучше ограничиться анализом главных компонент, но с вращением.

Также пирсоновские корреляции снижают нелинейные связи - с этим тоже обязательно нужно попытаться бороться:
1) Использовать преобразования шкалы из семейства степенных преобразований, лучше - преобразование Бокса - Кокса. Многие связи являются слабыми или нелинейными именно в результате "эффекта шкалы" - нужно его снять. Вот здесь можете посмотреть интересную тему, где я показывал как преобразование позволят линеаризировать связь, а следом - найти что-то важное: http://molbiol.ru/forums/index.php?showtopic=553421 , URL # 19. Многомерное преобразование Бокса - Кокса насколько я знаю, есть только в пакете И. Гайдышева AtteStat, но на практике хорошие результаты даёт и одномерное попеременное преобразование, которое проще всего сделать в PAST.
2) Использовать специальное линеаризующее преобразование для многомерного пространства - преобразование Джифи (Gifi transformation). Оно есть в пакете SPSS (снижение размерности - оптимальное шкалирование - CATPCA) и в пакете homals для R.
Цитата(малой @ 22.03.2015 - 13:43) *
Что делать если в выделенном факторе только одна переменная подходящая по уровню для интерпретации? Назвать этот фактор именем переменной?

Да. Но появление таких специфических факторов указывает на ту же проблему плохой обобщаемости данных. Он, конечно, берёт на себя часть общей объяснённой дисперсии (в рамках модели главных компонент) или восстановленной корреляции ( в рамках модели факторного анализа), но по-сути не обобщает никак данные, т.е. он - сам по себе.

Сообщение отредактировал nokh - 26.03.2015 - 21:14
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
p2004r
сообщение 26.03.2015 - 20:44
Сообщение #10





Группа: Пользователи
Сообщений: 1091
Регистрация: 26.08.2010
Пользователь №: 22699



Цитата(малой @ 22.03.2015 - 11:43) *
Спасибо.

Подскажите мне пожалуйста еще. Что делать если в выделенном факторе только одна переменная подходящая по уровню для интерпретации? Назвать этот фактор именем переменной?


Увы не заметил почему то первоначально вопроса frown.gif Вам практически уже ответил nokh. smile.gif
Могу только попробовать пояснить.

На самом деле все выделенные значимые компоненты представляют собой некую "простую структуру" (этакое "фазовое пространство" в котором всё неслучайное в системе происходит), и в принципе ортогональные вращения этой простой структуры можно проводить сколько угодно (естественно имея целью получить картину интерпретируюмую в терминах переменных). Если хорошо развито пространственное воображение, то обычно просто достаточно посмотреть на "кластеры векторов переменных" в исходном пространстве "простой структуры". Но можно пойти и на всякие варимакс вращения и даже на косоугольные вращения и они дадут "объективно" существующие "кластеры векторов переменных".


Signature
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
малой
сообщение 26.01.2016 - 20:51
Сообщение #11





Группа: Пользователи
Сообщений: 94
Регистрация: 18.06.2014
Пользователь №: 26469



Цитата(nokh @ 26.03.2015 - 20:29) *
Отсутствие чёткого излома на графике осыпи указывает на слабые корреляции в наборе данных. На практике это обычно бывает тогда, когда в анализ включают дихотомические переменные и/или порядковые с малым числом рангов. Если у вас в наборе именно такие переменные, то факторный анализ (в узком смысле этого термина) проводить некорректно, лучше ограничиться анализом главных компонент, но с вращением


Да именно такие порядковые переменные у меня: 0,1,2. Провел анализ главных компонент (АГК). Даже при принудительном выделении большего количества факторов практически все переменные пригодные для интерпретации сваливаются в один компонент. Интерпретируются они хорошо, но Альфа Кронбаха в первом факторе высокая а в остальных (там по 2-3 переменных) альфа плохая. Последующий ROC анализ тоже хвалит первый фактор, последующие ругает как совсем непригодные (кривая лежит на диагональной линии). Такие результаты значат, что АГК себя не оправдал или наоборот и нужно принимать первую компоненту за эффективный вариант методики а остальные просто игнорировать?

Сообщение отредактировал малой - 27.01.2016 - 00:08
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
nokh
сообщение 27.01.2016 - 10:29
Сообщение #12





Группа: Пользователи
Сообщений: 1202
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704



Цитата(малой @ 26.01.2016 - 22:51) *
Да именно такие порядковые переменные у меня: 0,1,2. Провел анализ главных компонент (АГК). Даже при принудительном выделении большего количества факторов практически все переменные пригодные для интерпретации сваливаются в один компонент. Интерпретируются они хорошо, но Альфа Кронбаха в первом факторе высокая а в остальных (там по 2-3 переменных) альфа плохая. Последующий ROC анализ тоже хвалит первый фактор, последующие ругает как совсем непригодные (кривая лежит на диагональной линии). Такие результаты значат, что АГК себя не оправдал или наоборот и нужно принимать первую компоненту за эффективный вариант методики а остальные просто игнорировать?

Хорошо это или плохо - зависит от целей работы.

1). Eсли это только разведочный (эксплораторный) анализ, то на альфу Кронбаха можно вообще не смотреть, руководствуясь более специфическими индикаторами необходимого и достаточного для понимания структуры данных числа факторов. Здесь важно максимально контрастировать факторы, поэтому обязательно нужно применять прямоугольное вращение (обычно используют варимакс). Может быть такая ситуация, что в обычном АГК первые компоненты объясняют, скажем, 50, 20 и 15% дисперсии, а после выделения именно 3 факторов и вращения получится 45, 35 и 10%. Т.е. после вращения часто вклады факторов перераспределяются так, что "вес" второстепенного (второстепенных) фактора (ов) увеличивается + сильно улучшается их интерпретируемость. В таком варианте анализа один единственный главный фактор - плохо с точки зрения новизны выводов из работы. В первый фактор всегда выходят уже достаточно подробно изученные явления или процессы, к пониманию которых люди пришли уже давно и безо всяких хитрых статистических техник; как правило, они даже описаны в учебниках. А вот то, что входит в последующие факторы часто - менее изученное, т.к. завуалировано более сильными процессами первого фактора.

2). Если цель анализа - конструирование шкалы, индекса для измерения чего-либо, то, напротив, один фактор - это здорово. Если все показатели сильно вкладываются в один латентный фактор, значит шкала имеет высокую факторную валидность, которую можно рассматривать как показатель конструктной валидности - т.е. что шкала измеряет именно то самое и единственное, для чего она, собственно, и разрабатывается. Причём чем сильнее коррелируют между собой показатели этого фактора (показывает альфа Кронбаха), тем надёжнее шкала. В этом случае наличие сильных второстепенных факторов вообще нежелательно, т.к. они являются по-сути вмешивающимися (confounding) - стоящие за ними процессы только вносят раздрай в процесс первого фактора и неопределённость в его измерение. Если цель работы такая, то от показателей, не вкладывающих в первый фактор можно просто избавиться. С теоретической точки зрения валидность и надёжность - более важные характеристики чем просто AUC ROC-кривой: они показывают, что разработанный инструмент работает правильно и полученные с его помощью оценки надёжны. А оценка эффективности этого инструмента для диагностики - следующий шаг с явным прикладным аспектом.

Сообщение отредактировал nokh - 27.01.2016 - 11:14
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
малой
сообщение 27.01.2016 - 12:36
Сообщение #13





Группа: Пользователи
Сообщений: 94
Регистрация: 18.06.2014
Пользователь №: 26469



Спасибо огромное
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
малой
сообщение 27.01.2016 - 19:56
Сообщение #14





Группа: Пользователи
Сообщений: 94
Регистрация: 18.06.2014
Пользователь №: 26469



Уточните, что значит ситуация если тот единственный фактор, который имеет такую хорошую альфу и собирает большинство переменных имеет дисперсию всего в 25%?


И скажите пожалуйста, какие приняты процедуры после ФА для улучшения прогностической способности выделенного фактора? Что если все входящие в него переменные провести через ROC- анализ и оставить потом только те у которых AUC будет больше 0,6?

Сообщение отредактировал малой - 27.01.2016 - 22:52
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
nokh
сообщение 30.01.2016 - 10:37
Сообщение #15





Группа: Пользователи
Сообщений: 1202
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704



Цитата(малой @ 27.01.2016 - 21:56) *
Уточните, что значит ситуация если тот единственный фактор, который имеет такую хорошую альфу и собирает большинство переменных имеет дисперсию всего в 25%?
И скажите пожалуйста, какие приняты процедуры после ФА для улучшения прогностической способности выделенного фактора? Что если все входящие в него переменные провести через ROC- анализ и оставить потом только те у которых AUC будет больше 0,6?

Объясняемая дисперсия для первого фактора 25% - это мало. Значит последующие - ещё меньше, т.е. вся система не сильно коррелированная. Для ФА в любом его приложении это не очень хорошо.

Но насколько я понял у вас задача другая: вы просто ищете разные способы разделить свои группы. Если цель именно в этом, то ФА даже теоретически не очень хорош: задача этого метода - выявлять общее, а не специфику. По выделенному общему фактору группы могут и не сильно различаться или даже вообще не различаться. Например, если мы будем искать этнические различия между людьми по морфометрии 100 признаков тела и черепа, то они никак не окажутся в первом факторе: в него войдёт размерно-возрастная изменчивость общая для всех. При этом какой-нибудь специфический лицевой индекс из всего двух-трёх показателей из 100 замечательно справится с задачей. На всякий случай посмотрите распределение индивидуальных меток (factor scores) для ГК1 или Фактора 1 - если оно выраженное бимодальное - есть шансы использовать значение фактора в качестве различающей функции, если нет - и смысла нет что-то улучшать. В рамках факторного анализа можно ввести в анализ показатель "группа", с метками 1, 2 и посмотреть какие переменные сильнее войдут в один фактор с фактором, для которого нагрузка показателя "группа" будет максимальной - по ним группы и различаются сильнее всего. Или ввести метку "группа", которая сама в анализе участвовать не будет, но будет отслеживаться (SPSS, например, это позволяет). Но это только несколько экзотические пути разведочного анализа, но не путь поиска лучшего дискриминатора.

Для задачи разделения групп более уместны методы дискриминантного анализа, логистической регресси и того, что вам ещё советовали для этого. В самых сложных и запутанных ситуациях классическая (и не очень) статистика вообще может оказаться бессильной и нужно искать что-то из арсеналов Data mining (хотя бы деревья классификации (classification tree) и их леса (random forest)) или нейронных сетей. Посоветовал бы начать с дискриминантного анализа, но сам знаю только линейный, а он, строго говоря, для порядковых переменных не годится.

Может вам другие участники ещё порекомендуют чего-то полезного в этой ситуации.

Сообщение отредактировал nokh - 30.01.2016 - 11:10
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 

2 страниц V   1 2 >
Добавить ответ в эту темуОткрыть тему