Форум врачей-аспирантов

Здравствуйте, гость ( Вход | Регистрация )

2 страниц V  < 1 2  
Добавить ответ в эту темуОткрыть тему
> Построение корреляционного графа и его анализ
100$
сообщение 23.01.2017 - 11:28
Сообщение #16





Группа: Пользователи
Сообщений: 902
Регистрация: 23.08.2010
Пользователь №: 22694



Цитата(nokh @ 23.01.2017 - 09:11) *
Гауэр - г..., вообще "не работает". Не знаю почему не работает; решения на простых, пусть и некорректных, пирсоновских корреляциях, всегда куда лучше интерпретируются. В нахваливаемом мной нелинейном анализе главных компонент тоже можно работать с "адской смесью". Только каждый признак придётся настраивать вручную, поэтому и написал, что 196 - многовато. Плюс вообще, таблицу факторных нагрузок из 196 строк сложно и неудобно интерпретировать (обычно у меня - до 25-30 максимум). Может для 196 именно граф и оптимален, если получится сделать - покажете картинку?
Я пользуюсь тем вариантом нелинейного PCA, в котором к исходной матрице данных применяется преобразование Джифи (Gifi). Там история интересная. Альберт Джифи, вообще говоря, был дворецким Фрэнсиса Гальтона, который наряду с Пирсоном делал современную статистику в конце 19 века. Может он в чём-то помогал Гальтону и был несправедливо обделён вниманием - не знаю, но только в 1990 г вышла монография Gifi, A. (1990). Nonlinear Multivariate Analysis (Ed. W. Heiser, J. J. Meulman, & G. van den Berg). Wiley, Chichester. В ней под коллективным псевдонимом А. Джифи стоял коллектив математиков из лейденского университета (Нидерланды), который возглавлял американец Ян де Лиув (так он сам произносит своеё имя у себя на сайте). Книгу выпустили, но далее пути участников проекта разошлись. В Лейдене осталась работать команда под началом Anita J. van der Kooij, они внедрили метод в пакет SPSS под названием CATPCA (Categorical PCA), причём никогда и никак не ссылаются на Jan de Leeuw (видно дружно поработали). Jan de Leeuw выпустил на том же преобразовании Джифи пакет homals под R, кстати тоже на голланцев не ссылается, всё больше на себя:). Суть преобразования заключается в многомерной взаимной линеаризации связей показателей. CATPCA и homals дают при "грубых" настройках идентичные результаты, но CATPCA позволяет сделать более тонкую настройку и применить вращение факторного решения, поэтому мне нравится именно эта реализация. По мне так вообще метод универсальный: если все признаки качественные - получатся решение с математикой множественного анализа соответствий, но в терминах PCA, если все признаки количественные - можно получить решение в точности равное РСА (смотря как группировку настроить), для порядковых признаков можно использовать ранжирование и сглаживание сплайнами... Если будет интерес - могу показать на каком-нибудь небольшом примере.


Nokh, интерес обязательно будет, но я не предполагаю, что у меня дело дойдет до вращений: думал просто в терминах корреляций разнотипных признаков дать некую общую картину, что называется "в крупную клетку". А редукцию размерности тоже, скорее всего, проведем вручную: просто отберем то, без чего уж точно обойтись нельзя. Просто я пока еще не понимаю, чего можно хотеть, сидя на такой базе данных.

А небольшой пример готов усвоить прямо сейчас.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
100$
сообщение 26.01.2017 - 18:32
Сообщение #17





Группа: Пользователи
Сообщений: 902
Регистрация: 23.08.2010
Пользователь №: 22694



Цитата(nokh @ 23.01.2017 - 09:11) *
Гауэр - г..., вообще "не работает". Не знаю почему не работает


Много думал, почему не работает, и пришел к выводу, что знакомые нам коэффициенты корреляции являются мерой сходства/различия в пространстве признаков, а Гауэр - мера сходства в пространстве объектов. В общем, сложилось ощущение, что если под коэффициентом Гауэра мы оба понимаем вот это (стр. 163-164 в книге и 159 на полосе прокрутки страниц), то факторный анализ к такой матрице непременим, и, образно говоря, вместо кубика Рубика вы крутили в руках кирпич.

Сообщение отредактировал 100$ - 26.01.2017 - 23:03
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
passant
сообщение 27.01.2017 - 18:40
Сообщение #18





Группа: Пользователи
Сообщений: 231
Регистрация: 27.04.2016
Пользователь №: 28223



Цитата(100$ @ 26.01.2017 - 17:32) *
Много думал, почему не работает, и пришел к выводу, что знакомые нам коэффициенты корреляции являются мерой сходства/различия в пространстве признаков, а Гауэр - мера сходства в пространстве объектов. ..... то факторный анализ к такой матрице непременим, и, образно говоря, вместо кубика Рубика вы крутили в руках кирпич.

Вы абсолютно правы. Более того, в указанной Вами работе на стр.10 и на стр.150 об этом явного говориться (правда, там судя по всему есть ошибки перевода, но исходная идея авторов остается понятной). Применять техники, предназначенные для кластерного анализа при проведении факторного анализа - не следует.
Возможно, если очень надо именно факторный анализ, следует перейти в пространство признаков и там использовать именно корреляционные коэффициенты между признаками (например - для дихотомических и количественных - бисериальный, для рангового и количественного - ранговый бисериальный коэффициенты корреляции) и, получив соответствующую матрицу корреляций, пробовать уже искать латентные факторы.
Хотя, скорее всего, надо все таки выбрать - или не включать дихотомические (и номинальные) признаки и использовать факторный анализ, или использовать все что угодно, но тогда работать в технике кластерного анализа.
Есть, правда, еще такой "зверь" как Категориальный анализ главных компонентов (Categorical Principal Components Analysis, CATPCA). Но что это такое, и КАК его едят - подробно не разбирался. Может там и есть какое средство. Вот только надо-ли оно Вам для Вашей исходной задачи - не знаю.

Сообщение отредактировал passant - 27.01.2017 - 19:17
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
100$
сообщение 27.01.2017 - 20:35
Сообщение #19





Группа: Пользователи
Сообщений: 902
Регистрация: 23.08.2010
Пользователь №: 22694



Цитата(passant @ 27.01.2017 - 18:40) *
Вы абсолютно правы. Более того, в указанной Вами работе на стр.10 и на стр.150 об этом явного говориться (правда, там судя по всему есть ошибки перевода, но исходная идея авторов остается понятной). Применять техники, предназначенные для кластерного анализа при проведении факторного анализа - не следует.
Возможно, если очень надо именно факторный анализ, следует перейти в пространство признаков и там использовать именно корреляционные коэффициенты между признаками (например - для дихотомических и количественных - бисериальный, для рангового и количественного - ранговый бисериальный коэффициенты корреляции) и, получив соответствующую матрицу корреляций, пробовать уже искать латентные факторы.
Хотя, скорее всего, надо все таки выбрать - или не включать дихотомические (и номинальные) признаки и использовать факторный анализ, или использовать все что угодно, но тогда работать в технике кластерного анализа.
Есть, правда, еще такой "зверь" как Категориальный анализ главных компонентов (Categorical Principal Components Analysis, CATPCA). Но что это такое, и КАК его едят - подробно не разбирался. Может там и есть какое средство. Вот только надо-ли оно Вам для Вашей исходной задачи - не знаю.


Passant, спасибо за пассаж про CATPCA (нелинейное обобщение PCA). Мне Nokh как раз его и посоветовал в сообщении #14. У меня, правда, пока нет на руках датасета, который мне хотелось бы обработать таким образом, + не вполне понимаю суть Gifi transformation. Хочу впоследствии вернуться к этому разговору, тем более что у меня в перспективе еще и пакет Boruta замаячил...

Сообщение отредактировал 100$ - 27.01.2017 - 20:40
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 

2 страниц V  < 1 2
Добавить ответ в эту темуОткрыть тему