Помощь - Поиск - Пользователи - Календарь
Полная версия этой страницы: Интерпретация Дискриминантного анализа
Форум врачей-аспирантов > Разделы форума > Медицинская статистика
klavdia
Здравствуйте, так получилось, что мне понадобилась ещё помощь:) Я провела дискриминантный анализ. (В основном использовала шаги, которые описаны в книги А.Д. Наследова)
Однако, у меня получились странные результаты, у меня было много переменных, но они все вошли в одну дискриминатную функцию. Это нормально или нет?
И как тогда трактовать результаты? Если смотреть Функции в центройдах групп ,то видно что это одна функции больше нагружает 1-ую группу моей зависимой переменной(всего 2 градации)

Корректно ли интерпретировать т.о: Чем больше у меня индекс поленезависимости(6,73) и меньше коммуникативный потенциал (-7,42) тем более вероятно что объект принадлежит к первой группе?
У меня файл не прикрепляет почему-то. Залила на обменник
http://rghost.ru/6JPvwmWXy
p2004r
Цитата(klavdia @ 24.03.2015 - 22:57) *
Здравствуйте, так получилось, что мне понадобилась ещё помощь:) Я провела дискриминантный анализ. (В основном использовала шаги, которые описаны в книги А.Д. Наследова)
Однако, у меня получились странные результаты, у меня было много переменных, но они все вошли в одну дискриминатную функцию. Это нормально или нет?
И как тогда трактовать результаты? Если смотреть Функции в центройдах групп ,то видно что это одна функции больше нагружает 1-ую группу моей зависимой переменной(всего 2 градации)

Корректно ли интерпретировать т.о: Чем больше у меня индекс поленезависимости(6,73) и меньше коммуникативный потенциал (-7,42) тем более вероятно что объект принадлежит к первой группе?
У меня файл не прикрепляет почему-то. Залила на обменник
http://rghost.ru/6JPvwmWXy


1) проблема в числе дискриминантных функций заключается что из число это функция от числа степеней свободы групп классификации n-1. Так что для случая двух групп возможна только одна линия проходящяя через "центроиды" наилучшим образом и полностью описывающая чем обе группы отличаются друг от друга.

2) нормализованные коэффициенты посчитаны таким образом, что бы восстановить "сферичность" ковариации внутри обоих (в данном случае) групп. В принципе такое взвешивание позволяет считать переменные равносильными. Но иногда взвешивание делать принципиально не надо, например для случая когда мы имеем принципиально одну и туже величину измеренную в различные моменты времени.

3) прикрепляются только rar архивы и изображения.
klavdia
А поняла, спасибо. Значит я правильно интерпретирую данные "Чем больше у меня индекс поленезависимости(6,73) и меньше коммуникативный потенциал (-7,42) "?
Т.е. если Х1 , Х2, Х3, с положительным знаком, Х4,Х5,Х6 c отрицательным, то чем больше Х1-Х3 и меньше Х4-Х6 тем больше вероятность что наблюдение относится к первой группе
Или как правильно мне говорить о классификации.
Например в регрессии все просто. Банально сама составила уравнение и все , ну или посмотрела на КМД, то есть хоть как-то могу проинтерпретироватт
а тут не ясно как, просто дана функция нагруженная коэффициентами и что я по ним должна сказать.

p2004r
Цитата(klavdia @ 26.03.2015 - 19:01) *
А поняла, спасибо. Значит я правильно интерпретирую данные "Чем больше у меня индекс поленезависимости(6,73) и меньше коммуникативный потенциал (-7,42) "?
Т.е. если Х1 , Х2, Х3, с положительным знаком, Х4,Х5,Х6 c отрицательным, то чем больше Х1-Х3 и меньше Х4-Х6 тем больше вероятность что наблюдение относится к первой группе
Или как правильно мне говорить о классификации.
Например в регрессии все просто. Банально сама составила уравнение и все , ну или посмотрела на КМД, то есть хоть как-то могу проинтерпретироватт
а тут не ясно как, просто дана функция нагруженная коэффициентами и что я по ним должна сказать.


Только -- чем больше абсолютное значение стандартизированного коэффициента, тем больше его вклад. Хотя эта оценка слабая, надо считать как меняется AUC модели при удалении тех или иных предикторов.
klavdia
Простите а разве в SPSS можно считать AUC для ДА, для лог.регрессии том есть галка Roc-кривых, а в дискриминантном анализе , я не видела

Т.е. я не знак не смотрю, я смотрю на значение , х1=8, х2=-7, х3=0,5, т.е. я могу сказать так, что чем больше х1 и х2 и меньше х3, тем больше эти переменные вносят свой вклад в дискриминацию первой группы?

p2004r
Цитата(klavdia @ 26.03.2015 - 20:28) *
Простите а разве в SPSS можно считать AUC для ДА, для лог.регрессии том есть галка Roc-кривых, а в дискриминантном анализе , я не видела

Т.е. я не знак не смотрю, я смотрю на значение , х1=8, х2=-7, х3=0,5, т.е. я могу сказать так, что чем больше х1 и х2 и меньше х3, тем больше эти переменные вносят свой вклад в дискриминацию первой группы?


1. ROC можно считать для чего угодно, или в SPSS нет просто построения ROC вне связи с конкретным методом ML? Вот например инструкция http://www.rti4success.org/sites/default/f...racteristic.doc

2. Для стандартизированных коэффициентов именно такое использование и предполагалось, но я сразу указываю на слабость такого подхода.
klavdia
ого, не знала. Спасибки.
klavdia
А как корректно интерпретировать, что функция центройдов групп
1 21,367
2 -8,622

одна положительная, другая отрицательная?
p2004r
Цитата(klavdia @ 26.03.2015 - 22:00) *
А как корректно интерпретировать, что функция центройдов групп
1 21,367
2 -8,622

одна положительная, другая отрицательная?


У линии которая проходит через центроиды два конца, один положительный а второй отрицательный. Кто каким станет зависит от реализации алгоритма и даже может меняться при каждом вычислении. Позволяет трактовать коэффициенты в духе -- "с ростом предиктора такого растет уверенность что варианта принадлежит к такому то значению группирующей переменной"
klavdia
Уважаю людей, который точно и ясно все объясняют. Вроде вопросов больше нет. Но метод странный, хотелось бы , чтобы высчитывал уравнение вероятности принадлежания к такой-то группе.
Например, подставила значения коэф.-тов в уравнение и выдавалась вероятность, что это наблюдение 1 принадлежит к группе 1, а наблюдение 4 к группе 2 или 3.
Я не имею ввиду лог регрессию, а немного другое, т.к. в ней 2 бинарные величины. А если у меня в группирующей переменной 7 градаций(классов) =)
anserovtv
В пакете программ, который Вы используете, все это имеется: нужно в меню Сохранить поставить флажки Предсказанная принадлежность к группе и Вероятность принадлежности к группам . После обработки в файле данных будут добавлены три столбца (если классов два) или более (если более двух классов) для всех наблюдений (строк).
Для неоднократного прогнозирования можно создать скоринговую модель и применять ее к новым данным с помощью Конструктора скоринга в меню Сервис.
Если имеется всего два класса, то по полученным вероятностям и исходной группирующей переменной можно выполнить ROC-анализ.
Если имеется 7 классов. то будет создано 7-1= 6 канонических функций.
Прочитайте эту главу в книге до конца!
p2004r
Цитата(klavdia @ 27.03.2015 - 15:05) *
Я не имею ввиду лог регрессию, а немного другое, т.к. в ней 2 бинарные величины. А если у меня в группирующей переменной 7 градаций(классов) =)


И тем не менее вполне подойдет Мультиномиальная логистическая регрессия.
klavdia
Ещё немного консультации:))
Мы видим расстояние от 0 до 25. Например, наблюдения с 128-133 достаточно рядышком скучковались в 3 кластера. Но к кластеру 128-126 примыкает наблюдение 139 на расстояние 16. Можно ли говорить, что эти 3 наблюдения 128,126,139 схожи, близки? Если да, то как его правильно интерпретировать? 139 наблюдение далеко стоит.

ну и ещё 74 и 75 наблюдение объединились в кластер. Расстояние где-то 12. Можно ли по расстоянию говорить о силе связи?

И наконец 104 наблюдение объединилось с рядом классов кластеров это нормально или нет?
p2004r
Цитата(klavdia @ 1.04.2015 - 19:38) *
Ещё немного консультации:))
Мы видим расстояние от 0 до 25. Например, наблюдения с 128-133 достаточно рядышком скучковались в 3 кластера. Но к кластеру 128-126 примыкает наблюдение 139 на расстояние 16. Можно ли говорить, что эти 3 наблюдения 128,126,139 схожи, близки? Если да, то как его правильно интерпретировать? 139 наблюдение далеко стоит.

ну и ещё 74 и 75 наблюдение объединились в кластер. Расстояние где-то 12. Можно ли по расстоянию говорить о силе связи?

И наконец 104 наблюдение объединилось с рядом классов кластеров это нормально или нет?


1) Паковать картинку в эксель, потом паковать эксель в зип вовсе не обязательно, поскольку форум прекрасно поддерживает присоединение картинок. И у такого способа есть еще одно достоинство -- картинка сразу видна smile.gif Вот данные для построения картинки в виде экселя завернутого в zip выложить бы следовало.

2) Вот так вот лихо взять и "засунуть" транспонированную таблицу с данными и получить корректную картину нельзя. Люди напрягаются и пишут целые пакеты:
Код
     Ascendant hierarchical clustering of a set of variables.
     Variables can be quantitative, qualitative or a mixture of both.
     The aggregation criterion is the decrease in homogeneity for the
     cluster being merged. The homogeneity of a cluster is the sum of
     the correlation ratio (for qualitative variables) and the squared
     correlation (for quantitative variables) between the variables and
     the center of the cluster which is the first principal component
     of PCAmix. PCAmix is defined for a mixture of qualitative and
     quantitative variables and includes ordinary principal component
     analysis (PCA) and multiple correspondence analysis (MCA) as
     special cases. Missing values are replaced by means for
     quantitative variables and by zeros in the indicator matrix for
     qualitative variables.


Вот Вы что использовали для получения этой картинки?
klavdia
данные не крепятся
но залила)
--http://rghost. ru/8mLbmq4Vg
ой., а я не знаю какой пакет использовала, я в SPSS делала:) Может там автоматически выставляется. Это можно узнать?
anserovtv
Цитата(klavdia @ 2.04.2015 - 23:44) *
ой., а я не знаю какой пакет использовала, я в SPSS делала:) Может там автоматически выставляется. Это можно узнать?

Тема получилась очень интересной. Спасибо. Правда, мне иногда казалось, что некоторые сообщения смотрелись бы очень хорошо и в разделе " ЮМОР..."

p2004r
Цитата(klavdia @ 2.04.2015 - 22:44) *
данные не крепятся
но залила)
--http://rghost. ru/8mLbmq4Vg
ой., а я не знаю какой пакет использовала, я в SPSS делала:) Может там автоматически выставляется. Это можно узнать?


Ну вот грубо (в принципе конечно можно убить пару часов прописывая что из данных измерено в бальных шкалах, но у меня для этого нет данных) если посмотреть на геометрию дисперсии данных:

Код
> data<-read.csv2("zehman.csv", dec=",")
> names(data)
[1] "группа..1.контрольная..2.экспериментальная."                                        
[2] "пол.0.женщины..1.мужчины."                                                          
[3] "возраст"                                                                            
[4] "срок.болезни..мес."                                                                  
[5] "экспертная.оценка"                                                                  
[6] "среднее..Шульте."                                                                    
[7] "среднее..10.слов."                                                                  
[8] "отсроченное.воспроизведение"                                                        
[9] "коэффициент.стандартности"                                                          
[10] "индекс.полезависимости"                                                              
[11] "показатель.повторного.тестирования..коэффициент.имплицитной.обучаемости."            
[12] "показатель.ригидности.гибкости.контроля..с"                                          
[13] "показатель.интегрированности.словесно...речевого.и.сенсорно...перцептивного.кодов..с"
[14] "общее.количество.ошибок"                                                            
[15] "среднее.латентное.время.первого.ответа..с"                                          
[16] "Эффективность.произвольного.контроля"                                                
[17] "количество.выделенных.групп"                                                        
[18] "количество.объектов.в.наибольшей.по.объему.группе"                                  
[19] "количество.групп..состоящих.из.одного.объекта"                                      
[20] "количество.объектов.в.наименьшей.по.объему.группе"                                  
[21] "коэффициент.категоризации"                                                          
[22] "адаптация.."                                                                        
[23] "самопринятие.."                                                                      
[24] "принятие.других.."                                                                  
[25] "эмоциональный.комфорт.."                                                            
[26] "интернальность.."                                                                    
[27] "стремление.к.доминированию.."                                                        
[28] "поведенческая.регуляция..ПР."                                                        
[29] "коммуникативный.потенциал..КП."                                                      
[30] "моральная.нормативность..МН."                                                        
[31] "астенические.реакции.и.состояния..АС."                                              
[32] "психотические.реакции.и.состояния..ПС."                                              
[33] "Hs"                                                                                  
[34] "D"                                                                                  
[35] "Hy"                                                                                  
[36] "Pd"                                                                                  
[37] "Mf"                                                                                  
[38] "Pa"                                                                                  
[39] "Pt"                                                                                  
[40] "Sc"                                                                                  
[41] "Ma"                                                                                  
[42] "Si"                                                                                  
[43] "отрицание"                                                                          
[44] "компенсация"                                                                        
[45] "рационализация"                                                                      
[46] "регрессия"                                                                          
[47] "замещение"                                                                          
[48] "проекция"                                                                            
[49] "реактивные.образования"                                                              
[50] "вытеснение"                                                                          
[51] "самоконтроль"                                                                        
[52] "поиск.социальной.поддержки"                                                          
[53] "принятие.ответственности"                                                            
[54] "планирование.решения.проблемы"                                                      
[55] "положительная.переоценка"                                                            
[56] "дистанцирование"                                                                    
[57] "бегство"                                                                            
[58] "конфронтация"                                                                        
[59] "Σ..Е"                                                                                
[60] "Σ.I"                                                                                
[61] "Σ.M"                                                                                
[62] "Σ.O.D"                                                                              
[63] "Σ.E.D"                                                                              
[64] "Σ.N.P"                                                                              
[65] "баланс.агрессивности.ΣE...Σ.I"                                                      
[66] "степень.агрессивности..направленной.вовне.Σ.E...Σ.M"                                
[67] "уровень.переработки.агрессии.E...e"                                                  
[68] "степень.самостоятельности.I...e"                                                    
[69] "E"                                                                                  
[70] "I"                                                                                  
[71] "E...I"                                                                              
[72] "E...E"                                                                              
[73] "I...I"                                                                              
[74] "Σ.M...I"                                                                            
[75] "GCR..абсолютные.числа"  
> plot(prcomp(data[,-c(1,2,4)]))
> biplot(prcomp(data[,-c(1,2,4)]))
> plot(prcomp(data[,-c(1,2,4)])$x[,1:2], col=rainbow(2)[factor(data[,1])])
> plot(prcomp(data[,-c(1,2,4)])$x[,1:2], col=rainbow(2)[factor(data[,1])], pch=c(21,24)[factor(data[,2])])


У Вас всё помещается в первые две компоненты, и они четко показывают две естественных группировки. И природа группировок именно группы эксперимента.

Как выглядит минимальный набор переменных разделяющий группы лучше всё таки посчитать с помощью чего то типа Boruta (я позже попробую несколькими пакетами и сюда положу результаты)
klavdia
Вижу, вы тут в R прогали. Вы имеете ввиду 2 компоненты, одна то что на графике красная, а другая голубенькая?
Тогда 2 вопроса. Поскольку постепенно R изучаю
1. что значит это plot(prcomp(data[,-c(1,2,4)])) 1,2,4 это что за цифры
в этой строчке
plot(prcomp(data[,-c(1,2,4)])$x[,1:2], col=rainbow(2)[factor(data[,1])], pch=c(21,24)[factor(data[,2])]) что значит 1:2 и почему pch=c(21,24) откуда взялось 21 и 24
Можете, пожалуйста, эту фразу конкретизировать
"И природа группировок именно группы эксперимента." Экспериментальная группа влияет на группирование? Так?

И можно ли посмотереть именно на то как группируются наблюдения, не на схемах в кругах и треугольниках:)
Спасибо за терпение.smile.gif

p2004r
Цитата(klavdia @ 3.04.2015 - 14:52) *
Вижу, вы тут в R прогали. Вы имеете ввиду 2 компоненты, одна то что на графике красная, а другая голубенькая?
Тогда 2 вопроса. Поскольку постепенно R изучаю
1. что значит это plot(prcomp(data[,-c(1,2,4)])) 1,2,4 это что за цифры
в этой строчке
plot(prcomp(data[,-c(1,2,4)])$x[,1:2], col=rainbow(2)[factor(data[,1])], pch=c(21,24)[factor(data[,2])]) что значит 1:2 и почему pch=c(21,24) откуда взялось 21 и 24
Можете, пожалуйста, эту фразу конкретизировать
"И природа группировок именно группы эксперимента." Экспериментальная группа влияет на группирование? Так?

И можно ли посмотереть именно на то как группируются наблюдения, не на схемах в кругах и треугольниках:)
Спасибо за терпение.smile.gif


1. Это исключены код группы, пол и срок болезни

2. Красненькие и синенькие это больные и здоровые (треугольники кружки пол)

PS 21 и 24 это и есть "треугольник" и "кружок"
p2004r
Код
> data[,1]<-factor(data[,1])
> boruta.res <- Boruta(data$группа..1.контрольная..2.экспериментальная. ~.  , data=data[,-c(2,4)],  doTrace = 1)

> plot(boruta.res)

> names(boruta.res$finalDecision)[boruta.res$finalDecision=="Confirmed"]
[1] "экспертная.оценка"                                                                  
[2] "среднее..Шульте."                                                                    
[3] "среднее..10.слов."                                                                  
[4] "отсроченное.воспроизведение"                                                        
[5] "коэффициент.стандартности"                                                          
[6] "показатель.повторного.тестирования..коэффициент.имплицитной.обучаемости."            
[7] "показатель.ригидности.гибкости.контроля..с"                                          
[8] "показатель.интегрированности.словесно...речевого.и.сенсорно...перцептивного.кодов..с"
[9] "общее.количество.ошибок"                                                            
[10] "Эффективность.произвольного.контроля"                                                
[11] "коэффициент.категоризации"                                                          
[12] "адаптация.."                                                                        
[13] "самопринятие.."                                                                      
[14] "интернальность.."                                                                    
[15] "стремление.к.доминированию.."                                                        
[16] "поведенческая.регуляция..ПР."                                                        
[17] "коммуникативный.потенциал..КП."                                                      
[18] "моральная.нормативность..МН."                                                        
[19] "астенические.реакции.и.состояния..АС."                                              
[20] "психотические.реакции.и.состояния..ПС."                                              
[21] "D"                                                                                  
[22] "Hy"                                                                                  
[23] "Pd"                                                                                  
[24] "Mf"                                                                                  
[25] "Pa"                                                                                  
[26] "Pt"                                                                                  
[27] "Sc"                                                                                  
[28] "Ma"                                                                                  
[29] "Si"                                                                                  
[30] "отрицание"                                                                          
[31] "регрессия"                                                                          
[32] "реактивные.образования"                                                              
[33] "дистанцирование"                                                                    
[34] "бегство"                                                                            
[35] "конфронтация"


Это те предикторы которые достоверно значимы для разделения больных и здоровых.

Вот дополнительно randomForest редукция измерений (она собственно дает туже картину что и PCA)

Код
> rf.res <- randomForest( ~.  , data=data[,-c(1,2,4)],  doTrace = 1)
> MDSplot(rf.res, data[,1], k=4)


Мы имеем итого один чистый Fixed эффект (смещены "средние"), два чистых Random эффекта (разница в вариации) и один по разному себя ведущий в связи с группами больной-здоровый.

Как то так smile.gif
p2004r
Цитата(klavdia @ 3.04.2015 - 14:52) *
Экспериментальная группа влияет на группирование? Так?


В Ваших данных группы экпериментальная и контрольная выявляются "сами по себе", как "естественные группировки". Знание о том кто куда входит получается излишним.
p2004r
Вот если пытаться анализировать связи переменных определяющих разность групп (то есть чем объяснить можно корреляции вызванные наличием естественных группировок в данных, внутри контрольной и экспериментальной группы естественно связи будут другие)

Код
> library(bnlearn)
> bn.model<-rsmax2(data[,-c(2,4)][boruta.res$finalDecision=="Confirmed"], optimized=F) # берем только связанные с делением на группы
> bn.model.str<-arc.strength(bn.model, data[,-c(2,4)][boruta.res$finalDecision=="Confirmed"]) # считаем бутстрепом силу связи
> strength.plot(bn.model, bn.model.str, shape="ellipse") # рисуем сеть


Это всё конечно просто как вспомогательный этап -- "подумать что с чем завязано". Гораздо лучше просто разобраться с картиной которую дает PCA. Но это лучше чем строить иерархическую кластеризацию по переменным smile.gif
C.I.P.
А Вы используйте пошаговую процедуру! (в STA...)
Для просмотра полной версии этой страницы, пожалуйста, пройдите по ссылке.
Форум IP.Board © 2001-2025 IPS, Inc.