Форум врачей-аспирантов

Здравствуйте, гость ( Вход | Регистрация )

 
Добавить ответ в эту темуОткрыть тему
> Помогите разобраться с дискриминантным анализом
kont
сообщение 10.03.2014 - 23:13
Сообщение #1





Группа: Пользователи
Сообщений: 149
Регистрация: 11.02.2014
Пользователь №: 26005



Помогите, пожалуйста, разобраться с дискриминантым анализом. Например, из 20 переменных, у меня в модель , после 7 шагов было включено нес-ко пременных ,но почему они был вкл. в модель ,Если только 2 из них стат. достоверны.?
Читаю определение толерантности переменной - Значение толерантности переменной вычисляется как 1 минус R-квадрат. Поэтому значение толерантности является мерой избыточности переменной. Я просто не могу понять, что значит избыточность переменной?



Эскизы прикрепленных изображений
Прикрепленное изображение
 
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
100$
сообщение 11.03.2014 - 20:25
Сообщение #2





Группа: Пользователи
Сообщений: 902
Регистрация: 23.08.2010
Пользователь №: 22694



Цитата(kont @ 11.03.2014 - 00:13) *
Помогите, пожалуйста, разобраться с дискриминантым анализом. Например, из 20 переменных, у меня в модель , после 7 шагов было включено нес-ко пременных ,но почему они был вкл. в модель ,Если только 2 из них стат. достоверны.?
Читаю определение толерантности переменной - Значение толерантности переменной вычисляется как 1 минус R-квадрат. Поэтому значение толерантности является мерой избыточности переменной. Я просто не могу понять, что значит избыточность переменной?


Цитата
почему они был вкл. в модель ,Если только 2 из них стат. достоверны.?


Корректный оборот выглядит так: "статистически значимы на, н-р, 5%-ном уровне значимости". На 1% -ном уровне они все незначимы.

А вы чего, собственно, хотели? Количество переменнных в модели ( ее спецификацию) определяет исследователь. Статпакет честно (и очень быстро) оценивает то, что ему предложили оценить. А потом вежливо намекает вам, что переменные, не дотягивающие до порога отсечения (F-remove) можно безболезненно удалить, поскольку толку от них никакого. Сам он решений за вас не принимает и ничего из модели не выкидывает.

Цитата
Я просто не могу понять, что значит избыточность переменной?


Это надо понимать буквально: статистически незначимый параметр модели ничего не объясняет в дисперсии зависимой переменной.
Просто при усложнении модели R2 никогда не уменьшается, однако степени свободы при этом расходуются. Поэтому и ориентируются в таких случаях на скорректированный R2.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
kont
сообщение 12.03.2014 - 23:59
Сообщение #3





Группа: Пользователи
Сообщений: 149
Регистрация: 11.02.2014
Пользователь №: 26005



а почему они не значимы на 1% уровне?

Код
Статпакет честно (и очень быстро) оценивает то, что ему предложили оценить. А потом вежливо намекает вам, что переменные, не дотягивающие до порога отсечения (F-remove) можно безболезненно удалить, поскольку толку от них никакого.

Да, но он оставил в моделе переменные, которые не стат.достоверно могут оказывать влияние. я просто подумал, что конечная модель должна включать в себя переменные, которые оказывают влияние, говоря по-детски , те что красненьким помечаются.

Так я правильно понимаю, что избыточность это мера корреляции 2х переменных, т.к. если они коррелируеют с друг другом сильно положительно, то они измеряют что-то одно.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
kont
сообщение 13.03.2014 - 00:17
Сообщение #4





Группа: Пользователи
Сообщений: 149
Регистрация: 11.02.2014
Пользователь №: 26005



да и такой момент
на картинке мы видим ,что первый корень наиболее нагружен переменной Х1=1,0107 и переменной х2=-0,44
таблица средних канонических переменных показывает, что первый корень больше дисриминирует Номинативную переменную под кодом 3. =-1,609
Правильно ли интерпретировать это так, что чем больше выражен признак Х1 и меньше Х2, тем более вероятно, что они характеризуют Номинативную переменную под кодом 3.

Эскизы прикрепленных изображений
Прикрепленное изображение
Прикрепленное изображение
 
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
100$
сообщение 13.03.2014 - 12:44
Сообщение #5





Группа: Пользователи
Сообщений: 902
Регистрация: 23.08.2010
Пользователь №: 22694




Цитата
а почему они не значимы на 1% уровне?


А все потому, что достигаемый уровень значимости (p-value) > .01.

Цитата
я просто подумал, что конечная модель должна включать в себя переменные, которые оказывают влияние, говоря по-детски , те что красненьким помечаются.


Правильно подумали, только после того, как пакет выдал вам протокол оценивания модели с 7 параметрами, 5 из которых статистически незначимы, вы сами выбрасываете их из модели и переоцениваете ее для оставшихся двух.

Цитата
Так я правильно понимаю, что избыточность это мера корреляции 2х переменных, т.к. если они коррелируеют с друг другом сильно положительно, то они измеряют что-то одно.


Ну, предположим на мгновение, что длина носа "сильно положительно" коррелирует с длиной пениса. Какое такое "одно" они при этом "измеряют"?
Избыточность параметра модели - это степень его ненужности для целей объяснения дисперсии зависимой переменной.

Сообщение отредактировал 100$ - 13.03.2014 - 12:54
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
100$
сообщение 13.03.2014 - 12:57
Сообщение #6





Группа: Пользователи
Сообщений: 902
Регистрация: 23.08.2010
Пользователь №: 22694



Цитата(kont @ 13.03.2014 - 01:17) *
да и такой момент
на картинке мы видим ,что первый корень наиболее нагружен переменной Х1=1,0107 и переменной х2=-0,44
таблица средних канонических переменных показывает, что первый корень больше дисриминирует Номинативную переменную под кодом 3. =-1,609
Правильно ли интерпретировать это так, что чем больше выражен признак Х1 и меньше Х2, тем более вероятно, что они характеризуют Номинативную переменную под кодом 3.


Вас что, злые преподаватели/родители/старослужащие/сокамерники (нужное подчеркнуть) оставили наедине со статистическим пакетом, и вы пытаетесь понять, что от вас хотят?

Вообще-то в дискриминантном анализе единицей статистического наблюдения является объект, и линейная комбинация дискриминантных переменных являет собой дискриминантную функцию, которая дискриминирует (разделяет) классы, к которым принадлежит объект (т.е. распознавание образов с учителем, т.е. обучающей выборкой). При этом дискриминантные переменные вовсе не должны объяснять друг друга.

Сообщение отредактировал 100$ - 13.03.2014 - 22:51
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
kont
сообщение 20.03.2014 - 21:19
Сообщение #7





Группа: Пользователи
Сообщений: 149
Регистрация: 11.02.2014
Пользователь №: 26005



Код
Ну, предположим на мгновение, что длина носа "сильно положительно" коррелирует с длиной пениса. Какое такое "одно" они при этом "измеряют"?
Избыточность параметра модели - это степень его ненужности для целей объяснения дисперсии зависимой переменной.

Это было сказано сверх понятно smile.gif


Код
Вас что, злые преподаватели/родители/старослужащие/сокамерники (нужное подчеркнуть) оставили наедине со статистическим пакетом, и вы пытаетесь понять, что от вас хотят?

Знаете, тут вы почти в точку. Преподы не любят, когда их беспокоят студенты, т.к. по умолчанию, все что перпод наговорил на только ему понятно языке.
Я просто стал читать как р-ты интерпретировать на примере интерпретаций р-тов хелпа по статистике.
http://statosphere.ru/blog/125-discriminant.html

там на примере цветов Фишера была показано интерпретация

Код
Очевидно, что первая дискриминантная функция отделяет главным образом сорт Setosa от других сортов ирисов. Каноническое среднее сорта Setosa Setosa очень сильно отличается от канонических средних других сортов. Вторая дискриминантная функция, по-видимому, предназначена для разделения главным образом сорта Versicol и других сортов, однако, как и следовало ожидать, основываясь на рассмотренных ранее собственных значениях, качество теперь много меньше.

Можете этот отрывать легко найти. Просто нажмите F3 и вставьте текст.

я делал по аналогии.
например, там видно, что первый корень отличает цветы Setosa, а второй корень Versicol , так как у них веса большие.
Т.о. я также стал это описывать.

Хотя вообще меня напрягает не понимание, что значит отрицательный вес?
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
100$
сообщение 21.03.2014 - 11:06
Сообщение #8





Группа: Пользователи
Сообщений: 902
Регистрация: 23.08.2010
Пользователь №: 22694



Цитата(kont @ 20.03.2014 - 22:19) *
Хотя вообще меня напрягает не понимание, что значит отрицательный вес?


Конт, я же вас по-доброму просил напрягать извилину. Ибо извилина от неупотребления ржавеет сильнее, чем изнашивается от частого употребления.

Вы вешаете цитату, в которой русским по белому написано, как интерпретируются различия канонических средних. Скажите, пожалуйста, с каких это пор средние по группам называются "весами"?
Скорее уж весами являются стандартизированные коэффициенты канонических переменных.
А то, что вы назвали весами, на самом деле представляют собой центры тяжести многомерных выборок - центроиды.

Из цытаты следует, что если среднее канонических переменных по 1-ой дискриминантной функции (ДФ) (-1,609) (которая, кстати, вносит наибольший вклад в дискриминацию классов(групп))
сильнее всего отличается для группы 3 ( русский перевод G_3:5), то первая ДФ сильнее всего различает именно третью группу и в меньшей степени G_4:6.
Вторая дискриминантная функция, в основном, дискриминирует группу G_4:6 и в меньшей степени группу G_1:3.
От третьей ДФ во всех смыслах толку мало.

Сообщение отредактировал 100$ - 21.03.2014 - 14:21
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 

Добавить ответ в эту темуОткрыть тему