Помогите разобраться с дискриминантным анализом

Помогите разобраться с дискриминантным анализом

Опции

kont

10.03.2014 - 23:13

Сообщение #1

Группа: Пользователи
Сообщений: 149
Регистрация: 11.02.2014
Пользователь №: 26005

Помогите, пожалуйста, разобраться с дискриминантым анализом. Например, из 20 переменных, у меня в модель , после 7 шагов было включено нес-ко пременных ,но почему они был вкл. в модель ,Если только 2 из них стат. достоверны.?
Читаю определение толерантности переменной - Значение толерантности переменной вычисляется как 1 минус R-квадрат. Поэтому значение толерантности является мерой избыточности переменной. Я просто не могу понять, что значит избыточность переменной?

Эскизы прикрепленных изображений

Ответить с цитированием данного сообщения

100$ Просмотр профиля	11.03.2014 - 20:25 Сообщение #2
Группа: Пользователи Сообщений: 902 Регистрация: 23.08.2010 Пользователь №: 22694	Цитата(kont @ 11.03.2014 - 00:13) Помогите, пожалуйста, разобраться с дискриминантым анализом. Например, из 20 переменных, у меня в модель , после 7 шагов было включено нес-ко пременных ,но почему они был вкл. в модель ,Если только 2 из них стат. достоверны.? Читаю определение толерантности переменной - Значение толерантности переменной вычисляется как 1 минус R-квадрат. Поэтому значение толерантности является мерой избыточности переменной. Я просто не могу понять, что значит избыточность переменной? Цитата почему они был вкл. в модель ,Если только 2 из них стат. достоверны.? Корректный оборот выглядит так: "статистически значимы на, н-р, 5%-ном уровне значимости". На 1% -ном уровне они все незначимы. А вы чего, собственно, хотели? Количество переменнных в модели ( ее спецификацию) определяет исследователь. Статпакет честно (и очень быстро) оценивает то, что ему предложили оценить. А потом вежливо намекает вам, что переменные, не дотягивающие до порога отсечения (F-remove) можно безболезненно удалить, поскольку толку от них никакого. Сам он решений за вас не принимает и ничего из модели не выкидывает. Цитата Я просто не могу понять, что значит избыточность переменной? Это надо понимать буквально: статистически незначимый параметр модели ничего не объясняет в дисперсии зависимой переменной. Просто при усложнении модели R2 никогда не уменьшается, однако степени свободы при этом расходуются. Поэтому и ориентируются в таких случаях на скорректированный R2.

kont Просмотр профиля	12.03.2014 - 23:59 Сообщение #3
Группа: Пользователи Сообщений: 149 Регистрация: 11.02.2014 Пользователь №: 26005	а почему они не значимы на 1% уровне? Код Статпакет честно (и очень быстро) оценивает то, что ему предложили оценить. А потом вежливо намекает вам, что переменные, не дотягивающие до порога отсечения (F-remove) можно безболезненно удалить, поскольку толку от них никакого. Да, но он оставил в моделе переменные, которые не стат.достоверно могут оказывать влияние. я просто подумал, что конечная модель должна включать в себя переменные, которые оказывают влияние, говоря по-детски , те что красненьким помечаются. Так я правильно понимаю, что избыточность это мера корреляции 2х переменных, т.к. если они коррелируеют с друг другом сильно положительно, то они измеряют что-то одно.

kont

13.03.2014 - 00:17

Сообщение #4

Группа: Пользователи
Сообщений: 149
Регистрация: 11.02.2014
Пользователь №: 26005

да и такой момент
на картинке мы видим ,что первый корень наиболее нагружен переменной Х1=1,0107 и переменной х2=-0,44
таблица средних канонических переменных показывает, что первый корень больше дисриминирует Номинативную переменную под кодом 3. =-1,609
Правильно ли интерпретировать это так, что чем больше выражен признак Х1 и меньше Х2, тем более вероятно, что они характеризуют Номинативную переменную под кодом 3.

Эскизы прикрепленных изображений

100$ Просмотр профиля	13.03.2014 - 12:44 Сообщение #5
Группа: Пользователи Сообщений: 902 Регистрация: 23.08.2010 Пользователь №: 22694	Цитата а почему они не значимы на 1% уровне? А все потому, что достигаемый уровень значимости (p-value) > .01. Цитата я просто подумал, что конечная модель должна включать в себя переменные, которые оказывают влияние, говоря по-детски , те что красненьким помечаются. Правильно подумали, только после того, как пакет выдал вам протокол оценивания модели с 7 параметрами, 5 из которых статистически незначимы, вы сами выбрасываете их из модели и переоцениваете ее для оставшихся двух. Цитата Так я правильно понимаю, что избыточность это мера корреляции 2х переменных, т.к. если они коррелируеют с друг другом сильно положительно, то они измеряют что-то одно. Ну, предположим на мгновение, что длина носа "сильно положительно" коррелирует с длиной пениса. Какое такое "одно" они при этом "измеряют"? Избыточность параметра модели - это степень его ненужности для целей объяснения дисперсии зависимой переменной. Сообщение отредактировал 100$ - 13.03.2014 - 12:54

100$ Просмотр профиля	13.03.2014 - 12:57 Сообщение #6
Группа: Пользователи Сообщений: 902 Регистрация: 23.08.2010 Пользователь №: 22694	Цитата(kont @ 13.03.2014 - 01:17) да и такой момент на картинке мы видим ,что первый корень наиболее нагружен переменной Х1=1,0107 и переменной х2=-0,44 таблица средних канонических переменных показывает, что первый корень больше дисриминирует Номинативную переменную под кодом 3. =-1,609 Правильно ли интерпретировать это так, что чем больше выражен признак Х1 и меньше Х2, тем более вероятно, что они характеризуют Номинативную переменную под кодом 3. Вас что, злые преподаватели/родители/старослужащие/сокамерники (нужное подчеркнуть) оставили наедине со статистическим пакетом, и вы пытаетесь понять, что от вас хотят? Вообще-то в дискриминантном анализе единицей статистического наблюдения является объект, и линейная комбинация дискриминантных переменных являет собой дискриминантную функцию, которая дискриминирует (разделяет) классы, к которым принадлежит объект (т.е. распознавание образов с учителем, т.е. обучающей выборкой). При этом дискриминантные переменные вовсе не должны объяснять друг друга. Сообщение отредактировал 100$ - 13.03.2014 - 22:51

kont Просмотр профиля	20.03.2014 - 21:19 Сообщение #7
Группа: Пользователи Сообщений: 149 Регистрация: 11.02.2014 Пользователь №: 26005	Код Ну, предположим на мгновение, что длина носа "сильно положительно" коррелирует с длиной пениса. Какое такое "одно" они при этом "измеряют"? Избыточность параметра модели - это степень его ненужности для целей объяснения дисперсии зависимой переменной. Это было сказано сверх понятно Код Вас что, злые преподаватели/родители/старослужащие/сокамерники (нужное подчеркнуть) оставили наедине со статистическим пакетом, и вы пытаетесь понять, что от вас хотят? Знаете, тут вы почти в точку. Преподы не любят, когда их беспокоят студенты, т.к. по умолчанию, все что перпод наговорил на только ему понятно языке. Я просто стал читать как р-ты интерпретировать на примере интерпретаций р-тов хелпа по статистике. http://statosphere.ru/blog/125-discriminant.html там на примере цветов Фишера была показано интерпретация Код Очевидно, что первая дискриминантная функция отделяет главным образом сорт Setosa от других сортов ирисов. Каноническое среднее сорта Setosa Setosa очень сильно отличается от канонических средних других сортов. Вторая дискриминантная функция, по-видимому, предназначена для разделения главным образом сорта Versicol и других сортов, однако, как и следовало ожидать, основываясь на рассмотренных ранее собственных значениях, качество теперь много меньше. Можете этот отрывать легко найти. Просто нажмите F3 и вставьте текст. я делал по аналогии. например, там видно, что первый корень отличает цветы Setosa, а второй корень Versicol , так как у них веса большие. Т.о. я также стал это описывать. Хотя вообще меня напрягает не понимание, что значит отрицательный вес?

100$ Просмотр профиля	21.03.2014 - 11:06 Сообщение #8
Группа: Пользователи Сообщений: 902 Регистрация: 23.08.2010 Пользователь №: 22694	Цитата(kont @ 20.03.2014 - 22:19) Хотя вообще меня напрягает не понимание, что значит отрицательный вес? Конт, я же вас по-доброму просил напрягать извилину. Ибо извилина от неупотребления ржавеет сильнее, чем изнашивается от частого употребления. Вы вешаете цитату, в которой русским по белому написано, как интерпретируются различия канонических средних. Скажите, пожалуйста, с каких это пор средние по группам называются "весами"? Скорее уж весами являются стандартизированные коэффициенты канонических переменных. А то, что вы назвали весами, на самом деле представляют собой центры тяжести многомерных выборок - центроиды. Из цытаты следует, что если среднее канонических переменных по 1-ой дискриминантной функции (ДФ) (-1,609) (которая, кстати, вносит наибольший вклад в дискриминацию классов(групп)) сильнее всего отличается для группы 3 ( русский перевод G_3:5), то первая ДФ сильнее всего различает именно третью группу и в меньшей степени G_4:6. Вторая дискриминантная функция, в основном, дискриминирует группу G_4:6 и в меньшей степени группу G_1:3. От третьей ДФ во всех смыслах толку мало. Сообщение отредактировал 100$ - 21.03.2014 - 14:21

« Предыдущая тема · Медицинская статистика · Следующая тема »