Помогите разобраться с дискриминантным анализом |
Здравствуйте, гость ( Вход | Регистрация )
Помогите разобраться с дискриминантным анализом |
10.03.2014 - 23:13
Сообщение
#1
|
|
Группа: Пользователи Сообщений: 149 Регистрация: 11.02.2014 Пользователь №: 26005 |
Помогите, пожалуйста, разобраться с дискриминантым анализом. Например, из 20 переменных, у меня в модель , после 7 шагов было включено нес-ко пременных ,но почему они был вкл. в модель ,Если только 2 из них стат. достоверны.?
Читаю определение толерантности переменной - Значение толерантности переменной вычисляется как 1 минус R-квадрат. Поэтому значение толерантности является мерой избыточности переменной. Я просто не могу понять, что значит избыточность переменной? |
|
11.03.2014 - 20:25
Сообщение
#2
|
|
Группа: Пользователи Сообщений: 902 Регистрация: 23.08.2010 Пользователь №: 22694 |
Помогите, пожалуйста, разобраться с дискриминантым анализом. Например, из 20 переменных, у меня в модель , после 7 шагов было включено нес-ко пременных ,но почему они был вкл. в модель ,Если только 2 из них стат. достоверны.? Читаю определение толерантности переменной - Значение толерантности переменной вычисляется как 1 минус R-квадрат. Поэтому значение толерантности является мерой избыточности переменной. Я просто не могу понять, что значит избыточность переменной? Цитата почему они был вкл. в модель ,Если только 2 из них стат. достоверны.? Корректный оборот выглядит так: "статистически значимы на, н-р, 5%-ном уровне значимости". На 1% -ном уровне они все незначимы. А вы чего, собственно, хотели? Количество переменнных в модели ( ее спецификацию) определяет исследователь. Статпакет честно (и очень быстро) оценивает то, что ему предложили оценить. А потом вежливо намекает вам, что переменные, не дотягивающие до порога отсечения (F-remove) можно безболезненно удалить, поскольку толку от них никакого. Сам он решений за вас не принимает и ничего из модели не выкидывает. Цитата Я просто не могу понять, что значит избыточность переменной? Это надо понимать буквально: статистически незначимый параметр модели ничего не объясняет в дисперсии зависимой переменной. Просто при усложнении модели R2 никогда не уменьшается, однако степени свободы при этом расходуются. Поэтому и ориентируются в таких случаях на скорректированный R2. |
|
12.03.2014 - 23:59
Сообщение
#3
|
|
Группа: Пользователи Сообщений: 149 Регистрация: 11.02.2014 Пользователь №: 26005 |
а почему они не значимы на 1% уровне?
Код Статпакет честно (и очень быстро) оценивает то, что ему предложили оценить. А потом вежливо намекает вам, что переменные, не дотягивающие до порога отсечения (F-remove) можно безболезненно удалить, поскольку толку от них никакого. Да, но он оставил в моделе переменные, которые не стат.достоверно могут оказывать влияние. я просто подумал, что конечная модель должна включать в себя переменные, которые оказывают влияние, говоря по-детски , те что красненьким помечаются. Так я правильно понимаю, что избыточность это мера корреляции 2х переменных, т.к. если они коррелируеют с друг другом сильно положительно, то они измеряют что-то одно. |
|
13.03.2014 - 00:17
Сообщение
#4
|
|
Группа: Пользователи Сообщений: 149 Регистрация: 11.02.2014 Пользователь №: 26005 |
да и такой момент
на картинке мы видим ,что первый корень наиболее нагружен переменной Х1=1,0107 и переменной х2=-0,44 таблица средних канонических переменных показывает, что первый корень больше дисриминирует Номинативную переменную под кодом 3. =-1,609 Правильно ли интерпретировать это так, что чем больше выражен признак Х1 и меньше Х2, тем более вероятно, что они характеризуют Номинативную переменную под кодом 3. |
|
13.03.2014 - 12:44
Сообщение
#5
|
|
Группа: Пользователи Сообщений: 902 Регистрация: 23.08.2010 Пользователь №: 22694 |
Цитата а почему они не значимы на 1% уровне? А все потому, что достигаемый уровень значимости (p-value) > .01. Цитата я просто подумал, что конечная модель должна включать в себя переменные, которые оказывают влияние, говоря по-детски , те что красненьким помечаются. Правильно подумали, только после того, как пакет выдал вам протокол оценивания модели с 7 параметрами, 5 из которых статистически незначимы, вы сами выбрасываете их из модели и переоцениваете ее для оставшихся двух. Цитата Так я правильно понимаю, что избыточность это мера корреляции 2х переменных, т.к. если они коррелируеют с друг другом сильно положительно, то они измеряют что-то одно. Ну, предположим на мгновение, что длина носа "сильно положительно" коррелирует с длиной пениса. Какое такое "одно" они при этом "измеряют"? Избыточность параметра модели - это степень его ненужности для целей объяснения дисперсии зависимой переменной. Сообщение отредактировал 100$ - 13.03.2014 - 12:54 |
|
13.03.2014 - 12:57
Сообщение
#6
|
|
Группа: Пользователи Сообщений: 902 Регистрация: 23.08.2010 Пользователь №: 22694 |
да и такой момент на картинке мы видим ,что первый корень наиболее нагружен переменной Х1=1,0107 и переменной х2=-0,44 таблица средних канонических переменных показывает, что первый корень больше дисриминирует Номинативную переменную под кодом 3. =-1,609 Правильно ли интерпретировать это так, что чем больше выражен признак Х1 и меньше Х2, тем более вероятно, что они характеризуют Номинативную переменную под кодом 3. Вас что, злые преподаватели/родители/старослужащие/сокамерники (нужное подчеркнуть) оставили наедине со статистическим пакетом, и вы пытаетесь понять, что от вас хотят? Вообще-то в дискриминантном анализе единицей статистического наблюдения является объект, и линейная комбинация дискриминантных переменных являет собой дискриминантную функцию, которая дискриминирует (разделяет) классы, к которым принадлежит объект (т.е. распознавание образов с учителем, т.е. обучающей выборкой). При этом дискриминантные переменные вовсе не должны объяснять друг друга. Сообщение отредактировал 100$ - 13.03.2014 - 22:51 |
|
20.03.2014 - 21:19
Сообщение
#7
|
|
Группа: Пользователи Сообщений: 149 Регистрация: 11.02.2014 Пользователь №: 26005 |
Код Ну, предположим на мгновение, что длина носа "сильно положительно" коррелирует с длиной пениса. Какое такое "одно" они при этом "измеряют"? Избыточность параметра модели - это степень его ненужности для целей объяснения дисперсии зависимой переменной. Это было сказано сверх понятно Код Вас что, злые преподаватели/родители/старослужащие/сокамерники (нужное подчеркнуть) оставили наедине со статистическим пакетом, и вы пытаетесь понять, что от вас хотят? Знаете, тут вы почти в точку. Преподы не любят, когда их беспокоят студенты, т.к. по умолчанию, все что перпод наговорил на только ему понятно языке. Я просто стал читать как р-ты интерпретировать на примере интерпретаций р-тов хелпа по статистике. http://statosphere.ru/blog/125-discriminant.html там на примере цветов Фишера была показано интерпретация Код Очевидно, что первая дискриминантная функция отделяет главным образом сорт Setosa от других сортов ирисов. Каноническое среднее сорта Setosa Setosa очень сильно отличается от канонических средних других сортов. Вторая дискриминантная функция, по-видимому, предназначена для разделения главным образом сорта Versicol и других сортов, однако, как и следовало ожидать, основываясь на рассмотренных ранее собственных значениях, качество теперь много меньше. Можете этот отрывать легко найти. Просто нажмите F3 и вставьте текст. я делал по аналогии. например, там видно, что первый корень отличает цветы Setosa, а второй корень Versicol , так как у них веса большие. Т.о. я также стал это описывать. Хотя вообще меня напрягает не понимание, что значит отрицательный вес? |
|
21.03.2014 - 11:06
Сообщение
#8
|
|
Группа: Пользователи Сообщений: 902 Регистрация: 23.08.2010 Пользователь №: 22694 |
Хотя вообще меня напрягает не понимание, что значит отрицательный вес? Конт, я же вас по-доброму просил напрягать извилину. Ибо извилина от неупотребления ржавеет сильнее, чем изнашивается от частого употребления. Вы вешаете цитату, в которой русским по белому написано, как интерпретируются различия канонических средних. Скажите, пожалуйста, с каких это пор средние по группам называются "весами"? Скорее уж весами являются стандартизированные коэффициенты канонических переменных. А то, что вы назвали весами, на самом деле представляют собой центры тяжести многомерных выборок - центроиды. Из цытаты следует, что если среднее канонических переменных по 1-ой дискриминантной функции (ДФ) (-1,609) (которая, кстати, вносит наибольший вклад в дискриминацию классов(групп)) сильнее всего отличается для группы 3 ( русский перевод G_3:5), то первая ДФ сильнее всего различает именно третью группу и в меньшей степени G_4:6. Вторая дискриминантная функция, в основном, дискриминирует группу G_4:6 и в меньшей степени группу G_1:3. От третьей ДФ во всех смыслах толку мало. Сообщение отредактировал 100$ - 21.03.2014 - 14:21 |
|