Отбор лучших переменных |
Здравствуйте, гость ( Вход | Регистрация )
Отбор лучших переменных |
16.02.2016 - 10:06
Сообщение
#31
|
|
Группа: Пользователи Сообщений: 1091 Регистрация: 26.08.2010 Пользователь №: 22699 |
Факторный анализ. Потом вношу что получилось в регрессию. Скажите плиз а когда ранговые переменные (0,1,2), формируют уже методику где семь ранговых пунктов и соответственно баллов в ней от 0 до 14. Эта полученная новая переменная перестает быть ранговой и становится количественной? ну вот есть результат prcomp(data), что и куда из него вы дальше заносите? |
|
16.02.2016 - 14:30
Сообщение
#32
|
|
Группа: Пользователи Сообщений: 94 Регистрация: 18.06.2014 Пользователь №: 26469 |
Давайте тогда обрисую актуальную картину на теперешний момент. Есть методика оценивающая риск суицида. Она состоит из 20 пунктов (чем больше балл, тем больше риск суицида), каждый пункт ранговый: 0,1,2 (выраженность признака). Раньше было 2 методики по 20 пунктов но одну из них из-за разногласий с авторами пришлось убрать.
Оставшуюся методику мы её пробуем на отечественной группе лиц с определенным диагнозом для оценки риска повторного суицида. Набрали три группы человек: группа с повторными суицидами, группа с однократными суицидами и группа без суицидов вообще. Взяли Краскела - Уоллиса и просмотрели, что по суммарному баллу все группы различаются. Самостоятельная значимость (есть различия) определяется только у семи пунктов. Альфа всей методики и одной подшкалы "достаточная", других подшкал "плохая". Далее мы провели ФА всей методики (20 пунктов). Все самостоятельно значимые пункты объединяет в один фактор и альфа в нем "хорошая". Выделяется ещё факторы, их можно интерпретировать, но в них альфа "плохая". Дисперсия у всех получается плохая (у первого фактора 25%). Тогда подбором начали исключать переменные и оказалось, что при исключении всех переменных не обладающих собственной значимостью (Краскела - Уоллиса) методика преобразовалась в двухфакторную с хорошими альфами, хорошей дисперсией и интерпретацией. Далее мы третью группу без попыток суицида совсем оставляем, так как оцениваем риск повторности. Остается группа с повторными суицидами и с одиночными. И теперь у нас две методики. Изначальная (20 пунктов) и её двухфакторная модификация (7 пунктов). Проводим ROC-анализ, который говорит, что обе методики хороши в прогнозе повторности суицида (AUC более 0,7), у факторной модификации он почти 0,8. Далее мы пытаемся улучшить прогностичность уже полученной факторной модификации и добавляем в её две качественные и одну порядковую переменную посредствам регрессии. SPSS хвалит такое решение и выдает улучшенный прогноз и данные для формулы. Далее вставляем все данные и в формулу и получаем для каждого человека прогноз. Но когда вставляем выходные данные из полученных формул в ROC, то получается, что AUC стал хуже чем был (0,6). Вот такой вот велосипед ))) Сообщение отредактировал малой - 16.02.2016 - 16:06 |
|
16.02.2016 - 17:27
Сообщение
#33
|
|
Группа: Пользователи Сообщений: 902 Регистрация: 23.08.2010 Пользователь №: 22694 |
Давайте тогда обрисую актуальную картину на теперешний момент. Есть методика оценивающая риск суицида. Она состоит из 20 пунктов (чем больше балл, тем больше риск суицида), каждый пункт ранговый: 0,1,2 (выраженность признака). Раньше было 2 методики по 20 пунктов но одну из них из-за разногласий с авторами пришлось убрать. Оставшуюся методику мы её пробуем на отечественной группе лиц с определенным диагнозом для оценки риска повторного суицида. Набрали три группы человек: группа с повторными суицидами, группа с однократными суицидами и группа без суицидов вообще. Взяли Краскела - Уоллиса и просмотрели, что по суммарному баллу все группы различаются. Самостоятельная значимость (есть различия) определяется только у семи пунктов. Альфа всей методики и одной подшкалы "достаточная", других подшкал "плохая". Далее мы провели ФА всей методики (20 пунктов). Все самостоятельно значимые пункты объединяет в один фактор и альфа в нем "хорошая". Выделяется ещё факторы, их можно интерпретировать, но в них альфа "плохая". Дисперсия у всех получается плохая (у первого фактора 25%). Тогда подбором начали исключать переменные и оказалось, что при исключении всех переменных не обладающих собственной значимостью (Краскела - Уоллиса) методика преобразовалась в двухфакторную с хорошими альфами, хорошей дисперсией и интерпретацией. Далее мы третью группу без попыток суицида совсем оставляем, так как оцениваем риск повторности. Остается группа с повторными суицидами и с одиночными. И теперь у нас две методики. Изначальная (20 пунктов) и её двухфакторная модификация (7 пунктов). Проводим ROC-анализ, который говорит, что обе методики хороши в прогнозе повторности суицида (AUC более 0,7), у факторной модификации он почти 0,8. Далее мы пытаемся улучшить прогностичность уже полученной факторной модификации и добавляем в её две качественные и одну порядковую переменную посредствам регрессии. SPSS хвалит такое решение и выдает улучшенный прогноз и данные для формулы. Далее вставляем все данные и в формулу и получаем для каждого человека прогноз. Но когда вставляем выходные данные из полученных формул в ROC, то получается, что AUC стал хуже чем был (0,6). Вот такой вот велосипед ))) Может быть, вам лучше повозиться с моделью пропорциональных рисков Кокса? |
|
16.02.2016 - 22:53
Сообщение
#34
|
|
Группа: Пользователи Сообщений: 1091 Регистрация: 26.08.2010 Пользователь №: 22699 |
Давайте тогда обрисую актуальную картину на теперешний момент. Есть методика оценивающая риск суицида. Она состоит из 20 пунктов (чем больше балл, тем больше риск суицида), каждый пункт ранговый: 0,1,2 (выраженность признака). Раньше было 2 методики по 20 пунктов но одну из них из-за разногласий с авторами пришлось убрать. Оставшуюся методику мы её пробуем на отечественной группе лиц с определенным диагнозом для оценки риска повторного суицида. Набрали три группы человек: группа с повторными суицидами, группа с однократными суицидами и группа без суицидов вообще. Взяли Краскела - Уоллиса и просмотрели, что по суммарному баллу все группы различаются. Самостоятельная значимость (есть различия) определяется только у семи пунктов. Альфа всей методики и одной подшкалы "достаточная", других подшкал "плохая". Далее мы провели ФА всей методики (20 пунктов). Все самостоятельно значимые пункты объединяет в один фактор и альфа в нем "хорошая". Выделяется ещё факторы, их можно интерпретировать, но в них альфа "плохая". Дисперсия у всех получается плохая (у первого фактора 25%). Тогда подбором начали исключать переменные и оказалось, что при исключении всех переменных не обладающих собственной значимостью (Краскела - Уоллиса) методика преобразовалась в двухфакторную с хорошими альфами, хорошей дисперсией и интерпретацией. Далее мы третью группу без попыток суицида совсем оставляем, так как оцениваем риск повторности. Остается группа с повторными суицидами и с одиночными. И теперь у нас две методики. Изначальная (20 пунктов) и её двухфакторная модификация (7 пунктов). Проводим ROC-анализ, который говорит, что обе методики хороши в прогнозе повторности суицида (AUC более 0,7), у факторной модификации он почти 0,8. Далее мы пытаемся улучшить прогностичность уже полученной факторной модификации и добавляем в её две качественные и одну порядковую переменную посредствам регрессии. SPSS хвалит такое решение и выдает улучшенный прогноз и данные для формулы. Далее вставляем все данные и в формулу и получаем для каждого человека прогноз. Но когда вставляем выходные данные из полученных формул в ROC, то получается, что AUC стал хуже чем был (0,6). Вот такой вот велосипед ))) 1. Помимо AUC есть Йоудена критерий, который учитывает по крайней мере частоту исходов в популяции реальную (например неравный размер групп), так что "не AUC едимым" (вполне можно придумать такую форму ROC которая будет иметь меньшую площадь и лучший результат для конкретного решения . 2. Просто все закидываем в Boruta и получаем набор доказанных бутстрепом значимых для решения показателей. Уже их взаимодействие можно рассматривать PCA и всякими методами восстанавливающими причинно-следственные связи. Иначе слишком много ручной работы и негарантированный результат. Как можно игнорировать специальные методы отбора переменных в пользу велосипеда? Сообщение отредактировал p2004r - 16.02.2016 - 22:53 |
|
16.02.2016 - 23:15
Сообщение
#35
|
|
Группа: Пользователи Сообщений: 94 Регистрация: 18.06.2014 Пользователь №: 26469 |
Может хоть немного меня оправдает то, что все переменные взяты из узконаправленных специализированных методик, которые прошли многократные стат. проверки. Дайте пожалуйста ссылочки на Boruta и модель Кокса "для чайников".
|
|
17.02.2016 - 00:18
Сообщение
#36
|
|
Группа: Пользователи Сообщений: 902 Регистрация: 23.08.2010 Пользователь №: 22694 |
Может хоть немного меня оправдает то, что все переменные взяты из узконаправленных специализированных методик, которые прошли многократные стат. проверки. Дайте пожалуйста ссылочки на Boruta и модель Кокса "для чайников". Регрессия Кокса Сообщение отредактировал 100$ - 17.02.2016 - 00:20 |
|
17.02.2016 - 12:02
Сообщение
#37
|
|
Группа: Пользователи Сообщений: 1325 Регистрация: 27.11.2007 Пользователь №: 4573 |
Из робко сформулированной цели все же ясно, что данные собраны не для ответа на вопрос о времени наступления повторной попытки, т.е. нет времени начала наблюдения и даты попытки, что необходимо для регрессии Кокса. Необходимо просто проанализировать стандартные психиатрические шкалы в определенной когорте больных, чтобы предложить диагностическое правило для лиц с высокой вероятностью повторного суицида. Стандартные шкалы имеют конкретный набор вопросов и 2 или 3 варианта ответов, может быть и больше. Как правило, оценка проводится тупо по сумме набранных по всем элементам шкалы баллов. Так, например, в России проверялась шкала HCL32 и оптимальной точкой разделения для двух состояний БАРII и РДР (малой поймет) также,как и в других европейских странах отределена сумма по 32 вопросам >14, (испотльзован ROCанализ). Адаптация другой шкалы для других психиатрических задач в наших условиях заключалась в том, что часть вопросов для наших подростков были не актуальны, редко были положительные ответы например на вопрос часто ли вы водите машину в пьяном виде, поскольку наши подростки не имеют прав, но отсутствие отца в семье явился весьма значимым фактором риска у подростков имеющий попытки. Адаптация шкалы может заключаться в том, что часть вопросов могут быть заменены другими, а также в том, что может быть проведено "взвешивание" каждого элемента шкалы и предложить использовать сумму после взвешивания.
|
|
17.02.2016 - 12:40
Сообщение
#38
|
|
Группа: Пользователи Сообщений: 1091 Регистрация: 26.08.2010 Пользователь №: 22699 |
Может хоть немного меня оправдает то, что все переменные взяты из узконаправленных специализированных методик, которые прошли многократные стат. проверки. Дайте пожалуйста ссылочки на Boruta и модель Кокса "для чайников". Уже несколько раз приводил: https://m2.icm.edu.pl/boruta/ Свежая 5я версия многопоточна и очень быстра. |
|
20.02.2016 - 22:38
Сообщение
#39
|
|
Группа: Пользователи Сообщений: 94 Регистрация: 18.06.2014 Пользователь №: 26469 |
Оказывается, что spss сама считает и вероятности после логистической регрессии))
Вероятности вставил в ROC и модель ожидаемо улучшилась. Но когда решил вручную посчитать вероятность для одного из пациентов, то не выходит чего-то. Может кто-нить подскажет, что не так. Набор переменных для конкретного пациента: методика, дихотомX (0,1), дихотомY (0,1), порядковая (0,1,2) 15, 0, 1, 2 Если все переменные вбивать как количественные, то spss выдает коэффициенты : В (методика) = 0,274 В (дихотомХ)= 0,926 В (дихотомY)= 1,104 В (порядковая) = 0,830 В (константа) = - 3,837 получается следующее уравнение: Z =0,274*15+0,926*0+1,104*1+0,830*2-3,837= 3,037 exp(-3.037)=0,048 ergo 1/1,048=0,953 SPSS тоже так посчитала вероятность = 0,953. Всё сошлось. Теперь с этим же набором данных вводим последних три переменных как нужно, то есть категориальными и получаем коэффициенты: В (методика) = -0,286 В (1) (дихотомХ)= 0,871 В (1) (дихотомY)= 1,191 В (1) (порядковая) = 1,921 В (2) (порядковая) = 1,642 В (константа) = - 0,077 Z = -0,286*15+0*0+1,191*1+1,642*2-0,077= -0,585 exp(0.585)=1.791 ergo 1/2,791=0,358 А вот SPSS посчитала, что должна вероятность быть 0,97044. И это правильно. Скажите пожалуйста, что я сделал не так в ручном подсчете? Сообщение отредактировал малой - 20.02.2016 - 22:44 |
|
21.02.2016 - 01:40
Сообщение
#40
|
|
Группа: Пользователи Сообщений: 902 Регистрация: 23.08.2010 Пользователь №: 22694 |
Теперь с этим же набором данных вводим последних три переменных как нужно, то есть категориальными и получаем коэффициенты: В (методика) = -0,286 В (1) (дихотомХ)= 0,871 В (1) (дихотомY)= 1,191 В (1) (порядковая) = 1,921 В (2) (порядковая) = 1,642 В (константа) = - 0,077 exp(0.585)=1.791 ergo 1/2,791=0,358 А вот SPSS посчитала, что должна вероятность быть 0,97044. И это правильно. Скажите пожалуйста, что я сделал не так в ручном подсчете? Завтра в школу с родителями |
|
21.02.2016 - 06:58
Сообщение
#41
|
|
Группа: Пользователи Сообщений: 94 Регистрация: 18.06.2014 Пользователь №: 26469 |
Уже 100 раз пересчитал, и с родителями тоже))
Не получается цифра как в spss. Подскажите уже плиз двоечнику )) Дайте списать )) Сообщение отредактировал малой - 21.02.2016 - 07:12 |
|
21.02.2016 - 13:13
Сообщение
#42
|
|
Группа: Пользователи Сообщений: 902 Регистрация: 23.08.2010 Пользователь №: 22694 |
|
|
21.02.2016 - 13:38
Сообщение
#43
|
|
Группа: Пользователи Сообщений: 127 Регистрация: 15.12.2015 Пользователь №: 27760 |
Так а где коэффициенты ,871*??? + 1,921*??? Даже в приведенном выражении -,585 никак не получается. Получается ,108. Если значения факторов равны нулю для этого пациента, то коэффициенты и не нужны. Если же они не равны нулю, а просто пропущены в расчетах, то получается уже что-то похожее на результат из SPSS, но все равно не совпадает. |
|
21.02.2016 - 13:55
Сообщение
#44
|
|
Группа: Пользователи Сообщений: 902 Регистрация: 23.08.2010 Пользователь №: 22694 |
Если значения факторов равны нулю для этого пациента, то коэффициенты и не нужны. Если же они не равны нулю, а просто пропущены в расчетах, то получается уже что-то похожее на результат из SPSS, но все равно не совпадает. Для дихотомической переменной ДихотомХ с коэффициентом ,871 это может быть так, а вот для порядковой с коэф-том 1,921 - уж извините. И вообще, если уж выкладываешь расчет на всеобщее оборзение, то будь добр, запиши его secundum artem. Собственно, об этом и пост был. |
|
21.02.2016 - 14:13
Сообщение
#45
|
|
Группа: Пользователи Сообщений: 94 Регистрация: 18.06.2014 Пользователь №: 26469 |
Там где коэффициент 0,871 значение переменной 0, а где коэффициент 1,921 то значение переменной 2 и поэтому используется коэффициент 1,642.
|
|