Форум врачей-аспирантов

Здравствуйте, гость ( Вход | Регистрация )

6 страниц V  < 1 2 3 4 5 > »   
Добавить ответ в эту темуОткрыть тему
> Отбор лучших переменных
p2004r
сообщение 16.02.2016 - 10:06
Сообщение #31





Группа: Пользователи
Сообщений: 1091
Регистрация: 26.08.2010
Пользователь №: 22699



Цитата(малой @ 16.02.2016 - 08:07) *
Факторный анализ. Потом вношу что получилось в регрессию.

Скажите плиз а когда ранговые переменные (0,1,2), формируют уже методику где семь ранговых пунктов и соответственно баллов в ней от 0 до 14. Эта полученная новая переменная перестает быть ранговой и становится количественной?



ну вот есть результат prcomp(data), что и куда из него вы дальше заносите?


Signature
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
малой
сообщение 16.02.2016 - 14:30
Сообщение #32





Группа: Пользователи
Сообщений: 94
Регистрация: 18.06.2014
Пользователь №: 26469



Давайте тогда обрисую актуальную картину на теперешний момент. Есть методика оценивающая риск суицида. Она состоит из 20 пунктов (чем больше балл, тем больше риск суицида), каждый пункт ранговый: 0,1,2 (выраженность признака). Раньше было 2 методики по 20 пунктов но одну из них из-за разногласий с авторами пришлось убрать.

Оставшуюся методику мы её пробуем на отечественной группе лиц с определенным диагнозом для оценки риска повторного суицида. Набрали три группы человек: группа с повторными суицидами, группа с однократными суицидами и группа без суицидов вообще.
Взяли Краскела - Уоллиса и просмотрели, что по суммарному баллу все группы различаются. Самостоятельная значимость (есть различия) определяется только у семи пунктов.
Альфа всей методики и одной подшкалы "достаточная", других подшкал "плохая". Далее мы провели ФА всей методики (20 пунктов). Все самостоятельно значимые пункты объединяет в один фактор и альфа в нем "хорошая". Выделяется ещё факторы, их можно интерпретировать, но в них альфа "плохая". Дисперсия у всех получается плохая (у первого фактора 25%). Тогда подбором начали исключать переменные и оказалось, что при исключении всех переменных не обладающих собственной значимостью (Краскела - Уоллиса) методика преобразовалась в двухфакторную с хорошими альфами, хорошей дисперсией и интерпретацией.


Далее мы третью группу без попыток суицида совсем оставляем, так как оцениваем риск повторности. Остается группа с повторными суицидами и с одиночными. И теперь у нас две методики. Изначальная (20 пунктов) и её двухфакторная модификация (7 пунктов).
Проводим ROC-анализ, который говорит, что обе методики хороши в прогнозе повторности суицида (AUC более 0,7), у факторной модификации он почти 0,8.
Далее мы пытаемся улучшить прогностичность уже полученной факторной модификации и добавляем в её две качественные и одну порядковую переменную посредствам регрессии. SPSS хвалит такое решение и выдает улучшенный прогноз и данные для формулы. Далее вставляем все данные и в формулу и получаем для каждого человека прогноз.
Но когда вставляем выходные данные из полученных формул в ROC, то получается, что AUC стал хуже чем был (0,6).

Вот такой вот велосипед )))

Сообщение отредактировал малой - 16.02.2016 - 16:06
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
100$
сообщение 16.02.2016 - 17:27
Сообщение #33





Группа: Пользователи
Сообщений: 902
Регистрация: 23.08.2010
Пользователь №: 22694



Цитата(малой @ 16.02.2016 - 14:30) *
Давайте тогда обрисую актуальную картину на теперешний момент. Есть методика оценивающая риск суицида. Она состоит из 20 пунктов (чем больше балл, тем больше риск суицида), каждый пункт ранговый: 0,1,2 (выраженность признака). Раньше было 2 методики по 20 пунктов но одну из них из-за разногласий с авторами пришлось убрать.

Оставшуюся методику мы её пробуем на отечественной группе лиц с определенным диагнозом для оценки риска повторного суицида. Набрали три группы человек: группа с повторными суицидами, группа с однократными суицидами и группа без суицидов вообще.
Взяли Краскела - Уоллиса и просмотрели, что по суммарному баллу все группы различаются. Самостоятельная значимость (есть различия) определяется только у семи пунктов.
Альфа всей методики и одной подшкалы "достаточная", других подшкал "плохая". Далее мы провели ФА всей методики (20 пунктов). Все самостоятельно значимые пункты объединяет в один фактор и альфа в нем "хорошая". Выделяется ещё факторы, их можно интерпретировать, но в них альфа "плохая". Дисперсия у всех получается плохая (у первого фактора 25%). Тогда подбором начали исключать переменные и оказалось, что при исключении всех переменных не обладающих собственной значимостью (Краскела - Уоллиса) методика преобразовалась в двухфакторную с хорошими альфами, хорошей дисперсией и интерпретацией.


Далее мы третью группу без попыток суицида совсем оставляем, так как оцениваем риск повторности. Остается группа с повторными суицидами и с одиночными. И теперь у нас две методики. Изначальная (20 пунктов) и её двухфакторная модификация (7 пунктов).
Проводим ROC-анализ, который говорит, что обе методики хороши в прогнозе повторности суицида (AUC более 0,7), у факторной модификации он почти 0,8.
Далее мы пытаемся улучшить прогностичность уже полученной факторной модификации и добавляем в её две качественные и одну порядковую переменную посредствам регрессии. SPSS хвалит такое решение и выдает улучшенный прогноз и данные для формулы. Далее вставляем все данные и в формулу и получаем для каждого человека прогноз.
Но когда вставляем выходные данные из полученных формул в ROC, то получается, что AUC стал хуже чем был (0,6).

Вот такой вот велосипед )))


Может быть, вам лучше повозиться с моделью пропорциональных рисков Кокса?
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
p2004r
сообщение 16.02.2016 - 22:53
Сообщение #34





Группа: Пользователи
Сообщений: 1091
Регистрация: 26.08.2010
Пользователь №: 22699



Цитата(малой @ 16.02.2016 - 14:30) *
Давайте тогда обрисую актуальную картину на теперешний момент. Есть методика оценивающая риск суицида. Она состоит из 20 пунктов (чем больше балл, тем больше риск суицида), каждый пункт ранговый: 0,1,2 (выраженность признака). Раньше было 2 методики по 20 пунктов но одну из них из-за разногласий с авторами пришлось убрать.

Оставшуюся методику мы её пробуем на отечественной группе лиц с определенным диагнозом для оценки риска повторного суицида. Набрали три группы человек: группа с повторными суицидами, группа с однократными суицидами и группа без суицидов вообще.
Взяли Краскела - Уоллиса и просмотрели, что по суммарному баллу все группы различаются. Самостоятельная значимость (есть различия) определяется только у семи пунктов.
Альфа всей методики и одной подшкалы "достаточная", других подшкал "плохая". Далее мы провели ФА всей методики (20 пунктов). Все самостоятельно значимые пункты объединяет в один фактор и альфа в нем "хорошая". Выделяется ещё факторы, их можно интерпретировать, но в них альфа "плохая". Дисперсия у всех получается плохая (у первого фактора 25%). Тогда подбором начали исключать переменные и оказалось, что при исключении всех переменных не обладающих собственной значимостью (Краскела - Уоллиса) методика преобразовалась в двухфакторную с хорошими альфами, хорошей дисперсией и интерпретацией.


Далее мы третью группу без попыток суицида совсем оставляем, так как оцениваем риск повторности. Остается группа с повторными суицидами и с одиночными. И теперь у нас две методики. Изначальная (20 пунктов) и её двухфакторная модификация (7 пунктов).
Проводим ROC-анализ, который говорит, что обе методики хороши в прогнозе повторности суицида (AUC более 0,7), у факторной модификации он почти 0,8.
Далее мы пытаемся улучшить прогностичность уже полученной факторной модификации и добавляем в её две качественные и одну порядковую переменную посредствам регрессии. SPSS хвалит такое решение и выдает улучшенный прогноз и данные для формулы. Далее вставляем все данные и в формулу и получаем для каждого человека прогноз.
Но когда вставляем выходные данные из полученных формул в ROC, то получается, что AUC стал хуже чем был (0,6).

Вот такой вот велосипед )))


1. Помимо AUC есть Йоудена критерий, который учитывает по крайней мере частоту исходов в популяции реальную (например неравный размер групп), так что "не AUC едимым" (вполне можно придумать такую форму ROC которая будет иметь меньшую площадь и лучший результат для конкретного решения smile.gif.

2. Просто все закидываем в Boruta и получаем набор доказанных бутстрепом значимых для решения показателей. Уже их взаимодействие можно рассматривать PCA и всякими методами восстанавливающими причинно-следственные связи. Иначе слишком много ручной работы и негарантированный результат.

Как можно игнорировать специальные методы отбора переменных в пользу велосипеда?

Сообщение отредактировал p2004r - 16.02.2016 - 22:53


Signature
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
малой
сообщение 16.02.2016 - 23:15
Сообщение #35





Группа: Пользователи
Сообщений: 94
Регистрация: 18.06.2014
Пользователь №: 26469



Может хоть немного меня оправдает то, что все переменные взяты из узконаправленных специализированных методик, которые прошли многократные стат. проверки. Дайте пожалуйста ссылочки на Boruta и модель Кокса "для чайников".
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
100$
сообщение 17.02.2016 - 00:18
Сообщение #36





Группа: Пользователи
Сообщений: 902
Регистрация: 23.08.2010
Пользователь №: 22694



Цитата(малой @ 16.02.2016 - 23:15) *
Может хоть немного меня оправдает то, что все переменные взяты из узконаправленных специализированных методик, которые прошли многократные стат. проверки. Дайте пожалуйста ссылочки на Boruta и модель Кокса "для чайников".


Регрессия Кокса

Сообщение отредактировал 100$ - 17.02.2016 - 00:20
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
DrgLena
сообщение 17.02.2016 - 12:02
Сообщение #37





Группа: Пользователи
Сообщений: 1325
Регистрация: 27.11.2007
Пользователь №: 4573



Из робко сформулированной цели все же ясно, что данные собраны не для ответа на вопрос о времени наступления повторной попытки, т.е. нет времени начала наблюдения и даты попытки, что необходимо для регрессии Кокса. Необходимо просто проанализировать стандартные психиатрические шкалы в определенной когорте больных, чтобы предложить диагностическое правило для лиц с высокой вероятностью повторного суицида. Стандартные шкалы имеют конкретный набор вопросов и 2 или 3 варианта ответов, может быть и больше. Как правило, оценка проводится тупо по сумме набранных по всем элементам шкалы баллов. Так, например, в России проверялась шкала HCL32 и оптимальной точкой разделения для двух состояний БАРII и РДР (малой поймет) также,как и в других европейских странах отределена сумма по 32 вопросам >14, (испотльзован ROCанализ). Адаптация другой шкалы для других психиатрических задач в наших условиях заключалась в том, что часть вопросов для наших подростков были не актуальны, редко были положительные ответы например на вопрос часто ли вы водите машину в пьяном виде, поскольку наши подростки не имеют прав, но отсутствие отца в семье явился весьма значимым фактором риска у подростков имеющий попытки. Адаптация шкалы может заключаться в том, что часть вопросов могут быть заменены другими, а также в том, что может быть проведено "взвешивание" каждого элемента шкалы и предложить использовать сумму после взвешивания.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
p2004r
сообщение 17.02.2016 - 12:40
Сообщение #38





Группа: Пользователи
Сообщений: 1091
Регистрация: 26.08.2010
Пользователь №: 22699



Цитата(малой @ 16.02.2016 - 23:15) *
Может хоть немного меня оправдает то, что все переменные взяты из узконаправленных специализированных методик, которые прошли многократные стат. проверки. Дайте пожалуйста ссылочки на Boruta и модель Кокса "для чайников".


Уже несколько раз приводил:
https://m2.icm.edu.pl/boruta/

Свежая 5я версия многопоточна и очень быстра.


Signature
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
малой
сообщение 20.02.2016 - 22:38
Сообщение #39





Группа: Пользователи
Сообщений: 94
Регистрация: 18.06.2014
Пользователь №: 26469



Оказывается, что spss сама считает и вероятности после логистической регрессии))
Вероятности вставил в ROC и модель ожидаемо улучшилась. Но когда решил вручную посчитать вероятность для одного из пациентов, то не выходит чего-то. Может кто-нить подскажет, что не так.
Набор переменных для конкретного пациента:
методика, дихотомX (0,1), дихотомY (0,1), порядковая (0,1,2)
15, 0, 1, 2
Если все переменные вбивать как количественные, то spss выдает коэффициенты :
В (методика) = 0,274
В (дихотомХ)= 0,926
В (дихотомY)= 1,104
В (порядковая) = 0,830
В (константа) = - 3,837
получается следующее уравнение:
Z =0,274*15+0,926*0+1,104*1+0,830*2-3,837= 3,037
exp(-3.037)=0,048 ergo 1/1,048=0,953
SPSS тоже так посчитала вероятность = 0,953. Всё сошлось.

Теперь с этим же набором данных вводим последних три переменных как нужно, то есть категориальными и получаем коэффициенты:
В (методика) = -0,286
В (1) (дихотомХ)= 0,871
В (1) (дихотомY)= 1,191
В (1) (порядковая) = 1,921
В (2) (порядковая) = 1,642
В (константа) = - 0,077

Z = -0,286*15+0*0+1,191*1+1,642*2-0,077= -0,585
exp(0.585)=1.791 ergo 1/2,791=0,358
А вот SPSS посчитала, что должна вероятность быть 0,97044. И это правильно. Скажите пожалуйста, что я сделал не так в ручном подсчете?

Сообщение отредактировал малой - 20.02.2016 - 22:44
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
100$
сообщение 21.02.2016 - 01:40
Сообщение #40





Группа: Пользователи
Сообщений: 902
Регистрация: 23.08.2010
Пользователь №: 22694



Цитата(малой @ 20.02.2016 - 22:38) *
Теперь с этим же набором данных вводим последних три переменных как нужно, то есть категориальными и получаем коэффициенты:
В (методика) = -0,286
В (1) (дихотомХ)= 0,871
В (1) (дихотомY)= 1,191
В (1) (порядковая) = 1,921
В (2) (порядковая) = 1,642
В (константа) = - 0,077

Z = -0,286*15+0*0+1,191*1+1,642*2-0,077= -0,585 Двойка!

exp(0.585)=1.791 ergo 1/2,791=0,358
А вот SPSS посчитала, что должна вероятность быть 0,97044. И это правильно. Скажите пожалуйста, что я сделал не так в ручном подсчете?


Завтра в школу с родителями
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
малой
сообщение 21.02.2016 - 06:58
Сообщение #41





Группа: Пользователи
Сообщений: 94
Регистрация: 18.06.2014
Пользователь №: 26469



Уже 100 раз пересчитал, и с родителями тоже))
Не получается цифра как в spss. Подскажите уже плиз двоечнику ))
Дайте списать ))

Сообщение отредактировал малой - 21.02.2016 - 07:12
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
100$
сообщение 21.02.2016 - 13:13
Сообщение #42





Группа: Пользователи
Сообщений: 902
Регистрация: 23.08.2010
Пользователь №: 22694



Цитата(малой @ 21.02.2016 - 06:58) *
Уже 100 раз пересчитал, и с родителями тоже))
Не получается цифра как в spss. Подскажите уже плиз двоечнику ))
Дайте списать ))


Так а где коэффициенты ,871*??? + 1,921*???

Даже в приведенном выражении -,585 никак не получается. Получается ,108.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
ogurtsov
сообщение 21.02.2016 - 13:38
Сообщение #43





Группа: Пользователи
Сообщений: 127
Регистрация: 15.12.2015
Пользователь №: 27760



Цитата(100$ @ 21.02.2016 - 14:13) *
Так а где коэффициенты ,871*??? + 1,921*???

Даже в приведенном выражении -,585 никак не получается. Получается ,108.


Если значения факторов равны нулю для этого пациента, то коэффициенты и не нужны.
Если же они не равны нулю, а просто пропущены в расчетах, то получается уже что-то похожее на результат из SPSS, но все равно не совпадает.


Signature
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
100$
сообщение 21.02.2016 - 13:55
Сообщение #44





Группа: Пользователи
Сообщений: 902
Регистрация: 23.08.2010
Пользователь №: 22694



Цитата(ogurtsov @ 21.02.2016 - 13:38) *
Если значения факторов равны нулю для этого пациента, то коэффициенты и не нужны.
Если же они не равны нулю, а просто пропущены в расчетах, то получается уже что-то похожее на результат из SPSS, но все равно не совпадает.


Для дихотомической переменной ДихотомХ с коэффициентом ,871 это может быть так, а вот для порядковой с коэф-том 1,921 - уж извините.

И вообще, если уж выкладываешь расчет на всеобщее оборзение, то будь добр, запиши его secundum artem. Собственно, об этом и пост был.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
малой
сообщение 21.02.2016 - 14:13
Сообщение #45





Группа: Пользователи
Сообщений: 94
Регистрация: 18.06.2014
Пользователь №: 26469



Там где коэффициент 0,871 значение переменной 0, а где коэффициент 1,921 то значение переменной 2 и поэтому используется коэффициент 1,642.

Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 

6 страниц V  < 1 2 3 4 5 > » 
Добавить ответ в эту темуОткрыть тему