Прогнозирование риска рецидивов, Statistica 6 |
Здравствуйте, гость ( Вход | Регистрация )
Прогнозирование риска рецидивов, Statistica 6 |
19.10.2008 - 15:06
Сообщение
#1
|
|
Группа: Пользователи Сообщений: 15 Регистрация: 19.10.2008 Пользователь №: 5416 |
Здравствуйте!
Извините за возможно глупый вопрос, но мне очень нужна помощь, может кто сталкивался как можно в программе Statistica рассчитать прогнозирование риска развития рецидивов заболевания, если известны пол, возраст, избыточная масса тела, и еще три признака(у части пациентов имеется или отсутствуют), всего пациентов 60, из них 20 мужчины, остальные женщины. При чем как рабочая гипотеза - что риск заболевания чаще всего у женщин, возраст старше 40 и с избыточной массой тела? Заранее спасибо за помощь! |
|
19.10.2008 - 15:46
Сообщение
#2
|
|
Группа: Пользователи Сообщений: 377 Регистрация: 18.08.2008 Из: Москва Златоглавая Пользователь №: 5224 |
СмотрИте обсуждение вопроса "Как создать формулу для расчета прогноза?", на 4 сообщения ниже. Вам нужна логистическая регрессия и 2 группы пациентов: с осложнениями (соответствующий параметр=1) и без (параметр=0). С помощью регрессии (рекомендую SPSS, так как Statistica автоматически не исключает малозначимые параметры) выделяете значимые параметры (значимость каждого рассчитывается автоматически), находите их важность (коэффициенты регрессии), вычисляете предсказательную силу модели (кол-во правильно угаданных рецидивов и отсутствия рецидивов). Проверяете рабочую гипотезу, что риск увеличивается для женщин, с возрастом и избыточной массой. Проверка этой гипотезы заключается в том, что:
1. Все три указанных параметра значимы (для каждой p-value < определенной величины, как правило, 0,05) 2. Коэффициенты регрессии для этих параметров имеют нужный знак (например, если мужчины кодируются числом 0, а женщины 1, то коэффициент регрессии для пола должен быть положительным) Получаете формулу риска развития рецидива и доверительный интервал для риска. Подставляете в нее клинические параметры нового пациента и получаете риск развития рецидива для него. Сообщение отредактировал DoctorStat - 19.10.2008 - 16:09 Просто включи мозги => http://doctorstat.narod.ru
|
|
20.10.2008 - 08:36
Сообщение
#3
|
|
Группа: Пользователи Сообщений: 15 Регистрация: 19.10.2008 Пользователь №: 5416 |
Спасибо за подробный ответ, но не не подскажете ли вы где скачать SPSS? У меня есть только Statistica 6.
|
|
20.10.2008 - 08:45
Сообщение
#4
|
|
Группа: Пользователи Сообщений: 1114 Регистрация: 10.04.2007 Пользователь №: 4040 |
Спасибо за подробный ответ, но не не подскажете ли вы где скачать SPSS? У меня есть только Statistica 6. Полнофункциональная 30-дневная пробная (!) версия доступна по ссылке http://www.spss.com/downloads/Papers.cfm?P...amp;DLType=Demo. Занимает 305 Мб. Чтобы приобрести данную программу, следует обратиться в магазин программного обеспечения. Причем купить можно только лицензионный ключ и активировать загруженную пробную версию. Это ускорит и несколько удешевит приобретение. Программа SPSS хорошая, но стоит дорого (несколько тысяч долларов). Однако Вашу проблему можно решить и с помощью лицензионного бесплатного программного обеспечения (ценой 0 рублей), если Вас и Ваших оппонентов (рецензентов) это, конечно, устроит. Сообщение отредактировал Игорь - 20.10.2008 - 08:57 Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!
|
|
20.10.2008 - 10:01
Сообщение
#5
|
|
Группа: Пользователи Сообщений: 1013 Регистрация: 4.10.2006 Пользователь №: 1933 |
Спасибо за подробный ответ, но не не подскажете ли вы где скачать SPSS? У меня есть только Statistica 6. А зачем? Вы делаете логистическую регрессию в Statistica, затем смотрите, какие коэффициенты не отличаются значимо от нуля (т.е. р<0,05, хотя лучше р<0.1), а затем заново формулируете модель уже без этих показателей. Если более строго, то делаете так 1) Строите модель со всеми переменными 2) Находите переменную, с наибольшим значением р (например, р=0,45) 3) Перестраиваете модель без этой переменной 4) Повторяете этапы 2-3 пока в модели не останутся только значимые переменные (р<0,05) На все затратите меньше времени, чем на поиск и освоение SPSS. Хотя, действительно, может лучше воспользоваться AtteStat (т.е. легальной копией, а то насчет легальности Statistica что-то мне подсказывает...) |
|
20.10.2008 - 13:06
Сообщение
#6
|
|
Группа: Пользователи Сообщений: 15 Регистрация: 19.10.2008 Пользователь №: 5416 |
На все затратите меньше времени, чем на поиск и освоение SPSS-- на поиск ушло не так уж много времени, но вот освоение, вы правы.. Есть какие нибудь статьи или учебники по SPSS?
Это из темы куда меня отослали -- 1. Выявление клинически значимых параметров и их вклада. С помощью логистической регрессии (программы SPSS, Statistica) для 2-х выборок пациентов: с удачным и неудачным исходом лечения найти клинические параметры, значимо влияющие на исход лечения. Исключить малозначимые параметры (с помощью выбора метода Backward LR) и выбора уровня значимости SIG=0,05. Для оставшихся значимых параметров вычислить их важность (коэффициенты регрессии Bi,i=1,M) и константу сдвига Constant. Так- вот файл, 2 выборки(рецидив, клин.изл), параметры(5-6), для каждого выбор метода Backward LR, расчет и потом много информации, в которой можно запутаться. Извините, но никак не могу разобраться что значимо и куда там смотреть, может кто-нибудь подскажет с чего начинать и как с ней работать? Может есть какие нибудь статьи со скриншотами? |
|
20.10.2008 - 13:32
Сообщение
#7
|
|
Группа: Пользователи Сообщений: 377 Регистрация: 18.08.2008 Из: Москва Златоглавая Пользователь №: 5224 |
УЧЕБНИКИ ПО SPSS
1. Таганов Д. Н. SPSS: Статистический анализ в маркетинговых исследованиях http://rapidshare.com/files/80252820/1146066694.rar.html 2. Иллюстрированный самоучитель по SPSS http://rapidshare.com/files/81008183/1146075430.rar.html 3. Бююль А.,Цефель П. SPSS: искусство обработки информации. Анализ статистических данных и восстановление скрытых закономерностей http://rapidshare.com/files/5715512/spss.rar Просто включи мозги => http://doctorstat.narod.ru
|
|
20.10.2008 - 13:52
Сообщение
#8
|
|
Группа: Пользователи Сообщений: 15 Регистрация: 19.10.2008 Пользователь №: 5416 |
Огромное спасибо за ссылки!
|
|
20.10.2008 - 17:43
Сообщение
#9
|
|
Группа: Пользователи Сообщений: 1202 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704 |
Для вопросов по технике работы в SPSS есть сообщество: http://community.livejournal.com/ru_spss/
|
|
20.10.2008 - 18:35
Сообщение
#10
|
|
Группа: Пользователи Сообщений: 1013 Регистрация: 4.10.2006 Пользователь №: 1933 |
Но вообще-то составлять прогнозную модель при столь слабом представлении о технике этого дела... Я бы рекомендовал читать не про SPSS, а про логистическую регрессию.
Если разберетесь с ней (кстати, в Statistica очень хороший хелп на эту тему), то тогда сможете и в распечатке SPSS разобраться. На самом деле для создания прогнозной модели у Вас данных нет. Для модели Вам надо случайным образом поделить Вашу группу на две части (т.е. по 30 человек). Максимально возможное количество анализируемых переменных в этом случае 3. Построить модель на первой группе, а затем проверить на второй и указать качество классификации. Гарантирую, что оно будет низким. Посему. Забудьте про модель. Сформулируйте гипотезу, как Вы написали выше и сделайте обычную логистическую регресиию с оценкой этой гипотезы. |
|
21.10.2008 - 12:51
Сообщение
#11
|
|
Группа: Пользователи Сообщений: 15 Регистрация: 19.10.2008 Пользователь №: 5416 |
Да, спасибо, в одном из учебников по ссылкам есть подробное описание логистической регрессии, и спасибо за второй совет, попробую сделать так как вы сказали.
|
|
22.10.2008 - 14:02
Сообщение
#12
|
|
Группа: Пользователи Сообщений: 15 Регистрация: 19.10.2008 Пользователь №: 5416 |
Здравствуйте!
Результаты логистической регрессии неутешительные, при проверке получается вот такое уравнение (если задаю пол=женский) Y=-19,016 + 0,665x1 + 0,17x2 - 0,36x3, значимость факторов (не всех) тоже не удовл-ет условиям - выше чем 0,01 изб.масса - 0.013 возраст - 0.540 остеопор.- 0.146 Если посмотреть результаты линейной регрессии (сделано просто из любопытства) то получается след.уравнение Y=-0,561 + 0,949x1 + 0,023x2 + 0,667x3 - 0,777x4 значимость след: пол - 0,000 изб.масса- 0,020 аденопат.- 0,000 суставн.синд- 0,000 кэффициент детерминации с учетом степеней свободы = 0.765, расчет.критерий Фишера =37.185 и все отобранные факторы статистически значимы(при сравнении критерия Стьюдента) |
|
22.10.2008 - 15:48
Сообщение
#13
|
|
Группа: Пользователи Сообщений: 377 Регистрация: 18.08.2008 Из: Москва Златоглавая Пользователь №: 5224 |
ЛОГИСТИЧЕСКАЯ РЕГРЕССИЯ В SPSS.
1. Выберите метод Backward LR, чтобы автоматически исключить малозначимые (p>0.05) параметры: возраст, остеопороз. 2. В результатах Output смотрИте таблицу Model Summary, строка Model, которая показывает общую значимость p всей модели. Должно быть p<0.05. Чем она меньше, тем лучше. 3. Дальше смотрите Classification Table, которая показывает сколько процентов пациентов с признаком и без него предсказано правильно. Чем этот процент выше, тем лучше. Нижняя грань (ДЛЯ ОБЕИХ ГРУПП: с рецидивом и без) должна быть больше 80%. В противном случае модель плохо прогнозирует признак. 4. Почему Вы решили, что логистическая регрессия не дала результатов? Значимость влияния избыточной массы тела на рецидивы p=0.013<0.05, следовательно Вы нашли клинический параметр, по которому можно прогнозировать рецидивы. 5. Линейную регрессию нельзя здесь использовать, т.к. зависимая переменная (признак наличия или отсутствия рецидива) принимает только два значения, а требуется нормальное распределение. Сообщение отредактировал DoctorStat - 22.10.2008 - 16:09 Просто включи мозги => http://doctorstat.narod.ru
|
|
22.10.2008 - 20:21
Сообщение
#14
|
|
Группа: Пользователи Сообщений: 1013 Регистрация: 4.10.2006 Пользователь №: 1933 |
Здравствуйте! Результаты логистической регрессии неутешительные, при проверке получается вот такое уравнение (если задаю пол=женский) Y=-19,016 + 0,665x1 + 0,17x2 - 0,36x3, значимость факторов (не всех) тоже не удовл-ет условиям - выше чем 0,01 изб.масса - 0.013 возраст - 0.540 остеопор.- 0.146 Если посмотреть результаты линейной регрессии (сделано просто из любопытства) то получается след.уравнение Y=-0,561 + 0,949x1 + 0,023x2 + 0,667x3 - 0,777x4 значимость след: пол - 0,000 изб.масса- 0,020 аденопат.- 0,000 суставн.синд- 0,000 кэффициент детерминации с учетом степеней свободы = 0.765, расчет.критерий Фишера =37.185 и все отобранные факторы статистически значимы(при сравнении критерия Стьюдента) Два замечания 1) избыточная масса тела "работает", я говорил при отборе про уровень 0,1, не 0,01 (и это только для отбора модели, в финальной модели принимаются во внимание только значения <0,05) 2) Почему Вы задаете, что пол женский? Если у Вас есть переменная "пол" включайте все наблюдения в анализ и добавьте перемненную "пол" (например, 1=женщина, 0=мужчина) Согласен с вышенаписанным - использовать линейную регрессию тут нельзя. Распределение ошибки не нормальное (что требуется для OLS) и в линейной регрессии нет ограничений на значения, т.е. можно легко получить 1,5 или -0,5, что является невозможным для изучаемого показателя. |
|
23.10.2008 - 14:53
Сообщение
#15
|
|
Группа: Пользователи Сообщений: 15 Регистрация: 19.10.2008 Пользователь №: 5416 |
Большое спасибо за замечания! Извините, что опять испытываю ваше терпение. В одной из тем на форуме про логистическую регрессию очень полезный совет
Если в модели используются порядковые независимые переменные, не бинарные, например степень выраженности чего либо (1 - нет, 2-слабая, 3- сльная). Зависимая - бинарная, как полагается ( 1 -есть болезнь, 0 -нет), то как интерпретировать результаты? Как правильно оценить риск развития заболевания от этого фактора? Надо делать так: вместо одной переменной с тремя уровнями сделать две бинарных переменных. Например - Exist (0 - нет, 1- да) и Severity (0- нет или слабая, 1 - сильная). Тогда Вы полностью описываете свою классификацию: Exist Severity нет 0 0 слабая 1 0 сильная 1 1 Получаете два отношения шансов. Первое показывает во сколько раз наличие чего-то увеличивает шансы наличия заболевания, второе - во сколько раз сильное воздействие увеличивает шансы наличия заболевания по сравнению с отсутствием/слабым воздействием. Произведение отношения шансов - во сколько раз риск при сильной выраженности больше, чем при отсутствии и т.д. Если изменить вид представления признаков (например,денситометрия) и представить как два фактора, как советует автор, то получается модель -значимость 0.000, правильно предсказанных 87%, Sp=80,6% , Se=92,1% , TPR =92,1%, FPR = 19,3 % (логистическая регрессия, метод Backward LR) и получаются значимости факторов из.масса - 0.007 денсит(налич) - 0.003 степень_ден(силь) - 0.003 возраст(старше 46) -0.098 и уравнение Y=-26.600 + 0.959X1 - 5.139X2 + 6.869X3 + 2.767X4 И вот эти два фактора представлять в уравнении как произведение? или отдельно как вот написано? |
|