saymay
19.10.2008 - 15:06
Здравствуйте!
Извините за возможно глупый вопрос, но мне очень нужна помощь, может кто сталкивался как можно в программе Statistica рассчитать прогнозирование риска развития рецидивов заболевания, если известны пол, возраст, избыточная масса тела, и еще три признака(у части пациентов имеется или отсутствуют), всего пациентов 60, из них 20 мужчины, остальные женщины. При чем как рабочая гипотеза - что риск заболевания чаще всего у женщин, возраст старше 40 и с избыточной массой тела? Заранее спасибо за помощь!
DoctorStat
19.10.2008 - 15:46
СмотрИте обсуждение вопроса "Как создать формулу для расчета прогноза?", на 4 сообщения ниже. Вам нужна логистическая регрессия и 2 группы пациентов: с осложнениями (соответствующий параметр=1) и без (параметр=0). С помощью регрессии (рекомендую SPSS, так как Statistica автоматически не исключает малозначимые параметры) выделяете значимые параметры (значимость каждого рассчитывается автоматически), находите их важность (коэффициенты регрессии), вычисляете предсказательную силу модели (кол-во правильно угаданных рецидивов и отсутствия рецидивов). Проверяете рабочую гипотезу, что риск увеличивается для женщин, с возрастом и избыточной массой. Проверка этой гипотезы заключается в том, что:
1. Все три указанных параметра значимы (для каждой p-value < определенной величины, как правило, 0,05)
2. Коэффициенты регрессии для этих параметров имеют нужный знак (например, если мужчины кодируются числом 0, а женщины 1, то коэффициент регрессии для пола должен быть положительным)
Получаете формулу риска развития рецидива и доверительный интервал для риска. Подставляете в нее клинические параметры нового пациента и получаете риск развития рецидива для него.
saymay
20.10.2008 - 08:36
Спасибо за подробный ответ, но не не подскажете ли вы где скачать SPSS? У меня есть только Statistica 6.
Цитата(saymay @ 20.10.2008 - 08:36)

Спасибо за подробный ответ, но не не подскажете ли вы где скачать SPSS? У меня есть только Statistica 6.
Полнофункциональная 30-дневная пробная (!) версия доступна по ссылке
http://www.spss.com/downloads/Papers.cfm?P...amp;DLType=Demo. Занимает 305 Мб.
Чтобы приобрести данную программу, следует обратиться в магазин программного обеспечения. Причем купить можно только лицензионный ключ и активировать загруженную пробную версию. Это ускорит и несколько удешевит приобретение.
Программа SPSS хорошая, но стоит дорого (несколько тысяч долларов). Однако Вашу проблему можно решить и с помощью лицензионного бесплатного программного обеспечения (ценой 0 рублей), если Вас и Ваших оппонентов (рецензентов) это, конечно, устроит.
Цитата(saymay @ 20.10.2008 - 09:36)

Спасибо за подробный ответ, но не не подскажете ли вы где скачать SPSS? У меня есть только Statistica 6.
А зачем? Вы делаете логистическую регрессию в Statistica, затем смотрите, какие коэффициенты не отличаются значимо от нуля (т.е. р<0,05, хотя лучше р<0.1), а затем заново формулируете модель уже без этих показателей. Если более строго, то делаете так
1) Строите модель со всеми переменными
2) Находите переменную, с наибольшим значением р (например, р=0,45)
3) Перестраиваете модель без этой переменной
4) Повторяете этапы 2-3 пока в модели не останутся только значимые переменные (р<0,05)
На все затратите меньше времени, чем на поиск и освоение SPSS.
Хотя, действительно, может лучше воспользоваться AtteStat (т.е. легальной копией, а то насчет легальности Statistica что-то мне подсказывает...)
saymay
20.10.2008 - 13:06
На все затратите меньше времени, чем на поиск и освоение SPSS-- на поиск ушло не так уж много времени, но вот освоение, вы правы.. Есть какие нибудь статьи или учебники по SPSS?
Это из темы куда меня отослали -- 1. Выявление клинически значимых параметров и их вклада.
С помощью логистической регрессии (программы SPSS, Statistica) для 2-х выборок пациентов: с удачным и неудачным исходом лечения найти клинические параметры, значимо влияющие на исход лечения. Исключить малозначимые параметры (с помощью выбора метода Backward LR) и выбора уровня значимости SIG=0,05. Для оставшихся значимых параметров вычислить их важность (коэффициенты регрессии Bi,i=1,M) и константу сдвига Constant.
Так- вот файл, 2 выборки(рецидив, клин.изл), параметры(5-6), для каждого выбор метода Backward LR, расчет и потом много информации, в которой можно запутаться. Извините, но никак не могу разобраться что значимо и куда там смотреть, может кто-нибудь подскажет с чего начинать и как с ней работать? Может есть какие нибудь статьи со скриншотами?
DoctorStat
20.10.2008 - 13:32
УЧЕБНИКИ ПО SPSS
1. Таганов Д. Н.
SPSS: Статистический анализ в маркетинговых исследованиях
http://rapidshare.com/files/80252820/1146066694.rar.html2. Иллюстрированный самоучитель по SPSS
http://rapidshare.com/files/81008183/1146075430.rar.html3. Бююль А.,Цефель П.
SPSS: искусство обработки информации. Анализ статистических данных и восстановление скрытых закономерностей
http://rapidshare.com/files/5715512/spss.rar
saymay
20.10.2008 - 13:52
Огромное спасибо за ссылки!
Для вопросов по технике работы в SPSS есть сообщество:
http://community.livejournal.com/ru_spss/
Но вообще-то составлять прогнозную модель при столь слабом представлении о технике этого дела... Я бы рекомендовал читать не про SPSS, а про логистическую регрессию.
Если разберетесь с ней (кстати, в Statistica очень хороший хелп на эту тему), то тогда сможете и в распечатке SPSS разобраться.
На самом деле для создания прогнозной модели у Вас данных нет. Для модели Вам надо случайным образом поделить Вашу группу на две части (т.е. по 30 человек). Максимально возможное количество анализируемых переменных в этом случае 3. Построить модель на первой группе, а затем проверить на второй и указать качество классификации. Гарантирую, что оно будет низким.
Посему. Забудьте про модель. Сформулируйте гипотезу, как Вы написали выше и сделайте обычную логистическую регресиию с оценкой этой гипотезы.
saymay
21.10.2008 - 12:51
Да, спасибо, в одном из учебников по ссылкам есть подробное описание логистической регрессии, и спасибо за второй совет, попробую сделать так как вы сказали.
saymay
22.10.2008 - 14:02
Здравствуйте!
Результаты логистической регрессии неутешительные, при проверке получается вот такое уравнение (если задаю пол=женский)
Y=-19,016 + 0,665x1 + 0,17x2 - 0,36x3, значимость факторов (не всех) тоже не удовл-ет условиям - выше чем 0,01
изб.масса - 0.013
возраст - 0.540
остеопор.- 0.146
Если посмотреть результаты линейной регрессии (сделано просто из любопытства) то получается след.уравнение
Y=-0,561 + 0,949x1 + 0,023x2 + 0,667x3 - 0,777x4
значимость след:
пол - 0,000
изб.масса- 0,020
аденопат.- 0,000
суставн.синд- 0,000
кэффициент детерминации с учетом степеней свободы = 0.765, расчет.критерий Фишера =37.185 и все отобранные факторы статистически значимы(при сравнении критерия Стьюдента)
DoctorStat
22.10.2008 - 15:48
ЛОГИСТИЧЕСКАЯ РЕГРЕССИЯ В SPSS.
1. Выберите метод Backward LR, чтобы автоматически исключить малозначимые (p>0.05) параметры: возраст, остеопороз.
2. В результатах Output смотрИте таблицу Model Summary, строка Model, которая показывает общую значимость p всей модели. Должно быть p<0.05. Чем она меньше, тем лучше.
3. Дальше смотрите Classification Table, которая показывает сколько процентов пациентов с признаком и без него предсказано правильно. Чем этот процент выше, тем лучше. Нижняя грань (ДЛЯ ОБЕИХ ГРУПП: с рецидивом и без) должна быть больше 80%. В противном случае модель плохо прогнозирует признак.
4. Почему Вы решили, что логистическая регрессия не дала результатов? Значимость влияния избыточной массы тела на рецидивы p=0.013<0.05, следовательно Вы нашли клинический параметр, по которому можно прогнозировать рецидивы.
5. Линейную регрессию нельзя здесь использовать, т.к. зависимая переменная (признак наличия или отсутствия рецидива) принимает только два значения, а требуется нормальное распределение.
Цитата(saymay @ 22.10.2008 - 15:02)

Здравствуйте!
Результаты логистической регрессии неутешительные, при проверке получается вот такое уравнение (если задаю пол=женский)
Y=-19,016 + 0,665x1 + 0,17x2 - 0,36x3, значимость факторов (не всех) тоже не удовл-ет условиям - выше чем 0,01
изб.масса - 0.013
возраст - 0.540
остеопор.- 0.146
Если посмотреть результаты линейной регрессии (сделано просто из любопытства) то получается след.уравнение
Y=-0,561 + 0,949x1 + 0,023x2 + 0,667x3 - 0,777x4
значимость след:
пол - 0,000
изб.масса- 0,020
аденопат.- 0,000
суставн.синд- 0,000
кэффициент детерминации с учетом степеней свободы = 0.765, расчет.критерий Фишера =37.185 и все отобранные факторы статистически значимы(при сравнении критерия Стьюдента)
Два замечания
1) избыточная масса тела "работает", я говорил при отборе про уровень 0,1, не 0,01 (и это только для отбора модели, в финальной модели принимаются во внимание только значения <0,05)
2) Почему Вы задаете, что пол женский? Если у Вас есть переменная "пол" включайте все наблюдения в анализ и добавьте перемненную "пол" (например, 1=женщина, 0=мужчина)
Согласен с вышенаписанным - использовать линейную регрессию тут нельзя. Распределение ошибки не нормальное (что требуется для OLS) и в линейной регрессии нет ограничений на значения, т.е. можно легко получить 1,5 или -0,5, что является невозможным для изучаемого показателя.
saymay
23.10.2008 - 14:53
Большое спасибо за замечания! Извините, что опять испытываю ваше терпение. В одной из тем на форуме про логистическую регрессию очень полезный совет
Если в модели используются порядковые независимые переменные, не бинарные, например степень выраженности чего либо (1 - нет, 2-слабая, 3- сльная). Зависимая - бинарная, как полагается ( 1 -есть болезнь, 0 -нет), то как интерпретировать результаты? Как правильно оценить риск развития заболевания от этого фактора?
Надо делать так: вместо одной переменной с тремя уровнями сделать две бинарных переменных. Например - Exist (0 - нет, 1- да) и Severity (0- нет или слабая, 1 - сильная). Тогда Вы полностью описываете свою классификацию:
Exist Severity
нет 0 0
слабая 1 0
сильная 1 1
Получаете два отношения шансов. Первое показывает во сколько раз наличие чего-то увеличивает шансы наличия заболевания, второе - во сколько раз сильное воздействие увеличивает шансы наличия заболевания по сравнению с отсутствием/слабым воздействием. Произведение отношения шансов - во сколько раз риск при сильной выраженности больше, чем при отсутствии и т.д.
Если изменить вид представления признаков (например,денситометрия) и представить как два фактора, как советует автор, то получается модель -значимость 0.000, правильно предсказанных 87%, Sp=80,6% , Se=92,1% , TPR =92,1%, FPR = 19,3 % (логистическая регрессия, метод Backward LR) и получаются значимости факторов
из.масса - 0.007
денсит(налич) - 0.003
степень_ден(силь) - 0.003
возраст(старше 46) -0.098
и уравнение Y=-26.600 + 0.959X1 - 5.139X2 + 6.869X3 + 2.767X4
И вот эти два фактора представлять в уравнении как произведение? или отдельно как вот написано?
Представлять отдельно, как написано. Только вот не пойму зачем Вам формула? Результаты логистической регрессии принято описывать в таблице с указанием (по столбцам) наименования переменной - значения коэффициента регрессии - ошибки коэффициента регрессии - отношения шансов - 95% ДИ отношения шансов - р (хотя можно и не писать).
Повторюсь, когда у Вас 60 человек в двух группах, лучше о прогнозе не даже и не заикаться.
saymay
24.10.2008 - 05:54
Понятно, спасибо! А коэффициенты корреляции нужно указывать, чтобы объяснить тип и силу связи между факторами?
saymay
24.10.2008 - 07:32
Знаете, ваш форум просто удивительный, не просто умные люди, с одного слова понимающие куда направить, но ни на одном форуме никогда не встречала такой вежливости, при чем еще и при ответах на такие глупые вопросы, как мои например! Огромное Вам спасибо!
Цитата(saymay @ 24.10.2008 - 06:54)

Понятно, спасибо! А коэффициенты корреляции нужно указывать, чтобы объяснить тип и силу связи между факторами?
Коэффициент корреляции? А он откуда? Силу связи фактора с бинарным показателем (тем, что используется в логистической регрессии) описывает отношение шансов. Напомню, что отношение шансов показывает, во сколько раз шансы исхода (например, смерти) выше у человека с данным фактором по сравнению с человеком без него.
Для единичного изменения (на 1 кг измнения массы) отношение шансов равно exp(beta), где beta - коэффициент логистической регрессии для данного фактора, а exp - основание натуральных логарифмов. Иными словами, если бета=1, ОШ=2,7.
Некоторую проблему у Вас создает кодирование денситометрических показателей
из.масса - 0.007
денсит(налич) - 0.003
степень_ден(силь) - 0.003
возраст(старше 46) -0.098
и уравнение Y=-26.600 + 0.959X1 - 5.139X2 + 6.869X3 + 2.767X4
Итак,
для изменения массы ОШ=2,6
для наличия денситометрических изменений, но при отсутсвии сильных изменений ОШ=0,006
Наличие сильный изменений ОШ=5,6 (при кодировании была схема 1 1, значит при сильных денситометрических изменениях имеем -5,139+6,869=1,73). В этом случае, правда, есть проблемы в рассчете ДИ.
Кстати, уверены, что коэффициенты такие большие? Я посчитал, что Вы привели выше уравнение логистической регрессии, если нет - то делать все то же самое, но с коэффициентами логистической регрессии.
saymay
24.10.2008 - 12:47
Здравствуйте! В уравнении приведены b-коэффициенты из таблицы.
Не подскажете, я могу что либо изменить, чтобы ДИ был менее проблематичен?
DoctorStat
24.10.2008 - 17:39
1. Доверительный интервал для коэффициентов регрессии заменяет квалификационная таблица: Classification Table. Именно она показывает качество прогнозной модели. Вы должны хорошо (с большой долей вероятности) предсказывать как положительные рецидивы, так и отсутствие рецидивов. Убедитесь, что указанные вероятности Вас устраивают.
2. Корреляционная матрица для независимых факторов покажет силу связи между ними. Чем сильнее взаимозависимость между 2-мя факторами, тем с большей уверенностью можно исключить один из этих факторов из прогноза. В случае линейной связи логистическая регрессия может дать ошибочные результаты. Поэтому лучше перед регрессией убедиться в отсутствии парных корреляций.
3. Логистическая регрессия позволяет исследовать нелинейное влияние параметров. В частности, наряду с самими клиническими переменными, в анализ можно включить их произведения. Значимость p-value произведения говорит, что параметры влияют нелинейно.
4. Приводите результаты своих расчетов, чтобы мы могли конструктивно их обсуждать.
Цитата(DoctorStat @ 24.10.2008 - 18:39)

1. Доверительный интервал для коэффициентов регрессии заменяет квалификационная таблица: Classification Table. Именно она показывает качество прогнозной модели. Вы должны хорошо (с большой долей вероятности) предсказывать как положительные рецидивы, так и отсутствие рецидивов. Убедитесь, что указанные вероятности Вас устраивают.
Не совсем так. Качество прогнозной модели показывает не классификационная таблица а степень снижения логарифма отношения правдопдобия между данной моделью и более простой моделью (Hosmer, Lemeshow, 2000). Классификационная таблица сильно зависит от исходных данных.
Доверительные интервалы для коэффициентов регрессии ни классификационная таблица, ни отношения правдоподобия не заменяют, поскольку отвечают на разные вопросы - одно, насколько хороша модель, а второе - насколько важен данный параметр в модели.
Цитата(DoctorStat @ 24.10.2008 - 18:39)

2. Корреляционная матрица для независимых факторов покажет силу связи между ними. Чем сильнее взаимозависимость между 2-мя факторами, тем с большей уверенностью можно исключить один из этих факторов из прогноза. В случае линейной связи логистическая регрессия может дать ошибочные результаты. Поэтому лучше перед регрессией убедиться в отсутствии парных корреляций.
В описанных в посте данных большая часть - качественные. Анализировать точечно-бисериальные коэффициенты для исключения факторов из анализа обычно не принято. Разумнее просто внимательно проанализировать модели с включением разных параметров и их сочетаний.
saymay
27.10.2008 - 09:00
Здравствуйте! Данные из таблиц.
Omnibus Tests of Model Coefficients
Chi-square df Sig.
Step 68,321 4 ,000
Block 68,321 4 ,000
Model 68,321 4 ,000
--------------------------------
Model Summary
-2 Log likelihood Cox & Snell R Square Nagelkerke R Square
24,869a ,628 ,848
--------------------------------------
Classification Table
Observed Predicted
rec_klin Percentage Correct
"клин" "pec"
rec_klin "клин" 35 6 85,4
"pec" 3 25 89,3
Overall Percentage 87,0
-------------------------------------------
Variables in the Equation
B S.E. Wald df Sig. Exp(B) 95,0% C.I.for EXP(B)
Lower Upper
Step 1a izb_mas ,959 ,357 7,237 1 ,007 2,610 1,297 5,249
densitom -5,139 1,737 8,754 1 ,003 ,006 ,000 ,176
stepen_densit 6,869 2,334 8,664 1 ,003 962,157 9,927 9,325E4
vozrast 2,767 1,672 2,738 1 ,098 15,912 ,600 421,830
Constant -26,600 10,181 6,826 1 ,009 ,000
--------------------------------------------
saymay
27.10.2008 - 09:03
Извините, лучше прикреплю файл, а то совершенно нечитаемо получилось
DoctorStat
27.10.2008 - 10:39
По-моему результат отличный! Интегральная модель высоко значима: р=0,000 (Omnibus Tests of Model Coefficients). Угадано 85% клин и 89% рес (Classification Table). Все независимые переменные, кроме vozrast высоко значимы (Variables in the Equation). Непонятно только, почему vozrast со значимостью Sig=0,098 не был автоматически исключен из списка? Малозначимая переменная vozrast искажает коэффициенты регрессии. Ее нужно убрать из анализа либо вручную, а лучше автоматически.
saymay
27.10.2008 - 11:54
Непонятно только, почему vozrast со значимостью Sig=0,098 не был автоматически исключен из списка? Малозначимая переменная vozrast искажает коэффициенты регрессии. Ее нужно убрать из анализа либо вручную, а лучше автоматически Да, действительно, не убирается автоматически, пришлось убрать вручную. То есть остаются только три значимых признака. Можно еще вопрос, ROC- кривая, ее нужно делать, или это будет лишнее?
DoctorStat
27.10.2008 - 12:30
Цитата(saymay @ 27.10.2008 - 11:54)

ROC- кривая, ее нужно делать, или это будет лишнее?
Насколько я понимаю, Receiver Operating Characteristic, ROC - кривая показывает зависимость чувствительности метода от его специфичности. Но классификационная таблица (Classification Table) дала Вам только ОДНУ точку на этой кривой! Откуда Вы возьмете другие точки!? Какие параметры логистической регрессии Вы собираетесь менять для построения ROC-кривой?
Цитата(DoctorStat @ 27.10.2008 - 12:30)

Насколько я понимаю, Receiver Operating Characteristic, ROC - кривая показывает зависимость чувствительности метода от его специфичности. Но классификационная таблица (Classification Table) дала Вам только ОДНУ точку на этой кривой! Откуда Вы возьмете другие точки!? Какие параметры логистической регрессии Вы собираетесь менять для построения ROC-кривой?
Для построения ROC при логистическом анализе меняются не параметры регрессии, а порог отсечения.
Мне вообще удивительно упорство некоторых исследователей. Предлагается бесплатное ПО, которое все это делает в автоматическом режиме, притом содержит подробнейшие пояснения, но нет! Мы будем биться головой об стену, но не будем слушать дельных советов.
ROC, спасибо плав-у, подробно обсужден в других ветках форума.
saymay
27.10.2008 - 14:58
Понятно, спасибо!