![]() |
Здравствуйте, гость ( Вход | Регистрация )
![]() |
![]()
Сообщение
#1
|
|
Группа: Пользователи Сообщений: 8 Регистрация: 26.02.2009 Пользователь №: 5862 ![]() |
Уважаемые коллеги!
Я новичок в статистике, поэтому заранее извинюсь за, быть может, наивные вопросы. Они касаются логистической регресии. Имеются данные некоторого потенциально значимого диагностического теста (read-out - да/нет, соотв. 0/1) для дифференциальной диагностики доброкачественных и злокачественных узловых образований ЩЖ (соотв-но, зависимая переменная - «зло»(1)/«добро»(0)), независимые переменные (помимо рез-та изучаемого теста) - пол, возраст и наличие/отсутствие (1/0) подозрительных на малигнизацию изменений на цитограмме пунктата. Строю модель (SPSS, binary logistic regession). В результате по переменной, соответствующей рез-там диагностического теста - гипердисперсия, низкая статистика Вальда и отсутствие значимости переменной. Ситуация в том, что тест высокоспецифичный (но низкочувствительный), и на относительно небольшой выборке ни одного тест-позитивного случая в группе пациентов с доброкачественными образованиями не наблюдается. При произвольном введении одного тест-позитива в эту группу (в любой case) ситуация полностью исправляется, ошибка становится вполне приемлемой и переменная становится значимой. При этом % верных предсказаний в «неадеватной» модели даже выше (что логично). Собственно вопросы: 1) Неадекватность модели при отсутствии тест-позитивных случаев в одной из групп - это внутренняя особенность алгоритма или еще что-то? 2) Если это внутренняя особенность алгоритма, то каковы методы борьбы (не считая дальнейшего сбора материала в ожидании хотя бы одного тест-позитивного случая)? Заранее спасибо за советы и рекомендации. Сообщение отредактировал lab_owl - 26.02.2009 - 20:05 |
|
![]() |
![]() |
![]() |
![]()
Сообщение
#2
|
|
Группа: Пользователи Сообщений: 1325 Регистрация: 27.11.2007 Пользователь №: 4573 ![]() |
sex - не бинарный признак, а номинальный с двумя градациями (и гермафродит, а также другие врожденные, приобретенные и психические отклонения тут не при чем), поэтому для него также требуется в логистической модели вводить фиктивные (dummy) переменные. Конечно, в каких-то опросниках можно закодировать пол как 0 и 1, но применение данных чисел в расчетах приведет к ошибке - признаки для расчетов необходимо перекодировать в dummy переменные. http://www.hse.ru/data/2011/11/30/12711271...ution_Dummy.pdf Фиктивные переменные в отечественной литературе имеют термин структурных переменных и они вводятся не только в логистические модели. В качестве фиктивных переменных обычно используются дихотомические переменные, которые принимают всего два значения ?0? и ?1?, например, значение ?0? - ж и ?1? м для переменной пол. В этом случае ничего создавать не нужно, они вводятся в уравнение именно в таком виде, что облегчает трактовку коэффициентов, но называться могут ?фиктивные?. Если градаций больше двух, то в регрессионную модель вводят k-1 бинарных переменных. ?Фиктивные переменные? - это не совсем удачный перевод dummy var поскольку они вовсе не фиктивные, их фиктивность лишь в том, что они количественным образом описывают качественный признак. |
|
![]() |
![]() |
![]() ![]() |