![]() |
Здравствуйте, гость ( Вход | Регистрация )
![]() |
![]()
Сообщение
#1
|
|
Группа: Пользователи Сообщений: 8 Регистрация: 26.02.2009 Пользователь №: 5862 ![]() |
Уважаемые коллеги!
Я новичок в статистике, поэтому заранее извинюсь за, быть может, наивные вопросы. Они касаются логистической регресии. Имеются данные некоторого потенциально значимого диагностического теста (read-out - да/нет, соотв. 0/1) для дифференциальной диагностики доброкачественных и злокачественных узловых образований ЩЖ (соотв-но, зависимая переменная - «зло»(1)/«добро»(0)), независимые переменные (помимо рез-та изучаемого теста) - пол, возраст и наличие/отсутствие (1/0) подозрительных на малигнизацию изменений на цитограмме пунктата. Строю модель (SPSS, binary logistic regession). В результате по переменной, соответствующей рез-там диагностического теста - гипердисперсия, низкая статистика Вальда и отсутствие значимости переменной. Ситуация в том, что тест высокоспецифичный (но низкочувствительный), и на относительно небольшой выборке ни одного тест-позитивного случая в группе пациентов с доброкачественными образованиями не наблюдается. При произвольном введении одного тест-позитива в эту группу (в любой case) ситуация полностью исправляется, ошибка становится вполне приемлемой и переменная становится значимой. При этом % верных предсказаний в «неадеватной» модели даже выше (что логично). Собственно вопросы: 1) Неадекватность модели при отсутствии тест-позитивных случаев в одной из групп - это внутренняя особенность алгоритма или еще что-то? 2) Если это внутренняя особенность алгоритма, то каковы методы борьбы (не считая дальнейшего сбора материала в ожидании хотя бы одного тест-позитивного случая)? Заранее спасибо за советы и рекомендации. Сообщение отредактировал lab_owl - 26.02.2009 - 20:05 |
|
![]() |
![]() |
![]() |
![]()
Сообщение
#2
|
|
Группа: Пользователи Сообщений: 1325 Регистрация: 27.11.2007 Пользователь №: 4573 ![]() |
sex - не бинарный признак, а номинальный с двумя градациями (и гермафродит, а также другие врожденные, приобретенные и психические отклонения тут не при чем), поэтому для него также требуется в логистической модели вводить фиктивные (dummy) переменные. Конечно, в каких-то опросниках можно закодировать пол как 0 и 1, но применение данных чисел в расчетах приведет к ошибке - признаки для расчетов необходимо перекодировать в dummy переменные. http://www.hse.ru/data/2011/11/30/12711271...ution_Dummy.pdf Фиктивные переменные в отечественной литературе имеют термин структурных переменных и они вводятся не только в логистические модели. В качестве фиктивных переменных обычно используются дихотомические переменные, которые принимают всего два значения ?0? и ?1?, например, значение ?0? - ж и ?1? м для переменной пол. В этом случае ничего создавать не нужно, они вводятся в уравнение именно в таком виде, что облегчает трактовку коэффициентов, но называться могут ?фиктивные?. Если градаций больше двух, то в регрессионную модель вводят k-1 бинарных переменных. ?Фиктивные переменные? - это не совсем удачный перевод dummy var поскольку они вовсе не фиктивные, их фиктивность лишь в том, что они количественным образом описывают качественный признак. |
|
![]() |
![]() |
![]()
Сообщение
#3
|
|
![]() Группа: Пользователи Сообщений: 1141 Регистрация: 10.04.2007 Пользователь №: 4040 ![]() |
В качестве фиктивных переменных обычно используются дихотомические переменные, которые принимают всего два значения ?0? и ?1?, например, значение ?0? - ж и ?1? м для переменной пол. В этом случае ничего создавать не нужно, они вводятся в уравнение именно в таком виде, что облегчает трактовку коэффициентов, но называться могут ?фиктивные?. Если градаций больше двух, то в регрессионную модель вводят k-1 бинарных переменных. Давняя беда науки - небрежность в терминологии. То, что Вы закодировали в данном случае значениями 0 и 1, на самом деле является не "полом", а "наличием мужских вторичных половых признаков". Если вы введете еще один признак - "наличие женских вторичных половых признаков", то в даже в этом случае совокупность этих признаков не будет полом. Возможно, в некоторых случаях можно поступить, как поступаете Вы (с поправкой на терминологию), но ошибка может подкрасться незаметно при проведении других видов анализа, например, если потребуется делать классификацию и, соответственно, вычислять расстояния между объектами и классами. Впрочем, ошибки такго рода допускают в публикациях даже известные профессора (не буду поминать его здесьь). Сообщение отредактировал Игорь - 14.01.2012 - 19:36 ![]() Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!
|
|
![]() |
![]() |
![]() ![]() |