![]() |
Здравствуйте, гость ( Вход | Регистрация )
![]() |
![]()
Сообщение
#1
|
|
Группа: Пользователи Сообщений: 8 Регистрация: 26.02.2009 Пользователь №: 5862 ![]() |
Уважаемые коллеги!
Я новичок в статистике, поэтому заранее извинюсь за, быть может, наивные вопросы. Они касаются логистической регресии. Имеются данные некоторого потенциально значимого диагностического теста (read-out - да/нет, соотв. 0/1) для дифференциальной диагностики доброкачественных и злокачественных узловых образований ЩЖ (соотв-но, зависимая переменная - «зло»(1)/«добро»(0)), независимые переменные (помимо рез-та изучаемого теста) - пол, возраст и наличие/отсутствие (1/0) подозрительных на малигнизацию изменений на цитограмме пунктата. Строю модель (SPSS, binary logistic regession). В результате по переменной, соответствующей рез-там диагностического теста - гипердисперсия, низкая статистика Вальда и отсутствие значимости переменной. Ситуация в том, что тест высокоспецифичный (но низкочувствительный), и на относительно небольшой выборке ни одного тест-позитивного случая в группе пациентов с доброкачественными образованиями не наблюдается. При произвольном введении одного тест-позитива в эту группу (в любой case) ситуация полностью исправляется, ошибка становится вполне приемлемой и переменная становится значимой. При этом % верных предсказаний в «неадеватной» модели даже выше (что логично). Собственно вопросы: 1) Неадекватность модели при отсутствии тест-позитивных случаев в одной из групп - это внутренняя особенность алгоритма или еще что-то? 2) Если это внутренняя особенность алгоритма, то каковы методы борьбы (не считая дальнейшего сбора материала в ожидании хотя бы одного тест-позитивного случая)? Заранее спасибо за советы и рекомендации. Сообщение отредактировал lab_owl - 26.02.2009 - 20:05 |
|
![]() |
![]() |
![]() |
![]()
Сообщение
#2
|
|
Группа: Пользователи Сообщений: 8 Регистрация: 26.02.2009 Пользователь №: 5862 ![]() |
Спасибо!
1) Т.е. алгоритм, насколько я понимаю, примерно такой - к примеру, я делаю 5-кратную CV, и повторяю ее, допустим, 20 раз. На каждом шаге я получаю модель, из которой извлекаю коэффициенты для предикторов, и точность предсказания для "независимой" подвыборки. После чего из множества этих чисел беру среднее по коэффициентам + S.E. и среднее по точности классификации + S.E. - я правильно понял? 2) Вы уже написали, что точность классификации - не лучший параметр для внутренней валидации. Но если его все же приводить (нпрм, в презентации перед далекими от статистики людьми, которых интересует точность классификации и не особо интересуют ошибки коэффициентов) - то модель с сочетанием обучающей и кросс-валидированной точности как 88.9/77.1% (соотв. AUC - 0.928/0.803) может рассматриваться как адекватная? И еще вопрос, относящийся к предыдущему - LOO и k-fold CV имеют тенденцию скорее к завышению или к занижению ошибки классификации? 3) Пригодны ли методы повторного взятия выборок для определения наиболее адекватных моделей, или это исключительно оценивающие методы? Например, в ходе 10 раундов 5-кратной кросс-валидизации получилось 50 моделей, из которых, скажем, 20 предсказывают исход в проверочной выборке отлично (>80% точных предсказаний), 25 - средне (60-80%) и 5 - плохо (<60%). Правильной ли тактикой будет отобрать 20 наиболее предиктивно мощных моделей и использовать их далее для внешней проверки на независимой выборке? Сообщение отредактировал lab_owl - 13.03.2009 - 01:23 |
|
![]() |
![]() |
![]()
Сообщение
#3
|
|
Группа: Пользователи Сообщений: 1013 Регистрация: 4.10.2006 Пользователь №: 1933 ![]() |
Спасибо! 1) Т.е. алгоритм, насколько я понимаю, примерно такой - к примеру, я делаю 5-кратную CV, и повторяю ее, допустим, 20 раз. На каждом шаге я получаю модель, из которой извлекаю коэффициенты для предикторов, и точность предсказания для "независимой" подвыборки. После чего из множества этих чисел беру среднее по коэффициентам + S.E. и среднее по точности классификации + S.E. - я правильно понял? 2) Вы уже написали, что точность классификации - не лучший параметр для внутренней валидации. Но если его все же приводить (нпрм, в презентации перед далекими от статистики людьми, которых интересует точность классификации и не особо интересуют ошибки коэффициентов) - то модель с сочетанием обучающей и кросс-валидированной точности как 88.9/77.1% (соотв. AUC - 0.928/0.803) может рассматриваться как адекватная? И еще вопрос, относящийся к предыдущему - LOO и k-fold CV имеют тенденцию скорее к завышению или к занижению ошибки классификации? 3) Пригодны ли методы повторного взятия выборок для определения наиболее адекватных моделей, или это исключительно оценивающие методы? Например, в ходе 10 раундов 5-кратной кросс-валидизации получилось 50 моделей, из которых, скажем, 20 предсказывают исход в проверочной выборке отлично (>80% точных предсказаний), 25 - средне (60-80%) и 5 - плохо (<60%). Правильной ли тактикой будет отобрать 20 наиболее предиктивно мощных моделей и использовать их далее для внешней проверки на независимой выборке? ЗЫ. По последнему пункту уже нашел что вроде бы так и делают по уму, но все равно хотелось бы услышать Ваше мнение. 1) Не совсем. делаете 500 повторов, извлекаете коэффициенты и берете медиану и 2.5 и 97.5 процентили (т.е. получаете 95% доверительный интервал) 2) Не могу ответить, так как это зависит от предметной области. Фактически модель ошибается в каждом пятом случае и это оптимистичная оценка. Дальше - решайте сами. 3) Насчет выбора моделей кросс-валидацией я не понял. Автоматический отбор не рекомендуется, как бы он не выглядел. Для решения вопроса о том, какая из двух-трех моделей является более адекватной использовать можно. |
|
![]() |
![]() |
![]() ![]() |