![]() |
Здравствуйте, гость ( Вход | Регистрация )
![]() |
![]()
Сообщение
#1
|
|
Группа: Пользователи Сообщений: 8 Регистрация: 26.02.2009 Пользователь №: 5862 ![]() |
Уважаемые коллеги!
Я новичок в статистике, поэтому заранее извинюсь за, быть может, наивные вопросы. Они касаются логистической регресии. Имеются данные некоторого потенциально значимого диагностического теста (read-out - да/нет, соотв. 0/1) для дифференциальной диагностики доброкачественных и злокачественных узловых образований ЩЖ (соотв-но, зависимая переменная - «зло»(1)/«добро»(0)), независимые переменные (помимо рез-та изучаемого теста) - пол, возраст и наличие/отсутствие (1/0) подозрительных на малигнизацию изменений на цитограмме пунктата. Строю модель (SPSS, binary logistic regession). В результате по переменной, соответствующей рез-там диагностического теста - гипердисперсия, низкая статистика Вальда и отсутствие значимости переменной. Ситуация в том, что тест высокоспецифичный (но низкочувствительный), и на относительно небольшой выборке ни одного тест-позитивного случая в группе пациентов с доброкачественными образованиями не наблюдается. При произвольном введении одного тест-позитива в эту группу (в любой case) ситуация полностью исправляется, ошибка становится вполне приемлемой и переменная становится значимой. При этом % верных предсказаний в «неадеватной» модели даже выше (что логично). Собственно вопросы: 1) Неадекватность модели при отсутствии тест-позитивных случаев в одной из групп - это внутренняя особенность алгоритма или еще что-то? 2) Если это внутренняя особенность алгоритма, то каковы методы борьбы (не считая дальнейшего сбора материала в ожидании хотя бы одного тест-позитивного случая)? Заранее спасибо за советы и рекомендации. Сообщение отредактировал lab_owl - 26.02.2009 - 20:05 |
|
![]() |
![]() |
![]() |
![]()
Сообщение
#2
|
|
Группа: Пользователи Сообщений: 8 Регистрация: 26.02.2009 Пользователь №: 5862 ![]() |
Видимо, из-за моего неполного понимания матчасти получился misunderstanding.
1) Собственно "модель" - это набор переменных (видимо, именно так) или данное конкретное регрессионное уравнение с данными конкретными коэффициентами? 2) Я имел ввиду следующее - в ходе n-кратной кросс-проверки с одним и тем же набором переменных получается n регрессионных уравнений, которые предсказывают исходы в "независимых" проверочных выборках каждое со своей точностью. Повторяем это m раз, получаем класс, состоящий из m*n уравнений регрессии. Вопрос был - будет ли адекватно ориентируясь на точность предсказаний всех этих m*n уравнений, просмотрев их глазами, выбрать из них некоторое количество наилучших с точки зрения точности классификации, и уже в дальнейшей внешней валидации смотреть performance не только первоначального уравнения, построенного на полном наборе данных, но и этих уравнений, сгенерированных в ходе кросс-проверки? 3) Какой бы Вы порекомендовали софт для кросс-проверок ЛР-моделей (пользуюсь SPSS, там кросс-проверка предусмотрена только для дискриминантного анализа, но не для ЛР, насколько я понимаю)? Если с 20-ю кросс-проверками и использованием генератора случайных чисел и selection variable в меню ЛР я еще справлюсь, то с 500-кратной будет туго ![]() Спасибо! Сообщение отредактировал lab_owl - 13.03.2009 - 11:03 |
|
![]() |
![]() |
![]()
Сообщение
#3
|
|
Группа: Пользователи Сообщений: 1013 Регистрация: 4.10.2006 Пользователь №: 1933 ![]() |
Видимо, из-за моего неполного понимания матчасти получился misunderstanding. 1) Собственно "модель" - это набор переменных (видимо, именно так) или данное конкретное регрессионное уравнение с данными конкретными коэффициентами? 2) Я имел ввиду следующее - в ходе n-кратной кросс-проверки с одним и тем же набором переменных получается n регрессионных уравнений, которые предсказывают исходы в "независимых" проверочных выборках каждое со своей точностью. Повторяем это m раз, получаем класс, состоящий из m*n уравнений регрессии. Вопрос был - будет ли адекватно ориентируясь на точность предсказаний всех этих m*n уравнений, просмотрев их глазами, выбрать из них некоторое количество наилучших с точки зрения точности классификации, и уже в дальнейшей внешней валидации смотреть performance не только первоначального уравнения, построенного на полном наборе данных, но и этих уравнений, сгенерированных в ходе кросс-проверки? 3) Какой бы Вы порекомендовали софт для кросс-проверок ЛР-моделей (пользуюсь SPSS, там кросс-проверка предусмотрена только для дискриминантного анализа, но не для ЛР, насколько я понимаю)? Если с 20-ю кросс-проверками и использованием генератора случайных чисел и selection variable в меню ЛР я еще справлюсь, то с 500-кратной будет туго ![]() Спасибо! Начну с конца. И не надо делать кросс-валидацию, лучше точнее специфицировать модель Теперь к началу. Модель - это набор переменных и свзей между ними, влияющих на завиисмую переменную (распределенную определенным образом). Соответственно, Вашей задачей является найти значения коэффициентов в этой модели. Вы можете использовать два подхода - аналитический (обычное решение, базирующееся на предположениях о распределении заивисмой величины) или разные варианты повторного отбора. В первом случае Вы опять-таки аналитически очениваете неточность коэффициентов. Во втором, Вы строите много уравнений на немного отличающихся выборках и смотрите распределения коэффициентов. Соответственно оба метода решают одну и ту же задачу - оценку неточности коэффициентов регрессии. Соответственно отобрать часть уравнений в случае методов повторного отбора нельзя. Можно сравнивать разные модели (например, какая модель будет давать меньший разброс процента правильных предсказаний), но, очевидно, что для построения распределения 20 уранений будет недостаточно. В качестве софта однозначно R, там эти модели очень хорошо отлажены. |
|
![]() |
![]() |
![]() ![]() |