Вопрос по логистической регрессии - Форум врачей-аспирантов

Вопрос по логистической регрессии

lab_owl Просмотр профиля	26.02.2009 - 20:00 Сообщение #1
Группа: Пользователи Сообщений: 8 Регистрация: 26.02.2009 Пользователь №: 5862	Уважаемые коллеги! Я новичок в статистике, поэтому заранее извинюсь за, быть может, наивные вопросы. Они касаются логистической регресии. Имеются данные некоторого потенциально значимого диагностического теста (read-out - да/нет, соотв. 0/1) для дифференциальной диагностики доброкачественных и злокачественных узловых образований ЩЖ (соотв-но, зависимая переменная - «зло»(1)/«добро»(0)), независимые переменные (помимо рез-та изучаемого теста) - пол, возраст и наличие/отсутствие (1/0) подозрительных на малигнизацию изменений на цитограмме пунктата. Строю модель (SPSS, binary logistic regession). В результате по переменной, соответствующей рез-там диагностического теста - гипердисперсия, низкая статистика Вальда и отсутствие значимости переменной. Ситуация в том, что тест высокоспецифичный (но низкочувствительный), и на относительно небольшой выборке ни одного тест-позитивного случая в группе пациентов с доброкачественными образованиями не наблюдается. При произвольном введении одного тест-позитива в эту группу (в любой case) ситуация полностью исправляется, ошибка становится вполне приемлемой и переменная становится значимой. При этом % верных предсказаний в «неадеватной» модели даже выше (что логично). Собственно вопросы: 1) Неадекватность модели при отсутствии тест-позитивных случаев в одной из групп - это внутренняя особенность алгоритма или еще что-то? 2) Если это внутренняя особенность алгоритма, то каковы методы борьбы (не считая дальнейшего сбора материала в ожидании хотя бы одного тест-позитивного случая)? Заранее спасибо за советы и рекомендации. Сообщение отредактировал lab_owl - 26.02.2009 - 20:05

Ответов

lab_owl Просмотр профиля	13.03.2009 - 00:24 Сообщение #2
Группа: Пользователи Сообщений: 8 Регистрация: 26.02.2009 Пользователь №: 5862	Видимо, из-за моего неполного понимания матчасти получился misunderstanding. 1) Собственно "модель" - это набор переменных (видимо, именно так) или данное конкретное регрессионное уравнение с данными конкретными коэффициентами? 2) Я имел ввиду следующее - в ходе n-кратной кросс-проверки с одним и тем же набором переменных получается n регрессионных уравнений, которые предсказывают исходы в "независимых" проверочных выборках каждое со своей точностью. Повторяем это m раз, получаем класс, состоящий из mn уравнений регрессии. Вопрос был - будет ли адекватно ориентируясь на точность предсказаний всех этих mn уравнений, просмотрев их глазами, выбрать из них некоторое количество наилучших с точки зрения точности классификации, и уже в дальнейшей внешней валидации смотреть performance не только первоначального уравнения, построенного на полном наборе данных, но и этих уравнений, сгенерированных в ходе кросс-проверки? 3) Какой бы Вы порекомендовали софт для кросс-проверок ЛР-моделей (пользуюсь SPSS, там кросс-проверка предусмотрена только для дискриминантного анализа, но не для ЛР, насколько я понимаю)? Если с 20-ю кросс-проверками и использованием генератора случайных чисел и selection variable в меню ЛР я еще справлюсь, то с 500-кратной будет туго Спасибо! Сообщение отредактировал lab_owl - 13.03.2009 - 11:03

плав Просмотр профиля	13.03.2009 - 19:11 Сообщение #3
Группа: Пользователи Сообщений: 1013 Регистрация: 4.10.2006 Пользователь №: 1933	Цитата(lab_owl @ 13.03.2009 - 00:24) Видимо, из-за моего неполного понимания матчасти получился misunderstanding. 1) Собственно "модель" - это набор переменных (видимо, именно так) или данное конкретное регрессионное уравнение с данными конкретными коэффициентами? 2) Я имел ввиду следующее - в ходе n-кратной кросс-проверки с одним и тем же набором переменных получается n регрессионных уравнений, которые предсказывают исходы в "независимых" проверочных выборках каждое со своей точностью. Повторяем это m раз, получаем класс, состоящий из mn уравнений регрессии. Вопрос был - будет ли адекватно ориентируясь на точность предсказаний всех этих mn уравнений, просмотрев их глазами, выбрать из них некоторое количество наилучших с точки зрения точности классификации, и уже в дальнейшей внешней валидации смотреть performance не только первоначального уравнения, построенного на полном наборе данных, но и этих уравнений, сгенерированных в ходе кросс-проверки? 3) Какой бы Вы порекомендовали софт для кросс-проверок ЛР-моделей (пользуюсь SPSS, там кросс-проверка предусмотрена только для дискриминантного анализа, но не для ЛР, насколько я понимаю)? Если с 20-ю кросс-проверками и использованием генератора случайных чисел и selection variable в меню ЛР я еще справлюсь, то с 500-кратной будет туго Спасибо! Начну с конца. И не надо делать кросс-валидацию, лучше точнее специфицировать модель Теперь к началу. Модель - это набор переменных и свзей между ними, влияющих на завиисмую переменную (распределенную определенным образом). Соответственно, Вашей задачей является найти значения коэффициентов в этой модели. Вы можете использовать два подхода - аналитический (обычное решение, базирующееся на предположениях о распределении заивисмой величины) или разные варианты повторного отбора. В первом случае Вы опять-таки аналитически очениваете неточность коэффициентов. Во втором, Вы строите много уравнений на немного отличающихся выборках и смотрите распределения коэффициентов. Соответственно оба метода решают одну и ту же задачу - оценку неточности коэффициентов регрессии. Соответственно отобрать часть уравнений в случае методов повторного отбора нельзя. Можно сравнивать разные модели (например, какая модель будет давать меньший разброс процента правильных предсказаний), но, очевидно, что для построения распределения 20 уранений будет недостаточно. В качестве софта однозначно R, там эти модели очень хорошо отлажены.

Сообщений в этой теме

lab_owl Вопрос по логистической регрессии 26.02.2009 - 20:00

плав Цитата(lab_owl @ 26.02.2009 - 20:00)... 26.02.2009 - 21:48

lab_owl Спасибо большое за ответ! Если можно, еще один... 27.02.2009 - 14:49

плав Цитата(lab_owl @ 27.02.2009 - 14:49)... 27.02.2009 - 17:34

lab_owl Спасибо большое! Очень приятно что в рунете ес... 28.02.2009 - 00:00

lab_owl Здравствуйте, Я опять к Вам с вопросами. Получилас... 11.03.2009 - 06:05

плав На самом деле должны интересовать расчитанные при ... 11.03.2009 - 10:30

lab_owl Большое спасибо за ответы! Единственное, я не ... 11.03.2009 - 19:29

плав Цитата(lab_owl @ 11.03.2009 - 19:29)... 11.03.2009 - 22:24

lab_owl Спасибо! 1) Т.е. алгоритм, насколько я понимаю... 12.03.2009 - 08:19

плав Цитата(lab_owl @ 12.03.2009 - 08:19)... 13.03.2009 - 00:11

lab_owl Видимо, из-за моего неполного понимания матчасти п... 13.03.2009 - 00:24

плав Цитата(lab_owl @ 13.03.2009 - 00:24)... 13.03.2009 - 19:11

lab_owl Спасибо огромное! Под R подразумевается вот эт... 15.03.2009 - 03:58

Igoroshka Цитата(lab_owl @ 15.03.2009 - 02:58)... 15.03.2009 - 14:51

Gewissta привет профессионалам статистики! хочу спросит... 14.12.2011 - 16:53

Игорь Цитата(Gewissta @ 14.12.2011 - 17:53... 14.12.2011 - 19:29

Gewissta Цитата(Игорь @ 14.12.2011 - 20:29) Н... 14.12.2011 - 22:43

p2004r Цитата(Gewissta @ 14.12.2011 - 22:43... 14.12.2011 - 23:25

Gewissta Цитата(p2004r @ 15.12.2011 - 00:25) ... 15.12.2011 - 13:51

p2004r Цитата(Gewissta @ 15.12.2011 - 13:51... 15.12.2011 - 14:56

Игорь Цитата(Gewissta @ 14.12.2011 - 23:43... 17.12.2011 - 09:24

Gewissta Цитата(Игорь @ 17.12.2011 - 10:24) И... 17.12.2011 - 19:35

Игорь Цитата(Gewissta @ 17.12.2011 - 20:35... 18.12.2011 - 10:45

Gewissta Цитата(Игорь @ 14.12.2011 - 20:29) Н... 16.12.2011 - 20:49

Olga_ Цитата(Gewissta @ 14.12.2011 - 14:53... 4.01.2012 - 18:34

Вале а Цитата(Olga_ @ 4.01.2012 - 19:34) До... 9.01.2012 - 16:00

Игорь Цитата(Вале а @ 9.01.2012 - 16:00) д... 9.01.2012 - 16:39

Вале а Цитата(Игорь @ 9.01.2012 - 17:39) Пр... 10.01.2012 - 14:36

DrgLena Цитата(Gewissta @ 14.12.2011 - 23:43... 17.12.2011 - 19:51

Gewissta Цитата(DrgLena @ 17.12.2011 - 20:51)... 18.12.2011 - 20:22

100$ Цитата(Gewissta @ 18.12.2011 - 20:22... 18.12.2011 - 20:59

Gewissta Цитата(100$ @ 18.12.2011 - 21:5... 18.12.2011 - 21:16

100$ Цитата(Gewissta @ 18.12.2011 - 21:16... 18.12.2011 - 21:40

Gewissta Цитата(100$ @ 18.12.2011 - 22:4... 18.12.2011 - 21:58

100$ Цитата(Gewissta @ 18.12.2011 - 21:58... 18.12.2011 - 22:30

Игорь Цитата(Gewissta @ 18.12.2011 - 22:58... 19.12.2011 - 15:14

Gewissta Цитата(Игорь @ 19.12.2011 - 15:14) О... 19.12.2011 - 18:16

DrgLena Не обязательно так реагировать на чьи то ошибки. О... 19.12.2011 - 21:02

Игорь Цитата(DrgLena @ 19.12.2011 - 21:02)... 20.12.2011 - 06:02

DrgLena Игорь, вы изложили известные факты, мы это уже обс... 20.12.2011 - 12:46

100$ Цитата... а может называться и Kolmogorov-Smirnov-... 20.12.2011 - 17:16

Игорь Цитата(DrgLena @ 20.12.2011 - 13:46)... 20.12.2011 - 17:28

Gewissta Цитата(Игорь @ 20.12.2011 - 18:28) В... 20.12.2011 - 19:08

Gewissta Добрый день! Строю в SPSS модель лог регрессии... 28.12.2011 - 16:27

p2004r Цитата(Gewissta @ 28.12.2011 - 16:27... 28.12.2011 - 20:34

p2004r Цитата(Gewissta @ 28.12.2011 - 16:27... 28.12.2011 - 20:40

Gewissta Цитата(p2004r @ 28.12.2011 - 21:40) ... 28.12.2011 - 21:05

DrgLena Цитата(Игорь @ 9.01.2012 - 17:39) Пр... 9.01.2012 - 19:08

Игорь Цитата(DrgLena @ 9.01.2012 - 19:08) ... 9.01.2012 - 20:15

DrgLena Я не спорю с вами в отношении числа градаций в пер... 9.01.2012 - 21:46

Игорь Цитата(DrgLena @ 9.01.2012 - 22:46) ... 10.01.2012 - 19:54

Вале а еще интересует, какие предположения могут быть выд... 10.01.2012 - 16:19

DrgLena Цитата(Игорь @ 10.01.2012 - 20:54) s... 11.01.2012 - 11:09

Игорь Цитата(DrgLena @ 11.01.2012 - 11:09)... 13.01.2012 - 05:39

DrgLena Цитата(Игорь @ 13.01.2012 - 05:39) .... 13.01.2012 - 10:56

Игорь Цитата(DrgLena @ 13.01.2012 - 10:56)... 13.01.2012 - 15:58

Вале а Цитата(Игорь @ 13.01.2012 - 16:58) д... 13.01.2012 - 21:43

DrgLena А в этой ветке форума пол (sex) всего лишь имя пер... 13.01.2012 - 11:28

DrgLena Прежде, чем вы уйдете, громко хлопнув дверью, сове... 13.01.2012 - 18:03

Stefa Здравствуйте, Игорь, не уходите, пожалуйста, с фор... 16.01.2012 - 05:22

Вале а Цитата(Stefa @ 16.01.2012 - 06:22) З... 16.01.2012 - 18:34

Вале а замерла веточка 7.02.2012 - 14:09

« Предыдущая тема · Медицинская статистика · Следующая тема »