Помощь - Поиск - Пользователи - Календарь
Полная версия этой страницы: Вопрос по логистической регрессии
Форум врачей-аспирантов > Разделы форума > Медицинская статистика
Страницы: 1, 2
lab_owl
Уважаемые коллеги!
Я новичок в статистике, поэтому заранее извинюсь за, быть может, наивные вопросы. Они касаются логистической регресии. Имеются данные некоторого потенциально значимого диагностического теста (read-out - да/нет, соотв. 0/1) для дифференциальной диагностики доброкачественных и злокачественных узловых образований ЩЖ (соотв-но, зависимая переменная - «зло»(1)/«добро»(0)), независимые переменные (помимо рез-та изучаемого теста) - пол, возраст и наличие/отсутствие (1/0) подозрительных на малигнизацию изменений на цитограмме пунктата. Строю модель (SPSS, binary logistic regession). В результате по переменной, соответствующей рез-там диагностического теста - гипердисперсия, низкая статистика Вальда и отсутствие значимости переменной. Ситуация в том, что тест высокоспецифичный (но низкочувствительный), и на относительно небольшой выборке ни одного тест-позитивного случая в группе пациентов с доброкачественными образованиями не наблюдается. При произвольном введении одного тест-позитива в эту группу (в любой case) ситуация полностью исправляется, ошибка становится вполне приемлемой и переменная становится значимой. При этом % верных предсказаний в «неадеватной» модели даже выше (что логично). Собственно вопросы:
1) Неадекватность модели при отсутствии тест-позитивных случаев в одной из групп - это внутренняя особенность алгоритма или еще что-то?
2) Если это внутренняя особенность алгоритма, то каковы методы борьбы (не считая дальнейшего сбора материала в ожидании хотя бы одного тест-позитивного случая)?
Заранее спасибо за советы и рекомендации.
плав
Цитата(lab_owl @ 26.02.2009 - 20:00) *
Уважаемые коллеги!
Я новичок в статистике, поэтому заранее извинюсь за, быть может, наивные вопросы. Они касаются логистической регресии. Имеются данные некоторого потенциально значимого диагностического теста (read-out - да/нет, соотв. 0/1) для дифференциальной диагностики доброкачественных и злокачественных узловых образований ЩЖ (соотв-но, зависимая переменная - «зло»(1)/«добро»(0)), независимые переменные (помимо рез-та изучаемого теста) - пол, возраст и наличие/отсутствие (1/0) подозрительных на малигнизацию изменений на цитограмме пунктата. Строю модель (SPSS, binary logistic regession). В результате по переменной, соответствующей рез-там диагностического теста - гипердисперсия, низкая статистика Вальда и отсутствие значимости переменной. Ситуация в том, что тест высокоспецифичный (но низкочувствительный), и на относительно небольшой выборке ни одного тест-позитивного случая в группе пациентов с доброкачественными образованиями не наблюдается. При произвольном введении одного тест-позитива в эту группу (в любой case) ситуация полностью исправляется, ошибка становится вполне приемлемой и переменная становится значимой. При этом % верных предсказаний в «неадеватной» модели даже выше (что логично). Собственно вопросы:
1) Неадекватность модели при отсутствии тест-позитивных случаев в одной из групп - это внутренняя особенность алгоритма или еще что-то?
2) Если это внутренняя особенность алгоритма, то каковы методы борьбы (не считая дальнейшего сбора материала в ожидании хотя бы одного тест-позитивного случая)?
Заранее спасибо за советы и рекомендации.

А теперь представьте. У Вас следующие значения 0 к 0 к 0 к 0 к 0 к 0 к, какая буква соответствует значению 1? Именно этот вопрос Вы задаете логистической регрессии и она дает Вам единственно возможный ответ - не известно. И способов борьбы с попыткой предсказать неизвестное кроме как набор материала для получения тест-положительных результатОВ не придумано (обратите внимание, один случай - и алгоритм может давать неустойчивые результаты, вообще-то требуется примерно равное числе T+ и T-).
lab_owl
Спасибо большое за ответ!
Если можно, еще один вопрос. Насколько я понял из литературы и обсуждений на этом форуме, в первоначальную модель должны быть в любом случае включены возраст и пол для age-gender adjustment. Вопрос собственно такой - финальная модель в любом случае должна быть скорректирована по этим параметрам (т.е. даже в том случае, когда сами по себе они не являются значимыми предикторами) - или же после получения инф-ии об отсутствии значимости этих переменных их можно выбросить из конечной модели?
Еще раз спасибо!
плав
Цитата(lab_owl @ 27.02.2009 - 14:49) *
Спасибо большое за ответ!
Если можно, еще один вопрос. Насколько я понял из литературы и обсуждений на этом форуме, в первоначальную модель должны быть в любом случае включены возраст и пол для age-gender adjustment. Вопрос собственно такой - финальная модель в любом случае должна быть скорректирована по этим параметрам (т.е. даже в том случае, когда сами по себе они не являются значимыми предикторами) - или же после получения инф-ии об отсутствии значимости этих переменных их можно выбросить из конечной модели?
Еще раз спасибо!

Хосмер и Лемешев советуют не исключать из финальной модели пол и возраст, если только это не продиктовано клиническими соображениями (т.е. извсетно, что пол и возраст на исход не влияют - ситуация в медицине достаточно редкая)
lab_owl
Спасибо большое!
Очень приятно что в рунете есть форум, где можно быстро получить высококвалифицированные ответы по прикладной статистике в медицине.
Спасибо Вам за Вашу работу!
lab_owl
Здравствуйте,
Я опять к Вам с вопросами.
Получилась некая модель. Все статистики включая Хосмера-Лемешева вполне хорошие. Хочется сделать ей внутреннюю валидацию.
Чтение матчасти в общих чертах ознакомило с такими вещами как bootstrap, k-fold-CV, LOO-CV и 80/20 split validation. В связи с этим несколько вопросов.
1) Какие параметры помимо точности классификации на тестовой выборке (в одной из выложенных в нете учебных презентаций вычитал, что общая доля верных предсказаний в тестовой выборке должна быть не более чем на 10% ниже, чем в обучающей - это так?) должны меня интересовать при внутренней валидации? Иными словами, что должно быть в табличке под названием "внутренняя валидация ЛР-модели", чтобы я имел право сказать, что данные этой самой валидации отличные/хорошие/удовлетворительные/неудовлетворительные?
2) Пока я испробовал 80/20 и LOO, и из них более оптимистичные оценки дает 80/20. Причем они остаются одинаково оптимистичными даже при 10-кратном произвольном выдергивании 20% случаев на тестовую выборку. Видел работы, где подобная процедура делается один раз и на этом валидацию заканчивают - есть ли какие-то правила по поводу необходимого числа "выдергиваний"?
2) В том случае, если на полном сете данных я использую не стандартный порог отсечения 0.5, а определенный в ходе ROC-анализа модели и соответствующий максимуму суммы (Sp+Sn), то оценивая точность предсказаний, допустим, при LOO-CV, как выбирать порог отсечения? Следует ли брать тот же, что и в первоначальной модели, или можно заново провести ROC-анализ и привести значения, опять-таки соотв. максимуму суммы Sp+Sn?
Заранее спасибо за ответы!
плав
На самом деле должны интересовать расчитанные при помощи внутренней валидизации стандартные ошибки, а не точность классификации. Точность классификации хороший показатель при внешней валидизации. Соответственно, ответ на все остальные вопросы очевиден.
На последний - Вы проверяете модель. Соответственно, менять точку разделения от одной модели к другой вряд ли является осмысленным поведением, ибо непонятно, какую собственно модель Вы проверяете.
На самом деле оптимальный вариант это две разных группы - на одной строится модель, на другой проверяется. Если наблюдений мало - идут на ухишрения, общая идея которых взять, выделить подгруппу, построить на ней модель, а на второй подгруппе проверить. Соответственно в этом случае получаете разброс предсказательных значений. Именно этот разброс и должен приводиться и тут никаких ранее установленных параметров нет и быть не может, поскольку они контекст-зависимые (для одних моделей надо только 95%-100%, для других уже 40-50% прекрасно.
lab_owl
Большое спасибо за ответы!
Единственное, я не вполне понял - стандартные ошибки чего? В тех работах, которые мне попадались, в основном использовали misclassification error rate - но это собственно единица минус процент верных предсказаний...
плав
Цитата(lab_owl @ 11.03.2009 - 19:29) *
Большое спасибо за ответы!
Единственное, я не вполне понял - стандартные ошибки чего? В тех работах, которые мне попадались, в основном использовали misclassification error rate - но это собственно единица минус процент верных предсказаний...

Нет, речь идет не об оценке модели в целом, а о ошибке коэффициентов предикторов (независимых переменных). Ощибка классификации - это не очень адекватный показатель, он исходит из того, что при повторении эксперимента модель даст абсолютно такие же результаты (т.е. не учитывается случайная вариабельность). Уж тогда лучше сделать валидизацию ошибки классификации бутстрепом или другими методами повторного взятия выборок (тогда будет не одна величина, а интервал).
lab_owl
Спасибо!
1) Т.е. алгоритм, насколько я понимаю, примерно такой - к примеру, я делаю 5-кратную CV, и повторяю ее, допустим, 20 раз. На каждом шаге я получаю модель, из которой извлекаю коэффициенты для предикторов, и точность предсказания для "независимой" подвыборки. После чего из множества этих чисел беру среднее по коэффициентам + S.E. и среднее по точности классификации + S.E. - я правильно понял?
2) Вы уже написали, что точность классификации - не лучший параметр для внутренней валидации. Но если его все же приводить (нпрм, в презентации перед далекими от статистики людьми, которых интересует точность классификации и не особо интересуют ошибки коэффициентов) - то модель с сочетанием обучающей и кросс-валидированной точности как 88.9/77.1% (соотв. AUC - 0.928/0.803) может рассматриваться как адекватная? И еще вопрос, относящийся к предыдущему - LOO и k-fold CV имеют тенденцию скорее к завышению или к занижению ошибки классификации?
3) Пригодны ли методы повторного взятия выборок для определения наиболее адекватных моделей, или это исключительно оценивающие методы? Например, в ходе 10 раундов 5-кратной кросс-валидизации получилось 50 моделей, из которых, скажем, 20 предсказывают исход в проверочной выборке отлично (>80% точных предсказаний), 25 - средне (60-80%) и 5 - плохо (<60%). Правильной ли тактикой будет отобрать 20 наиболее предиктивно мощных моделей и использовать их далее для внешней проверки на независимой выборке?
плав
Цитата(lab_owl @ 12.03.2009 - 08:19) *
Спасибо!
1) Т.е. алгоритм, насколько я понимаю, примерно такой - к примеру, я делаю 5-кратную CV, и повторяю ее, допустим, 20 раз. На каждом шаге я получаю модель, из которой извлекаю коэффициенты для предикторов, и точность предсказания для "независимой" подвыборки. После чего из множества этих чисел беру среднее по коэффициентам + S.E. и среднее по точности классификации + S.E. - я правильно понял?
2) Вы уже написали, что точность классификации - не лучший параметр для внутренней валидации. Но если его все же приводить (нпрм, в презентации перед далекими от статистики людьми, которых интересует точность классификации и не особо интересуют ошибки коэффициентов) - то модель с сочетанием обучающей и кросс-валидированной точности как 88.9/77.1% (соотв. AUC - 0.928/0.803) может рассматриваться как адекватная? И еще вопрос, относящийся к предыдущему - LOO и k-fold CV имеют тенденцию скорее к завышению или к занижению ошибки классификации?
3) Пригодны ли методы повторного взятия выборок для определения наиболее адекватных моделей, или это исключительно оценивающие методы? Например, в ходе 10 раундов 5-кратной кросс-валидизации получилось 50 моделей, из которых, скажем, 20 предсказывают исход в проверочной выборке отлично (>80% точных предсказаний), 25 - средне (60-80%) и 5 - плохо (<60%). Правильной ли тактикой будет отобрать 20 наиболее предиктивно мощных моделей и использовать их далее для внешней проверки на независимой выборке?
ЗЫ. По последнему пункту уже нашел что вроде бы так и делают по уму, но все равно хотелось бы услышать Ваше мнение.

1) Не совсем. делаете 500 повторов, извлекаете коэффициенты и берете медиану и 2.5 и 97.5 процентили (т.е. получаете 95% доверительный интервал)
2) Не могу ответить, так как это зависит от предметной области. Фактически модель ошибается в каждом пятом случае и это оптимистичная оценка. Дальше - решайте сами.
3) Насчет выбора моделей кросс-валидацией я не понял. Автоматический отбор не рекомендуется, как бы он не выглядел. Для решения вопроса о том, какая из двух-трех моделей является более адекватной использовать можно.
lab_owl
Видимо, из-за моего неполного понимания матчасти получился misunderstanding.
1) Собственно "модель" - это набор переменных (видимо, именно так) или данное конкретное регрессионное уравнение с данными конкретными коэффициентами?
2) Я имел ввиду следующее - в ходе n-кратной кросс-проверки с одним и тем же набором переменных получается n регрессионных уравнений, которые предсказывают исходы в "независимых" проверочных выборках каждое со своей точностью. Повторяем это m раз, получаем класс, состоящий из m*n уравнений регрессии. Вопрос был - будет ли адекватно ориентируясь на точность предсказаний всех этих m*n уравнений, просмотрев их глазами, выбрать из них некоторое количество наилучших с точки зрения точности классификации, и уже в дальнейшей внешней валидации смотреть performance не только первоначального уравнения, построенного на полном наборе данных, но и этих уравнений, сгенерированных в ходе кросс-проверки?
3) Какой бы Вы порекомендовали софт для кросс-проверок ЛР-моделей (пользуюсь SPSS, там кросс-проверка предусмотрена только для дискриминантного анализа, но не для ЛР, насколько я понимаю)? Если с 20-ю кросс-проверками и использованием генератора случайных чисел и selection variable в меню ЛР я еще справлюсь, то с 500-кратной будет туго smile.gif
Спасибо!
плав
Цитата(lab_owl @ 13.03.2009 - 00:24) *
Видимо, из-за моего неполного понимания матчасти получился misunderstanding.
1) Собственно "модель" - это набор переменных (видимо, именно так) или данное конкретное регрессионное уравнение с данными конкретными коэффициентами?
2) Я имел ввиду следующее - в ходе n-кратной кросс-проверки с одним и тем же набором переменных получается n регрессионных уравнений, которые предсказывают исходы в "независимых" проверочных выборках каждое со своей точностью. Повторяем это m раз, получаем класс, состоящий из m*n уравнений регрессии. Вопрос был - будет ли адекватно ориентируясь на точность предсказаний всех этих m*n уравнений, просмотрев их глазами, выбрать из них некоторое количество наилучших с точки зрения точности классификации, и уже в дальнейшей внешней валидации смотреть performance не только первоначального уравнения, построенного на полном наборе данных, но и этих уравнений, сгенерированных в ходе кросс-проверки?
3) Какой бы Вы порекомендовали софт для кросс-проверок ЛР-моделей (пользуюсь SPSS, там кросс-проверка предусмотрена только для дискриминантного анализа, но не для ЛР, насколько я понимаю)? Если с 20-ю кросс-проверками и использованием генератора случайных чисел и selection variable в меню ЛР я еще справлюсь, то с 500-кратной будет туго smile.gif
Спасибо!

Начну с конца. И не надо делать кросс-валидацию, лучше точнее специфицировать модель
Теперь к началу. Модель - это набор переменных и свзей между ними, влияющих на завиисмую переменную (распределенную определенным образом). Соответственно, Вашей задачей является найти значения коэффициентов в этой модели. Вы можете использовать два подхода - аналитический (обычное решение, базирующееся на предположениях о распределении заивисмой величины) или разные варианты повторного отбора. В первом случае Вы опять-таки аналитически очениваете неточность коэффициентов. Во втором, Вы строите много уравнений на немного отличающихся выборках и смотрите распределения коэффициентов. Соответственно оба метода решают одну и ту же задачу - оценку неточности коэффициентов регрессии. Соответственно отобрать часть уравнений в случае методов повторного отбора нельзя.
Можно сравнивать разные модели (например, какая модель будет давать меньший разброс процента правильных предсказаний), но, очевидно, что для построения распределения 20 уранений будет недостаточно.
В качестве софта однозначно R, там эти модели очень хорошо отлажены.
lab_owl
Спасибо огромное!
Под R подразумевается вот это?
http://openwetware.org/wiki/R_Statistics
Igoroshka
Цитата(lab_owl @ 15.03.2009 - 02:58) *
Спасибо огромное!
Под R подразумевается вот это?
http://openwetware.org/wiki/R_Statistics

Да.
Gewissta
привет профессионалам статистики! хочу спросить, какие базовые предположения лежат в основе метода бинарной логистической регрессии. насколько она устойчива к нарушениям нормальности, гетероскедастичности? какими методами пользуйтесь при удалении/коррекции выбросов?
Игорь
Цитата(Gewissta @ 14.12.2011 - 17:53) *
привет профессионалам статистики! хочу спросить, какие базовые предположения лежат в основе метода бинарной логистической регрессии. насколько она устойчива к нарушениям нормальности, гетероскедастичности? какими методами пользуйтесь при удалении/коррекции выбросов?

Не профессионал, но тем не менее. Если Вас интересуют теоретические обоснования метода, то, во-первых, это довольно объемный материал. Во-вторых, движок форума не позволит (во всяком случае комфортно) использовать большое количество формул. Если Вам не хочется терять время, загляните в Справку программы AtteStat, касающуюся данного метода (доступна также в формате RTF) - там есть и теория, представленная в адекватном, но компактном виде, и даны все актуальные ссылки. Если хочется потроллить, продолжайте тему.
Gewissta
Цитата(Игорь @ 14.12.2011 - 20:29) *
Не профессионал, но тем не менее. Если Вас интересуют теоретические обоснования метода, то, во-первых, это довольно объемный материал. Во-вторых, движок форума не позволит (во всяком случае комфортно) использовать большое количество формул. Если Вам не хочется терять время, загляните в Справку программы AtteStat, касающуюся данного метода (доступна также в формате RTF) - там есть и теория, представленная в адекватном, но компактном виде, и даны все актуальные ссылки. Если хочется потроллить, продолжайте тему.


спор у нас с коллегой случился. критично ли для логрегрессии нарушения многомерного нормального распределения (имеется в виду распределение значений предикторов, конечно). и вообще справедливо для логрегрессии утверждать что остатки должны быть нормально распределены и гомоскедастичны?
p2004r
Цитата(Gewissta @ 14.12.2011 - 22:43) *
спор у нас с коллегой случился. критично ли для логрегрессии нарушения многомерного нормального распределения (имеется в виду распределение значений предикторов, конечно). и вообще справедливо для логрегрессии утверждать что остатки должны быть нормально распределены и гомоскедастичны?


в том, насколько устойчиво полученное решение (полученное с помощью любого метода), очень легко убедится самому применив бутстреп

Gewissta
Цитата(p2004r @ 15.12.2011 - 00:25) *
в том, насколько устойчиво полученное решение (полученное с помощью любого метода), очень легко убедится самому применив бутстреп


в spss работа. там вроде нет такой возможности. если только spss syntax писать...
p2004r
Цитата(Gewissta @ 15.12.2011 - 13:51) *
в spss работа. там вроде нет такой возможности. если только spss syntax писать...


изнутри последних версий spss по моему доступен R, логично использовать его если версия позволяет.
Gewissta
Цитата(Игорь @ 14.12.2011 - 20:29) *
Не профессионал, но тем не менее. Если Вас интересуют теоретические обоснования метода, то, во-первых, это довольно объемный материал. Во-вторых, движок форума не позволит (во всяком случае комфортно) использовать большое количество формул. Если Вам не хочется терять время, загляните в Справку программы AtteStat, касающуюся данного метода (доступна также в формате RTF) - там есть и теория, представленная в адекватном, но компактном виде, и даны все актуальные ссылки. Если хочется потроллить, продолжайте тему.


не нашел справку в rtf а программку установил. справка не запускается, ругается: сделана в допотопные времена и капризная виста ее понимать не хочет. может сылочку на файлик кинете плиз?
еще вопрос, в литературе встретил информацию по коэффициенту детерминации: в ряде случаев плохо подогнанная модель давала тем не менее высокий коэфф-т детерминации, увеличение коэфф-та с включением предиктора еще не обозначает что его коэффициент значим.
http://www.ekon.oglib.ru/bgl/3619/95.html
насколько это справедливо для логистической регресcии?
Игорь
Цитата(Gewissta @ 14.12.2011 - 23:43) *
спор у нас с коллегой случился. критично ли для логрегрессии нарушения многомерного нормального распределения (имеется в виду распределение значений предикторов, конечно). и вообще справедливо для логрегрессии утверждать что остатки должны быть нормально распределены и гомоскедастичны?

Интуитивно (возможно и даже очень вероятно, это показано в литературе) можно предположить, что чем ближе распределение предикторов к нормальному распределению, тем более адекватную модель удастся получить.
Цитата(Gewissta @ 16.12.2011 - 21:49) *
не нашел справку в rtf а программку установил. справка не запускается, ругается: сделана в допотопные времена и капризная виста ее понимать не хочет. может сылочку на файлик кинете плиз?

Если Вы грузили программу с официального сайта, там же расположены исходные тексты программы, в которых искомые файлы RTF находятся.

Vista при первом запуске должна была сообщить, где и как получить программу для чтения файлов в формате HLP. Купив программное обеспечение у компании Microsoft, Вы оплатили и его поддержку. Так воспользуйтесь своим правом получить ее от продавца.
Gewissta
Цитата(Игорь @ 17.12.2011 - 10:24) *
Интуитивно (возможно и даже очень вероятно, это показано в литературе) можно предположить, что чем ближе распределение предикторов к нормальному распределению, тем более адекватную модель удастся получить.

Если Вы грузили программу с официального сайта, там же расположены исходные тексты программы, в которых искомые файлы RTF находятся.

Vista при первом запуске должна была сообщить, где и как получить программу для чтения файлов в формате HLP. Купив программное обеспечение у компании Microsoft, Вы оплатили и его поддержку. Так воспользуйтесь своим правом получить ее от продавца.


это официальный сайт - http://www.attestat.valsoft.ru?
DrgLena
Цитата(Gewissta @ 14.12.2011 - 23:43) *
критично ли для логрегрессии нарушения многомерного нормального распределения (имеется в виду распределение значений предикторов, конечно).

Прелесть логистической регрессии в том и состоит, что предикторы могут быть и бинарные, тогда экспонента коэффициента (для одновариантной регрессии) совпадает с рассчитанной по четырехпольной таблице, а также и категориальными, реализовано в SPSS. А контроль модели - оценка ROC.
Игорь
Цитата(Gewissta @ 17.12.2011 - 20:35) *
это официальный сайт -

http://attestatsoft.narod.ru
Gewissta
Цитата(DrgLena @ 17.12.2011 - 20:51) *
Прелесть логистической регрессии в том и состоит, что предикторы могут быть и бинарные, тогда экспонента коэффициента (для одновариантной регрессии) совпадает с рассчитанной по четырехпольной таблице, а также и категориальными, реализовано в SPSS. А контроль модели - оценка ROC.


а вот кривую Колмогорова-Смирнова для оценки риска модели в SPSS не построишь (
может кто знает как syntax к ней написать
100$
Цитата(Gewissta @ 18.12.2011 - 20:22) *
а вот кривую Колмогорова-Смирнова для оценки риска модели в SPSS не построишь (
может кто знает как syntax к ней написать


Прошу вашего великодушного пардону, а что это за зверь такой - кривая Колмогорова-Смирнова? Просветите, когда не лень. Не дайте помереть полным болваном smile.gif
Gewissta
Цитата(100$ @ 18.12.2011 - 21:59) *
Прошу вашего великодушного пардону, а что это за зверь такой - кривая Колмогорова-Смирнова? Просветите, когда не лень. Не дайте помереть полным болваном smile.gif


Статистика КС
вычисляется просто: это максимум разности между кумулятивным процентом распределения "хороших" заемщиков
и кумулятивным процентом распределения "плохих" заемщиков (тут зависит от категорий зависимой переменной). Теоретически статистика КС может принимать
значения от 0 до 100, однако на практике она обычно оказывается в диапазоне от 25 до 75.
Примерная градация выглядит так:
меньше 20 - наверное, скоринговая таблица непригодна к применению;
20-40 - неплохая таблица;
41-50 - хорошая таблица;
51-60 - очень хорошая таблица;
61-75 - поразительно хорошая таблица;
больше 75 - вероятно, слишком хороший результат, чтобы быть правдой, наверное, что-то
неправильно

100$
Цитата(Gewissta @ 18.12.2011 - 21:16) *
Статистика КС
вычисляется просто: это максимум разности между кумулятивным процентом распределения "хороших" заемщиков
и кумулятивным процентом распределения "плохих" заемщиков (тут зависит от категорий зависимой переменной). Теоретически статистика КС может принимать
значения от 0 до 100, однако на практике она обычно оказывается в диапазоне от 25 до 75.
Примерная градация выглядит так:
меньше 20 - наверное, скоринговая таблица непригодна к применению;
20-40 - неплохая таблица;
41-50 - хорошая таблица;
51-60 - очень хорошая таблица;
61-75 - поразительно хорошая таблица;
больше 75 - вероятно, слишком хороший результат, чтобы быть правдой, наверное, что-то
неправильно


Вас понял: кривой Колмогорова-Смирнова в природе не существует. А говорить надо: "статистика типа Колмогорова - Смирнова", поскольку эти два ученых никогда не печатались вместе, не продолжали исследования друг друга, и не изучали один и тот же критерий ни вместе, ни порознь.
Успехов в изучении матчасти!
Gewissta
Цитата(100$ @ 18.12.2011 - 22:40) *
Вас понял: кривой Колмогорова-Смирнова в природе не существует. А говорить надо: "статистика типа Колмогорова - Смирнова", поскольку эти два ученых никогда не печатались вместе, не продолжали исследования друг друга, и не изучали один и тот же критерий ни вместе, ни порознь.
Успехов в изучении матчасти!


В скоринге это общепринятый термин.
http://www.plug-n-score.com/learning/kolmo...irnov-curve.htm
а что и как они изучали порознь или вместе со Смирновым или в обнимку с Александровым (к которому у него были нежные чувства) мне неважно
100$
Цитата(Gewissta @ 18.12.2011 - 21:58) *
В скоринге это общепринятый термин.
http://www.plug-n-score.com/learning/kolmo...irnov-curve.htm
а что и как они изучали порознь или вместе со Смирновым или в обнимку с Александровым (к которому у него были нежные чувства) мне неважно



То есть я вам - медицинский факт, что ни Колмогоров, ни Смирнов никаких кривых Колмогорова-Смирнова отродясь не выдумывали, а вы мне - ссылку на официальный сайт племени мумбо-юмбо, которые русского языка не знают, трудов Колмогорова и Смирнова в глаза не видели. Забавно.
Пишите исчо. Не бросайте меня надолго.
Игорь
Цитата(Gewissta @ 18.12.2011 - 22:58) *
В скоринге это общепринятый термин.
http://www.plug-n-score.com/learning/kolmo...irnov-curve.htm

Общепринятый... среди невежд и недоучек.
Цитата(Gewissta @ 18.12.2011 - 22:58) *
а что и как они изучали порознь или вместе со Смирновым или в обнимку с Александровым (к которому у него были нежные чувства) мне неважно

Полагаю, сказав гнусность, Вы намеревались оскорбить людей, которые общаются на данном форуме, и умалить великих. И для тех, и тем более для вторых Ваша личность, к тому скрытая за кличкой, никакого значения не имеет.
Gewissta
Цитата(Игорь @ 19.12.2011 - 15:14) *
Общепринятый... среди невежд и недоучек.

Полагаю, сказав гнусность, Вы намеревались оскорбить людей, которые общаются на данном форуме, и умалить великих. И для тех, и тем более для вторых Ваша личность, к тому скрытая за кличкой, никакого значения не имеет.


это общепринятый термин. на том и стою. гомосексуализм - не преступление и не гнусность. а в те годы жить, не скрывая своей ориентации - вообще подвиг, которым я не перестаю восхищаться. его письма к Александрову по-своему прекрасны. но речь не об этом. для меня статистические критерии - инструмент и не более. у меня есть конкретный вопрос на который нужен конкретный ответ, а не флуд и разговоры ни о чем. и уж тем более не надо тут по поводу ника разводить дискуссии. давайте обсудим еще ваше имя.

p.s. кстати меня Валера зовут
DrgLena
Не обязательно так реагировать на чьи то ошибки.
Опять спор в терминологии, как что называть, но спор то не достойный этого форума, сейчас достаточно в инете форумов, где подобный тон принят. Но тут, не смотря на длительное отсутствие модератора, удается сохранять достойное общение.

ВЕРОЯТНОСТЬ И МАТЕМАТИЧЕСКАЯ СТАТИСТИКА. ЭНЦИКЛОПЕДИЯ.- М.: Научное издательство "Большая российская энциклопедия", 1999. Стр. 244-245.
"Колмогорова-Смирнова критерий - (Kolmogorov-Smirnov test) - собирательное название для статистических критериев, статистики которых выражаются через максимальное (минимальное) значение разности между выборочной и теоретической функциями распределения или их оценками".

Нет ничего криминального в том, что по аналогии с таким определением критериев К-С, также можно назвать этими великими именами наших соотечественников и кривую, которая строится по разности между двумя кумулятивными долями распределения. Честь и хвала создателям пакета Plug&Score 2011 австрийской компании Scorto, которые ее так и назвали. Как и другим создателям статистических пакетов и западным и американским, тоже не совсем малограмотным людям, из того же племени, пусть они русского языка не знают, и Колмогорова и Смирного в подлинниках не читали.
Построить эти кривые не сложно и не имея указанной программы. Сохраните рассчитанные вероятности, отсортируйте отдельно для каждой группы, получите кумулятивные доли и постройте график.
Игорь
Цитата(DrgLena @ 19.12.2011 - 21:02) *
ВЕРОЯТНОСТЬ И МАТЕМАТИЧЕСКАЯ СТАТИСТИКА. ЭНЦИКЛОПЕДИЯ.- М.: Научное издательство "Большая российская энциклопедия", 1999. Стр. 244-245.
"Колмогорова-Смирнова критерий - (Kolmogorov-Smirnov test) - собирательное название для статистических критериев, статистики которых выражаются через максимальное (минимальное) значение разности между выборочной и теоретической функциями распределения или их оценками".

Нет ничего криминального в том, что по аналогии с таким определением критериев К-С, также можно назвать этими великими именами наших соотечественников и кривую, которая строится по разности между двумя кумулятивными долями распределения. Честь и хвала создателям пакета Plug&Score 2011 австрийской компании Scorto, которые ее так и назвали. Как и другим создателям статистических пакетов и западным и американским, тоже не совсем малограмотным людям, из того же племени, пусть они русского языка не знают, и Колмогорова и Смирного в подлинниках не читали.
Построить эти кривые не сложно и не имея указанной программы. Сохраните рассчитанные вероятности, отсортируйте отдельно для каждой группы, получите кумулятивные доли и постройте график.

Немного расскажу, как пишутся предназначенные для широкого употребления компьютерные программы. Берутся [желательно] известные монографии или учебники с хорошо теоретически обоснованными, проверенными и общепризнанными алгоритмами, программируются, тестируются и отправляются в свободное плавание либо продаются за деньги. Это в общих чертах. Проблема в том, что теоретическая ошибка может быть в монографии, которая базируется обычно на других монографиях, статьях других авторов и немного на собственных исследованиях. Это нормальный научный процесс. Но он не исключает ситуации, которая как раз и показана выше. А именно "... критерий ... - собирательное название ... критериев". Т.е. некто (возможно, лет 50 назад) прочитал подобное же определение и не стал утруждать себя размышлениями, что это за критерии, обозвав все одним и тем же именем. Если кратко, под статистикой Колмогорова понимают разность между теоретической и эмпирической функциями распределения, а под статистикой Смирнова - разность между двумя эмпирическими функциями распределения. Ошибка, казалось бы, невелика, но статистики критериев построены по разному, имеют различные функции распределения. Небольшая ошибка в терминологии, тянущаяся из одной бестолковой статьи, ведет к ошибкам в цитирующих их солидных источниках, программах, к неверным выводам в практических исследованиях.

Термин "статистика типа Колмогорова" применяется в случае, когда рассматривается сложная гипотеза. Это сделано для того, чтобы подчеркнуть, что распределение статистики Колмогорова для простой гипотезы (классическая, исследованная им) и для сложных гипотез различаются. Более того, для сложных гипотез распределения будут различны для различных типов теоретических распределений, что показано профессором Лемешко (не первым хронологически , но первым, кто это сделал в удобном для практического применения численном виде).

Вот, собственно, против чего и борются еще оставшиеся отечественные настоящие ученые (например, профессор, Орлов - как раз критика описанного случая). Криминального, конечно, ничего нет. Есть всего лишь демонстрация невежества. Хотите упорствовать - ради бога, доценту Леонову сгодятся экспонаты для его кунсткамеры. Кстати, в свете грядущих изменений в ВАК в 2012 году у невежд будет гораздо больше проблем, чем сейчас.

Наши уважаемые соотечественники были родоначальниками указанных метрик. Дальнейшие исследования по родственным метрикам в литературе и программах представлены, но не являются темой настоящего обсуждения.

P.S. Горе-изобретателям т.н. критерия "Колмогорова-Смирнова" все-таки пришлось изгаляться, чтобы совсем уж идиотами не прослыть. Это было сделано введением "одновыборочного критерия Колмогорова-Смирнова" и "двухвыборочного критерия Колмогорова-Смирнова", которые соответствуют собственно критерию Колмогорова и критерию Смирнова. Так к чему такие сложности и такое упорство в борьбе с истиной?
DrgLena
Игорь, вы изложили известные факты, мы это уже обсуждали на форуме. Ни Колмогоров, ни Смирнов, конечно, не создавали вышеупомянутой кривой, но их именем она названа. Я возразила против тона дискуссии, которая была задана не вами, но активно продолжена. Тон профессора Орлова, который постоянно борется за чистоту рядов отечественной науки, в том числе и с упомянутым вами Лемешко.
Тон Орлова:
?Но тупые невежды - Кобзарь, Лемешко, Шмойлова и иные, охмурив безграмотных издателей, гонят свое фуфло.
А Кобзарь еще и плагиатор (см. первый пост в теме) - обнаружил в своих бумагах начала 90-х - списал у меня и не сослался?.
Кроме отечественной науки, есть еще мировая практика ведения научной дискуссии, где подобный тон недопустим, ошибаться может каждый, но у профессора Орлова кругом враги. А потому, кривая пока так и называется, а может называться и Kolmogorov-Smirnov-Orlov! smile.gif

100$
Цитата
... а может называться и Kolmogorov-Smirnov-Orlov! smile.gif


А можно и просто имени Ленина smile.gif
Игорь
Цитата(DrgLena @ 20.12.2011 - 13:46) *
Игорь, вы изложили известные факты, мы это уже обсуждали на форуме. Ни Колмогоров, ни Смирнов, конечно, не создавали вышеупомянутой кривой, но их именем она названа. Я возразила против тона дискуссии, которая была задана не вами, но активно продолжена. Тон профессора Орлова, который постоянно борется за чистоту рядов отечественной науки, в том числе и с упомянутым вами Лемешко.
Тон Орлова:
?Но тупые невежды - Кобзарь, Лемешко, Шмойлова и иные, охмурив безграмотных издателей, гонят свое фуфло.
А Кобзарь еще и плагиатор (см. первый пост в теме) - обнаружил в своих бумагах начала 90-х - списал у меня и не сослался?.
Кроме отечественной науки, есть еще мировая практика ведения научной дискуссии, где подобный тон недопустим, ошибаться может каждый, но у профессора Орлова кругом враги. А потому, кривая пока так и называется, а может называться и Kolmogorov-Smirnov-Orlov! smile.gif

Вы полагаете, что в обсуждать сексуальную ориентацию кого бы то ни было в разделе форума по математической статистике допустимо? Считаю, что максимально корректно ответил господину Валере. Обсуждать личные качества остальных уважаемых ученых, пусть даже виновных иногда в резких суждениях, также смысла не вижу. Есть к ним претензии - выскажите лично. Назвать же невежду невеждой - ничего не вижу плохого. Ну не доучился гражданин (хотя бы и заслуживший честь и хвалу иностранец), какие уж тут обиды... Это не врожденный недостаток. Учись, исправляйся, тем более, что профессор Орлов свои книги и статьи предлагает для бесплатной загрузки. Кстати, Колмогоров вполне успешно публиковался на западе (иногда только на западе), так что ссылки на недостаток информации у заслуживших честь и хвалу несостоятельны - обычное невежество.
Gewissta
Цитата(Игорь @ 20.12.2011 - 18:28) *
Вы полагаете, что в обсуждать сексуальную ориентацию кого бы то ни было на форуме по математической статистике допустимо? Считаю, что максимально корректно ответил господину Валере. Обсуждать личные качества остальных уважаемых ученых, пусть даже иногда резких в суждениях, также смысла не вижу. Есть к ним претензии - выскажите лично. Назвать же невежду невеждой - ничего не вижу плохого. Ну не доучился гражданин (хотя бы и заслуживший честь и хвалу иностранец), какие уж тут обиды. Это не врожденный недостаток. Учись, исправляйся, тем более, что профессор Орлов свои книги и статьи предлагает для бесплатной загрузки.


А если сейчас мы каждый статистический показатель будет перетряхивать на то, как правильно его употреблять, формулировать. тот же критерий Стьдента, стьюдентизированные остатки, может, правильнее называть критерий Госсета, госсеттизированные остатки. ведь Стьюдент - это псевдомим, означающий "Студент", под которым он публиковал свои работы. сотни-тысячи книг придется переписывать. да наверно много невежд и недоучек. в Пермском государственном универсистете на факультете социологии нам тоже таких нюансов про Колмогорова и Смирнова не говорили, употребляя статистика Колмогорова-Смирнова, я уж не говорю о многочисленных курсах переквалификации по маркетингу и статистике. дествительно много безграмотности - и уж извините, ситуация в стране (снижение интереса к чтению книг, интерес к развлекухе и некоей популяризации, сегодня разговаривал с 2мя крупнейшими книгоиздателями) не способствует повышению статистической грамотности, надо исправлять, но при этом не нужно и впадать в схоластические споры. все равно в этих показателях, может и сумбурно или некорректно названных, увековечена навсегда память российских ученых.
Gewissta
Добрый день!
Строю в SPSS модель лог регрессии.
Есть историческая выборка, проблема - мало наблюдений по плохим исходам
модель неважно прогнозирует плохих: 93,9% корректных прогнозов по хорошим и 46% корректных прогнозов по плохим
Перевзвесил, привел к пропорции 50/50, чтоб посмотреть, как будет работать модель
модель стала одинаково хорошо прогнозировать плохих и хороших: 76,3% корректных прогнозов по хорошим и 79,8% корректных прогнозов по плохим. по сути поставленное рук-вом требование построить сбансированную (дающую примерно одинаковый процент правильных прогнозов по обоим классам) модель выполнено
но смущает, что резко обвалилась статистика Хосмера-Лемешева с 0.855 до 0.160
терзаюсь вопросом, принимать ли ее во внимание или нет, если да, какие действия. Народ, может, что-то посоветуйте?
p2004r
Цитата(Gewissta @ 28.12.2011 - 16:27) *
Добрый день!
Строю в SPSS модель лог регрессии.
Есть историческая выборка, проблема - мало наблюдений по плохим исходам
модель неважно прогнозирует плохих: 93,9% корректных прогнозов по хорошим и 46% корректных прогнозов по плохим
Перевзвесил, привел к пропорции 50/50, чтоб посмотреть, как будет работать модель
модель стала одинаково хорошо прогнозировать плохих и хороших: 76,3% корректных прогнозов по хорошим и 79,8% корректных прогнозов по плохим. по сути поставленное рук-вом требование построить сбансированную (дающую примерно одинаковый процент правильных прогнозов по обоим классам) модель выполнено
но смущает, что резко обвалилась статистика Хосмера-Лемешева с 0.855 до 0.160
терзаюсь вопросом, принимать ли ее во внимание или нет, если да, какие действия. Народ, может, что-то посоветуйте?


Раз избыток случаев, то можно сделать бутстреп на перевыборках. Делаете нужного размера выборку без возвращения из хороших + все плохие, делаете модель, проверяете предсказания на оставшихся хороших. Соответственно получаете реальную оценку эффективности модели.

Можно и полный бутстреп устроить, обе выборки одинакового рамера извлекать с возвращением, делать модель (смотреть её статистику), делать предсказание для случаев не затронутых бутстрепом и смотреть эффективность модели.
p2004r
Цитата(Gewissta @ 28.12.2011 - 16:27) *
но смущает, что резко обвалилась статистика Хосмера-Лемешева с 0.855 до 0.160


так пишут что

Large values of \chi^2_{HL}(and small p-values) indicate a lack of fit of the model.
Gewissta
Цитата(p2004r @ 28.12.2011 - 21:40) *
так пишут что

Large values of \chi^2_{HL}(and small p-values) indicate a lack of fit of the model.

да я знаю по-моему если меньше 0.05 то никуда не годится, а на практике это реально как отражается, интересен опыт форумчан
Olga_
Цитата(Gewissta @ 14.12.2011 - 14:53) *
привет профессионалам статистики! хочу спросить, какие базовые предположения лежат в основе метода бинарной логистической регрессии. насколько она устойчива к нарушениям нормальности, гетероскедастичности? какими методами пользуйтесь при удалении/коррекции выбросов?


Доброго всем дня.

Вижу, что вы запутались.
Логистическая регрессия используется для анализа бинарых данных, например, ВИЧ статус +/-, анемия да/нет и т.д. Бинарные данные имеют Бернулли распределение, которое еквивалентно биномиальному распределению Bn(n, p) , c n=1.
Поетому никакое определение нормальности распределения не требуется.

Определение нормально ли распределены данные необходимо, когда вы анализируете числовые/continuous переменные (АД, уровень холестерина, ФВД..)
Вале а
Цитата(Olga_ @ 4.01.2012 - 19:34) *
Доброго всем дня.

Вижу, что вы запутались.
Логистическая регрессия используется для анализа бинарых данных, например, ВИЧ статус +/-, анемия да/нет и т.д. Бинарные данные имеют Бернулли распределение, которое еквивалентно биномиальному распределению Bn(n, p) , c n=1.
Поетому никакое определение нормальности распределения не требуется.

Определение нормально ли распределены данные необходимо, когда вы анализируете числовые/continuous переменные (АД, уровень холестерина, ФВД..)


доброго дня! нет не запутался, с зависимой переменной все ясно, там по определению нормального распр. не может быть. А от как быть с распределением значений предикторов? Авторы SPSS'овского tutorial'а утверждают, что если предикторы подчиняются многомерному норм. распределению, то модель будет более стабильной
Assumptions. Logistic regression does not rely on distributional assumptions in the same sense that discriminant analysis does. However, your solution may be more stable if your predictors have a multivariate normal distribution. Additionally, as with other forms of regression, multicollinearity among the predictors can lead to biased estimates and inflated standard errors. The procedure is most effective when group membership is a truly categorical variable; if group membership is based on values of a continuous variable (for example, "high IQ" versus "low IQ"), you should consider using linear regression to take advantage of the richer information offered by the continuous variable itself.

p.s. зашел с другого ника
Игорь
Цитата(Вале а @ 9.01.2012 - 16:00) *
доброго дня! нет не запутался, с зависимой переменной все ясно, там по определению нормального распр. не может быть. А от как быть с распределением значений предикторов? Авторы SPSS'овского tutorial'а утверждают, что если предикторы подчиняются многомерному норм. распределению, то модель будет более стабильной

Предикторы могут быть любыми, а не только интервальными количественными. Соответственно, требовать от них согласия с каким-либо типом распределения не следует. Однако, если применяются бинарные предикторы, просто взять и подставить, скажем 0 для нижнего значения и 1 для верхнего будет неверным. В данном случае необходимо использовать фиктивные (dummy) переменные. Подробности см. на с. 32 книги "Hosmer D.W., Lemeshow S. Applied logistic regression. - New York, NY: John Wiley & Sons, 2000". Да и вообще, имеет смысл посмотреть эту (и, возможно, только эту) книгу, если вы решили изучить логистическую регрессию.

Если нужно быстро, вот тут серия статей:
1 часть http://www.basegroup.ru/library/analysis/r...ssion/logistic/
2 часть http://www.basegroup.ru/library/practice/l..._medic_scoring/
DrgLena
Цитата(Игорь @ 9.01.2012 - 17:39) *
Предикторы могут быть любыми, а не только интервальными количественными. Соответственно, требовать от них согласия с каким-либо типом распределения не следует. Однако, если применяются бинарные предикторы, просто взять и подставить, скажем 0 для нижнего значения и 1 для верхнего будет неверным.

Нет, бинарные, они на то и бинарные, а это значит либо есть, тогда коэффициент умножается на "1", либо нет, и не на что умножать! Читайте указанную страницу внимательней, - дискретные, номинальние и др. Но расса - не бинарная, может быть не только черная и белая, и пол, как известно, также может быть и не "м" и не "ж", тогда и кодируйте, как указано в примере на той же странице.
Игорь
Цитата(DrgLena @ 9.01.2012 - 19:08) *
Нет, бинарные, они на то и бинарные, а это значит либо есть, тогда коэффициент умножается на "1", либо нет, и не на что умножать! Читайте указанную страницу внимательней, - дискретные, номинальние и др. Но расса - не бинарная, может быть не только черная и белая

Вы совершенно правы. Только замечание это немного уводит от темы (это я зря данный вопрос здесь затронул), но неважно. А важно, что предикторы могут быть любыми.
Цитата(DrgLena @ 9.01.2012 - 19:08) *
... пол, как известно, также может быть и не "м" и не "ж", тогда и кодируйте, как указано в примере на той же странице.

Кому известно? Мне известно, что пол может быть только "м" или "ж". О чем сказано в любом учебнике, и в любой энциклопедии. Хотя бы здесь http://www.medpulse.ru/encyclopedia/427.html.
DrgLena
Я не спорю с вами в отношении числа градаций в переменной пол (sex, биологическая характеристика) или гендер (социально-психологический атрибут) где выделяется смешанная категория, имеющая общие признаки ?гермафродит? в переменной пол и гермафродитный в переменной гендер. Именно поэтому, на указанной странице sex перечислен вместе с расой, как нуждающийся в создании дополнительно переменной для логистической регрессии. Но вы правы ? это спор для других форумов.
Для просмотра полной версии этой страницы, пожалуйста, пройдите по ссылке.
Форум IP.Board © 2001-2025 IPS, Inc.