Версия для печати темы

Нажмите сюда для просмотра этой темы в обычном формате

Форум врачей-аспирантов _ Медицинская статистика _ Вопрос по логистической регрессии

Автор: lab_owl 26.02.2009 - 20:00

Уважаемые коллеги!
Я новичок в статистике, поэтому заранее извинюсь за, быть может, наивные вопросы. Они касаются логистической регресии. Имеются данные некоторого потенциально значимого диагностического теста (read-out - да/нет, соотв. 0/1) для дифференциальной диагностики доброкачественных и злокачественных узловых образований ЩЖ (соотв-но, зависимая переменная - «зло»(1)/«добро»(0)), независимые переменные (помимо рез-та изучаемого теста) - пол, возраст и наличие/отсутствие (1/0) подозрительных на малигнизацию изменений на цитограмме пунктата. Строю модель (SPSS, binary logistic regession). В результате по переменной, соответствующей рез-там диагностического теста - гипердисперсия, низкая статистика Вальда и отсутствие значимости переменной. Ситуация в том, что тест высокоспецифичный (но низкочувствительный), и на относительно небольшой выборке ни одного тест-позитивного случая в группе пациентов с доброкачественными образованиями не наблюдается. При произвольном введении одного тест-позитива в эту группу (в любой case) ситуация полностью исправляется, ошибка становится вполне приемлемой и переменная становится значимой. При этом % верных предсказаний в «неадеватной» модели даже выше (что логично). Собственно вопросы:
1) Неадекватность модели при отсутствии тест-позитивных случаев в одной из групп - это внутренняя особенность алгоритма или еще что-то?
2) Если это внутренняя особенность алгоритма, то каковы методы борьбы (не считая дальнейшего сбора материала в ожидании хотя бы одного тест-позитивного случая)?
Заранее спасибо за советы и рекомендации.

Автор: плав 26.02.2009 - 21:48

Цитата(lab_owl @ 26.02.2009 - 20:00) *
Уважаемые коллеги!
Я новичок в статистике, поэтому заранее извинюсь за, быть может, наивные вопросы. Они касаются логистической регресии. Имеются данные некоторого потенциально значимого диагностического теста (read-out - да/нет, соотв. 0/1) для дифференциальной диагностики доброкачественных и злокачественных узловых образований ЩЖ (соотв-но, зависимая переменная - «зло»(1)/«добро»(0)), независимые переменные (помимо рез-та изучаемого теста) - пол, возраст и наличие/отсутствие (1/0) подозрительных на малигнизацию изменений на цитограмме пунктата. Строю модель (SPSS, binary logistic regession). В результате по переменной, соответствующей рез-там диагностического теста - гипердисперсия, низкая статистика Вальда и отсутствие значимости переменной. Ситуация в том, что тест высокоспецифичный (но низкочувствительный), и на относительно небольшой выборке ни одного тест-позитивного случая в группе пациентов с доброкачественными образованиями не наблюдается. При произвольном введении одного тест-позитива в эту группу (в любой case) ситуация полностью исправляется, ошибка становится вполне приемлемой и переменная становится значимой. При этом % верных предсказаний в «неадеватной» модели даже выше (что логично). Собственно вопросы:
1) Неадекватность модели при отсутствии тест-позитивных случаев в одной из групп - это внутренняя особенность алгоритма или еще что-то?
2) Если это внутренняя особенность алгоритма, то каковы методы борьбы (не считая дальнейшего сбора материала в ожидании хотя бы одного тест-позитивного случая)?
Заранее спасибо за советы и рекомендации.

А теперь представьте. У Вас следующие значения 0 к 0 к 0 к 0 к 0 к 0 к, какая буква соответствует значению 1? Именно этот вопрос Вы задаете логистической регрессии и она дает Вам единственно возможный ответ - не известно. И способов борьбы с попыткой предсказать неизвестное кроме как набор материала для получения тест-положительных результатОВ не придумано (обратите внимание, один случай - и алгоритм может давать неустойчивые результаты, вообще-то требуется примерно равное числе T+ и T-).

Автор: lab_owl 27.02.2009 - 14:49

Спасибо большое за ответ!
Если можно, еще один вопрос. Насколько я понял из литературы и обсуждений на этом форуме, в первоначальную модель должны быть в любом случае включены возраст и пол для age-gender adjustment. Вопрос собственно такой - финальная модель в любом случае должна быть скорректирована по этим параметрам (т.е. даже в том случае, когда сами по себе они не являются значимыми предикторами) - или же после получения инф-ии об отсутствии значимости этих переменных их можно выбросить из конечной модели?
Еще раз спасибо!

Автор: плав 27.02.2009 - 17:34

Цитата(lab_owl @ 27.02.2009 - 14:49) *
Спасибо большое за ответ!
Если можно, еще один вопрос. Насколько я понял из литературы и обсуждений на этом форуме, в первоначальную модель должны быть в любом случае включены возраст и пол для age-gender adjustment. Вопрос собственно такой - финальная модель в любом случае должна быть скорректирована по этим параметрам (т.е. даже в том случае, когда сами по себе они не являются значимыми предикторами) - или же после получения инф-ии об отсутствии значимости этих переменных их можно выбросить из конечной модели?
Еще раз спасибо!

Хосмер и Лемешев советуют не исключать из финальной модели пол и возраст, если только это не продиктовано клиническими соображениями (т.е. извсетно, что пол и возраст на исход не влияют - ситуация в медицине достаточно редкая)

Автор: lab_owl 28.02.2009 - 00:00

Спасибо большое!
Очень приятно что в рунете есть форум, где можно быстро получить высококвалифицированные ответы по прикладной статистике в медицине.
Спасибо Вам за Вашу работу!

Автор: lab_owl 11.03.2009 - 06:05

Здравствуйте,
Я опять к Вам с вопросами.
Получилась некая модель. Все статистики включая Хосмера-Лемешева вполне хорошие. Хочется сделать ей внутреннюю валидацию.
Чтение матчасти в общих чертах ознакомило с такими вещами как bootstrap, k-fold-CV, LOO-CV и 80/20 split validation. В связи с этим несколько вопросов.
1) Какие параметры помимо точности классификации на тестовой выборке (в одной из выложенных в нете учебных презентаций вычитал, что общая доля верных предсказаний в тестовой выборке должна быть не более чем на 10% ниже, чем в обучающей - это так?) должны меня интересовать при внутренней валидации? Иными словами, что должно быть в табличке под названием "внутренняя валидация ЛР-модели", чтобы я имел право сказать, что данные этой самой валидации отличные/хорошие/удовлетворительные/неудовлетворительные?
2) Пока я испробовал 80/20 и LOO, и из них более оптимистичные оценки дает 80/20. Причем они остаются одинаково оптимистичными даже при 10-кратном произвольном выдергивании 20% случаев на тестовую выборку. Видел работы, где подобная процедура делается один раз и на этом валидацию заканчивают - есть ли какие-то правила по поводу необходимого числа "выдергиваний"?
2) В том случае, если на полном сете данных я использую не стандартный порог отсечения 0.5, а определенный в ходе ROC-анализа модели и соответствующий максимуму суммы (Sp+Sn), то оценивая точность предсказаний, допустим, при LOO-CV, как выбирать порог отсечения? Следует ли брать тот же, что и в первоначальной модели, или можно заново провести ROC-анализ и привести значения, опять-таки соотв. максимуму суммы Sp+Sn?
Заранее спасибо за ответы!

Автор: плав 11.03.2009 - 10:30

На самом деле должны интересовать расчитанные при помощи внутренней валидизации стандартные ошибки, а не точность классификации. Точность классификации хороший показатель при внешней валидизации. Соответственно, ответ на все остальные вопросы очевиден.
На последний - Вы проверяете модель. Соответственно, менять точку разделения от одной модели к другой вряд ли является осмысленным поведением, ибо непонятно, какую собственно модель Вы проверяете.
На самом деле оптимальный вариант это две разных группы - на одной строится модель, на другой проверяется. Если наблюдений мало - идут на ухишрения, общая идея которых взять, выделить подгруппу, построить на ней модель, а на второй подгруппе проверить. Соответственно в этом случае получаете разброс предсказательных значений. Именно этот разброс и должен приводиться и тут никаких ранее установленных параметров нет и быть не может, поскольку они контекст-зависимые (для одних моделей надо только 95%-100%, для других уже 40-50% прекрасно.

Автор: lab_owl 11.03.2009 - 19:29

Большое спасибо за ответы!
Единственное, я не вполне понял - стандартные ошибки чего? В тех работах, которые мне попадались, в основном использовали misclassification error rate - но это собственно единица минус процент верных предсказаний...

Автор: плав 11.03.2009 - 22:24

Цитата(lab_owl @ 11.03.2009 - 19:29) *
Большое спасибо за ответы!
Единственное, я не вполне понял - стандартные ошибки чего? В тех работах, которые мне попадались, в основном использовали misclassification error rate - но это собственно единица минус процент верных предсказаний...

Нет, речь идет не об оценке модели в целом, а о ошибке коэффициентов предикторов (независимых переменных). Ощибка классификации - это не очень адекватный показатель, он исходит из того, что при повторении эксперимента модель даст абсолютно такие же результаты (т.е. не учитывается случайная вариабельность). Уж тогда лучше сделать валидизацию ошибки классификации бутстрепом или другими методами повторного взятия выборок (тогда будет не одна величина, а интервал).

Автор: lab_owl 12.03.2009 - 08:19

Спасибо!
1) Т.е. алгоритм, насколько я понимаю, примерно такой - к примеру, я делаю 5-кратную CV, и повторяю ее, допустим, 20 раз. На каждом шаге я получаю модель, из которой извлекаю коэффициенты для предикторов, и точность предсказания для "независимой" подвыборки. После чего из множества этих чисел беру среднее по коэффициентам + S.E. и среднее по точности классификации + S.E. - я правильно понял?
2) Вы уже написали, что точность классификации - не лучший параметр для внутренней валидации. Но если его все же приводить (нпрм, в презентации перед далекими от статистики людьми, которых интересует точность классификации и не особо интересуют ошибки коэффициентов) - то модель с сочетанием обучающей и кросс-валидированной точности как 88.9/77.1% (соотв. AUC - 0.928/0.803) может рассматриваться как адекватная? И еще вопрос, относящийся к предыдущему - LOO и k-fold CV имеют тенденцию скорее к завышению или к занижению ошибки классификации?
3) Пригодны ли методы повторного взятия выборок для определения наиболее адекватных моделей, или это исключительно оценивающие методы? Например, в ходе 10 раундов 5-кратной кросс-валидизации получилось 50 моделей, из которых, скажем, 20 предсказывают исход в проверочной выборке отлично (>80% точных предсказаний), 25 - средне (60-80%) и 5 - плохо (<60%). Правильной ли тактикой будет отобрать 20 наиболее предиктивно мощных моделей и использовать их далее для внешней проверки на независимой выборке?

Автор: плав 13.03.2009 - 00:11

Цитата(lab_owl @ 12.03.2009 - 08:19) *
Спасибо!
1) Т.е. алгоритм, насколько я понимаю, примерно такой - к примеру, я делаю 5-кратную CV, и повторяю ее, допустим, 20 раз. На каждом шаге я получаю модель, из которой извлекаю коэффициенты для предикторов, и точность предсказания для "независимой" подвыборки. После чего из множества этих чисел беру среднее по коэффициентам + S.E. и среднее по точности классификации + S.E. - я правильно понял?
2) Вы уже написали, что точность классификации - не лучший параметр для внутренней валидации. Но если его все же приводить (нпрм, в презентации перед далекими от статистики людьми, которых интересует точность классификации и не особо интересуют ошибки коэффициентов) - то модель с сочетанием обучающей и кросс-валидированной точности как 88.9/77.1% (соотв. AUC - 0.928/0.803) может рассматриваться как адекватная? И еще вопрос, относящийся к предыдущему - LOO и k-fold CV имеют тенденцию скорее к завышению или к занижению ошибки классификации?
3) Пригодны ли методы повторного взятия выборок для определения наиболее адекватных моделей, или это исключительно оценивающие методы? Например, в ходе 10 раундов 5-кратной кросс-валидизации получилось 50 моделей, из которых, скажем, 20 предсказывают исход в проверочной выборке отлично (>80% точных предсказаний), 25 - средне (60-80%) и 5 - плохо (<60%). Правильной ли тактикой будет отобрать 20 наиболее предиктивно мощных моделей и использовать их далее для внешней проверки на независимой выборке?
ЗЫ. По последнему пункту уже нашел что вроде бы так и делают по уму, но все равно хотелось бы услышать Ваше мнение.

1) Не совсем. делаете 500 повторов, извлекаете коэффициенты и берете медиану и 2.5 и 97.5 процентили (т.е. получаете 95% доверительный интервал)
2) Не могу ответить, так как это зависит от предметной области. Фактически модель ошибается в каждом пятом случае и это оптимистичная оценка. Дальше - решайте сами.
3) Насчет выбора моделей кросс-валидацией я не понял. Автоматический отбор не рекомендуется, как бы он не выглядел. Для решения вопроса о том, какая из двух-трех моделей является более адекватной использовать можно.

Автор: lab_owl 13.03.2009 - 00:24

Видимо, из-за моего неполного понимания матчасти получился misunderstanding.
1) Собственно "модель" - это набор переменных (видимо, именно так) или данное конкретное регрессионное уравнение с данными конкретными коэффициентами?
2) Я имел ввиду следующее - в ходе n-кратной кросс-проверки с одним и тем же набором переменных получается n регрессионных уравнений, которые предсказывают исходы в "независимых" проверочных выборках каждое со своей точностью. Повторяем это m раз, получаем класс, состоящий из m*n уравнений регрессии. Вопрос был - будет ли адекватно ориентируясь на точность предсказаний всех этих m*n уравнений, просмотрев их глазами, выбрать из них некоторое количество наилучших с точки зрения точности классификации, и уже в дальнейшей внешней валидации смотреть performance не только первоначального уравнения, построенного на полном наборе данных, но и этих уравнений, сгенерированных в ходе кросс-проверки?
3) Какой бы Вы порекомендовали софт для кросс-проверок ЛР-моделей (пользуюсь SPSS, там кросс-проверка предусмотрена только для дискриминантного анализа, но не для ЛР, насколько я понимаю)? Если с 20-ю кросс-проверками и использованием генератора случайных чисел и selection variable в меню ЛР я еще справлюсь, то с 500-кратной будет туго smile.gif
Спасибо!

Автор: плав 13.03.2009 - 19:11

Цитата(lab_owl @ 13.03.2009 - 00:24) *
Видимо, из-за моего неполного понимания матчасти получился misunderstanding.
1) Собственно "модель" - это набор переменных (видимо, именно так) или данное конкретное регрессионное уравнение с данными конкретными коэффициентами?
2) Я имел ввиду следующее - в ходе n-кратной кросс-проверки с одним и тем же набором переменных получается n регрессионных уравнений, которые предсказывают исходы в "независимых" проверочных выборках каждое со своей точностью. Повторяем это m раз, получаем класс, состоящий из m*n уравнений регрессии. Вопрос был - будет ли адекватно ориентируясь на точность предсказаний всех этих m*n уравнений, просмотрев их глазами, выбрать из них некоторое количество наилучших с точки зрения точности классификации, и уже в дальнейшей внешней валидации смотреть performance не только первоначального уравнения, построенного на полном наборе данных, но и этих уравнений, сгенерированных в ходе кросс-проверки?
3) Какой бы Вы порекомендовали софт для кросс-проверок ЛР-моделей (пользуюсь SPSS, там кросс-проверка предусмотрена только для дискриминантного анализа, но не для ЛР, насколько я понимаю)? Если с 20-ю кросс-проверками и использованием генератора случайных чисел и selection variable в меню ЛР я еще справлюсь, то с 500-кратной будет туго smile.gif
Спасибо!

Начну с конца. И не надо делать кросс-валидацию, лучше точнее специфицировать модель
Теперь к началу. Модель - это набор переменных и свзей между ними, влияющих на завиисмую переменную (распределенную определенным образом). Соответственно, Вашей задачей является найти значения коэффициентов в этой модели. Вы можете использовать два подхода - аналитический (обычное решение, базирующееся на предположениях о распределении заивисмой величины) или разные варианты повторного отбора. В первом случае Вы опять-таки аналитически очениваете неточность коэффициентов. Во втором, Вы строите много уравнений на немного отличающихся выборках и смотрите распределения коэффициентов. Соответственно оба метода решают одну и ту же задачу - оценку неточности коэффициентов регрессии. Соответственно отобрать часть уравнений в случае методов повторного отбора нельзя.
Можно сравнивать разные модели (например, какая модель будет давать меньший разброс процента правильных предсказаний), но, очевидно, что для построения распределения 20 уранений будет недостаточно.
В качестве софта однозначно R, там эти модели очень хорошо отлажены.

Автор: lab_owl 15.03.2009 - 03:58

Спасибо огромное!
Под R подразумевается вот это?
http://openwetware.org/wiki/R_Statistics

Автор: Igoroshka 15.03.2009 - 14:51

Цитата(lab_owl @ 15.03.2009 - 02:58) *
Спасибо огромное!
Под R подразумевается вот это?
http://openwetware.org/wiki/R_Statistics

Да.

Автор: Gewissta 14.12.2011 - 16:53

привет профессионалам статистики! хочу спросить, какие базовые предположения лежат в основе метода бинарной логистической регрессии. насколько она устойчива к нарушениям нормальности, гетероскедастичности? какими методами пользуйтесь при удалении/коррекции выбросов?

Автор: Игорь 14.12.2011 - 19:29

Цитата(Gewissta @ 14.12.2011 - 17:53) *
привет профессионалам статистики! хочу спросить, какие базовые предположения лежат в основе метода бинарной логистической регрессии. насколько она устойчива к нарушениям нормальности, гетероскедастичности? какими методами пользуйтесь при удалении/коррекции выбросов?

Не профессионал, но тем не менее. Если Вас интересуют теоретические обоснования метода, то, во-первых, это довольно объемный материал. Во-вторых, движок форума не позволит (во всяком случае комфортно) использовать большое количество формул. Если Вам не хочется терять время, загляните в Справку программы AtteStat, касающуюся данного метода (доступна также в формате RTF) - там есть и теория, представленная в адекватном, но компактном виде, и даны все актуальные ссылки. Если хочется потроллить, продолжайте тему.

Автор: Gewissta 14.12.2011 - 22:43

Цитата(Игорь @ 14.12.2011 - 20:29) *
Не профессионал, но тем не менее. Если Вас интересуют теоретические обоснования метода, то, во-первых, это довольно объемный материал. Во-вторых, движок форума не позволит (во всяком случае комфортно) использовать большое количество формул. Если Вам не хочется терять время, загляните в Справку программы AtteStat, касающуюся данного метода (доступна также в формате RTF) - там есть и теория, представленная в адекватном, но компактном виде, и даны все актуальные ссылки. Если хочется потроллить, продолжайте тему.


спор у нас с коллегой случился. критично ли для логрегрессии нарушения многомерного нормального распределения (имеется в виду распределение значений предикторов, конечно). и вообще справедливо для логрегрессии утверждать что остатки должны быть нормально распределены и гомоскедастичны?

Автор: p2004r 14.12.2011 - 23:25

Цитата(Gewissta @ 14.12.2011 - 22:43) *
спор у нас с коллегой случился. критично ли для логрегрессии нарушения многомерного нормального распределения (имеется в виду распределение значений предикторов, конечно). и вообще справедливо для логрегрессии утверждать что остатки должны быть нормально распределены и гомоскедастичны?


в том, насколько устойчиво полученное решение (полученное с помощью любого метода), очень легко убедится самому применив бутстреп


Автор: Gewissta 15.12.2011 - 13:51

Цитата(p2004r @ 15.12.2011 - 00:25) *
в том, насколько устойчиво полученное решение (полученное с помощью любого метода), очень легко убедится самому применив бутстреп


в spss работа. там вроде нет такой возможности. если только spss syntax писать...

Автор: p2004r 15.12.2011 - 14:56

Цитата(Gewissta @ 15.12.2011 - 13:51) *
в spss работа. там вроде нет такой возможности. если только spss syntax писать...


изнутри последних версий spss по моему доступен R, логично использовать его если версия позволяет.

Автор: Gewissta 16.12.2011 - 20:49

Цитата(Игорь @ 14.12.2011 - 20:29) *
Не профессионал, но тем не менее. Если Вас интересуют теоретические обоснования метода, то, во-первых, это довольно объемный материал. Во-вторых, движок форума не позволит (во всяком случае комфортно) использовать большое количество формул. Если Вам не хочется терять время, загляните в Справку программы AtteStat, касающуюся данного метода (доступна также в формате RTF) - там есть и теория, представленная в адекватном, но компактном виде, и даны все актуальные ссылки. Если хочется потроллить, продолжайте тему.


не нашел справку в rtf а программку установил. справка не запускается, ругается: сделана в допотопные времена и капризная виста ее понимать не хочет. может сылочку на файлик кинете плиз?
еще вопрос, в литературе встретил информацию по коэффициенту детерминации: в ряде случаев плохо подогнанная модель давала тем не менее высокий коэфф-т детерминации, увеличение коэфф-та с включением предиктора еще не обозначает что его коэффициент значим.
http://www.ekon.oglib.ru/bgl/3619/95.html
насколько это справедливо для логистической регресcии?

Автор: Игорь 17.12.2011 - 09:24

Цитата(Gewissta @ 14.12.2011 - 23:43) *
спор у нас с коллегой случился. критично ли для логрегрессии нарушения многомерного нормального распределения (имеется в виду распределение значений предикторов, конечно). и вообще справедливо для логрегрессии утверждать что остатки должны быть нормально распределены и гомоскедастичны?

Интуитивно (возможно и даже очень вероятно, это показано в литературе) можно предположить, что чем ближе распределение предикторов к нормальному распределению, тем более адекватную модель удастся получить.
Цитата(Gewissta @ 16.12.2011 - 21:49) *
не нашел справку в rtf а программку установил. справка не запускается, ругается: сделана в допотопные времена и капризная виста ее понимать не хочет. может сылочку на файлик кинете плиз?

Если Вы грузили программу с официального сайта, там же расположены исходные тексты программы, в которых искомые файлы RTF находятся.

Vista при первом запуске должна была сообщить, где и как получить программу для чтения файлов в формате HLP. Купив программное обеспечение у компании Microsoft, Вы оплатили и его поддержку. Так воспользуйтесь своим правом получить ее от продавца.

Автор: Gewissta 17.12.2011 - 19:35

Цитата(Игорь @ 17.12.2011 - 10:24) *
Интуитивно (возможно и даже очень вероятно, это показано в литературе) можно предположить, что чем ближе распределение предикторов к нормальному распределению, тем более адекватную модель удастся получить.

Если Вы грузили программу с официального сайта, там же расположены исходные тексты программы, в которых искомые файлы RTF находятся.

Vista при первом запуске должна была сообщить, где и как получить программу для чтения файлов в формате HLP. Купив программное обеспечение у компании Microsoft, Вы оплатили и его поддержку. Так воспользуйтесь своим правом получить ее от продавца.


это официальный сайт - http://www.attestat.valsoft.ru?

Автор: DrgLena 17.12.2011 - 19:51

Цитата(Gewissta @ 14.12.2011 - 23:43) *
критично ли для логрегрессии нарушения многомерного нормального распределения (имеется в виду распределение значений предикторов, конечно).

Прелесть логистической регрессии в том и состоит, что предикторы могут быть и бинарные, тогда экспонента коэффициента (для одновариантной регрессии) совпадает с рассчитанной по четырехпольной таблице, а также и категориальными, реализовано в SPSS. А контроль модели - оценка ROC.

Автор: Игорь 18.12.2011 - 10:45

Цитата(Gewissta @ 17.12.2011 - 20:35) *
это официальный сайт -

http://attestatsoft.narod.ru

Автор: Gewissta 18.12.2011 - 20:22

Цитата(DrgLena @ 17.12.2011 - 20:51) *
Прелесть логистической регрессии в том и состоит, что предикторы могут быть и бинарные, тогда экспонента коэффициента (для одновариантной регрессии) совпадает с рассчитанной по четырехпольной таблице, а также и категориальными, реализовано в SPSS. А контроль модели - оценка ROC.


а вот кривую Колмогорова-Смирнова для оценки риска модели в SPSS не построишь (
может кто знает как syntax к ней написать

Автор: 100$ 18.12.2011 - 20:59

Цитата(Gewissta @ 18.12.2011 - 20:22) *
а вот кривую Колмогорова-Смирнова для оценки риска модели в SPSS не построишь (
может кто знает как syntax к ней написать


Прошу вашего великодушного пардону, а что это за зверь такой - кривая Колмогорова-Смирнова? Просветите, когда не лень. Не дайте помереть полным болваном smile.gif

Автор: Gewissta 18.12.2011 - 21:16

Цитата(100$ @ 18.12.2011 - 21:59) *
Прошу вашего великодушного пардону, а что это за зверь такой - кривая Колмогорова-Смирнова? Просветите, когда не лень. Не дайте помереть полным болваном smile.gif


Статистика КС
вычисляется просто: это максимум разности между кумулятивным процентом распределения "хороших" заемщиков
и кумулятивным процентом распределения "плохих" заемщиков (тут зависит от категорий зависимой переменной). Теоретически статистика КС может принимать
значения от 0 до 100, однако на практике она обычно оказывается в диапазоне от 25 до 75.
Примерная градация выглядит так:
меньше 20 - наверное, скоринговая таблица непригодна к применению;
20-40 - неплохая таблица;
41-50 - хорошая таблица;
51-60 - очень хорошая таблица;
61-75 - поразительно хорошая таблица;
больше 75 - вероятно, слишком хороший результат, чтобы быть правдой, наверное, что-то
неправильно


Автор: 100$ 18.12.2011 - 21:40

Цитата(Gewissta @ 18.12.2011 - 21:16) *
Статистика КС
вычисляется просто: это максимум разности между кумулятивным процентом распределения "хороших" заемщиков
и кумулятивным процентом распределения "плохих" заемщиков (тут зависит от категорий зависимой переменной). Теоретически статистика КС может принимать
значения от 0 до 100, однако на практике она обычно оказывается в диапазоне от 25 до 75.
Примерная градация выглядит так:
меньше 20 - наверное, скоринговая таблица непригодна к применению;
20-40 - неплохая таблица;
41-50 - хорошая таблица;
51-60 - очень хорошая таблица;
61-75 - поразительно хорошая таблица;
больше 75 - вероятно, слишком хороший результат, чтобы быть правдой, наверное, что-то
неправильно


Вас понял: кривой Колмогорова-Смирнова в природе не существует. А говорить надо: "статистика типа Колмогорова - Смирнова", поскольку эти два ученых никогда не печатались вместе, не продолжали исследования друг друга, и не изучали один и тот же критерий ни вместе, ни порознь.
Успехов в изучении матчасти!

Автор: Gewissta 18.12.2011 - 21:58

Цитата(100$ @ 18.12.2011 - 22:40) *
Вас понял: кривой Колмогорова-Смирнова в природе не существует. А говорить надо: "статистика типа Колмогорова - Смирнова", поскольку эти два ученых никогда не печатались вместе, не продолжали исследования друг друга, и не изучали один и тот же критерий ни вместе, ни порознь.
Успехов в изучении матчасти!


В скоринге это общепринятый термин.
http://www.plug-n-score.com/learning/kolmogorov-smirnov-curve.htm
а что и как они изучали порознь или вместе со Смирновым или в обнимку с Александровым (к которому у него были нежные чувства) мне неважно

Автор: 100$ 18.12.2011 - 22:30

Цитата(Gewissta @ 18.12.2011 - 21:58) *
В скоринге это общепринятый термин.
http://www.plug-n-score.com/learning/kolmogorov-smirnov-curve.htm
а что и как они изучали порознь или вместе со Смирновым или в обнимку с Александровым (к которому у него были нежные чувства) мне неважно



То есть я вам - медицинский факт, что ни Колмогоров, ни Смирнов никаких кривых Колмогорова-Смирнова отродясь не выдумывали, а вы мне - ссылку на официальный сайт племени мумбо-юмбо, которые русского языка не знают, трудов Колмогорова и Смирнова в глаза не видели. Забавно.
Пишите исчо. Не бросайте меня надолго.

Автор: Игорь 19.12.2011 - 15:14

Цитата(Gewissta @ 18.12.2011 - 22:58) *
В скоринге это общепринятый термин.
http://www.plug-n-score.com/learning/kolmogorov-smirnov-curve.htm

Общепринятый... среди невежд и недоучек.
Цитата(Gewissta @ 18.12.2011 - 22:58) *
а что и как они изучали порознь или вместе со Смирновым или в обнимку с Александровым (к которому у него были нежные чувства) мне неважно

Полагаю, сказав гнусность, Вы намеревались оскорбить людей, которые общаются на данном форуме, и умалить великих. И для тех, и тем более для вторых Ваша личность, к тому скрытая за кличкой, никакого значения не имеет.

Автор: Gewissta 19.12.2011 - 18:16

Цитата(Игорь @ 19.12.2011 - 15:14) *
Общепринятый... среди невежд и недоучек.

Полагаю, сказав гнусность, Вы намеревались оскорбить людей, которые общаются на данном форуме, и умалить великих. И для тех, и тем более для вторых Ваша личность, к тому скрытая за кличкой, никакого значения не имеет.


это общепринятый термин. на том и стою. гомосексуализм - не преступление и не гнусность. а в те годы жить, не скрывая своей ориентации - вообще подвиг, которым я не перестаю восхищаться. его письма к Александрову по-своему прекрасны. но речь не об этом. для меня статистические критерии - инструмент и не более. у меня есть конкретный вопрос на который нужен конкретный ответ, а не флуд и разговоры ни о чем. и уж тем более не надо тут по поводу ника разводить дискуссии. давайте обсудим еще ваше имя.

p.s. кстати меня Валера зовут

Автор: DrgLena 19.12.2011 - 21:02

Не обязательно так реагировать на чьи то ошибки.
Опять спор в терминологии, как что называть, но спор то не достойный этого форума, сейчас достаточно в инете форумов, где подобный тон принят. Но тут, не смотря на длительное отсутствие модератора, удается сохранять достойное общение.

ВЕРОЯТНОСТЬ И МАТЕМАТИЧЕСКАЯ СТАТИСТИКА. ЭНЦИКЛОПЕДИЯ.- М.: Научное издательство "Большая российская энциклопедия", 1999. Стр. 244-245.
"Колмогорова-Смирнова критерий - (Kolmogorov-Smirnov test) - собирательное название для статистических критериев, статистики которых выражаются через максимальное (минимальное) значение разности между выборочной и теоретической функциями распределения или их оценками".

Нет ничего криминального в том, что по аналогии с таким определением критериев К-С, также можно назвать этими великими именами наших соотечественников и кривую, которая строится по разности между двумя кумулятивными долями распределения. Честь и хвала создателям пакета Plug&Score 2011 австрийской компании Scorto, которые ее так и назвали. Как и другим создателям статистических пакетов и западным и американским, тоже не совсем малограмотным людям, из того же племени, пусть они русского языка не знают, и Колмогорова и Смирного в подлинниках не читали.
Построить эти кривые не сложно и не имея указанной программы. Сохраните рассчитанные вероятности, отсортируйте отдельно для каждой группы, получите кумулятивные доли и постройте график.

Автор: Игорь 20.12.2011 - 06:02

Цитата(DrgLena @ 19.12.2011 - 21:02) *
ВЕРОЯТНОСТЬ И МАТЕМАТИЧЕСКАЯ СТАТИСТИКА. ЭНЦИКЛОПЕДИЯ.- М.: Научное издательство "Большая российская энциклопедия", 1999. Стр. 244-245.
"Колмогорова-Смирнова критерий - (Kolmogorov-Smirnov test) - собирательное название для статистических критериев, статистики которых выражаются через максимальное (минимальное) значение разности между выборочной и теоретической функциями распределения или их оценками".

Нет ничего криминального в том, что по аналогии с таким определением критериев К-С, также можно назвать этими великими именами наших соотечественников и кривую, которая строится по разности между двумя кумулятивными долями распределения. Честь и хвала создателям пакета Plug&Score 2011 австрийской компании Scorto, которые ее так и назвали. Как и другим создателям статистических пакетов и западным и американским, тоже не совсем малограмотным людям, из того же племени, пусть они русского языка не знают, и Колмогорова и Смирного в подлинниках не читали.
Построить эти кривые не сложно и не имея указанной программы. Сохраните рассчитанные вероятности, отсортируйте отдельно для каждой группы, получите кумулятивные доли и постройте график.

Немного расскажу, как пишутся предназначенные для широкого употребления компьютерные программы. Берутся [желательно] известные монографии или учебники с хорошо теоретически обоснованными, проверенными и общепризнанными алгоритмами, программируются, тестируются и отправляются в свободное плавание либо продаются за деньги. Это в общих чертах. Проблема в том, что теоретическая ошибка может быть в монографии, которая базируется обычно на других монографиях, статьях других авторов и немного на собственных исследованиях. Это нормальный научный процесс. Но он не исключает ситуации, которая как раз и показана выше. А именно "... критерий ... - собирательное название ... критериев". Т.е. некто (возможно, лет 50 назад) прочитал подобное же определение и не стал утруждать себя размышлениями, что это за критерии, обозвав все одним и тем же именем. Если кратко, под статистикой Колмогорова понимают разность между теоретической и эмпирической функциями распределения, а под статистикой Смирнова - разность между двумя эмпирическими функциями распределения. Ошибка, казалось бы, невелика, но статистики критериев построены по разному, имеют различные функции распределения. Небольшая ошибка в терминологии, тянущаяся из одной бестолковой статьи, ведет к ошибкам в цитирующих их солидных источниках, программах, к неверным выводам в практических исследованиях.

Термин "статистика типа Колмогорова" применяется в случае, когда рассматривается сложная гипотеза. Это сделано для того, чтобы подчеркнуть, что распределение статистики Колмогорова для простой гипотезы (классическая, исследованная им) и для сложных гипотез различаются. Более того, для сложных гипотез распределения будут различны для различных типов теоретических распределений, что показано профессором Лемешко (не первым хронологически , но первым, кто это сделал в удобном для практического применения численном виде).

Вот, собственно, против чего и борются еще оставшиеся отечественные настоящие ученые (например, профессор, Орлов - как раз критика описанного случая). Криминального, конечно, ничего нет. Есть всего лишь демонстрация невежества. Хотите упорствовать - ради бога, доценту Леонову сгодятся экспонаты для его кунсткамеры. Кстати, в свете грядущих изменений в ВАК в 2012 году у невежд будет гораздо больше проблем, чем сейчас.

Наши уважаемые соотечественники были родоначальниками указанных метрик. Дальнейшие исследования по родственным метрикам в литературе и программах представлены, но не являются темой настоящего обсуждения.

P.S. Горе-изобретателям т.н. критерия "Колмогорова-Смирнова" все-таки пришлось изгаляться, чтобы совсем уж идиотами не прослыть. Это было сделано введением "одновыборочного критерия Колмогорова-Смирнова" и "двухвыборочного критерия Колмогорова-Смирнова", которые соответствуют собственно критерию Колмогорова и критерию Смирнова. Так к чему такие сложности и такое упорство в борьбе с истиной?

Автор: DrgLena 20.12.2011 - 12:46

Игорь, вы изложили известные факты, мы это уже обсуждали на форуме. Ни Колмогоров, ни Смирнов, конечно, не создавали вышеупомянутой кривой, но их именем она названа. Я возразила против тона дискуссии, которая была задана не вами, но активно продолжена. Тон профессора Орлова, который постоянно борется за чистоту рядов отечественной науки, в том числе и с упомянутым вами Лемешко.
Тон Орлова:
?Но тупые невежды - Кобзарь, Лемешко, Шмойлова и иные, охмурив безграмотных издателей, гонят свое фуфло.
А Кобзарь еще и плагиатор (см. первый пост в теме) - обнаружил в своих бумагах начала 90-х - списал у меня и не сослался?.
Кроме отечественной науки, есть еще мировая практика ведения научной дискуссии, где подобный тон недопустим, ошибаться может каждый, но у профессора Орлова кругом враги. А потому, кривая пока так и называется, а может называться и Kolmogorov-Smirnov-Orlov! smile.gif


Автор: 100$ 20.12.2011 - 17:16

Цитата
... а может называться и Kolmogorov-Smirnov-Orlov! smile.gif


А можно и просто имени Ленина smile.gif

Автор: Игорь 20.12.2011 - 17:28

Цитата(DrgLena @ 20.12.2011 - 13:46) *
Игорь, вы изложили известные факты, мы это уже обсуждали на форуме. Ни Колмогоров, ни Смирнов, конечно, не создавали вышеупомянутой кривой, но их именем она названа. Я возразила против тона дискуссии, которая была задана не вами, но активно продолжена. Тон профессора Орлова, который постоянно борется за чистоту рядов отечественной науки, в том числе и с упомянутым вами Лемешко.
Тон Орлова:
?Но тупые невежды - Кобзарь, Лемешко, Шмойлова и иные, охмурив безграмотных издателей, гонят свое фуфло.
А Кобзарь еще и плагиатор (см. первый пост в теме) - обнаружил в своих бумагах начала 90-х - списал у меня и не сослался?.
Кроме отечественной науки, есть еще мировая практика ведения научной дискуссии, где подобный тон недопустим, ошибаться может каждый, но у профессора Орлова кругом враги. А потому, кривая пока так и называется, а может называться и Kolmogorov-Smirnov-Orlov! smile.gif

Вы полагаете, что в обсуждать сексуальную ориентацию кого бы то ни было в разделе форума по математической статистике допустимо? Считаю, что максимально корректно ответил господину Валере. Обсуждать личные качества остальных уважаемых ученых, пусть даже виновных иногда в резких суждениях, также смысла не вижу. Есть к ним претензии - выскажите лично. Назвать же невежду невеждой - ничего не вижу плохого. Ну не доучился гражданин (хотя бы и заслуживший честь и хвалу иностранец), какие уж тут обиды... Это не врожденный недостаток. Учись, исправляйся, тем более, что профессор Орлов свои книги и статьи предлагает для бесплатной загрузки. Кстати, Колмогоров вполне успешно публиковался на западе (иногда только на западе), так что ссылки на недостаток информации у заслуживших честь и хвалу несостоятельны - обычное невежество.

Автор: Gewissta 20.12.2011 - 19:08

Цитата(Игорь @ 20.12.2011 - 18:28) *
Вы полагаете, что в обсуждать сексуальную ориентацию кого бы то ни было на форуме по математической статистике допустимо? Считаю, что максимально корректно ответил господину Валере. Обсуждать личные качества остальных уважаемых ученых, пусть даже иногда резких в суждениях, также смысла не вижу. Есть к ним претензии - выскажите лично. Назвать же невежду невеждой - ничего не вижу плохого. Ну не доучился гражданин (хотя бы и заслуживший честь и хвалу иностранец), какие уж тут обиды. Это не врожденный недостаток. Учись, исправляйся, тем более, что профессор Орлов свои книги и статьи предлагает для бесплатной загрузки.


А если сейчас мы каждый статистический показатель будет перетряхивать на то, как правильно его употреблять, формулировать. тот же критерий Стьдента, стьюдентизированные остатки, может, правильнее называть критерий Госсета, госсеттизированные остатки. ведь Стьюдент - это псевдомим, означающий "Студент", под которым он публиковал свои работы. сотни-тысячи книг придется переписывать. да наверно много невежд и недоучек. в Пермском государственном универсистете на факультете социологии нам тоже таких нюансов про Колмогорова и Смирнова не говорили, употребляя статистика Колмогорова-Смирнова, я уж не говорю о многочисленных курсах переквалификации по маркетингу и статистике. дествительно много безграмотности - и уж извините, ситуация в стране (снижение интереса к чтению книг, интерес к развлекухе и некоей популяризации, сегодня разговаривал с 2мя крупнейшими книгоиздателями) не способствует повышению статистической грамотности, надо исправлять, но при этом не нужно и впадать в схоластические споры. все равно в этих показателях, может и сумбурно или некорректно названных, увековечена навсегда память российских ученых.

Автор: Gewissta 28.12.2011 - 16:27

Добрый день!
Строю в SPSS модель лог регрессии.
Есть историческая выборка, проблема - мало наблюдений по плохим исходам
модель неважно прогнозирует плохих: 93,9% корректных прогнозов по хорошим и 46% корректных прогнозов по плохим
Перевзвесил, привел к пропорции 50/50, чтоб посмотреть, как будет работать модель
модель стала одинаково хорошо прогнозировать плохих и хороших: 76,3% корректных прогнозов по хорошим и 79,8% корректных прогнозов по плохим. по сути поставленное рук-вом требование построить сбансированную (дающую примерно одинаковый процент правильных прогнозов по обоим классам) модель выполнено
но смущает, что резко обвалилась статистика Хосмера-Лемешева с 0.855 до 0.160
терзаюсь вопросом, принимать ли ее во внимание или нет, если да, какие действия. Народ, может, что-то посоветуйте?

Автор: p2004r 28.12.2011 - 20:34

Цитата(Gewissta @ 28.12.2011 - 16:27) *
Добрый день!
Строю в SPSS модель лог регрессии.
Есть историческая выборка, проблема - мало наблюдений по плохим исходам
модель неважно прогнозирует плохих: 93,9% корректных прогнозов по хорошим и 46% корректных прогнозов по плохим
Перевзвесил, привел к пропорции 50/50, чтоб посмотреть, как будет работать модель
модель стала одинаково хорошо прогнозировать плохих и хороших: 76,3% корректных прогнозов по хорошим и 79,8% корректных прогнозов по плохим. по сути поставленное рук-вом требование построить сбансированную (дающую примерно одинаковый процент правильных прогнозов по обоим классам) модель выполнено
но смущает, что резко обвалилась статистика Хосмера-Лемешева с 0.855 до 0.160
терзаюсь вопросом, принимать ли ее во внимание или нет, если да, какие действия. Народ, может, что-то посоветуйте?


Раз избыток случаев, то можно сделать бутстреп на перевыборках. Делаете нужного размера выборку без возвращения из хороших + все плохие, делаете модель, проверяете предсказания на оставшихся хороших. Соответственно получаете реальную оценку эффективности модели.

Можно и полный бутстреп устроить, обе выборки одинакового рамера извлекать с возвращением, делать модель (смотреть её статистику), делать предсказание для случаев не затронутых бутстрепом и смотреть эффективность модели.

Автор: p2004r 28.12.2011 - 20:40

Цитата(Gewissta @ 28.12.2011 - 16:27) *
но смущает, что резко обвалилась статистика Хосмера-Лемешева с 0.855 до 0.160


так пишут что

Large values of \chi^2_{HL}(and small p-values) indicate a lack of fit of the model.

Автор: Gewissta 28.12.2011 - 21:05

Цитата(p2004r @ 28.12.2011 - 21:40) *
так пишут что

Large values of \chi^2_{HL}(and small p-values) indicate a lack of fit of the model.

да я знаю по-моему если меньше 0.05 то никуда не годится, а на практике это реально как отражается, интересен опыт форумчан

Автор: Olga_ 4.01.2012 - 18:34

Цитата(Gewissta @ 14.12.2011 - 14:53) *
привет профессионалам статистики! хочу спросить, какие базовые предположения лежат в основе метода бинарной логистической регрессии. насколько она устойчива к нарушениям нормальности, гетероскедастичности? какими методами пользуйтесь при удалении/коррекции выбросов?


Доброго всем дня.

Вижу, что вы запутались.
Логистическая регрессия используется для анализа бинарых данных, например, ВИЧ статус +/-, анемия да/нет и т.д. Бинарные данные имеют Бернулли распределение, которое еквивалентно биномиальному распределению Bn(n, p) , c n=1.
Поетому никакое определение нормальности распределения не требуется.

Определение нормально ли распределены данные необходимо, когда вы анализируете числовые/continuous переменные (АД, уровень холестерина, ФВД..)

Автор: Вале а 9.01.2012 - 16:00

Цитата(Olga_ @ 4.01.2012 - 19:34) *
Доброго всем дня.

Вижу, что вы запутались.
Логистическая регрессия используется для анализа бинарых данных, например, ВИЧ статус +/-, анемия да/нет и т.д. Бинарные данные имеют Бернулли распределение, которое еквивалентно биномиальному распределению Bn(n, p) , c n=1.
Поетому никакое определение нормальности распределения не требуется.

Определение нормально ли распределены данные необходимо, когда вы анализируете числовые/continuous переменные (АД, уровень холестерина, ФВД..)


доброго дня! нет не запутался, с зависимой переменной все ясно, там по определению нормального распр. не может быть. А от как быть с распределением значений предикторов? Авторы SPSS'овского tutorial'а утверждают, что если предикторы подчиняются многомерному норм. распределению, то модель будет более стабильной
Assumptions. Logistic regression does not rely on distributional assumptions in the same sense that discriminant analysis does. However, your solution may be more stable if your predictors have a multivariate normal distribution. Additionally, as with other forms of regression, multicollinearity among the predictors can lead to biased estimates and inflated standard errors. The procedure is most effective when group membership is a truly categorical variable; if group membership is based on values of a continuous variable (for example, "high IQ" versus "low IQ"), you should consider using linear regression to take advantage of the richer information offered by the continuous variable itself.

p.s. зашел с другого ника

Автор: Игорь 9.01.2012 - 16:39

Цитата(Вале а @ 9.01.2012 - 16:00) *
доброго дня! нет не запутался, с зависимой переменной все ясно, там по определению нормального распр. не может быть. А от как быть с распределением значений предикторов? Авторы SPSS'овского tutorial'а утверждают, что если предикторы подчиняются многомерному норм. распределению, то модель будет более стабильной

Предикторы могут быть любыми, а не только интервальными количественными. Соответственно, требовать от них согласия с каким-либо типом распределения не следует. Однако, если применяются бинарные предикторы, просто взять и подставить, скажем 0 для нижнего значения и 1 для верхнего будет неверным. В данном случае необходимо использовать фиктивные (dummy) переменные. Подробности см. на с. 32 книги "Hosmer D.W., Lemeshow S. Applied logistic regression. - New York, NY: John Wiley & Sons, 2000". Да и вообще, имеет смысл посмотреть эту (и, возможно, только эту) книгу, если вы решили изучить логистическую регрессию.

Если нужно быстро, вот тут серия статей:
1 часть http://www.basegroup.ru/library/analysis/regression/logistic/
2 часть http://www.basegroup.ru/library/practice/logis_medic_scoring/

Автор: DrgLena 9.01.2012 - 19:08

Цитата(Игорь @ 9.01.2012 - 17:39) *
Предикторы могут быть любыми, а не только интервальными количественными. Соответственно, требовать от них согласия с каким-либо типом распределения не следует. Однако, если применяются бинарные предикторы, просто взять и подставить, скажем 0 для нижнего значения и 1 для верхнего будет неверным.

Нет, бинарные, они на то и бинарные, а это значит либо есть, тогда коэффициент умножается на "1", либо нет, и не на что умножать! Читайте указанную страницу внимательней, - дискретные, номинальние и др. Но расса - не бинарная, может быть не только черная и белая, и пол, как известно, также может быть и не "м" и не "ж", тогда и кодируйте, как указано в примере на той же странице.

Автор: Игорь 9.01.2012 - 20:15

Цитата(DrgLena @ 9.01.2012 - 19:08) *
Нет, бинарные, они на то и бинарные, а это значит либо есть, тогда коэффициент умножается на "1", либо нет, и не на что умножать! Читайте указанную страницу внимательней, - дискретные, номинальние и др. Но расса - не бинарная, может быть не только черная и белая

Вы совершенно правы. Только замечание это немного уводит от темы (это я зря данный вопрос здесь затронул), но неважно. А важно, что предикторы могут быть любыми.
Цитата(DrgLena @ 9.01.2012 - 19:08) *
... пол, как известно, также может быть и не "м" и не "ж", тогда и кодируйте, как указано в примере на той же странице.

Кому известно? Мне известно, что пол может быть только "м" или "ж". О чем сказано в любом учебнике, и в любой энциклопедии. Хотя бы здесь http://www.medpulse.ru/encyclopedia/427.html.

Автор: DrgLena 9.01.2012 - 21:46

Я не спорю с вами в отношении числа градаций в переменной пол (sex, биологическая характеристика) или гендер (социально-психологический атрибут) где выделяется смешанная категория, имеющая общие признаки ?гермафродит? в переменной пол и гермафродитный в переменной гендер. Именно поэтому, на указанной странице sex перечислен вместе с расой, как нуждающийся в создании дополнительно переменной для логистической регрессии. Но вы правы ? это спор для других форумов.

Автор: Вале а 10.01.2012 - 14:36

Цитата(Игорь @ 9.01.2012 - 17:39) *
Предикторы могут быть любыми, а не только интервальными количественными. Соответственно, требовать от них согласия с каким-либо типом распределения не следует. Однако, если применяются бинарные предикторы, просто взять и подставить, скажем 0 для нижнего значения и 1 для верхнего будет неверным. В данном случае необходимо использовать фиктивные (dummy) переменные. Подробности см. на с. 32 книги "Hosmer D.W., Lemeshow S. Applied logistic regression. - New York, NY: John Wiley & Sons, 2000". Да и вообще, имеет смысл посмотреть эту (и, возможно, только эту) книгу, если вы решили изучить логистическую регрессию.

Если нужно быстро, вот тут серия статей:
1 часть http://www.basegroup.ru/library/analysis/regression/logistic/
2 часть http://www.basegroup.ru/library/practice/logis_medic_scoring/


спасибо. да книга Хосмера-Лемешева настольная

Автор: Вале а 10.01.2012 - 16:19

еще интересует, какие предположения могут быть выдвинуты для остатков в рамках логистической регрессии (для построения достоверной, стабильной модели)

Автор: Игорь 10.01.2012 - 19:54

Цитата(DrgLena @ 9.01.2012 - 22:46) *
Я не спорю с вами в отношении числа градаций в переменной пол (sex, биологическая характеристика) или гендер (социально-психологический атрибут) где выделяется смешанная категория, имеющая общие признаки ?гермафродит? в переменной пол и гермафродитный в переменной гендер. Именно поэтому, на указанной странице sex перечислен вместе с расой, как нуждающийся в создании дополнительно переменной для логистической регрессии. Но вы правы ? это спор для других форумов.

Для начала, гермафродит - не пол и не гендер, а заболевание. См. МКБ-10 http://mkb10.com/Q99.1 Если требуется изучить влияние других признаков, то и нужно вводить в модель эти признаки (например, имеющие отношение к теме физические, психические и т.д.), а не нагружать несвойственными функциями другие общепринятые признаки.

Полагаю, что признак sex перечислен вместе с расой потому, что sex - не бинарный признак, а номинальный с двумя градациями (и гермафродит, а также другие врожденные, приобретенные и психические отклонения тут не при чем), поэтому для него также требуется в логистической модели вводить фиктивные (dummy) переменные. Конечно, в каких-то опросниках можно закодировать пол как 0 и 1, но применение данных чисел в расчетах приведет к ошибке - признаки для расчетов необходимо перекодировать в dummy переменные.

Кстати, о расе. Представляется, что точнее будет говорить о других признаках, характеризующих расу, а не только, скажем цвет кожи, разрез глаз, форма черепа, наличие эпикантуса и т.п. Возможно, здесь нужно говорить исключительно о гаплогруппах, а вовсе не о вторичных признаках. Т.е. расу, как признак, я бы вообще исключил из рассмотрения, как совершенно неинформативный. Хотя для иллюстрации метода пример сгодится.

Цитата(Вале а @ 10.01.2012 - 17:19) *
еще интересует, какие предположения могут быть выдвинуты для остатков в рамках логистической регрессии (для построения достоверной, стабильной модели)

Думаю, не нужно "заморачиваться" относительно остатков. "Достоверность" логистической модели, как Вы выразились, принято оценивать ROC анализом, понимая под качеством модели ее приемлемую разрешающую, предсказывающую способность. В двух ссылках, которые я приводил выше, об этом наглядно рассказано.

Автор: DrgLena 11.01.2012 - 11:09

Цитата(Игорь @ 10.01.2012 - 20:54) *
sex - не бинарный признак, а номинальный с двумя градациями (и гермафродит, а также другие врожденные, приобретенные и психические отклонения тут не при чем), поэтому для него также требуется в логистической модели вводить фиктивные (dummy) переменные. Конечно, в каких-то опросниках можно закодировать пол как 0 и 1, но применение данных чисел в расчетах приведет к ошибке - признаки для расчетов необходимо перекодировать в dummy переменные.

http://www.hse.ru/data/2011/11/30/1271127198/Solution_Dummy.pdf

Фиктивные переменные в отечественной литературе имеют термин структурных переменных и они вводятся не только в логистические модели. В качестве фиктивных переменных обычно используются дихотомические переменные, которые принимают всего два значения ?0? и ?1?, например, значение ?0? - ж и ?1? м для переменной пол. В этом случае ничего создавать не нужно, они вводятся в уравнение именно в таком виде, что облегчает трактовку коэффициентов, но называться могут ?фиктивные?. Если градаций больше двух, то в регрессионную модель вводят k-1 бинарных переменных.
?Фиктивные переменные? - это не совсем удачный перевод dummy var поскольку они вовсе не фиктивные, их фиктивность лишь в том, что они количественным образом описывают качественный признак.

Автор: Игорь 13.01.2012 - 05:39

Цитата(DrgLena @ 11.01.2012 - 11:09) *
В качестве фиктивных переменных обычно используются дихотомические переменные, которые принимают всего два значения ?0? и ?1?, например, значение ?0? - ж и ?1? м для переменной пол. В этом случае ничего создавать не нужно, они вводятся в уравнение именно в таком виде, что облегчает трактовку коэффициентов, но называться могут ?фиктивные?. Если градаций больше двух, то в регрессионную модель вводят k-1 бинарных переменных.

Давняя беда науки - небрежность в терминологии. То, что Вы закодировали в данном случае значениями 0 и 1, на самом деле является не "полом", а "наличием мужских вторичных половых признаков". Если вы введете еще один признак - "наличие женских вторичных половых признаков", то в даже в этом случае совокупность этих признаков не будет полом.

Возможно, в некоторых случаях можно поступить, как поступаете Вы (с поправкой на терминологию), но ошибка может подкрасться незаметно при проведении других видов анализа, например, если потребуется делать классификацию и, соответственно, вычислять расстояния между объектами и классами. Впрочем, ошибки такго рода допускают в публикациях даже известные профессора (не буду поминать его здесьь).

Автор: DrgLena 13.01.2012 - 10:56

Цитата(Игорь @ 13.01.2012 - 05:39) *
... позволит в расчетах учесть наличие так любимых Вами гермафродитов...

Довольно хамский вывод из моей цитаты.

Автор: DrgLena 13.01.2012 - 11:28

А в этой ветке форума пол (sex) всего лишь имя переменной, а не научное понятие, требующее точного определения.

Автор: Игорь 13.01.2012 - 15:58

Цитата(DrgLena @ 13.01.2012 - 10:56) *
Довольно хамский вывод из моей цитаты.

Нет, это переходит все границы приличий. Один в личке предлагает с малолетними девочками пообщаться, другой из виднейших советских ученых педерастов делает, третий в МКБ путается. Короче, не желая видеть превращения форума в телеканал ТНТ, покидаю его. Счастливо оставаться. Читайте книжки.

Автор: DrgLena 13.01.2012 - 18:03

Прежде, чем вы уйдете, громко хлопнув дверью, советую Вам удалить Ваш вывод о том, как я отношусь к третьей категории переменной sex, вы явно перешли на личности, а это не личная переписка. И Ваши комментарии о сексуальной ориентации уважаемого ученого также уберите, они не были высказаны на форуме в столь грубой форме. А отдохнув у ТНТ, возвращайтесь, почитав книжки о культуре дискуссии. Со своей стороны обязуюсь удалить свою гневную реакцию.

Автор: Вале а 13.01.2012 - 21:43

Цитата(Игорь @ 13.01.2012 - 16:58) *
другой из виднейших советских ученых педерастов делает


давайте быть корректными, и называть их геями, их талант ориентация не умаляет.

Автор: Stefa 16.01.2012 - 05:22

Здравствуйте, Игорь, не уходите, пожалуйста, с форума, Ваши ответы на поставленные вопросы очень профессиональные и при этом понятные, будет очень жалко, если Вы перестанет помогать. Просто не обращайте внимания на всё это

Автор: Вале а 16.01.2012 - 18:34

Цитата(Stefa @ 16.01.2012 - 06:22) *
Здравствуйте, Игорь, не уходите, пожалуйста, с форума, Ваши ответы на поставленные вопросы очень профессиональные и при этом понятные, будет очень жалко, если Вы перестанет помогать. Просто не обращайте внимания на всё это


я присоединяюсь к просьбе

Автор: Вале а 7.02.2012 - 14:09

замерла веточка

Форум Invision Power Board (http://www.invisionboard.com)
© Invision Power Services (http://www.invisionpower.com)