калибровка в логистической регрессии |
Здравствуйте, гость ( Вход | Регистрация )
калибровка в логистической регрессии |
9.02.2012 - 14:20
Сообщение
#1
|
|
Группа: Пользователи Сообщений: 33 Регистрация: 9.01.2012 Пользователь №: 23408 |
всем привет! где можно на русском можно почитать о процедуре и методиках калибровки логистической модели?
|
|
3.03.2012 - 14:54
Сообщение
#2
|
|
Группа: Пользователи Сообщений: 49 Регистрация: 3.03.2012 Из: USA Пользователь №: 23536 |
всем привет! где можно на русском можно почитать о процедуре и методиках калибровки логистической модели? Привет! У меня тоже была масса вопросов по логистической регрессии, пока не прочитала статью "Логистическая регрессия в медицине и биологии" (http://www.biometrica.tomsk.ru/logit_1.htm). Потом вышла на автора, с его помощью получила уникальные результаты по своим данным. Но самое главное, я поняла, что для осмысления самого уравнения регрессии нужны и результаты по многим другим методам. Только тогда начинаешь понимать и структуру уравнения, и то, как его можно использовать на практике. И ещё. Я поняла, что реально детальный анализ по этому методу ни в SPSS (у меня 20-я версия), ни в STATISTICA (у меня 10 версия) не сделать. Татьяна. |
|
3.03.2012 - 17:23
Сообщение
#3
|
|
Группа: Пользователи Сообщений: 33 Регистрация: 9.01.2012 Пользователь №: 23408 |
Привет! У меня тоже была масса вопросов по логистической регрессии, пока не прочитала статью "Логистическая регрессия в медицине и биологии" (http://www.biometrica.tomsk.ru/logit_1.htm). Потом вышла на автора, с его помощью получила уникальные результаты по своим данным. Но самое главное, я поняла, что для осмысления самого уравнения регрессии нужны и результаты по многим другим методам. Только тогда начинаешь понимать и структуру уравнения, и то, как его можно использовать на практике. И ещё. Я поняла, что реально детальный анализ по этому методу ни в SPSS (у меня 20-я версия), ни в STATISTICA (у меня 10 версия) не сделать. Татьяна. а в Stata не пробовала работать? особо проблем с пониманием метода нет, интересно, как лучше откалибровать модель, как коэффициенты регрессии перевести в баллы, в обычную балльную шкалу от 0 до 100. |
|
5.03.2012 - 05:24
Сообщение
#4
|
|
Группа: Пользователи Сообщений: 49 Регистрация: 3.03.2012 Из: USA Пользователь №: 23536 |
а в Stata не пробовала работать? особо проблем с пониманием метода нет, интересно, как лучше откалибровать модель, как коэффициенты регрессии перевести в баллы, в обычную балльную шкалу от 0 до 100. Работала и не только с пакетом STATA, но и с десятком других пакетов. Кстати, по одним и тем же данным разные пакеты дают результаты не только разной структуры и информативности, но и отличающиеся, хотя и немного, по самим значениям коэффициентов. Относительно перевода коэффициентов в баллы. Ваш вопрос говорит о лишь о неполном понимании сути теории логистической регрессии. Я тоже вначале многое не понимала в этом методе. Пока не прошла обучение и мне не выполнили заказ по анализу моих данных. И вот только после этого разбираясь с помощью профессионального биостатистика с полученными уравнениями (а их было более сотни), я стала понимать, что нет такой проблемы, о которой Вы пишете. Начну с того, что Вы не конкретизируете о каких именно КОЭФФИЦИЕНТАХ идёт речь. Ведь после проведения этого анализа получаются коэффициенты разного вида. Далее, если даже не учитывать вид этих коэффициентов, то и в этом случае надо понимать, что коэффициенты есть величины количественные, непрерывные. Т.е. это ЧИСЛОВАЯ шкала. Вы же пишете о том, как превратить ЧИСЛОВУЮ шкалу в БАЛЛЬНУЮ. Это преобразование всегда сопряжено с потерей информации. Кроме того, вариантов превращения, трансформации можно предложить десятки, если не сотни. И все они будут бессмысленны, поскольку в реальности мы работаем не с одним уравнением, а с несколькими. И тогда получается что для каждого уравнения нужно искать свой алгоритм трансформации. Уважаемый (ая) 'Вале а' ! Задавая свой вопрос, Вы не озадачились аргументацией необходимости, полезности и практической ценности такого преобразования. Поэтому позвольте задать Вам встречный вопрос: ЗАЧЕМ, ДЛЯ ЧЕГО НЕОБХОДИМО ТАКОЕ ПРЕОБРАЗОВАНИЕ? ЧЕМ ВАС НЕ УСТРАИВАЕТ ПОЛУЧАЕМОЕ УРАВНЕНИЕ С КОЭФФИЦИЕНТАМИ? ЧТО, ЕГО ОЧЕНЬ, НУ ОЧЕНЬ ТРУДНО, ИСПОЛЬЗОВАТЬ? |
|
5.03.2012 - 23:09
Сообщение
#5
|
|
Группа: Пользователи Сообщений: 43 Регистрация: 4.01.2012 Пользователь №: 23400 |
Привет! У меня тоже была масса вопросов по логистической регрессии, пока не прочитала статью "Логистическая регрессия в медицине и биологии" (http://www.biometrica.tomsk.ru/logit_1.htm). Потом вышла на автора, с его помощью получила уникальные результаты по своим данным. Но самое главное, я поняла, что для осмысления самого уравнения регрессии нужны и результаты по многим другим методам. Только тогда начинаешь понимать и структуру уравнения, и то, как его можно использовать на практике. И ещё. Я поняла, что реально детальный анализ по этому методу ни в SPSS (у меня 20-я версия), ни в STATISTICA (у меня 10 версия) не сделать. Татьяна. Поделитесь, пожалуйста, информацией, а где же можно сделать детальный анализ? И поясните также, пожалуйста, почему нельзя сделать "детальный анализ", например, в СТАТА. |
|
6.03.2012 - 00:28
Сообщение
#6
|
|
Группа: Пользователи Сообщений: 33 Регистрация: 9.01.2012 Пользователь №: 23408 |
Поделитесь, пожалуйста, информацией, а где же можно сделать детальный анализ? И поясните также, пожалуйста, почему нельзя сделать "детальный анализ", например, в СТАТА. Наверное, из общения с Леоновым. Тоже консультировался у него, когда писал статью в журнал (Анализ данных в SPSS с помощью метода бинарной логистической регрессии). Только тема у меня -скоринг (оценка кредитных рисков). Замечательный ученый. Строгий, требовательный, опытный практик. по поводу Stata и SPSS "Используемые Вами пакеты не рекомендую применять для задач скоринга, они достаточно примитивны. Кроме того, для получения практически ценных уравнений необходимо вначале получить порядка 30-50 уравнений с разными наборами предикторов, полученные к тому же разными алгоритмами, и лишь потом, используя их на практике, выбрать наиболее ценные. Однако и это не всё. Социальная динамика такова, что обновление полученных уравнений необходимо проводить примерно раз в полгода... Более 30 лет работаю с пакетом SAS, в котором есть возможность написания продвинутых макро-программ и т.д. " Сообщение отредактировал Вале а - 6.03.2012 - 00:29 |
|
6.03.2012 - 00:47
Сообщение
#7
|
|
Группа: Пользователи Сообщений: 33 Регистрация: 9.01.2012 Пользователь №: 23408 |
Работала и не только с пакетом STATA, но и с десятком других пакетов. Кстати, по одним и тем же данным разные пакеты дают результаты не только разной структуры и информативности, но и отличающиеся, хотя и немного, по самим значениям коэффициентов. Относительно перевода коэффициентов в баллы. Ваш вопрос говорит о лишь о неполном понимании сути теории логистической регрессии. Я тоже вначале многое не понимала в этом методе. Пока не прошла обучение и мне не выполнили заказ по анализу моих данных. И вот только после этого разбираясь с помощью профессионального биостатистика с полученными уравнениями (а их было более сотни), я стала понимать, что нет такой проблемы, о которой Вы пишете. Начну с того, что Вы не конкретизируете о каких именно КОЭФФИЦИЕНТАХ идёт речь. Ведь после проведения этого анализа получаются коэффициенты разного вида. Далее, если даже не учитывать вид этих коэффициентов, то и в этом случае надо понимать, что коэффициенты есть величины количественные, непрерывные. Т.е. это ЧИСЛОВАЯ шкала. Вы же пишете о том, как превратить ЧИСЛОВУЮ шкалу в БАЛЛЬНУЮ. Это преобразование всегда сопряжено с потерей информации. Кроме того, вариантов превращения, трансформации можно предложить десятки, если не сотни. И все они будут бессмысленны, поскольку в реальности мы работаем не с одним уравнением, а с несколькими. И тогда получается что для каждого уравнения нужно искать свой алгоритм трансформации. Уважаемый (ая) 'Вале а' ! Задавая свой вопрос, Вы не озадачились аргументацией необходимости, полезности и практической ценности такого преобразования. Поэтому позвольте задать Вам встречный вопрос: ЗАЧЕМ, ДЛЯ ЧЕГО НЕОБХОДИМО ТАКОЕ ПРЕОБРАЗОВАНИЕ? ЧЕМ ВАС НЕ УСТРАИВАЕТ ПОЛУЧАЕМОЕ УРАВНЕНИЕ С КОЭФФИЦИЕНТАМИ? ЧТО, ЕГО ОЧЕНЬ, НУ ОЧЕНЬ ТРУДНО, ИСПОЛЬЗОВАТЬ? да обычные бета-коэффициенты. не устраивают тем, что нужна скоринговая карта, где общая вероятность дефолта по каждому заемщику выражена в баллах (суммируются баллы характеристик). http://www.basegroup.ru/deductor/screensho...recard/#picture начальство говорит, хотим, как на картинке, как вот в этой программе, приобретение которой вместе с обучением составляет 600 тыс. руб, а SPSS и Stata можно на Горбушке купить. Кстати, Леонов перевод коэфф-тов в баллы не рекомендует, да я и сам этого же мнения, лишь потеря информации, только наше начальство приводит убийственный аргумент "так зато понятнее". |
|
6.03.2012 - 11:06
Сообщение
#8
|
|
Группа: Пользователи Сообщений: 1091 Регистрация: 26.08.2010 Пользователь №: 22699 |
да обычные бета-коэффициенты. не устраивают тем, что нужна скоринговая карта, где общая вероятность дефолта по каждому заемщику выражена в баллах (суммируются баллы характеристик). http://www.basegroup.ru/deductor/screensho...recard/#picture начальство говорит, хотим, как на картинке, как вот в этой программе, приобретение которой вместе с обучением составляет 600 тыс. руб, а SPSS и Stata можно на Горбушке купить. Кстати, Леонов перевод коэфф-тов в баллы не рекомендует, да я и сам этого же мнения, лишь потеря информации, только наше начальство приводит убийственный аргумент "так зато понятнее". ааа, кажется понял Поскольку есть подогнанная логистическая регрессия, по синтетическому входу (где предусмотрены все сочетания (или все встречающиеся на практике сочетания)) получаете с ее помощью выход. Потом все параметры входные преобразуете в "фиктивные" переменные (когда каждому уровню входа переменной логистической регрессии соответствует отдельная переменная входа линейной). И обучаем линейную регрессию. Ну и не забудем отмасштабировать в любимый масштаб начальства PS 600 тысяч блин Хотеть! Сообщение отредактировал p2004r - 6.03.2012 - 11:07 |
|
6.03.2012 - 11:34
Сообщение
#9
|
|
Группа: Пользователи Сообщений: 33 Регистрация: 9.01.2012 Пользователь №: 23408 |
ааа, кажется понял Поскольку есть подогнанная логистическая регрессия, по синтетическому входу (где предусмотрены все сочетания (или все встречающиеся на практике сочетания)) получаете с ее помощью выход. Потом все параметры входные преобразуете в "фиктивные" переменные (когда каждому уровню входа переменной логистической регрессии соответствует отдельная переменная входа линейной). И обучаем линейную регрессию. Ну и не забудем отмасштабировать в любимый масштаб начальства PS 600 тысяч блин Хотеть! ясно. наверно это и подразумевают разработчики программы под "линеаризацией логрегресионных коэффициентов в баллы" |
|
6.03.2012 - 17:36
Сообщение
#10
|
|
Группа: Пользователи Сообщений: 49 Регистрация: 3.03.2012 Из: USA Пользователь №: 23536 |
да обычные бета-коэффициенты. не устраивают тем, что нужна скоринговая карта, где общая вероятность дефолта по каждому заемщику выражена в баллах (суммируются баллы характеристик). http://www.basegroup.ru/deductor/screensho...recard/#picture начальство говорит, хотим, как на картинке, как вот в этой программе, приобретение которой вместе с обучением составляет 600 тыс. руб, а SPSS и Stata можно на Горбушке купить. Кстати, Леонов перевод коэфф-тов в баллы не рекомендует, да я и сам этого же мнения, лишь потеря информации, только наше начальство приводит убийственный аргумент "так зато понятнее". "обычные бета-коэффициенты"... До обучения я тоже думала, что существуют лишь "обычные бета-коэффициенты". Однако потом, поучившись, и почитав книжку Леонова и книжки американцев по логистической регрессии, узнала, что бета-коэффициенты - это не то, что мы получаем в STATA. Кстати о STATA. У меня уже около 1 года стоит 12 версия. Вот Вам пример того, что мы получаем в результате Multinomial logistic regression Number of obs = 2279 LR chi2(18) = 3273.11 Prob > chi2 = 0.0000 Log likelihood = -902.53281 Pseudo R2 = 0.6445 Y | Coef. Std. Err. z P>|z| [95% Conf. Interval] var1A | -3.441993 .2922946 -11.78 0.000 -4.01488 -2.869106 var10A | -1.668565 .3023973 -5.52 0.000 -2.261253 -1.075877 var12A | -1.598526 .2297687 -6.96 0.000 -2.048865 -1.148188 var16 | -.0018504 .0002334 -7.93 0.000 -.0023078 -.001393 var17 | .3539545 .0274122 12.91 0.000 .3002276 .4076815 var118| -.0660466 .0115819 -5.70 0.000 -.0887467 -.0433466 _cons | 14.30907 1.744771 8.20 0.000 10.88939 17.72876 Обратите внимание, что в нижней строке лишь одна константа (свободный член). Тогда как зависимая переменная Y имеет не 2 градации, а больше. И значит констант должно быть k-1, где k - число подгрупп. Далее, в тех результатах, которые я получила по своему заказу, было как раз несколько констант. И были не только размерные коэффициенты, но и безразмерные. Что позволило проранжировать мои предикторы по степени их важности. Кроме того, при использовании пошаговых алгоритмов на каждом шаге я видела не только коэффициенты для каждого предиктора, но и процент конкордации. И массу другой полезной информации. И последнее. Для окончательного уравнения я получала отсортированные значения параметра BETA для всех наблюдений. Это мне позволило затем сгруппировать их и найти точки деления при переходе от одной подгруппы к другой. В общем когда получаешь в результатах много информации, которую сразу не можешь оценить, но потом вынужден вникать в неё, начинаешь лучше и глубже понимать суть метода. Относительно "можно на Горбушке купить". Как известно, скупой платит дважды... Я не поскупилась, оплатила свой заказ, и полученный материал окупился многократно. И внесла свои уравнения в EXCEL, и научила ими пользоваться своих подчинённых, и даже оформила несколько патентов по ним. Татьяна |
|
6.03.2012 - 18:00
Сообщение
#11
|
|
Группа: Пользователи Сообщений: 49 Регистрация: 3.03.2012 Из: USA Пользователь №: 23536 |
Поделитесь, пожалуйста, информацией, а где же можно сделать детальный анализ? Я же дала Вам ссылку на статью. Там всё написано. И поясните также, пожалуйста, почему нельзя сделать "детальный анализ", например, в СТАТА. Потому как STATA - это не пакет для профессионалов, а пакет для начинающих, которым достаточно скромных, поверхностных результатов. Его дистрибутив всего ничего, около 200 Мб. А пакеты для профессиональных статистиков "весят" по 4-5 Гбайт, и после установки занимают тоже порядка 6 Гбайт. Чувствуете разницу? В них одной только документации порядка 15 000 страниц, и свой встроенный язык программирования и т.д. Так что в зависимости от того, насколько глубоко нужно изучить свои данные, и насколько они важны, и приходится выбирать между поверхностными результатами, и результатами серьёзными. Я тоже не сразу пришла к пониманию этого. Пыталась самостоятельно около полугода получить нужные результаты. Пока не поняла, что работать нужно эффективно. А это достигается в том случае, когда занимаешься своим делом. Делом, которое есть твоя профессия. И тогда стала понимать, что статистика тоже профессия, и в ней есть профессионалы. Желаю успеха! Татьяна |
|
6.03.2012 - 19:05
Сообщение
#12
|
|
Группа: Пользователи Сообщений: 1091 Регистрация: 26.08.2010 Пользователь №: 22699 |
"обычные бета-коэффициенты"... До обучения я тоже думала, что существуют лишь "обычные бета-коэффициенты". Однако потом, поучившись, и почитав книжку Леонова и книжки американцев по логистической регрессии, узнала, что бета-коэффициенты - это не то, что мы получаем в STATA. Кстати о STATA. У меня уже около 1 года стоит 12 версия. Вот Вам пример того, что мы получаем в результате Multinomial logistic regression Number of obs = 2279 LR chi2(18) = 3273.11 Prob > chi2 = 0.0000 Log likelihood = -902.53281 Pseudo R2 = 0.6445 Y | Coef. Std. Err. z P>|z| [95% Conf. Interval] var1A | -3.441993 .2922946 -11.78 0.000 -4.01488 -2.869106 var10A | -1.668565 .3023973 -5.52 0.000 -2.261253 -1.075877 var12A | -1.598526 .2297687 -6.96 0.000 -2.048865 -1.148188 var16 | -.0018504 .0002334 -7.93 0.000 -.0023078 -.001393 var17 | .3539545 .0274122 12.91 0.000 .3002276 .4076815 var118| -.0660466 .0115819 -5.70 0.000 -.0887467 -.0433466 _cons | 14.30907 1.744771 8.20 0.000 10.88939 17.72876 Обратите внимание, что в нижней строке лишь одна константа (свободный член). Тогда как зависимая переменная Y имеет не 2 градации, а больше. И значит констант должно быть k-1, где k - число подгрупп. Далее, в тех результатах, которые я получила по своему заказу, было как раз несколько констант. И были не только размерные коэффициенты, но и безразмерные. Что позволило проранжировать мои предикторы по степени их важности. Кроме того, при использовании пошаговых алгоритмов на каждом шаге я видела не только коэффициенты для каждого предиктора, но и процент конкордации. И массу другой полезной информации. И последнее. Для окончательного уравнения я получала отсортированные значения параметра BETA для всех наблюдений. Это мне позволило затем сгруппировать их и найти точки деления при переходе от одной подгруппы к другой. В общем когда получаешь в результатах много информации, которую сразу не можешь оценить, но потом вынужден вникать в неё, начинаешь лучше и глубже понимать суть метода. Относительно "можно на Горбушке купить". Как известно, скупой платит дважды... Я не поскупилась, оплатила свой заказ, и полученный материал окупился многократно. И внесла свои уравнения в EXCEL, и научила ими пользоваться своих подчинённых, и даже оформила несколько патентов по ним. Татьяна Ну в R с константами все в порядке Код > ml.Fish <- mlogit(mode~price | income | catch, Fishing, shape = "wide", varying = 2:9)
> summary(ml.Fish) Call: mlogit(formula = mode ~ price | income | catch, data = Fishing, shape = "wide", varying = 2:9, method = "nr", print.level = 0) Frequencies of alternatives: beach boat charter pier 0.11337 0.35364 0.38240 0.15059 nr method 7 iterations, 0h:0m:0s g'(-H)^-1g = 2.54E-05 successive fonction values within tolerance limits Coefficients : Estimate Std. Error t-value Pr(>|t|) boat:(intercept) 8.4184e-01 2.9996e-01 2.8065 0.0050080 ** charter:(intercept) 2.1549e+00 2.9746e-01 7.2443 4.348e-13 *** pier:(intercept) 1.0430e+00 2.9535e-01 3.5315 0.0004132 *** price -2.5281e-02 1.7551e-03 -14.4046 < 2.2e-16 *** boat:income 5.5428e-05 5.2130e-05 1.0633 0.2876612 charter:income -7.2337e-05 5.2557e-05 -1.3764 0.1687088 pier:income -1.3550e-04 5.1172e-05 -2.6480 0.0080977 ** beach:catch 3.1177e+00 7.1305e-01 4.3724 1.229e-05 *** boat:catch 2.5425e+00 5.2274e-01 4.8638 1.152e-06 *** charter:catch 7.5949e-01 1.5420e-01 4.9254 8.417e-07 *** pier:catch 2.8512e+00 7.7464e-01 3.6807 0.0002326 *** --- Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 Log-Likelihood: -1199.1 McFadden R^2: 0.19936 Likelihood ratio test : chisq = 597.16 (p.value = < 2.22e-16) |
|
6.03.2012 - 21:24
Сообщение
#13
|
|
Группа: Пользователи Сообщений: 43 Регистрация: 4.01.2012 Пользователь №: 23400 |
Ну в R с константами все в порядке В СТАТе тоже все в порядке с константами, Татьяна только почему то забыла скопировать полностью результат mlogit brand female age, base(1) Iteration 0: log likelihood = -795.89581 Iteration 1: log likelihood = -709.10396 Iteration 2: log likelihood = -703.08391 Iteration 3: log likelihood = -702.97081 Iteration 4: log likelihood = -702.9707 Multinomial logistic regression Number of obs = 735 LR chi2(4) = 185.85 Prob > chi2 = 0.0000 Log likelihood = -702.9707 Pseudo R2 = 0.1168 ------------------------------------------------------------------------------ brand | Coef. Std. Err. z P>|z| [95% Conf. Interval] -------------+---------------------------------------------------------------- 2 | female | .5238143 .1942466 2.70 0.007 .143098 .9045307 age | .3682065 .0550031 6.69 0.000 .2604024 .4760106 _cons | -11.77466 1.77461 -6.64 0.000 -15.25283 -8.296483 -------------+---------------------------------------------------------------- 3 | female | .4659414 .2260895 2.06 0.039 .022814 .9090688 age | .6859082 .0626265 10.95 0.000 .5631626 .8086539 _cons | -22.7214 2.058027 -11.04 0.000 -26.75505 -18.68774 ------------------------------------------------------------------------------ (brand==1 is the base outcome) http://www.ats.ucla.edu/stat/stata/dae/mlogit.htm |
|
20.03.2012 - 10:10
Сообщение
#14
|
|
Группа: Пользователи Сообщений: 63 Регистрация: 20.03.2012 Из: Ташкент Пользователь №: 23582 |
всем привет! где можно на русском можно почитать о процедуре и методиках калибровки логистической модели? Чаще всего выполняют элементарную нормировку для нейронных сетей: norm = (value - min) / (max - min) norm - нормированное значение в диапазоне от 0 до 1 (если умножить на 100, то получим результат в процентах) value - нормируемое значение min - минимальное значение max - максимальное значение Если нормировка нужна для перевода значений в диапазон от -1 до 1 то формула уже принимает такой вид: norm = 2 * (value - min) / (max - min) - 1 Сообщение отредактировал YVR - 20.03.2012 - 10:13 Yury V. Reshetov |
|