![]() |
Здравствуйте, гость ( Вход | Регистрация )
![]() ![]() |
![]() |
![]()
Сообщение
#1
|
|
Группа: Пользователи Сообщений: 33 Регистрация: 9.01.2012 Пользователь №: 23408 ![]() |
всем привет! где можно на русском можно почитать о процедуре и методиках калибровки логистической модели?
|
|
![]() |
![]() |
![]()
Сообщение
#2
|
|
![]() Группа: Пользователи Сообщений: 49 Регистрация: 3.03.2012 Из: USA Пользователь №: 23536 ![]() |
всем привет! где можно на русском можно почитать о процедуре и методиках калибровки логистической модели? Привет! У меня тоже была масса вопросов по логистической регрессии, пока не прочитала статью "Логистическая регрессия в медицине и биологии" (http://www.biometrica.tomsk.ru/logit_1.htm). Потом вышла на автора, с его помощью получила уникальные результаты по своим данным. Но самое главное, я поняла, что для осмысления самого уравнения регрессии нужны и результаты по многим другим методам. Только тогда начинаешь понимать и структуру уравнения, и то, как его можно использовать на практике. И ещё. Я поняла, что реально детальный анализ по этому методу ни в SPSS (у меня 20-я версия), ни в STATISTICA (у меня 10 версия) не сделать. Татьяна. |
|
![]() |
![]() |
![]()
Сообщение
#3
|
|
Группа: Пользователи Сообщений: 33 Регистрация: 9.01.2012 Пользователь №: 23408 ![]() |
Привет! У меня тоже была масса вопросов по логистической регрессии, пока не прочитала статью "Логистическая регрессия в медицине и биологии" (http://www.biometrica.tomsk.ru/logit_1.htm). Потом вышла на автора, с его помощью получила уникальные результаты по своим данным. Но самое главное, я поняла, что для осмысления самого уравнения регрессии нужны и результаты по многим другим методам. Только тогда начинаешь понимать и структуру уравнения, и то, как его можно использовать на практике. И ещё. Я поняла, что реально детальный анализ по этому методу ни в SPSS (у меня 20-я версия), ни в STATISTICA (у меня 10 версия) не сделать. Татьяна. а в Stata не пробовала работать? особо проблем с пониманием метода нет, интересно, как лучше откалибровать модель, как коэффициенты регрессии перевести в баллы, в обычную балльную шкалу от 0 до 100. |
|
![]() |
![]() |
![]() ![]()
Сообщение
#4
|
|
![]() Группа: Пользователи Сообщений: 49 Регистрация: 3.03.2012 Из: USA Пользователь №: 23536 ![]() |
а в Stata не пробовала работать? особо проблем с пониманием метода нет, интересно, как лучше откалибровать модель, как коэффициенты регрессии перевести в баллы, в обычную балльную шкалу от 0 до 100. Работала и не только с пакетом STATA, но и с десятком других пакетов. Кстати, по одним и тем же данным разные пакеты дают результаты не только разной структуры и информативности, но и отличающиеся, хотя и немного, по самим значениям коэффициентов. Относительно перевода коэффициентов в баллы. Ваш вопрос говорит о лишь о неполном понимании сути теории логистической регрессии. Я тоже вначале многое не понимала в этом методе. Пока не прошла обучение и мне не выполнили заказ по анализу моих данных. И вот только после этого разбираясь с помощью профессионального биостатистика с полученными уравнениями (а их было более сотни), я стала понимать, что нет такой проблемы, о которой Вы пишете. Начну с того, что Вы не конкретизируете о каких именно КОЭФФИЦИЕНТАХ идёт речь. Ведь после проведения этого анализа получаются коэффициенты разного вида. Далее, если даже не учитывать вид этих коэффициентов, то и в этом случае надо понимать, что коэффициенты есть величины количественные, непрерывные. Т.е. это ЧИСЛОВАЯ шкала. Вы же пишете о том, как превратить ЧИСЛОВУЮ шкалу в БАЛЛЬНУЮ. Это преобразование всегда сопряжено с потерей информации. Кроме того, вариантов превращения, трансформации можно предложить десятки, если не сотни. И все они будут бессмысленны, поскольку в реальности мы работаем не с одним уравнением, а с несколькими. И тогда получается что для каждого уравнения нужно искать свой алгоритм трансформации. Уважаемый (ая) 'Вале а' ! Задавая свой вопрос, Вы не озадачились аргументацией необходимости, полезности и практической ценности такого преобразования. Поэтому позвольте задать Вам встречный вопрос: ЗАЧЕМ, ДЛЯ ЧЕГО НЕОБХОДИМО ТАКОЕ ПРЕОБРАЗОВАНИЕ? ЧЕМ ВАС НЕ УСТРАИВАЕТ ПОЛУЧАЕМОЕ УРАВНЕНИЕ С КОЭФФИЦИЕНТАМИ? ЧТО, ЕГО ОЧЕНЬ, НУ ОЧЕНЬ ТРУДНО, ИСПОЛЬЗОВАТЬ? |
|
![]() |
![]() |
![]()
Сообщение
#5
|
|
Группа: Пользователи Сообщений: 43 Регистрация: 4.01.2012 Пользователь №: 23400 ![]() |
Привет! У меня тоже была масса вопросов по логистической регрессии, пока не прочитала статью "Логистическая регрессия в медицине и биологии" (http://www.biometrica.tomsk.ru/logit_1.htm). Потом вышла на автора, с его помощью получила уникальные результаты по своим данным. Но самое главное, я поняла, что для осмысления самого уравнения регрессии нужны и результаты по многим другим методам. Только тогда начинаешь понимать и структуру уравнения, и то, как его можно использовать на практике. И ещё. Я поняла, что реально детальный анализ по этому методу ни в SPSS (у меня 20-я версия), ни в STATISTICA (у меня 10 версия) не сделать. Татьяна. Поделитесь, пожалуйста, информацией, а где же можно сделать детальный анализ? И поясните также, пожалуйста, почему нельзя сделать "детальный анализ", например, в СТАТА. |
|
![]() |
![]() |
![]()
Сообщение
#6
|
|
Группа: Пользователи Сообщений: 33 Регистрация: 9.01.2012 Пользователь №: 23408 ![]() |
Поделитесь, пожалуйста, информацией, а где же можно сделать детальный анализ? И поясните также, пожалуйста, почему нельзя сделать "детальный анализ", например, в СТАТА. Наверное, из общения с Леоновым. Тоже консультировался у него, когда писал статью в журнал (Анализ данных в SPSS с помощью метода бинарной логистической регрессии). Только тема у меня -скоринг (оценка кредитных рисков). Замечательный ученый. Строгий, требовательный, опытный практик. по поводу Stata и SPSS "Используемые Вами пакеты не рекомендую применять для задач скоринга, они достаточно примитивны. Кроме того, для получения практически ценных уравнений необходимо вначале получить порядка 30-50 уравнений с разными наборами предикторов, полученные к тому же разными алгоритмами, и лишь потом, используя их на практике, выбрать наиболее ценные. Однако и это не всё. Социальная динамика такова, что обновление полученных уравнений необходимо проводить примерно раз в полгода... Более 30 лет работаю с пакетом SAS, в котором есть возможность написания продвинутых макро-программ и т.д. " Сообщение отредактировал Вале а - 6.03.2012 - 00:29 |
|
![]() |
![]() |
![]()
Сообщение
#7
|
|
Группа: Пользователи Сообщений: 33 Регистрация: 9.01.2012 Пользователь №: 23408 ![]() |
Работала и не только с пакетом STATA, но и с десятком других пакетов. Кстати, по одним и тем же данным разные пакеты дают результаты не только разной структуры и информативности, но и отличающиеся, хотя и немного, по самим значениям коэффициентов. Относительно перевода коэффициентов в баллы. Ваш вопрос говорит о лишь о неполном понимании сути теории логистической регрессии. Я тоже вначале многое не понимала в этом методе. Пока не прошла обучение и мне не выполнили заказ по анализу моих данных. И вот только после этого разбираясь с помощью профессионального биостатистика с полученными уравнениями (а их было более сотни), я стала понимать, что нет такой проблемы, о которой Вы пишете. Начну с того, что Вы не конкретизируете о каких именно КОЭФФИЦИЕНТАХ идёт речь. Ведь после проведения этого анализа получаются коэффициенты разного вида. Далее, если даже не учитывать вид этих коэффициентов, то и в этом случае надо понимать, что коэффициенты есть величины количественные, непрерывные. Т.е. это ЧИСЛОВАЯ шкала. Вы же пишете о том, как превратить ЧИСЛОВУЮ шкалу в БАЛЛЬНУЮ. Это преобразование всегда сопряжено с потерей информации. Кроме того, вариантов превращения, трансформации можно предложить десятки, если не сотни. И все они будут бессмысленны, поскольку в реальности мы работаем не с одним уравнением, а с несколькими. И тогда получается что для каждого уравнения нужно искать свой алгоритм трансформации. Уважаемый (ая) 'Вале а' ! Задавая свой вопрос, Вы не озадачились аргументацией необходимости, полезности и практической ценности такого преобразования. Поэтому позвольте задать Вам встречный вопрос: ЗАЧЕМ, ДЛЯ ЧЕГО НЕОБХОДИМО ТАКОЕ ПРЕОБРАЗОВАНИЕ? ЧЕМ ВАС НЕ УСТРАИВАЕТ ПОЛУЧАЕМОЕ УРАВНЕНИЕ С КОЭФФИЦИЕНТАМИ? ЧТО, ЕГО ОЧЕНЬ, НУ ОЧЕНЬ ТРУДНО, ИСПОЛЬЗОВАТЬ? да обычные бета-коэффициенты. не устраивают тем, что нужна скоринговая карта, где общая вероятность дефолта по каждому заемщику выражена в баллах (суммируются баллы характеристик). http://www.basegroup.ru/deductor/screensho...recard/#picture начальство говорит, хотим, как на картинке, как вот в этой программе, приобретение которой вместе с обучением составляет 600 тыс. руб, а SPSS и Stata можно на Горбушке купить. Кстати, Леонов перевод коэфф-тов в баллы не рекомендует, да я и сам этого же мнения, лишь потеря информации, только наше начальство приводит убийственный аргумент "так зато понятнее". |
|
![]() |
![]() |
![]()
Сообщение
#8
|
|
![]() Группа: Пользователи Сообщений: 1091 Регистрация: 26.08.2010 Пользователь №: 22699 ![]() |
да обычные бета-коэффициенты. не устраивают тем, что нужна скоринговая карта, где общая вероятность дефолта по каждому заемщику выражена в баллах (суммируются баллы характеристик). http://www.basegroup.ru/deductor/screensho...recard/#picture начальство говорит, хотим, как на картинке, как вот в этой программе, приобретение которой вместе с обучением составляет 600 тыс. руб, а SPSS и Stata можно на Горбушке купить. Кстати, Леонов перевод коэфф-тов в баллы не рекомендует, да я и сам этого же мнения, лишь потеря информации, только наше начальство приводит убийственный аргумент "так зато понятнее". ааа, кажется понял ![]() Поскольку есть подогнанная логистическая регрессия, по синтетическому входу (где предусмотрены все сочетания (или все встречающиеся на практике сочетания)) получаете с ее помощью выход. Потом все параметры входные преобразуете в "фиктивные" переменные (когда каждому уровню входа переменной логистической регрессии соответствует отдельная переменная входа линейной). И обучаем линейную регрессию. Ну и не забудем отмасштабировать в любимый масштаб начальства ![]() PS 600 тысяч блин ![]() ![]() Сообщение отредактировал p2004r - 6.03.2012 - 11:07 ![]() |
|
![]() |
![]() |
![]()
Сообщение
#9
|
|
Группа: Пользователи Сообщений: 33 Регистрация: 9.01.2012 Пользователь №: 23408 ![]() |
ааа, кажется понял ![]() Поскольку есть подогнанная логистическая регрессия, по синтетическому входу (где предусмотрены все сочетания (или все встречающиеся на практике сочетания)) получаете с ее помощью выход. Потом все параметры входные преобразуете в "фиктивные" переменные (когда каждому уровню входа переменной логистической регрессии соответствует отдельная переменная входа линейной). И обучаем линейную регрессию. Ну и не забудем отмасштабировать в любимый масштаб начальства ![]() PS 600 тысяч блин ![]() ![]() ясно. наверно это и подразумевают разработчики программы под "линеаризацией логрегресионных коэффициентов в баллы" |
|
![]() |
![]() |
![]()
Сообщение
#10
|
|
![]() Группа: Пользователи Сообщений: 49 Регистрация: 3.03.2012 Из: USA Пользователь №: 23536 ![]() |
да обычные бета-коэффициенты. не устраивают тем, что нужна скоринговая карта, где общая вероятность дефолта по каждому заемщику выражена в баллах (суммируются баллы характеристик). http://www.basegroup.ru/deductor/screensho...recard/#picture начальство говорит, хотим, как на картинке, как вот в этой программе, приобретение которой вместе с обучением составляет 600 тыс. руб, а SPSS и Stata можно на Горбушке купить. Кстати, Леонов перевод коэфф-тов в баллы не рекомендует, да я и сам этого же мнения, лишь потеря информации, только наше начальство приводит убийственный аргумент "так зато понятнее". "обычные бета-коэффициенты"... До обучения я тоже думала, что существуют лишь "обычные бета-коэффициенты". Однако потом, поучившись, и почитав книжку Леонова и книжки американцев по логистической регрессии, узнала, что бета-коэффициенты - это не то, что мы получаем в STATA. Кстати о STATA. У меня уже около 1 года стоит 12 версия. Вот Вам пример того, что мы получаем в результате Multinomial logistic regression Number of obs = 2279 LR chi2(18) = 3273.11 Prob > chi2 = 0.0000 Log likelihood = -902.53281 Pseudo R2 = 0.6445 Y | Coef. Std. Err. z P>|z| [95% Conf. Interval] var1A | -3.441993 .2922946 -11.78 0.000 -4.01488 -2.869106 var10A | -1.668565 .3023973 -5.52 0.000 -2.261253 -1.075877 var12A | -1.598526 .2297687 -6.96 0.000 -2.048865 -1.148188 var16 | -.0018504 .0002334 -7.93 0.000 -.0023078 -.001393 var17 | .3539545 .0274122 12.91 0.000 .3002276 .4076815 var118| -.0660466 .0115819 -5.70 0.000 -.0887467 -.0433466 _cons | 14.30907 1.744771 8.20 0.000 10.88939 17.72876 Обратите внимание, что в нижней строке лишь одна константа (свободный член). Тогда как зависимая переменная Y имеет не 2 градации, а больше. И значит констант должно быть k-1, где k - число подгрупп. Далее, в тех результатах, которые я получила по своему заказу, было как раз несколько констант. И были не только размерные коэффициенты, но и безразмерные. Что позволило проранжировать мои предикторы по степени их важности. Кроме того, при использовании пошаговых алгоритмов на каждом шаге я видела не только коэффициенты для каждого предиктора, но и процент конкордации. И массу другой полезной информации. И последнее. Для окончательного уравнения я получала отсортированные значения параметра BETA для всех наблюдений. Это мне позволило затем сгруппировать их и найти точки деления при переходе от одной подгруппы к другой. В общем когда получаешь в результатах много информации, которую сразу не можешь оценить, но потом вынужден вникать в неё, начинаешь лучше и глубже понимать суть метода. Относительно "можно на Горбушке купить". Как известно, скупой платит дважды... Я не поскупилась, оплатила свой заказ, и полученный материал окупился многократно. И внесла свои уравнения в EXCEL, и научила ими пользоваться своих подчинённых, и даже оформила несколько патентов по ним. Татьяна |
|
![]() |
![]() |
![]()
Сообщение
#11
|
|
![]() Группа: Пользователи Сообщений: 49 Регистрация: 3.03.2012 Из: USA Пользователь №: 23536 ![]() |
Поделитесь, пожалуйста, информацией, а где же можно сделать детальный анализ? Я же дала Вам ссылку на статью. Там всё написано. И поясните также, пожалуйста, почему нельзя сделать "детальный анализ", например, в СТАТА. Потому как STATA - это не пакет для профессионалов, а пакет для начинающих, которым достаточно скромных, поверхностных результатов. Его дистрибутив всего ничего, около 200 Мб. А пакеты для профессиональных статистиков "весят" по 4-5 Гбайт, и после установки занимают тоже порядка 6 Гбайт. Чувствуете разницу? В них одной только документации порядка 15 000 страниц, и свой встроенный язык программирования и т.д. Так что в зависимости от того, насколько глубоко нужно изучить свои данные, и насколько они важны, и приходится выбирать между поверхностными результатами, и результатами серьёзными. Я тоже не сразу пришла к пониманию этого. Пыталась самостоятельно около полугода получить нужные результаты. Пока не поняла, что работать нужно эффективно. А это достигается в том случае, когда занимаешься своим делом. Делом, которое есть твоя профессия. И тогда стала понимать, что статистика тоже профессия, и в ней есть профессионалы. Желаю успеха! Татьяна |
|
![]() |
![]() |
![]()
Сообщение
#12
|
|
![]() Группа: Пользователи Сообщений: 1091 Регистрация: 26.08.2010 Пользователь №: 22699 ![]() |
"обычные бета-коэффициенты"... До обучения я тоже думала, что существуют лишь "обычные бета-коэффициенты". Однако потом, поучившись, и почитав книжку Леонова и книжки американцев по логистической регрессии, узнала, что бета-коэффициенты - это не то, что мы получаем в STATA. Кстати о STATA. У меня уже около 1 года стоит 12 версия. Вот Вам пример того, что мы получаем в результате Multinomial logistic regression Number of obs = 2279 LR chi2(18) = 3273.11 Prob > chi2 = 0.0000 Log likelihood = -902.53281 Pseudo R2 = 0.6445 Y | Coef. Std. Err. z P>|z| [95% Conf. Interval] var1A | -3.441993 .2922946 -11.78 0.000 -4.01488 -2.869106 var10A | -1.668565 .3023973 -5.52 0.000 -2.261253 -1.075877 var12A | -1.598526 .2297687 -6.96 0.000 -2.048865 -1.148188 var16 | -.0018504 .0002334 -7.93 0.000 -.0023078 -.001393 var17 | .3539545 .0274122 12.91 0.000 .3002276 .4076815 var118| -.0660466 .0115819 -5.70 0.000 -.0887467 -.0433466 _cons | 14.30907 1.744771 8.20 0.000 10.88939 17.72876 Обратите внимание, что в нижней строке лишь одна константа (свободный член). Тогда как зависимая переменная Y имеет не 2 градации, а больше. И значит констант должно быть k-1, где k - число подгрупп. Далее, в тех результатах, которые я получила по своему заказу, было как раз несколько констант. И были не только размерные коэффициенты, но и безразмерные. Что позволило проранжировать мои предикторы по степени их важности. Кроме того, при использовании пошаговых алгоритмов на каждом шаге я видела не только коэффициенты для каждого предиктора, но и процент конкордации. И массу другой полезной информации. И последнее. Для окончательного уравнения я получала отсортированные значения параметра BETA для всех наблюдений. Это мне позволило затем сгруппировать их и найти точки деления при переходе от одной подгруппы к другой. В общем когда получаешь в результатах много информации, которую сразу не можешь оценить, но потом вынужден вникать в неё, начинаешь лучше и глубже понимать суть метода. Относительно "можно на Горбушке купить". Как известно, скупой платит дважды... Я не поскупилась, оплатила свой заказ, и полученный материал окупился многократно. И внесла свои уравнения в EXCEL, и научила ими пользоваться своих подчинённых, и даже оформила несколько патентов по ним. Татьяна Ну в R с константами все в порядке ![]() Код > ml.Fish <- mlogit(mode~price | income | catch, Fishing, shape = "wide", varying = 2:9)
> summary(ml.Fish) Call: mlogit(formula = mode ~ price | income | catch, data = Fishing, shape = "wide", varying = 2:9, method = "nr", print.level = 0) Frequencies of alternatives: beach boat charter pier 0.11337 0.35364 0.38240 0.15059 nr method 7 iterations, 0h:0m:0s g'(-H)^-1g = 2.54E-05 successive fonction values within tolerance limits Coefficients : Estimate Std. Error t-value Pr(>|t|) boat:(intercept) 8.4184e-01 2.9996e-01 2.8065 0.0050080 ** charter:(intercept) 2.1549e+00 2.9746e-01 7.2443 4.348e-13 *** pier:(intercept) 1.0430e+00 2.9535e-01 3.5315 0.0004132 *** price -2.5281e-02 1.7551e-03 -14.4046 < 2.2e-16 *** boat:income 5.5428e-05 5.2130e-05 1.0633 0.2876612 charter:income -7.2337e-05 5.2557e-05 -1.3764 0.1687088 pier:income -1.3550e-04 5.1172e-05 -2.6480 0.0080977 ** beach:catch 3.1177e+00 7.1305e-01 4.3724 1.229e-05 *** boat:catch 2.5425e+00 5.2274e-01 4.8638 1.152e-06 *** charter:catch 7.5949e-01 1.5420e-01 4.9254 8.417e-07 *** pier:catch 2.8512e+00 7.7464e-01 3.6807 0.0002326 *** --- Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 Log-Likelihood: -1199.1 McFadden R^2: 0.19936 Likelihood ratio test : chisq = 597.16 (p.value = < 2.22e-16) ![]() |
|
![]() |
![]() |
![]()
Сообщение
#13
|
|
Группа: Пользователи Сообщений: 43 Регистрация: 4.01.2012 Пользователь №: 23400 ![]() |
Ну в R с константами все в порядке ![]() В СТАТе тоже все в порядке с константами, Татьяна только почему то забыла скопировать полностью результат ![]() mlogit brand female age, base(1) Iteration 0: log likelihood = -795.89581 Iteration 1: log likelihood = -709.10396 Iteration 2: log likelihood = -703.08391 Iteration 3: log likelihood = -702.97081 Iteration 4: log likelihood = -702.9707 Multinomial logistic regression Number of obs = 735 LR chi2(4) = 185.85 Prob > chi2 = 0.0000 Log likelihood = -702.9707 Pseudo R2 = 0.1168 ------------------------------------------------------------------------------ brand | Coef. Std. Err. z P>|z| [95% Conf. Interval] -------------+---------------------------------------------------------------- 2 | female | .5238143 .1942466 2.70 0.007 .143098 .9045307 age | .3682065 .0550031 6.69 0.000 .2604024 .4760106 _cons | -11.77466 1.77461 -6.64 0.000 -15.25283 -8.296483 -------------+---------------------------------------------------------------- 3 | female | .4659414 .2260895 2.06 0.039 .022814 .9090688 age | .6859082 .0626265 10.95 0.000 .5631626 .8086539 _cons | -22.7214 2.058027 -11.04 0.000 -26.75505 -18.68774 ------------------------------------------------------------------------------ (brand==1 is the base outcome) http://www.ats.ucla.edu/stat/stata/dae/mlogit.htm |
|
![]() |
![]() |
![]()
Сообщение
#14
|
|
Группа: Пользователи Сообщений: 63 Регистрация: 20.03.2012 Из: Ташкент Пользователь №: 23582 ![]() |
всем привет! где можно на русском можно почитать о процедуре и методиках калибровки логистической модели? Чаще всего выполняют элементарную нормировку для нейронных сетей: norm = (value - min) / (max - min) norm - нормированное значение в диапазоне от 0 до 1 (если умножить на 100, то получим результат в процентах) value - нормируемое значение min - минимальное значение max - максимальное значение Если нормировка нужна для перевода значений в диапазон от -1 до 1 то формула уже принимает такой вид: norm = 2 * (value - min) / (max - min) - 1 Сообщение отредактировал YVR - 20.03.2012 - 10:13 ![]() Yury V. Reshetov |
|
![]() |
![]() |
![]() ![]() |