George
23.03.2016 - 12:16
Разбираясь с логистической регрессией, с интересом ознакомился с соответствующими ветками Форума. Хорошо, что сформировалась группа знающих людей, которые терпеливо и доброжелательно уже многие годы делятся опытом. Ведь есть вопросы, интересующие многих. Например, недавно на ветках Флуоресценция и Отбор лучших переменных прозвучало о возможности различия результатов, получаемых по сути одними и теми же методами, разными средствами (пакетами). Существуют ли такие различия и как к ним относится? Так, в SPSS есть пример, приведенный во многих источниках ( Ахим Бююль, Петер Цефель). Бинарный отклик, Х1 - интервальная шкала, Х2 - бинарная. Пропустил его на STATIATICA 10.0 . При включении только Х1 совпали таблицы 2х2, В0, В1,. Но значительно различаются SE. Например, для В0 - SPSS - 5,581 ; STATISTICA - 9,454. Примерно вдвое и для В1. Много это или мало, вопрос второй, почему? При включении х1 и х2 уже отличаются все три коэффициента и таблицы классификации. Соответственно 20 4 5 16 и 19 5 7 14. Отсюда - 80,0% и 73,33%. Похожее и у нас. Флуоресценция. DrgLena (очень ценю ее сообщения) указывает на минимальную ошибку классификации при пороге 4,11 таблица 64 19 28 59. STATISTICA предлагает порог 4,64 и 66 17 33 54. 70,59% Какие у кого мнения? Спасибо, всем творческих успехов!
ogurtsov
23.03.2016 - 16:32
Все или почти все подобные расхождения можно объяснить всего двумя причинами:
1) Разные программы на самом деле рассчитывают разные величины, например стандартные ошибки и какие-нибудь "скорректированные" ошибки. Без чтения первоисточников по методам и по софту в этом разобраться нереально.
2) Человеческий фактор: исследователь жмет не на ту кнопку, неправильно кодирует факторы и/или пропущенные значения и пр.
При "изучении" предметной области по форумам все эти ошибки будут вашими верными спутниками.
George
23.03.2016 - 21:58
Спасибо. Для того, что бы в этом разобраться, очень полезно формировать контрольный портфель на основе примеров и их решений из авторитетных источников (монографии, учебники и т.п.). Опубликованные результаты сравнивать с теми, которые получены своими средствами и технологиями. Думаю, это интересно и полезно, особенно для тех, кто хочет откопать что-то серьезное.
DrgLena
23.03.2016 - 23:49
George, при чем тут пороги флюоресценции, которые мы обсуждали в ROC анализе к названию вашего поста. Есть пример, описанный в упомянутой книге, так воспроизведите его хотя бы сначала в SPSS, как описано, и получите совпадающие с книгой значения. Потом идите дальше, Statistica даст вам тот же результат, если только в наборе предикторов не будут категориальные переменные, но это тоже подробно обсуждалось на форуме.
p2004r
24.03.2016 - 09:33
Цитата(George @ 23.03.2016 - 21:58)

Спасибо. Для того, что бы в этом разобраться, очень полезно формировать контрольный портфель на основе примеров и их решений из авторитетных источников (монографии, учебники и т.п.). Опубликованные результаты сравнивать с теми, которые получены своими средствами и технологиями. Думаю, это интересно и полезно, особенно для тех, кто хочет откопать что-то серьезное.
Это
Спарта Математика, тут нет "авторитетных источников"
George
28.03.2016 - 11:17
Вы правы, полученные Вами результаты для двух предикторов в STATISTICA совпадают с SPSS (почему-то!). Буду разбираться. Но все-таки - если включить только первый предиктор, то значения В0 и В1 совпадают, а их ст. ошибки - нет. Хоть это уже детали, но, думаю, на подобные вещи иногда полезно обращать внимание. Это тем, кому интересно. А, пользуясь случаем, спрошу - как понимать приведенные в таблице параметров модели ОТН. ШАНСОВ ( ед. изм и размах). Зачем приводят для В0? Почему оно совпадает с отношением, полученным по табл. классификации только в случае бинарного предиктора? Спасибо!
DrgLena
28.03.2016 - 12:08
Цитата(George @ 28.03.2016 - 11:17)

Вы правы, полученные Вами результаты для двух предикторов в STATISTICA совпадают с SPSS (почему-то!). Буду разбираться.
А что же тут странного, если пример из учебника, пошагово подробно описанный, дает совпадающий с учебником результат и в SPSS и в Statistica. Другой результат можно получить, только если нажимать не те кнопочки в программе.
George
28.03.2016 - 13:04
По поводу авторитетов. Разбирая какой-либо метод и его реализацию в пакете, пропускаю примеры из А. Афифи, С. Эйзен, Н.Дрейпер, Г. Смит, Дж. Флейс и др. Прекрасно изложены особенности применения методов, трактовка результатов и возможные неоднозначности. Часто в публикациях видим, что математика (статистика) применяется формально, математик(статистик, инженер, студент или пр. консультант) не вникает в суть проблемы, а заказчик (врач) не знаком с возможностями и условиями применения методов. Хотя есть врачи, очень грамотные в статистике. Так что авторитеты не помешают, при желании их можно не заметить.
George
28.03.2016 - 13:07
Будем учить матчасть. Спасибо. Творческих успехов!
DrgLena
28.03.2016 - 13:13
Цитата(George @ 28.03.2016 - 11:17)

Но все-таки - если включить только первый предиктор, то значения В0 и В1 совпадают, а их ст. ошибки - нет. Хоть это уже детали, но, думаю, на подобные вещи иногда полезно обращать внимание. Это тем, кому интересно.
Ну, если вам интересно, то Statistica
Const.B0 B1
Estimate -1,435084 3,109061
Standard Error 0,4976268 0,8022222
А в пришпиленной файле результат в SPSS
Если вы , действительно хотите изучать логистическую регрессию, то посчитайте руками OR для вашего примера для одного предиктора, по таблице 2х2, где abcd =21 3 5 15 тогда вопрос о ед. изм. отпадет и вы будете понимать что такое отношение шансов.
George
28.03.2016 - 17:39
В случае, когда предиктор один и есть бинарная переменная, ОШ и табл. 2х2 совпадают, это ясно. Но если предиктор количественный , то для него оба пакета выдают В0=-19,005 и В1=0,278. НО, STATISTICA выдает еще и ОШ - 0,000000... в графе В0 и 1,320 в гр. var1. Как понимать ЭТИ значения? Для чего они? Спасибо.
DrgLena
28.03.2016 - 20:58
Цитата(George @ 28.03.2016 - 17:39)

В случае, когда предиктор один и есть бинарная переменная, ОШ и табл. 2х2 совпадают, это ясно. Но если предиктор количественный , то для него оба пакета выдают В0=-19,005 и В1=0,278. НО, STATISTICA выдает еще и ОШ - 0,000000... в графе В0 и 1,320 в гр. var1.
SPSS тоже выдае
т, по умолчанию, если вы не против

вы ОШ просто не узнали exp(-19,005)=5,57E-9 и exp (0,278)=1,32
George
28.03.2016 - 21:16
Действительно, не обратил внимания, большое спасибо. Но какой смысл несет ОШ для В0? Т.е., если свободный член имеет вот такую величину, извините, то уже имеется некий риск? Такая же условность, как и натуральный логарифм функции правдоподобия для нулевой модели log(L0)? Спасибо за желание разъяснить.
p2004r
29.03.2016 - 08:35
Цитата(George @ 28.03.2016 - 13:04)

По поводу авторитетов. Разбирая какой-либо метод и его реализацию в пакете, пропускаю примеры из А. Афифи, С. Эйзен, Н.Дрейпер, Г. Смит, Дж. Флейс и др. Прекрасно изложены особенности применения методов, трактовка результатов и возможные неоднозначности. Часто в публикациях видим, что математика (статистика) применяется формально, математик(статистик, инженер, студент или пр. консультант) не вникает в суть проблемы, а заказчик (врач) не знаком с возможностями и условиями применения методов. Хотя есть врачи, очень грамотные в статистике. Так что авторитеты не помешают, при желании их можно не заметить.
Вы определенно каких то "сектантских откровений" ищете

. Кто все эти люди? Имеет значение только конкретный датасет, а его тут на три экрана постов как не было так и нет. (не считать же за него рекламу какой то книжки отсутствующей в свободном доступе?)
DrgLena
29.03.2016 - 11:26
Тут пример из Ахим Бююля и линк на файл hkarz.sav
http://www.learnspss.ru/hndbook/glava16/cont9.htm
George
29.03.2016 - 20:56
DrgLena, спасибо. Этот текст мне знаком. После того, как я обработал этот массив двумя пакетами и увидел различие в самих оценках, содержании и структуре представленных отчетов, я и решил обратиться за уточнением на Форум. Еще раз спасибо.
George
29.03.2016 - 21:22
(не считать же за него рекламу какой то книжки отсутствующей в свободном доступе?)
О какой рекламе идет речь? Вы просили меня назвать авторов, которых я считаю авторитетами. Я назвал некоторых. Я не знаю, есть ли они сегодня в продаже, приобрел их много лет назад и пользуюсь до сих пор. Если эти имена ничего не говорят или источники недоступны - почитайте В.Власова, А. Гржибовского, К. Воробьева. Там хорошо показано, как распространено сегодня манипулирование методами и передергивание результатов. Некоторые это делают умышленно корысти ради. Некоторые - от недостатка опыта или знаний. Вот в последнем случае и полезно обращаться к авторитетным источникам. Если для кого - то таких нет, то это интересный случай и, возможно, заслуживает специального исследования. Всего доброго, спасибо за участие в дискуссии.
p2004r
30.03.2016 - 14:10
Цитата(George @ 29.03.2016 - 21:22)

(не считать же за него рекламу какой то книжки отсутствующей в свободном доступе?)
О какой рекламе идет речь? Вы просили меня назвать авторов, которых я считаю авторитетами. Я назвал некоторых. Я не знаю, есть ли они сегодня в продаже, приобрел их много лет назад и пользуюсь до сих пор. Если эти имена ничего не говорят или источники недоступны - почитайте В.Власова, А. Гржибовского, К. Воробьева. Там хорошо показано, как распространено сегодня манипулирование методами и передергивание результатов. Некоторые это делают умышленно корысти ради. Некоторые - от недостатка опыта или знаний. Вот в последнем случае и полезно обращаться к авторитетным источникам. Если для кого - то таких нет, то это интересный случай и, возможно, заслуживает специального исследования. Всего доброго, спасибо за участие в дискуссии.
Еще раз никаких "авторитетных источников" кроме алгоритма самого метода в математике нет. Очень странно видеть противоположную позицию. Это всего навсего логистическая регрессия, а не доказательство какой то великой теоремы которое в состоянии прочесть несколько специалистов в мире.
Вот так вот бездумно ссылаясь "на источники" в основном все ошибки описанные Вами и совершают при обработке данных. "По образцу" литературного текста "авторитетного источника" применять статметод нельзя, надо понимать самому что происходит, или пригласить специалиста который понимает используемый метод и его область применения.
Понимание из "литературного" текста не возникает никогда, и не переносимо никуда. Источником знания могут только быть алгебраические выкладки или эквивалентные им геометрические построения. И примеры тут только начало работы. Все случаи примерами покрыть нельзя.
Провел поиск по фамилиям

Теперь понимаю

Только это и есть самая обычная (ну ладно, пусть косвенная) реклама чьих то услуг по статобработке. Увольте от таких "источников"

.
p2004r
30.03.2016 - 14:11
Цитата(DrgLena @ 29.03.2016 - 11:26)

Тут пример из Ахим Бююля и линк на файл hkarz.sav
http://www.learnspss.ru/hndbook/glava16/cont9.htmСпасибо!
George
31.03.2016 - 16:35
Уважаемый р2004г, предлагаю закончить спор. Думаю, мы оба в чем-то правы. Абсолютно с Вами согласен, надо понимать самому, что происходит. Для этого полезно читать книжки, где описаны методы и примеры их реализации, вникать в отчеты статпакетов, кое-что проверить ручками (при разумных затратах труда). И посещать форумы. Чем я с интересом и занимаюсь. Может быть Вы ответите на вопрос - как трактовать ОШ, выдаваемое в логистической регрессии пакетом STATI STICA для оценки В0 ? Шансы кого и кого соотносятся? Спасибо.
p2004r
31.03.2016 - 21:50
Цитата(George @ 31.03.2016 - 16:35)

Уважаемый р2004г, предлагаю закончить спор. Думаю, мы оба в чем-то правы. Абсолютно с Вами согласен, надо понимать самому, что происходит. Для этого полезно читать книжки, где описаны методы и примеры их реализации, вникать в отчеты статпакетов, кое-что проверить ручками (при разумных затратах труда). И посещать форумы. Чем я с интересом и занимаюсь. Может быть Вы ответите на вопрос - как трактовать ОШ, выдаваемое в логистической регрессии пакетом STATI STICA для оценки В0 ? Шансы кого и кого соотносятся? Спасибо.
Я просто хотел сказать, что математика это немного особенная наука, и в ней "королевской дороги нет"ТМ. А "авторитетов" в ней обычно просят выйти к доске и показать что они конкретно имели в виду высказывая авторитетное мнение. Ссылаются (вернее подставляют в свои выкладки) на доказательства, а не их авторов.
Начнем под девизом: "Но наш турист не так то прост! Он гиду задавал вопрос..." (С)
Уже тот факт что у Вас получается сформулировать на естественном языке вот такой вопрос собственно показывает всё и полностью о месте естественного языка в области статистики. Как и попыток эффективно применить школьную алгебру авторов пакетов

Свободный член в регресионном уравнении отражает простой факт связанный с тем, что произвольную прямую на плоскости надо задавать минимум двумя параметрами

. А логистическая регрессия это обычная линейная регрессия которой добавили нелинейную link function. Так что свободный член показывает значение log-odds когда все предикторы равны 0.
Что такое odds ratio для свободного члена. Дело в том, что мы можем задать уравнение из одного интерцепта состоящее. Ну и понятно получим вероятность того что зависимая величина в нашей выборке равна 1.
Но если мы считаем более сложную модель с интерцептом, то никакой разумной интерпретации ОШ для него не существует. В чем проблема?
Очень просто в тупом алгебраическом подходе. Дело в том, что с точки зрения предметной области ОШ рассчитывается из
таблицы исходов. А она не позволяет, причем принципиально дать для модели с интерцептом и одним предиктором значения ОШ для интерцепта отличное от значения которое получено для модели состоящей из одного свободного члена. Ну нету там чего к чему относить.
DrgLena
31.03.2016 - 23:29
Соглашусь с автором поста, что приведенные источники ( А. Афифи, С. Эйзен, Н.Дрейпер, Г. Смит, Дж. Флейс ) весьма авторитетные, не припомню только чтобы в них в них было описание логистической регрессии.
Свободный член во многих программах по логистической регрессии называется просто intercept, как в STATA, например.
Коэффициенты, которые выдают все программы представляют собой натуральный логарифм odds, и естественно, что exp(b) и будет шанс. Exp(b0) в случае одного бинарного предиктора для того же примера =0,238 , отсюда вероятность быть здоровым при нулевом значении предиктора =1/(1+0,238)=0,192. Тут все легко и просто, из таблицы 2х2 тот же результат.
Если предиктор количественный, то exp(b0) означает шанс для того же примера быть здоровым при гипотетически нулевом значении флюоресценции, хотя такого значения вовсе нет в датасете. Но, это не ОШ.
Можно почитать
http://www.ats.ucla.edu/stat/mult_pkg/faq/.../odds_ratio.htm Но p2004r легко и главное с улыбкой ответил на вопрос
Большое спасибо! Два прекрасных ответа, сказано красиво и доходчиво. Как видно из моих предыдущих сообщений, я довольно близко был в своих предположениях относительно свободного члена, извините, intercepta. Рад, что общение на Форуме оказалось не только полезным, но и приятным. Всего доброго!
Для просмотра полной версии этой страницы, пожалуйста,
пройдите по ссылке.