Помощь - Поиск - Пользователи - Календарь
Полная версия этой страницы: РАЗНЫЕ ПАКЕТЫ _ РАЗНЫЕ РЕЗУЛЬТАТЫ?
Форум врачей-аспирантов > Разделы форума > Медицинская статистика
George
Разбираясь с логистической регрессией, с интересом ознакомился с соответствующими ветками Форума. Хорошо, что сформировалась группа знающих людей, которые терпеливо и доброжелательно уже многие годы делятся опытом. Ведь есть вопросы, интересующие многих. Например, недавно на ветках Флуоресценция и Отбор лучших переменных прозвучало о возможности различия результатов, получаемых по сути одними и теми же методами, разными средствами (пакетами). Существуют ли такие различия и как к ним относится? Так, в SPSS есть пример, приведенный во многих источниках ( Ахим Бююль, Петер Цефель). Бинарный отклик, Х1 - интервальная шкала, Х2 - бинарная. Пропустил его на STATIATICA 10.0 . При включении только Х1 совпали таблицы 2х2, В0, В1,. Но значительно различаются SE. Например, для В0 - SPSS - 5,581 ; STATISTICA - 9,454. Примерно вдвое и для В1. Много это или мало, вопрос второй, почему? При включении х1 и х2 уже отличаются все три коэффициента и таблицы классификации. Соответственно 20 4 5 16 и 19 5 7 14. Отсюда - 80,0% и 73,33%. Похожее и у нас. Флуоресценция. DrgLena (очень ценю ее сообщения) указывает на минимальную ошибку классификации при пороге 4,11 таблица 64 19 28 59. STATISTICA предлагает порог 4,64 и 66 17 33 54. 70,59% Какие у кого мнения? Спасибо, всем творческих успехов!
ogurtsov
Все или почти все подобные расхождения можно объяснить всего двумя причинами:
1) Разные программы на самом деле рассчитывают разные величины, например стандартные ошибки и какие-нибудь "скорректированные" ошибки. Без чтения первоисточников по методам и по софту в этом разобраться нереально.
2) Человеческий фактор: исследователь жмет не на ту кнопку, неправильно кодирует факторы и/или пропущенные значения и пр.

При "изучении" предметной области по форумам все эти ошибки будут вашими верными спутниками.
George
Спасибо. Для того, что бы в этом разобраться, очень полезно формировать контрольный портфель на основе примеров и их решений из авторитетных источников (монографии, учебники и т.п.). Опубликованные результаты сравнивать с теми, которые получены своими средствами и технологиями. Думаю, это интересно и полезно, особенно для тех, кто хочет откопать что-то серьезное.
DrgLena
George, при чем тут пороги флюоресценции, которые мы обсуждали в ROC анализе к названию вашего поста. Есть пример, описанный в упомянутой книге, так воспроизведите его хотя бы сначала в SPSS, как описано, и получите совпадающие с книгой значения. Потом идите дальше, Statistica даст вам тот же результат, если только в наборе предикторов не будут категориальные переменные, но это тоже подробно обсуждалось на форуме.

p2004r
Цитата(George @ 23.03.2016 - 21:58) *
Спасибо. Для того, что бы в этом разобраться, очень полезно формировать контрольный портфель на основе примеров и их решений из авторитетных источников (монографии, учебники и т.п.). Опубликованные результаты сравнивать с теми, которые получены своими средствами и технологиями. Думаю, это интересно и полезно, особенно для тех, кто хочет откопать что-то серьезное.


Это Спарта Математика, тут нет "авторитетных источников" smile.gif
George
Вы правы, полученные Вами результаты для двух предикторов в STATISTICA совпадают с SPSS (почему-то!). Буду разбираться. Но все-таки - если включить только первый предиктор, то значения В0 и В1 совпадают, а их ст. ошибки - нет. Хоть это уже детали, но, думаю, на подобные вещи иногда полезно обращать внимание. Это тем, кому интересно. А, пользуясь случаем, спрошу - как понимать приведенные в таблице параметров модели ОТН. ШАНСОВ ( ед. изм и размах). Зачем приводят для В0? Почему оно совпадает с отношением, полученным по табл. классификации только в случае бинарного предиктора? Спасибо!
DrgLena
Цитата(George @ 28.03.2016 - 11:17) *
Вы правы, полученные Вами результаты для двух предикторов в STATISTICA совпадают с SPSS (почему-то!). Буду разбираться.

А что же тут странного, если пример из учебника, пошагово подробно описанный, дает совпадающий с учебником результат и в SPSS и в Statistica. Другой результат можно получить, только если нажимать не те кнопочки в программе.
George
По поводу авторитетов. Разбирая какой-либо метод и его реализацию в пакете, пропускаю примеры из А. Афифи, С. Эйзен, Н.Дрейпер, Г. Смит, Дж. Флейс и др. Прекрасно изложены особенности применения методов, трактовка результатов и возможные неоднозначности. Часто в публикациях видим, что математика (статистика) применяется формально, математик(статистик, инженер, студент или пр. консультант) не вникает в суть проблемы, а заказчик (врач) не знаком с возможностями и условиями применения методов. Хотя есть врачи, очень грамотные в статистике. Так что авторитеты не помешают, при желании их можно не заметить.
George
Будем учить матчасть. Спасибо. Творческих успехов!
DrgLena
Цитата(George @ 28.03.2016 - 11:17) *
Но все-таки - если включить только первый предиктор, то значения В0 и В1 совпадают, а их ст. ошибки - нет. Хоть это уже детали, но, думаю, на подобные вещи иногда полезно обращать внимание. Это тем, кому интересно.


Ну, если вам интересно, то Statistica

Const.B0 B1

Estimate -1,435084 3,109061
Standard Error 0,4976268 0,8022222

А в пришпиленной файле результат в SPSS

Если вы , действительно хотите изучать логистическую регрессию, то посчитайте руками OR для вашего примера для одного предиктора, по таблице 2х2, где abcd =21 3 5 15 тогда вопрос о ед. изм. отпадет и вы будете понимать что такое отношение шансов.



George
В случае, когда предиктор один и есть бинарная переменная, ОШ и табл. 2х2 совпадают, это ясно. Но если предиктор количественный , то для него оба пакета выдают В0=-19,005 и В1=0,278. НО, STATISTICA выдает еще и ОШ - 0,000000... в графе В0 и 1,320 в гр. var1. Как понимать ЭТИ значения? Для чего они? Спасибо.
DrgLena
Цитата(George @ 28.03.2016 - 17:39) *
В случае, когда предиктор один и есть бинарная переменная, ОШ и табл. 2х2 совпадают, это ясно. Но если предиктор количественный , то для него оба пакета выдают В0=-19,005 и В1=0,278. НО, STATISTICA выдает еще и ОШ - 0,000000... в графе В0 и 1,320 в гр. var1.

SPSS тоже выдает, по умолчанию, если вы не против smile.gif вы ОШ просто не узнали exp(-19,005)=5,57E-9 и exp (0,278)=1,32

George
Действительно, не обратил внимания, большое спасибо. Но какой смысл несет ОШ для В0? Т.е., если свободный член имеет вот такую величину, извините, то уже имеется некий риск? Такая же условность, как и натуральный логарифм функции правдоподобия для нулевой модели log(L0)? Спасибо за желание разъяснить.
p2004r
Цитата(George @ 28.03.2016 - 13:04) *
По поводу авторитетов. Разбирая какой-либо метод и его реализацию в пакете, пропускаю примеры из А. Афифи, С. Эйзен, Н.Дрейпер, Г. Смит, Дж. Флейс и др. Прекрасно изложены особенности применения методов, трактовка результатов и возможные неоднозначности. Часто в публикациях видим, что математика (статистика) применяется формально, математик(статистик, инженер, студент или пр. консультант) не вникает в суть проблемы, а заказчик (врач) не знаком с возможностями и условиями применения методов. Хотя есть врачи, очень грамотные в статистике. Так что авторитеты не помешают, при желании их можно не заметить.


Вы определенно каких то "сектантских откровений" ищете smile.gif. Кто все эти люди? Имеет значение только конкретный датасет, а его тут на три экрана постов как не было так и нет. (не считать же за него рекламу какой то книжки отсутствующей в свободном доступе?)
DrgLena
Тут пример из Ахим Бююля и линк на файл hkarz.sav
http://www.learnspss.ru/hndbook/glava16/cont9.htm
George
DrgLena, спасибо. Этот текст мне знаком. После того, как я обработал этот массив двумя пакетами и увидел различие в самих оценках, содержании и структуре представленных отчетов, я и решил обратиться за уточнением на Форум. Еще раз спасибо.
George


(не считать же за него рекламу какой то книжки отсутствующей в свободном доступе?)

О какой рекламе идет речь? Вы просили меня назвать авторов, которых я считаю авторитетами. Я назвал некоторых. Я не знаю, есть ли они сегодня в продаже, приобрел их много лет назад и пользуюсь до сих пор. Если эти имена ничего не говорят или источники недоступны - почитайте В.Власова, А. Гржибовского, К. Воробьева. Там хорошо показано, как распространено сегодня манипулирование методами и передергивание результатов. Некоторые это делают умышленно корысти ради. Некоторые - от недостатка опыта или знаний. Вот в последнем случае и полезно обращаться к авторитетным источникам. Если для кого - то таких нет, то это интересный случай и, возможно, заслуживает специального исследования. Всего доброго, спасибо за участие в дискуссии.
p2004r
Цитата(George @ 29.03.2016 - 21:22) *
(не считать же за него рекламу какой то книжки отсутствующей в свободном доступе?)

О какой рекламе идет речь? Вы просили меня назвать авторов, которых я считаю авторитетами. Я назвал некоторых. Я не знаю, есть ли они сегодня в продаже, приобрел их много лет назад и пользуюсь до сих пор. Если эти имена ничего не говорят или источники недоступны - почитайте В.Власова, А. Гржибовского, К. Воробьева. Там хорошо показано, как распространено сегодня манипулирование методами и передергивание результатов. Некоторые это делают умышленно корысти ради. Некоторые - от недостатка опыта или знаний. Вот в последнем случае и полезно обращаться к авторитетным источникам. Если для кого - то таких нет, то это интересный случай и, возможно, заслуживает специального исследования. Всего доброго, спасибо за участие в дискуссии.


Еще раз никаких "авторитетных источников" кроме алгоритма самого метода в математике нет. Очень странно видеть противоположную позицию. Это всего навсего логистическая регрессия, а не доказательство какой то великой теоремы которое в состоянии прочесть несколько специалистов в мире.

Вот так вот бездумно ссылаясь "на источники" в основном все ошибки описанные Вами и совершают при обработке данных. "По образцу" литературного текста "авторитетного источника" применять статметод нельзя, надо понимать самому что происходит, или пригласить специалиста который понимает используемый метод и его область применения.

Понимание из "литературного" текста не возникает никогда, и не переносимо никуда. Источником знания могут только быть алгебраические выкладки или эквивалентные им геометрические построения. И примеры тут только начало работы. Все случаи примерами покрыть нельзя.

Провел поиск по фамилиям smile.gif Теперь понимаю smile.gif Только это и есть самая обычная (ну ладно, пусть косвенная) реклама чьих то услуг по статобработке. Увольте от таких "источников" smile.gif.
p2004r
Цитата(DrgLena @ 29.03.2016 - 11:26) *
Тут пример из Ахим Бююля и линк на файл hkarz.sav
http://www.learnspss.ru/hndbook/glava16/cont9.htm


Спасибо!
George
Уважаемый р2004г, предлагаю закончить спор. Думаю, мы оба в чем-то правы. Абсолютно с Вами согласен, надо понимать самому, что происходит. Для этого полезно читать книжки, где описаны методы и примеры их реализации, вникать в отчеты статпакетов, кое-что проверить ручками (при разумных затратах труда). И посещать форумы. Чем я с интересом и занимаюсь. Может быть Вы ответите на вопрос - как трактовать ОШ, выдаваемое в логистической регрессии пакетом STATI STICA для оценки В0 ? Шансы кого и кого соотносятся? Спасибо.

p2004r
Цитата(George @ 31.03.2016 - 16:35) *
Уважаемый р2004г, предлагаю закончить спор. Думаю, мы оба в чем-то правы. Абсолютно с Вами согласен, надо понимать самому, что происходит. Для этого полезно читать книжки, где описаны методы и примеры их реализации, вникать в отчеты статпакетов, кое-что проверить ручками (при разумных затратах труда). И посещать форумы. Чем я с интересом и занимаюсь. Может быть Вы ответите на вопрос - как трактовать ОШ, выдаваемое в логистической регрессии пакетом STATI STICA для оценки В0 ? Шансы кого и кого соотносятся? Спасибо.


Я просто хотел сказать, что математика это немного особенная наука, и в ней "королевской дороги нет"ТМ. А "авторитетов" в ней обычно просят выйти к доске и показать что они конкретно имели в виду высказывая авторитетное мнение. Ссылаются (вернее подставляют в свои выкладки) на доказательства, а не их авторов.

Начнем под девизом: "Но наш турист не так то прост! Он гиду задавал вопрос..." (С)

Уже тот факт что у Вас получается сформулировать на естественном языке вот такой вопрос собственно показывает всё и полностью о месте естественного языка в области статистики. Как и попыток эффективно применить школьную алгебру авторов пакетов smile.gif

Свободный член в регресионном уравнении отражает простой факт связанный с тем, что произвольную прямую на плоскости надо задавать минимум двумя параметрами smile.gif. А логистическая регрессия это обычная линейная регрессия которой добавили нелинейную link function. Так что свободный член показывает значение log-odds когда все предикторы равны 0.

Что такое odds ratio для свободного члена. Дело в том, что мы можем задать уравнение из одного интерцепта состоящее. Ну и понятно получим вероятность того что зависимая величина в нашей выборке равна 1.

Но если мы считаем более сложную модель с интерцептом, то никакой разумной интерпретации ОШ для него не существует. В чем проблема?

Очень просто в тупом алгебраическом подходе. Дело в том, что с точки зрения предметной области ОШ рассчитывается из таблицы исходов. А она не позволяет, причем принципиально дать для модели с интерцептом и одним предиктором значения ОШ для интерцепта отличное от значения которое получено для модели состоящей из одного свободного члена. Ну нету там чего к чему относить. smile.gif
DrgLena
Соглашусь с автором поста, что приведенные источники ( А. Афифи, С. Эйзен, Н.Дрейпер, Г. Смит, Дж. Флейс ) весьма авторитетные, не припомню только чтобы в них в них было описание логистической регрессии.
Свободный член во многих программах по логистической регрессии называется просто intercept, как в STATA, например.
Коэффициенты, которые выдают все программы представляют собой натуральный логарифм odds, и естественно, что exp(b) и будет шанс. Exp(b0) в случае одного бинарного предиктора для того же примера =0,238 , отсюда вероятность быть здоровым при нулевом значении предиктора =1/(1+0,238)=0,192. Тут все легко и просто, из таблицы 2х2 тот же результат.
Если предиктор количественный, то exp(b0) означает шанс для того же примера быть здоровым при гипотетически нулевом значении флюоресценции, хотя такого значения вовсе нет в датасете. Но, это не ОШ.
Можно почитать
http://www.ats.ucla.edu/stat/mult_pkg/faq/.../odds_ratio.htm
Но p2004r легко и главное с улыбкой ответил на вопрос smile.gif
George
Большое спасибо! Два прекрасных ответа, сказано красиво и доходчиво. Как видно из моих предыдущих сообщений, я довольно близко был в своих предположениях относительно свободного члена, извините, intercepta. Рад, что общение на Форуме оказалось не только полезным, но и приятным. Всего доброго!
Для просмотра полной версии этой страницы, пожалуйста, пройдите по ссылке.
Форум IP.Board © 2001-2025 IPS, Inc.