![]() |
Здравствуйте, гость ( Вход | Регистрация )
![]() |
![]()
Сообщение
#1
|
|
Группа: Пользователи Сообщений: 12 Регистрация: 21.08.2016 Пользователь №: 28570 ![]() |
Подскажите, пожалуйста, как интерпретировать случаи, если бинарная логистическая регрессия дала значимые результаты:
хи квадрат значим, независимые переменные значимы, общее число корректно предсказанных случаев по модели более 70, а правильно предсказанных более 50,% но доля объясненной дисперсии (R2 Наделькеркеса) - менее 0,500. Модель работает? какой из показателей (% предсказанных или дисперсия более важный?) Правильно ли я понимаю, что даже, если R2 менее 0,5, это значит, что по модели прогнозирование лучше, чем наугад. в сообщениях ниже вопрос был отредактирован |
|
![]() |
![]() |
![]() |
![]()
Сообщение
#2
|
|
Группа: Пользователи Сообщений: 12 Регистрация: 21.08.2016 Пользователь №: 28570 ![]() |
Благодаря замечаниям и советам форумчан медленно, но верно продвигаюсь.
Внесу коррективы в поставленный вопрос: Спасибо всем за терпение к моим ошибкам. Обнаружила в учебнике Орловой И.В. и др. Многомерный статистический анализ в экономических задачах: компьютерное моделирование в SPSS .2009. указание на то, что R2 - редко используется для анализа моделей, поэтому автор не останавливается на подробном описании его возможных вариаций. так ли это? если у кого-то есть ссылка на какой-либо источник по этому поводу буду признательна. [attachment=1381:характер..._кривыми.doc] в прикрепленном файле характеристики трех моделей и ROC-кривые (уже исправленные). Можно ли с учетом представленных данных в файле сделать заключение и каким оно будет? Сообщение отредактировал marchanka - 27.08.2016 - 17:06 |
|
![]() |
![]() |
![]()
Сообщение
#3
|
|
![]() Группа: Пользователи Сообщений: 1091 Регистрация: 26.08.2010 Пользователь №: 22699 ![]() |
Благодаря замечаниям и советам форумчан медленно, но верно продвигаюсь. Внесу коррективы в поставленный вопрос: Спасибо всем за терпение к моим ошибкам. Обнаружила в учебнике Орловой И.В. и др. Многомерный статистический анализ в экономических задачах: компьютерное моделирование в SPSS .2009. указание на то, что R2 - редко используется для анализа моделей, поэтому автор не останавливается на подробном описании его возможных вариаций. так ли это? если у кого-то есть ссылка на какой-либо источник по этому поводу буду признательна. [attachment=1381:характер..._кривыми.doc] в прикрепленном файле характеристики трех моделей и ROC-кривые (уже исправленные). Можно ли с учетом представленных данных в файле сделать заключение и каким оно будет? прикреплю ссылку на автореферат, где представлены данные лог.регрессии. мне его выдали для ориентировки. Корректны ли здесь представления моделей и их интерпретация? 0. Никогда не провоцируйте обсуждение на форумах не своих результатов без явного согласия их авторов. 1. Вы не внимательно читаете что Вам советуют (в данном случае я ![]() И R^2 и тем более ROC прекрасные критерии оценки _качества_ модели, которая _интерполирует_ данные эксперимента-наблюдения. Но все эти критерии (и даже попытки в них вносить поправки), и даже Информационные критерии откровенно слабо позволяют оценить _экстраполяционные_ возможности модели (то есть возможность _точно_ предсказывать для не участвовавших в обучении случаев). Если модель не состоятельна в смысле экстраполяции это называют "переобучение"-"оверфитинг-переподгонка". В этом случае трактовать смысл коэффициентов модели любого вида становиться так же продуктивно, как трактовать смысл коэффициентов полинома наилучшим образом описывающего анализируемый набор данных. По этому еще раз --- кроссвалидация позволяет получить модель любого вида без переобучения имеющее оптимальное качество по любому выбранному параметру (Хоть AUC, хоть R^2, хоть ....). Достигнутое качество (фактически его распределение) модели для данной структуры модели и является значимым. Естественно есть масса процедур построенных "вокруг кроссвалидации", которые "ищут" эту самую оптимальную структуру модели + значимость предикторов для данной независимой величины. Сообщение отредактировал p2004r - 27.08.2016 - 18:02 ![]() |
|
![]() |
![]() |
![]() ![]()
Сообщение
#4
|
|
Группа: Пользователи Сообщений: 12 Регистрация: 21.08.2016 Пользователь №: 28570 ![]() |
0. Никогда не провоцируйте обсуждение на форумах не своих результатов без явного согласия их авторов. 1. Вы не внимательно читаете что Вам советуют (в данном случае я ![]() И R^2 и тем более ROC прекрасные критерии оценки _качества_ модели, которая _интерполирует_ данные эксперимента-наблюдения. Но все эти критерии (и даже попытки в них вносить поправки), и даже Информационные критерии откровенно слабо позволяют оценить _экстраполяционные_ возможности модели (то есть возможность _точно_ предсказывать для не участвовавших в обучении случаев). Если модель не состоятельна в смысле экстраполяции это называют "переобучение"-"оверфитинг-переподгонка". В этом случае трактовать смысл коэффициентов модели любого вида становиться так же продуктивно, как трактовать смысл коэффициентов полинома наилучшим образом описывающего анализируемый набор данных. По этому еще раз --- кроссвалидация позволяет получить модель любого вида без переобучения имеющее оптимальное качество по любому выбранному параметру (Хоть AUC, хоть R^2, хоть ....). Достигнутое качество (фактически его распределение) модели для данной структуры модели и является значимым. Естественно есть масса процедур построенных "вокруг кроссвалидации", которые "ищут" эту самую оптимальную структуру модели + значимость предикторов для данной независимой величины. Спасибо за замечание - удалила ссылку. Возможно, я не всегда могу точно выразить свои мысли и, к сожалению, не всегда могу до конца осмыслить ваши советы. Я понимаю, что характеристики модели и ее прогностические показатели - это разные аспекты. и в данном случае я не претендую на выявление собственно прогностического потенциала. я пытаюсь разобраться, можно ли говорить о достоверности моделей для изученной выборки. |
|
![]() |
![]() |
![]()
Сообщение
#5
|
|
![]() Группа: Пользователи Сообщений: 1091 Регистрация: 26.08.2010 Пользователь №: 22699 ![]() |
Спасибо за замечание - удалила ссылку. Возможно, я не всегда могу точно выразить свои мысли и, к сожалению, не всегда могу до конца осмыслить ваши советы. Я понимаю, что характеристики модели и ее прогностические показатели - это разные аспекты. и в данном случае я не претендую на выявление собственно прогностического потенциала. я пытаюсь разобраться, можно ли говорить о достоверности моделей для изученной выборки. Прогностический потенциал неотделим от возможности интерпретации "вкладов в модель" предикторов. Переобученная модель может идеально пройти через все точки на которых обучалась, но не отражать _ничего_ (просто ввиду очень большой размерности пространства в котором построена модель). Что бы Вам было легче понять, представим более простое условие к оценкам качества моделей. Для этого примем, что мы не "экономим" на количестве доступных данных -- тогда все оценки AUC, R^2 и других метрик качества модели надо вести не на выборке использованной "для обучения модели", а на специально (иногда рандомизированно, иногда имитирующей "генсовокупность" для которой готовиться наша модель) сформированной "тестовой выборке". Данные из "тестовой выборки" не должны никаким образом использоваться при "обучении модели". Собственно кроссвалидация этот подход просто обобщает -- учим на одной выборке, качество оцениваем на второй выборке. ![]() |
|
![]() |
![]() |
![]() ![]() |