Нелинейная регрессия |
Здравствуйте, гость ( Вход | Регистрация )
Нелинейная регрессия |
3.12.2010 - 17:49
Сообщение
#61
|
|
Группа: Пользователи Сообщений: 1325 Регистрация: 27.11.2007 Пользователь №: 4573 |
Statistica 6 в модуле Nonlinear Estimation в разделе User-specified regression, least squares выдает некую Proportion of variance accounted for, а R^2 нет. Это и есть коэффициент детерминации. И если параметры модели в ручном и машинном расчете совпадают, то и R^2 должно совпасть. |
|
4.12.2010 - 02:28
Сообщение
#62
|
|
Группа: Пользователи Сообщений: 244 Регистрация: 28.08.2009 Пользователь №: 6286 |
Это и есть коэффициент детерминации. И если параметры модели в ручном и машинном расчете совпадают, то и R^2 должно совпасть. Нелинейное оценивание - это итерационные процедуры, в ручную посчитать коэффициенты не получится. Думал, что может это скорректированный коэффициент детерминации - тоже не сходится. DrgLena, если есть у Вас время, посчитайте, какой R-квадрат выдает Statistica (девятка) методом Маркуардта вот по этим, например, данным. Уравнение Y=exp(b0-(b1/X)). Сообщение отредактировал Pinus - 4.12.2010 - 02:30
Прикрепленные файлы
|
|
4.12.2010 - 02:50
Сообщение
#63
|
|
Группа: Пользователи Сообщений: 244 Регистрация: 28.08.2009 Пользователь №: 6286 |
|
|
4.12.2010 - 17:54
Сообщение
#64
|
|
Группа: Пользователи Сообщений: 1013 Регистрация: 4.10.2006 Пользователь №: 1933 |
И мне так показалось. Вне зависимости от модели всегда можно оценить полную дисперсию (SST), долю дисперсии приходящуюся на остатки (SSE), и долю дисперсии относительно регрессионной модели (SSR=SST-SSE). Отношение SSR/SST - объясненная доля дисперсии в регрессионной модели. Эта доля эквивалентна R-квадрат. Даже если распределение зависимой переменной не является нормальным, это отношение помогает оценить насколько хорошо подобранная модель согласуется с исходными данными. И как у Вас получится сумма квадратов (SST) при оценке методом максимального правдоподобия? (итерационном, на нелинейной модели). Если нет аналитического решения (OLS), то и все оценки приблизительные, разные методы дают разные результаты. |
|
4.12.2010 - 18:58
Сообщение
#65
|
|
Группа: Пользователи Сообщений: 1325 Регистрация: 27.11.2007 Пользователь №: 4573 |
В данном примере коэффициенты МНК совпадают с полученными квази-ньютоновским (могу привести, но таблицы не удобно приводить), а значит совпадет и сумма квадратов отклонения от регрессии. Если выставить Loss: (OBS-PRED)**2 , то сразу ее и получите 658,6613. Другие методы оценки (1,5,7 в списке выбора) сочетают квази-ньютоновский с другими и дают для этого примера те же коэффициенты, в основе методов ? приближенное вычисление второй производной функции потерь), другие методы дадут незначительные различия, но в третьем знаке после запятой, что приведет к некоторому повышению выбранной функции потерь в четвертом знаке после запятой. Поэтому квази-ньютон более предпочтителен для данной модели.
Коэффициент детерминации по программе Statistica 85,84% (в том числе и по Маркуардту), ручной расчет основан на предыдущем моем сообщении с которым плав, очевидно не согласен: R^2=1-658,6613/4651,915=0,858411 Ничто не мешает посчитать SST (4651,915), для этого вообще модель не нужна, а только среднее значение Y. И посчитанная сумма квадратов отклонений от своего собственного среднего естественно совпадает с SST, которая выдается при создании линейной модели. У Афифи (стр. 210)сказано, что мерой качества подгонки нелинейных моделей является сумма квадратов отклонений от регрессии S (что и выводит программа), а величину s^2=S/n-m иногда называют среднеквадратической ошибкой. s^2=658,6613/58 Я думаю, что ничего больше и не нужно считать. Но картинку можно нарисовать, и еще показать, что коэффициент детерминации линейной модели ниже. Могу ошибаться, поскольку чувствую, что нахожусь под влиянием линейных моделей и программы Statistica. Интересно, а каков коэффициент детерминации для этого примера в других программах? |
|
4.12.2010 - 20:40
Сообщение
#66
|
|
Группа: Пользователи Сообщений: 1114 Регистрация: 10.04.2007 Пользователь №: 4040 |
Уравнение Y=exp(b0-(b1/X)). Интересно, а каков коэффициент детерминации для этого примера в других программах? Такой же. Прилагаю результаты, полученные для данных и уравнения Pinus методом "Пользовательская функция" модуля "Аппроксимация зависимостей и регрессионный анализ" программы AtteStat. Теория и подробный пример использования метода имеются в Справочной системе модуля. В примере не показано - начальные значения коэффициентов модели взяты нулевыми. Если минимизируемый функционал тот же самый (в данном случае МНК), то любой метод оптимизации (если он сойдется) даст аналогичный результат. Сообщение отредактировал Игорь - 4.12.2010 - 21:05
Прикрепленные файлы
Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!
|
|
4.12.2010 - 22:12
Сообщение
#67
|
|
Группа: Пользователи Сообщений: 1325 Регистрация: 27.11.2007 Пользователь №: 4573 |
|
|
5.12.2010 - 08:31
Сообщение
#68
|
|
Группа: Пользователи Сообщений: 244 Регистрация: 28.08.2009 Пользователь №: 6286 |
Авторы книги (Ферстер, Ренц) приводят две формулы для R-квадрат: формула (3.6) на с. 102 и формула (3.11) на с. 104 (см. вырезку из книги). Если в формулу (3.11) подставить выражение (3.10), то получится формула, которую привела DrgLena: R^2=1-(SSE/SST). Эти же формулы авторы приводят для нелинейных регрессий (и корреляций) на с. 155-156.
Так вот, если считать R-квадрат для предложенного примера при линейной форме модели Y=b0+b1*X по формуле (3.6) и по формуле (3.11)+(3.10), то результаты совпадают: (3.6) R^2=3928,13765/4651,915254=0,844413 (3.11)+(3.10) R^2=1-(723,77645/4651,915254)=0,844413 (то же и в Statistica 6). Если же считать (на том же листе с формулами в Excel) для нелинейной модели Y=exp(b0-(b1/X)), то (3.6) R^2=3938,325052/4651,915254=0,846603 (3.11)+(3.10) R^2=1-(658,66134/4651,915254)=0,858411. Statistica 6 здесь выдает 0,858411. С формулой (3.6) для нелинейных моделей что ли какая-то заковыка? Только в чем она, никак не пойму.
Прикрепленные файлы
|
|
5.12.2010 - 13:33
Сообщение
#69
|
|
Группа: Пользователи Сообщений: 1325 Регистрация: 27.11.2007 Пользователь №: 4573 |
В том, что 3938,337+658,66=4596,997 , а не равно 4651,915
Читаем плава или плаваем дальше? |
|
5.12.2010 - 16:32
Сообщение
#70
|
|
Группа: Пользователи Сообщений: 244 Регистрация: 28.08.2009 Пользователь №: 6286 |
В том, что 3938,337+658,66=4596,997 , а не равно 4651,915 Читаем плава или плаваем дальше? А Вы не спешите с выводами. Посчитайте в Excel в выражении SST=SSR+SSE каждое слагаемое отдельно (через наблюдаемые и предсказанные значения Y) и увидите, что для рассматриваемой и подобных ей моделей SSR=CУММ[Y(pred)-Y(mean)]^2 не равно SSR=SST-SSE. Почему, я не знаю. Сообщение отредактировал Pinus - 9.12.2010 - 15:26 |
|
5.12.2010 - 16:41
Сообщение
#71
|
|
Группа: Пользователи Сообщений: 1114 Регистрация: 10.04.2007 Пользователь №: 4040 |
Исправлена неточность в AtteStat - неверно брались t-статистики для коэффициентов (сейчас совпадает с примером из другой программы). Также добавлен вывод некоторых параметров расчета.
Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!
|
|
5.12.2010 - 16:49
Сообщение
#72
|
|
Группа: Пользователи Сообщений: 1325 Регистрация: 27.11.2007 Пользователь №: 4573 |
pinus, Вы просили меня посчитать в статистике коэфициент детерминации, я посчитала и выложила результат и очень обрадовалась, что и Attestat дал тот же коэффициент и благодаря этому AtteStat скорректировал неточности. А в ответ - я резкая дама. При этом потратила день для того чтобы сумма долей дисперсии дали SST. Я считала их не в экселе, а в статистике, которая сохраняет предсказанные значения и остатки в виде переменных в том же файле, и получила те же доли,которые вы привели, значит две программы суммируют с складывают верно. Какой же вывод?
Сообщение отредактировал DrgLena - 5.12.2010 - 16:52 |
|
5.12.2010 - 17:25
Сообщение
#73
|
|
Группа: Пользователи Сообщений: 244 Регистрация: 28.08.2009 Пользователь №: 6286 |
... и получила те же доли, которые вы привели, ... SSR не совпадает. У Вас она 3993,2537 (SST минус SSE), а если считать как сумму квадратов отклонений предсказанных значений от среднего (как следует из определения SSR), то будет 3938,3251. Вот и выходит, что значение R-квадрат будет отличаться. DrgLena, я Вам очень благодарен за помощь, но все ж таки для нелинейных моделей есть какая-то проблема с SSR, что я и предлагаю выяснить (если конечно Вам и другим участникам дискуссии это интересно). |
|
5.12.2010 - 18:13
Сообщение
#74
|
|
Группа: Пользователи Сообщений: 244 Регистрация: 28.08.2009 Пользователь №: 6286 |
Еще раз посмотрел ссылку, которую привел Плав.
Следует, что не во всех случаях SST=SSR+SSE (для меня это новость). Значит выходит, что не всегда R^2=1-(SSE/SST)=SSR/SST. Вот в чем причина. Поэтому формула (3.6) у Ферстера, Ренца для нелинейных регрессий и не работает (хотя они ее предлагают). Так что выходит, что Плав был прав. Сообщение отредактировал Pinus - 5.12.2010 - 18:14 |
|
5.12.2010 - 18:26
Сообщение
#75
|
|
Группа: Пользователи Сообщений: 1325 Регистрация: 27.11.2007 Пользователь №: 4573 |
Так и я вам именно это пытаюсь объяснить, поскольку, 3938,337 - это моя расчетная по регрессии SSR.
Сообщение отредактировал DrgLena - 5.12.2010 - 18:29 |
|