Zero-truncated Poisson regression - Форум врачей-аспирантов

Zero-truncated Poisson regression

ИНО Просмотр профиля	6.11.2022 - 08:07 Сообщение #1
Группа: Пользователи Сообщений: 290 Регистрация: 1.06.2022 Из: Донецк Пользователь №: 39632	Широко используется буржуями для предсказания счетной зависимой переменной, если она в силу дизайна эксперимента не может принимать нулевое значение (ну, например количество прыщей посчитали только на тех больных, которые обратились с жалобами на прыщи). Интерпретация параметров таких моделей заковыриста: https://stats.stackexchange.com/questions/4...ts?noredirect=1 Вопрос: а почему с аналогичной целью нельзя применить обычную регрессию Пуассона, просто предварительно вычтя из всех значений зависимой переменной единицу? Пусть такая модель предсказывает не общее количество счетных единиц, а количество единиц, добавленных к одной обязательно имеющейся. Потом, если надо, добавляем к предсказанной величине единичку, и дело в шляпе! Но, судя по тому, как извращается народ именно с Zero-truncated Poisson regression, и ищет ее программные реализации, очевидно, предложенный мною альтернативный подход неправомерен. Но сколько я не ломал голову, так и не понял, почему. Прошу более головастых подсказать. И вдогонку еще один маленький вопросик: а как сабж будет грамотно обозвать по-русски? Регрессия Пуассона с усеченным нулем?

Ответов

ИНО Просмотр профиля	15.11.2022 - 09:07 Сообщение #2
Группа: Пользователи Сообщений: 290 Регистрация: 1.06.2022 Из: Донецк Пользователь №: 39632	Что такое "школьная математика" я не в курсе, равно как и о причине Вашего уничижительного отношения к алгебре. Цитата Вот и укажите вероятность появления суммы вида 1(константа) + 0 (пуассоновский) =1 Та же, что и вероятность 0 в обычной пуассоновской регрессионной модели, построенной по той же выборке, из каждой варианты которой вычтена 1. Формулой это не напишу, увы. Цитата Нет. Потому что в регрессионной модели константа - это такой же (оцениваемый) регрессионный коэффициент, и так же точно является случайной величиной Может быть оценен, а может быть и взят ~~с неба~~ из теоретических предпосылок, и коэффициенты, кстати, тоже, так что оцениваться будет только ошибка. И это все равно будет статистическая модель. И да тут все ж форум о прикладной статистике, а не о математической (это разные дисциплины, хотя и связанные). О последней пусть д. ф.-м. н. семиэтажными формулами дискутируют, теоретически обосновывая очередной элегантный чудо-метод имени себя (то, что на практике он может толком не работать, потому что "забыли про овраги" - это уже дело десятое ) . Так что объяснение "на пальцах" для простых смертных типа меня всяко приветствуется. Сообщение отредактировал ИНО - 15.11.2022 - 09:09

100$ Просмотр профиля	15.11.2022 - 12:44 Сообщение #3
Группа: Пользователи Сообщений: 902 Регистрация: 23.08.2010 Пользователь №: 22694	Цитата(ИНО @ 15.11.2022 - 09:07) Та же, что и вероятность 0 в обычной пуассоновской регрессионной модели, построенной по той же выборке, из каждой варианты которой вычтена 1. Формулой это не напишу, увы. Ну, если на пальцах, то вы сконструировали некое условное относительно неслучайной величины (единицы) распределение и утверждаете, что в нем условная вероятность равна безусловной. Хотя это ниоткуда не следует. Вот, например, если мы захотим сдвинуть стандартное нормальное распределение, мы же не будем городить такую словесную конструкцию "а вот мы дождемся с вероятностью 1 единицу, а потом посмотрим, как реализуется ст.норм.расп." Мы этот сдвиг просто добавим к параметру распределения. И оно будет симметрично теперь уже относительно 1. Вот бы и с Пуассоном также точно.

ИНО

18.11.2022 - 09:57

Сообщение #4

Группа: Пользователи
Сообщений: 290
Регистрация: 1.06.2022
Из: Донецк
Пользователь №: 39632

Как обычно, я попробовал развеять теоретический сумрак моделированием. Решил: какая из двух моделей будет иметь более точный прогноз на смоделированных данных, той буду пользоваться на практике. Все ж я биолог, а не математик. Но возник конфуз: прогнозы у сабжа и "моего безграмотного ноу-хау" и их ошибки оказались практически неотличимыми. Более того, при лямбда<1 (а это больше похоже на реальные данные) моя модель работает даже чуточку лучше! Хотя возможно тут дело не непосредственно в лямбде, а в том, что мой алгоритм моделирования усекает объемы выборок, сгенерированных при малых лямбда, но тогда это означает, что расово правильная модель хуже моей ведет себя на малых выборках, так что хрен редьки не слаще.

Уменьшение n на описанную картину не влияет (правда, при n меньше 100 и очень малых лямбда, алгоритм сталкивается с невозможностью оценки модели из-за полного отсутствия ненулевых значений и стопорится, так что в этом диапазоне условий исследование провести не удалось. Наверное, по-хорошему надо применять вместо цикла сопли-функции

или как их там, а я в этом не силен. Но для понимания проблемы и имеющееся сойдет.

Итак, прошу указать на мою ошибку, не в теории, которую как тут выяснилось, я постичь не в силах, а именно в моделировании!

Код

# генерация синтетических данных:
lambda<-seq(0.01, 2, 0.01)
simmat<-matrix(NA, 200, 1000)
for(i in 1:200){
lambda_i<-lambda[i]
simmat[i,]<-rpois(1000, lambda_i)}

# предложенная мной раскритикованная выше модель:
prediction<-rep(NA, 200)
MAE<-rep(NA, 200)
for(i in 1:200){
x<-simmat[i,]
df<-as.data.frame(x)
df<-subset(df, x>0)
df$modx<-df$x-1
mod<-glm(modx~1, data=df, family="poisson")
pred<-predict(mod, type="response")+1
prediction[i]<-pred
MAE[i]<-mean(abs(pred-df$x))}

# модель c расово правильно усеченным нулем:
library(VGAM)
prediction2<-rep(NA, 200)
MAE2<-rep(NA, 200)
for(i in 1:200){
x<-simmat[i,]
df<-as.data.frame(x)
df<-subset(df, x>0)
mod<-vglm(x~1, data=df, family="pospoisson")
pred<-predict(mod, type="response")
prediction2[i]<-pred
MAE2[i]<-mean(abs(pred-df$x))}

# пргнозы обеих моделей (моя - красненькая):
plot(lambda, prediction, type="n")
lines(lambda, prediction, col="red")
lines(lambda, prediction2, col="blue")

# средние абсолютные ошибки обеих моделей:
plot(lambda, MAE, type="n")
lines(lambda, MAE, col="red")
lines(lambda, MAE2, col="blue")

# резульаты их сравнения при различных лямбда:
plot(lambda, MAE>MAE2)

Сообщение отредактировал ИНО - 18.11.2022 - 10:49

Эскизы прикрепленных изображений

Ответить с цитированием данного сообщения

Сообщений в этой теме

ИНО Zero-truncated Poisson regression 6.11.2022 - 08:07

Диагностик Цитата(ИНО @ 6.11.2022 - 13:07) как ... 6.11.2022 - 10:40

Игорь По регрессии Пуассона есть хорошая книга. Свободно... 6.11.2022 - 16:55

Игорь Для Пуассона с нулевым усечением можно построить а... 6.11.2022 - 16:59

ИНО Сложность в том, что, вероятно, этот подход неправ... 6.11.2022 - 23:47

Диагностик Цитата(ИНО @ 7.11.2022 - 04:47) важн... 7.11.2022 - 00:50

ИНО Это как бы самоочевидно, что усеченный ноль находи... 7.11.2022 - 01:41

Диагностик Я отвечал на вопрос. Цитата(ИНО @ 6.11.2022 ... 7.11.2022 - 11:00

ИНО Ну и? Каким образом данная Вами цитата о том, что ... 7.11.2022 - 11:04

Диагностик Усеченное до нуля распределение означает что нуль ... 7.11.2022 - 13:17

ИНО Спасибо, кэп! 8.11.2022 - 06:29

Диагностик Чем богат. 8.11.2022 - 15:17

Игорь Хотелось бы высказаться не в ответ, но по теме. У ... 9.11.2022 - 16:49

ИНО Цитата(Игорь @ 9.11.2022 - 16:49) У ... 9.11.2022 - 17:50

Игорь Как-то в библиотеке заказал редкую статью, типа го... 10.11.2022 - 06:34

ИНО Печальный у Вас жизненный опыт, но не стоит обобща... 10.11.2022 - 07:31

100$ Цитата(ИНО @ 6.11.2022 - 08:07) Вопр... 12.11.2022 - 18:04

ИНО Благодарю за первый ответ качественный по существу... 13.11.2022 - 09:55

100$ Цитата(ИНО @ 13.11.2022 - 09:55) ...... 13.11.2022 - 15:27

ИНО Цитата(типа "зуб даю, этот чувак болен прыщам... 14.11.2022 - 00:52

100$ Цитата(ИНО @ 14.11.2022 - 00:52) Ту ... 14.11.2022 - 01:55

ИНО Что-то я Вас с каждым постом все меньше понимаю. З... 14.11.2022 - 10:06

100$ Цитата(ИНО @ 14.11.2022 - 10:06) Что... 14.11.2022 - 12:50

ИНО Что такое "школьная математика" я не в к... 15.11.2022 - 09:07

100$ Цитата(ИНО @ 15.11.2022 - 09:07) Та ... 15.11.2022 - 12:44

ИНО Как обычно, я попробовал развеять теоретический су... 18.11.2022 - 09:57

Диагностик Цитата(ИНО @ 18.11.2022 - 14:57) при... 18.11.2022 - 11:15

ИНО Параметр распределения Пуассона. В моем случае име... 18.11.2022 - 11:35

Диагностик Цитата(ИНО @ 18.11.2022 - 16:35) Пар... 18.11.2022 - 13:25

100$ Наконец-то наш естествоиспытатель сам признался, ч... 18.11.2022 - 16:07

comisora 2 ИНО У меня не хватает компетенции ответить на В... 18.11.2022 - 21:57

comisora 2 ИНО Ещё немного материала. "In this chapt... 19.11.2022 - 13:58

ИНО 100$, я уже видел Ваши 100500 теоретических а... 19.11.2022 - 14:43

ИНО comisоra, в очередной раз спасибо за полезные ссыл... 19.11.2022 - 16:33

Диагностик Цитата(ИНО @ 19.11.2022 - 21:33) мож... 20.11.2022 - 10:33

ИНО Друг с другом. 20.11.2022 - 10:54

Диагностик И какая из них считается правильной? 20.11.2022 - 11:27

ИНО Этот вопрос лучше адресовать $100, поскольку ... 20.11.2022 - 12:07

comisora Цитата(ИНО @ 20.11.2022 - 12:07) Неп... 20.11.2022 - 12:47

ИНО Цитата(comisora @ 20.11.2022 - 12:47... 20.11.2022 - 18:36

comisora Цитата(ИНО @ 20.11.2022 - 18:36) Цел... 20.11.2022 - 22:21

100$ Я на том стою, что базовое распределение Пуассона,... 20.11.2022 - 13:41

ИНО 100$, а как по-вашему получается этот "п... 20.11.2022 - 14:03

100$ Цитата(ИНО @ 20.11.2022 - 14:03) 100... 20.11.2022 - 15:19

ИНО Слышал, что люди применительно к уровню знаний о к... 20.11.2022 - 17:59

100$ А что не так с CWTest()'ом? Там, вроде бы, пер... 20.11.2022 - 21:55

ИНО 100$, А Вы тему просмотрите (благо тут из све... 20.11.2022 - 22:29

comisora Цитата(ИНО @ 20.11.2022 - 22:29) com... 20.11.2022 - 23:53

ИНО Цитата(comisora @ 20.11.2022 - 23:53... 21.11.2022 - 10:42

Диагностик Цитата(ИНО @ 21.11.2022 - 15:42) я и... 21.11.2022 - 11:29

100$ Цитата(ИНО @ 20.11.2022 - 22:29) 100... 21.11.2022 - 00:15

ИНО 100$, с каждым новым постом Вы все менее похо... 21.11.2022 - 10:18

ИНО Для любого в интервале от 0,001 до 2 (на больших н... 21.11.2022 - 12:00

Диагностик Цитата(ИНО @ 21.11.2022 - 17:00) Для... 24.11.2022 - 10:35

ИНО Итак, переходим к собственно регрессии. Пока что п... 21.11.2022 - 16:35

ИНО А вот в p разница существенная: Кодpr1<-rep... 21.11.2022 - 18:27

ИНО За отсутствием альтернативных предложений решил по... 23.11.2022 - 17:36

100$ Поциент скоро без упоминания меня и в сортире упра... 23.11.2022 - 18:23

ИНО Лучше работать над проблемой, пусть даже не всегда... 23.11.2022 - 20:26

Игорь Врачи-аспиранты, для которых создан форум, ознаком... 24.11.2022 - 07:41

ИНО Диагностик, при других лямбдах разница будет замет... 24.11.2022 - 11:55

Диагностик Цитата(ИНО @ 24.11.2022 - 16:55) Обс... 24.11.2022 - 12:20

Диагностик Цитата(ИНО @ 24.11.2022 - 16:55) Иго... 25.11.2022 - 06:38

ИНО Остановиться в развитии - весьма плохое предложени... 25.11.2022 - 11:38

Диагностик Цитата(ИНО @ 25.11.2022 - 16:38) объ... 25.11.2022 - 12:33

Диагностик Цитата(ИНО @ 25.11.2022 - 16:38) Воо... 25.11.2022 - 14:48

100$ Цитата(ИНО @ 25.11.2022 - 11:38) Уве... 25.11.2022 - 17:17

Диагностик Цитата(ИНО @ 25.11.2022 - 16:38) Моя... 26.11.2022 - 13:40

100$ Цитата(Диагностик @ 25.11.2022 - 06... 25.11.2022 - 13:35

Диагностик ЦитатаПрофессор на семинаре замечает, что один из ... 25.11.2022 - 14:06

100$ Дык аб том и речь, Диагностик, что, судя по вашим ... 25.11.2022 - 14:31

Диагностик Цитата(100$ @ 25.11.2022 - 18:3... 25.11.2022 - 14:31

100$ Цитата(Диагностик @ 25.11.2022 - 14... 25.11.2022 - 14:45

Диагностик Цитата(ИНО @ 24.11.2022 - 16:55) что... 26.11.2022 - 07:32

ИНО Специально два дня не читал эту тему (хотя видел, ... 27.11.2022 - 16:37

100$ Цитата(ИНО @ 27.11.2022 - 16:37) Спе... 29.11.2022 - 14:20

Диагностик Топикстартёру мною лично был задан вопрос. Он его ... 30.11.2022 - 10:39

100$ Тут вот еще какая штука выяснилась: на неотрицател... 30.11.2022 - 16:18

Диагностик См. Генераторы дискретно распределенных случайных ... 1.12.2022 - 01:51

Игорь Цитата(Диагностик @ 1.12.2022 - 02:5... 1.12.2022 - 06:43

Игорь Говорил выше, что библиотека примеров для исследов... 4.12.2022 - 11:06

100$ Я продолжу эту тему поиском ответа на основной воп... 4.12.2022 - 15:46

« Предыдущая тема · Медицинская статистика · Следующая тема »