Форум врачей-аспирантов

Здравствуйте, гость ( Вход | Регистрация )

> Zero-truncated Poisson regression
ИНО
сообщение 6.11.2022 - 08:07
Сообщение #1





Группа: Пользователи
Сообщений: 290
Регистрация: 1.06.2022
Из: Донецк
Пользователь №: 39632



Широко используется буржуями для предсказания счетной зависимой переменной, если она в силу дизайна эксперимента не может принимать нулевое значение (ну, например количество прыщей посчитали только на тех больных, которые обратились с жалобами на прыщи). Интерпретация параметров таких моделей заковыриста: https://stats.stackexchange.com/questions/4...ts?noredirect=1

Вопрос: а почему с аналогичной целью нельзя применить обычную регрессию Пуассона, просто предварительно вычтя из всех значений зависимой переменной единицу? Пусть такая модель предсказывает не общее количество счетных единиц, а количество единиц, добавленных к одной обязательно имеющейся. Потом, если надо, добавляем к предсказанной величине единичку, и дело в шляпе! Но, судя по тому, как извращается народ именно с Zero-truncated Poisson regression, и ищет ее программные реализации, очевидно, предложенный мною альтернативный подход неправомерен. Но сколько я не ломал голову, так и не понял, почему. Прошу более головастых подсказать.

И вдогонку еще один маленький вопросик: а как сабж будет грамотно обозвать по-русски? Регрессия Пуассона с усеченным нулем?
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
 
Открыть тему
Ответов
ИНО
сообщение 20.11.2022 - 12:07
Сообщение #2





Группа: Пользователи
Сообщений: 290
Регистрация: 1.06.2022
Из: Донецк
Пользователь №: 39632



Этот вопрос лучше адресовать $100, поскольку мне , в отличие от него, неведомы критерии истинно правильности моделей. Могу лишь сказать, что по результатам тестирования на синтетических данных у моей модели оказалась чуть ниже ошибка предсказания. Но это очень малое отличие, на практике совершенно несущественное. Непонятно иное: почему вопреки теоретическим соображениям, моя модель не оказалась значительно хуже, чем та, которая, по идее, должна идеально описывать именно то распределение, данные из которого я генерирвал unknw.gif

Сообщение отредактировал ИНО - 20.11.2022 - 12:08
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
comisora
сообщение 20.11.2022 - 12:47
Сообщение #3





Группа: Пользователи
Сообщений: 109
Регистрация: 27.12.2015
Пользователь №: 27815



Цитата(ИНО @ 20.11.2022 - 12:07) *
Непонятно иное: почему вопреки теоретическим соображениям, моя модель не оказалась значительно хуже, чем та, которая, по идее, должна идеально описывать именно то распределение, данные из которого я генерирвал unknw.gif


Код
sim<-rpois(2000, lambda_i)


2 ИНО

Может попробуете погенерировать VGAMdata::rpospois()?

Мне представляется некорректным Ваш подход исходного вычитания единицы в одном случае, так как в другом случае Вы этого не делаете. Считаю, что проверять модели надо в одинаковых условиях, а именно после генерации (два варианта):
1) Без фильтрования нулей добавить ко всему ряду +1;
2) После фильтрации нулей работать с тем, что получилось без добавлений и вычитаний.
Также попробуйте сравнить модели по другим характеристикам (AIC, MSE и т.п.).

Сообщение отредактировал comisora - 20.11.2022 - 12:49
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
ИНО
сообщение 20.11.2022 - 18:36
Сообщение #4





Группа: Пользователи
Сообщений: 290
Регистрация: 1.06.2022
Из: Донецк
Пользователь №: 39632



Цитата(comisora @ 20.11.2022 - 12:47) *
1) Без фильтрования нулей добавить ко всему ряду +1;
2) После фильтрации нулей работать с тем, что получилось без добавлений и вычитаний.

Можно много чего посчитать, но нужно понимание целей процесса. Цель предложенных Вами методов неясна, какие реальные ситуации Вы предлогаете при помощи них смоделировать? Первый предложенный Вами подход как раз и есть генерация shifted Poisson distribution, на статью о которой вы дали ссылку в предыдущем посте. Кстати, я так и не понял, зачем его автор предлагал аж три разных метода генерации и почему не было достаточно просто прибавить или отнять константу, т. е. собственно произвести этот самый shift. Но на практике мне не встречались явления, для которых такое распределение можно было бы допустить в качестве процесса порождения данных. Реальные данные, с которыми я работаю как раз и есть результат "фильтрации нулей", таков естественный процесс их сбора. Именно его я попытался восседать в своем генераторе, приняв допущение о том, что до отбраковки распределение было пуассоновским. И именно это фактически делает ZTP (пусть и немножко иным путем).

Второй подход однозначно исключает обычное распределение Пуассона и связанные с ним регрессионные модели. Т. е. спецификация модели будет сильно неверной, и она будет давать сильно смещенный прогноз. Конечно, можно попробовать ради спортивного интереса, но едва ли взлетит.

Проверил и снова удивился: обычная пуассоновская модель на данных, сгенерированных rpospois(), вопреки теоретическим соображениям показала себя тоже неплохо, только на больших выборках (n=1000) она систематически отстает от остальных двух (моей сдвинутой и расово правильной ZTP), на малых же (n=20) положение трех моделей на пьедестале почета меняется случным образом в зависимости от конкретной выдачи датчика случайных чисел, но моя неправильная лидирует чаще других. В любом случае разница мизерная.

Читал я, что разница между прогнозами обычной модели Пуассона и модели ZTP тем больше, чем меньше лямбда. Мол при больших лямбда можно смело применять обычную пуассоновскую модель, забив на отсутствие нулей, а вот при малых - ни-ни. По теоретическим соображениям логично. Но проверка на синтетических данных показала странное. На приведенных ниже диаграммах попарно сравниваются средние абсолютные ошибки трех моделей: моей сдвинутой (MAE), ZTP (MAE2) и обычной пуассоновской (MAE3). Данные сгенерированы расово правильной функцией rpospois(), n=1000. На удивление обычная пуассоновская модель обошла остальные именно на малых лямбда, где по идее должна быть неприменима от слова "совсем". Но обратите внимание на порядок величин разностей, этот мизер может быть в большей степени связан с программной реализацией, чем реальными свойствами распределений. Графики прогнозов и ошибок практически идентичны, так что не привожу.

Сообщение отредактировал ИНО - 20.11.2022 - 20:01
Эскизы прикрепленных изображений
Прикрепленное изображение
Прикрепленное изображение
Прикрепленное изображение
 
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 

Сообщений в этой теме
- ИНО   Zero-truncated Poisson regression   6.11.2022 - 08:07
- - Диагностик   Цитата(ИНО @ 6.11.2022 - 13:07) как ...   6.11.2022 - 10:40
- - Игорь   По регрессии Пуассона есть хорошая книга. Свободно...   6.11.2022 - 16:55
- - Игорь   Для Пуассона с нулевым усечением можно построить а...   6.11.2022 - 16:59
|- - ИНО   Сложность в том, что, вероятно, этот подход неправ...   6.11.2022 - 23:47
|- - Диагностик   Цитата(ИНО @ 7.11.2022 - 04:47) важн...   7.11.2022 - 00:50
- - ИНО   Это как бы самоочевидно, что усеченный ноль находи...   7.11.2022 - 01:41
- - Диагностик   Я отвечал на вопрос. Цитата(ИНО @ 6.11.2022 ...   7.11.2022 - 11:00
- - ИНО   Ну и? Каким образом данная Вами цитата о том, что ...   7.11.2022 - 11:04
- - Диагностик   Усеченное до нуля распределение означает что нуль ...   7.11.2022 - 13:17
- - ИНО   Спасибо, кэп!   8.11.2022 - 06:29
- - Диагностик   Чем богат.   8.11.2022 - 15:17
- - Игорь   Хотелось бы высказаться не в ответ, но по теме. У ...   9.11.2022 - 16:49
|- - ИНО   Цитата(Игорь @ 9.11.2022 - 16:49) У ...   9.11.2022 - 17:50
- - Игорь   Как-то в библиотеке заказал редкую статью, типа го...   10.11.2022 - 06:34
- - ИНО   Печальный у Вас жизненный опыт, но не стоит обобща...   10.11.2022 - 07:31
- - 100$   Цитата(ИНО @ 6.11.2022 - 08:07) Вопр...   12.11.2022 - 18:04
- - ИНО   Благодарю за первый ответ качественный по существу...   13.11.2022 - 09:55
|- - 100$   Цитата(ИНО @ 13.11.2022 - 09:55) ......   13.11.2022 - 15:27
- - ИНО   Цитата(типа "зуб даю, этот чувак болен прыщам...   14.11.2022 - 00:52
|- - 100$   Цитата(ИНО @ 14.11.2022 - 00:52) Ту ...   14.11.2022 - 01:55
- - ИНО   Что-то я Вас с каждым постом все меньше понимаю. З...   14.11.2022 - 10:06
|- - 100$   Цитата(ИНО @ 14.11.2022 - 10:06) Что...   14.11.2022 - 12:50
- - ИНО   Что такое "школьная математика" я не в к...   15.11.2022 - 09:07
|- - 100$   Цитата(ИНО @ 15.11.2022 - 09:07) Та ...   15.11.2022 - 12:44
|- - ИНО   Как обычно, я попробовал развеять теоретический су...   18.11.2022 - 09:57
- - Диагностик   Цитата(ИНО @ 18.11.2022 - 14:57) при...   18.11.2022 - 11:15
- - ИНО   Параметр распределения Пуассона. В моем случае име...   18.11.2022 - 11:35
|- - Диагностик   Цитата(ИНО @ 18.11.2022 - 16:35) Пар...   18.11.2022 - 13:25
- - 100$   Наконец-то наш естествоиспытатель сам признался, ч...   18.11.2022 - 16:07
- - comisora   2 ИНО У меня не хватает компетенции ответить на В...   18.11.2022 - 21:57
- - comisora   2 ИНО Ещё немного материала. "In this chapt...   19.11.2022 - 13:58
- - ИНО   100$, я уже видел Ваши 100500 теоретических а...   19.11.2022 - 14:43
- - ИНО   comisоra, в очередной раз спасибо за полезные ссыл...   19.11.2022 - 16:33
|- - Диагностик   Цитата(ИНО @ 19.11.2022 - 21:33) мож...   20.11.2022 - 10:33
- - ИНО   Друг с другом.   20.11.2022 - 10:54
|- - Диагностик   И какая из них считается правильной?   20.11.2022 - 11:27
- - ИНО   Этот вопрос лучше адресовать $100, поскольку ...   20.11.2022 - 12:07
|- - comisora   Цитата(ИНО @ 20.11.2022 - 12:07) Неп...   20.11.2022 - 12:47
|- - ИНО   Цитата(comisora @ 20.11.2022 - 12:47...   20.11.2022 - 18:36
|- - comisora   Цитата(ИНО @ 20.11.2022 - 18:36) Цел...   20.11.2022 - 22:21
- - 100$   Я на том стою, что базовое распределение Пуассона,...   20.11.2022 - 13:41
- - ИНО   100$, а как по-вашему получается этот "п...   20.11.2022 - 14:03
|- - 100$   Цитата(ИНО @ 20.11.2022 - 14:03) 100...   20.11.2022 - 15:19
- - ИНО   Слышал, что люди применительно к уровню знаний о к...   20.11.2022 - 17:59
- - 100$   А что не так с CWTest()'ом? Там, вроде бы, пер...   20.11.2022 - 21:55
- - ИНО   100$, А Вы тему просмотрите (благо тут из све...   20.11.2022 - 22:29
|- - comisora   Цитата(ИНО @ 20.11.2022 - 22:29) com...   20.11.2022 - 23:53
||- - ИНО   Цитата(comisora @ 20.11.2022 - 23:53...   21.11.2022 - 10:42
||- - Диагностик   Цитата(ИНО @ 21.11.2022 - 15:42) я и...   21.11.2022 - 11:29
|- - 100$   Цитата(ИНО @ 20.11.2022 - 22:29) 100...   21.11.2022 - 00:15
- - ИНО   100$, с каждым новым постом Вы все менее похо...   21.11.2022 - 10:18
- - ИНО   Для любого в интервале от 0,001 до 2 (на больших н...   21.11.2022 - 12:00
|- - Диагностик   Цитата(ИНО @ 21.11.2022 - 17:00) Для...   24.11.2022 - 10:35
- - ИНО   Итак, переходим к собственно регрессии. Пока что п...   21.11.2022 - 16:35
- - ИНО   А вот в p разница существенная: Кодpr1<-rep...   21.11.2022 - 18:27
- - ИНО   За отсутствием альтернативных предложений решил по...   23.11.2022 - 17:36
|- - 100$   Поциент скоро без упоминания меня и в сортире упра...   23.11.2022 - 18:23
- - ИНО   Лучше работать над проблемой, пусть даже не всегда...   23.11.2022 - 20:26
- - Игорь   Врачи-аспиранты, для которых создан форум, ознаком...   24.11.2022 - 07:41
- - ИНО   Диагностик, при других лямбдах разница будет замет...   24.11.2022 - 11:55
|- - Диагностик   Цитата(ИНО @ 24.11.2022 - 16:55) Обс...   24.11.2022 - 12:20
|- - Диагностик   Цитата(ИНО @ 24.11.2022 - 16:55) Иго...   25.11.2022 - 06:38
||- - ИНО   Остановиться в развитии - весьма плохое предложени...   25.11.2022 - 11:38
|||- - Диагностик   Цитата(ИНО @ 25.11.2022 - 16:38) объ...   25.11.2022 - 12:33
|||- - Диагностик   Цитата(ИНО @ 25.11.2022 - 16:38) Воо...   25.11.2022 - 14:48
|||- - 100$   Цитата(ИНО @ 25.11.2022 - 11:38) Уве...   25.11.2022 - 17:17
|||- - Диагностик   Цитата(ИНО @ 25.11.2022 - 16:38) Моя...   26.11.2022 - 13:40
||- - 100$   Цитата(Диагностик @ 25.11.2022 - 06...   25.11.2022 - 13:35
||- - Диагностик   ЦитатаПрофессор на семинаре замечает, что один из ...   25.11.2022 - 14:06
|||- - 100$   Дык аб том и речь, Диагностик, что, судя по вашим ...   25.11.2022 - 14:31
||- - Диагностик   Цитата(100$ @ 25.11.2022 - 18:3...   25.11.2022 - 14:31
||- - 100$   Цитата(Диагностик @ 25.11.2022 - 14...   25.11.2022 - 14:45
|- - Диагностик   Цитата(ИНО @ 24.11.2022 - 16:55) что...   26.11.2022 - 07:32
- - ИНО   Специально два дня не читал эту тему (хотя видел, ...   27.11.2022 - 16:37
|- - 100$   Цитата(ИНО @ 27.11.2022 - 16:37) Спе...   29.11.2022 - 14:20
- - Диагностик   Топикстартёру мною лично был задан вопрос. Он его ...   30.11.2022 - 10:39
- - 100$   Тут вот еще какая штука выяснилась: на неотрицател...   30.11.2022 - 16:18
- - Диагностик   См. Генераторы дискретно распределенных случайных ...   1.12.2022 - 01:51
|- - Игорь   Цитата(Диагностик @ 1.12.2022 - 02:5...   1.12.2022 - 06:43
- - Игорь   Говорил выше, что библиотека примеров для исследов...   4.12.2022 - 11:06
- - 100$   Я продолжу эту тему поиском ответа на основной воп...   4.12.2022 - 15:46


Добавить ответ в эту темуОткрыть тему