Годовые тренды - Форум врачей-аспирантов

Здравствуйте, гость ( Вход | Регистрация )

Форум врачей-аспирантов » Разделы форума » Медицинская статистика

4 страниц

< 1 2 3 4 >

Годовые тренды

Опции

nokh

27.11.2009 - 23:03

Сообщение #31

Группа: Пользователи
Сообщений: 1202
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704

Цитата(DrgLena @ 28.11.2009 - 00:46)

Регрессионные модели для А я сделала и линейную и Пуассона, могу выложить, сравнить оценки, остатки т.т.д.

Тоже сделал, только что. Описанные выше преимущества корреляции Спирмена для этих данных не работают, т.к. тренды не монотонные и корреляция не равна 1. Пуассоновская регрессия оказалась примитивной - та же линейная OLS, только зависимая переменная предварительно логарифмируется через ln. Пока разбирался нашёл хорошую бесплатную программу, в которой в результате всё и обсчитал. Через х обозначил количество больных заболеванием A, В или С, через АВС их сумму, через у - долю больных (в %) заболеванием A, В или С. Итак для данных Green имеем:
1). Общее количество больных не изменялось статистически значимо за период 2003-2008 гг.
Пуассоновская регрессия ln(ABC)=10,619138-0,002978*Year; Р=0,944.
2). Для всех трёх заболеваний тренды изменения доли больных хорошо описывались обычной пуассоновской регрессией без выраженных изломов. Необходимость разбиения тренда на 2 части для заболеваний А, В и С была незначима (соответственно: Р=0,154, Р=0,588 и Р=0,987).
3). Заболевание А. Пуассоновская регрессия с учётом общего количества больных: ln(у)=202,645592-0,095643*Year. Снижение, тренд статистически значим: Р=0,025446. Среднегодовое процентное изменение (Average Annual Percent Change - AAPC) = -9,1 (95%ДИ: -13,9; -4,1).
4). Заболевание B. Пуассоновская регрессия с учётом общего количества больных: ln(у)=-393,500771+0,201350*Year. Рост, тренд статистически значим: Р=0,019299. AAPC=22,3 (95%ДИ: 10,2; 35,7).
5). Заболевание C. Пуассоновская регрессия с учётом общего количества больных: ln(у)=185,996767-0,087859*Year. Снижение, тренд статистически незначим: Р=0,29222. AAPC = -8,4 (95%ДИ: -20,5; 5,6).
6). Таким образом, наблюдаемые изменения в структуре заболеваемости ABC связаны со снижением доли больных заболеванием А и ростом доли больных B, причём темпы роста доли В в 2,5 раза превышают темпы снижения доли А: величины среднегодового процентного изменения составили соответственно 22,3 (95%ДИ: 10,2; 35,7) и -9,1 (95%ДИ: -13,9; -4,1).

Программу можно скачать здесь: http://srab.cancer.gov/joinpoint/download.html , а почитать про подход с кусочными регрессиями и расчётом по ним AAPC здесь: http://srab.cancer.gov/joinpoint/aapc.html .Преимущество этой программ по сравнению с обычным в эпидемиологии использованием пуассоновской регрессии - возможность учёта размера выборки (колонка Population) при оценках пуассоновской регрессии, т.е. по сути взвешивание каждого наблюдения, а также возможность анализа сложных трендов с изломами и статистическая оценка необходимости введения в модель таких изломов.

Цитата(DrgLena @ 28.11.2009 - 00:46)

Но не совсем понятно, как с трендом по Neumann...

Этот анализ не делал, но подозреваю в чём причина. Тренды становятся заметными и статистически значимыми при переходе от абсолютных частот к относительным. Предоставленные Green цифры нужно предварительно перевести в доли от общего числа заболеваний (раз речь идёт о структуре), а затем преобразовать через натуральный логарифм или лучше через угловые преобразования для долей (например, фи-преобразование у=2*arcsin SQRT(p), где р-доля в долях единицы).

Вроде разобрались. Удивительно сколько цифр можно получить из исходных 18

Сообщение отредактировал nokh - 27.11.2009 - 23:32

Эскизы прикрепленных изображений

Ответить с цитированием данного сообщения

nokh Просмотр профиля	27.11.2009 - 23:10 Сообщение #32
Группа: Пользователи Сообщений: 1202 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704	Цитата(DrgLena @ 28.11.2009 - 01:17) ... Прогноз по временному ряду при различных типах экспоненциального сглаживания для А, различные методы (Linear Trend, Double Smooth, Holt's Linear Trend) дают различные Pseudo R-Squared, Mean Square Error, Intercept (A), Slope (B) и естественно прогноз, на один год вперед соответственно перечисленным методам 33, 39 и 30 случаев. Максимум Pseudo R-Squared и мин ошибки при Forecast Method -Linear Trend. В какой программе Вы считали этими методами?

DrgLena Просмотр профиля	28.11.2009 - 00:03 Сообщение #33
Группа: Пользователи Сообщений: 1325 Регистрация: 27.11.2007 Пользователь №: 4573	Пуассонову регрессию я провела в двух программах и получила одинаковые результаты, коэффициенты несколько отличаются от ваших, у меня ln(y)=215,603-0,10554year в Statistica 8 и в NCSS. Точность коэффициентов сильно влияют на точность расчетных значений и естественно на остатки. Временные ряды тоже в NCSS. Заболевания С по моему не было, это была сумма всех. Доля от всех заболеваний мне кажется не интересной, поскольку нет здоровых, то тренд по каждому заболеванию вполне достаточен. Для меня не ясно, на каком основании сделано предположение о распределении Пуассона, как это проверить, для проверки нормальности в программе AttеStat 16 критериев, ни один не отрицает нормальность, но помним, что только 6 точек. Сообщение отредактировал DrgLena* - 28.11.2009 - 00:04

nokh Просмотр профиля	28.11.2009 - 00:27 Сообщение #34
Группа: Пользователи Сообщений: 1202 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704	Коэффициенты потому и отличаются, что я анализировал проценты, а Вы - абсолютные частоты. Если бы речь шла об отдельных заболеваниях, тогда переходить к %, конечно, не имеет смысла; прогноз также нужно делать по абсолютным частотам. Но в начале темы речь шла о СТРУКТУРЕ заболеваемости, а структура подразумевает СООТНОШЕНИЯ между переменными - потому работал с %. Также в начале темы речь шла о 3 заболеваниях и их сумме, но Green выложила цифры только по двум и общее число. Поэтому заболевание C "додумал" как разность между общим и суммой А+В. Распределение Пуассона можно предполагать на основании типа самих данных: это счёт в единицу времени (равно как радиоактивный распад, как число телефонных звонков за период, как кол-во мутаций на поколение, а также близко к количеству изюминок на кусок булки, число плодовых деревьев на село и т.п.). Сообщение отредактировал nokh - 28.11.2009 - 00:43

DrgLena Просмотр профиля	28.11.2009 - 00:44 Сообщение #35
Группа: Пользователи Сообщений: 1325 Регистрация: 27.11.2007 Пользователь №: 4573	Nokh, спасибо, стало понятней, но все же, на бытовом уровне представление есть, арифметики не хватает.

nokh Просмотр профиля	28.11.2009 - 01:06 Сообщение #36
Группа: Пользователи Сообщений: 1202 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704	Так Вы - врач, я - эколог, откуда браться арифметике? С другой стороны наслышан о сложностях прикладного анализа данных, выполненного с привлечением профессиональных математиков: их не понимают ни аспиранты, ни члены совета (подозреваю, что могут не понимать и просто другие профессиональные математики). Поэтому кое-где и бытового уровня вполне хватает - коллеги и редакции ведь понимают.

DrgLena Просмотр профиля	28.11.2009 - 01:24 Сообщение #37
Группа: Пользователи Сообщений: 1325 Регистрация: 27.11.2007 Пользователь №: 4573	Это среди математиков, я врач, а среди врачей - математик. Университет дал основу для самообразования. Системное университетское образование по органической химии. Но в арифметике, я думаю мы разобраться сможем, там ведь с логикой все в порядке.

Green Просмотр профиля	30.11.2009 - 12:10 Сообщение #38
Группа: Пользователи Сообщений: 120 Регистрация: 27.08.2009 Пользователь №: 6284	nokh, LrgLena, DoctorStat - всем спасибо! nokh, я тоже нашла JoinPoint . В принципе annual percent change следует из логлинейной модели. Если он статистически отличен от нуля, то частота возникновения заболеваний увеличивается ( уменьшается). По-моему, это и есть доказательство наличия тренда в анализируемых данных ( которые изменяются во времени). Очень смущало, что мало данных. Но, кстати, в JP используют модели с весами точек. Гетероскедастические ошибки учитывают ( ох ) Еще раз всем спасибо! Это не кованализ :)

Green Просмотр профиля	30.11.2009 - 13:01 Сообщение #39
Группа: Пользователи Сообщений: 120 Регистрация: 27.08.2009 Пользователь №: 6284	DrgLena, число событий в единицу времени (Пуассон) - это составной" признак. В литературе видела, что такие данные относят как к номинальным, так и количественным. Отсюда - сложность анализа и понимания, какими именно критериями можно пользоваться. Это не кованализ :)

Green Просмотр профиля	30.11.2009 - 14:13 Сообщение #40
Группа: Пользователи Сообщений: 120 Регистрация: 27.08.2009 Пользователь №: 6284	nokh, 1. почему вы считали доли для JP? Что страшного работать с этими цифрами напрямую? Во всяком случае авторы JP не разу не говорят о долях. Поясните, почему вы перешли к долям? (по APC результат не будет отличаться, это относительная характеристика). Поэтому интересует "смысловое" обоснование. 2. Я проанализировала также общее кол-во случаев с помощью JP. При отсутствии (jp=0) точек излома, достоверный APC отсутсвует. При этом анализ по возбудителям дает значимые изменения. Отсюда вывод о реструктуризации. Но... ради интереса посмотрите анализ общего кол-ва при jp=1. Я это называю уже "жонглированием". Игры с числами и моделями.... на 6 точках излом достоверный найти... Это не кованализ :)

nokh Просмотр профиля	30.11.2009 - 17:28 Сообщение #41
Группа: Пользователи Сообщений: 1202 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704	Цитата(Green @ 30.11.2009 - 14:10) В принципе annual percent change следует из логлинейной модели. Если он статистически отличен от нуля, то частота возникновения заболеваний увеличивается ( уменьшается). Не верно. Аnnual percent change совсем не обязательно опирается на модель. Например, мы можем вручную рассчитать %-ный прирост в каждый последующий год относительно предыдущего, а затем найти их среднее. Только такой AAPC будет включать ошибку разброса значений относительно тренда. Поэтому можем ввести какой-либо эмпирический метод сглаживания, типа скользящего среднего и считать AAPC по таким сглаженным данным - будет точнее. А можем ввести модель (линейную, логлинейную, пуассоноскую и.т.д. - какая более адекватна для конкретных данных) и считать AAPC по ней - самый сложнй, но и самый надёжный метод сглаживания. Цитата(Green @ 30.11.2009 - 16:13) nokh, 1. почему вы считали доли для JP? Что страшного работать с этими цифрами напрямую? Во всяком случае авторы JP не разу не говорят о долях. Поясните, почему вы перешли к долям? (по APC результат не будет отличаться, это относительная характеристика). Поэтому интересует "смысловое" обоснование. Ваши слова (выделение моё): Цитата(Green @ 20.11.2009 - 19:31) ... Как вариант - показать, что( к примеру) Б1 растет в удельном количестве по сравнению с Б2, который падает, а Б3 не изменился за эти годы. Цитата(Green @ 23.11.2009 - 21:46) ...По графикам видно, что общее количество случаев в году - приблизительно одинаково, однако структура за 6 лет меняется, т.е. кол-во случаев заболевания из-за возбудителя А падает, из-за возбудителя В - растет, два последних - приблизительно на одном уровне. Отсюда я сделал вывод, что вас интересует структура, т.е. относительные изменения. К сожалению не нашёл быстро определения "структуры заболеваемости", но в литературе оно используется как ОТНОСИТЕЛЬНАЯ мера. Если не собственно %, то количество заболеваний на 100 тыс. населения, а это опять же 0,001%. Если обсуждать отдельные заболевания - переходить к % не нужно. Плюсов в переходе к % не вижу, если есть конкретные цифры - лучше работать с ними, т.к. переход к композиционным данным сопровождается потерей информации (знаю как мучаются с ними геологи). Может просто эпидемиологи не всегда имеют raw данные и вынуждены работать с долями и называют это структурой? Можно ли назвать структурой просто количества заболеваний - не знаю, скорее всего - нет: по-моему это будет просто заболеваемость, а не структура заболеваемости. Т.о. смысловое обоснование упирается в смысл терминов. Цитата(Green @ 23.11.2009 - 21:46) 2. ... ради интереса посмотрите анализ общего кол-ва при jp=1. Я это называю уже "жонглированием". Игры с числами и моделями.... на 6 точках излом достоверный найти... А я смотрел, но он был незначим. Так что никакого жонглирования. Перестановочный (Permutation) тест для гипотезы о необходимости введения точки перелома даёт p=0.441. Сообщение отредактировал nokh - 30.11.2009 - 17:29

Green Просмотр профиля	30.11.2009 - 17:57 Сообщение #42
Группа: Пользователи Сообщений: 120 Регистрация: 27.08.2009 Пользователь №: 6284	nokh, в пакете JP я выставила модель "using Count" для оценки трендов общего кол-ва заболеваний. На модели с одной точкой перелома оценки тренда 2006 -7.16* -9.74 -4.51 2008 12.52* 6.51 18.87 т.е. сначала значимое убывание, потом значимое возрастание. Это меня насторожило. Не сообразила, что еще модели сравниваются между собой. ушла учить мат. часть дальше Остальное понятно. Мои слова были сказаны, когда я искала подходящие модели. Спасибо еще раз! Это не кованализ :)

Green Просмотр профиля	1.12.2009 - 21:20 Сообщение #43
Группа: Пользователи Сообщений: 120 Регистрация: 27.08.2009 Пользователь №: 6284	nokh, я еще поспрашиваю. В дополнение к предыдущему посту. Модели с разным кол-вом изломов сравниваются между собой с помощью permutation test. Между моделью с JP=0 и JP=1 значимой разницы нет, получается так? Отсюда "странный" вывод, что сказать "С 2003 по 2008 значимого тренда нет" и "С 2003 по 2006 было значимое снижение заболеваемости, а с 2006 по 2008 был значимый рост" - одно и тоже? Что на самом деле выявляет permutation test? Это не кованализ :)

nokh Просмотр профиля	2.12.2009 - 18:43 Сообщение #44
Группа: Пользователи Сообщений: 1202 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704	Цитата(Green @ 1.12.2009 - 23:20) ...Между моделью с JP=0 и JP=1 значимой разницы нет, получается так? Не так. Если прочитаете внимательно, то увидите, что тестируется не равенство моделей, а нулевая гипотеза JP=0 против альтернативной JP=1. Поскольку оснований для отклонения нулевой гипотезы нет (P>>0.05) - она остаётся в силе, т.е. JP=0. Цитата(Green @ 1.12.2009 - 23:20) Что на самом деле выявляет permutation test? Точного определения не дам, расскажу как понимаю сам, хотя в деталях могу ошибаться. Перестановочные или точные методы относятся к группе ресэмплинг-методов, т.е. методов, где из исходных выборок (sample) генерируются новые повторные выборки (отсюда и resampling). Эти выборки обрабатываются с помощью обычных уместных в данном случае статистик и расчитывается P. Затем генерируются новые выборки, считается статистика, рассчитывается P, и такие циклы многократно повторяются. В результате получается большое количество оценок P и из них находится самая вероятная точечная (например, медиана распределения оценок P), а также можно получить интервальную оценку P. Разные методы отличаются деталями. Если повторные выборки генерируются случайным образом и того же объёма что исходные, а количество выборок задаётся исследователем (например 100, 999, 10 тыс. ...) - имеем бутстреп (bootstrap). Если выборки генерируются удалением из них одного наблюдения - имеем метод складного ножа (jack-knife). Если же из исходных данных генерируются все возможные выборки и обрабатываются во всех возможных комбинациях - имеем перестановочный или точный метод (exact, permutation), т.к. в этом случае возможен точный расчёт Р, а не наибоелее вероятная его оценка. Из всех ресэмплинг-методов точный метод является наиболее вычислительно затратным (иногда недосягаемым для настольных систем) и поэтому требует грамотно написанных алгоритмов. Программы с такими возможностями - продвинутые продукты. Примерно так. Сообщение отредактировал nokh - 2.12.2009 - 19:37

Green Просмотр профиля	2.12.2009 - 21:47 Сообщение #45
Группа: Пользователи Сообщений: 120 Регистрация: 27.08.2009 Пользователь №: 6284	понятно, спасибо! поскольку занималась анализом данных, о таких процедурах представление имею. В machine learning есть понятие cross-validation. Вариантов процедур много, но принцип общий. === По поводу вопроса: "Что на самом деле выявляет permutation test?" В JP-help написано: используется последовательность тестов для определения финальной модели. Каждый из них тестирует нулевую гипотезу H0: k=ka vs альтернативной H1: k=kb. первый этап ka=Kmin vs kb=Kmax. Это понятно. Меня интересовало, что считается? Как оценивается разница в регрессиях? Грубо говоря, есть две линии, прямая и ломаная. Каким-то образом оценивают разницу между ними. Интересовало - каким образом. Полагаю, что Resiudals работают. Возможно, mean function... Permutation tests for joinpoint regression with applications to cancer rates. Kim HJ, Fay MP, Feuer EJ, Midthune DN. По-видимому, в этой работе описано, как это делается, что именно считается. Буду искать P.S. Это уже любопытство. А работа сделана. Всем спасибо! Сообщение отредактировал Green - 2.12.2009 - 21:48 Это не кованализ :)

« Предыдущая тема · Медицинская статистика · Следующая тема »

4 страниц

< 1 2 3 4 >

Режим отображения: Стандартный · Переключить на: Линейный · Переключить на: Древовидный

Подписка на тему · Сообщить другу · Версия для печати · Подписка на этот форум