Форум врачей-аспирантов

Здравствуйте, гость ( Вход | Регистрация )

4 страниц V   1 2 3 > »   
Добавить ответ в эту темуОткрыть тему
> Годовые тренды
Green
сообщение 20.11.2009 - 17:31
Сообщение #1





Группа: Пользователи
Сообщений: 120
Регистрация: 27.08.2009
Пользователь №: 6284



День добрый!

Есть таблица

Число случаев
Год показательБ1 показательБ2 показательБ3 Всего(сумма Б1+Б2+Б3)
2000
2001
2002
....


на пересечении стоят целые числа - количество случаев, выявленных за год.

Задача, показать, что есть изменения во временном тренде, т.е. с течением времени.
Как вариант - показать, что( к примеру) Б1 растет в удельном количестве по сравнению с Б2, который падает, а Б3 не изменился за эти годы.

Есть мысль насчет регресии, но....по ней вопросы.
Но если у кого есть опыт, как анализировать эти данные - поделитесь, пожалуйста.

Сообщение отредактировал Green - 20.11.2009 - 17:33


Signature
Это не кованализ :)
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
nokh
сообщение 20.11.2009 - 19:22
Сообщение #2





Группа: Пользователи
Сообщений: 1202
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704



DoctorStat не так давно выкладывал очень хорошую книгу сюда: http://www.onlinedisk.ru/file/205482/
Скачайте, посмотрите критерии на стр. 347-355. Там есть и проверка на тренд и на гнездовой эффект. Правда ряд уж больно у Вас коротенький. Возможно какие-то подходящие и более современные критерии есть в: Кобзарь А. И. Прикладная математическая статистика. Для инженеров и научных работников. - М.: ФИЗМАТЛИТ, 2006. - 816 с. - хороший справочник, нужно иметь.
Если динамика сложная, но разные показатели изменяются по годам согласованно (это позволяет увидеть график сравнительной динамики) - можно посчитать дисперсионный анализ с единственным наблюдением на ячейку комплекса и показать, что какие-то годы выделяются или провести его непараметрический аналог - критерий Фридмана и по его результатам рассчитать конкордацию по Кенделлу. Если согласованность изменения разных показателей будет значима - это автоматически даёт право использовать в качестве интегральных оценок средних рангов и обсуждать их динамику по годам.

Сообщение отредактировал nokh - 20.11.2009 - 19:26
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Green
сообщение 20.11.2009 - 23:34
Сообщение #3





Группа: Пользователи
Сообщений: 120
Регистрация: 27.08.2009
Пользователь №: 6284



nokh,

Во-первых, спасибо за оперативность.
Во-вторых, спасибо за Закса, за наводку на критерий Ноймана.
В-третьих, Ваше последнее предложение "...использовать в качестве интегральных оценок средних рангов и обсуждать их динамику по годам". Не поняла, ЧТО использовать "в качестве интегральных оценок..." ?

=====
Если можно, поделюсь своими мыслями.
> Если динамика сложная
К счастью - не сложная, один из показателей растет из года в год, другой падает, третий стоит.

Частоты событий - предполагаем Пуассоновское распределение.

Year=f(rate1)

Year=год ( в любой календарной шкале)
rate1 = частота показателя Б1/общее кол-во

Предполагая нормальную аппроксимацию Пуассона, получаем уравнение регрессии, оценку slope. Положительна (и значима) - положительный тренд в годах, и т.д.

Аналогично делаем для Б2.... и т. д.
Не пойдет?

========
Р.S. ряд действительно коротенький - за 6 лет данные.




Signature
Это не кованализ :)
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
DoctorStat
сообщение 21.11.2009 - 11:02
Сообщение #4





Группа: Пользователи
Сообщений: 377
Регистрация: 18.08.2008
Из: Москва Златоглавая
Пользователь №: 5224



Цитата(Green @ 20.11.2009 - 23:34) *
К счастью - не сложная, один из показателей растет из года в год, другой падает, третий стоит.
Если временные ряды монотонные, без сезонности и не нужно анализировать их взаимодействие (корреляцию), то я не понимаю, в чем сложность? В обычном Excel делаем линейную регрессию по 6 точкам, которая даст как величину наклона прямой, так и его значимость. Если значимость величины наклона больше критического уровня, то делаем вывод, что тренд имеет тенденцию к увеличению (уменьшению), скорость которой характеризуется наклоном. Доверительный интервал для наклона, скорее всего, придется считать вручную. В конце анализа для очистки совести проверяем на глаз (а лучше стат.тестами) принадлежность остатков регрессии нужному распределению (нормальному или пуассоновскому).

Сообщение отредактировал DoctorStat - 21.11.2009 - 11:12


Signature
Просто включи мозги => http://doctorstat.narod.ru
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Green
сообщение 21.11.2009 - 18:21
Сообщение #5





Группа: Пользователи
Сообщений: 120
Регистрация: 27.08.2009
Пользователь №: 6284



DoctorStat, спасибо.
Именно так и думала сделать.

Кроме Excel имею еще ряд статистических программ, так что ручками делать не буду smile.gif

Точнее, сделала уже.
Сначала по Нейману - что тренд есть.
Потом по регрессии - показать в какую сторону, в принципе получилось оценить annual percent change.


Signature
Это не кованализ :)
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
DrgLena
сообщение 21.11.2009 - 22:26
Сообщение #6





Группа: Пользователи
Сообщений: 1325
Регистрация: 27.11.2007
Пользователь №: 4573



А можно ли подробнее, в каких статистических пакетах есть критерий Нойманна (Neumann), или все же ручками?
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Green
сообщение 22.11.2009 - 10:33
Сообщение #7





Группа: Пользователи
Сообщений: 120
Регистрация: 27.08.2009
Пользователь №: 6284



DrgLena,

Речь шла не о Нойманне ("Доверительный интервал для наклона, скорее всего, придется считать вручную. ")
Нойманн в Excel обсчитывается на раз-два. Таблица - из Закса.


Кстати, в одной из книг видела упоминание
"Например, мы исследуем гипотезу, что пропорция получивших инсульт линейно возрастает при возрастании диастолического давления. нулевая гипотеза будет гласить, что нет линейной зависимости между этими переменными. Такого же вида гипотезы используются в простой линейной регрессии, с ограничением, что мы имеем номинальную зависимую переменную. И мы используем Хи-квадрат критерий для трендов."

Может, кто-то даст более подробную ссылку на расчет Хи-квадрат критерий для трендов ?


Signature
Это не кованализ :)
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
DrgLena
сообщение 22.11.2009 - 12:59
Сообщение #8





Группа: Пользователи
Сообщений: 1325
Регистрация: 27.11.2007
Пользователь №: 4573



Критерий Нойманна для тренда из Закса. Я про него, понятно что фамилии можно по разному читать, и американец австровергерского происхождения, может и Нейманом и Ньюманом стать. Как в вашей цитате
proportion - доля, а не пропорция. Хи-квадрат для тренда посмотрите подробно было на форуме, критерий Джонкхиера - Терпстры, реализован в Attestat.

Сообщение отредактировал DrgLena - 22.11.2009 - 15:23
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
nokh
сообщение 23.11.2009 - 07:18
Сообщение #9





Группа: Пользователи
Сообщений: 1202
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704



Цитата(Green @ 21.11.2009 - 02:34) *
... Предполагая нормальную аппроксимацию Пуассона, получаем уравнение регрессии, оценку slope. Положительна (и значима) - положительный тренд в годах, и т.д.
Аналогично делаем для Б2.... и т. д.
Не пойдет?
========
Р.S. ряд действительно коротенький - за 6 лет данные.

Так или иначе всё аппроксимируется нормальным распределением, но работаем то мы с разными. Поэтому если использовать линейную регрессию ваши данные нужно предварительно преобразовать (нормализовать) по Фриману-Тьюки (Freeman-Tukey transformation): у=sqrt(x)+sqrt(x+1). Хотя есть и пуассоновская регрессия, позволяющая обработать исходные данные напрямую; если делать прогноз, то просится использовать именно её (я по ней ничего не подскажу). Если использовать критерий фон Неймана на тренд - тоже нужно предварительно преобразовать данные. Если тренды очевидны, я подумал почему бы здесь не использовать простую ранговую корреляцию? Если в Ваших трендах есть даже небольшие отклонения от линейности, то они уйдут в ошибку регрессии. Если же использовать ранговую корреляцию, то даже при нелинейном, но плавном тренде корреляция Спирмена rS будет равна 1. Для n=6 критическое значение rS для альфа 0,005 составляет 0,9429. Т.е. для rS=1 P<0,005. Вряд ли другие критерии позволят достигнуть такого низкого Р.
Цитата(DrgLena @ 22.11.2009 - 01:26) *
А можно ли подробнее, в каких статистических пакетах есть критерий Нойманна (Neumann), или все же ручками?

Посмотрел поиском. Оригинальный метод не встретился, а ранговая модификация есть в R: http://rss.acs.unt.edu/Rdoc/library/lawsta...rtels.test.html и в ChemStat: http://www.pointstar.com/ChemStat/Default.aspx
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Green
сообщение 23.11.2009 - 19:46
Сообщение #10





Группа: Пользователи
Сообщений: 120
Регистрация: 27.08.2009
Пользователь №: 6284



nokh, спасибо еще раз!

1. Еще раз напишу постановку задачи конкретнее.

Есть случай заболевания. Есть 4 возбудителя заболевания.

таблица: в строках год, в столбцах - возбудитель, на пересечении - количество случаев.

По графикам видно, что общее количество случаев в году - приблизительно одинаково, однако структура за 6 лет меняется,т.е. кол-во случаев заболевания из-за возбудителя А падает, из-за возбудителя В - растет, два последних - приблизительно на одном уровне.

Задача - доказать, что Возбудитель А имеет тенденцию к росту, В - к падению. О прогнозе пока речь не идет.

==
2.
>Если использовать критерий фон Неймана на тренд - тоже нужно предварительно преобразовать данные.
У Закса об этом ничего нет, рано радовалась?

==
3. Если несложно, где прочесть о Freeman-Tukey transformation, и обосновании.






Signature
Это не кованализ :)
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
DoctorStat
сообщение 23.11.2009 - 22:25
Сообщение #11





Группа: Пользователи
Сообщений: 377
Регистрация: 18.08.2008
Из: Москва Златоглавая
Пользователь №: 5224



Цитата(Green @ 23.11.2009 - 19:46) *
Задача - доказать, что Возбудитель А имеет тенденцию к росту, В - к падению.
Использовать линейную регрессию можно, если частота заболеваний распределена нормально (по гауссу). Мы же предполагаем, что частота заболеваний имеет пуассоновское (не гауссово) распределение. Пуассоновское распределение можно аппроксимировать нормальным, если параметр lambda=n*p>>1, где n-объем выборки, p-вероятность заболеть. К сожалению, вы не привели объем выборки n и количество заболеваний в году p. Предположим, что из 1000 человек в год заболевает 1, тогда p=0,001. Предположим, что исследовалась выборка из 10тыс.человек (или больше), тогда lambda=10000*0,001=10>>1. В этих условиях мы можем распределение случаев заболевания считать нормальным и использовать линейную регрессию.


Signature
Просто включи мозги => http://doctorstat.narod.ru
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
DrgLena
сообщение 24.11.2009 - 01:35
Сообщение #12





Группа: Пользователи
Сообщений: 1325
Регистрация: 27.11.2007
Пользователь №: 4573



Green, желательно привести реальные данные, тогда сузилась бы дисперсия наших фантазий, как эти данные анализировать. Может, увидели бы достоинства и недостатки предлагаемых походов.
На мой взгляд, в подобного рода эпидемиологических исследованиях, интересует только линейный тренд. Предположения о характере вида распределения 6 точек не имеют большого смысла. Мы уже обсуждали на форуме проблему оценки распределения столь малых выборок. Поэтому замена регрессии, описывающей зависимость роста заболеваемости во времени, на коэффициент корреляции Спирмана, на том основании, что предполагается, что данные взяты из распределения Пуассона, приводит к потере информации. Если линейная связь есть, ее можно продемонстрировать и оценить возможности прогноза. Например, так как на рис, ежегодное число стационарных больных, имеющих определенное соматическое заболевание.

Эскизы прикрепленных изображений
Прикрепленное изображение
 
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Green
сообщение 24.11.2009 - 14:05
Сообщение #13





Группа: Пользователи
Сообщений: 120
Регистрация: 27.08.2009
Пользователь №: 6284



Спасибо DrgLena за все комментарии
1. Фон Нейман - да, конечно, разносторонний человек, архитектура фон Неймана изучалась в университете, как-то не соотнесла.

2. По реальным данным. Отличие в том, что есть случаи заболевания по возбудителю и их сумма: общее количество случаев заболевания. И всё. Т.е. популяция - все заболевшие ( 90-110 случаев в год). Разделяются приблизительно так по 10% на возбудители С и D, а А и B - пляшут от 60% до 35%, и от 20% до 40% за эти годы.
Я считаю, что корреляция (любая) - даст нам только понимание взаимосвязи между А и В.
Вы совершенно правы, интересует тренд. Поэтому я попыталась рассчитать точечную оценку annual percent change и показать, что она значима, тем самым доказывая что кол-во случаев возбудителя А действительно растет.

Но, для грамотного расчета и оформления, конечно, меня волнует тип распределения.


Во-первых, когда я даю описательную статистику

например
год____колв-во А/доля в%А ___ кол-во В/доля в %.... ______Всего
2007_________30/25%_______________60/50%.....___________ 120

Я бы хотела указать доли как ME?SE или (CI-;CI+)
И вот вопрос - как посчитать SE - для биноминального закона считается по одному, для Пуассона - по другому. ( тут тема на форуме была http://forum.disser.ru/index.php?showtopic=2158 , я вопрос задала, но...).

Как я понимаю, есть математика (реализована в StatExact), которая может посчитатьME?SE или (CI-;CI+) для таких таблиц. ссылку бы... или формулу...

Далее, опять же в зависимости от типа распределения строю линейную регрессию с учетом параметризации.

Возможно, изложила сумбурно, но, мне кажется, что тип распределения нужен.

Так что, спасибо DoctorStat за теорию. Похоже, что мне можно аппроксимировать нормальным распределением.

Осталось найти, как рассчитать (CI-;CI+) для этой таблицы.














Signature
Это не кованализ :)
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
DrgLena
сообщение 24.11.2009 - 21:39
Сообщение #14





Группа: Пользователи
Сообщений: 1325
Регистрация: 27.11.2007
Пользователь №: 4573



Вы хотите грамотно посчитать и оформить результат. Но StatXact вам в данном случае не поможет, хотя в документации есть нужные формулs. Вы многократно повторяете, что у вас есть на входе, но не сформулировали, что вы хотите получить на выходе, на какие вопросы ответить, что вам нужно доказывать с помощью статистики. То анализ временного ряда из 6 точек для каждой нозологии, то теперь вы представляете данные в виде таблицы сопряженности и хотите посчитать ошибку к долям, видимо для расчета ДИ, но не понятно для каких сравнений. Вы хотите показать, что в 2007 году было больше Б, чем А? Тогда читайте на форуме было подробно, как это сделать различными методами с приложением программы плава (кто знает где он?) для эксела. Возможно, вы хотите показать, что в 2000 году число больных А было меньше, чем в 2005, тогда в вашей таблице появится процент не по строкам, а по столбцам и их вам нужно будет сравнить посредством тех же ДИ. Вы можете выложить таблицу первичных данных , % и суммы не важны, тогда, если nokh вас понял лучше, можно реализовать его идеи
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Green
сообщение 25.11.2009 - 00:00
Сообщение #15





Группа: Пользователи
Сообщений: 120
Регистрация: 27.08.2009
Пользователь №: 6284



> Вы многократно повторяете, что у вас есть на входе, но не сформулировали, что вы хотите получить на выходе, на какие вопросы ответить, что вам нужно доказывать с помощью статистики.

прошу прощения, двумя постами выше мои слова "Задача - доказать, что Возбудитель А имеет тенденцию к росту, В - к падению."

======

Я хочу оформить исследование: исходные данные - таблица ( с дескриптивным описанием) , диаграмма динамики по годам, далее уже регрессионная модель с процентами прироста (естественно, значимыми).
Согласитесь, что диаграмма с CI будет смотреться приятнее.
Магия числа с доверительным интервалом:)

Еще раз повторю, я задавала вопрос зачем доли и ошибка доли в описательной статистике http://forum.disser.ru/index.php?showtopic=2158
Толком так ответа и не получила...Если нетрудно, можно там отписать, была бы признательна.
Но ... смотрится внушительнее, что поделать:)

======
По поводу ДИ в эпидемиологической статистике. Я не видела таких работ. Видела регрессионные модели, риски, естественно, survival...
Ну... докажет он неоднородность, а динамику нет... Хотя, возможно, ошибаюсь.
======

Подробно копаю, ибо понимаю, что такие отчеты мне делать еще несколько лет в конце года. По-моему, лучше отработать один раз, потом использовать "шаблон". Также думаю, какие еще выводы можно сделать на этих данных в такой постановке. От этого разные вопросы. Кстати, возможно и относительный риск посчитать... wt.gif



Signature
Это не кованализ :)
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 

4 страниц V   1 2 3 > » 
Добавить ответ в эту темуОткрыть тему