Годовые тренды |
Здравствуйте, гость ( Вход | Регистрация )
Годовые тренды |
20.11.2009 - 17:31
Сообщение
#1
|
|
Группа: Пользователи Сообщений: 120 Регистрация: 27.08.2009 Пользователь №: 6284 |
День добрый!
Есть таблица Число случаев Год показательБ1 показательБ2 показательБ3 Всего(сумма Б1+Б2+Б3) 2000 2001 2002 .... на пересечении стоят целые числа - количество случаев, выявленных за год. Задача, показать, что есть изменения во временном тренде, т.е. с течением времени. Как вариант - показать, что( к примеру) Б1 растет в удельном количестве по сравнению с Б2, который падает, а Б3 не изменился за эти годы. Есть мысль насчет регресии, но....по ней вопросы. Но если у кого есть опыт, как анализировать эти данные - поделитесь, пожалуйста. Сообщение отредактировал Green - 20.11.2009 - 17:33 Это не кованализ :)
|
|
20.11.2009 - 19:22
Сообщение
#2
|
|
Группа: Пользователи Сообщений: 1202 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704 |
DoctorStat не так давно выкладывал очень хорошую книгу сюда: http://www.onlinedisk.ru/file/205482/
Скачайте, посмотрите критерии на стр. 347-355. Там есть и проверка на тренд и на гнездовой эффект. Правда ряд уж больно у Вас коротенький. Возможно какие-то подходящие и более современные критерии есть в: Кобзарь А. И. Прикладная математическая статистика. Для инженеров и научных работников. - М.: ФИЗМАТЛИТ, 2006. - 816 с. - хороший справочник, нужно иметь. Если динамика сложная, но разные показатели изменяются по годам согласованно (это позволяет увидеть график сравнительной динамики) - можно посчитать дисперсионный анализ с единственным наблюдением на ячейку комплекса и показать, что какие-то годы выделяются или провести его непараметрический аналог - критерий Фридмана и по его результатам рассчитать конкордацию по Кенделлу. Если согласованность изменения разных показателей будет значима - это автоматически даёт право использовать в качестве интегральных оценок средних рангов и обсуждать их динамику по годам. Сообщение отредактировал nokh - 20.11.2009 - 19:26 |
|
20.11.2009 - 23:34
Сообщение
#3
|
|
Группа: Пользователи Сообщений: 120 Регистрация: 27.08.2009 Пользователь №: 6284 |
nokh,
Во-первых, спасибо за оперативность. Во-вторых, спасибо за Закса, за наводку на критерий Ноймана. В-третьих, Ваше последнее предложение "...использовать в качестве интегральных оценок средних рангов и обсуждать их динамику по годам". Не поняла, ЧТО использовать "в качестве интегральных оценок..." ? ===== Если можно, поделюсь своими мыслями. > Если динамика сложная К счастью - не сложная, один из показателей растет из года в год, другой падает, третий стоит. Частоты событий - предполагаем Пуассоновское распределение. Year=f(rate1) Year=год ( в любой календарной шкале) rate1 = частота показателя Б1/общее кол-во Предполагая нормальную аппроксимацию Пуассона, получаем уравнение регрессии, оценку slope. Положительна (и значима) - положительный тренд в годах, и т.д. Аналогично делаем для Б2.... и т. д. Не пойдет? ======== Р.S. ряд действительно коротенький - за 6 лет данные. Это не кованализ :)
|
|
21.11.2009 - 11:02
Сообщение
#4
|
|
Группа: Пользователи Сообщений: 377 Регистрация: 18.08.2008 Из: Москва Златоглавая Пользователь №: 5224 |
К счастью - не сложная, один из показателей растет из года в год, другой падает, третий стоит. Если временные ряды монотонные, без сезонности и не нужно анализировать их взаимодействие (корреляцию), то я не понимаю, в чем сложность? В обычном Excel делаем линейную регрессию по 6 точкам, которая даст как величину наклона прямой, так и его значимость. Если значимость величины наклона больше критического уровня, то делаем вывод, что тренд имеет тенденцию к увеличению (уменьшению), скорость которой характеризуется наклоном. Доверительный интервал для наклона, скорее всего, придется считать вручную. В конце анализа для очистки совести проверяем на глаз (а лучше стат.тестами) принадлежность остатков регрессии нужному распределению (нормальному или пуассоновскому).
Сообщение отредактировал DoctorStat - 21.11.2009 - 11:12 Просто включи мозги => http://doctorstat.narod.ru
|
|
21.11.2009 - 18:21
Сообщение
#5
|
|
Группа: Пользователи Сообщений: 120 Регистрация: 27.08.2009 Пользователь №: 6284 |
DoctorStat, спасибо.
Именно так и думала сделать. Кроме Excel имею еще ряд статистических программ, так что ручками делать не буду Точнее, сделала уже. Сначала по Нейману - что тренд есть. Потом по регрессии - показать в какую сторону, в принципе получилось оценить annual percent change. Это не кованализ :)
|
|
21.11.2009 - 22:26
Сообщение
#6
|
|
Группа: Пользователи Сообщений: 1325 Регистрация: 27.11.2007 Пользователь №: 4573 |
А можно ли подробнее, в каких статистических пакетах есть критерий Нойманна (Neumann), или все же ручками?
|
|
22.11.2009 - 10:33
Сообщение
#7
|
|
Группа: Пользователи Сообщений: 120 Регистрация: 27.08.2009 Пользователь №: 6284 |
DrgLena,
Речь шла не о Нойманне ("Доверительный интервал для наклона, скорее всего, придется считать вручную. ") Нойманн в Excel обсчитывается на раз-два. Таблица - из Закса. Кстати, в одной из книг видела упоминание "Например, мы исследуем гипотезу, что пропорция получивших инсульт линейно возрастает при возрастании диастолического давления. нулевая гипотеза будет гласить, что нет линейной зависимости между этими переменными. Такого же вида гипотезы используются в простой линейной регрессии, с ограничением, что мы имеем номинальную зависимую переменную. И мы используем Хи-квадрат критерий для трендов." Может, кто-то даст более подробную ссылку на расчет Хи-квадрат критерий для трендов ? Это не кованализ :)
|
|
22.11.2009 - 12:59
Сообщение
#8
|
|
Группа: Пользователи Сообщений: 1325 Регистрация: 27.11.2007 Пользователь №: 4573 |
Критерий Нойманна для тренда из Закса. Я про него, понятно что фамилии можно по разному читать, и американец австровергерского происхождения, может и Нейманом и Ньюманом стать. Как в вашей цитате
proportion - доля, а не пропорция. Хи-квадрат для тренда посмотрите подробно было на форуме, критерий Джонкхиера - Терпстры, реализован в Attestat. Сообщение отредактировал DrgLena - 22.11.2009 - 15:23 |
|
23.11.2009 - 07:18
Сообщение
#9
|
|
Группа: Пользователи Сообщений: 1202 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704 |
... Предполагая нормальную аппроксимацию Пуассона, получаем уравнение регрессии, оценку slope. Положительна (и значима) - положительный тренд в годах, и т.д. Аналогично делаем для Б2.... и т. д. Не пойдет? ======== Р.S. ряд действительно коротенький - за 6 лет данные. Так или иначе всё аппроксимируется нормальным распределением, но работаем то мы с разными. Поэтому если использовать линейную регрессию ваши данные нужно предварительно преобразовать (нормализовать) по Фриману-Тьюки (Freeman-Tukey transformation): у=sqrt(x)+sqrt(x+1). Хотя есть и пуассоновская регрессия, позволяющая обработать исходные данные напрямую; если делать прогноз, то просится использовать именно её (я по ней ничего не подскажу). Если использовать критерий фон Неймана на тренд - тоже нужно предварительно преобразовать данные. Если тренды очевидны, я подумал почему бы здесь не использовать простую ранговую корреляцию? Если в Ваших трендах есть даже небольшие отклонения от линейности, то они уйдут в ошибку регрессии. Если же использовать ранговую корреляцию, то даже при нелинейном, но плавном тренде корреляция Спирмена rS будет равна 1. Для n=6 критическое значение rS для альфа 0,005 составляет 0,9429. Т.е. для rS=1 P<0,005. Вряд ли другие критерии позволят достигнуть такого низкого Р. А можно ли подробнее, в каких статистических пакетах есть критерий Нойманна (Neumann), или все же ручками? Посмотрел поиском. Оригинальный метод не встретился, а ранговая модификация есть в R: http://rss.acs.unt.edu/Rdoc/library/lawsta...rtels.test.html и в ChemStat: http://www.pointstar.com/ChemStat/Default.aspx |
|
23.11.2009 - 19:46
Сообщение
#10
|
|
Группа: Пользователи Сообщений: 120 Регистрация: 27.08.2009 Пользователь №: 6284 |
nokh, спасибо еще раз!
1. Еще раз напишу постановку задачи конкретнее. Есть случай заболевания. Есть 4 возбудителя заболевания. таблица: в строках год, в столбцах - возбудитель, на пересечении - количество случаев. По графикам видно, что общее количество случаев в году - приблизительно одинаково, однако структура за 6 лет меняется,т.е. кол-во случаев заболевания из-за возбудителя А падает, из-за возбудителя В - растет, два последних - приблизительно на одном уровне. Задача - доказать, что Возбудитель А имеет тенденцию к росту, В - к падению. О прогнозе пока речь не идет. == 2. >Если использовать критерий фон Неймана на тренд - тоже нужно предварительно преобразовать данные. У Закса об этом ничего нет, рано радовалась? == 3. Если несложно, где прочесть о Freeman-Tukey transformation, и обосновании. Это не кованализ :)
|
|
23.11.2009 - 22:25
Сообщение
#11
|
|
Группа: Пользователи Сообщений: 377 Регистрация: 18.08.2008 Из: Москва Златоглавая Пользователь №: 5224 |
Задача - доказать, что Возбудитель А имеет тенденцию к росту, В - к падению. Использовать линейную регрессию можно, если частота заболеваний распределена нормально (по гауссу). Мы же предполагаем, что частота заболеваний имеет пуассоновское (не гауссово) распределение. Пуассоновское распределение можно аппроксимировать нормальным, если параметр lambda=n*p>>1, где n-объем выборки, p-вероятность заболеть. К сожалению, вы не привели объем выборки n и количество заболеваний в году p. Предположим, что из 1000 человек в год заболевает 1, тогда p=0,001. Предположим, что исследовалась выборка из 10тыс.человек (или больше), тогда lambda=10000*0,001=10>>1. В этих условиях мы можем распределение случаев заболевания считать нормальным и использовать линейную регрессию.Просто включи мозги => http://doctorstat.narod.ru
|
|
24.11.2009 - 01:35
Сообщение
#12
|
|
Группа: Пользователи Сообщений: 1325 Регистрация: 27.11.2007 Пользователь №: 4573 |
Green, желательно привести реальные данные, тогда сузилась бы дисперсия наших фантазий, как эти данные анализировать. Может, увидели бы достоинства и недостатки предлагаемых походов.
На мой взгляд, в подобного рода эпидемиологических исследованиях, интересует только линейный тренд. Предположения о характере вида распределения 6 точек не имеют большого смысла. Мы уже обсуждали на форуме проблему оценки распределения столь малых выборок. Поэтому замена регрессии, описывающей зависимость роста заболеваемости во времени, на коэффициент корреляции Спирмана, на том основании, что предполагается, что данные взяты из распределения Пуассона, приводит к потере информации. Если линейная связь есть, ее можно продемонстрировать и оценить возможности прогноза. Например, так как на рис, ежегодное число стационарных больных, имеющих определенное соматическое заболевание. |
|
24.11.2009 - 14:05
Сообщение
#13
|
|
Группа: Пользователи Сообщений: 120 Регистрация: 27.08.2009 Пользователь №: 6284 |
Спасибо DrgLena за все комментарии
1. Фон Нейман - да, конечно, разносторонний человек, архитектура фон Неймана изучалась в университете, как-то не соотнесла. 2. По реальным данным. Отличие в том, что есть случаи заболевания по возбудителю и их сумма: общее количество случаев заболевания. И всё. Т.е. популяция - все заболевшие ( 90-110 случаев в год). Разделяются приблизительно так по 10% на возбудители С и D, а А и B - пляшут от 60% до 35%, и от 20% до 40% за эти годы. Я считаю, что корреляция (любая) - даст нам только понимание взаимосвязи между А и В. Вы совершенно правы, интересует тренд. Поэтому я попыталась рассчитать точечную оценку annual percent change и показать, что она значима, тем самым доказывая что кол-во случаев возбудителя А действительно растет. Но, для грамотного расчета и оформления, конечно, меня волнует тип распределения. Во-первых, когда я даю описательную статистику например год____колв-во А/доля в%А ___ кол-во В/доля в %.... ______Всего 2007_________30/25%_______________60/50%.....___________ 120 Я бы хотела указать доли как ME?SE или (CI-;CI+) И вот вопрос - как посчитать SE - для биноминального закона считается по одному, для Пуассона - по другому. ( тут тема на форуме была http://forum.disser.ru/index.php?showtopic=2158 , я вопрос задала, но...). Как я понимаю, есть математика (реализована в StatExact), которая может посчитатьME?SE или (CI-;CI+) для таких таблиц. ссылку бы... или формулу... Далее, опять же в зависимости от типа распределения строю линейную регрессию с учетом параметризации. Возможно, изложила сумбурно, но, мне кажется, что тип распределения нужен. Так что, спасибо DoctorStat за теорию. Похоже, что мне можно аппроксимировать нормальным распределением. Осталось найти, как рассчитать (CI-;CI+) для этой таблицы. Это не кованализ :)
|
|
24.11.2009 - 21:39
Сообщение
#14
|
|
Группа: Пользователи Сообщений: 1325 Регистрация: 27.11.2007 Пользователь №: 4573 |
Вы хотите грамотно посчитать и оформить результат. Но StatXact вам в данном случае не поможет, хотя в документации есть нужные формулs. Вы многократно повторяете, что у вас есть на входе, но не сформулировали, что вы хотите получить на выходе, на какие вопросы ответить, что вам нужно доказывать с помощью статистики. То анализ временного ряда из 6 точек для каждой нозологии, то теперь вы представляете данные в виде таблицы сопряженности и хотите посчитать ошибку к долям, видимо для расчета ДИ, но не понятно для каких сравнений. Вы хотите показать, что в 2007 году было больше Б, чем А? Тогда читайте на форуме было подробно, как это сделать различными методами с приложением программы плава (кто знает где он?) для эксела. Возможно, вы хотите показать, что в 2000 году число больных А было меньше, чем в 2005, тогда в вашей таблице появится процент не по строкам, а по столбцам и их вам нужно будет сравнить посредством тех же ДИ. Вы можете выложить таблицу первичных данных , % и суммы не важны, тогда, если nokh вас понял лучше, можно реализовать его идеи
|
|
25.11.2009 - 00:00
Сообщение
#15
|
|
Группа: Пользователи Сообщений: 120 Регистрация: 27.08.2009 Пользователь №: 6284 |
> Вы многократно повторяете, что у вас есть на входе, но не сформулировали, что вы хотите получить на выходе, на какие вопросы ответить, что вам нужно доказывать с помощью статистики.
прошу прощения, двумя постами выше мои слова "Задача - доказать, что Возбудитель А имеет тенденцию к росту, В - к падению." ====== Я хочу оформить исследование: исходные данные - таблица ( с дескриптивным описанием) , диаграмма динамики по годам, далее уже регрессионная модель с процентами прироста (естественно, значимыми). Согласитесь, что диаграмма с CI будет смотреться приятнее. Магия числа с доверительным интервалом:) Еще раз повторю, я задавала вопрос зачем доли и ошибка доли в описательной статистике http://forum.disser.ru/index.php?showtopic=2158 Толком так ответа и не получила...Если нетрудно, можно там отписать, была бы признательна. Но ... смотрится внушительнее, что поделать:) ====== По поводу ДИ в эпидемиологической статистике. Я не видела таких работ. Видела регрессионные модели, риски, естественно, survival... Ну... докажет он неоднородность, а динамику нет... Хотя, возможно, ошибаюсь. ====== Подробно копаю, ибо понимаю, что такие отчеты мне делать еще несколько лет в конце года. По-моему, лучше отработать один раз, потом использовать "шаблон". Также думаю, какие еще выводы можно сделать на этих данных в такой постановке. От этого разные вопросы. Кстати, возможно и относительный риск посчитать... Это не кованализ :)
|
|