День добрый!
Есть таблица
Число случаев
Год показательБ1 показательБ2 показательБ3 Всего(сумма Б1+Б2+Б3)
2000
2001
2002
....
на пересечении стоят целые числа - количество случаев, выявленных за год.
Задача, показать, что есть изменения во временном тренде, т.е. с течением времени.
Как вариант - показать, что( к примеру) Б1 растет в удельном количестве по сравнению с Б2, который падает, а Б3 не изменился за эти годы.
Есть мысль насчет регресии, но....по ней вопросы.
Но если у кого есть опыт, как анализировать эти данные - поделитесь, пожалуйста.
DoctorStat не так давно выкладывал очень хорошую книгу сюда:
http://www.onlinedisk.ru/file/205482/Скачайте, посмотрите критерии на стр. 347-355. Там есть и проверка на тренд и на гнездовой эффект. Правда ряд уж больно у Вас коротенький. Возможно какие-то подходящие и более современные критерии есть в: Кобзарь А. И. Прикладная математическая статистика. Для инженеров и научных работников. - М.: ФИЗМАТЛИТ, 2006. - 816 с. - хороший справочник, нужно иметь.
Если динамика сложная, но разные показатели изменяются по годам согласованно (это позволяет увидеть график сравнительной динамики) - можно посчитать дисперсионный анализ с единственным наблюдением на ячейку комплекса и показать, что какие-то годы выделяются или провести его непараметрический аналог - критерий Фридмана и по его результатам рассчитать конкордацию по Кенделлу. Если согласованность изменения разных показателей будет значима - это автоматически даёт право использовать в качестве интегральных оценок средних рангов и обсуждать их динамику по годам.
nokh,
Во-первых, спасибо за оперативность.
Во-вторых, спасибо за Закса, за наводку на критерий Ноймана.
В-третьих, Ваше последнее предложение "...использовать в качестве интегральных оценок средних рангов и обсуждать их динамику по годам". Не поняла, ЧТО использовать "в качестве интегральных оценок..." ?
=====
Если можно, поделюсь своими мыслями.
> Если динамика сложная
К счастью - не сложная, один из показателей растет из года в год, другой падает, третий стоит.
Частоты событий - предполагаем Пуассоновское распределение.
Year=f(rate1)
Year=год ( в любой календарной шкале)
rate1 = частота показателя Б1/общее кол-во
Предполагая нормальную аппроксимацию Пуассона, получаем уравнение регрессии, оценку slope. Положительна (и значима) - положительный тренд в годах, и т.д.
Аналогично делаем для Б2.... и т. д.
Не пойдет?
========
Р.S. ряд действительно коротенький - за 6 лет данные.
DoctorStat
21.11.2009 - 11:02
Цитата(Green @ 20.11.2009 - 23:34)

К счастью - не сложная, один из показателей растет из года в год, другой падает, третий стоит.
Если временные ряды монотонные, без сезонности и не нужно анализировать их взаимодействие (корреляцию), то я не понимаю, в чем сложность? В обычном Excel делаем линейную регрессию по 6 точкам, которая даст как величину наклона прямой, так и его значимость. Если значимость величины наклона больше критического уровня, то делаем вывод, что тренд имеет тенденцию к увеличению (уменьшению), скорость которой характеризуется наклоном. Доверительный интервал для наклона, скорее всего, придется считать вручную. В конце анализа для очистки совести проверяем на глаз (а лучше стат.тестами) принадлежность остатков регрессии нужному распределению (нормальному или пуассоновскому).
DoctorStat, спасибо.
Именно так и думала сделать.
Кроме Excel имею еще ряд статистических программ, так что ручками делать не буду

Точнее, сделала уже.
Сначала по Нейману - что тренд есть.
Потом по регрессии - показать в какую сторону, в принципе получилось оценить annual percent change.
DrgLena
21.11.2009 - 22:26
А можно ли подробнее, в каких статистических пакетах есть критерий Нойманна (Neumann), или все же ручками?
DrgLena,
Речь шла не о Нойманне ("Доверительный интервал для наклона, скорее всего, придется считать вручную. ")
Нойманн в Excel обсчитывается на раз-два. Таблица - из Закса.
Кстати, в одной из книг видела упоминание
"Например, мы исследуем гипотезу, что пропорция получивших инсульт линейно возрастает при возрастании диастолического давления. нулевая гипотеза будет гласить, что нет линейной зависимости между этими переменными. Такого же вида гипотезы используются в простой линейной регрессии, с ограничением, что мы имеем номинальную зависимую переменную. И мы используем Хи-квадрат критерий для трендов."
Может, кто-то даст более подробную ссылку на расчет Хи-квадрат критерий для трендов ?
DrgLena
22.11.2009 - 12:59
Критерий Нойманна для тренда из Закса. Я про него, понятно что фамилии можно по разному читать, и американец австровергерского происхождения, может и Нейманом и Ньюманом стать. Как в вашей цитате
proportion - доля, а не пропорция. Хи-квадрат для тренда посмотрите подробно было на форуме, критерий Джонкхиера - Терпстры, реализован в Attestat.
Цитата(Green @ 21.11.2009 - 02:34)

... Предполагая нормальную аппроксимацию Пуассона, получаем уравнение регрессии, оценку slope. Положительна (и значима) - положительный тренд в годах, и т.д.
Аналогично делаем для Б2.... и т. д.
Не пойдет?
========
Р.S. ряд действительно коротенький - за 6 лет данные.
Так или иначе всё аппроксимируется нормальным распределением, но работаем то мы с разными. Поэтому если использовать линейную регрессию ваши данные нужно предварительно преобразовать (нормализовать) по Фриману-Тьюки (Freeman-Tukey transformation): у=sqrt(x)+sqrt(x+1). Хотя есть и пуассоновская регрессия, позволяющая обработать исходные данные напрямую; если делать прогноз, то просится использовать именно её (я по ней ничего не подскажу). Если использовать критерий фон Неймана на тренд - тоже нужно предварительно преобразовать данные. Если тренды очевидны, я подумал почему бы здесь не использовать простую ранговую корреляцию? Если в Ваших трендах есть даже небольшие отклонения от линейности, то они уйдут в ошибку регрессии. Если же использовать ранговую корреляцию, то даже при нелинейном, но плавном тренде корреляция Спирмена r
S будет равна 1. Для n=6 критическое значение r
S для альфа 0,005 составляет 0,9429. Т.е. для r
S=1 P<0,005. Вряд ли другие критерии позволят достигнуть такого низкого Р.
Цитата(DrgLena @ 22.11.2009 - 01:26)

А можно ли подробнее, в каких статистических пакетах есть критерий Нойманна (Neumann), или все же ручками?
Посмотрел поиском. Оригинальный метод не встретился, а ранговая модификация есть в R:
http://rss.acs.unt.edu/Rdoc/library/lawsta...rtels.test.html и в ChemStat:
http://www.pointstar.com/ChemStat/Default.aspx
nokh, спасибо еще раз!
1. Еще раз напишу постановку задачи конкретнее.
Есть случай заболевания. Есть 4 возбудителя заболевания.
таблица: в строках год, в столбцах - возбудитель, на пересечении - количество случаев.
По графикам видно, что общее количество случаев в году - приблизительно одинаково, однако структура за 6 лет меняется,т.е. кол-во случаев заболевания из-за возбудителя А падает, из-за возбудителя В - растет, два последних - приблизительно на одном уровне.
Задача - доказать, что Возбудитель А имеет тенденцию к росту, В - к падению. О прогнозе пока речь не идет.
==
2.
>Если использовать критерий фон Неймана на тренд - тоже нужно предварительно преобразовать данные.
У Закса об этом ничего нет, рано радовалась?
==
3. Если несложно, где прочесть о Freeman-Tukey transformation, и обосновании.
DoctorStat
23.11.2009 - 22:25
Цитата(Green @ 23.11.2009 - 19:46)

Задача - доказать, что Возбудитель А имеет тенденцию к росту, В - к падению.
Использовать линейную регрессию можно, если частота заболеваний распределена нормально (по гауссу). Мы же предполагаем, что частота заболеваний имеет пуассоновское (не гауссово) распределение. Пуассоновское распределение можно аппроксимировать нормальным, если параметр lambda=n*p>>1, где n-объем выборки, p-вероятность заболеть. К сожалению, вы не привели объем выборки n и количество заболеваний в году p. Предположим, что из 1000 человек в год заболевает 1, тогда p=0,001. Предположим, что исследовалась выборка из 10тыс.человек (или больше), тогда lambda=10000*0,001=10>>1. В этих условиях мы можем распределение случаев заболевания считать нормальным и использовать линейную регрессию.
DrgLena
24.11.2009 - 01:35
Green, желательно привести реальные данные, тогда сузилась бы дисперсия наших фантазий, как эти данные анализировать. Может, увидели бы достоинства и недостатки предлагаемых походов.
На мой взгляд, в подобного рода эпидемиологических исследованиях, интересует только линейный тренд. Предположения о характере вида распределения 6 точек не имеют большого смысла. Мы уже обсуждали на форуме проблему оценки распределения столь малых выборок. Поэтому замена регрессии, описывающей зависимость роста заболеваемости во времени, на коэффициент корреляции Спирмана, на том основании, что предполагается, что данные взяты из распределения Пуассона, приводит к потере информации. Если линейная связь есть, ее можно продемонстрировать и оценить возможности прогноза. Например, так как на рис, ежегодное число стационарных больных, имеющих определенное соматическое заболевание.
Спасибо DrgLena за все комментарии
1. Фон Нейман - да, конечно, разносторонний человек, архитектура фон Неймана изучалась в университете, как-то не соотнесла.
2. По реальным данным. Отличие в том, что есть случаи заболевания по возбудителю и их сумма: общее количество случаев заболевания. И всё. Т.е. популяция - все заболевшие ( 90-110 случаев в год). Разделяются приблизительно так по 10% на возбудители С и D, а А и B - пляшут от 60% до 35%, и от 20% до 40% за эти годы.
Я считаю, что корреляция (любая) - даст нам только понимание взаимосвязи между А и В.
Вы совершенно правы, интересует тренд. Поэтому я попыталась рассчитать точечную оценку annual percent change и показать, что она значима, тем самым доказывая что кол-во случаев возбудителя А действительно растет.
Но, для грамотного расчета и оформления, конечно, меня волнует тип распределения.
Во-первых, когда я даю описательную статистику
например
год____колв-во А/доля в%А ___ кол-во В/доля в %.... ______Всего
2007_________30/25%_______________60/50%.....___________ 120
Я бы хотела указать доли как ME?SE или (CI-;CI+)
И вот вопрос - как посчитать SE - для биноминального закона считается по одному, для Пуассона - по другому. ( тут тема на форуме была
http://forum.disser.ru/index.php?showtopic=2158 , я вопрос задала, но...).
Как я понимаю, есть математика (реализована в StatExact), которая может посчитатьME?SE или (CI-;CI+) для таких таблиц. ссылку бы... или формулу...
Далее, опять же в зависимости от типа распределения строю линейную регрессию с учетом параметризации.
Возможно, изложила сумбурно, но, мне кажется, что тип распределения нужен.
Так что, спасибо DoctorStat за теорию. Похоже, что мне можно аппроксимировать нормальным распределением.
Осталось найти, как рассчитать (CI-;CI+) для этой таблицы.
DrgLena
24.11.2009 - 21:39
Вы хотите грамотно посчитать и оформить результат. Но StatXact вам в данном случае не поможет, хотя в документации есть нужные формулs. Вы многократно повторяете, что у вас есть на входе, но не сформулировали, что вы хотите получить на выходе, на какие вопросы ответить, что вам нужно доказывать с помощью статистики. То анализ временного ряда из 6 точек для каждой нозологии, то теперь вы представляете данные в виде таблицы сопряженности и хотите посчитать ошибку к долям, видимо для расчета ДИ, но не понятно для каких сравнений. Вы хотите показать, что в 2007 году было больше Б, чем А? Тогда читайте на форуме было подробно, как это сделать различными методами с приложением программы плава (кто знает где он?) для эксела. Возможно, вы хотите показать, что в 2000 году число больных А было меньше, чем в 2005, тогда в вашей таблице появится процент не по строкам, а по столбцам и их вам нужно будет сравнить посредством тех же ДИ. Вы можете выложить таблицу первичных данных , % и суммы не важны, тогда, если nokh вас понял лучше, можно реализовать его идеи
> Вы многократно повторяете, что у вас есть на входе, но не сформулировали, что вы хотите получить на выходе, на какие вопросы ответить, что вам нужно доказывать с помощью статистики.
прошу прощения, двумя постами выше мои слова "Задача - доказать, что Возбудитель А имеет тенденцию к росту, В - к падению."
======
Я хочу оформить исследование: исходные данные - таблица ( с дескриптивным описанием) , диаграмма динамики по годам, далее уже регрессионная модель с процентами прироста (естественно, значимыми).
Согласитесь, что диаграмма с CI будет смотреться приятнее.
Магия числа с доверительным интервалом:)
Еще раз повторю, я задавала вопрос зачем доли и ошибка доли в описательной статистике
http://forum.disser.ru/index.php?showtopic=2158Толком так ответа и не получила...Если нетрудно, можно там отписать, была бы признательна.
Но ... смотрится внушительнее, что поделать:)
======
По поводу ДИ в эпидемиологической статистике. Я не видела таких работ. Видела регрессионные модели, риски, естественно, survival...
Ну... докажет он неоднородность, а динамику нет... Хотя, возможно, ошибаюсь.
======
Подробно копаю, ибо понимаю, что такие отчеты мне делать еще несколько лет в конце года. По-моему, лучше отработать один раз, потом использовать "шаблон". Также думаю, какие еще выводы можно сделать на этих данных в такой постановке. От этого разные вопросы. Кстати, возможно и относительный риск посчитать...
DrgLena
25.11.2009 - 00:50
Новый поворот мысли, относительные риск посчитать. Интересно, риск чего в годичном тренде, если именно это и есть цель вашего исследования? Не могу согласиться ни с одним вашим тезисом, а последний резюмирует предшествующие, узнать все что можно, посчитать все что можно, с ДИ ведь лучше будет смотреться, или нет, если в эпидемиологических исследованиях вы его не встречали, ошибки к долям приводить или нет? Как создать "шаблон" и спокойно жить долгие годы, а лечить больных тоже примерно также, назначить все возможные обследования, сделать все операции, внушительнее будет такой доктор смотреться на фоне более скромных коллег.
Что значит писать поздно вечером:)
1.В предыдущем моем посте не ДИ, а ДА ( дисперсионный анализ). Это по поводу других советов по дисперсионному анализу.
2. "Шаблон" вы поняли как врач. Я имела ввиду "технологию", приемы анализа трендов для задач подобного типа, а никоим образом не выводы, следующие из такой технологии. Т.е. последовательность действий, способы представления информации и проч. Это разные вещи.
3. Не стоит говорить так категорично, вы же ничего не знаете обо мне. Например, о том, что у меня техническое образование. Людей я не лечу.
А вот понять, зачем медики пишут в дескриптивном описании группы ошибку доли, я бы хотела. Но никто не может ответить. Вместо этого громкие фразы. Если несложно, ответьте на простой вопрос?
4. ммм... чем Вам не нравится фраза "относительный риск заболевания от возбудителя А в n раз плюс минус ДИ выше, чем от возбудителя В" ? Это тоже вывод, сделанный на конкретных данных.
Впрочем, о риске были вечерние размышления. О тренде рисков... они менялись с годами...Плохо, что позволила себе задуматься о таком подходе?
Цитата(Green @ 23.11.2009 - 22:46)

Если использовать критерий фон Неймана на тренд - тоже нужно предварительно преобразовать данные.
У Закса об этом ничего нет, рано радовалась?
Как раз у Закса требование нормальности прописано курсивом в первом абзаце.
Цитата(Green @ 23.11.2009 - 22:46)

Если несложно, где прочесть о Freeman-Tukey transformation, и обосновании.
Источника из которого я о нём узнал в сети нет, но там достаточно других источников - воспользуйтесь гуглом.
Цитата(DrgLena @ 24.11.2009 - 04:35)

На мой взгляд, в подобного рода эпидемиологических исследованиях, интересует только линейный тренд...
... замена регрессии, описывающей зависимость роста заболеваемости во времени, на коэффициент корреляции Спирмана, на том основании, что предполагается, что данные взяты из распределения Пуассона, приводит к потере информации.
А почему только линейный? А если рост идёт по экспоненте или волнообразно или ещё как-то. Для меня линейность далеко не очевидна, но ряд в 6 значений сделает смешными попытки стат. проверок на нелинейность. Именно поэтому и предложил ранговую корреляцию. С тем, что при переходе от количественной шкал к порядковой идёт потеря информации - не поспоришь. Но ведь ещё стоит вопрос адекватности применяемой статистической модели анализируемым данным. Реальных данных мы так и не увидели, но предположим, что увеличение доли больных в действительности описывается степенной зависимостью. На таком коротком ряду мы не рискнули отказаться от линейности и проанализировали её как линейную. В этом случае вся нелинейность ушла в ошибку регрессии. Но при переходе к рангам нелинейность не будет иметь значения, т.к. с увеличением порядкового номера года на единицу на такую-же единицу будет увеличиваться доля больных, и не важно, что форма - степенная. В ошибку ничего не уходит, корреляция будет равна 1, р<0,005 (!). Получается для такого случая ранговая корреляция обладает большей мощностью по сравнению с пирсоновской (это - моё "открытие" двухнедельной давности), а также более адекватна для доказательства тренда чем
линейная регрессия. А теперь встаёт вопрос: что хуже - потерять информацию понизив шкалу до порядковой или применить неадекватную данным линейную стат. модель? Я считаю - второе. Хотя конечно важна цель анализа, но ведь прогноз не нужен... Другое дело - психологические моменты. (1) Если человек применяет для доказательства тренда (анализ зависимости) корреляцию (анализ связи) может возникнуть вопрос "почему", на который нужно быть готовым ответить коротко и ясно. Или так же коротко - в одной фразе - прописать это в тексте публикации. (2) Корреляцию Спирмена знают/слышали все, в отличие, скажем, от критерия Неймана. Поэтому вынося на свет божий ряд из шести цифр лучше в качестве обереговой мантры запастись критерием "
фон Неймана", или ещё лучше "Аббе-Линника". А фраза "для проверки наличия тренда преобразованные по Фриману-Тьюки данные анализировали критериями фон Неймана и Аббе-Линника" может просто лишить потенциальных оппонентов воли. Тут главное самому не впасть в гипноз и помнить о длине ряда.
DoctorStat
25.11.2009 - 11:41
Цитата(Green @ 25.11.2009 - 02:45)

Я имела ввиду "технологию", приемы анализа трендов для задач подобного типа
Предлагаю еще один способ анализа трендов - метод отношения правдоподобия. Сначала вы рассчитываете вероятность получить заболеваемости в отсутствие тренда slope=0. Потом при наличии тренда slope!=0. Потом делите одно на другое и полученное значение сравниваете с хи-квадрат статистикой. Этот метод широко известен, поэтому никакие "злопыхатели" к вам не смогут придраться.
Цитата(DoctorStat @ 25.11.2009 - 14:41)

... Этот метод широко известен, поэтому никакие "злопыхатели" к вам не смогут придраться.
Широко известен в узких кругах

. Буду Вам признателен за ссылку на более-менее толковый источник.
DrgLena
25.11.2009 - 12:23
Уважаемые коллеги-волонтеры (злопыхателей нет), поскольку Green не предоставила свои данные и не определилась, тренды или риски ей нужно продемонстрировать, предлагаю использовать ряд на моем рисунке в качестве подопытного кролика. Интересен результат по подходу и nokh и DoctorStat. Но в смысловом содержании интересует возможность на основании анализа тренда сделать прогноз, хотя бы на год или на два. Тогда такой анализ будет иметь смысл, каких то коек на следующий год нужно добавить, а каких то убавить. Ведь интересует не сам процесс анализа с использованием магических слов, да еще написанным математиком, тут уж доктора не только волю потеряют.
DrgLena
25.11.2009 - 12:55
Цитата(Green @ 25.11.2009 - 03:45)

3. Не стоит говорить так категорично, вы же ничего не знаете обо мне. Например, о том, что у меня техническое образование. Людей я не лечу.
Я говорю о подходе ремесленника, не важно, в каком деле.
Цитата(Green @ 25.11.2009 - 03:45)

А вот понять, зачем медики пишут в дескриптивном описании группы ошибку доли, я бы хотела. Но никто не может ответить. Вместо этого громкие фразы. Если несложно, ответьте на простой вопрос?
Ответ на простой вопрос. Первично не образование, а логика, но у каждого она своя, а у нас у женщин особенная. Зависит от того, какой смысл вы вкладываете в термин описательная статистика. Если в материалах и методах вы характеризуете группу исследования и пишете, что в группе из 3037 больных мужчин было 1218 (40,1%), а женщин 1819 (59,9%), то этого вполне достаточно. Но если вы хотите написать, что в изучаемой когорте больных диабетом?. типа преобладали женщины, то нужно привести статистические доказательства. Статистически различия в этих процентах будут зависеть от величины выборки. Приведите к этим процентам 95%ДИ и читатель сам сможет сделать выводы. А как посчитать, я давала ответ.
DoctorStat
25.11.2009 - 14:51
Цитата(nokh @ 25.11.2009 - 11:53)

Широко известен в узких кругах

. Буду Вам признателен за ссылку на более-менее толковый источник.
Метод отношения правдоподобия - наиболее мощный метод для проверки простых гипотез (а вы этого не знали?). Привожу суперавторитетные и мегатолковые источники и ссылки на этот метод (ведь вы этого достойны:) ):
1. Кендалл М., Стюарт А. "Статистические выводы и связи", Наука, 1973, СТР.301
2. Бочаров П.П., Печинкин А.В. "Теория вероятностей. Математическая статистика", Физматлит, 2005, СТР.213
Спасибо, Кендалл и Стюарт есть, читал/листал когда-то, пришло время углубиться. А про отношение правдоподобия - действительно не знал. В успокоение имеющей техническое образование Green, я по диплому о высшем образовании вообще учитель биологии и химии
nokh, спасибо!
Ткнули в нос. Эта работа свалилась внезапно, поэтому невнимательно прочла Закса. Хотя нет... проверила на нормальность, но Вы опять же правы, что можно проверить на ряде из 6 чисел...
Проверяла доли (процент от общего количества случаев), кстати.
Ну, критерии согласия не отрицали нормальность. Честно говоря, в спешке и не вспомнила об этом. Поэтому доли и пошли далее в критерий фон Неймана.
Я полностью согласна с Вами насчет того, что 6 последовательных чисел - это мало. Поэтому и обратилась на форум в выборе адекватных методов. Согласна и с нем, что временные последовательности не часто ведут себя линейно.
Короче говоря, мучают меня эти шесть точек...
Год Возбудитель А Возбудитель Б....Всего установлено случаев
2003 66 25 110
2004 60 16 105
2005 64 21 101
2006 33 27 74
2007 53 55 121
2008 38 47 102
Я не думала, что кому-то интересные конкретные числа. Это они.
=======
DoctorStat, спасибо и Вам.
Кстати, подход достаточно известен, например, по похожему принципу работает регрессия Кокса. Если не путаю
======
DrgLena, если бы я занималась ремесленничеством, зачем бы я подняла эту тему тут?
В том виде, в котором отчет попал ко мне, там были рассчитаны доли. И все.
".... то нужно привести статистические доказательства" - это уже НЕ описательная статистика. Так... к слову.
========
В данном анализе интересует не прогноз - сколько человек в следующем году подцепят возбудитель А или Б, а то, что процесс идет (или не идет), и надо принимать меры (или не надо), к тому, чтобы их снизить. Например, дополнительная санация помещений и прочее....Это помимо лечебных мероприятий.
Ждать и прогнозировать, что заболеет еще больше/меньше - как-то не хочется. На этих данных найти внятное понимание ситуации. Если меры будут приняты, то далее в течение еще нескольких лет мониторить динамику. Есть эффективность от этих мер или нет...
==
Пока писала, пришло сообщение nokh.
nokh, я спокойна, мне результат нужен, а не доказать на форуме, что я такая- сякая, знаю то или это.
- Вам шашечки или ехать?
Мне - ехать:)
DrgLena
25.11.2009 - 18:39
Конечно, ехать, снимается не корректно употребленный термин "ремесленничество". Будем стремиться к искусству. Большая просьба к nokh и DoctorStat показать, как можно проанализировать эти два ряда.
ОК, но быстро не сделаю: хочу попробовать ещё пуассоновскую регрессию которую предстоит освоить.
DrgLena
27.11.2009 - 21:46
Регрессионные модели для А я сделала и линейную и Пуассона, могу выложить, сравнить оценки, остатки т.т.д. Но не совсем понятно, как с трендом по Neumann.
Для А=средний квадрат (n-1) последовательных разностей =((66-60)^2+(60-64)^2+(64-33)^2+(33-53)^2+(53-38)^2)/5=327,6
Дисперсия=192,3
Отношение =1,7 в таблице критич. знач для n=6 и 5% уровня 0,89 и нулевая гипотеза не отклоняется.
Для болезни Б отношение =192/241=0,82 что ниже критического и принимается гипотеза о наличие тренда. Green, что у меня не так?
Не понятна для меня идея DoctorStat относительно использования LR для этих данных, поскольку оценить вероятность получить заболевание можно только если есть альтернатива ( не заболел), а в этих данных все больные.
DrgLena
27.11.2009 - 22:17
Меня, все же, интересует прогноз, поэтому регрессия для болезни А.
По пуссоновой регрессии, значимы оба коэффициента:
Intercept b0=215,6032 (р=0,001279)
и year b1=-0,1055 (р=0,001570)
Предсказанные значения
67
60
54
49
44
40
36 (2009)
ПО линейной регрессии
Intercept b0=11053,93 (р=0,091)
и year b1=-5,490 (р=0,0925)
66
61
55
50
44
39
33(2009)
Прогноз по временному ряду при различных типах экспоненциального сглаживания для А, различные методы (Linear Trend, Double Smooth, Holt's Linear Trend) дают различные Pseudo R-Squared, Mean Square Error, Intercept (A), Slope (B) и естественно прогноз, на один год вперед соответственно перечисленным методам 33, 39 и 30 случаев. Максимум Pseudo R-Squared и мин ошибки при Forecast Method -Linear Trend.
DoctorStat
27.11.2009 - 22:25
Цитата(DrgLena @ 27.11.2009 - 21:46)

Не понятна для меня идея DoctorStat относительно использования LR для этих данных, поскольку оценить вероятность получить заболевание можно только если есть альтернатива ( не заболел), а в этих данных все больные.
Применение метода отношения правдоподобия для проверки наличия линейного временнОго тренда в вероятности заболевания. Предположим, что распределение наступления болезни подчиняется биномиальному закону. У нас есть результаты испытаний (известные величины) в виде объема выборки n и числа случаев заболеваний m по нескольким последовательным годам. Есть две неизвестные величины, которые нужно рассчитать, вероятность заболевания для одного человека в год p и ее годовой тренд deltap. Основной вопрос исследования: тренд deltap равен нулю или нет (заболеваемость меняется или нет)? Для ответа на этот вопрос нужно проверить статистическую гипотезу методом отношения правдоподобия. Сначала найдем максимальную вероятность L1 (правдоподобие без ограничений) получения наших данных, не налагая ограничений на p и deltap с помощью перемножения отдельных биномиальных вероятностей и дифференцирования произведения по p и deltap (это сделать непросто!). Аналогично найдем максимальную вероятность L0 (правдоподобие с ограничениями) в предположении, что тренда нет: deltap=0. Далее, вычисляем величину Lambda=ln[L1/L0]. Величина Lambda асимптотически (когда наблюдений много) распределена по закону хи-квадрат с (количество неизвестных-1)=1 степенью свободы. Следовательно, выбирая уровень значимости alfa (обычно alfa =0.05), если Lambda больше критического значения хи-квадрат, то тренд присутствует и наоборот.
Цитата(DrgLena @ 28.11.2009 - 00:46)

Регрессионные модели для А я сделала и линейную и Пуассона, могу выложить, сравнить оценки, остатки т.т.д.
Тоже сделал, только что. Описанные выше преимущества корреляции Спирмена для этих данных не работают, т.к. тренды не монотонные и корреляция не равна 1. Пуассоновская регрессия оказалась примитивной - та же линейная OLS, только зависимая переменная предварительно логарифмируется через ln. Пока разбирался нашёл хорошую бесплатную программу, в которой в результате всё и обсчитал. Через х обозначил количество больных заболеванием A, В или С, через АВС их сумму, через у - долю больных (в %) заболеванием A, В или С. Итак для данных Green имеем:
1). Общее количество больных не изменялось статистически значимо за период 2003-2008 гг.
Пуассоновская регрессия ln(ABC)=10,619138-0,002978*Year; Р=0,944.
2). Для всех трёх заболеваний тренды изменения доли больных хорошо описывались обычной пуассоновской регрессией без выраженных изломов. Необходимость разбиения тренда на 2 части для заболеваний А, В и С была незначима (соответственно: Р=0,154, Р=0,588 и Р=0,987).
3). Заболевание А. Пуассоновская регрессия с учётом общего количества больных: ln(у)=202,645592-0,095643*Year. Снижение, тренд статистически значим: Р=0,025446. Среднегодовое процентное изменение (Average Annual Percent Change - AAPC) = -9,1 (95%ДИ: -13,9; -4,1).
4). Заболевание B. Пуассоновская регрессия с учётом общего количества больных: ln(у)=-393,500771+0,201350*Year. Рост, тренд статистически значим: Р=0,019299. AAPC=22,3 (95%ДИ: 10,2; 35,7).
5). Заболевание C. Пуассоновская регрессия с учётом общего количества больных: ln(у)=185,996767-0,087859*Year. Снижение, тренд статистически незначим: Р=0,29222. AAPC = -8,4 (95%ДИ: -20,5; 5,6).
6). Таким образом, наблюдаемые изменения в структуре заболеваемости ABC связаны со снижением доли больных заболеванием А и ростом доли больных B, причём темпы роста доли В в 2,5 раза превышают темпы снижения доли А: величины среднегодового процентного изменения составили соответственно 22,3 (95%ДИ: 10,2; 35,7) и -9,1 (95%ДИ: -13,9; -4,1).
Программу можно скачать здесь:
http://srab.cancer.gov/joinpoint/download.html , а почитать про подход с кусочными регрессиями и расчётом по ним AAPC здесь:
http://srab.cancer.gov/joinpoint/aapc.html .Преимущество этой программ по сравнению с обычным в эпидемиологии использованием пуассоновской регрессии - возможность учёта размера выборки (колонка Population) при оценках пуассоновской регрессии, т.е. по сути взвешивание каждого наблюдения, а также возможность анализа сложных трендов с изломами и статистическая оценка необходимости введения в модель таких изломов.
Цитата(DrgLena @ 28.11.2009 - 00:46)

Но не совсем понятно, как с трендом по Neumann...
Этот анализ не делал, но подозреваю в чём причина. Тренды становятся заметными и статистически значимыми при переходе от абсолютных частот к относительным. Предоставленные Green цифры нужно предварительно перевести в доли от общего числа заболеваний (раз речь идёт о структуре), а затем преобразовать через натуральный логарифм или лучше через угловые преобразования для долей (например, фи-преобразование у=2*arcsin SQRT(p), где р-доля в долях единицы).
Вроде разобрались. Удивительно сколько цифр можно получить из исходных 18
Цитата(DrgLena @ 28.11.2009 - 01:17)

... Прогноз по временному ряду при различных типах экспоненциального сглаживания для А, различные методы (Linear Trend, Double Smooth, Holt's Linear Trend) дают различные Pseudo R-Squared, Mean Square Error, Intercept (A), Slope (B) и естественно прогноз, на один год вперед соответственно перечисленным методам 33, 39 и 30 случаев. Максимум Pseudo R-Squared и мин ошибки при Forecast Method -Linear Trend.
В какой программе Вы считали этими методами?
DrgLena
28.11.2009 - 00:03
Пуассонову регрессию я провела в двух программах и получила одинаковые результаты, коэффициенты несколько отличаются от ваших, у меня ln(y)=215,603-0,10554*year в Statistica 8 и в NCSS. Точность коэффициентов сильно влияют на точность расчетных значений и естественно на остатки.
Временные ряды тоже в NCSS.
Заболевания С по моему не было, это была сумма всех. Доля от всех заболеваний мне кажется не интересной, поскольку нет здоровых, то тренд по каждому заболеванию вполне достаточен.
Для меня не ясно, на каком основании сделано предположение о распределении Пуассона, как это проверить, для проверки нормальности в программе AttеStat 16 критериев, ни один не отрицает нормальность, но помним, что только 6 точек.
Коэффициенты потому и отличаются, что я анализировал проценты, а Вы - абсолютные частоты. Если бы речь шла об отдельных заболеваниях, тогда переходить к %, конечно, не имеет смысла; прогноз также нужно делать по абсолютным частотам. Но в начале темы речь шла о СТРУКТУРЕ заболеваемости, а структура подразумевает СООТНОШЕНИЯ между переменными - потому работал с %. Также в начале темы речь шла о 3 заболеваниях и их сумме, но Green выложила цифры только по двум и общее число. Поэтому заболевание C "додумал" как разность между общим и суммой А+В.
Распределение Пуассона можно предполагать на основании типа самих данных: это счёт в единицу времени (равно как радиоактивный распад, как число телефонных звонков за период, как кол-во мутаций на поколение, а также близко к количеству изюминок на кусок булки, число плодовых деревьев на село и т.п.).
DrgLena
28.11.2009 - 00:44
Nokh, спасибо, стало понятней, но все же, на бытовом уровне представление есть, арифметики не хватает.
Так Вы - врач, я - эколог, откуда браться арифметике? С другой стороны наслышан о сложностях прикладного анализа данных, выполненного с привлечением профессиональных математиков: их не понимают ни аспиранты, ни члены совета (подозреваю, что могут не понимать и просто другие профессиональные математики). Поэтому кое-где и бытового уровня вполне хватает - коллеги и редакции ведь понимают.
DrgLena
28.11.2009 - 01:24
Это среди математиков, я врач, а среди врачей - математик. Университет дал основу для самообразования. Системное университетское образование по органической химии. Но в арифметике, я думаю мы разобраться сможем, там ведь с логикой все в порядке.
nokh, LrgLena, DoctorStat - всем спасибо!
nokh, я тоже нашла JoinPoint

.
В принципе annual percent change следует из логлинейной модели. Если он статистически отличен от нуля, то частота возникновения заболеваний увеличивается ( уменьшается).
По-моему, это и есть доказательство наличия тренда в анализируемых данных ( которые изменяются во времени).
Очень смущало, что мало данных.
Но, кстати, в JP используют модели с весами точек. Гетероскедастические ошибки учитывают ( ох

)
Еще раз всем спасибо!
DrgLena,
число событий в единицу времени (Пуассон) - это составной" признак.
В литературе видела, что такие данные относят как к номинальным, так и количественным.
Отсюда - сложность анализа и понимания, какими именно критериями можно пользоваться.
nokh,
1. почему вы считали доли для JP?
Что страшного работать с этими цифрами напрямую? Во всяком случае авторы JP не разу не говорят о долях.
Поясните, почему вы перешли к долям? (по APC результат не будет отличаться, это относительная характеристика). Поэтому интересует "смысловое" обоснование.
2. Я проанализировала также общее кол-во случаев с помощью JP. При отсутствии (jp=0) точек излома, достоверный APC отсутсвует.
При этом анализ по возбудителям дает значимые изменения. Отсюда вывод о реструктуризации.
Но... ради интереса посмотрите анализ общего кол-ва при jp=1.
Я это называю уже "жонглированием". Игры с числами и моделями....
на 6 точках излом достоверный найти...
Цитата(Green @ 30.11.2009 - 14:10)

В принципе annual percent change следует из логлинейной модели. Если он статистически отличен от нуля, то частота возникновения заболеваний увеличивается ( уменьшается).
Не верно. Аnnual percent change совсем не обязательно опирается на модель. Например, мы можем вручную рассчитать %-ный прирост в каждый последующий год относительно предыдущего, а затем найти их среднее. Только такой AAPC будет включать ошибку разброса значений относительно тренда. Поэтому можем ввести какой-либо эмпирический метод сглаживания, типа скользящего среднего и считать AAPC по таким сглаженным данным - будет точнее. А можем ввести модель (линейную, логлинейную, пуассоноскую и.т.д. - какая более адекватна для конкретных данных) и считать AAPC по ней - самый сложнй, но и самый надёжный метод сглаживания.
Цитата(Green @ 30.11.2009 - 16:13)

nokh,
1. почему вы считали доли для JP?
Что страшного работать с этими цифрами напрямую? Во всяком случае авторы JP не разу не говорят о долях.
Поясните, почему вы перешли к долям? (по APC результат не будет отличаться, это относительная характеристика). Поэтому интересует "смысловое" обоснование.
Ваши слова (выделение моё):
Цитата(Green @ 20.11.2009 - 19:31)

... Как вариант - показать, что( к примеру) Б1 растет в удельном количестве по сравнению с Б2, который падает, а Б3 не изменился за эти годы.
Цитата(Green @ 23.11.2009 - 21:46)

...По графикам видно, что общее количество случаев в году - приблизительно одинаково, однако структура за 6 лет меняется, т.е. кол-во случаев заболевания из-за возбудителя А падает, из-за возбудителя В - растет, два последних - приблизительно на одном уровне.
Отсюда я сделал вывод, что вас интересует структура, т.е. относительные изменения. К сожалению не нашёл быстро определения "структуры заболеваемости", но в литературе оно используется как ОТНОСИТЕЛЬНАЯ мера. Если не собственно %, то количество заболеваний на 100 тыс. населения, а это опять же 0,001%. Если обсуждать отдельные заболевания - переходить к % не нужно. Плюсов в переходе к % не вижу, если есть конкретные цифры - лучше работать с ними, т.к. переход к композиционным данным сопровождается потерей информации (знаю как мучаются с ними геологи). Может просто эпидемиологи не всегда имеют raw данные и вынуждены работать с долями и называют это структурой? Можно ли назвать структурой просто количества заболеваний - не знаю, скорее всего - нет: по-моему это будет просто заболеваемость, а не структура заболеваемости. Т.о. смысловое обоснование упирается в смысл терминов.
Цитата(Green @ 23.11.2009 - 21:46)

2. ... ради интереса посмотрите анализ общего кол-ва при jp=1.
Я это называю уже "жонглированием". Игры с числами и моделями....
на 6 точках излом достоверный найти...

А я смотрел, но он был незначим. Так что никакого жонглирования. Перестановочный (Permutation) тест для гипотезы о необходимости введения точки перелома даёт p=0.441.
nokh,
в пакете JP я выставила модель "using Count" для оценки трендов общего кол-ва заболеваний. На модели с одной точкой перелома оценки тренда
2006 -7.16* -9.74 -4.51
2008 12.52* 6.51 18.87
т.е. сначала значимое убывание, потом значимое возрастание. Это меня насторожило. Не сообразила, что еще модели сравниваются между собой.
ушла учить мат. часть дальше

Остальное понятно. Мои слова были сказаны, когда я искала подходящие модели.
Спасибо еще раз!
nokh, я еще поспрашиваю.
В дополнение к предыдущему посту.
Модели с разным кол-вом изломов сравниваются между собой с помощью permutation test.
Между моделью с JP=0 и JP=1 значимой разницы нет, получается так?
Отсюда "странный" вывод, что сказать "С 2003 по 2008 значимого тренда нет" и "С 2003 по 2006 было значимое снижение заболеваемости, а с 2006 по 2008 был значимый рост" - одно и тоже?
Что на самом деле выявляет permutation test?
Цитата(Green @ 1.12.2009 - 23:20)

...Между моделью с JP=0 и JP=1 значимой разницы нет, получается так?
Не так. Если прочитаете внимательно, то увидите, что тестируется не равенство моделей, а нулевая гипотеза JP=0 против альтернативной JP=1. Поскольку оснований для отклонения нулевой гипотезы нет (P>>0.05) - она остаётся в силе, т.е. JP=0.
Цитата(Green @ 1.12.2009 - 23:20)

Что на самом деле выявляет permutation test?
Точного определения не дам, расскажу как понимаю сам, хотя в деталях могу ошибаться. Перестановочные или точные методы относятся к группе ресэмплинг-методов, т.е. методов, где из исходных выборок (sample) генерируются новые повторные выборки (отсюда и resampling). Эти выборки обрабатываются с помощью обычных уместных в данном случае статистик и расчитывается P. Затем генерируются новые выборки, считается статистика, рассчитывается P, и такие циклы многократно повторяются. В результате получается большое количество оценок P и из них находится самая вероятная точечная (например, медиана распределения оценок P), а также можно получить интервальную оценку P. Разные методы отличаются деталями. Если повторные выборки генерируются случайным образом и того же объёма что исходные, а количество выборок задаётся исследователем (например 100, 999, 10 тыс. ...) - имеем бутстреп (bootstrap). Если выборки генерируются удалением из них одного наблюдения - имеем метод складного ножа (jack-knife). Если же из исходных данных генерируются все возможные выборки и обрабатываются во всех возможных комбинациях - имеем перестановочный или точный метод (exact, permutation), т.к. в этом случае возможен точный расчёт Р, а не наибоелее вероятная его оценка. Из всех ресэмплинг-методов точный метод является наиболее вычислительно затратным (иногда недосягаемым для настольных систем) и поэтому требует грамотно написанных алгоритмов. Программы с такими возможностями - продвинутые продукты. Примерно так.
понятно, спасибо!
поскольку занималась анализом данных, о таких процедурах представление имею. В machine learning есть понятие cross-validation. Вариантов процедур много, но принцип общий.
===
По поводу вопроса:
"Что на самом деле выявляет permutation test?"
В JP-help написано: используется последовательность тестов для определения финальной модели.
Каждый из них тестирует нулевую гипотезу H0: k=ka vs альтернативной H1: k=kb.
первый этап ka=Kmin vs kb=Kmax.
Это понятно.
Меня интересовало, что считается? Как оценивается разница в регрессиях? Грубо говоря, есть две линии, прямая и ломаная. Каким-то образом оценивают разницу между ними. Интересовало - каким образом.
Полагаю, что Resiudals работают.
Возможно, mean function...
Permutation tests for joinpoint regression with applications to cancer rates. Kim HJ, Fay MP, Feuer EJ, Midthune DN.
По-видимому, в этой работе описано, как это делается, что именно считается.
Буду искать

P.S. Это уже любопытство. А работа сделана. Всем спасибо!
Почему для решения задачи выделения годового тренда не воспользоваться сингулярным спектральным анализом или гармоническим анализом Фурье (гармоническим регрессионным анализом)?
Только мое мнение:
ССА требует значительно больше наблюдений
ГАФ - вопрос интерпетации результата.
Полагаю, что модель, используемая в JP
1. хорошо интерпретируется
2. JP - создавалось под такой класс задач ( эпидемиологический статанализ)
Игорь, я еще добавлю рассуждение такого плана:
Приведенные Вами методы предназначены для анализа непрерывных величин.
Например, ССА используется для анализа котировок рынка. В любой момент времени мы можем измерить стоимость акции.
Но количество событий мы можем посчитать только за некоторый период времени.
Природа данных разная. Количество событий - несет в себе кумулятивный эффект.
Дискретная и непрерывная природа данных.
Не хотелось бы лезть в философский аспект, но временная точка съема некоторых характеристик - это не то же самое, что куммулятивный эффект за период времени.
Как-то так...