Форум врачей-аспирантов [Форум Invision Power Board]

Автор: Гематолог 12.11.2013 - 00:47

Друзья, я знаю, что когда-то эта тема обсуждалась.
Тем не менее, нужна помощь.
Я имею данные о заболеваемости и смертности по своему региону от одного из заболеваний системы крови за 5 лет.
Будет поставлен вопрос о статистической значимости колебаний показателей между различными годами.
Я ей богу не помню, как здесь правильно поступить - представить доверительный интервал для долей или поработать с критериями.
Спасибо за подробный ответ!

Автор: paravoz 12.11.2013 - 01:17

Доверительный интервал здесь скорее всего не поможет.
Во-первых, вы имеете генеральную совокупность (если вы будете делать выводы о регионе) и меры разброса данных, такие как стандартное отклоение и доверительный интервал, на ней не расчитываются.
Во-вторых, вы их и не сможете посчитать потому что для расчетов мер разброса показателей необходим объем выборки, а в данном случае показатель (заболеваемость) и есть объем выборки.

В общем, при анализе временных рядов используются такие показатели как прирост, темп прироста и т.д. и они являются априори точными, так как представляют собой генеральную совокупность.

Автор: nokh 12.11.2013 - 20:15

Я думаю, что ДИ, всё-таки можно использовать. Ведь региональные данные - только часть какой-то более крупной генеральной совокупности, скажем РФ. Это становится особенно видно, если сравнивать статистически региональные данные с общероссийскими, или с соседними регионами. Ведь численность населения известна, можно рассчитать доли и 95%-ный ДИ, например по Клопперу - Пирсону.

Автор: DrgLena 12.11.2013 - 23:23

Цитата(Гематолог @ 12.11.2013 - 00:47)

Друзья, я знаю, что когда-то эта тема обсуждалась.

Обсуждалась и довольно подробно. Нет смысла повторять.
Можно только добавить, что недавно на форуме 5.11.2013 - 13:47
TheThing выложил калькулятор, где можно рассчитать индексы заболеваемости, а также на примере показано сравнение индексов заболеваемости во Флориде и Аляске, а также стандартизация индексов и согласование по возрастным категориям. За что ему большое спасибо!
Посмотрите два последних листа .

Автор: Гематолог 13.11.2013 - 12:02

Спасибо Большое всем ответившим экспертам! Посмотрю ветку, которую указывает DrgLena. На более ранних ветках попалось обсуждение про применение
Z-критерия в подобных случаях. Но, исходя из его природы и условия, думаю, это не вариант...
Спасибо!

Автор: paravoz 13.11.2013 - 15:32

Цитата(nokh @ 13.11.2013 - 01:15)

Я думаю, что ДИ, всё-таки можно использовать. Ведь региональные данные - только часть какой-то более крупной генеральной совокупности, скажем РФ. Это становится особенно видно, если сравнивать статистически региональные данные с общероссийскими, или с соседними регионами. Ведь численность населения известна, можно рассчитать доли и 95%-ный ДИ, например по Клопперу - Пирсону.

Доля рациональности есть, особенно в том, что ДИ расчитать можно, но это не правильно. Заболеваемость и смертность это официальные показатели санитарной статистики РФ. Они имеют конкретные методики расчета, простые, но тем не менее они эти методики имеют. У них не может быть ни ошибок, ни стандартных отклонений, ни ДИ. Если заболеваемость, например туберкулезом, равна 4 532 на 100 000 населения, то ни каких плюсов/минусов быть не должно, это официальная статистика.
Другой вопрос если вы основываете свою работу на недостатках официальной статистики.
Например, официальная заболеваемость ХОБЛ в регионе 10,2 на 1000 населения. Проводим углубленное обследование 6000 человек с ранее не установленным диагнозом ХОБЛ и среди них находим 54 больных (то есть 9 на 1000 населения). Таким образом, делаем вывод о несоответствии официальной заболеваемости 10,2 и истиной заболевемости 10,2+9=19,2 на 1000 населения. Но тем не менее никакого плюс/минуса.

А сравниваются показатели в различных регионах тоже очень просто. Регион 1 - заболеваемость ХОБЛ - 15,6 на 1000 населения, Регион 2 - 12,3 на 1000 населения. Вывод: в Регионе 1 заболеваемость ХОБЛ выше чем в Регионе 2 на 3,3 на 1000 населения. И, по-моему, этого достаточно без всяких ошибок.

С точки зрения расчета мер разброса, то население региона это не объем выборки. Вот если считать среднее по России, то при расчете ошибки среднего и ДИ число регионов России будет объемом выборки, а в случае расчетов в одном регионе такой номер не пройдет.

На самом деле, это мое личное мнение, основанное на том, что ни разу не встречался с мерами разброса для показателей официальной статистики, но вопрос интересный.

Готов вежливо подискутировать.

Автор: Гематолог 13.11.2013 - 23:54

Цитата(nokh @ 12.11.2013 - 21:15)

Я думаю, что ДИ, всё-таки можно использовать. Ведь региональные данные - только часть какой-то более крупной генеральной совокупности, скажем РФ. Это становится особенно видно, если сравнивать статистически региональные данные с общероссийскими, или с соседними регионами. Ведь численность населения известна, можно рассчитать доли и 95%-ный ДИ, например по Клопперу - Пирсону.

А для оценки РАЗЛИЧИЯ заболеваемости между различными годами (например 2011 и 2012) можно ли использовать Z-критерий?

Автор: paravoz 14.11.2013 - 09:40

Цитата(Гематолог @ 14.11.2013 - 04:54)

А для оценки РАЗЛИЧИЯ заболеваемости между различными годами (например 2011 и 2012) можно ли использовать Z-критерий?

Здесь не нужно никаких критериев. Если у вас заболеваемость по всему региону, то это генеральная совокупность. Если вы имеете данные по генеральной совокупности, не требуется рассчитывать никаких мер разброса и никаких критериев. Любое изменение в динамике показателей заболеваемости генеральной совокупности является достоверным, то есть 100-процентным. Можете смело говорить, что темп прироста в 2012 году по сравнению с 2011 годом составил ..., или показатель заболеваемости в 2012 году по сравнению с 2011 годом вырос на ...%. И не нужны никакие плюсы/минусы и p-шки.

Автор: Гематолог 14.11.2013 - 22:17

Цитата(paravoz @ 14.11.2013 - 10:40)

Здесь не нужно никаких критериев. Если у вас заболеваемость по всему региону, то это генеральная совокупность. Если вы имеете данные по генеральной совокупности, не требуется рассчитывать никаких мер разброса и никаких критериев. Любое изменение в динамике показателей заболеваемости генеральной совокупности является достоверным, то есть 100-процентным. Можете смело говорить, что темп прироста в 2012 году по сравнению с 2011 годом составил ..., или показатель заболеваемости в 2012 году по сравнению с 2011 годом вырос на ...%. И не нужны никакие плюсы/минусы и p-шки.

Спасибо, Уважаемый PARAVOZ!
Я прошел на ветку, которую мне рекомендовали выше (не Вы), с приложенным калькулятором, но увы, она совсем не по теме.
Мне не надо вычислять заболеваемость и смертность.
У меня уже ЕСТЬ эти данные.
Вопрос состоял в сравнении между годами.
Как я Вас понял при сравнении МЕЖДУ годами, я могу ограничиться разностью заболеваемостей К2-К1 и темпом прироста - (К2-К1)/К1*100% .
Но. В своем ответе Вы затронули еще одну тему - сравнение показателей со средними по России.
Наш отдел статистики как раз и предоставляет диаграммы-столбики по нашему региону по годам в сравнении со "столбиком" - СРЕДНЯЯ ЗАБОЛЕВАЕМОСТЬ (ИЛИ СМЕРТНОСТЬ) ПО РФ по годам...
Можете чуть подробнее прояснить, как КОРРЕКТНО "сравниваться" с общероссийскими данными?
Я понимаю, что здесь многое зависит от содержательной ТРАКТОВКИ.
Но вполне возможна ситуация, когда отдельный регион ОЧЕВИДНО выделяется в заболеваемости или смертности от "среднего по России" по какому-то лейкозу или раку.
Как здесь грамотно использовать математический аппарат?
Спасибо за помощь!

Автор: paravoz 15.11.2013 - 04:26

Цитата(Гематолог @ 15.11.2013 - 03:17)

Спасибо, Уважаемый PARAVOZ!
Я прошел на ветку, которую мне рекомендовали выше (не Вы), с приложенным калькулятором, но увы, она совсем не по теме.
Мне не надо вычислять заболеваемость и смертность.
У меня уже ЕСТЬ эти данные.
Вопрос состоял в сравнении между годами.
Как я Вас понял при сравнении МЕЖДУ годами, я могу ограничиться разностью заболеваемостей К2-К1 и темпом прироста - (К2-К1)/К1*100% .
Но. В своем ответе Вы затронули еще одну тему - сравнение показателей со средними по России.
Наш отдел статистики как раз и предоставляет диаграммы-столбики по нашему региону по годам в сравнении со "столбиком" - СРЕДНЯЯ ЗАБОЛЕВАЕМОСТЬ (ИЛИ СМЕРТНОСТЬ) ПО РФ по годам...
Можете чуть подробнее прояснить, как КОРРЕКТНО "сравниваться" с общероссийскими данными?
Я понимаю, что здесь многое зависит от содержательной ТРАКТОВКИ.
Но вполне возможна ситуация, когда отдельный регион ОЧЕВИДНО выделяется в заболеваемости или смертности от "среднего по России" по какому-то лейкозу или раку.
Как здесь грамотно использовать математический аппарат?
Спасибо за помощь!

При сравнении со средней заболеваемостью или смертностью по РФ нужно понимать откуда она взялась. Если это данные официальной статистики со всех регионов с последующим расчетом средней заболеваемости и смертности, то это средняя заболеваемость или смертность генеральной совокупности. В таком случае вы не то чтобы можете, а должны, ограничится обычным сравнением показателей без всяких плюсов/минусов и критериев. Например, показатель заболеваемости лейкозом N края/области превышает средние показатели по РФ на ...%. И все.
В том случае если средняя заболеваемость по РФ рассчитывалась кем-то как-то анкетно или по выборочным данным, то на таких показателях основываться вообще нельзя. То есть нельзя сравнивать официальные данные по заболеваемости и смертности вашего региона с такими средними по РФ. Берите официальную статистику с сайта Росстата и работайте с ней.

Самым грамотным подходом в данном случае является сравнение двух регионов или одного региона со средними по РФ, это сравнение стандартизованной заболеваемости и смертности.
Стандартизованная заболеваемость - это заболеваемость и смертность пересчитанные в соответствии с возрастно-половой структурой населения. Понятно, что если в структуре населения региона преобладают женщины, то гинекологических заболеваний будет больше чем в регионе с преобладанием мужчин. Поэтому наиболее грамотно, если у вас в работе это является основным разделом, сравнивать стандартизованные показатели заболеваемости и смертности. Так делает ВОЗ.
Но к сожалению официальной статистики заболеваемости по полу и возрасту в России не ведется. Но она ведется по смертности. В связи с этим, заболеваемость сравниваете обычным способом, но повторюсь, что без плюсов/минусов и различных критериев. А смертность сравниваете уже стандартизованную, но опять же без плюсов/минусов и критериев.

При расчете стандартизованных показателей возникает вопрос, к какой возрастно-половой структуре приводить смертность. Если сравниваете свой регион с другим, то для удобства восприятия лучше привести смертность другого региона в соответствии с возрастно-половой структурой вашего региона. Если сравниваете с показателями по РФ, то лучше привести в соответствие со структурой РФ. Наилучшим подходом, все-таки, является приведение смертности к европейской структуре населения. Она есть на сайте ВОЗ. В таком случае вы или кто-либо другой читающий вашу работу сможете сравнивать практически со всеми странами. ВОЗ приводит данные, как правило, именно в стандартизованном в соответствии с европейской структурой населения виде.

Автор: nokh 15.11.2013 - 13:47

Цитата(paravoz @ 13.11.2013 - 18:32)

На самом деле, это мое личное мнение, основанное на том, что ни разу не встречался с мерами разброса для показателей официальной статистики, но вопрос интересный.
Готов вежливо подискутировать.

К сожалению, здесь я недостаточно компетентен для дискуссий, т.к. тоже почти не сталкиваюсь с официальной статистикой. Но, в целом, я вообще скептически отношусь к замыканию задач на генеральной совокупности (ГС) и отказе от статистики. Возьмём не регион, а конкретный дом, который стоит под трубами конкретного промышленного предприятия и в котором из конкретных проживающих 500 людей 50% страдают онкологией. Раз всё конкретно, значит это - ГС. Встаёт вопрос: расселять дом или нет (вопрос не праздный, скажем в Челябинске ещё в советские времена выселили несколько домов по ул. Механической - ближайшей зоне влияния электрометаллургического комбината, раньше почти пустовали, сейчас там офисы). Для экспертизы по вопросу придётся забыть, что это - маленькая ГС, придётся ставить её в ряд с другими, оценивать вероятности (не)случайности такого положения. То же самое далее - если прогнозировать кто заболеет, кто умрёт, кто родится или нет... При любой задаче прогноза границы ГС сразу размываются во времени.

Цитата(Гематолог @ 14.11.2013 - 02:54)

А для оценки РАЗЛИЧИЯ заболеваемости между различными годами (например 2011 и 2012) можно ли использовать Z-критерий?

Он используется для независимых выборок, а у вас они частично зависимые: преимущественно те же люди. Но только преимущественно: кто-то приехал-уехал, родился-умер. Поэтому считаю ДИ наиболее уместными. Но, как уже написал выше, на вашем поле не играю, поэтому не навязываю, ориентируйтесь на толковые работы в своей области.

Автор: paravoz 15.11.2013 - 16:15

Цитата(nokh @ 15.11.2013 - 18:47)

К сожалению, здесь я недостаточно компетентен для дискуссий, т.к. тоже почти не сталкиваюсь с официальной статистикой. Но, в целом, я вообще скептически отношусь к замыканию задач на генеральной совокупности (ГС) и отказе от статистики. Возьмём не регион, а конкретный дом, который стоит под трубами конкретного промышленного предприятия и в котором из конкретных проживающих 500 людей 50% страдают онкологией. Раз всё конкретно, значит это - ГС. Встаёт вопрос: расселять дом или нет (вопрос не праздный, скажем в Челябинске ещё в советские времена выселили несколько домов по ул. Механической - ближайшей зоне влияния электрометаллургического комбината, раньше почти пустовали, сейчас там офисы). Для экспертизы по вопросу придётся забыть, что это - маленькая ГС, придётся ставить её в ряд с другими, оценивать вероятности (не)случайности такого положения.

Ввели вы меня в очень долгий и тяжелый процесс размышления по этому поводу. Но тем не менее вроде сообразил.
Можно решить эту задачу несколькими способами.

Можно взять дом подальше от завода, посмотреть там сколько в структуре занимает онкология. Затем взять дом чуть дальше и опять расчитать. В общем так можно до бесконечности, все дальше и дальше. В том случае если доля онкологии в структуре заболеваемости взятых домов снижается по мере увеличения расстояния от завода, то завод оказывает онкогенное влияние. Все это без ошибок, ДИ и различных критериев.

Второй способ. Он по изящнее. Взять долю онкологии в структуре заболеваемости региона или города и сравнить с долей онкологии в структуре заболеваемости дома. Но опять без ошибок, ДИ и критериев.

Третий способ. Я бы воспользовался им. Рассчитать стандартизованную заболеваемость онкологией в регионе или городе и стандартизованную заболеваемость онкологией в доме для исключения влияния возрастно-половой структуры населения дома. Вдруг там средний возраст проживающих 95 лет. После рассчета просто сравниваем и все, опять же без ошибок, ДИ и критериев.

Конечно можно взять второй дом и посчитать, к примеру, Хи-квадратом все это дело, но по мне, так это не правильно. Сейчас попробую еще кое-как порассуждать.

Предположим мы в вашем примере берем население дома за генеральную совокупность и одновременно рассматриваем как выборку для расчета мер разброса. Далее расчитываем ошибку доли и далее ДИ с доверительной вероятностью 95%. Таким образом, у нас получается доля онкологии в структуре заболеваемости дома составляет 50+-4,38%. Что это значит? Это значит что в генеральной совокупности доля онкологии в структуре заболеваемости должна находится с 95% вероятностью в диапазоне от 45,62% до 54,38%, что противоречит тем данным, что у нас есть - доля онкологии в структуре составляет 50% и это 100-процентнов этом доме. Таким образом ДИ не может выполнить своей фунции экстраполяции результатов на генеральную совокупность, а соответственно и не требуется его расчитывать в данном случае.
Такая ситуация возникает если вы берете дом за генеральную совокупность и выборочную одновременно. Этого не может быть. Совокупность должна быть либо выборочной, либо генеральной. В случае с отдельно стоящим домом я бы его жителей принял за генеральную совокупность. Сколько раз из жителей этого дома не выбирай по 500 человек доля онкологии все равно будет составлять 50% - никакого разброса и вероятностного распределения.

Цитата(nokh @ 15.11.2013 - 18:47)

То же самое далее - если прогнозировать кто заболеет, кто умрёт, кто родится или нет... При любой задаче прогноза границы ГС сразу размываются во времени.

При прогнозе согласен. Это ведь прогноз он не 100%, поэтому вероятностная характеристика прогнозируемых показателей должна быть расчитана и показана.

Ну вот, вроде такова логика моя в данном вопросе. Может кого-то еще подключить попробовать? Подсказывайте.

Автор: DrgLena 16.11.2013 - 00:11

Цитата(Гематолог @ 14.11.2013 - 22:17)

Мне не надо вычислять заболеваемость и смертность.
У меня уже ЕСТЬ эти данные.
Вопрос состоял в сравнении между годами.

Распространенность заболевания А на 100.000 населения по некоторым странам восточной Европы составила
6,2
10,1
7,5
13,0
9,0
12,5
По западной Европе индекс распространенности этого заболевания составил 5,9 .
Задача сравнения среднего индекса распространенности по восточной Европе с западной Европой сводится к задаче сравнения выборки с константой по критерию стьюдента:
Средний индекс по восточной Европе 9,7 статистически значимо превышает западноевропейский 5,9 (t=3,46; р=0,018)
Нужный вам год для сравнения всех остальных вы можете выбрать аналогично.

Я сама не могу найти нужную ветку на форуме, где обсуждалась подобная тема, в частности ДИ к индексам, попытки их построить часто приводили к отрицательным значениям. Я разделяю мнение paravoz, что демонстрация динамики не обязательно должна сопровождаться критериями, процент изменения вполне демонстрирут характер изменений в распространенности.

Автор: paravoz 16.11.2013 - 06:31

Цитата(DrgLena @ 16.11.2013 - 05:11)

Распространенность заболевания А на 100.000 населения по некоторым странам восточной Европы составила
6,2
10,1
7,5
13,0
9,0
12,5
По западной Европе индекс распространенности этого заболевания составил 5,9 .
Задача сравнения среднего индекса распространенности по восточной Европе с западной Европой сводится к задаче сравнения выборки с константой по критерию стьюдента:
Средний индекс по восточной Европе 9,7 статистически значимо превышает западноевропейский 5,9 (t=3,46; р=0,018)
Нужный вам год для сравнения всех остальных вы можете выбрать аналогично.

Если вы имеете данные о распространенности заболевания А только по некоторым странам Восточной Европы, а вывод собираетесь делать по всей Восточной Европе, то вы имеете дело с выборочными данными и вополне можете расчитывать меры разброса и точности (ошибку, стандартное отклонение, дисперсию или ДИ) и использовать критерии для сравнения распространенности заболевания А в Восточной Европе с другими территориями. Единственное, что наврятли набор данных подчиняется закону нормального распределения и, наврятли, целесообразно сдесь использовать критерий стьюдента.

Автор: Liz 16.11.2013 - 08:04

"nokh: Он (Z-критерий) используется для... Поэтому считаю ДИ наиболее уместными.... "
Т.е., как я поняла, различие (напр, по средним) двух выборок (пусть имеем не заболеваемости, а обычные, так сказать, выборки) можно оценить двумя РАЗНЫМИ способами: с помощью подходящего критерия (первый подход), а можно с помощью ДИ (второй подход). Разрешите вопрос на понимание: КАК после получения ДИ (средних двух сравниваемых выборок) оцифровать(!) различие (получить р)? Спасибо!!

Автор: DrgLena 16.11.2013 - 09:11

Цитата(paravoz @ 16.11.2013 - 07:31)

Если вы имеете данные о распространенности заболевания А только по некоторым странам Восточной Европы, а вывод собираетесь делать по всей Восточной Европе, то вы имеете дело с выборочными данными и вополне можете расчитывать меры разброса и точности (ошибку, стандартное отклонение, дисперсию или ДИ) и использовать критерии для сравнения распространенности заболевания А в Восточной Европе с другими территориями. Единственное, что наврятли набор данных подчиняется закону нормального распределения и, наврятли, целесообразно сдесь использовать критерий стьюдента.

Ну пусть это будут все страны варшавского договора

и средний индекс распространенности по западной Европе. Каждый этот индекс это результат расчета, а потому уже несет в себе большую ошибку. Эти индексы отражают очень даже среднюю заболеваемость в данном случае на 100 000 населения, а потому стьюдент, пусть дает среднее по средним, тем более, что сравнение выборки с числом реализовано в пакетах. Вряд ли в данном случае понятие СРЕДНЕЕ нужно чем то заменять. Медианы и квартили не встречала при описании распространенности.

Я предложила этот подход, поскольку так можно сравнить, например, заболеваемость в 2000 г с последующими годами, если уж очень нужно показать р. Ваш подход с демонстрацией процентов, представляется мне вполне достаточным, но ведь модно стало ЗНАЧИМОСТЬ считать даже при сравнении двух чисел.

Автор: paravoz 16.11.2013 - 18:58

Цитата(DrgLena @ 16.11.2013 - 14:11)

Ну пусть это будут все страны варшавского договора

и средний индекс распространенности по западной Европе. Каждый этот индекс это результат расчета, а потому уже несет в себе большую ошибку. Эти индексы отражают очень даже среднюю заболеваемость в данном случае на 100 000 населения, а потому стьюдент, пусть дает среднее по средним, тем более, что сравнение выборки с числом реализовано в пакетах. Вряд ли в данном случае понятие СРЕДНЕЕ нужно чем то заменять. Медианы и квартили не встречала при описании распространенности.

Я предложила этот подход, поскольку так можно сравнить, например, заболеваемость в 2000 г с последующими годами, если уж очень нужно показать р. Ваш подход с демонстрацией процентов, представляется мне вполне достаточным, но ведь модно стало ЗНАЧИМОСТЬ считать даже при сравнении двух чисел.

Представление распространенности заболеваний в виде средней заболеваемости на 100000 или на 1000 является общепринятым и, я согласен, что медиана и квартили здесь врятли подойдут. Но с точки зрения математической статистики это не верно. Читая о среднем, любой специалист в статистике сразу подразумевает нормальное распределение и то, что сопутствует этому. А в данном случае это не будет соответствовать действительности.

Расчет p критерием стьюдента, думаю, все равно не является правомочным. Мне кажется, использовать необходимо непараметрические критерии.

Все это конечно обсуждаемо и является проблемой общемировых стандартов.

У меня другой вопрос. Зачем делать выводы о распространенности заболевания во всей Западной Европе по выборочным данным о распрстраненности заболевания в странах Варшавского договора? Какова может быть в данном случае нулевая и альтернативная гипотезы?

Автор: DrgLena 16.11.2013 - 20:16

Цитата(paravoz @ 16.11.2013 - 19:58)

У меня другой вопрос. Зачем делать выводы о распространенности заболевания во всей Западной Европе по выборочным данным о распрстраненности заболевания в странах Варшавского договора? Какова может быть в данном случае нулевая и альтернативная гипотезы?

Нет, страны западной Европы в варшавский договор не входили

и данные о распространенности этого заболевания опубликованы и составляют 5,9 на 100 000. По странам восточной Европы, которые входили в варшавский договор имеются данные для каждой страны. Нулевая гипотеза - распространенность заболевания А в западной европе и в исследуемых странах одинакова.
Как вы предлагаете решить эту конкретную задачу, как представить результат сравнения и какие выводы можно сделать по тем данным, которые я привела.

Автор: 100$ 16.11.2013 - 21:08

Цитата(paravoz @ 16.11.2013 - 19:58)

Читая о среднем, любой специалист в статистике сразу подразумевает нормальное распределение и то, что сопутствует этому.

Читая о среднем, специалист в статистике сразу подразумевает математическое ожидание случайной величины (первый центральный момент ее распределения) и то, что среднее арифметическое является его (мат. ожидания) состоятельной оценкой.

Канешна, если он специалист.

Автор: DrgLena 16.11.2013 - 23:55

100$, используйте вашу энергию в мирных целях, предложите ваш вариант решения задачи про варшавский договор ?
без мат.ожидания и другого мата для медицинской публикации.

Автор: Гематолог 17.11.2013 - 00:02

[quote name='paravoz' date='16.11.2013 - 19:58' post='16160']
Представление распространенности заболеваний в виде средней заболеваемости на 100000 или на 1000 является общепринятым и, я согласен, что медиана и квартили здесь врятли подойдут. Но с точки зрения математической статистики это не верно. Читая о среднем, любой специалист в статистике сразу подразумевает нормальное распределение и то, что сопутствует этому. А в данном случае это не будет соответствовать действительности.

Расчет p критерием стьюдента, думаю, все равно не является правомочным. Мне кажется, использовать необходимо непараметрические критерии.

Все это конечно обсуждаемо и является проблемой общемировых стандартов.

Спасибо!

Все понял.
Пересмотрел максимум литературы на этот счет.
Прикрепил для иллюстрации две диаграммы по одной из исследуемых мной нозологий.
Описывая динамику буду рассчитывать прирост и темп прироста.
Действительно, опыт применения критерия Стьюдента для заболеваемости/смертности мне не попался.
Но так же вообще не попались примеры вычисления р для различий этих показателей. :-)
Может плохо искал...

ЛХ.pdf ( 294,02 килобайт ) : 325

Автор: paravoz 17.11.2013 - 06:05

Цитата(Гематолог @ 17.11.2013 - 05:02)

Все понял.
Пересмотрел максимум литературы на этот счет.
Прикрепил для иллюстрации две диаграммы по одной из исследуемых мной нозологий.
Описывая динамику буду рассчитывать прирост и темп прироста.
Действительно, опыт применения критерия Стьюдента для заболеваемости/смертности мне не попался.
Но так же вообще не попались примеры вычисления р для различий этих показателей. :-)
Может плохо искал...

Все верно. Критерий Стьюдента и другие критерии используются когда распространность оценивается по выборозным данным, что бывает крайне редко. Обычно данные официальной статистики о распространенности доступны. Поэтому нет смысла оценивать распространенность по выборочным данным.
В связи с этим и статей вы никаких не нашли. Их нет. Ну или крайне мало.

Вы верно решили использовать прирост и темп прироста.

Автор: 100$ 17.11.2013 - 12:10

Цитата(DrgLena @ 17.11.2013 - 00:55)

без мат.ожидания и другого мата для медицинской публикации.

Мат в общении с женщинами не практикую, даже когда приходится их ожидать

Автор: nokh 18.11.2013 - 16:32

Цитата(Liz @ 16.11.2013 - 11:04)

"nokh: Он (Z-критерий) используется для... Поэтому считаю ДИ наиболее уместными.... "
Т.е., как я поняла, различие (напр, по средним) двух выборок (пусть имеем не заболеваемости, а обычные, так сказать, выборки) можно оценить двумя РАЗНЫМИ способами: с помощью подходящего критерия (первый подход), а можно с помощью ДИ (второй подход). Разрешите вопрос на понимание: КАК после получения ДИ (средних двух сравниваемых выборок) оцифровать(!) различие (получить р)? Спасибо!!

Два подхода потому и два, что при подходе с интервальным оцениванием не нужно вычислять р. Исходя из контекста задачи мы выбираем некий заранее фиксированный уровень значимости в духе Неймана - Пирсона и закладываем его в расчёт ДИ: 90%-ных, 95%-ных, 99%-ных или каких-то ещё. Если ДИ не перекрываются считаем различия значимыми в духе гибридного подхода:) Насколько я понял, в своё вермя тема с ДИ активно раскручивалась именно как возможная самодостаточная альтернатива расчёту р. Можно, конечно, поизвращаться и интерполировать такое граничное значение альфы при котором ДИ не будут перекрываться и интерпретировать его как р, но не встречал таких рекомендаций; обычно так не поступают.

Автор: paravoz 18.11.2013 - 18:22

Цитата(nokh @ 18.11.2013 - 21:32)

Два подхода потому и два, что при подходе с интервальным оцениванием не нужно вычислять р. Исходя из контекста задачи мы выбираем некий заранее фиксированный уровень значимости в духе Неймана - Пирсона и закладываем его в расчёт ДИ: 90%-ных, 95%-ных, 99%-ных или каких-то ещё. Если ДИ не перекрываются считаем различия значимыми в духе гибридного подхода:) Насколько я понял, в своё вермя тема с ДИ активно раскручивалась именно как возможная самодостаточная альтернатива расчёту р. Можно, конечно, поизвращаться и интерполировать такое граничное значение альфы при котором ДИ не будут перекрываться и интерпретировать его как р, но не встречал таких рекомендаций; обычно так не поступают.

Очень важное преимущество метода ДИ перед измерением значения p, то, что с помощью ДИ можно помимо статистической значимости узнать и клиническую значимость. Это очень важно, но многими пренебрегется. Так, например, многие расчитывают значение p и оно получается высокозначимым <0,001, и делают на этом выводы, например, о разнице количества лейкоцитов в исследуемых группа. Но стоит расчитать ДИ и оказывается, что разница составляет с 95% доверительной вероятностью в 0,1-0,5 на 10^9 лейкоцитов. Такая маленькая разница не может быть уловима ни одним человеком и выводы никакой значимости для практики не имеют. Вот и получается расчитывают p, а о клинической значимости не задумываются.

В связи с тем, что с помощью ДИ можно определить клиническую значимость, я в своих работах использую и критерии и ДИ. С помощью первых я определяю точное p (это важно, потому что <0,05 или >0,05 этого мало), а с помощью ДИ определяю клиническую значимость и 95% разброс величины. Такой подход также повышает уверенность в полученных рзультатах, так как если уж и критерием и ДИ статистически значимые различия есть, то можно с большей уверенностью сказать, что они точно есть. Но тут думаю на любителя.

Автор: DrgLena 19.11.2013 - 21:41

Цитата(paravoz @ 18.11.2013 - 18:22)

Очень важное преимущество метода ДИ перед измерением значения p, то, что с помощью ДИ можно помимо статистической значимости узнать и клиническую значимость.

Cложно согласиться с тем, что ДИ имеет отношение к понятию клинической значимости или с тем что ДИ показывает "95% разброс величины".
Если вы имеете ввиду, что при больших выборках слабые различия могут быть статистически значимыми, то для оценки величины эффекта существует такой инструмент измрения, как d Cohen's. Это обсуждалось на форуме.
ДИ к разнице средних двух групп тоже может быть построен, но он тоже будет отражать где будет находиться разница средних, но никак не отражать клиническую значимость.

Автор: TheThing 19.11.2013 - 23:13

Цитата(DrgLena @ 19.11.2013 - 22:41)

Cложно согласиться с тем, что ДИ имеет отношение к понятию клинической значимости или с тем что ДИ показывает "95% разброс величины".
Если вы имеете ввиду, что при больших выборках слабые различия могут быть статистически значимыми, то для оценки величины эффекта существует такой инструмент измрения, как d Cohen's. Это обсуждалось на форуме.
ДИ к разнице средних двух групп тоже может быть построен, но он тоже будет отражать где будет находиться разница средних, но никак не отражать клиническую значимость.

Наверное, имелось ввиду следующее: например, проводится стат.анализ, рассчитывается значение р, допустим р > 0.05, если мы опираемся лишь на стат.значимость и значение р, делаем вывод,что все пропало (в смысле не можем отвергнуть нулевую гипотезу

) Мы можем использовать величину эффекта, например Hedges g, Cohen f, Cohens d, Pearson r и др (в своё время насчитал их более 30), допустим получаем значение 0,6 по Коэн d, это достаточно большая величина эффекта, то есть можно сделать вывод,что не все пропало?? Строим доверительные интервалы для d Коэна - получаем 0.2-0.9, то есть эффект может быть как очень маленьким так и большим, опять чего-то не хватает, чтобы сделать определённый вывод. Но в данном случае, доверительные интервалы помогли определить "силу" или "надёжность" наших суждений относительно величины эффекта, которая отражает практическую значимость.
Хотя в любом случае не следует забывать, что эти границы значений величин эффектов - это такие же произвольные значения, как и в случае 0,05 для р значения. Поэтому окончательные выводы о значимости своих результатов, объединив как стат.значимость так и практическую значимость, должен делать,как это не прискорбно, человек :-)

Автор: paravoz 20.11.2013 - 02:15

Цитата(DrgLena @ 20.11.2013 - 02:41)

Cложно согласиться с тем, что ДИ имеет отношение к понятию клинической значимости или с тем что ДИ показывает "95% разброс величины".
Если вы имеете ввиду, что при больших выборках слабые различия могут быть статистически значимыми, то для оценки величины эффекта существует такой инструмент измрения, как d Cohen's. Это обсуждалось на форуме.
ДИ к разнице средних двух групп тоже может быть построен, но он тоже будет отражать где будет находиться разница средних, но никак не отражать клиническую значимость.

Очень даже легко.

ДИ действительно показывает 95% разброс величины расчитанной по выборочным данным при экстраполяции ее на генеральную совокупность. Ну так же? может не каждое слово на своем месте, но суть верна!? Величина эффекта - это стандартизованный показатель, это недостаток всех методов его определения. Получился, к примеру, d Cohen's = 0,6. И что, как мне с этими 0,6 смотреть в глаза практикующему врачу специалисту. Метод ДИ позволяет в единицах измерения конкретного показателя показать на сколько в 95% отличаются показатели двух групп. Это могут быть средние, медианы, моды, доли, ОР, ОШ и много еще чего. И мне кажется метод ДИ более нагляден, чем оценка величины эффекта. ИМХО

Автор: Yaroslava 17.11.2018 - 01:08

[font="Comic Sans MS"]Здравствуйте, может мой вопрос кому-то покажется глупым, но я на него не могу найти ответ на просторах интернет-ресурсов, поэтому обращаюсь за помощью))
Подскажите, пожалуйста, если я хочу провести анализ многолетней динамики заболеваемости и планирую сравнить грубый показатель заболеваемости области А за 2000 год со средне-областным показателем того же года, то как мне рассчитать этот средне-областной показатель? Это просто среднее арифметическое по областям (обл. В+ обл. Г+..../n) или другая формула? И дальше для выявления статистической разницы я намереваюсь использовать t-критерий, в котором, опять же вопрос, для сравнения использовать среднее арифметическое по количеству населения в средне-областном показателе?

Ох...надеюсь, не запутала) Заранее спасибо за ответы!))

Автор: nokh 19.11.2018 - 11:57

Цитата(Yaroslava @ 17.11.2018 - 03:08)

...
Ох...надеюсь, не запутала) Заранее спасибо за ответы!))

Запутала! Если сравниваете многолетнюю динамику, то это - одни методы, если один год - другие. За один год сравнивать со средним показателем будет некорректно, т.к. данные по интересующей области А будут входить частью в полные данные. Но можно сравнить однородность заболеваемости по областям, т.е. сделать таблицу частот из двух колонок (число лиц с заболеванием, число лиц без заболевания) и числа строк, равному числу областей, и проанализировать её критериями типа хи-квадрат. Если будет значимая неоднородность - смотреть по остаткам Хабермана какие области отклонились "в плюс", какие - "в минус" от нулевой гипотезы (заболеваемость везде одинаковая). Если в качестве третьего входа в таблицу сопряжённости добавить год, то можно проанализировать сразу весь массив данных в ходе логлинейного анализа.

Версия для печати темы

Нажмите сюда для просмотра этой темы в обычном формате

Форум врачей-аспирантов _ Медицинская статистика _ Снова о заболеваемости и смертности

Автор: Гематолог 12.11.2013 - 00:47

Автор: paravoz 12.11.2013 - 01:17

Автор: nokh 12.11.2013 - 20:15

Автор: DrgLena 12.11.2013 - 23:23

Автор: Гематолог 13.11.2013 - 12:02

Автор: paravoz 13.11.2013 - 15:32

Автор: Гематолог 13.11.2013 - 23:54

Автор: paravoz 14.11.2013 - 09:40

Автор: Гематолог 14.11.2013 - 22:17

Автор: paravoz 15.11.2013 - 04:26

Автор: nokh 15.11.2013 - 13:47

Автор: paravoz 15.11.2013 - 16:15

Автор: DrgLena 16.11.2013 - 00:11

Автор: paravoz 16.11.2013 - 06:31

Автор: Liz 16.11.2013 - 08:04

Автор: DrgLena 16.11.2013 - 09:11

Автор: paravoz 16.11.2013 - 18:58

Автор: DrgLena 16.11.2013 - 20:16

Автор: 100$ 16.11.2013 - 21:08

Автор: DrgLena 16.11.2013 - 23:55

Автор: Гематолог 17.11.2013 - 00:02

Автор: paravoz 17.11.2013 - 06:05

Автор: 100$ 17.11.2013 - 12:10

Автор: nokh 18.11.2013 - 16:32

Автор: paravoz 18.11.2013 - 18:22

Автор: DrgLena 19.11.2013 - 21:41

Автор: TheThing 19.11.2013 - 23:13

Автор: paravoz 20.11.2013 - 02:15

Автор: Yaroslava 17.11.2018 - 01:08

Автор: nokh 19.11.2018 - 11:57