Форум врачей-аспирантов

Здравствуйте, гость ( Вход | Регистрация )

2 страниц V   1 2 >  
Добавить ответ в эту темуОткрыть тему
> Доверительные интервалы, Необходимы ли доверительные интервалы для показателей смертности и тд.
paravoz
сообщение 26.11.2018 - 04:37
Сообщение #1


Дух форума
*

Группа: Пользователи
Сообщений: 79
Регистрация: 22.08.2013
Из: г. Красноярск
Пользователь №: 25146



Уважаемые коллеги!

Уже неоднократно сталкиваюсь с тем, что в статьях, посвященных изучению каких-либо эпидемиологических показателей (заболеваемость, смертность и т.д.), помимо самих показателей приведены какие-то значения после знаков плюс/минус. Например, смертность населения составила 20,2?0,8 на 1000 населения.
Зачастую из статьи не понятно, что это за значение, но в некоторых указывается, что это либо стандартная ошибка, либо доверительный интервал.
Честно говоря всегда считал, что:
1. Доверительный интервал - интервал, который показывает диапазон наиболее вероятных значений показателя в генеральной совокупности.
2. Если рассчитывается показатель смертности, например по региону, то этот показатель учитывает всю генеральную совокупность.

Смертность - число умерших/среднегодовая численность населения. Если считать всех умерших выборкой, то тогда что же будет генеральной совокупностью?!
В общем мне всегда казалось, что при расчете популяционных эпидемиологических показателей доверительный интервал рассчитывать не нужно. Не то чтобы не нужно, а даже некорректно. Обычно я на такие интервалы особого внимания не обращал, но сегодня рецензент на мою статью сделал замечание и предложил мне представить к показателям еще и доверительный интервал.

Подскажите, действительно ли необходимо/корректно рассчитывать доверительные интервалы в таких ситуациях? Если нет, то подскажите как грамотно обосновать рецензенту это или на какую литературу сослаться? Сам я нигде прямого запрета на это не нашел. Заранее всем спасибо!
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
p2004r
сообщение 26.11.2018 - 10:01
Сообщение #2


Дух форума
*

Группа: Пользователи
Сообщений: 1060
Регистрация: 26.08.2010
Пользователь №: 22699



Цитата(paravoz @ 26.11.2018 - 04:37) *
Уважаемые коллеги!

Уже неоднократно сталкиваюсь с тем, что в статьях, посвященных изучению каких-либо эпидемиологических показателей (заболеваемость, смертность и т.д.), помимо самих показателей приведены какие-то значения после знаков плюс/минус. Например, смертность населения составила 20,2?0,8 на 1000 населения.
Зачастую из статьи не понятно, что это за значение, но в некоторых указывается, что это либо стандартная ошибка, либо доверительный интервал.
Честно говоря всегда считал, что:
1. Доверительный интервал - интервал, который показывает диапазон наиболее вероятных значений показателя в генеральной совокупности.
2. Если рассчитывается показатель смертности, например по региону, то этот показатель учитывает всю генеральную совокупность.

Смертность - число умерших/среднегодовая численность населения. Если считать всех умерших выборкой, то тогда что же будет генеральной совокупностью?!
В общем мне всегда казалось, что при расчете популяционных эпидемиологических показателей доверительный интервал рассчитывать не нужно. Не то чтобы не нужно, а даже некорректно. Обычно я на такие интервалы особого внимания не обращал, но сегодня рецензент на мою статью сделал замечание и предложил мне представить к показателям еще и доверительный интервал.

Подскажите, действительно ли необходимо/корректно рассчитывать доверительные интервалы в таких ситуациях? Если нет, то подскажите как грамотно обосновать рецензенту это или на какую литературу сослаться? Сам я нигде прямого запрета на это не нашел. Заранее всем спасибо!



Если можно извлечь выборку несколько раз, то генеральная совокупность таки есть. А число интервалов отчетных в прошлое и будущее как бы простирается бесконечно (или если ближе теория мультиверса, то генсовокупность исходов всегда бесконечная получается). smile.gif


Signature
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
100$
сообщение 26.11.2018 - 11:57
Сообщение #3


Дух форума
*

Группа: Пользователи
Сообщений: 715
Регистрация: 23.08.2010
Пользователь №: 22694



Рецензенту надо тактично объяснить, что доверительные интервалы строятся к параметрам распределения, но никак не к индексным величинам. Особливо, если индекс представляет собой отношение мертвых к живым, причем мертвые не являются репрезентативной выборкой из ген. совокупности живых.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
nokh
сообщение 26.11.2018 - 12:34
Сообщение #4


Дух форума
*

Группа: Пользователи
Сообщений: 1109
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704



Цитата(paravoz @ 26.11.2018 - 06:37) *
...Подскажите, действительно ли необходимо/корректно рассчитывать доверительные интервалы в таких ситуациях? Если нет, то подскажите как грамотно обосновать рецензенту это или на какую литературу сослаться? Сам я нигде прямого запрета на это не нашел. Заранее всем спасибо!

Для меня это тоже был мучительный вопрос, хорошо что больше "играю на другом поле":) Но недавно участвовал в статье по генетическим нарушениям (ещё не закончили) и решил таки считать ДИ. Помимо отмеченного р2004r хронологического аспекта, есть ещё и хорологический аспект. Такие работы делаются как правило не для того, чтобы только охарактеризовать интересующую совокупность сейчас и здесь, но и чтобы сравнить её с другими совокупностями: городами, областями, странами. Допустим, что в одном населённом пункте из 10,0 тыс человек было 2 больных, а в другом - из 10,1 тыс человек - 3 больных. Можем ли мы руководствуясь тем, что имеем дело с конечными совокупностями, просто и безо всякой статистики констатировать более высокую заболеваемость во втором н.п.? Размышления привели меня к тому, что скорее не можем, что правильнее думать о неких условиях или факторах, лежащих в основе заболеваемости / смертности и реализующихся конкретными дискретными числами. И что если бы в н.п. жило в 5 раз больше жителей, то мы могли бы с большей надёжностью оценить уровень заболеваемости. А раз речь заходит о надёжности оценки, то это прямой путь к ДИ. Получается, что время и пространство размывают границы конечной ГС, наделяя её свойствами бесконечной домысливаемой... Тема важная, прошу поделиться потом тем, что ещё найдёте и к чему пришли.

Сообщение отредактировал nokh - 26.11.2018 - 12:38
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
paravoz
сообщение 27.11.2018 - 03:17
Сообщение #5


Дух форума
*

Группа: Пользователи
Сообщений: 79
Регистрация: 22.08.2013
Из: г. Красноярск
Пользователь №: 25146



Цитата(p2004r @ 26.11.2018 - 14:01) *
Если можно извлечь выборку несколько раз, то генеральная совокупность таки есть. А число интервалов отчетных в прошлое и будущее как бы простирается бесконечно (или если ближе теория мультиверса, то генсовокупность исходов всегда бесконечная получается). smile.gif


В том то и дело, что несколько раз извлечь выборку (даже не знаю можно ли ее назвать выборкой) нельзя. Если число умерших в 2017 году составило 18 000 человек, то их умерло 18 000. Хоть как извлекай и хоть сколько раз, все равно число умерших составит 18 000 человек и всегда это будут одни и те же лица.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
paravoz
сообщение 27.11.2018 - 03:34
Сообщение #6


Дух форума
*

Группа: Пользователи
Сообщений: 79
Регистрация: 22.08.2013
Из: г. Красноярск
Пользователь №: 25146



Цитата(100$ @ 26.11.2018 - 15:57) *
Рецензенту надо тактично объяснить, что доверительные интервалы строятся к параметрам распределения, но никак не к индексным величинам. Особливо, если индекс представляет собой отношение мертвых к живым, причем мертвые не являются репрезентативной выборкой из ген. совокупности живых.


Вот это и является самым сложным. Например, методика расчета доверительного интервала для показателя смертности приведена в методических материалах которые я нашел на сайте центрального НИИ организации и информатизации здравоохранения. Также в своих методических материалах представляет такую методику НИИ онклогии им. Герцена. Рецензенты ссылаясь на эти материалы и требуют чтобы мы их посчитали.

Также вы написали, что доверительные интервалы строятся к параметрам распределения, но никак не к индексным величинам. Про индексные совершенно согласен - они не представляют распределение. Но даже если у нас будет какое-то распределение. Например, при расчете смертности у нас число умерших составило 18 000 человек. У нас есть данные о возрасте смерти каждого из этих 18 000 (например, по базам смертности Росстата или по реестрам ОМС). Если мы говорим о возрасте смерти 18 000 человек, то это уже будет распределение возраста смерти. Рассчитав средний возраст смерти насколько корректно/возможно в данном случае посчитать доверительный интервал для среднего возраста смерти? Естественно в таком исследовании нами изучается только лишь регион и мы не пытаемся изучать возраст смерти населения Российской Федерации только по данным одного региона (данные о смертности по одному региону явно не могут рассматриваться как выборка из смертности по России - такая выборка не репрезентативна).
Как мне кажется, в данном случае доверительный интервал рассчитывать некорректно. Если средний возраст умерших в 2017 году составил 46,5 лет, то о каком интервале может идти речь, ведь я точно знаю, что он составил 46,5 лет. Пусть даже я ДИ посчитаю для среднего. Тогда что это будет за интервал. Интервал наиболее вероятного среднего возраста умерших где? в генеральной совокупности? что это за генеральная совокупность? (это больше даже вопросы не Вам, а просто ход моих рассуждений).

В общем мои рассуждения приводят меня к тому, что никакие доверительные интервалы в данном случае не нужны и даже более того их расчет и представление в работе является некорректным.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
paravoz
сообщение 27.11.2018 - 03:53
Сообщение #7


Дух форума
*

Группа: Пользователи
Сообщений: 79
Регистрация: 22.08.2013
Из: г. Красноярск
Пользователь №: 25146



Цитата(nokh @ 26.11.2018 - 16:34) *
Для меня это тоже был мучительный вопрос, хорошо что больше "играю на другом поле":) Но недавно участвовал в статье по генетическим нарушениям (ещё не закончили) и решил таки считать ДИ. Помимо отмеченного р2004r хронологического аспекта, есть ещё и хорологический аспект. Такие работы делаются как правило не для того, чтобы только охарактеризовать интересующую совокупность сейчас и здесь, но и чтобы сравнить её с другими совокупностями: городами, областями, странами. Допустим, что в одном населённом пункте из 10,0 тыс человек было 2 больных, а в другом - из 10,1 тыс человек - 3 больных. Можем ли мы руководствуясь тем, что имеем дело с конечными совокупностями, просто и безо всякой статистики констатировать более высокую заболеваемость во втором н.п.? Размышления привели меня к тому, что скорее не можем, что правильнее думать о неких условиях или факторах, лежащих в основе заболеваемости / смертности и реализующихся конкретными дискретными числами. И что если бы в н.п. жило в 5 раз больше жителей, то мы могли бы с большей надёжностью оценить уровень заболеваемости. А раз речь заходит о надёжности оценки, то это прямой путь к ДИ. Получается, что время и пространство размывают границы конечной ГС, наделяя её свойствами бесконечной домысливаемой... Тема важная, прошу поделиться потом тем, что ещё найдёте и к чему пришли.


Меня все-таки мои размышления приводят к выводу о том, что мы можем сравнивать эти два населенных пункта без всякой статистики (конечно имею ввиду, что без всякой математической статистики, а не санитарной). Давайте попробуем их сравнить.
Очевидно, что численность населения во втором населенном пункте больше (10 100 человек это больше, чем 10 000). Очевидно? Вроде очевидно.
Очевидно, что абсолютная численность больных во втором населенном пункте тоже больше (3 больных больше, чем 2). Очевидно? Да вроде тоже очевидно.
Рассчитаем показатели заболеваемости - 2/10000*100000=20,0 на 100000 населения, 3/10100*100000=29,7 на 100000 населения.
Очевидно, что заболеваемость во втором населенном пункте тоже больше (29,7 больше, чем 20,0). Очевидно? По моему тоже очевидно.
Ну если заболеваемость среди всего населения второго населенного пункта больше, чем среди всего населения первого, то она больше. Как тут может быть по-другому? Неужели без дополнительных математических расчетов (ДИ или стат. критерии) я не могу сделать вывод о том, что в каком-то конкретном году заболеваемость в конкретном населенном пункте 2 больше, чем заболеваемость в населенном пункте 1?! Мне кажется в таких исследованиях любое даже минимальное отклонение априори является "статистически значимым на уровне p=0", то есть даже не статистически значимо, а достоверно.

Честно говоря про надежность не совсем понял. Попытаюсь изложить мысли и по этому поводу, но могу попасть не туда. Да, если бы совокупности были бы больше (и численность населения была бы больше и число заболевших было бы больше) можно было бы быть более уверенным в том, что различия выявленные между населенными пунктами, как бы это правильнее сказать, будут повторяться и в последующие периоды (наверное так). Но в подобных исследованиях, как правило, происходит просто констатация того, что в определенный период в одном населенном пункте заболеваемость больше или меньше, чем в другом.

Вот как-то так. Хотелось бы побольше рассуждений на этот счет. Так как задача довольно актуальная, во всяком случае в организации здравоохранения, но какой-то единой тактики или методологии анализа я так понимаю до сих пор нет.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
passant
сообщение 27.11.2018 - 12:57
Сообщение #8


Дух форума
*

Группа: Пользователи
Сообщений: 140
Регистрация: 27.04.2016
Пользователь №: 28223



Ну, если хотите рассуждений smile.gif - то позвольте мне вклинится в ваш медицинский спор. На самом деле есть много причин, по которым интервальная оценка показателя типа "заболеваемость" является необходимой - в том числе и те, которые тут уже упоминали. Но я попробую привести еще одно обоснование, причем попробую объяснить "математически, но просто" rolleyes.gif .

1. "Неужели без дополнительных математических расчетов (ДИ или стат. критерии) я не могу сделать вывод о том, что в каком-то конкретном году заболеваемость в конкретном населенном пункте 2 больше, чем заболеваемость в населенном пункте 1". - по моему мнению, не можете. Все что вы корректно математически можете сказать - это "За год в населенном пункте Х заболело на 2 человека больше, чем в населенном пункте Y". Вы даже можете сказать, что "количество заболевших в городе Х было в два раза больше, чем в городе Y". Но именно так "(абсолютное) Количество заболевших" - и не более того. Потому что, говоря математическим языком, ваши данные измерены в абсолютной шкале. И все остальные операции (а ваши заключения и есть некие операции с математической точки зрения) над данными, измеренными в шкалах данного класса будут некорректными. (Кстати, к статистике это не имеет никакого отношения, эти свойства и ограничения изучает другой раздел математики -"Теория измерений"). А уж тем более, вы не можете сделать никакого "углубленного анализа " например, не можете сказать, что медучреждение в одном из пунктов работают лучше, чем во втором.
2. Для того, чтобы корректно сделать такой анализ надо перейти от непосредственно измеренных параметров к косвенно измеренным параметрам, представленным в другой шкале измерений - например, в шкале отношений. Именно для этого вместо параметра "количество заболевших" вводят и анализируют параметр "уровень заболеваемости" - рассчитываемый как отношение количества заболевших к населению. Но вот тут загвоздка. Начнем с того, что "население города" - постоянно только в течении.... одного дня (а в реальности - и того меньше)! Таким образом, если нарисовать график количества людей, проживающих в городе по дням - это будет типичный временной ряд. Причем вовсе не обязательно даже стационарный, и скорее всего - не подчиняющийся нормальному закону распределения. То есть "население города" - это случайная величина, изменяющаяся ежедневно (кто-то приехал, кто-то уехал, кто-то родился, кто-то умер т.д.). Как любая случайная величина, на конечном временном отрезке (например - год) эти данные могут быть статистически ОЦЕНЕНЫ. Другими словами, параметр "среднегодовое население" - это случайная величина, котороя, естественно, имеет и среднее, и среднеквадратичное отклонение, и доверительный интервал при заданном уровне значимости и даже (хотя-бы теоретически) коэффициенты автокорреляции различных порядков. И никакое другое представление (например - точечная оценка) не является для нее математически полным.
3. Если вы какой-то параметр-константу (количество заболевших за год) делите на параметр-ОЦЕНКУ случайной величины (среднее население города за год), то результат будет -случайная величина (измеренная в более слабой из шкал). Со всеми ее необходимыми атрибутами, включая доверительные интервалы. И именно с такими данными вы уже реально можете проводить какие-то дальнейшие исследования или анализ - и сравнивать по разным регионам, и анализировать в плане исторического изменения, и делать предсказания и пр. пр. пр.
4. Вывод. "Количество заболевших" - никаких ДИ, достаточно непосредственно измеренных абсолютных данных. Но ограниченные возможности анализа и интерпретации. А вот "уровень заболеваемости" - статистическая величина с необходимым интервальным представлением параметров. Зато полная свобода для дальнейшего анализа.

Вот как-то так. Не знаю, удалось-ли мне хоть немного "популяризировать" математику, но я старался rolleyes.gif

Сообщение отредактировал passant - 27.11.2018 - 13:05
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
paravoz
сообщение 27.11.2018 - 14:58
Сообщение #9


Дух форума
*

Группа: Пользователи
Сообщений: 79
Регистрация: 22.08.2013
Из: г. Красноярск
Пользователь №: 25146



Цитата(passant @ 27.11.2018 - 16:57) *
4. Вывод. "Количество заболевших" - никаких ДИ, достаточно непосредственно измеренных абсолютных данных. Но ограниченные возможности анализа и интерпретации. А вот "уровень заболеваемости" - статистическая величина с необходимым интервальным представлением параметров. Зато полная свобода для дальнейшего анализа.

Вот как-то так. Не знаю, удалось-ли мне хоть немного "популяризировать" математику, но я старался rolleyes.gif


Интересная позиция, даже вполне понятная. Я пока пытаюсь дальше поразмышлять на предмет того, может ли среднегодовая численность населения рассматриваться с той позиции, которую Вы описываете.

Даже если предположить, что такие умозаключения верны, то как быть например с таким коэффициентом. Уж простите, но это первое что пришло в голову. Коэффициент младенческой смертности = число детей, умерших в течение года на 1 году жизни / число родившихся живыми в данном году * 1000. В данном случае и числитель и знаменатель точные абсолютные величины, которые определяются на конец года. Получается ли, что для данного показателя нельзя считать ДИ.

И второе. Если действительно можно для заболеваемости рассчитать ДИ, то что это за интервал? Ну то есть вероятное значение заболеваемости в какой совокупности он показывает? По логике вещей в генеральной. Но что, в данном случае, будет являться генеральной совокупностью?
Я к чему. Пусть с математической точки зрения ДИ для заболеваемости использовать можно. Допустим (хоть я пока не совсем с этим согласен smile.gif ). Но какой в этом ДИ "физический смысл". Если у выборки из населения города посчитать средний рост и для него построить ДИ, то можно сказать, что ДИ это вероятный интервал среднего роста всего населения города. А в данном случае что будет являться этой самой генеральной совокупностью?

PS. Вами действительно высказана интересная позиция, но, правда, пока не могу понять как ее принять. smile.gif smile.gif
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
p2004r
сообщение 27.11.2018 - 17:13
Сообщение #10


Дух форума
*

Группа: Пользователи
Сообщений: 1060
Регистрация: 26.08.2010
Пользователь №: 22699



Цитата(paravoz @ 27.11.2018 - 03:17) *
В том то и дело, что несколько раз извлечь выборку (даже не знаю можно ли ее назвать выборкой) нельзя. Если число умерших в 2017 году составило 18 000 человек, то их умерло 18 000. Хоть как извлекай и хоть сколько раз, все равно число умерших составит 18 000 человек и всегда это будут одни и те же лица.


Так уже со следующим "родившимся-умершим" (и уж наверняка на следующий отчетный период) мы получаем новую выборку и встает вопрос -- "она получена из другой генсовокупности или нет?"


Signature
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
p2004r
сообщение 27.11.2018 - 17:29
Сообщение #11


Дух форума
*

Группа: Пользователи
Сообщений: 1060
Регистрация: 26.08.2010
Пользователь №: 22699



Цитата(paravoz @ 27.11.2018 - 14:58) *
Интересная позиция, даже вполне понятная. Я пока пытаюсь дальше поразмышлять на предмет того, может ли среднегодовая численность населения рассматриваться с той позиции, которую Вы описываете.

Даже если предположить, что такие умозаключения верны, то как быть например с таким коэффициентом. Уж простите, но это первое что пришло в голову. Коэффициент младенческой смертности = число детей, умерших в течение года на 1 году жизни / число родившихся живыми в данном году * 1000. В данном случае и числитель и знаменатель точные абсолютные величины, которые определяются на конец года. Получается ли, что для данного показателя нельзя считать ДИ.

И второе. Если действительно можно для заболеваемости рассчитать ДИ, то что это за интервал? Ну то есть вероятное значение заболеваемости в какой совокупности он показывает? По логике вещей в генеральной. Но что, в данном случае, будет являться генеральной совокупностью?
Я к чему. Пусть с математической точки зрения ДИ для заболеваемости использовать можно. Допустим (хоть я пока не совсем с этим согласен smile.gif ). Но какой в этом ДИ "физический смысл". Если у выборки из населения города посчитать средний рост и для него построить ДИ, то можно сказать, что ДИ это вероятный интервал среднего роста всего населения города. А в данном случае что будет являться этой самой генеральной совокупностью?

PS. Вами действительно высказана интересная позиция, но, правда, пока не могу понять как ее принять. smile.gif smile.gif



Да и сам процесс "заболеет-не заболеет", "поставят-не поставят диагноз" это реализация случайного процесса. То что мы его застали именно в таком состоянии очень даже подлежит оценке. Оценить мы можем только из соображений что процесс мог быть реализован бесконечным числом способов, но каждый раз риску подвергалась выборка известного нам размера с неизвестным нам уровнем заболевания (то что "ситуация принципиально не повторяется" вообще довольно спорно, повторюсь что интерпретация в виде мультиверса вполне себе имеет место).

Просто и быстро получаем бутстрепом оценку этого параметра. Если вообще 0 случаев чего то, то получаем "оценки сверху" на получение таких случаев в будущем исходя из разумной ошибки выбранной (в том числе например вообще считаем сложную гипотезу с учетом _всей_ истории наблюдения за популяцией (с учетом "черных лебедей" -- (эпи|пан)демий,)).


Signature
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
DrgLena
сообщение 28.11.2018 - 01:00
Сообщение #12


Дух форума
*

Группа: Пользователи
Сообщений: 1324
Регистрация: 27.11.2007
Пользователь №: 4573



Пять лет назад, paravoz, вы уже поднимали этот вопрос на форуме и получили ответы.
В клинической эпидемиологии (к эпидемиям не имеет отношения) есть определения некоторый понятий.
Например, имеется понятие prevalence (prevalence rate), или incidence, которые принято приводить с интервалами. Технически это ДИ, которые, действительно, являются интервальной оценкой параметра, возможно, поэтому интервалы к распространенности стали называть интервалы неопределенности, uncertainty interval , что является белее предпочтительно, но только с философской точки зрения.
Посмотрите в Гугле, confidence interval for prevalence
Данные ВОЗ по распространенности туберкулеза в различный странах :
https://extranet.who.int/sree/Reports?op=Re...mp;outtype=html
https://extranet.who.int/sree/Reports?op=Re...mp;outtype=html


Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
100$
сообщение 28.11.2018 - 02:09
Сообщение #13


Дух форума
*

Группа: Пользователи
Сообщений: 715
Регистрация: 23.08.2010
Пользователь №: 22694



Цитата(paravoz @ 27.11.2018 - 03:34) *
Например, при расчете смертности у нас число умерших составило 18 000 человек. У нас есть данные о возрасте смерти каждого из этих 18 000 (например, по базам смертности Росстата или по реестрам ОМС). Если мы говорим о возрасте смерти 18 000 человек, то это уже будет распределение возраста смерти. Рассчитав средний возраст смерти насколько корректно/возможно в данном случае посчитать доверительный интервал для среднего возраста смерти?


Здесь все до смешного просто:
1) вы восстановили плотность этого распределения и видите, что оно унимодально, на удивление симметрично, не остро- и не плосковершинное (т.е. с эксцессом все в порядке), тяжелых хвостов не наблюдается. Вы решаете, что истинное распределение возраста смерти в некоей генсовокупности - нормальное распределение. Нормальное распределение - двухпараметрическое, и в качестве одного из параметров выступает теоретическое среднее. В силу закона больших чисел эмпирическое среднее сходятся-таки к теоретическому, причем выборочное среднее - это состоятельная, несмещенная и эффективная оценка теоретического среднего. Таким образом параметр распределения возможно состоятельно оценить по выборке. А дальше вы ищете два числа, про которые можно сказать, что они являются концами интервала, который с заданным уровнем / коэффициентом доверия накрывает истинный (неизвестный статистику) параметр распределения. С дисперсией (вторым параметром нормального распределения) все то же самое.

2) вы восстановили плотность этого распределения и у вас кровь из глаз пошла: кривое, косое, асимметричное, лептокуртичное, многомодальное с тяжелыми хвостами. Никакой подходящей аппроксимации вообще не просматривается. Вот и возникает резонный вопрос - а входит ли оно вообще к какое-либо параметрическое семейство? И, если да, то можно ли вообще эти параметры состоятельно оценить по выборке? Если нет, то в этом случае эмпирическое среднее останется лишь обобщающим статистическим показателем, а состоятельной оценкой истинного параметра распределения - нет. Ну и зачем тогда к нему лепить какой-то доверительный интервал?

Касаемо, н-р, показателя смертности, ситуацию вижу так: числитель этой дроби представляет собой счетную величину, измеренную в абсолютной шкале. Ее можно отмоделировать распределением Пуассона. Знаменатель - среднегодовая численность населения, очень грубо (помесячно) = численность предыдущего периода+родившиеся в данном периоде-умершие в данном периоде. На мгновение предположим (по совету коллег), что это тоже (случайная) пуассонова величина. Тогда в полный рост встает вопрос: а как распределено отношение двух пуассоновских величин? Это распределение может зависеть от параметров, которые по выборке оценить в принципе невозможно.

Далее. Пусть у нас есть временной ряд, состряпанный из ежегодных показателей смертности для конкретной территории. По методике расчета данного показателя видно, что члены это ряда не являются независимыми одинаково распределенными с.в. Ряд будет автокоррелирован, если можно так выразиться, по построению. Так вот для того, чтобы такой ряд имел хоть-какую-то познавательную ценность, в нем придется интересоваться не безусловными квантилями этого распределения, а квантилями условного распределения, условного по имеющейся предыстории.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
paravoz
сообщение 28.11.2018 - 09:19
Сообщение #14


Дух форума
*

Группа: Пользователи
Сообщений: 79
Регистрация: 22.08.2013
Из: г. Красноярск
Пользователь №: 25146



Да, этот вопрос я уже поднимал 5 лет назад, но к какой-то внятной общей позиции тогда, насколько я помню, мы не пришли.
Посмотрел в Гугле confidence interval for prevalence, но во всех найденных материалах либо напрямую указывается на выборочные исследования, либо о том в каком (сплошном или выборочном) исследовании рассчитывается ДИ для prevalence не указано.
Несколько убеждает приведение ДИ для заболеваемости ВОЗ, но дело в том, что ВОЗ по разным странам использует лишь выборочные данные. В большинстве стран мира не ведется такого стат.учета как в России. Поэтому для оценки смертности, заболеваемости и т.д. ВОЗ использует выборочные исследования, в которых ДИ вполне оправдан. Не разбирался, что за данные (выборочные или по данным сплошного наблюдения) приведены по Вашим ссылкам, но даже готов предположить, что там приведены данные по результатам сплошного наблюдения и вполне правомочно рассчитаны ДИ.

Коллеги, с расчетами ДИ для роста или возраста всего населения (то есть вроде как генеральной совокупности) все понятно. Хотя не понятно, что этот интервал показывает. Упростим задачу. Есть два дома. В одном доме проживает 10 человек и в другом доме проживает 10 человек. Стоит задача определить в каком из этих домов люди в среднем старше. Не знаю зачем это может быть необходимо, но допустим это необходимо управляющей компании зачем-то. Предположим, что распределение возрастов подчиняется закону нормального распределения. Посчитав средний возраст в 1 доме, получили 35,2 года, во 2 доме - 54,8 года. Даже посчитали стандартное отклонение. В первом доме 8,3 года, во втором - пусть тоже 8,3. Как мне кажется, задача решена. Даже без учета стандартного отклонения и дальнейшего расчета критерия Стьюдента, можно сказать, что во втором доме жители в среднем старше, чем в первом.

Предположим, что я задачу решил неправильно. И каким-нибудь методом (бутстрепом или простым расчетным путем через ошибку среднего) посчитаем доверительные интервалы, которые показывают вероятный интервал среднего возраста в какой-то совокупности. Вот непонятно в какой. В районе? Так управляющей компании не надо знать средний возраст в районе. Ей надо знать в этих конкретных двух домах. Может этой совокупностью является другие моменты времени, в которые не проводилось исследование возраста? То есть интервалы среднего возраста, который может оказаться завтра или послезавтра? Но это тоже не интересует управляющую компанию. Грубо говоря выводы и действия, которые управляющая компания совершает на основании среднего возраста, необходимо совершить сегодня, а не завтра или послезавтра. Завтра или послезавтра УК снова проведет по данным прописанного в домах населения это небольшое исследование. Я вот к чему. В данном очень упрощенном примере зачем этот самый ДИ, на какую совокупность экстраполируется средний возраст и зачем он вообще в данном случае для принятия решения управляющей компанией?

Вернусь к смертности. Если бы мы имели какое-то распределение смертности, например за 10 лет или за 1 год, но по разным регионам, то можно было бы посчитать ДИ опять же бутстрепом или расчетным путем. Но мы имеем данные только за 1 год по одному региону. Например, умерло 1000 человек, среднегодовая численность за этот год составила 100000 человек. Посчитали смертность получилось 1000 на 100000 населения. Считаем ДИ. Например, получили ДИ равное 100. Бутстрепом же мы его посчитать не можем? Из чего извлекать подвыборки, если мы имеем только два числа 1000 умерших и 100000 населения? Не можем мы генерировать случайные числа от 0 до 1000? Если можем, то почему до 1000, а не до 2000 или 10000? Хорошо. Посчитали ДИ расчетным путем по формулам, которые приводятся в различных руководствах. Получается интервал от 900 до 1100 на 100000 населения.

Самый главный вопрос ради которого я так много написал вот в чем. Что показывает данный интервал?
Он показывает вероятные значения смертности в предыдущие или в последующие периоды в этом же регионе? Предыдущие мы знаем и так, а последующие нам пока не нужны.
Или вероятные значения смертности в изучаемый период в других регионах? Это думаю в принципе невозможно.
Или вероятные значения смертности в изучаемый период в более крупном территориальном образовании - в федеральном округе? Это тоже думаю не возможно, так как один регион не является репрезентативной выборкой для федерального округа.
Или вероятные значения смертности в течение года в изучаемом регионе? Но это тоже невозможно, так как методика расчета ДИ, учитывающая только значения числа умерших (1000) и среднегодовой численности населения (100000) не может учитывать внутригодовые колебания. То есть какие бы небыли внутригодовые колебания умирающих в каждый отдельный день ДИ всегда будет одним и тем же, так как при расчете учитываются только число умерших и численность населения. Соответственно такой ДИ не может отражать внутригодовые колебания.
У меня закончились варианты того, что может отражать ДИ для смертности. Давайте этот список продолжим, может в нем появится истина. smile.gif smile.gif smile.gif
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
p2004r
сообщение 28.11.2018 - 10:12
Сообщение #15


Дух форума
*

Группа: Пользователи
Сообщений: 1060
Регистрация: 26.08.2010
Пользователь №: 22699



Цитата(paravoz @ 28.11.2018 - 09:19) *
Да, этот вопрос я уже поднимал 5 лет назад, но к какой-то внятной общей позиции тогда, насколько я помню, мы не пришли.
Посмотрел в Гугле confidence interval for prevalence, но во всех найденных материалах либо напрямую указывается на выборочные исследования, либо о том в каком (сплошном или выборочном) исследовании рассчитывается ДИ для prevalence не указано.
Несколько убеждает приведение ДИ для заболеваемости ВОЗ, но дело в том, что ВОЗ по разным странам использует лишь выборочные данные. В большинстве стран мира не ведется такого стат.учета как в России. Поэтому для оценки смертности, заболеваемости и т.д. ВОЗ использует выборочные исследования, в которых ДИ вполне оправдан. Не разбирался, что за данные (выборочные или по данным сплошного наблюдения) приведены по Вашим ссылкам, но даже готов предположить, что там приведены данные по результатам сплошного наблюдения и вполне правомочно рассчитаны ДИ.

Коллеги, с расчетами ДИ для роста или возраста всего населения (то есть вроде как генеральной совокупности) все понятно. Хотя не понятно, что этот интервал показывает. Упростим задачу. Есть два дома. В одном доме проживает 10 человек и в другом доме проживает 10 человек. Стоит задача определить в каком из этих домов люди в среднем старше. Не знаю зачем это может быть необходимо, но допустим это необходимо управляющей компании зачем-то. Предположим, что распределение возрастов подчиняется закону нормального распределения. Посчитав средний возраст в 1 доме, получили 35,2 года, во 2 доме - 54,8 года. Даже посчитали стандартное отклонение. В первом доме 8,3 года, во втором - пусть тоже 8,3. Как мне кажется, задача решена. Даже без учета стандартного отклонения и дальнейшего расчета критерия Стьюдента, можно сказать, что во втором доме жители в среднем старше, чем в первом.

Предположим, что я задачу решил неправильно. И каким-нибудь методом (бутстрепом или простым расчетным путем через ошибку среднего) посчитаем доверительные интервалы, которые показывают вероятный интервал среднего возраста в какой-то совокупности. Вот непонятно в какой. В районе? Так управляющей компании не надо знать средний возраст в районе. Ей надо знать в этих конкретных двух домах. Может этой совокупностью является другие моменты времени, в которые не проводилось исследование возраста? То есть интервалы среднего возраста, который может оказаться завтра или послезавтра? Но это тоже не интересует управляющую компанию. Грубо говоря выводы и действия, которые управляющая компания совершает на основании среднего возраста, необходимо совершить сегодня, а не завтра или послезавтра. Завтра или послезавтра УК снова проведет по данным прописанного в домах населения это небольшое исследование. Я вот к чему. В данном очень упрощенном примере зачем этот самый ДИ, на какую совокупность экстраполируется средний возраст и зачем он вообще в данном случае для принятия решения управляющей компанией?

Вернусь к смертности. Если бы мы имели какое-то распределение смертности, например за 10 лет или за 1 год, но по разным регионам, то можно было бы посчитать ДИ опять же бутстрепом или расчетным путем. Но мы имеем данные только за 1 год по одному региону. Например, умерло 1000 человек, среднегодовая численность за этот год составила 100000 человек. Посчитали смертность получилось 1000 на 100000 населения. Считаем ДИ. Например, получили ДИ равное 100. Бутстрепом же мы его посчитать не можем? Из чего извлекать подвыборки, если мы имеем только два числа 1000 умерших и 100000 населения? Не можем мы генерировать случайные числа от 0 до 1000? Если можем, то почему до 1000, а не до 2000 или 10000? Хорошо. Посчитали ДИ расчетным путем по формулам, которые приводятся в различных руководствах. Получается интервал от 900 до 1100 на 100000 населения.

Самый главный вопрос ради которого я так много написал вот в чем. Что показывает данный интервал?
Он показывает вероятные значения смертности в предыдущие или в последующие периоды в этом же регионе? Предыдущие мы знаем и так, а последующие нам пока не нужны.
Или вероятные значения смертности в изучаемый период в других регионах? Это думаю в принципе невозможно.
Или вероятные значения смертности в изучаемый период в более крупном территориальном образовании - в федеральном округе? Это тоже думаю не возможно, так как один регион не является репрезентативной выборкой для федерального округа.
Или вероятные значения смертности в течение года в изучаемом регионе? Но это тоже невозможно, так как методика расчета ДИ, учитывающая только значения числа умерших (1000) и среднегодовой численности населения (100000) не может учитывать внутригодовые колебания. То есть какие бы небыли внутригодовые колебания умирающих в каждый отдельный день ДИ всегда будет одним и тем же, так как при расчете учитываются только число умерших и численность населения. Соответственно такой ДИ не может отражать внутригодовые колебания.
У меня закончились варианты того, что может отражать ДИ для смертности. Давайте этот список продолжим, может в нем появится истина. smile.gif smile.gif smile.gif



Доверительный интервал (или восстановленное полное распределение, а не 3 точки взятые из него) показывает оценку показателя в генсовокупности из которой эта выборка взята. Если некая другая выборка в него не впишется, то она взята из другой генсовокупности. Существует ли "генсовокупность" как таковая (ну и всякие "актуальные бесконечности" из которых она состоит более чем полностью)? Ну вот процентов 30 физиков считает что это объективная реальность лежащая в основе устройства окружающего нас мира.

---8<--

В свою родную деревню приезжает на отдых кандидат наук Константин Иванович Журавлёв с женой и дочерью. Вечером местные жители собираются возле дома Глеба Капустина, славящегося умением сре́зать любого интеллектуала-горожанина. Узнав о прибытии Журавлёва, Глеб обещает землякам, что будет держать марку. Вскоре большая группа селян во главе с Капустиным отправляется к Константину Ивановичу в гости. Тот встречает визитёров приветливо, усаживает за стол, но быстро начинает понимать, что душевной беседы не получится. Разговор берёт на себя Глеб. Он постоянно озадачивает хозяина внезапными вопросами о первичности духа и материи, о понятии ?невесомость? применительно к философии, о проблеме шаманизма на северных территориях. Журавлёв теряется под напором бросаемых в его адрес реплик ? диалог с Глебом кажется ему абсурдным, но мужики, наблюдающие за ?спектаклем?, явно одобряют поведение Капустина. Тот, психологически подавив оппонента, объясняет суть устроенного им представления фразой: ?Люблю по носу щёлкнуть ? не задирайся выше ватерлинии! Скромней, дорогие товарищи??

---8<--

PS простите, но всяких "остроумцев" с некой метафизической "фигой в кармане" в интернете столько что они просто не отличимы друг от друга и это откровенно раздражает (правда большинство свою "фигу из кармана" почему то интуитивно стремаются доставать на публике smile.gif )


Signature
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 

2 страниц V   1 2 >
Добавить ответ в эту темуОткрыть тему