Непонятный вопрос по процентам и достоверности P |
Здравствуйте, гость ( Вход | Регистрация )
Непонятный вопрос по процентам и достоверности P |
26.03.2019 - 10:10
Сообщение
#1
|
|
Группа: Пользователи Сообщений: 4 Регистрация: 26.03.2019 Пользователь №: 33494 |
День добрый! Периодически приходится консультировать аспирантов-медиков по статистическому анализу данных. Повторно возник вопрос совершенно непонятного для меня назначения.
Имеется группа больных общим числом например 100 человек (то бишь 100%). Вся эта группа делится на 3 патологии исследуемого заболевания: 1-я - 25 человек 2-я - 30 и 3-я - соответственно 100 - (25+30) = 45 Все это выражено в процентном соотношении по группам: 25%, 30% и 45%. Так вот в чем вопрос, руководитель человека, которого я консультирую требует сравнить эти процентные соотношения, а так же указать в виде р достоверность этих различий. Я бы еще понял, если бы это были три разные группы (как фактор) и тд для применения хи-квадрата и сопутствующих ему, а тут как бы одна группа.. Я чего -то не понимаю? Или мне что-то неправильно говорят? Руководитель человеку говорит, что у них какая-то особая специфика, а я подхожу с позиции математика. Сообщение отредактировал aknothing - 26.03.2019 - 10:10 |
|
26.03.2019 - 15:00
Сообщение
#2
|
|
Группа: Пользователи Сообщений: 1202 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704 |
...Имеется группа больных общим числом например 100 человек (то бишь 100%). Вся эта группа делится на 3 патологии исследуемого заболевания: 1-я - 25 человек 2-я - 30 и 3-я - соответственно 100 - (25+30) = 45 Все это выражено в процентном соотношении по группам: 25%, 30% и 45%. Так вот в чем вопрос, руководитель человека, которого я консультирую требует сравнить эти процентные соотношения, а так же указать в виде р достоверность этих различий. Всё зависит от того как собирались данные и для какой нулевой гипотезы нужны р-значения. Вариантов вижу два. 1) Если группа делится на 3 патологии искусственно, то "особая специфика" в том, что руководитель - неадекват, аспиранту - не повезло, вам - опыт в копилку и отстраниться. 2) Но будем исходить из более правдоподобного и радостного варианта: данные собраны таким образом, что каждая из 3 патологий имела равные шансы попасть в выборку. В этом случае частоты патологий являются выборочными оценками вероятностей представленности этих патологий в генеральной совокупности, т.е. распространённости (преваленса) патологий в популяции. В этом случае всё что можно сравнить и обнаружить - это неодинаковую распространённость патологий. Другое дело: сколько в этом логики и медицины. Но, допустим, с медицинской точки зрения действительно важно доказать, что патологии представлены неравномерно. Тогда нулевая гипотеза: равномерная распространённость патологий. Т.е. для 100 случаев - 100/3=33,3(3) для каждой. Можно сравнить наблюдаемые частоты с этими ожидаемыми частотами критериями типа хи-квадрат. Поскольку гипотеза одна, то и проверок - одна. Но в случае обнаружения статистически значимой неоднородности можно дополнительно рассчитать р-значение для каждой ячейки, чтобы обнаружить те, которые неслучайно вложились в статистику критерия и обеспечили (преимущественно) статистическую значимость различий. Для этого для каждой ячейки нужно рассчитать либо (а) согласованные стандартизованные остатки (остатки Хабермана, statdardized adjusted residuals), либо (б) отклонения Фримана - Тьюки (Freeman-Tukey deviation). Считать придётся вручную по формулам. Для описательной статистики помимо абсолютных и относительных частот желательно привести 95%-ные доверительные интервалы. В случае если речь идёт именно о композиции ( в сумме - 100%), то их вроде можно рассчитать точнее, чем традиционными методами типа Клоппера - Пирсона (вроде бы в сопровождении MedCalc видел, но это не точно); может меня поправят/дополнят... |
|
26.03.2019 - 15:44
Сообщение
#3
|
|
Группа: Пользователи Сообщений: 4 Регистрация: 26.03.2019 Пользователь №: 33494 |
Цитата 1) Если группа делится на 3 патологии искусственно, то "особая специфика" в том, что руководитель - неадекват, аспиранту - не повезло, вам - опыт в копилку и отстраниться. Тут похоже замес в плане неадекватности и недостаточного понимания аспирантом требований. Человек конкретно хочет сравнить процентное соотношение одной патологии с процентным соотношением другой в этой общей выборке и получить достоверность (грубо говоря одну цифру с другой), затем 1 с 3-й патологией, 2 с 3 и по ним так же получить значение достоверности. А потом еще 1-ю с 2+3 и тд.. на этом как-то терпение лопнуло.. Цитата 2) Но будем исходить из более правдоподобного и радостного варианта: данные собраны таким образом, что каждая из 3 патологий имела равные шансы попасть в выборку. В этом случае частоты патологий являются выборочными оценками вероятностей представленности этих патологий в генеральной совокупности, т.е. распространённости (преваленса) патологий в популяции. В этом случае всё что можно сравнить и обнаружить - это неодинаковую распространённость патологий. Другое дело: сколько в этом логики и медицины. Но, допустим, с медицинской точки зрения действительно важно доказать, что патологии представлены неравномерно. Тогда нулевая гипотеза: равномерная распространённость патологий. Т.е. для 100 случаев - 100/3=33,3(3) для каждой. Можно сравнить наблюдаемые частоты с этими ожидаемыми частотами критериями типа хи-квадрат. Вот по этому пункту - это, кстати, мысль! Возможно, именно этого и требует руководитель, а сам аспирант неправильно мне все интерпретирует. Большое спасибо за подсказку! |
|
26.03.2019 - 20:36
Сообщение
#4
|
|
Группа: Пользователи Сообщений: 902 Регистрация: 23.08.2010 Пользователь №: 22694 |
Тут похоже замес в плане неадекватности и недостаточного понимания аспирантом требований. Человек конкретно хочет сравнить процентное соотношение одной патологии с процентным соотношением другой в этой общей выборке и получить достоверность (грубо говоря одну цифру с другой), затем 1 с 3-й патологией, 2 с 3 и по ним так же получить значение достоверности. А потом еще 1-ю с 2+3 и тд.. на этом как-то терпение лопнуло.. Как математик математику: проверка гипотезы о средней и проверка гипотезы о доле - квинтэссенция выборочных исследований. Ваше терпение лопнуло слишком рано. |
|
26.03.2019 - 21:02
Сообщение
#5
|
|
Группа: Пользователи Сообщений: 1091 Регистрация: 26.08.2010 Пользователь №: 22699 |
Собственно эта конкретная задача решается вот так.
На графике синими линиями изображен the confidence intervals, default to 50, 90 and 95 percent. |
|
26.03.2019 - 22:19
Сообщение
#6
|
|
Группа: Пользователи Сообщений: 1202 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704 |
На графике синими линиями изображен the confidence intervals, default to 50, 90 and 95 percent. Мне понравилась оптическая иллюзия: если смотреть на облако точек и мелко качать или трясти головой, то синие контуры ДИ начинают плавать над неподвижными точками. Завораживает однако)) Под сайко особенно хорошо: https://www.youtube.com/watch?v=PcNSmRrKQP0 Это ggtern? Сообщение отредактировал nokh - 26.03.2019 - 22:48 |
|
27.03.2019 - 08:36
Сообщение
#7
|
|
Группа: Пользователи Сообщений: 4 Регистрация: 26.03.2019 Пользователь №: 33494 |
Как математик математику: проверка гипотезы о средней и проверка гипотезы о доле - квинтэссенция выборочных исследований. Ваше терпение лопнуло слишком рано. Вы не совсем правильно поняли вопрос мне задававшийся. Выборка у исследователя одна и просит он сравнить доли в этой одной выборке. Ни о проверке равномерности распространения этих патологий в популяции, ни о сравнении двух групп, ни о влиянии каких-либо факторов речи не шло. Как не было и вопроса по оценке полученных результатов (гипотеза о равенстве доли единиц, обладающих определенным признаком, норме). Вот человек выше правильно подсказал, что "допустим, с медицинской точки зрения действительно важно доказать, что патологии представлены неравномерно." Я предполагаю, что именно это и требуется. Но если Вы видите иное решение, то был бы благодарен, если его как-то подскажете. Сообщение отредактировал aknothing - 27.03.2019 - 08:46 |
|
27.03.2019 - 09:18
Сообщение
#8
|
|
Группа: Пользователи Сообщений: 1091 Регистрация: 26.08.2010 Пользователь №: 22699 |
Это ggtern? Да, это сырой бутстреп в ggtern. PS чистая картинка вот так выглядит Сообщение отредактировал p2004r - 27.03.2019 - 09:26 |
|
27.03.2019 - 21:03
Сообщение
#9
|
|
Группа: Пользователи Сообщений: 902 Регистрация: 23.08.2010 Пользователь №: 22694 |
Вы не совсем правильно поняли вопрос мне задававшийся. Выборка у исследователя одна и просит он сравнить доли в этой одной выборке. Ни о проверке равномерности распространения этих патологий в популяции, ни о сравнении двух групп, ни о влиянии каких-либо факторов речи не шло. Как не было и вопроса по оценке полученных результатов (гипотеза о равенстве доли единиц, обладающих определенным признаком, норме). Вот человек выше правильно подсказал, что "допустим, с медицинской точки зрения действительно важно доказать, что патологии представлены неравномерно." Я предполагаю, что именно это и требуется. Но если Вы видите иное решение, то был бы благодарен, если его как-то подскажете. Полагаю, что понял правильно, бо меня о том же самом просили не раз. Если бы выборка состояла из объектов типа М и Ж (мягкие и жесткие), то исследователь наверняка захотел бы узнать, а сбалансирована ли его выборка по полу? Вы же стоите перед урной, в которой находятся 100 шаров трех разных цветов и 100 раз проделываете эксперимент, заключающийся в добывании из урны шара определенного цвета, причем вероятность pi извлечения шара конкретного цвета вам неизвестна. Вас просят протестировать гипотезу о том, что вероятность наблюдать вектор из имеющегося набора эмпирических частот не отличается от 1/3 против альтернативы о том, что таки отличается. Разумеется, тестировать ее попарными сравнениями типа 1 vs. 2, 1 vs. 3 и 2 vs. 3 не резон. Сообщение отредактировал 100$ - 27.03.2019 - 21:05 |
|
29.03.2019 - 08:36
Сообщение
#10
|
|
Группа: Пользователи Сообщений: 4 Регистрация: 26.03.2019 Пользователь №: 33494 |
Полагаю, что понял правильно, бо меня о том же самом просили не раз. Если бы выборка состояла из объектов типа М и Ж (мягкие и жесткие), то исследователь наверняка захотел бы узнать, а сбалансирована ли его выборка по полу? Вы же стоите перед урной, в которой находятся 100 шаров трех разных цветов и 100 раз проделываете эксперимент, заключающийся в добывании из урны шара определенного цвета, причем вероятность pi извлечения шара конкретного цвета вам неизвестна. Вас просят протестировать гипотезу о том, что вероятность наблюдать вектор из имеющегося набора эмпирических частот не отличается от 1/3 против альтернативы о том, что таки отличается. Разумеется, тестировать ее попарными сравнениями типа 1 vs. 2, 1 vs. 3 и 2 vs. 3 не резон. Благодарю за помощь! Не всегда получается понять чего требует тот или иной исследователь, сейчас все стало на свои места |
|