Помощь - Поиск - Пользователи - Календарь
Полная версия этой страницы: Статистическая задача
Форум врачей-аспирантов > Разделы форума > Медицинская статистика
volchonok
Есть группа больных, 64 человека, которая делится по полу, на 4 группы по возрасту, и им ранее делали 2 разные операции. После операций у них 4 разных варианта анатомического строения глотки. Нужно доказать, что виды анатомического строения не зависят от пола, возраста и проведенного лечения.
Помогите решить. Ну или хотя бы в каком направлении копать...
Статистик
Вам нужно построить соответствующие таблицы сопряженности, но не по тем данным, которые вы представили, а по исходным данным. А далее рассчитать для построенных таблиц критерий хи-квадрат.
TheThing
Цитата(Статистик @ 19.10.2013 - 17:09) *
Вам нужно построить соответствующие таблицы сопряженности, но не по тем данным, которые вы представили, а по исходным данным. А далее рассчитать для построенных таблиц критерий хи-квадрат.


А как с помощью критерия хи-квадрат показать, что виды анатомического строения не зависят от пола, возраста и проведенного лечения?
nokh
Цитата(volchonok @ 19.10.2013 - 19:21) *
Есть группа больных, 64 человека, которая делится по полу, на 4 группы по возрасту, и им ранее делали 2 разные операции. После операций у них 4 разных варианта анатомического строения глотки. Нужно доказать, что виды анатомического строения не зависят от пола, возраста и проведенного лечения.
Помогите решить. Ну или хотя бы в каком направлении копать...

К сожалению, простыми методами здесь не обойтись, т.к. помимо влияния на интересующий показатель факторов по отдельности возможно также влияние каких-то их сочетаний. Нужно анализировать весь комплекс данных одновременно. Копайте в направлении анализа таблиц сопряжённости и иерархического логлинейного анализа. Нужны пакеты, где он есть. Знаю как провести логлинейный анализ в Statistica, можно попробовать в R.
p2004r
Цитата(volchonok @ 19.10.2013 - 16:21) *
Есть группа больных, 64 человека, которая делится по полу, на 4 группы по возрасту, и им ранее делали 2 разные операции. После операций у них 4 разных варианта анатомического строения глотки. Нужно доказать, что виды анатомического строения не зависят от пола, возраста и проведенного лечения.
Нажмите для просмотра прикрепленного файла
Помогите решить. Ну или хотя бы в каком направлении копать...


1. У Вас есть данное в эксперименте разбиение --- сколько 1-2-3-4 типов строения на каждом уровне вложенной иерархии пол-возраст-лечение (получается например функцией table() в R и визуализируется mosaicplot())

2. Делаете рандомизицию для пол-возраст-лечение просто случайно (и независимо) их перемешивая между членами группы. Накапливаете таких рандомизированных псевдовыборок 100000 (в общем случае следите за схождением получаемой статистики).

3. Для каждого уровня вложенной иерархии пол-возраст-лечение получаете по накопленной совокупности рандомизированных псевдовыборок доверительные интервалы 95% для частот 1-2-3-4 типов результата лечения.

4. Проводите сравнение насколько реальные частоты опыта вписались в интервалы гипотезы отсутствия влияния.

5. Профит smile.gif
docent
Цитата(nokh @ 19.10.2013 - 18:53) *
К сожалению, простыми методами здесь не обойтись, т.к. помимо влияния на интересующий показатель факторов по отдельности возможно также влияние каких-то их сочетаний. Нужно анализировать весь комплекс данных одновременно. Копайте в направлении анализа таблиц сопряжённости и иерархического логлинейного анализа. Нужны пакеты, где он есть. Знаю как провести логлинейный анализ в Statistica, можно попробовать в R.

А может начать с простого? Для начала проверить по таблицам сопряженности отсутствие влияния отдельно каждого фактора.
docent
Цитата(TheThing @ 19.10.2013 - 18:30) *
А как с помощью критерия хи-квадрат показать, что виды анатомического строения не зависят от пола, возраста и проведенного лечения?

Вы строите, например, таблицу сопряженности для проверки зависимости анатомического строения от пола. При этом по строкам располагаете пол, а по столбцам - вид анатомического строения. Далее рассчитываете критерий хи-квадрат. Если нулевая гипотеза принимается, то вид анатомического строения не зависит от пола. В противном случае зависит.
Так строите еще 2 таблицы для проверки зависимости вида анатомического строения от возраста и проведенного лечения.

Если все 3 проверки опровергнут наличие связи, тогда уже можно и что-то более сложно проверять (учитывающее сочетания факторов).
nokh
Цитата(docent @ 21.10.2013 - 20:51) *
А может начать с простого? Для начала проверить по таблицам сопряженности отсутствие влияния отдельно каждого фактора.

Это приглашение к дискуссии? Хорошо.
(1) Вы предлагаете заменить один сложный анализ на три простых. Но каков смысл в проведении целых трёх анализов, если ни одни из них не в состоянии ответить на вопрос? Если после проведения этих трёх простых потом всё равно возможно придётся использовать более сложные подходы? Это нелогично с точки зрения решения любой проблемы вообще. Это как "давайте перекопаем поле лопатами, но поскольку на нужную глубину мы всё равно не вскопаем, то следом пустим плуг" smile.gif .
(2) Выявление эффектов взаимодействия между факторами возможно ТОЛЬКО при их совместном анализе. Если анализировать факторы отдельно, то в принципе нельзя обнаружить эффекта типа того, что для какого-то пола лечение влияет, а для какого-то нет, или что для одного пола оно влияет сильнее, чем для другого. Почитайте про взаимодействия факторов. В учебниках эта концепция традиционно излагается лучше при описании не анализа таблиц сопряжённости, а двухфакторного дисперсионного анализа.
(3) При объединении входов таблицы для простых анализов мы увеличиваем риск пасть жертвой парадокса Симпсона (= парадокса объединений) и сделать выводы с точностью до наоборот. Честно говоря, и при совместном анализе всех факторов мы от него не застрахованы, т.к. всегда есть вероятность не учесть чего-то важного, но зачем же эту вероятность сознательно увеличивать?
(4) Вы предлагаете заменить один анализ на три. А что при этом произойдёт с ошибкой первого рода? Поищите информацию о том, почему омнибусные критерии лучше поправок на множественность сравнений.
(5) Ну и наконец хи-квадрат. Многомерные задачи хи-квадратом не решить, т.к. в них хи-квадрат Пирсона теряет аддитивность. Поэтому их анализируют либо отношением (лог)правдоподобия G-квадрат, которое также асимптотически имеет теоретическое распределение хи-квадрат (это делается в ходе логлинейного анализа), либо вообще отказываются от любых асимтотик и считают ресэмплинг-техниками, типа той, что предложил р2004r.
docent
Цитата(nokh @ 21.10.2013 - 20:51) *
Это приглашение к дискуссии? Хорошо.

Я уже боюсь))
Я самоучка, поэтому вполне допускаю, что многого не знаю. Очень интересно пообщаться со знающими людьми. А на этом форуме дискуссии не приветствуются?

Цитата(nokh @ 21.10.2013 - 20:51) *
(1) Вы предлагаете заменить один сложный анализ на три простых. Но каков смысл в проведении целых трёх анализов, если ни одни из них не в состоянии ответить на вопрос? Если после проведения этих трёх простых потом всё равно возможно придётся использовать более сложные подходы? Это нелогично с точки зрения решения любой проблемы вообще. Это как "давайте перекопаем поле лопатами, но поскольку на нужную глубину мы всё равно не вскопаем, то следом пустим плуг" smile.gif .

Я вкладывала другой смысл. Я бы назвала это разведкой, а не копанием совочком гектара.

Цитата(nokh @ 21.10.2013 - 20:51) *
(2) Выявление эффектов взаимодействия между факторами возможно ТОЛЬКО при их совместном анализе. Если анализировать факторы отдельно, то в принципе нельзя обнаружить эффекта типа того, что для какого-то пола лечение влияет, а для какого-то нет, или что для одного пола оно влияет сильнее, чем для другого. Почитайте про взаимодействия факторов. В учебниках эта концепция традиционно излагается лучше при описании не анализа таблиц сопряжённости, а двухфакторного дисперсионного анализа.

А стоит ли тут вообще задача взаимодействия между факторами? И стоит ли задача определения влияния какого-то пола сильнее, чем другого? В стартпосте был задан вопрос "зависит/не зависит".

Цитата(nokh @ 21.10.2013 - 20:51) *
(3) При объединении входов таблицы для простых анализов мы увеличиваем риск пасть жертвой парадокса Симпсона (= парадокса объединений) и сделать выводы с точностью до наоборот. Честно говоря, и при совместном анализе всех факторов мы от него не застрахованы, т.к. всегда есть вероятность не учесть чего-то важного, но зачем же эту вероятность сознательно увеличивать?

не спорю))

Цитата(nokh @ 21.10.2013 - 20:51) *
(4) Вы предлагаете заменить один анализ на три. А что при этом произойдёт с ошибкой первого рода? Поищите информацию о том, почему омнибусные критерии лучше поправок на множественность сравнений.

Нет, заменять я ничего не предлагаю. С ошибкой при множественных сравнениях мне все понятно. Я пытаюсь понять постановку задачи. Стоит ли задача многофакторного анализа или есть 3 отдельные однофакторные задачи?

Цитата(nokh @ 21.10.2013 - 20:51) *
(5) Ну и наконец хи-квадрат. Многомерные задачи хи-квадратом не решить, т.к. в них хи-квадрат Пирсона теряет аддитивность. Поэтому их анализируют либо отношением (лог)правдоподобия G-квадрат, которое также асимптотически имеет теоретическое распределение хи-квадрат (это делается в ходе логлинейного анализа), либо вообще отказываются от любых асимтотик и считают ресэмплинг-техниками, типа той, что предложил р2004r.

Я не предлагаю решать многомерную задачу хи-квадратом. С теорией, которую предложил р2004r, еще не знакома. Буду изучать. Спасибо.
p2004r
Цитата(docent @ 21.10.2013 - 23:01) *
Я не предлагаю решать многомерную задачу хи-квадратом. С теорией, которую предложил р2004r, еще не знакома. Буду изучать. Спасибо.


Вы её уже знаете smile.gif

Если назначенные измеренной в эксперименте величине уровни факторов перемешать, то все связи будут разрушены. Естественно если связи были smile.gif Это называют рандомизацией. Построив доверительные интервалы для интересующих нас статпоказателей (средних, дисперсий... да вообще практически любых) мы сравниваем их с полученными по исходным экспериментальных данных.

Если нас интересуют не проверка гипотезы о случайности факторов модели, а доверительные интервалы для статпараметров по уровням факторов, то пользуемся бутстрепом. Но для именно этого датасета будет трудновато, "вот так просто взять и построить сэмплер"(С)Боромир


TheThing
Цитата(docent @ 21.10.2013 - 18:03) *
Вы строите, например, таблицу сопряженности для проверки зависимости анатомического строения от пола. При этом по строкам располагаете пол, а по столбцам - вид анатомического строения. Далее рассчитываете критерий хи-квадрат. Если нулевая гипотеза принимается, то вид анатомического строения не зависит от пола. В противном случае зависит.
Так строите еще 2 таблицы для проверки зависимости вида анатомического строения от возраста и проведенного лечения.

Если все 3 проверки опровергнут наличие связи, тогда уже можно и что-то более сложно проверять (учитывающее сочетания факторов).


Хи-квадрат я представляю, здесь трудность в другом:
1) Нулевая гипотеза никогда не принимается
2) при р > 0.05 нельзя сделать вывод, что то-то от чего-то не зависит или не имеет эффекта

Это обсуждалось на форуме, но все равно хочется утверждать, что "черных лебедей не существует, лишь потому, что мы видели только белых" smile.gif
docent
Цитата(TheThing @ 22.10.2013 - 10:09) *
Хи-квадрат я представляю, здесь трудность в другом:
1) Нулевая гипотеза никогда не принимается

Почему?

Цитата(TheThing @ 22.10.2013 - 10:09) *
2) при р > 0.05 нельзя сделать вывод, что то-то от чего-то не зависит или не имеет эффекта

А как же тогда проверять отсутствие эффекта?

Цитата(TheThing @ 22.10.2013 - 10:09) *
Это обсуждалось на форуме, но все равно хочется утверждать, что "черных лебедей не существует, лишь потому, что мы видели только белых" smile.gif

А можно ссылку на тему?
DrgLena
Строго говоря, нулевая гипотеза в действительности не принимается, мы можем просто утверждать, что нам не удалось ее отвегнуть . А это совсем не одно и тоже.
На форуме этот вопрос обсуждался неоднократно. Кроме того, обсуждался вопрос о не верно сделанных выводах при сравнении числа осложнений при двух видах вмешательства. Например, наблюдалось 17% и 7% осложнений. Да, нулевая гипотеза не отвергается, но на этом основании нельзя сделать вывод о том, что два вмешательства по числу осложнений не различаются. Просто не хватает статистической мощности данного исследования для того, чтобы отвергнуть нулевую гипотезу.
Можно решить задачку, сколько необходимо иметь наблюдений, чтобы при такой разнице в проценте осложнений можно было бы отвергнуть нулевую гипотезу. И про это тоже есть на форуме.

TheThing
Цитата(docent @ 22.10.2013 - 21:47) *
А можно ссылку на тему?


Если дружите с англ., то почитайте например это
https://www.ctspedia.org/do/view/CTSpedia/PvalueFallacy

В статье описываются самые распространенные ошибки и как их избежать, как лучше представлять результаты стат. анализа и др.

Так же гляньте про проблему множественных сравнений, она затрагивается в статье. Помню, nokh однажды сказал, что если в своей работе вы применяете Бонферрони, то что-то не так с дизайном вашего эксперимента. И проблема множественных сравнений действительно сложна, существует масса авторитетных мнений, которые против применения этих поправок. В качестве аргументов приводятся например такие: если нулевая гипотеза на самом деле никогда не равна действительно 0 (ее называют nil-hypothesis), то что мы делим на что при поправке Бонферрони? То, что не существует делим на количество гипотез? Или например, поправки на множественные сравнения не дают ответа когда нужно остановиться и прекратить их применять - имеется ввиду, применять поправки в рамках одной работы, одного исследования, одной популяции, проблемы как в целом? И масса других вопросов..


Поэтому не спешите с хи-квадаратом :-)

docent
Спасибо за ответы.
С нулевой гипотезой интересно, но отвергая или не отвергая ее, мы всегда говорим об ошибках принятия решения. С таким же успехом мы можем сказать, что отвергая нулевую гипотезу, мы тоже не можем утверждать, что продлив эксперимент, не окажется, что обнаруженные отличия случайны.
100$
Цитата(docent @ 23.10.2013 - 09:04) *
Спасибо за ответы.
С нулевой гипотезой интересно, но отвергая или не отвергая ее, мы всегда говорим об ошибках принятия решения. С таким же успехом мы можем сказать, что отвергая нулевую гипотезу, мы тоже не можем утверждать, что продлив эксперимент, не окажется, что обнаруженные отличия случайны.


Как доцент доценту.

Статистический критерий называется состоятельным, если при неограниченном возрастании объема выборки вероятность отвергнуть нулевую гипотезу (H0) стремится к 1, когда верна альтернативная гипотеза H1.

Docendo discimus! И пользуйтесь состоятельными критериями.
Для просмотра полной версии этой страницы, пожалуйста, пройдите по ссылке.
Форум IP.Board © 2001-2025 IPS, Inc.