Статистическая задача |
Здравствуйте, гость ( Вход | Регистрация )
Статистическая задача |
19.10.2013 - 16:21
Сообщение
#1
|
|
Группа: Пользователи Сообщений: 1 Регистрация: 19.10.2013 Пользователь №: 25454 |
Есть группа больных, 64 человека, которая делится по полу, на 4 группы по возрасту, и им ранее делали 2 разные операции. После операций у них 4 разных варианта анатомического строения глотки. Нужно доказать, что виды анатомического строения не зависят от пола, возраста и проведенного лечения.
Помогите решить. Ну или хотя бы в каком направлении копать... Сообщение отредактировал volchonok - 3.03.2014 - 21:45 |
|
19.10.2013 - 17:09
Сообщение
#2
|
|
Группа: Пользователи Сообщений: 46 Регистрация: 19.07.2013 Из: Украина, Харьков Пользователь №: 25002 |
Вам нужно построить соответствующие таблицы сопряженности, но не по тем данным, которые вы представили, а по исходным данным. А далее рассчитать для построенных таблиц критерий хи-квадрат.
|
|
19.10.2013 - 18:30
Сообщение
#3
|
|
Группа: Пользователи Сообщений: 116 Регистрация: 20.02.2011 Пользователь №: 23251 |
Вам нужно построить соответствующие таблицы сопряженности, но не по тем данным, которые вы представили, а по исходным данным. А далее рассчитать для построенных таблиц критерий хи-квадрат. А как с помощью критерия хи-квадрат показать, что виды анатомического строения не зависят от пола, возраста и проведенного лечения? |
|
19.10.2013 - 18:53
Сообщение
#4
|
|
Группа: Пользователи Сообщений: 1202 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704 |
Есть группа больных, 64 человека, которая делится по полу, на 4 группы по возрасту, и им ранее делали 2 разные операции. После операций у них 4 разных варианта анатомического строения глотки. Нужно доказать, что виды анатомического строения не зависят от пола, возраста и проведенного лечения. Помогите решить. Ну или хотя бы в каком направлении копать... К сожалению, простыми методами здесь не обойтись, т.к. помимо влияния на интересующий показатель факторов по отдельности возможно также влияние каких-то их сочетаний. Нужно анализировать весь комплекс данных одновременно. Копайте в направлении анализа таблиц сопряжённости и иерархического логлинейного анализа. Нужны пакеты, где он есть. Знаю как провести логлинейный анализ в Statistica, можно попробовать в R. |
|
19.10.2013 - 19:28
Сообщение
#5
|
|
Группа: Пользователи Сообщений: 1091 Регистрация: 26.08.2010 Пользователь №: 22699 |
Есть группа больных, 64 человека, которая делится по полу, на 4 группы по возрасту, и им ранее делали 2 разные операции. После операций у них 4 разных варианта анатомического строения глотки. Нужно доказать, что виды анатомического строения не зависят от пола, возраста и проведенного лечения. [attachment=979:Screensh...14.45.04.jpg] Помогите решить. Ну или хотя бы в каком направлении копать... 1. У Вас есть данное в эксперименте разбиение --- сколько 1-2-3-4 типов строения на каждом уровне вложенной иерархии пол-возраст-лечение (получается например функцией table() в R и визуализируется mosaicplot()) 2. Делаете рандомизицию для пол-возраст-лечение просто случайно (и независимо) их перемешивая между членами группы. Накапливаете таких рандомизированных псевдовыборок 100000 (в общем случае следите за схождением получаемой статистики). 3. Для каждого уровня вложенной иерархии пол-возраст-лечение получаете по накопленной совокупности рандомизированных псевдовыборок доверительные интервалы 95% для частот 1-2-3-4 типов результата лечения. 4. Проводите сравнение насколько реальные частоты опыта вписались в интервалы гипотезы отсутствия влияния. 5. Профит Сообщение отредактировал p2004r - 19.10.2013 - 19:29 |
|
21.10.2013 - 17:51
Сообщение
#6
|
|
Группа: Пользователи Сообщений: 16 Регистрация: 20.10.2013 Пользователь №: 25460 |
К сожалению, простыми методами здесь не обойтись, т.к. помимо влияния на интересующий показатель факторов по отдельности возможно также влияние каких-то их сочетаний. Нужно анализировать весь комплекс данных одновременно. Копайте в направлении анализа таблиц сопряжённости и иерархического логлинейного анализа. Нужны пакеты, где он есть. Знаю как провести логлинейный анализ в Statistica, можно попробовать в R. А может начать с простого? Для начала проверить по таблицам сопряженности отсутствие влияния отдельно каждого фактора. |
|
21.10.2013 - 18:03
Сообщение
#7
|
|
Группа: Пользователи Сообщений: 16 Регистрация: 20.10.2013 Пользователь №: 25460 |
А как с помощью критерия хи-квадрат показать, что виды анатомического строения не зависят от пола, возраста и проведенного лечения? Вы строите, например, таблицу сопряженности для проверки зависимости анатомического строения от пола. При этом по строкам располагаете пол, а по столбцам - вид анатомического строения. Далее рассчитываете критерий хи-квадрат. Если нулевая гипотеза принимается, то вид анатомического строения не зависит от пола. В противном случае зависит. Так строите еще 2 таблицы для проверки зависимости вида анатомического строения от возраста и проведенного лечения. Если все 3 проверки опровергнут наличие связи, тогда уже можно и что-то более сложно проверять (учитывающее сочетания факторов). |
|
21.10.2013 - 20:51
Сообщение
#8
|
|
Группа: Пользователи Сообщений: 1202 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704 |
А может начать с простого? Для начала проверить по таблицам сопряженности отсутствие влияния отдельно каждого фактора. Это приглашение к дискуссии? Хорошо. (1) Вы предлагаете заменить один сложный анализ на три простых. Но каков смысл в проведении целых трёх анализов, если ни одни из них не в состоянии ответить на вопрос? Если после проведения этих трёх простых потом всё равно возможно придётся использовать более сложные подходы? Это нелогично с точки зрения решения любой проблемы вообще. Это как "давайте перекопаем поле лопатами, но поскольку на нужную глубину мы всё равно не вскопаем, то следом пустим плуг" . (2) Выявление эффектов взаимодействия между факторами возможно ТОЛЬКО при их совместном анализе. Если анализировать факторы отдельно, то в принципе нельзя обнаружить эффекта типа того, что для какого-то пола лечение влияет, а для какого-то нет, или что для одного пола оно влияет сильнее, чем для другого. Почитайте про взаимодействия факторов. В учебниках эта концепция традиционно излагается лучше при описании не анализа таблиц сопряжённости, а двухфакторного дисперсионного анализа. (3) При объединении входов таблицы для простых анализов мы увеличиваем риск пасть жертвой парадокса Симпсона (= парадокса объединений) и сделать выводы с точностью до наоборот. Честно говоря, и при совместном анализе всех факторов мы от него не застрахованы, т.к. всегда есть вероятность не учесть чего-то важного, но зачем же эту вероятность сознательно увеличивать? (4) Вы предлагаете заменить один анализ на три. А что при этом произойдёт с ошибкой первого рода? Поищите информацию о том, почему омнибусные критерии лучше поправок на множественность сравнений. (5) Ну и наконец хи-квадрат. Многомерные задачи хи-квадратом не решить, т.к. в них хи-квадрат Пирсона теряет аддитивность. Поэтому их анализируют либо отношением (лог)правдоподобия G-квадрат, которое также асимптотически имеет теоретическое распределение хи-квадрат (это делается в ходе логлинейного анализа), либо вообще отказываются от любых асимтотик и считают ресэмплинг-техниками, типа той, что предложил р2004r. Сообщение отредактировал nokh - 21.10.2013 - 21:23 |
|
21.10.2013 - 23:01
Сообщение
#9
|
|
Группа: Пользователи Сообщений: 16 Регистрация: 20.10.2013 Пользователь №: 25460 |
Это приглашение к дискуссии? Хорошо. Я уже боюсь)) Я самоучка, поэтому вполне допускаю, что многого не знаю. Очень интересно пообщаться со знающими людьми. А на этом форуме дискуссии не приветствуются? (1) Вы предлагаете заменить один сложный анализ на три простых. Но каков смысл в проведении целых трёх анализов, если ни одни из них не в состоянии ответить на вопрос? Если после проведения этих трёх простых потом всё равно возможно придётся использовать более сложные подходы? Это нелогично с точки зрения решения любой проблемы вообще. Это как "давайте перекопаем поле лопатами, но поскольку на нужную глубину мы всё равно не вскопаем, то следом пустим плуг" . Я вкладывала другой смысл. Я бы назвала это разведкой, а не копанием совочком гектара. (2) Выявление эффектов взаимодействия между факторами возможно ТОЛЬКО при их совместном анализе. Если анализировать факторы отдельно, то в принципе нельзя обнаружить эффекта типа того, что для какого-то пола лечение влияет, а для какого-то нет, или что для одного пола оно влияет сильнее, чем для другого. Почитайте про взаимодействия факторов. В учебниках эта концепция традиционно излагается лучше при описании не анализа таблиц сопряжённости, а двухфакторного дисперсионного анализа. А стоит ли тут вообще задача взаимодействия между факторами? И стоит ли задача определения влияния какого-то пола сильнее, чем другого? В стартпосте был задан вопрос "зависит/не зависит". (3) При объединении входов таблицы для простых анализов мы увеличиваем риск пасть жертвой парадокса Симпсона (= парадокса объединений) и сделать выводы с точностью до наоборот. Честно говоря, и при совместном анализе всех факторов мы от него не застрахованы, т.к. всегда есть вероятность не учесть чего-то важного, но зачем же эту вероятность сознательно увеличивать? не спорю)) (4) Вы предлагаете заменить один анализ на три. А что при этом произойдёт с ошибкой первого рода? Поищите информацию о том, почему омнибусные критерии лучше поправок на множественность сравнений. Нет, заменять я ничего не предлагаю. С ошибкой при множественных сравнениях мне все понятно. Я пытаюсь понять постановку задачи. Стоит ли задача многофакторного анализа или есть 3 отдельные однофакторные задачи? (5) Ну и наконец хи-квадрат. Многомерные задачи хи-квадратом не решить, т.к. в них хи-квадрат Пирсона теряет аддитивность. Поэтому их анализируют либо отношением (лог)правдоподобия G-квадрат, которое также асимптотически имеет теоретическое распределение хи-квадрат (это делается в ходе логлинейного анализа), либо вообще отказываются от любых асимтотик и считают ресэмплинг-техниками, типа той, что предложил р2004r. Я не предлагаю решать многомерную задачу хи-квадратом. С теорией, которую предложил р2004r, еще не знакома. Буду изучать. Спасибо. |
|
21.10.2013 - 23:24
Сообщение
#10
|
|
Группа: Пользователи Сообщений: 1091 Регистрация: 26.08.2010 Пользователь №: 22699 |
Я не предлагаю решать многомерную задачу хи-квадратом. С теорией, которую предложил р2004r, еще не знакома. Буду изучать. Спасибо. Вы её уже знаете Если назначенные измеренной в эксперименте величине уровни факторов перемешать, то все связи будут разрушены. Естественно если связи были Это называют рандомизацией. Построив доверительные интервалы для интересующих нас статпоказателей (средних, дисперсий... да вообще практически любых) мы сравниваем их с полученными по исходным экспериментальных данных. Если нас интересуют не проверка гипотезы о случайности факторов модели, а доверительные интервалы для статпараметров по уровням факторов, то пользуемся бутстрепом. Но для именно этого датасета будет трудновато, "вот так просто взять и построить сэмплер"(С)Боромир |
|
22.10.2013 - 10:09
Сообщение
#11
|
|
Группа: Пользователи Сообщений: 116 Регистрация: 20.02.2011 Пользователь №: 23251 |
Вы строите, например, таблицу сопряженности для проверки зависимости анатомического строения от пола. При этом по строкам располагаете пол, а по столбцам - вид анатомического строения. Далее рассчитываете критерий хи-квадрат. Если нулевая гипотеза принимается, то вид анатомического строения не зависит от пола. В противном случае зависит. Так строите еще 2 таблицы для проверки зависимости вида анатомического строения от возраста и проведенного лечения. Если все 3 проверки опровергнут наличие связи, тогда уже можно и что-то более сложно проверять (учитывающее сочетания факторов). Хи-квадрат я представляю, здесь трудность в другом: 1) Нулевая гипотеза никогда не принимается 2) при р > 0.05 нельзя сделать вывод, что то-то от чего-то не зависит или не имеет эффекта Это обсуждалось на форуме, но все равно хочется утверждать, что "черных лебедей не существует, лишь потому, что мы видели только белых" |
|
22.10.2013 - 21:47
Сообщение
#12
|
|
Группа: Пользователи Сообщений: 16 Регистрация: 20.10.2013 Пользователь №: 25460 |
Хи-квадрат я представляю, здесь трудность в другом: 1) Нулевая гипотеза никогда не принимается Почему? 2) при р > 0.05 нельзя сделать вывод, что то-то от чего-то не зависит или не имеет эффекта А как же тогда проверять отсутствие эффекта? Это обсуждалось на форуме, но все равно хочется утверждать, что "черных лебедей не существует, лишь потому, что мы видели только белых" А можно ссылку на тему? |
|
22.10.2013 - 23:36
Сообщение
#13
|
|
Группа: Пользователи Сообщений: 1325 Регистрация: 27.11.2007 Пользователь №: 4573 |
Строго говоря, нулевая гипотеза в действительности не принимается, мы можем просто утверждать, что нам не удалось ее отвегнуть . А это совсем не одно и тоже.
На форуме этот вопрос обсуждался неоднократно. Кроме того, обсуждался вопрос о не верно сделанных выводах при сравнении числа осложнений при двух видах вмешательства. Например, наблюдалось 17% и 7% осложнений. Да, нулевая гипотеза не отвергается, но на этом основании нельзя сделать вывод о том, что два вмешательства по числу осложнений не различаются. Просто не хватает статистической мощности данного исследования для того, чтобы отвергнуть нулевую гипотезу. Можно решить задачку, сколько необходимо иметь наблюдений, чтобы при такой разнице в проценте осложнений можно было бы отвергнуть нулевую гипотезу. И про это тоже есть на форуме. |
|
22.10.2013 - 23:41
Сообщение
#14
|
|
Группа: Пользователи Сообщений: 116 Регистрация: 20.02.2011 Пользователь №: 23251 |
А можно ссылку на тему? Если дружите с англ., то почитайте например это https://www.ctspedia.org/do/view/CTSpedia/PvalueFallacy В статье описываются самые распространенные ошибки и как их избежать, как лучше представлять результаты стат. анализа и др. Так же гляньте про проблему множественных сравнений, она затрагивается в статье. Помню, nokh однажды сказал, что если в своей работе вы применяете Бонферрони, то что-то не так с дизайном вашего эксперимента. И проблема множественных сравнений действительно сложна, существует масса авторитетных мнений, которые против применения этих поправок. В качестве аргументов приводятся например такие: если нулевая гипотеза на самом деле никогда не равна действительно 0 (ее называют nil-hypothesis), то что мы делим на что при поправке Бонферрони? То, что не существует делим на количество гипотез? Или например, поправки на множественные сравнения не дают ответа когда нужно остановиться и прекратить их применять - имеется ввиду, применять поправки в рамках одной работы, одного исследования, одной популяции, проблемы как в целом? И масса других вопросов.. Поэтому не спешите с хи-квадаратом :-) |
|
23.10.2013 - 08:04
Сообщение
#15
|
|
Группа: Пользователи Сообщений: 16 Регистрация: 20.10.2013 Пользователь №: 25460 |
Спасибо за ответы.
С нулевой гипотезой интересно, но отвергая или не отвергая ее, мы всегда говорим об ошибках принятия решения. С таким же успехом мы можем сказать, что отвергая нулевую гипотезу, мы тоже не можем утверждать, что продлив эксперимент, не окажется, что обнаруженные отличия случайны. |
|