Форум врачей-аспирантов

Здравствуйте, гость ( Вход | Регистрация )

2 страниц V   1 2 >  
Добавить ответ в эту темуОткрыть тему
> Статистическая задача
volchonok
сообщение 19.10.2013 - 16:21
Сообщение #1





Группа: Пользователи
Сообщений: 1
Регистрация: 19.10.2013
Пользователь №: 25454



Есть группа больных, 64 человека, которая делится по полу, на 4 группы по возрасту, и им ранее делали 2 разные операции. После операций у них 4 разных варианта анатомического строения глотки. Нужно доказать, что виды анатомического строения не зависят от пола, возраста и проведенного лечения.
Помогите решить. Ну или хотя бы в каком направлении копать...

Сообщение отредактировал volchonok - 3.03.2014 - 21:45
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Статистик
сообщение 19.10.2013 - 17:09
Сообщение #2





Группа: Пользователи
Сообщений: 46
Регистрация: 19.07.2013
Из: Украина, Харьков
Пользователь №: 25002



Вам нужно построить соответствующие таблицы сопряженности, но не по тем данным, которые вы представили, а по исходным данным. А далее рассчитать для построенных таблиц критерий хи-квадрат.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
TheThing
сообщение 19.10.2013 - 18:30
Сообщение #3





Группа: Пользователи
Сообщений: 116
Регистрация: 20.02.2011
Пользователь №: 23251



Цитата(Статистик @ 19.10.2013 - 17:09) *
Вам нужно построить соответствующие таблицы сопряженности, но не по тем данным, которые вы представили, а по исходным данным. А далее рассчитать для построенных таблиц критерий хи-квадрат.


А как с помощью критерия хи-квадрат показать, что виды анатомического строения не зависят от пола, возраста и проведенного лечения?
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
nokh
сообщение 19.10.2013 - 18:53
Сообщение #4





Группа: Пользователи
Сообщений: 1202
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704



Цитата(volchonok @ 19.10.2013 - 19:21) *
Есть группа больных, 64 человека, которая делится по полу, на 4 группы по возрасту, и им ранее делали 2 разные операции. После операций у них 4 разных варианта анатомического строения глотки. Нужно доказать, что виды анатомического строения не зависят от пола, возраста и проведенного лечения.
Помогите решить. Ну или хотя бы в каком направлении копать...

К сожалению, простыми методами здесь не обойтись, т.к. помимо влияния на интересующий показатель факторов по отдельности возможно также влияние каких-то их сочетаний. Нужно анализировать весь комплекс данных одновременно. Копайте в направлении анализа таблиц сопряжённости и иерархического логлинейного анализа. Нужны пакеты, где он есть. Знаю как провести логлинейный анализ в Statistica, можно попробовать в R.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
p2004r
сообщение 19.10.2013 - 19:28
Сообщение #5





Группа: Пользователи
Сообщений: 1091
Регистрация: 26.08.2010
Пользователь №: 22699



Цитата(volchonok @ 19.10.2013 - 16:21) *
Есть группа больных, 64 человека, которая делится по полу, на 4 группы по возрасту, и им ранее делали 2 разные операции. После операций у них 4 разных варианта анатомического строения глотки. Нужно доказать, что виды анатомического строения не зависят от пола, возраста и проведенного лечения.
[attachment=979:Screensh...14.45.04.jpg]
Помогите решить. Ну или хотя бы в каком направлении копать...


1. У Вас есть данное в эксперименте разбиение --- сколько 1-2-3-4 типов строения на каждом уровне вложенной иерархии пол-возраст-лечение (получается например функцией table() в R и визуализируется mosaicplot())

2. Делаете рандомизицию для пол-возраст-лечение просто случайно (и независимо) их перемешивая между членами группы. Накапливаете таких рандомизированных псевдовыборок 100000 (в общем случае следите за схождением получаемой статистики).

3. Для каждого уровня вложенной иерархии пол-возраст-лечение получаете по накопленной совокупности рандомизированных псевдовыборок доверительные интервалы 95% для частот 1-2-3-4 типов результата лечения.

4. Проводите сравнение насколько реальные частоты опыта вписались в интервалы гипотезы отсутствия влияния.

5. Профит smile.gif

Сообщение отредактировал p2004r - 19.10.2013 - 19:29


Signature
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
docent
сообщение 21.10.2013 - 17:51
Сообщение #6





Группа: Пользователи
Сообщений: 16
Регистрация: 20.10.2013
Пользователь №: 25460



Цитата(nokh @ 19.10.2013 - 18:53) *
К сожалению, простыми методами здесь не обойтись, т.к. помимо влияния на интересующий показатель факторов по отдельности возможно также влияние каких-то их сочетаний. Нужно анализировать весь комплекс данных одновременно. Копайте в направлении анализа таблиц сопряжённости и иерархического логлинейного анализа. Нужны пакеты, где он есть. Знаю как провести логлинейный анализ в Statistica, можно попробовать в R.

А может начать с простого? Для начала проверить по таблицам сопряженности отсутствие влияния отдельно каждого фактора.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
docent
сообщение 21.10.2013 - 18:03
Сообщение #7





Группа: Пользователи
Сообщений: 16
Регистрация: 20.10.2013
Пользователь №: 25460



Цитата(TheThing @ 19.10.2013 - 18:30) *
А как с помощью критерия хи-квадрат показать, что виды анатомического строения не зависят от пола, возраста и проведенного лечения?

Вы строите, например, таблицу сопряженности для проверки зависимости анатомического строения от пола. При этом по строкам располагаете пол, а по столбцам - вид анатомического строения. Далее рассчитываете критерий хи-квадрат. Если нулевая гипотеза принимается, то вид анатомического строения не зависит от пола. В противном случае зависит.
Так строите еще 2 таблицы для проверки зависимости вида анатомического строения от возраста и проведенного лечения.

Если все 3 проверки опровергнут наличие связи, тогда уже можно и что-то более сложно проверять (учитывающее сочетания факторов).
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
nokh
сообщение 21.10.2013 - 20:51
Сообщение #8





Группа: Пользователи
Сообщений: 1202
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704



Цитата(docent @ 21.10.2013 - 20:51) *
А может начать с простого? Для начала проверить по таблицам сопряженности отсутствие влияния отдельно каждого фактора.

Это приглашение к дискуссии? Хорошо.
(1) Вы предлагаете заменить один сложный анализ на три простых. Но каков смысл в проведении целых трёх анализов, если ни одни из них не в состоянии ответить на вопрос? Если после проведения этих трёх простых потом всё равно возможно придётся использовать более сложные подходы? Это нелогично с точки зрения решения любой проблемы вообще. Это как "давайте перекопаем поле лопатами, но поскольку на нужную глубину мы всё равно не вскопаем, то следом пустим плуг" smile.gif .
(2) Выявление эффектов взаимодействия между факторами возможно ТОЛЬКО при их совместном анализе. Если анализировать факторы отдельно, то в принципе нельзя обнаружить эффекта типа того, что для какого-то пола лечение влияет, а для какого-то нет, или что для одного пола оно влияет сильнее, чем для другого. Почитайте про взаимодействия факторов. В учебниках эта концепция традиционно излагается лучше при описании не анализа таблиц сопряжённости, а двухфакторного дисперсионного анализа.
(3) При объединении входов таблицы для простых анализов мы увеличиваем риск пасть жертвой парадокса Симпсона (= парадокса объединений) и сделать выводы с точностью до наоборот. Честно говоря, и при совместном анализе всех факторов мы от него не застрахованы, т.к. всегда есть вероятность не учесть чего-то важного, но зачем же эту вероятность сознательно увеличивать?
(4) Вы предлагаете заменить один анализ на три. А что при этом произойдёт с ошибкой первого рода? Поищите информацию о том, почему омнибусные критерии лучше поправок на множественность сравнений.
(5) Ну и наконец хи-квадрат. Многомерные задачи хи-квадратом не решить, т.к. в них хи-квадрат Пирсона теряет аддитивность. Поэтому их анализируют либо отношением (лог)правдоподобия G-квадрат, которое также асимптотически имеет теоретическое распределение хи-квадрат (это делается в ходе логлинейного анализа), либо вообще отказываются от любых асимтотик и считают ресэмплинг-техниками, типа той, что предложил р2004r.

Сообщение отредактировал nokh - 21.10.2013 - 21:23
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
docent
сообщение 21.10.2013 - 23:01
Сообщение #9





Группа: Пользователи
Сообщений: 16
Регистрация: 20.10.2013
Пользователь №: 25460



Цитата(nokh @ 21.10.2013 - 20:51) *
Это приглашение к дискуссии? Хорошо.

Я уже боюсь))
Я самоучка, поэтому вполне допускаю, что многого не знаю. Очень интересно пообщаться со знающими людьми. А на этом форуме дискуссии не приветствуются?

Цитата(nokh @ 21.10.2013 - 20:51) *
(1) Вы предлагаете заменить один сложный анализ на три простых. Но каков смысл в проведении целых трёх анализов, если ни одни из них не в состоянии ответить на вопрос? Если после проведения этих трёх простых потом всё равно возможно придётся использовать более сложные подходы? Это нелогично с точки зрения решения любой проблемы вообще. Это как "давайте перекопаем поле лопатами, но поскольку на нужную глубину мы всё равно не вскопаем, то следом пустим плуг" smile.gif .

Я вкладывала другой смысл. Я бы назвала это разведкой, а не копанием совочком гектара.

Цитата(nokh @ 21.10.2013 - 20:51) *
(2) Выявление эффектов взаимодействия между факторами возможно ТОЛЬКО при их совместном анализе. Если анализировать факторы отдельно, то в принципе нельзя обнаружить эффекта типа того, что для какого-то пола лечение влияет, а для какого-то нет, или что для одного пола оно влияет сильнее, чем для другого. Почитайте про взаимодействия факторов. В учебниках эта концепция традиционно излагается лучше при описании не анализа таблиц сопряжённости, а двухфакторного дисперсионного анализа.

А стоит ли тут вообще задача взаимодействия между факторами? И стоит ли задача определения влияния какого-то пола сильнее, чем другого? В стартпосте был задан вопрос "зависит/не зависит".

Цитата(nokh @ 21.10.2013 - 20:51) *
(3) При объединении входов таблицы для простых анализов мы увеличиваем риск пасть жертвой парадокса Симпсона (= парадокса объединений) и сделать выводы с точностью до наоборот. Честно говоря, и при совместном анализе всех факторов мы от него не застрахованы, т.к. всегда есть вероятность не учесть чего-то важного, но зачем же эту вероятность сознательно увеличивать?

не спорю))

Цитата(nokh @ 21.10.2013 - 20:51) *
(4) Вы предлагаете заменить один анализ на три. А что при этом произойдёт с ошибкой первого рода? Поищите информацию о том, почему омнибусные критерии лучше поправок на множественность сравнений.

Нет, заменять я ничего не предлагаю. С ошибкой при множественных сравнениях мне все понятно. Я пытаюсь понять постановку задачи. Стоит ли задача многофакторного анализа или есть 3 отдельные однофакторные задачи?

Цитата(nokh @ 21.10.2013 - 20:51) *
(5) Ну и наконец хи-квадрат. Многомерные задачи хи-квадратом не решить, т.к. в них хи-квадрат Пирсона теряет аддитивность. Поэтому их анализируют либо отношением (лог)правдоподобия G-квадрат, которое также асимптотически имеет теоретическое распределение хи-квадрат (это делается в ходе логлинейного анализа), либо вообще отказываются от любых асимтотик и считают ресэмплинг-техниками, типа той, что предложил р2004r.

Я не предлагаю решать многомерную задачу хи-квадратом. С теорией, которую предложил р2004r, еще не знакома. Буду изучать. Спасибо.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
p2004r
сообщение 21.10.2013 - 23:24
Сообщение #10





Группа: Пользователи
Сообщений: 1091
Регистрация: 26.08.2010
Пользователь №: 22699



Цитата(docent @ 21.10.2013 - 23:01) *
Я не предлагаю решать многомерную задачу хи-квадратом. С теорией, которую предложил р2004r, еще не знакома. Буду изучать. Спасибо.


Вы её уже знаете smile.gif

Если назначенные измеренной в эксперименте величине уровни факторов перемешать, то все связи будут разрушены. Естественно если связи были smile.gif Это называют рандомизацией. Построив доверительные интервалы для интересующих нас статпоказателей (средних, дисперсий... да вообще практически любых) мы сравниваем их с полученными по исходным экспериментальных данных.

Если нас интересуют не проверка гипотезы о случайности факторов модели, а доверительные интервалы для статпараметров по уровням факторов, то пользуемся бутстрепом. Но для именно этого датасета будет трудновато, "вот так просто взять и построить сэмплер"(С)Боромир




Signature
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
TheThing
сообщение 22.10.2013 - 10:09
Сообщение #11





Группа: Пользователи
Сообщений: 116
Регистрация: 20.02.2011
Пользователь №: 23251



Цитата(docent @ 21.10.2013 - 18:03) *
Вы строите, например, таблицу сопряженности для проверки зависимости анатомического строения от пола. При этом по строкам располагаете пол, а по столбцам - вид анатомического строения. Далее рассчитываете критерий хи-квадрат. Если нулевая гипотеза принимается, то вид анатомического строения не зависит от пола. В противном случае зависит.
Так строите еще 2 таблицы для проверки зависимости вида анатомического строения от возраста и проведенного лечения.

Если все 3 проверки опровергнут наличие связи, тогда уже можно и что-то более сложно проверять (учитывающее сочетания факторов).


Хи-квадрат я представляю, здесь трудность в другом:
1) Нулевая гипотеза никогда не принимается
2) при р > 0.05 нельзя сделать вывод, что то-то от чего-то не зависит или не имеет эффекта

Это обсуждалось на форуме, но все равно хочется утверждать, что "черных лебедей не существует, лишь потому, что мы видели только белых" smile.gif
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
docent
сообщение 22.10.2013 - 21:47
Сообщение #12





Группа: Пользователи
Сообщений: 16
Регистрация: 20.10.2013
Пользователь №: 25460



Цитата(TheThing @ 22.10.2013 - 10:09) *
Хи-квадрат я представляю, здесь трудность в другом:
1) Нулевая гипотеза никогда не принимается

Почему?

Цитата(TheThing @ 22.10.2013 - 10:09) *
2) при р > 0.05 нельзя сделать вывод, что то-то от чего-то не зависит или не имеет эффекта

А как же тогда проверять отсутствие эффекта?

Цитата(TheThing @ 22.10.2013 - 10:09) *
Это обсуждалось на форуме, но все равно хочется утверждать, что "черных лебедей не существует, лишь потому, что мы видели только белых" smile.gif

А можно ссылку на тему?
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
DrgLena
сообщение 22.10.2013 - 23:36
Сообщение #13





Группа: Пользователи
Сообщений: 1325
Регистрация: 27.11.2007
Пользователь №: 4573



Строго говоря, нулевая гипотеза в действительности не принимается, мы можем просто утверждать, что нам не удалось ее отвегнуть . А это совсем не одно и тоже.
На форуме этот вопрос обсуждался неоднократно. Кроме того, обсуждался вопрос о не верно сделанных выводах при сравнении числа осложнений при двух видах вмешательства. Например, наблюдалось 17% и 7% осложнений. Да, нулевая гипотеза не отвергается, но на этом основании нельзя сделать вывод о том, что два вмешательства по числу осложнений не различаются. Просто не хватает статистической мощности данного исследования для того, чтобы отвергнуть нулевую гипотезу.
Можно решить задачку, сколько необходимо иметь наблюдений, чтобы при такой разнице в проценте осложнений можно было бы отвергнуть нулевую гипотезу. И про это тоже есть на форуме.

Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
TheThing
сообщение 22.10.2013 - 23:41
Сообщение #14





Группа: Пользователи
Сообщений: 116
Регистрация: 20.02.2011
Пользователь №: 23251



Цитата(docent @ 22.10.2013 - 21:47) *
А можно ссылку на тему?


Если дружите с англ., то почитайте например это
https://www.ctspedia.org/do/view/CTSpedia/PvalueFallacy

В статье описываются самые распространенные ошибки и как их избежать, как лучше представлять результаты стат. анализа и др.

Так же гляньте про проблему множественных сравнений, она затрагивается в статье. Помню, nokh однажды сказал, что если в своей работе вы применяете Бонферрони, то что-то не так с дизайном вашего эксперимента. И проблема множественных сравнений действительно сложна, существует масса авторитетных мнений, которые против применения этих поправок. В качестве аргументов приводятся например такие: если нулевая гипотеза на самом деле никогда не равна действительно 0 (ее называют nil-hypothesis), то что мы делим на что при поправке Бонферрони? То, что не существует делим на количество гипотез? Или например, поправки на множественные сравнения не дают ответа когда нужно остановиться и прекратить их применять - имеется ввиду, применять поправки в рамках одной работы, одного исследования, одной популяции, проблемы как в целом? И масса других вопросов..


Поэтому не спешите с хи-квадаратом :-)

Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
docent
сообщение 23.10.2013 - 08:04
Сообщение #15





Группа: Пользователи
Сообщений: 16
Регистрация: 20.10.2013
Пользователь №: 25460



Спасибо за ответы.
С нулевой гипотезой интересно, но отвергая или не отвергая ее, мы всегда говорим об ошибках принятия решения. С таким же успехом мы можем сказать, что отвергая нулевую гипотезу, мы тоже не можем утверждать, что продлив эксперимент, не окажется, что обнаруженные отличия случайны.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 

2 страниц V   1 2 >
Добавить ответ в эту темуОткрыть тему