Форум врачей-аспирантов

Здравствуйте, гость ( Вход | Регистрация )

 
Добавить ответ в эту темуОткрыть тему
> Коррекция Бонферрони
Елена Гогуа
сообщение 1.11.2018 - 16:12
Сообщение #1





Группа: Пользователи
Сообщений: 13
Регистрация: 5.05.2018
Пользователь №: 31338



Всем здравствуйте!

Я опять про своих собак с кожными поражениями smile.gif

Ответы в предыдущей своей теме http://forum.disser.ru/index.php?showtopic=4251 периодически перечитываю, пытаюсь понять, пока не все получается, но неудобно отвлекать с просьбами разжевать каждую фразу.

Сегодня я прошу помочь разобраться в проблеме множественных сравнений и в частности, коррекции Бонферрони.

Исходя из определения, эта проблема возникает всегда, когда на одной выборке проводится много статистических тестов. Если у меня 8 пород собак, у каждой из которых 8 зон поражения, каждое из которых может быть 3 типов - получается 8*8*3 сравнений и любая коррекция сделает результаты статистически незначимыми.

Но прочитав эту публикацию: https://www.ncbi.nlm.nih.gov/pmc/articles/PMC5426219/ я засомневалась в правильном применении коррекции Бонферрони для моих сравнений. Если я сравниваю породу 1 со всеми остальными собаками по нескольким параметрам - это одна выборка, да. А если я беру породу 2 и всех остальных собак - это уже другая выборка?
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
100$
сообщение 1.11.2018 - 20:28
Сообщение #2





Группа: Пользователи
Сообщений: 902
Регистрация: 23.08.2010
Пользователь №: 22694




Вам всего-то-навсего надо заполнить таблицу сопряженности по шаблону (см. прикрепленный файл) - и вся недолга. Кроме вас это сделать некому. А уж далее мы будем посмотреть ея на предмет сопряженностей, как и договаривались еще в мае. При анализе таблицы сопряженности не понадобится никаких Бонферроней, тестов и попарных сравнений.
Прикрепленные файлы
Прикрепленный файл  Собаки_Баскервилей.rar ( 6,64 килобайт ) Кол-во скачиваний: 269
 
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Елена Гогуа
сообщение 1.11.2018 - 21:15
Сообщение #3





Группа: Пользователи
Сообщений: 13
Регистрация: 5.05.2018
Пользователь №: 31338



Я тогда еще примерно такую таблицу выкладывала.

Добавила в ваш файл на второй лист свои данные (там, правда, заголовки на английском и области пронумерованы).

Прикрепленный файл  Собаки_Баскервилей_1.xlsx ( 20,37 килобайт ) Кол-во скачиваний: 219


Если без Бонферроней, это нужно будет еще немецкому профессору аргументировать...

Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
100$
сообщение 1.11.2018 - 21:45
Сообщение #4





Группа: Пользователи
Сообщений: 902
Регистрация: 23.08.2010
Пользователь №: 22694




Цитата
Я тогда еще примерно такую таблицу выкладывала.


Я это видел. И впал в уныние. И все, кто это видел, тоже впали в уныние. p2004r вам на это намекнул.

Цитата
Добавила в ваш файл на второй лист свои данные (там, правда, заголовки на английском и области пронумерованы).


О том и речь, что из этой базы данных надо сотворить вот такую таблицу сопряженности+подвести итоги по породам. Самый подходящий кандидат на эту роль - вы.

Цитата
Если без Бонферроней, это нужно будет еще немецкому профессору аргументировать...


Логлинейная параметризация таблицы сопряженности не требует никаких коррекций уровней значимости.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Елена Гогуа
сообщение 1.11.2018 - 21:52
Сообщение #5





Группа: Пользователи
Сообщений: 13
Регистрация: 5.05.2018
Пользователь №: 31338



Хорошо, пошла еще раз вчитываться в намеки p2004r и примерять к вашему шаблону smile.gif

Спасибо smile.gif
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Елена Гогуа
сообщение 24.11.2018 - 13:00
Сообщение #6





Группа: Пользователи
Сообщений: 13
Регистрация: 5.05.2018
Пользователь №: 31338



Здравствуйте, 100$

Наконец, добралась до своих собак и сделала таблицу точно по Вашему шаблону (2 лист).

И еще у меня вопрос ко всем, наверное, опытным статистикам здесь.

Вот я врач (ветеринарный, но не суть) и хочу работать биостатистиком. Где и как я могу этому научиться? Профессор кафедры клин.фармакологии (медицинский) считает, что специальное образование не нужно, чтобы проводить статистический анализ клинических исследований (он сам проводит). Есть ли какие-то хорошие онлайн курсы? Или лекции в университетах, на которые я могла бы ходить (в Москве)? Или достаточно книг, которые рекомендуют на этом форуме? Или без полноценного высшего образования по статистике не обойтись? В общем, буду очень благодарна советам.

Прикрепленный файл  Собаки_Баскервилей_2.xlsx ( 16,36 килобайт ) Кол-во скачиваний: 235
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
100$
сообщение 25.11.2018 - 02:20
Сообщение #7





Группа: Пользователи
Сообщений: 902
Регистрация: 23.08.2010
Пользователь №: 22694



Да, Елена, здравствуйте.
Таблицу посмотрел, уже гораздо "теплее". Остался один вопрос: вот, гляжу я на экземпляр "порода1-12" и вижу, что у нее встречается и грибок, и комбинированная патология.
Так _действительно_ может быть?
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Елена Гогуа
сообщение 26.11.2018 - 14:34
Сообщение #8





Группа: Пользователи
Сообщений: 13
Регистрация: 5.05.2018
Пользователь №: 31338



Если это разные области - да.

Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
100$
сообщение 26.11.2018 - 14:57
Сообщение #9





Группа: Пользователи
Сообщений: 902
Регистрация: 23.08.2010
Пользователь №: 22694



Цитата(Елена Гогуа @ 26.11.2018 - 14:34) *
Если это разные области - да.


Вас понял. Понятие типизации относится не к собаке в целом, а к конкретной области.

Ну, теперь подбиваем итоги по породам считаем краевые суммы и пытаемся понять, как сделать логлинейный анализ трехвходовой таблицы сопряженности, ее многомерный анализ соответствий, попутно решая утилитарный вопрос: нужно ли последнюю свору собак считать одной категорией "прочие" или работать с каждой из них, как с самостоятельной породой.

Сообщение отредактировал 100$ - 26.11.2018 - 15:03
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
100$
сообщение 26.11.2018 - 16:39
Сообщение #10





Группа: Пользователи
Сообщений: 902
Регистрация: 23.08.2010
Пользователь №: 22694



Предварительные расчеты с комментариями прикрепил

Сообщение отредактировал 100$ - 26.11.2018 - 16:39
Прикрепленные файлы
Прикрепленный файл  Собаки_Баскервилей_2.rar ( 19,62 килобайт ) Кол-во скачиваний: 244
 
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
100$
сообщение 30.11.2018 - 21:24
Сообщение #11





Группа: Пользователи
Сообщений: 902
Регистрация: 23.08.2010
Пользователь №: 22694



Сделал логлинейный анализ 3-входовой таблицы сопряженности (из предыдущего поста) в R.

Краткий отчет:

1. Сделал в Экселе массив, пригодный для работы с R. Назвал его незатейливо: Dogs. В этом массиве 4 столбца: три из них соответствуют факторам "Тип поражения" (Б-бактериальный, Г - грибковый, К-комбинированный), "Порода"(1-9) и "Область" (I-VIII) соответственно, четвертый ("Отклик") - содержит наблюдаемые частоты.
Нулевые ячейки этого массива заменил на ,5.

> head(Dogs,8)

Тип Порода Область Отклик
Б 1 I 13
Б 1 II 4
Б 1 III 4
Б 1 IV 5
Б 1 V 13
Б 1 VI 4
Б 1 VII 6
Б 1 VIII 7

2. Определил "Тип" "Породу" и "Область" как факторы:

> str(Dogs)

'data.frame': 216 obs. of 4 variables:
$ Тип : Factor w/ 3 levels "Б","Г","К": 1 1 1 1 1 1 1 1 1 1 ...
$ Порода : Factor w/ 9 levels "1","2","3","4",..: 1 1 1 1 1 1 1 1 2 2 ...
$ Область: Factor w/ 8 levels "I","II","III",..: 1 2 3 4 5 6 7 8 1 2 ...
$ Отклик : num 13 4 4 5 13 4 6 7 6 1 ...

3. Для логлинейной параметризации модели воспользовался функцией loglm() из пакета {MASS}

>library(MASS)

4. Нулевая гипотеза при логлинейном анализе заключается в том, что модель не противоречит наблюдаемым частотам, альтернативная - в том, что противоречит.
Соответственно, если после исключения к-л фактора из модели, она по-прежнему не противоречит исходным данным, то фактор считаем статистически незначимым.
Тестирование гипотезы осуществляется критерием отношения правдоподобия (Likelihood ratio test)

5. Логлинейное моделирование таблицы сопряженности заключается в построении т.н. иерархической модели, при которой включение трехфакторного взаимодействия в качестве предиктора автоматически влечет за собой включение двухфакторных взаимодействий и исходных факторов. Такая модель называется насыщенной (saturated) и не имеет познавательной ценности, поскольку точно подгоняет наблюдаемые частоты. Построим ее для примера:

> model.saturated<-loglm(Отклик~Тип*Порода*Область, Dogs)

> model.saturated

Call:
loglm(formula = Отклик ~ Тип * Порода * Область, data = Dogs)

Statistics:
X^2 df P(> X^2)
Likelihood Ratio 0 0 1
Pearson 0 0 1

Как видно, чудес не произошло, и модель идеально соответствует наблюдаемым частотам. Поэтому идея логлинейного моделирования заключается в том, чтобы более экономно (меньшим количеством параметров) параметризовать модель, поглядывая при этом на результаты тестирования нулевой гипотезы.

6. Переоценим модель, исключив из нее трехфакторное взаимодействие:

> m1<-loglm(Отклик~Тип:Порода+Тип:Область+Порода:Область,Dogs)
> m1


Call:
loglm(formula = Отклик ~ Тип:Порода + Тип:Область + Порода:Область,
data = Dogs)

Statistics:
X^2 df P(> X^2)
Likelihood Ratio 48.81494 112 1
Pearson 48.24563 112 1

Модель по-прежнему не противоречит наблюдаемым частотам.

7. Проверим, допускает ли модель дальнейшее упрощение: удалим из нее все двухфакторные взаимодействия.

> m2<-loglm(Отклик~Тип+Порода+Область,Dogs)
> m2


Call:
loglm(formula = Отклик ~ Тип + Порода + Область, data = Dogs)

Statistics:
X^2 df P(> X^2)
Likelihood Ratio 131.4224 198 0.9999225
Pearson 144.9575 198 0.9982221

Модель по-прежнему адекватна данным. Так что двухфакторные взаимодействия статистически незначимы. А среди них было и драгоценное "Порода:Область".
В общем, по этой базе данных делаем вывод, что природой не "предусмотрена" зависимость локализации кожных поражений от породы, равно как и предрасположенность к-л. пород / областей к определенному типу поражения.

P.S. К аналогичному выводу можно придти, если насыщенную модель упрощать не вручную, а автоматически с помощью функции step(), которая с опцией "backward" по информационному критерию Акаике (AIC) ищет наиболее удачную параметризацию модели. В нашем случае такая модель тоже не противоречила наблюдаемым частотам.

Сообщение отредактировал 100$ - 30.11.2018 - 21:51
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 

Добавить ответ в эту темуОткрыть тему