Форум врачей-аспирантов

Здравствуйте, гость ( Вход | Регистрация )

> Сравнение трёх групп с большой разницей средних
Vitek_22
сообщение 21.09.2024 - 15:02
Сообщение #1





Группа: Пользователи
Сообщений: 27
Регистрация: 7.12.2012
Пользователь №: 24440



Товарищи, подсобите с анализом данных.
3 группы мышей: контроль, больные, леченные. Измерялось пройденное расстояние. Мыши с тяжёлыми двигательными нарушениями, поэтому по сравнению с контролем у них пройденное расстояние отличается на порядок. ANOVA и Tukey апостериорный показывают значимые отличия от контроля. но не между больными и леченными, хотя объективно между ними x2 разница. Интуиция подсказывает, что с такой разницей между средними сравнивать ANOVA некорректно. Но чем тогда и как это объяснить грамотно и какой критерий использовать? Если Стьюдента попарно использовать - выходит норм.
Прикрепленные файлы
Прикрепленный файл  Data1.xlsx ( 9,66 килобайт ) Кол-во скачиваний: 146
 
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
 
Открыть тему
Ответов
Vitek_22
сообщение 6.02.2025 - 19:28
Сообщение #2





Группа: Пользователи
Сообщений: 27
Регистрация: 7.12.2012
Пользователь №: 24440



Цитата(ИНО @ 22.09.2024 - 11:35) *
Большая разница средник помехой быть не может, а только лишь наоборот.


Товарищи, или Statistica v.12 врёт или большая разница средних при множественном сравнении играет очень большую роль. help.gif разобраться, как так может быть?
Считаем по тем же исходным данным (1 сообщение): F2,20=247,369502 p=7,88258347E-15. Апостериорный тест Тьюки выдаёт между группой болезнь и болезнь+лечение p=0,62448764. При этом отличие от контроля, само-собой, стат значимое p= 0,000144741021

Теперь сотворим чудо, уменьшим показатели контроля в 10 раз, при этом совершенно не трогаем выборки "болезнь" и "лечение". Что выдаёт таже ANOVA + Тьюки: F2,20=12,0762702 p=0,000363699747, Тьюки даёт между группами "болезнь" и "болезнь+лечение" p=0,00710845035, а вот между лечением и контролем уже нет стат разницы p= 0,353486566 (конечно, потому что мы в 10 раз занизили показатель контроля)

Выходит, что большая разница средних между контролем и другими группами искажает результат?

Я считаю, абсолютно корректно сравнить группы попарно Стьюдентом и применить поправку бонферрони, тогда между "болезнь" и "болезнь+лечение" p=0,0109303586 и это значимо! <0.016

Получается, что для того, чтобы получить стат.значимость между целевыми группами, надо, чтобы лечение не отличалось от контроля, я не против такого лечения! но в реальности такое часто не достижимо, к примеру, в моём случае это трансгенные мыши, которых в принципе невозможно вылечить (фармой) и поэтому большая разница между контролем и экспериментальными группами - вполне нормальна, особенно в терминальнйо стадии заболевания. И лечение улучшило один из показателей в 2 раза.

Сообщение отредактировал Vitek_22 - 6.02.2025 - 19:34
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
nokh
сообщение 9.02.2025 - 09:11
Сообщение #3





Группа: Пользователи
Сообщений: 1218
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704



Цитата(Vitek_22 @ 6.02.2025 - 21:28) *
Товарищи, или Statistica v.12 врёт или большая разница средних при множественном сравнении играет очень большую роль. help.gif разобраться, как так может быть?
Считаем по тем же исходным данным (1 сообщение): F2,20=247,369502 p=7,88258347E-15. Апостериорный тест Тьюки выдаёт между группой болезнь и болезнь+лечение p=0,62448764. При этом отличие от контроля, само-собой, стат значимое p= 0,000144741021

Теперь сотворим чудо, уменьшим показатели контроля в 10 раз, при этом совершенно не трогаем выборки "болезнь" и "лечение". Что выдаёт таже ANOVA + Тьюки: F2,20=12,0762702 p=0,000363699747, Тьюки даёт между группами "болезнь" и "болезнь+лечение" p=0,00710845035, а вот между лечением и контролем уже нет стат разницы p= 0,353486566 (конечно, потому что мы в 10 раз занизили показатель контроля)

Выходит, что большая разница средних между контролем и другими группами искажает результат?

Я считаю, абсолютно корректно сравнить группы попарно Стьюдентом и применить поправку бонферрони, тогда между "болезнь" и "болезнь+лечение" p=0,0109303586 и это значимо! <0.016

Получается, что для того, чтобы получить стат.значимость между целевыми группами, надо, чтобы лечение не отличалось от контроля, я не против такого лечения! но в реальности такое часто не достижимо, к примеру, в моём случае это трансгенные мыши, которых в принципе невозможно вылечить (фармой) и поэтому большая разница между контролем и экспериментальными группами - вполне нормальна, особенно в терминальнйо стадии заболевания. И лечение улучшило один из показателей в 2 раза.

Какой-то беспредел... Человеку написали, что нужно делать, почему и даже в чём. Вам нужно не в статистике разобраться, а научиться принимать помощь - это более универсальная компетенция, ещё много где пригодится.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Vitek_22
сообщение 9.02.2025 - 22:02
Сообщение #4





Группа: Пользователи
Сообщений: 27
Регистрация: 7.12.2012
Пользователь №: 24440



Цитата(nokh @ 9.02.2025 - 09:11) *
Какой-то беспредел... Человеку написали, что нужно делать, почему и даже в чём. Вам нужно не в статистике разобраться, а научиться принимать помощь - это более универсальная компетенция, ещё много где пригодится.


Уважаемый nokh, вы совершенно не понимаете реальность, в которой мы работаем. Это оффтоп, но я поясню
Я очень ценю помощь и всё, что здесь изложили - принял к сведению. Поясняю, я не знал, есть ли ста. значимая разница и как это доказать. После вашего поста с преобразвоанием данных и расчётами (я особо не понял что там к чему) я понял, что стат. значимая разница есть и она вполне доказуема. Но! Если в статье биологической я начну писать, что данные "ненормальны и гетероскедастичны" (второе я даже не знаю что такоеи, честно, знать не хочу, - нельзя быть специалистом во всём), потом я эти данные так и так преобразовал... и нашёл стат. значимость - это красная тряпка для рецензента (зачастую, тоже не понимающего ничего в статистике, часто, понимающего даже меньше, чем я), и такая статья не пройдёт. Я же нашёл метод, который знает практически 99% потенциальных рецензентов, которые выдаёт тоже ста. значимость, на урвоне полученной вами. Т.е. я как бы нарушаю, но без последствий. Это разумный компромисс, который позволит мне не иметь 10 вопросов по статистике, на которые я сам не смогу ответить и бесплатно вряд ли кто-то за меня будет с рецензентом спорить!

Првиеду вам пример, сравнивал я 3 выборки (норм. распределённые) ANOVA с последующим Тьюки. Рецензент пишет "вы должны обсчитать ваши данные двухфакторной ANOVA"? я отвечаю, что у меня один фактор воздействия, всего 3 выборки, даже если из забить в Statistica и попробовать посчитать двухфакторную ANOVA - выдаст ошибку, потому что не хватает факторов... их просто нет! И что? Реджектнули статью. Кто кому и что доказал? Поэтому в биологических статьях в серьезных журналах я буду считать Манном-Уитни, Стьюдентом, Ановой... общеизветсными тестами, и никаких преобразований данных. Возможно, в медицинских журналах, при проведении клинических испытаний... там всё серьезнее и люди более понимающие в статистике, там это норм. В тех журналах, куда я пишу - такое не примут)) сочтут за манипуляцию с целю выжать статистику и напишут, считайте ANOVA))

Из моей практики, приходит статья из Cell где 2 выборки n=5, посчитаны t-критерием Стьюдента. Не работает этот критерий с такими ультрамалыми выборками, но вы можете найти множество статей с такими данными и обработками, они выходят. Я, как раз набравшись тут ума, сделал им замечание и написал,что надо выбрать другой критерий. Что вы думаете? Они оставили те же самые значения p, но написали, что пересчитали критерием Фишера-Питмана))
Ещё одна статья пришла, считают ANOVA и Тьюки 3 выборки, в одной 3 животных, в двух других по 5)) Две рецензии пришли хорошие, третья была от меня. Журнал решил, что я прав, реджектнул статью, особенно это важно с учётом ответа на рецензию, где авторы тупо скинули 4 статьи где тоже на 3-4 животных посчитано ANOVA и написали, что так общепринято! И дело даже не в 3животных, а в том, что авторы нагло врали, но попались, т.к. в материалах и методах написано, что в группах по 7 животных, а когда они дали значение F-критерия, забыли подправить степени свободы, и по ним то видно, что там не 7 в группах))

С данными, с которых началось это обсуждение, я давно закончил. Мой вопрос в другом, я не понимаю, почему попарное сравнение даёт статистику, а то же самое (выбирается post-hoc Бонферрони) при обсчёте ANOVA - не даёт статистику. Мне кажется, это именно алгебраическая ошибка в программе, но моих знаний не хватает рассчитать вручную и проверить, кто прав... Т.е. это не вопрос "как обсчитывать статистику по этим данные", основной вопрос был закрыт вами давно и я очень благодарен за ответ!

Сообщение отредактировал Vitek_22 - 9.02.2025 - 22:08
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Игорь
сообщение 27.02.2025 - 11:15
Сообщение #5





Группа: Пользователи
Сообщений: 1141
Регистрация: 10.04.2007
Пользователь №: 4040



Цитата(Vitek_22 @ 9.02.2025 - 22:02) *
данные "ненормальны и гетероскедастичны" (второе я даже не знаю что такоеи, честно, знать не хочу, - нельзя быть специалистом во всём)

Гетероскедастичность - неоднородность дисперсии. Ее проверяют перед применением регрессионного анализа. Кстати, не понимаю, зачем используют кальки с иностранных терминов, если есть понятные аналоги. Но дело не в этом, а в том, где взять информацию по данной теме. В теме, посвященной нейронным сетям, я уже кратко отмечал, что выбор литературы крайне ограничен, несмотря на обилие отечественных, иностранных и переводных источников. Поясню, какие требования я выдвигаю к источникам:
1. Понятное описание алгоритма (хотя требование несколько субъективное, но тем не менее).
2. Полный набор расчетных формул (можно без вывода, но со ссылками), позволяющий [при необходимости] запрограммировать алгоритм.
3. Полный тестовый пример, включая исходные данные (!), результаты расчета и выводы.
Желательно, чтобы это была монография, а не тезисы конференции, инструкция к программе или рабочие заметки. Привязка к какому-либо языку программирования или программному продукту заставляет усомниться в полезности источника (исключения редки). Лучше, если оригинал будет издан на английском языке зарубежным издательством и будет перевод на русский язык (установить соответствие или найти перевод поможет данный ресурс).
Проведя отсев по предлагаемым критериям, устанавливаем, что по гетероскедастичности имеется только один источник - Доугерти "Введение в эконометрику".
P.S. Ресурсы Интернета в настоящий момент утратили актуальность и содержат не саму информацию, а направления для дальнейшего поиска, хотя и это бывает проблемой (могут даваться ссылки только на собственные работы авторов публикаций либо на доступные, но неудачные источники).
P.P.S. А не нужно быть "специалистом во всём". Например, в диссертации по медико-биологическим наукам применяются научно-клинические (ведение пациентов и т.д.), физиологические, биохимические, радиологические, статистические и другие методы, вплоть до механики и электроники. Не получится быть специалистом во всех дисциплинах. Часть исследований - самостоятельные, часть - в соавторстве, часть - вообще заказные. Это нормально.

Сообщение отредактировал Игорь - 1.03.2025 - 09:22


Signature
Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
ИНО
сообщение 2.03.2025 - 18:17
Сообщение #6





Группа: Пользователи
Сообщений: 262
Регистрация: 1.06.2022
Из: Донецк
Пользователь №: 39632



Цитата(Игорь @ 27.02.2025 - 11:15) *
Гетероскедастичность - неоднородность дисперсии. Ее проверяют перед применением регрессионного анализа.

Как ни странно, не перед, а после - по остаткам. И если таки да, то весь предшествующий анализ - в топку. Обычно алгоритм такой: 1) строим модель, 2) тестируем остатки в том чисел на гетероскедастичность (но не только), и 3) если все хорошо, тогда уже смотрим на коэффициенты и все с ними связанное. и пытаемся интерпретировать картину. Если же после шага 2 обнаруживаются явные нарушения допущений, то смысла в шаге 3 нет, надо возвращаться к шагу 1 и строить иную модель.
Цитата
Кстати, не понимаю, зачем используют кальки с иностранных терминов, если есть понятные аналоги.

В данном случае все просто: словосочетание "однородность дисперсий" тупо длиннее. Я тоже противник коленопреклонства перед всем западным, но здесь замечу, что слово "дисперсия" - ничуть не более исконно русское, чем "гетероскедастичность". Вообще в русской статистике мало самобытных слов: кроме "однородности" и "согласия" ничего даже в голову не приходит.
Цитата
Но дело не в этом, а в том, где взять информацию по данной теме.

По какой конкретно теме: проверке на гетероскедастичность или решению проблемы гетероскедастичности? Если первое, то литературы просто горы, вероятно, не меньше, чем по критерию Стьюдента, поскольку это такая же классическая процедура. Еще можете поискать по словосочетанию "диагностика модели". Если второе, то тут все несколько сложнее: есть множество альтернативных методов, и каждый кулик свое болото хвалит. Ничего, что признавалось бы здесь "золотым стандартом", вроде бы, пока нет.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Игорь
сообщение 6.03.2025 - 07:34
Сообщение #7





Группа: Пользователи
Сообщений: 1141
Регистрация: 10.04.2007
Пользователь №: 4040



Цитата(ИНО @ 2.03.2025 - 18:17) *
По какой конкретно теме: проверке на гетероскедастичность или решению проблемы гетероскедастичности? Если первое, то литературы просто горы, вероятно, не меньше, чем по критерию Стьюдента, поскольку это такая же классическая процедура.
Много литературы не нужно (источник назван в моем предыдущем сообщении). В первом приближении достаточно показателя Спирмена между выходом эксперимента и остатками.
Цитата(ИНО @ 2.03.2025 - 18:17) *
Еще можете поискать по словосочетанию "диагностика модели". Если второе, то тут все несколько сложнее: есть множество альтернативных методов, и каждый кулик свое болото хвалит. Ничего, что признавалось бы здесь "золотым стандартом", вроде бы, пока нет.
Боюсь, если данные собраны неудачно, универсального решения проблемы может не быть. Вообще вопрос "у меня есть данные, нельзя их как-нибудь обработать" уже порождает сомнение в ценноcти данного исследования для науки. Потому что в доказательной медицине наоборот.

Сообщение отредактировал Игорь - 6.03.2025 - 13:38


Signature
Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 

Сообщений в этой теме
- Vitek_22   Сравнение трёх групп с большой разницей средних   21.09.2024 - 15:02
- - ИНО   Большая разница средник помехой быть не может, а т...   22.09.2024 - 11:35
- - comisora   Цитата(Vitek_22 @ 21.09.2024 - 15:02...   22.09.2024 - 22:28
- - nokh   Как уже написал ИНО, требования модели дисперсионн...   24.09.2024 - 03:39
|- - ИНО   Цитата(nokh @ 24.09.2024 - 03:39) Дл...   24.09.2024 - 12:13
- - Vitek_22   Спасибо за такое развёрнутое объяснение. Да... пр...   24.09.2024 - 22:23
- - ИНО   Простые преподаватели бессильны сколь-нибудь сущес...   25.09.2024 - 01:11
|- - Игорь   Цитата(nokh @ 24.09.2024 - 04:39) Ко...   25.09.2024 - 10:29
- - ИНО   То уже другая программа, там целая куча документов...   25.09.2024 - 16:44
- - Vitek_22   Цитата(ИНО @ 22.09.2024 - 11:35) Бол...   6.02.2025 - 19:28
|- - nokh   Цитата(Vitek_22 @ 6.02.2025 - 21:28)...   9.02.2025 - 09:11
|- - Vitek_22   Цитата(nokh @ 9.02.2025 - 09:11) Как...   9.02.2025 - 22:02
|- - Игорь   Цитата(Vitek_22 @ 9.02.2025 - 22:02)...   27.02.2025 - 11:15
|- - ИНО   Цитата(Игорь @ 27.02.2025 - 11:15) Г...   2.03.2025 - 18:17
||- - Игорь   Цитата(ИНО @ 2.03.2025 - 18:17) По к...   6.03.2025 - 07:34
|- - Vitek_22   Цитата(Игорь @ 27.02.2025 - 11:15) Н...   9.04.2025 - 16:46
- - ИНО   Ну, если даже после консервативнейшей в мире попра...   7.02.2025 - 18:36
- - ИНО   Ну, если ориентироваться в выборе статистических м...   10.02.2025 - 01:00
- - ИНО   Не знаю, что там принято в доказательной медицине ...   7.03.2025 - 19:32


Добавить ответ в эту темуОткрыть тему