Форум врачей-аспирантов

Здравствуйте, гость ( Вход | Регистрация )

2 страниц V  < 1 2  
Добавить ответ в эту темуОткрыть тему
> Статистическая разница
ИНО
сообщение 17.07.2022 - 21:01
Сообщение #16





Группа: Пользователи
Сообщений: 204
Регистрация: 1.06.2022
Из: Донецк
Пользователь №: 39632



Так это Вы сами должны разобраться, что Вам в Вашем "данном случае" нужно сравнивать.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
passant
сообщение 17.07.2022 - 21:20
Сообщение #17





Группа: Пользователи
Сообщений: 231
Регистрация: 27.04.2016
Пользователь №: 28223



Цитата(salm @ 17.07.2022 - 19:11) *
Вот это понятно) спасибо !

Вынужден немного подправить свой ответ. Точнее он будет звучать вот так: " такие (с несбалансированными выборками) результаты сравнивать теоретически можно, и любой подходящий критерий применять тоже можно - естественно для тех гипотез, которые они анализируют". Напомню, что критерий Манна-Уитни анализирует НЕ гипотезу о равенстве средних, а гипотезу о принадлежности двух выборок одной генеральной совокупности. Не более и не менее.

Сообщение отредактировал passant - 17.07.2022 - 21:30
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
ИНО
сообщение 18.07.2022 - 10:19
Сообщение #18





Группа: Пользователи
Сообщений: 204
Регистрация: 1.06.2022
Из: Донецк
Пользователь №: 39632



Цитата(passant @ 17.07.2022 - 21:20) *
Напомню, что критерий Манна-Уитни анализирует НЕ гипотезу о равенстве средних, а гипотезу о принадлежности двух выборок одной генеральной совокупности. Не более и не менее.

И снова не совсем так. Если честно, я сам затрудняюсь сформулировать словами его нулевую и альтернативные гипотезы. Что-то там про медиану разностей. Но что более важно, так это допущение критерия: формы сравниваемых распределений должны быть одинаковы. Это сильное допущение, в связи с невыполнением которого многие случае применения этого критерия в исследованиях следует признать неправомерными.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
passant
сообщение 18.07.2022 - 12:33
Сообщение #19





Группа: Пользователи
Сообщений: 231
Регистрация: 27.04.2016
Пользователь №: 28223



Цитата(ИНО @ 18.07.2022 - 10:19) *
И снова не совсем так. Если честно, я сам затрудняюсь сформулировать словами его нулевую и альтернативные гипотезы. Что-то там про медиану разностей. Но что более важно, так это допущение критерия: формы сравниваемых распределений должны быть одинаковы. Это сильное допущение, в связи с невыполнением которого многие случае применения этого критерия в исследованиях следует признать неправомерными.

Мысль очень интересная. Честно говоря взглянуть с этой стороны как-то пока в голову не приходило. Про медиану и пр. я конечно в курсе. Но мне представляется, что критерий М-У - это про сдвиг "параметра положения", что не тождественно ни среднему (разумеется), ни медиане. Про формы распределения как бы речи не идет. Сейчас бегло просмотрел несколько источников - нет упоминаний. Странно. Если формы одинаковы, то тогда даже интуитивно понятно, что такое сдвиг распределения и о чем он говорит. А вот если нет? Ведь декларируется, что критерий этот "свободен от распределения". Получается, что не совсем. Конечно интуитивно ожидаемо, что даже при одинаковой области значений выборок но разных асимметриях этот самый "параметр положения" должен бы сместиться в сторону асимметрии. А вот при - например - для пары нормальное распределение/бимодальное распределение, и тем более для пар с произвольными, не "классическими" распределениями, он (в частном случае) может остаться без изменений.
Наверное стоит немного покопать в этом направлении. Но эта задаче - точно не для автора вопроса. Пусть применяет критерий с поправкой на несбалансированность и не щекочет нервы членам совета.
(Вообще, мне почему-то кажется, что заставлять врачей столь серьезно углубляться в тонкости анализа данных - это какое-то садистское извращение. Врач должен лечить, а не статистику изучать. Но это уже философия. )

Сообщение отредактировал passant - 18.07.2022 - 12:35
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
ИНО
сообщение 18.07.2022 - 15:30
Сообщение #20





Группа: Пользователи
Сообщений: 204
Регистрация: 1.06.2022
Из: Донецк
Пользователь №: 39632



Нет там не разность между медианами, а именно некая медиана разлимчий. По краней мере это вытекает из определения оценки Ходжеса-Лемана, данной в учебнике Холлендара и Вульфа (старое советское переводное издание). А вот в описании критерия Манна-Уитни проверяемая гипотеза словами толком не изложена. Равно как и в иных известных мне русскоязычных источников. А с анлоязычными у меня возникают трудности перевода. Но допущение об одинаковой форме распределений точно существует. Если оно нарушается, формальный достигаемый уровень значимости не соответствует реальному. Об этом четко и ясно сказано во всех серьезных кригах: помимо вышеупомянутой, у Орлова, Эрве и многих других. По этой причине (а также из-за малой мощности при большом количестве связок) я редко использую данный критерий и не особо вникал в его суть. Фрэнк Харрелл утверждает, что критерии М-У и К-У являются частным случаем модели пропорциональных шансов, которая допускает сколько угодно независимых переменных и нечувствительна к связкам, к тому же практически всегда имеющее место на практике "нарушение допущения о пропорциональности не является фатальным" (чтобы это не значило). То бишь, если я правильно понял, лучше вместо этих критериев всегда юзать ее. К тому же существует куча моделей непропорциональных шансов, где сильных допущений вообще нет. Но это все для случаев, когда зависимая переменная - упорядоченная категория. Если же это измерения в интервальной интервальной шкале или результаты подсчетов, то вообще едва ли на сегодняшний день имеет смысл рассматривать ранговые методы, поскольку существует куча методов ресамплинга и "ненормальной" параметрики. Разве что ранговые коэффициенты корреляции все еще востребованы.

Сообщение отредактировал ИНО - 18.07.2022 - 15:40
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
ИНО
сообщение 18.07.2022 - 15:38
Сообщение #21





Группа: Пользователи
Сообщений: 204
Регистрация: 1.06.2022
Из: Донецк
Пользователь №: 39632



Случайно дубль поста вышел. Удалить никак?

Сообщение отредактировал ИНО - 18.07.2022 - 15:40
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
comisora
сообщение 19.07.2022 - 00:19
Сообщение #22





Группа: Пользователи
Сообщений: 95
Регистрация: 27.12.2015
Пользователь №: 27815



Учитывая развернувшееся обсуждение, позволю себе выложить пару ссылок, которые могут быть полезны в последующих обсуждениях.

1. Описание критерия Манна-Уитни, что он умеет и чего не умеет. Рассмотрены случаи с медианами.
2. Вариант использования proportional odds regression для непрерывной зависимой переменной.



Прикрепленные файлы
Прикрепленный файл  Divine_et_al_2018_The_Wilcoxon_Mann_Whitney_Procedure_Fails_as_a_Test_of_Medians.pdf ( 1,15 мегабайт ) Кол-во скачиваний: 137
Прикрепленный файл  Liu_et_al_2017_Modeling_continuous_response_variables_using_ordinal_regression.pdf ( 1,64 мегабайт ) Кол-во скачиваний: 113
 
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Игорь
сообщение 20.07.2022 - 09:48
Сообщение #23





Группа: Пользователи
Сообщений: 1114
Регистрация: 10.04.2007
Пользователь №: 4040



Цитата(comisora @ 19.07.2022 - 00:19) *
1. Описание критерия Манна-Уитни, что он умеет и чего не умеет. Рассмотрены случаи с медианами.
...
Divine_et_al_2018_The_Wilcoxon_Mann_Whitney_Procedure_Fails_as_a_Test_of_Medians.pdf ( 1,15 мегабайт )

Статья забавная, но ничего не доказывающая. Пара методических соображений после ее изучения.
1. Стоит вопрос об однородности выборок, которые считают авторы. Надо посчитать параметры положения, масштаба (рассеяния) и их ошибки и показать, что выборки однородны. Т.е. каждая варианта выборки, вообще говоря, не взята с потолка, а является измерением того же самого экспериментального параметра.
2. Если сравнивать параметры положения, то различий таких искусственных выборок, как в статье, нет. Но если сравнить параметры рассеяния, то очень даже есть.

Сообщение отредактировал Игорь - 20.07.2022 - 09:49


Signature
Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
passant
сообщение 20.07.2022 - 11:46
Сообщение #24





Группа: Пользователи
Сообщений: 231
Регистрация: 27.04.2016
Пользователь №: 28223



Цитата(Игорь @ 20.07.2022 - 09:48) *
Статья забавная, но ничего не доказывающая. Пара методических соображений после ее изучения.
1. Стоит вопрос об однородности выборок, которые считают авторы. Надо посчитать параметры положения, масштаба (рассеяния) и их ошибки и показать, что выборки однородны. Т.е. каждая варианта выборки, вообще говоря, не взята с потолка, а является измерением того же самого экспериментального параметра.
2. Если сравнивать параметры положения, то различий таких искусственных выборок, как в статье, нет. Но если сравнить параметры рассеяния, то очень даже есть.

Я для себя пришел к выводу, что в той предметной области в которой я работаю(от медицины отличается весьма существенно - и объемом данных, и скоростью процессов и даже их разнообразия), различать выборки по одной из статистик - будь-то среднее, медиана, дисперсия, автокорреляция, показатель Херста, энтропия и пр.... практически никогда не гарантирует нам правильности ответа на любом приемлемом уровне достоверности. Просто потому, что переходя к таким статистикам мы попросту отбрасываем очень много информации, которая присутствует в исходном датасете. В идеале (не достижимом, по крайней мере я не знаю как это сделать) было бы прямое получение ответа при учете всей информации, т.е. непосредственно по всем значениям выборок. Подходы, которые "теряют" наименьшее количество исходной информации - из понятных мне - это подходы на основе анализа эмпирической функции распределения и эмпирического частотного распределения (гистограммы). Вот они способны дать наиболее "правдоподобные" ответы на вопрос об однородности выборок. Было бы интересно услышать мнение коллег на сей счет и обсудить такую парадигму.
Только вот еще раз - не уверен, что заставлять врачей (пусть даже кандидатов в кандидаты наук) разбираться в этих вопросах - считаю не просто не нужным, но и вредным трендом. Врач должен лечить, пусть даже придумывая новые методы и подходы к лечению, но анализировать результаты (для доказательности результатов) должны люди, не имеющие непосредственного интереса к результатам исследования - статистики, специалисты по анализу данных, математики. С советующими образованием, навыками и интересами. Тогда и результаты будут точнее, и манипуляций будет меньше, и зависимости от математической эрудиции членов медицинских советов будет меньше.

Сообщение отредактировал passant - 20.07.2022 - 11:53
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
ИНО
сообщение 20.07.2022 - 15:38
Сообщение #25





Группа: Пользователи
Сообщений: 204
Регистрация: 1.06.2022
Из: Донецк
Пользователь №: 39632



Цитата(passant @ 20.07.2022 - 11:46) *
Я для себя пришел к выводу, что... различать выборки по одной из статистик - будь-то среднее, медиана, дисперсия, автокорреляция, показатель Херста, энтропия и пр.... практически никогда не гарантирует нам правильности ответа на любом приемлемом уровне достоверности.

Вы забыли сформулировать вопрос. А то, может, критерии вполне годно отвечают, но совсем не на тот, который интересует Вас. Например, доказано теоретически им многократно подтверждено моделированием, что при соблюдении допущений (и даже при небольшом отклонении от них) старый добрый критерий Стьюдента является наиболее мощным для проверки однородности математических ожиданий (а это самая популярная проблема прикладной статистики). Критерии, использующие эмпирическую функцию распределения, например критерий Смирнова, для этой конкретной задачи будут иметь сильно меньшую мощность. На самом деле, чем уже мы формулируем гипотезы (как нулевую так и альтернативную), тем большей мощности можем достичь при проверке. Например, если стоит задача проверить однородноть всех параметров распределения можно последовательно сравнить две выборок оп целому ряду критериев, проверяющих по отдельности равенство средних, дисперсий, асимметрии, эксцесса и др., а затем, чтобы не идти на компромисс с совестью, провести коррекцию уровня значимости для множественных сравнений тем или иным методом (путь А). Либо сразу применить, например, критерий Смирнова (путь Б). В и тоге в первом и втором случаях порядок достигаемого уровня значимости окажется б. м. сопоставимым (с критерием Смирнова p скорее всего получится все ж поменьше, но это только потому что так и не изобрели по-настоящему корректного метода контроля ошибки первого рода для множественных сравнений). Если же мы интересуемся различиями только в одном из параметров, например матожиданиях, то применяем, например, критерий Стьюдента и на этом останавливаемся, получая на порядок большую мощность (путь В). Часто встречающееся лукавство исследователей состоит в том, что они идут по пути А, а когда находят значимое различие в одном из параметров, забывают о всех прочих проведенных тестах и делают вид, что шли по пути В.

Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
passant
сообщение 20.07.2022 - 23:13
Сообщение #26





Группа: Пользователи
Сообщений: 231
Регистрация: 27.04.2016
Пользователь №: 28223



Цитата(ИНО @ 20.07.2022 - 15:38) *
Вы забыли сформулировать вопрос. А то, может, критерии вполне годно отвечают, но совсем не на тот, который интересует Вас. Например, доказано теоретически им многократно подтверждено моделированием, что при соблюдении допущений (и даже при небольшом отклонении от них) старый добрый критерий Стьюдента является наиболее мощным для проверки однородности математических ожиданий (а это самая популярная проблема прикладной статистики). Критерии, использующие эмпирическую функцию распределения, например критерий Смирнова, для этой конкретной задачи будут иметь сильно меньшую мощность. На самом деле, чем уже мы формулируем гипотезы (как нулевую так и альтернативную), тем большей мощности можем достичь при проверке. Например, если стоит задача проверить однородноть всех параметров распределения можно последовательно сравнить две выборок оп целому ряду критериев, проверяющих по отдельности равенство средних, дисперсий, асимметрии, эксцесса и др., а затем, чтобы не идти на компромисс с совестью, провести коррекцию уровня значимости для множественных сравнений тем или иным методом (путь А). Либо сразу применить, например, критерий Смирнова (путь Б). В и тоге в первом и втором случаях порядок достигаемого уровня значимости окажется б. м. сопоставимым (с критерием Смирнова p скорее всего получится все ж поменьше, но это только потому что так и не изобрели по-настоящему корректного метода контроля ошибки первого рода для множественных сравнений). Если же мы интересуемся различиями только в одном из параметров, например матожиданиях, то применяем, например, критерий Стьюдента и на этом останавливаемся, получая на порядок большую мощность (путь В). Часто встречающееся лукавство исследователей состоит в том, что они идут по пути А, а когда находят значимое различие в одном из параметров, забывают о всех прочих проведенных тестах и делают вид, что шли по пути В.

Спасибо. В Вашем сообщении я нашел много пищи для размышления. Вроде бы и все отдельно само по себе известно и понятно, но вы как-то так все сформулировали, что у меня (по крайней мере в первом приближении) сложился пазл, нарисовался план дальнейших движений. Действительно, спасибо!

Впрочем, может еще кто из коллег захочет высказаться - буду слушать (читать) с благодарностью.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 

2 страниц V  < 1 2
Добавить ответ в эту темуОткрыть тему