Форум врачей-аспирантов

Здравствуйте, гость ( Вход | Регистрация )

2 страниц V   1 2 >  
Добавить ответ в эту темуОткрыть тему
> Преобразование Бокса-Кокса, частные вопросы метода
Cules2013
сообщение 5.02.2018 - 16:33
Сообщение #1


Дух форума
*

Группа: Пользователи
Сообщений: 17
Регистрация: 5.02.2018
Пользователь №: 30938



Добрый день всем!
У меня есть большой массив данных для множественного сравнения (независимые выборки). Ситуация такая, что где-то 70-80% групп - это параметрика (определял по Д'Агостино-Пирсону), остальное - разумеется, что нет. Уже брал для определения различий тест Краскала-Уоллиса +тест Данна для множественных сравнений. Это самый простой способ, но тест Данна уж больно жёсткий, там достоверность определяется только железобетонная, которая даже визуально на графике просматривается. Т.е, к гадалке не ходи, достаточна велика вероятность ошибки второго рода. Не слишком-то подходит.
Поэтому решил просто довести распределение до нормального Боксом-Коксом и взять ANOVA. По ходу дела возникло несколько вопросов:
1. Если я правильно всё понимаю, то нельзя преобразовывать только отдельные выборки, коль взял преобразование, то нужно Боксом-Коксом прогнать все выборки, в т.ч. и те, что уже и так имеют нормальное распределение. И я заметил преинтереснейшую вещь: в большинстве случаев Бокс-Кокс работает шикарно, но иногда возникает обратная ситуация, там где была параметрика вдруг стала непараметрика. В итоге, я, конечно, увеличил % групп с нормальным распределением, так что как бы и результат положительный, но осадок остался, да и 100% параметрики я так и не получил и, по-прежнему, по всей строгости закона, ANOVA мне не светит, как и раньше. Как решить данную проблему? Я знаю про другие виды подгонки распределения под нормальное, но Бокс-кокс позиционируется как очень эффективное и универсальное средство, этот метод доступен в программе Statistica, ничего вручную считать не надо и т.д и т.п. Мне просто даже интересно, как такое возможно, что Бокс-Кокс сделал непараметрику из параметрики, с учётом того, что программа проводит целую уйму подстановок для выбора оптимального значения лямбда? Я брал настройки по умолчанию для этого преобразования в Statistica, а именно: количество повторов (итераций) 40, диапазон лямбд от -5 до 5, эпсилон 0,00001, смещение альфа не брал (равно нулю). Может увеличить кол-во повторов?
2. Допустим проблему 1 мы решили, либо у нас её и не было изначально, то следующая задача представить адекватно полученные данные, т.е. нам нужно рассчитать новое среднее, ошибку, и построить график. Отсюда возникают вот такие подвопросы:
а) Мы просто берём новое среднее и ошибку, что выдаётся в результатах Бокса-Кокса и делаем обратное преобразование по формуле: x=(y*λ+1)^(1/λ). Так ведь? Я даже проверил (хотя это очевидно), что обратное преобразование каждого конкретного числа бессмысленно, мы получаем исходную выборку. Я это к тому, что строить график по результатам преобразования не комильфо, как бы, т.к. числа получаются не сопоставимые по величине с исходными, и нужно их привести к виду подобному исходному.
б) из пункта "а" напрямую возникает пункт "б". А разве есть такой график, либо такая программа, что позволяет строить, к примеру, Бокса-Вискера (либо что-то подобное), без исходных данных, только по среднему и ошибке? Знаю, что такое плюс-минус можно провернуть в Excel, но это у меня всегда вариант последнего выбора. Стараюсь избегать этой программы, по разным причинам, в т.ч., потому что это не спец программа для статистики, графики рисует не очень красивые и т.д. Я лично работаю в Statistica и GraphPad Prism. Знаете, можно ли провернуть в них такое? Может в какой-то бесплатной стат проге?

Я уже читал материалы данного форума по смежным вопросам, поэтому слёзно прошу не отписываться просто ссылкой на другую тему, разве что там есть прямой ответ на любой из вопросов, а я по каким-то причинам этого не заметил.

Сообщение отредактировал Cules2013 - 5.02.2018 - 16:50
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
leo_biostat
сообщение 5.02.2018 - 17:30
Сообщение #2


Дух форума
*

Группа: Пользователи
Сообщений: 93
Регистрация: 23.11.2016
Пользователь №: 28953



Цитата(Cules2013 @ 5.02.2018 - 16:33) *
Добрый день всем!
У меня есть большой массив данных для множественного сравнения (независимые выборки). Ситуация такая, что где-то 70-80% групп - это параметрика (определял по Д'Агостино-Пирсону), остальное - разумеется, что нет. Уже брал для определения различий тест Краскала-Уоллиса +тест Данна для множественных сравнений. Это самый простой способ, но тест Данна уж больно жёсткий, там достоверность определяется только железобетонная, которая даже визуально на графике просматривается. Т.е, к гадалке не ходи, достаточна велика вероятность ошибки второго рода. Не слишком-то подходит.
Поэтому решил просто довести распределение до нормального Боксом-Коксом и взять ANOVA. По ходу дела возникло несколько вопросов:
1. Если я правильно всё понимаю, то нельзя преобразовывать только отдельные выборки, коль взял преобразование, то нужно Боксом-Коксом прогнать все выборки, в т.ч. и те, что уже и так имеют нормальное распределение. И я заметил преинтереснейшую вещь: в большинстве случаев Бокс-Кокс работает шикарно, но иногда возникает обратная ситуация, там где была параметрика вдруг стала непараметрика. В итоге, я, конечно, увеличил % групп с нормальным распределением, так что как бы и результат положительный, но осадок остался, да и 100% параметрики я так и не получил и, по-прежнему, по всей строгости закона, ANOVA мне не светит, как и раньше. Как решить данную проблему? Я знаю про другие виды подгонки распределения под нормальное, но Бокс-кокс позиционируется как очень эффективное и универсальное средство, этот метод доступен в программе Statistica, ничего вручную считать не надо и т.д и т.п. Мне просто даже интересно, как такое возможно, что Бокс-Кокс сделал непараметрику из параметрики, с учётом того, что программа проводит целую уйму подстановок для выбора оптимального значения лямбда? Я брал настройки по умолчанию для этого преобразования в Statistica, а именно: количество повторов (итераций) 40, диапазон лямбд от -5 до 5, эпсилон 0,00001, смещение альфа не брал (равно нулю). Может увеличить кол-во повторов?
2. Допустим проблему 1 мы решили, либо у нас её и не было изначально, то следующая задача представить адекватно полученные данные, т.е. нам нужно рассчитать новое среднее, ошибку, и построить график. Отсюда возникают вот такие подвопросы:
а) Мы просто берём новое среднее и ошибку, что выдаётся в результатах Бокса-Кокса и делаем обратное преобразование по формуле: x=(y*λ+1)^(1/λ). Так ведь? Я даже проверил (хотя это очевидно), что обратное преобразование каждого конкретного числа бессмысленно, мы получаем исходную выборку. Я это к тому, что строить график по результатам преобразования не комильфо, как бы, т.к. числа получаются не сопоставимые по величине с исходными, и нужно их привести к виду подобному исходному.
б) из пункта "а" напрямую возникает пункт "б". А разве есть такой график, либо такая программа, что позволяет строить, к примеру, Бокса-Вискера (либо что-то подобное), без исходных данных, только по среднему и ошибке? Знаю, что такое плюс-минус можно провернуть в Excel, но это у меня всегда вариант последнего выбора. Стараюсь избегать этой программы, по разным причинам, в т.ч., потому что это не спец программа для статистики, графики рисует не очень красивые и т.д. Я лично работаю в Statistica и GraphPad Prism. Знаете, можно ли провернуть в них такое? Может в какой-то бесплатной стат проге? Я уже читал материалы данного форума по смежным вопросам, поэтому слёзно прошу не отписываться просто ссылкой на другую тему, разве что там есть прямой ответ на любой из вопросов, а я по каким-то причинам этого не заметил.


Коллега, hi.gif!

"где-то 70-80% групп - это параметрика".
Это ошибочное фраза. ВСЕ группы ВСЕГДА - параметрические. Т.е. имеют свои собственные значения ПАРАМЕТРОВ РАСПРЕДЕЛЕНИЯ.
Если же Вы подразумеваете что речь идёт о нормальности распределения (количественных признаков), то это сомнительно.
Поскольку у количественных признаков нормальное распределение обнаруживается нечасто. И причин этому много.
Об этом нюансе можете прочитать в статье по адресу http://www.biometrica.tomsk.ru/comp_aver.htm

Далее, если используете дисперсионный анализ ( ANOVA), то одного лишь нормального распределения недостаточно. Должно выполняться и второе условие.
Причём оба условия одновременно в группах сравнения выполняются нечасто. Об этом можете прочитать также и в упомянутой статье.

Следующий нюанс групповых сравнений. Если анализируемых признаков не 2-3, а больше, то продуктивно использовать не только ANOVA, но и дискриминантный анализ.
А если есть не только количественные, но и качественные признаки, то используйте метод логистической регрессии (см. http://www.biometrica.tomsk.ru/logit_0.htm)

"там достоверность определяется". Достоверность не определяется. См. статью об этом "http://www.biometrica.tomsk.ru/let1.htm"
По п. 2. Зачем строить графики по исходным данным, если результат получен по преобразованным признакам? Ведь результат относится именно к преобразованным значениям, а не к исходным.

Желаю продуктивного успеха в исследованиях!
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Олег Кравец
сообщение 5.02.2018 - 20:02
Сообщение #3


Редколлегия журнала "Врач-аспирант"
*

Группа: Модераторы
Сообщений: 273
Регистрация: 1.02.2005
Из: Воронеж
Пользователь №: 93



От модератора:

Коллега, полагаю, участники форума владеют навыками чтения. Поэтому НЕ НУЖНО цитировать предшествующее сообщение. Это называется "оверквотинг" и запрещено.


Signature
О.Я.Кравец, д.т.н., проф.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
leo_biostat
сообщение 5.02.2018 - 21:32
Сообщение #4


Дух форума
*

Группа: Пользователи
Сообщений: 93
Регистрация: 23.11.2016
Пользователь №: 28953



[quote name='Олег Кравец' date='5.02.2018 - 20:02' post='22546']

Благодарю за эту информацию. Увы, не знал об этом ограничении.
Впредь буду учитывать это ограничение.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
DrgLena
сообщение 6.02.2018 - 10:20
Сообщение #5


Дух форума
*

Группа: Пользователи
Сообщений: 1309
Регистрация: 27.11.2007
Пользователь №: 4573



Cules2013, у вас есть большой массив данных для множественного сравнения несвязанных выборок. Можете ли вы сформулировать, с какой целью эти данные были собраны. Какова биологическая или иная научная гипотеза, лежащая в основе сбора данных. Есть понятие запланированных сравнений, вам не обязательно сравнивать все подряд , если есть план. Но если большой массив данных сбрасывают статистициану, то у него есть желание сравнить все что можно и даже не нужно. Например, нормальность в выборке проверять с помощью 20-ти критериев перед использованием ANOVA. С приходом многомерной статистики никто не отменял проверку каждого вариационного ряда на предмет ошибок ввода данных или выбросов. Знания предметной области необходимы, чтобы правильно выставить диапазоны возможных значений. Использовать критерий выбросов типа Граббса тоже помогает почистить данные. Досадные ошибки могут сильно повлиять не только на нормальность, но и вообще исказить результаты особенно при многомерном анализе данных.

Если у вас много факторов с множеством уровней или много количественных переменных и большое количество наблюдений, то следует подумать о MANOVA. В едином статистическом комплексе вы получите влияние нужных вам факторов и их взаимодействия на все количественные переменные, которые вас интересуют. Радует, что у вас большинство переменных имеет нормальное распределение. Это довольно частое явление при измерениях полученных с помощью современных диагностических приборов, например, метрические параметры толщины различных зон сетчатки глаза, полученные с помощью ОКТ имеют нормальное распределение.

Важно также принять , что для использования дисперсионного анализа необходимым условием является нормальность распределения остатков модели, а не нормальность в каждой группе. Это вытекает из свойств нормального распределения. Если значения зависимой переменной в каждой экспериментальной группе распределены нормально, то нормально будут распределены и значения остатков соответствующей линейной модели. Таким образом, вместо проверки нормальности распределения значений зависимой переменной в каждой группе, достаточно проверить нормальность распределения остатков модели (число которых равно общему объему наблюдений). Относительно гомоскедастичности, также достаточно проверить дисперсию остатков.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Cules2013
сообщение 6.02.2018 - 11:55
Сообщение #6


Дух форума
*

Группа: Пользователи
Сообщений: 17
Регистрация: 5.02.2018
Пользователь №: 30938



DrgLena, спасибо за ответ по сути, в отличие от некоторых...
1. Цель у меня сравнить все группы между собой. Она таковой была изначально. Фактор оценивается всего один, поэтому мне достаточно обычного ANOVA либо его непараметрических аналогов. Если вам интересна сама идея - исследование депрессии на лаб. животных, тест Порсолта, смотрим динамику самой депрессии + остальные группы - фармпрепараты, к-рые по изначальной гипотезе должны улучшать или ухудшать состояние. Поэтому тут никакой избирательности сравнений нет. На самом деле, статистически вполне простая ситуация, без изысков. Вопрос исключительно в распределении и выборе наиболее удачного критерия.
2. По поводу выбросов и прочего. Я в курсе о всяких таких вещах, критериях их отбора и т.д. и т.п. Но я также знаю, что выбросы можно точно определить только, если они явнее явного. Если у вас ряд 1,2,3,4,5 и 300, например, без всякого анализа ясно, что 300 - это что-то не то, но в реальной жизни такие вещи случаются редко, чаще ситуации в стиле 10,20,30, 40, 50, 100. И даже, если какой-то критерий отбора вам скажет, что 100 - выброс, вам могут задать вопрос (или у вас появятся вполне обоснованные сомнения), а так ли это? В случае выбросов большую роль играет ваше личное понимание биологического смысла данных, действительно ли это выброс, либо, например, индивидуальная чувствительность (либо резистентность) некоторых животных к вашему экспериментальному воздействию. Я проверял у себя выбросы, их мало и они вот из такого разряда "не true выбросы", а скорее просто широкая норма реакции. Я ведь не сам это придумал, это позиция одного из топовых зарубежных учебников по статистике. Сейчас фамилии не вспомню. В итоге вы сами решаете, выброс это или нет. Многие вполне обоснованно против "чисток" выборок, ибо легко перестараться и утратить важный биологический смысл. Лично в моём случае удаление выбросов не совсем целесообразно, и в итоге не решает проблему распределения.
3. Я вот честно никак не уловлю всю суть требований к ANOVA. Про остатки модели очень смутно понимаю, что такое гомоскедастичность - погуглил. У меня некий диссонанс, в т.ч. и из-за того, что вы написали.
Вот моя логическая цепочка:
- Для ANOVA нужно помимо нормального распределения, соблюдения условий нормальности распределения остатков модели, гомоскедастичность. Может что-то ещё подобное (не суть, сейчас). Но, если эти условия присущи нормальному распределению, зачем вообще о них говорить отдельно, если одно подразумевает другое. А то я подозреваю, что всё несколько сложнее. И каким образом в стат программе можно оценить эти параметры?
Тут всплывает другой интересный вопрос об определении нормальности как таковой. Каким бы вы критерием её не определяли, он вам даёт ваш уровень достоверности p. Хитрость то в том, что у вас может быть во всех выборках нормальное распределение, но где то р>0,99, где-то р>0,3, а где-то и вовсе р>0,055, к примеру. Дьявол в деталях, как говорится, и по-хорошему, такие вещи нельзя игнорировать. К тому же столкнулся ещё с такой забавной штукой, что GraphPadPrism рекомендует пользоваться тестом на нормальность Д'Агостино-Пирсона (я заметил, что он весьма либерален), а Смирнова-Колмогорова или Лилиефорса настоятельно не рекомендует, в то время, как в программе Statistica 10 Д'Агостино-Пирсона вообще нет, как и самого факта, что они что-то рекомендуют тоже нет, выбирай что хочешь, никаких подсказок по этому поводу. Вот и пойми их, ведущие производители софта, опираются не "на сплетни за углом", а серьёзные научные работы по статистике, нередко ссылаясь на первоисточник самого метода, но куда не глянь везде есть разночтения. Как для мат аппарата, в статистике что-то много спорных моментов и человеческого фактора.
Ещё раз спасибо за ответ, но, наверное, меня в первую очередь интересует само преобразованием Бокса-Кокса либо подбор его более удачного для моей ситуации аналога.

Сообщение отредактировал Cules2013 - 6.02.2018 - 11:58
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
nokh
сообщение 6.02.2018 - 12:33
Сообщение #7


Дух форума
*

Группа: Пользователи
Сообщений: 1051
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704



1. Про то, что данные не могут быть (не)параметрическими вам уже указали.

2. Про то, что проверять нужно нормальность распределения ошибки модели, а не лазить по отдельным группам - тоже.
Поскольку все преобразования применяются к единому массиву данных, то и оценивать его результативность нужно применительно ко всему массиву. Естественно, что в отдельных группах при этом возможно появление положительной или отрицательной асимметрии распределения, т.е. типа "ухудшение" нормальности.

3. Формула обратного преобразования Бокса - Кокса правильная. Нужно только определиться что по ней вычислять. Однозначно нельзя вычислять ретрансформированием ошибку среднего, т.к. это просто неверно. По преобразованным данным вам нужно рассчитать среднее и 95%-ные доверительные интервалы (ДИ) для среднего - их и ретрансформировать. Про то, что ретрансформация по приведённой вами формуле называется наивной я уже писал и давал литературу - см. мои сообщения #8, #10 здесь: http://forum.disser.ru/index.php?showtopic=4111 ДИ после ретрансформации в исходную шкалу станут асимметричными, как собственно и само распределение - это логично. Также см. сообщение #10 здесь: http://forum.disser.ru/index.php?showtopic=3591

4. На графике следует давать среднее с ДИ, а не строить коробчатый график (Box-and-Whiskers Plot). Кстати это не "Бокса-Вискера", а "ящик с усами" smile.gif . Этот тип графика хорош для быстрого взгляда на форму распределения и только. Подавляющее большинство исследователей строят такие графики только потому, что видят их в работах по своей тематике у других. А эти другие строят такие графики только потому, что не умеют построить графики среднего с асимметричными 95% ДИ. Рискну утверждать, что те, кто строит такие графики с обозначенными снежинками якобы выбросами вообще мало что понимают в биостатистике, потому что просто не знают про асимметрию распределения большинства биологических показателей. Короче, Box-and-Whiskers Plot в статью гораздо чаще правильнее не строить. В свои черновики - можно, хотя если позволяет объём выборок, то лучше посмотреть гистограммы распределений.

5. По графикам. Насколько я знаю, в Statistica вы графики с ретрансформированными средними и ДИ не построите. Достаточно просто это можно сделать в R: пакет scales позволяет прописать лямбду и шкала графика + все объекты на нём автоматически ретрансформируются из Бокса - Кокса в исходный масштаб. Также в R можно построить графики по средним с ДИ, уже вычисленным ретрансформацией где-либо до этого (Statistica, Excel, ...). Я обычно строю такие графики в пакете KyPlot; нужны версии до 3.0 - они были бесплатными и не урезанными, в сети можно найти 2.13 и 2.15 . Там можно вручную прописать в ячейках средние и ДИ и строить график типа как в Excel. Лучше, конечно, сразу осваивать R, а не заведомо устаревший пакет, но версию 2.15 горячо любимого мной KyPlot могу выложить.

PS сообщение выше не читал ещё, отвечал на первый пост...

Сообщение отредактировал nokh - 6.02.2018 - 12:35
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
DrgLena
сообщение 6.02.2018 - 13:39
Сообщение #8


Дух форума
*

Группа: Пользователи
Сообщений: 1309
Регистрация: 27.11.2007
Пользователь №: 4573



На лабораторных животных моделируется депрессия и изучается ее динамика под различными фарм препаратами. Т.е. вы повторно проводите измерения и имеете связанные выборки внутри каждого препарата? Или вам важны сравнения в группах в каждой временной точке теста только между группами с разными фарм препаратами?

Уточню, если вызвала у вас диссонанс. Остатки и есть ошибки и их анализ доступен после ANOVA даже в программе Statistica. На форуме обсуждалось, ищите в поиске сочетание ? нормальность остатков?. Если вы с этим разберетесь, то, возможно, вам и не нужны будут никакие трансформации.

Более важным в дизайне вашего исследования оценить величину эффекта для каждого препарата, например, относительно контроля, это можно сделать с помощью расчета d Коэна, для какого то ключевого показателя теста, например индекса депрессивности или другого элемента теста.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Cules2013
сообщение 6.02.2018 - 14:32
Сообщение #9


Дух форума
*

Группа: Пользователи
Сообщений: 17
Регистрация: 5.02.2018
Пользователь №: 30938



nokh
1. Ошибка модели - это что значит? Не совсем понимаю.
2. Бокс-Кокс я применял к каждой отдельной группе. Разве адекватно объединять все группы в один массив и приводить его целиком к нормальности? Это же несвязанные группы, а экспериментальное воздействие на каждую из них разное. По идее, каждая же группа, должна относится к своей ген совокупности. От того и вопрос, как проведя Бокс-Кокс для одной конкретной выборки можно сделать хуже, чем было?
3. Про доверительные интервалы я знаю, часто их вижу в зарубежных статьях, хотя чаще именно в табличном виде, вместо ошибок среднего, в виде графиков реже. К тому же, если ничего не путаю, видел, например, таблицу с ДИ, но график (столбчатая диаграмма) с их любимым стандартным отклонением, вместо ошибки среднего. ДИ рассчитать проще простого, но вот графики я подобные не строил, ещё не разобрался как. В GraphPad Prism этот график есть точно. Я в курсе, что Бокс и Вискер - это не фамилии smile.gif, но так привык называть, и не я один, в рус. литре это распространённый вариант. Вы же не не говорите, например, "Критерий студента". Бокса-Вискера не такое дно, как вы описали, тем более, что ясень пень, что я указываю достоверность различий звёздочками, а как иначе? Этот тип графиков очень удобен, легко строится, наглядно показывает динамику. Как по мне, классика, довольно часто встречается в статьях, это к вопросу о общепринятых вещах в вашей области. Наоборот, чем более специфические методы обработки и визуализации инфы я буду использовать, тем больше вероятность того, что меня рецензенты выставят дураком и ничего им не докажешь lol.gif А вообще уровень стат обработки во многих зарубежных статьях такой заоблачный, что русскоязычная литра просто какое-то Средневековье, это неподъёмная планка.
Смотреть форму распределения на Бокса-Вискера - это как? А всякие бэгплоты и Q-Q плоты зачем тогда?
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
nokh
сообщение 7.02.2018 - 09:04
Сообщение #10


Дух форума
*

Группа: Пользователи
Сообщений: 1051
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704



Цитата(Cules2013 @ 6.02.2018 - 16:32) *
1. Ошибка модели - это что значит? Не совсем понимаю.

Так ведь читать нужно. В хорошей книжке найдёте формулу модели дисперсионного анализа. А в этой модели есть член - ошибка или остатки (residuals). О нём речь.
Цитата(Cules2013 @ 6.02.2018 - 16:32) *
2. Бокс-Кокс я применял к каждой отдельной группе. Разве адекватно объединять все группы в один массив и приводить его целиком к нормальности? Это же несвязанные группы, а экспериментальное воздействие на каждую из них разное. По идее, каждая же группа, должна относится к своей ген совокупности...

По идее, согласно нулевой гипотезе, все группы относятся к одной генеральной совокупности, а статметоды проверяют именно нулевую гипотезу. Вот что вы сделали: вместо значений одной группы взяли обратные значения 1/х (лямбда=-1), из значений другой группы взяли логарифм (лямбда=0), значения третьей группы оставили без изменений (лямбда=1), а значения четвёртой группы возвели, скажем, в квадрат (лямбда=2). И как после этого вы собираетесь сравнивать преобразованные средние? shok.gif Очевидно, что нужно либо всё оставлять без изменений, либо всё логарифмировать, либо ещё что...
Цитата(Cules2013 @ 6.02.2018 - 16:32) *
3. ...Бокса-Вискера не такое дно, как вы описали, тем более, что ясень пень, что я указываю достоверность различий звёздочками, а как иначе?

А разве я писал про "достоверность" (которая, кстати, таковой не является и на что указывалось выше) применительно к звёздочкам? И да, если в статье даны такие коробчатые графики, как я описал - это именно дно. Хорошая аналогия, порождающая целый ассоциативный ряд. Я так и вижу этих красненьких самоуверенных червячков, копошащихся в донных отложениях, весело пожирающих остатки друг друга и то, что нападало сверху. Но только на поверку кто-то из них окажется хирономидой, всплывёт и полетит (возможно, выше и дальше меня), а кто-то - трубочником, удел которого всю жизнь ковыряться в этом ... детрите. И за рубежом - подобное. Анализ публикаций биомедицинской тематики за вычетом обзоров показывает, что около 20-30% из них содержит некорректную статистику, а около 50% и более - мозаичные работы, когда отдельные части сделаны типа корректно, но общая идея или концепция подхода к анализу данных не прослеживается: одно подсмотрели у одних, другое - у других и получается такой более-менее статистически сносный винегрет. И только 10-20% работ действительно хороши или даже безупречны, на которые стоит равняться. Соглашусь с вами в том, что по сравнению с отечественными работами это очень высокий процент. И - да, рецензенты нередко такие же черви...
Цитата(Cules2013 @ 6.02.2018 - 16:32) *
Смотреть форму распределения на Бокса-Вискера - это как? А всякие бэгплоты и Q-Q плоты зачем тогда?

Так если читать у тех, кто про "Бокса-Вискера" пишет, так и не понять. Читайте тех, кто пишет про "Box-and-Whisker PLot".

PS
> модератор. Квотинг есть, но надеюсь - не овер:). Если "оверквотинг" запрешён, это следует прописать в правилах форума, а то "мужики-то не знают" (с)

Сообщение отредактировал nokh - 7.02.2018 - 10:10
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
nokh
сообщение 7.02.2018 - 15:07
Сообщение #11


Дух форума
*

Группа: Пользователи
Сообщений: 1051
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704



Ещё в догонку по поводу того, что БК не нормализует идеально, а где-то даже ухудшает нормальность. Такой результат - несовпадение того как работает преобразование БК, и как оценвает его результаты критерий Д'Агостино - Пирсона. Преобразование Бокса - Кокса, будучи гибким степенным преобразованием, идеально устраняет асимметрию распределения. Поскольку многие биологические, химические, экономические и др. показатели имеют часто положительно асимметричные распределения, для их нормализации традиционно применяются степенные преобразования. Кто не умеет БК - логарифмирует и т.о., пусть не идельно, но поджимает хвост распределения. БК делает это идеально. Другая мера формы - эксцесс - более сложная и "мутная", т.к. процессы, которые к ней приводят не столь очевидны как в случае асимметрии. Это может быть и смесь распределений с близкими средними, и действие стабилизирующего отбора, может что-то ещё... Как исправлять (нормализовать) эксцессы и нужно ли это - не ясно.

Критерий Д'Агостино - Пирсона, как и критерий Харке - Бера, задействует в расчётах обе меры формы: и асимметрию, и эксцесс. Поэтому в случаях, когда распределение изначально было не слишком асимметричным, преобразование БК даже немного ухудшая эксцесс, приводит к более плохим значениям статистики критериев. Поэтому идеально оценивать результативность преобразования БК - по критерию асимметрии. Я обычно смотрю критерием Шапиро - Уилка (считается, что он чаще других правильно оценивает отклонения от нормальности - см. Кобзарь. Прикладная мат. статистика) и пока противоречий не замечал.

Сообщение отредактировал nokh - 7.02.2018 - 18:45
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Cules2013
сообщение 8.02.2018 - 13:05
Сообщение #12


Дух форума
*

Группа: Пользователи
Сообщений: 17
Регистрация: 5.02.2018
Пользователь №: 30938



nokh, спасибо за ответы. Некоторые вещи для себя разъяснил, но остались и вопросы. Поэтому я их озвучу, вы или ещё кто по возможности на них ответите, и на этом будем завершать дискуссию.
1. Требования к ANOVA. Я тут почитал, в т.ч. темы данного форума и пришёл к выводу, что одни считают, что нужна нормальность данных по каждой выборке (ссылаются на Петри "Наглядная статистика в медицине"), другие (в т.ч. и вы) говорят о нормальности распределения остатков.
Кто больше прав? Хотелось бы знать, на кого ссылаетесь вы.
2. GraphPadPrism 7 позволяет считать нормальность остатков и строить график, но делает это не отдельным пунктом, а как одну из опций регрессионного анализа, и это последний шаг, перед выводом. Значит, перед тем, как провести анализ остатков, нужно указать все параметры регрессии, которые, как я понимаю, влияют на итоговый результат. Интересно получается. Я в регрессии мало что смыслю, почти не сталкивался.
3. Вы говорите о нормальности остатков, но в тоже время и о критерии Шапиро-Уилка. Это же разные вещи. Как раз, Д'Агостино - Пирсон, Шапиро-Уилк и прочие - это для определения нормальности исходных данных по каждой группе. Я, конечно, могу взять сами остатки и прогнать их на нормальность отдельно этими критериями, вместо того, что встроен в модуль регрессии. Но разве так кто-то делает?
4. На форуме тут откопал такое мнение, что ANOVA - это робастный метод, поэтому нормальность и однородность могут быть частично нарушены (R. Cody, J. Smith, 1991. Applied statistics and the SAS programming language). Что значит "частично" и как это определить количественно в стат. программе - вопрос на миллион.
5. Понимаю, что прошу немало, но всё же, пожалуйста, если можете, подкрепляйте свои выводы конкретными ссылками на лит-ру. И мне будет спокойнее, и другим людям (в т.ч. рецензентам) смогу аргументировано ответить, отстоять свою точку зрения. Вот, например, вы говорите, что однородность дисперсий в группах лучше всего считать критерием Левне, а Бартлетта - это плохой вариант, ведь есть ещё Хартли, Шеффе, Кохрена... А почему так, откуда такая градация? Не обязательно отвечать полностью, можете просто кинуть ссылки на статьи или учебник или ещё что, где есть подобные сравнения. Я вот нашёл статью, где сравнение критериев определения однородность дисперсий , но Левне (Левене) там нет. И те, кто пишет о сравнениях и прочих подобных вещах, часто углубляется в формулы, чистую математику, и среди деревьев леса не видно.

Сообщение отредактировал Cules2013 - 8.02.2018 - 13:06
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
leo_biostat
сообщение 9.02.2018 - 08:36
Сообщение #13


Дух форума
*

Группа: Пользователи
Сообщений: 93
Регистрация: 23.11.2016
Пользователь №: 28953



Цитата(Cules2013 @ 8.02.2018 - 13:05) *
nokh, спасибо за ответы. Некоторые вещи для себя разъяснил, но остались и вопросы. Поэтому я их озвучу, вы или ещё кто по возможности на них ответите, и на этом будем завершать дискуссию.
1. Требования к ANOVA. Я тут почитал, в т.ч. темы данного форума и пришёл к выводу, что одни считают, что нужна нормальность данных по каждой выборке (ссылаются на Петри "Наглядная статистика в медицине"), другие (в т.ч. и вы) говорят о нормальности распределения остатков.

Коллега, hi.gif!
Проблемы требований к ANOVA очень старые, и по ним очень часто обращаются. Посмотрите, например, этот же вопрос по адресу http://forum.disser.ru/index.php?showtopic=3503
И такие вопросы возникают по одной простой причине: недостаточное владение теорией обсуждаемого классического метода анализа.
Как и противоречивые описания возможностей этого старого классического метода. Если Вы читали издания по ANOVA, то обратите внимание на то, каким статистическим критерием пользуются в этом методе.
И как этот самый статистический критерий, в формулах своего вычисления, взаимосвязан с критериями, вычисляемыми по нормальному распределению.
Когда освоите теорию вычисления значений этих критериев, поработайте с примерами выборок, которые можете сами генерировать, например, в EXCEL, где можете указывать нормальное распределения, параметры,
и объёмы выборок. И затем применяйте ANOVA для сравнения этих сконструированных выборок. Причём для этих выборок можно указывать не только средние значения, заимствованные из Ваших выборок.
Сужу о продуктивности таких упражнений по своему 25-летнему опыту преподавания в универе, когда я своим студентам, которых обучал этим методам, предлагал такие задания.
И они после работы с 10-15 такими искусственными выборками, понимали основы этого метода. Надеюсь, что после таких упражнений Вы найдёте ответы на свои вопросы.

Успеха!
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
DrgLena
сообщение 9.02.2018 - 10:44
Сообщение #14


Дух форума
*

Группа: Пользователи
Сообщений: 1309
Регистрация: 27.11.2007
Пользователь №: 4573



cules2013, я не просто из любопытства, спросила, что вы изучаете и есть ли повторные измерения, поскольку вы в динамике изучаете и саму депрессию и ее на фоне препаратов. Так что не все так просто, зря вы отмахнулись от MANOVA с повторными измерениями. Тест, который вы используете, дает несколько переменных (разные модификации) в основе которых измерение времени в секундах. Все составляющие тест переменные, скорее всего коррелируют между собой, если они про одно и то же, а может про разное, я не знаток. Наверное, все хотят эти самые секунды увидеть, чтобы можно было сопоставлять результаты различных исследований. MANOVA как раз и ответит на вопрос, как каждый препарат влияет на динамику каждого элемента вашего теста.

Любопытный тест, однако https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4401172/

Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
DrgLena
сообщение 9.02.2018 - 10:57
Сообщение #15


Дух форума
*

Группа: Пользователи
Сообщений: 1309
Регистрация: 27.11.2007
Пользователь №: 4573



Цитата(leo_biostat @ 9.02.2018 - 09:36) *
И такие вопросы возникают по одной простой причине: недостаточное владение теорией обсуждаемого классического метода анализа.

Да, дисперсионный анализ ? старый классический метод и условия его применимости указаны в учебниках. 4 года назад, в дискуссии на этом форуме, которую упоминает leo_biostat, действительно, были представлены некоторые источники, отражающие обе точки зрения. Но ни в той дискуссии, ни в этой ветке, нет мнения leo_biostat (профессионального статистика, коим я не являюсь). Соглашусь, что полезно и очень увлекательно на стадии обучения руками считать простые примерчики и сравнивать с работой программ. Сама когда то считала пример по ДА из Афифи и Эйзен руками и в программе Statgraphics под dos.

Но жизнь продолжается и, сегодня я активно использую ANOVA , реже MANOVA и при этом заморачиваюсь только анализом остатков. Документация к пакетам SAS, SPSS и R для меня достаточно надежные источники.
Дисперсионный анализ представляет собой частный случай обобщенной линейной модели, как и регрессионный анализ. Оба входят в модуль GLM и даже в программе Statistica дается возможность анализа residuals. Ну, а для MANOVA ? в SPSS.

Приведу некоторые источники, которые кому то станут полезными, а кто то продолжит проверять нормальность в группах из трех мышек множеством критериев.
http://data.library.virginia.edu/normality-assumption/
http://r-analytics.blogspot.co.nz/2013/05/...ml#.Wnz3V3aYPDd
https://onlinecourses.science.psu.edu/stat461/node/49
https://www.theanalysisfactor.com/checking-...ty-anova-model/
http://www.itl.nist.gov/div898/handbook/pr...tion2/pri24.htm

Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 

2 страниц V   1 2 >
Добавить ответ в эту темуОткрыть тему