Форум врачей-аспирантов

Здравствуйте, гость ( Вход | Регистрация )

> Преобразование Бокса-Кокса, частные вопросы метода
Cules2013
сообщение 5.02.2018 - 16:33
Сообщение #1





Группа: Пользователи
Сообщений: 27
Регистрация: 5.02.2018
Пользователь №: 30938



Добрый день всем!
У меня есть большой массив данных для множественного сравнения (независимые выборки). Ситуация такая, что где-то 70-80% групп - это параметрика (определял по Д'Агостино-Пирсону), остальное - разумеется, что нет. Уже брал для определения различий тест Краскала-Уоллиса +тест Данна для множественных сравнений. Это самый простой способ, но тест Данна уж больно жёсткий, там достоверность определяется только железобетонная, которая даже визуально на графике просматривается. Т.е, к гадалке не ходи, достаточна велика вероятность ошибки второго рода. Не слишком-то подходит.
Поэтому решил просто довести распределение до нормального Боксом-Коксом и взять ANOVA. По ходу дела возникло несколько вопросов:
1. Если я правильно всё понимаю, то нельзя преобразовывать только отдельные выборки, коль взял преобразование, то нужно Боксом-Коксом прогнать все выборки, в т.ч. и те, что уже и так имеют нормальное распределение. И я заметил преинтереснейшую вещь: в большинстве случаев Бокс-Кокс работает шикарно, но иногда возникает обратная ситуация, там где была параметрика вдруг стала непараметрика. В итоге, я, конечно, увеличил % групп с нормальным распределением, так что как бы и результат положительный, но осадок остался, да и 100% параметрики я так и не получил и, по-прежнему, по всей строгости закона, ANOVA мне не светит, как и раньше. Как решить данную проблему? Я знаю про другие виды подгонки распределения под нормальное, но Бокс-кокс позиционируется как очень эффективное и универсальное средство, этот метод доступен в программе Statistica, ничего вручную считать не надо и т.д и т.п. Мне просто даже интересно, как такое возможно, что Бокс-Кокс сделал непараметрику из параметрики, с учётом того, что программа проводит целую уйму подстановок для выбора оптимального значения лямбда? Я брал настройки по умолчанию для этого преобразования в Statistica, а именно: количество повторов (итераций) 40, диапазон лямбд от -5 до 5, эпсилон 0,00001, смещение альфа не брал (равно нулю). Может увеличить кол-во повторов?
2. Допустим проблему 1 мы решили, либо у нас её и не было изначально, то следующая задача представить адекватно полученные данные, т.е. нам нужно рассчитать новое среднее, ошибку, и построить график. Отсюда возникают вот такие подвопросы:
а) Мы просто берём новое среднее и ошибку, что выдаётся в результатах Бокса-Кокса и делаем обратное преобразование по формуле: x=(y*λ+1)^(1/λ). Так ведь? Я даже проверил (хотя это очевидно), что обратное преобразование каждого конкретного числа бессмысленно, мы получаем исходную выборку. Я это к тому, что строить график по результатам преобразования не комильфо, как бы, т.к. числа получаются не сопоставимые по величине с исходными, и нужно их привести к виду подобному исходному.
б) из пункта "а" напрямую возникает пункт "б". А разве есть такой график, либо такая программа, что позволяет строить, к примеру, Бокса-Вискера (либо что-то подобное), без исходных данных, только по среднему и ошибке? Знаю, что такое плюс-минус можно провернуть в Excel, но это у меня всегда вариант последнего выбора. Стараюсь избегать этой программы, по разным причинам, в т.ч., потому что это не спец программа для статистики, графики рисует не очень красивые и т.д. Я лично работаю в Statistica и GraphPad Prism. Знаете, можно ли провернуть в них такое? Может в какой-то бесплатной стат проге?

Я уже читал материалы данного форума по смежным вопросам, поэтому слёзно прошу не отписываться просто ссылкой на другую тему, разве что там есть прямой ответ на любой из вопросов, а я по каким-то причинам этого не заметил.

Сообщение отредактировал Cules2013 - 5.02.2018 - 16:50
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
 
Открыть тему
Ответов
nokh
сообщение 7.02.2018 - 15:07
Сообщение #2





Группа: Пользователи
Сообщений: 1219
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704



Ещё в догонку по поводу того, что БК не нормализует идеально, а где-то даже ухудшает нормальность. Такой результат - несовпадение того как работает преобразование БК, и как оценвает его результаты критерий Д'Агостино - Пирсона. Преобразование Бокса - Кокса, будучи гибким степенным преобразованием, идеально устраняет асимметрию распределения. Поскольку многие биологические, химические, экономические и др. показатели имеют часто положительно асимметричные распределения, для их нормализации традиционно применяются степенные преобразования. Кто не умеет БК - логарифмирует и т.о., пусть не идельно, но поджимает хвост распределения. БК делает это идеально. Другая мера формы - эксцесс - более сложная и "мутная", т.к. процессы, которые к ней приводят не столь очевидны как в случае асимметрии. Это может быть и смесь распределений с близкими средними, и действие стабилизирующего отбора, может что-то ещё... Как исправлять (нормализовать) эксцессы и нужно ли это - не ясно.

Критерий Д'Агостино - Пирсона, как и критерий Харке - Бера, задействует в расчётах обе меры формы: и асимметрию, и эксцесс. Поэтому в случаях, когда распределение изначально было не слишком асимметричным, преобразование БК даже немного ухудшая эксцесс, приводит к более плохим значениям статистики критериев. Поэтому идеально оценивать результативность преобразования БК - по критерию асимметрии. Я обычно смотрю критерием Шапиро - Уилка (считается, что он чаще других правильно оценивает отклонения от нормальности - см. Кобзарь. Прикладная мат. статистика) и пока противоречий не замечал.

Сообщение отредактировал nokh - 7.02.2018 - 18:45
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Cules2013
сообщение 8.02.2018 - 13:05
Сообщение #3





Группа: Пользователи
Сообщений: 27
Регистрация: 5.02.2018
Пользователь №: 30938



nokh, спасибо за ответы. Некоторые вещи для себя разъяснил, но остались и вопросы. Поэтому я их озвучу, вы или ещё кто по возможности на них ответите, и на этом будем завершать дискуссию.
1. Требования к ANOVA. Я тут почитал, в т.ч. темы данного форума и пришёл к выводу, что одни считают, что нужна нормальность данных по каждой выборке (ссылаются на Петри "Наглядная статистика в медицине"), другие (в т.ч. и вы) говорят о нормальности распределения остатков.
Кто больше прав? Хотелось бы знать, на кого ссылаетесь вы.
2. GraphPadPrism 7 позволяет считать нормальность остатков и строить график, но делает это не отдельным пунктом, а как одну из опций регрессионного анализа, и это последний шаг, перед выводом. Значит, перед тем, как провести анализ остатков, нужно указать все параметры регрессии, которые, как я понимаю, влияют на итоговый результат. Интересно получается. Я в регрессии мало что смыслю, почти не сталкивался.
3. Вы говорите о нормальности остатков, но в тоже время и о критерии Шапиро-Уилка. Это же разные вещи. Как раз, Д'Агостино - Пирсон, Шапиро-Уилк и прочие - это для определения нормальности исходных данных по каждой группе. Я, конечно, могу взять сами остатки и прогнать их на нормальность отдельно этими критериями, вместо того, что встроен в модуль регрессии. Но разве так кто-то делает?
4. На форуме тут откопал такое мнение, что ANOVA - это робастный метод, поэтому нормальность и однородность могут быть частично нарушены (R. Cody, J. Smith, 1991. Applied statistics and the SAS programming language). Что значит "частично" и как это определить количественно в стат. программе - вопрос на миллион.
5. Понимаю, что прошу немало, но всё же, пожалуйста, если можете, подкрепляйте свои выводы конкретными ссылками на лит-ру. И мне будет спокойнее, и другим людям (в т.ч. рецензентам) смогу аргументировано ответить, отстоять свою точку зрения. Вот, например, вы говорите, что однородность дисперсий в группах лучше всего считать критерием Левне, а Бартлетта - это плохой вариант, ведь есть ещё Хартли, Шеффе, Кохрена... А почему так, откуда такая градация? Не обязательно отвечать полностью, можете просто кинуть ссылки на статьи или учебник или ещё что, где есть подобные сравнения. Я вот нашёл статью, где сравнение критериев определения однородность дисперсий , но Левне (Левене) там нет. И те, кто пишет о сравнениях и прочих подобных вещах, часто углубляется в формулы, чистую математику, и среди деревьев леса не видно.

Сообщение отредактировал Cules2013 - 8.02.2018 - 13:06
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 

Сообщений в этой теме
- Cules2013   Преобразование Бокса-Кокса   5.02.2018 - 16:33
- - leo_biostat   Цитата(Cules2013 @ 5.02.2018 - 16:33...   5.02.2018 - 17:30
- - Олег Кравец   От модератора: Коллега, полагаю, участники форум...   5.02.2018 - 20:02
|- - leo_biostat   [quote name='Олег Кравец' date='5.02.2...   5.02.2018 - 21:32
- - DrgLena   Cules2013, у вас есть большой массив данных для м...   6.02.2018 - 10:20
|- - Cules2013   DrgLena, спасибо за ответ по сути, в отличие от не...   6.02.2018 - 11:55
- - nokh   1. Про то, что данные не могут быть (не)параметрич...   6.02.2018 - 12:33
|- - Cules2013   nokh 1. Ошибка модели - это что значит? Не совсем ...   6.02.2018 - 14:32
||- - nokh   Цитата(Cules2013 @ 6.02.2018 - 16:32...   7.02.2018 - 09:04
|- - bubnilkin   Прошу прощения, что вклиниваюсь. Хотел уточнить: Ц...   16.02.2018 - 01:53
|- - nokh   Цитата(bubnilkin @ 16.02.2018 - 03:5...   16.02.2018 - 22:55
- - DrgLena   На лабораторных животных моделируется депрессия и ...   6.02.2018 - 13:39
- - nokh   Ещё в догонку по поводу того, что БК не нормализуе...   7.02.2018 - 15:07
|- - Cules2013   nokh, спасибо за ответы. Некоторые вещи для себя р...   8.02.2018 - 13:05
|- - leo_biostat   Цитата(Cules2013 @ 8.02.2018 - 13:05...   9.02.2018 - 08:36
|- - nokh   Цитата(Cules2013 @ 8.02.2018 - 15:05...   15.02.2018 - 19:47
|- - Cules2013   nokh, спасибо за детальный ответ, понимаю, что это...   21.02.2018 - 09:18
|- - 100$   Цитата(Cules2013 @ 21.02.2018 - 09:1...   21.02.2018 - 16:14
- - DrgLena   cules2013, я не просто из любопытства, спросила, ч...   9.02.2018 - 10:44
- - DrgLena   Цитата(leo_biostat @ 9.02.2018 - 09...   9.02.2018 - 10:57
|- - Cules2013   Цитата(DrgLena @ 9.02.2018 - 10:57) ...   9.02.2018 - 17:56
- - Blaid   Возможно заблуждаюсь, но НИ КАКАЯ СПРАВОЧНАЯ СИСТЕ...   27.02.2018 - 12:28
- - 100$   Цитата(Blaid @ 27.02.2018 - 12:28) В...   27.02.2018 - 12:52


Добавить ответ в эту темуОткрыть тему