Форум врачей-аспирантов

Здравствуйте, гость ( Вход | Регистрация )

> Преобразование Бокса-Кокса, частные вопросы метода
Cules2013
сообщение 5.02.2018 - 16:33
Сообщение #1





Группа: Пользователи
Сообщений: 27
Регистрация: 5.02.2018
Пользователь №: 30938



Добрый день всем!
У меня есть большой массив данных для множественного сравнения (независимые выборки). Ситуация такая, что где-то 70-80% групп - это параметрика (определял по Д'Агостино-Пирсону), остальное - разумеется, что нет. Уже брал для определения различий тест Краскала-Уоллиса +тест Данна для множественных сравнений. Это самый простой способ, но тест Данна уж больно жёсткий, там достоверность определяется только железобетонная, которая даже визуально на графике просматривается. Т.е, к гадалке не ходи, достаточна велика вероятность ошибки второго рода. Не слишком-то подходит.
Поэтому решил просто довести распределение до нормального Боксом-Коксом и взять ANOVA. По ходу дела возникло несколько вопросов:
1. Если я правильно всё понимаю, то нельзя преобразовывать только отдельные выборки, коль взял преобразование, то нужно Боксом-Коксом прогнать все выборки, в т.ч. и те, что уже и так имеют нормальное распределение. И я заметил преинтереснейшую вещь: в большинстве случаев Бокс-Кокс работает шикарно, но иногда возникает обратная ситуация, там где была параметрика вдруг стала непараметрика. В итоге, я, конечно, увеличил % групп с нормальным распределением, так что как бы и результат положительный, но осадок остался, да и 100% параметрики я так и не получил и, по-прежнему, по всей строгости закона, ANOVA мне не светит, как и раньше. Как решить данную проблему? Я знаю про другие виды подгонки распределения под нормальное, но Бокс-кокс позиционируется как очень эффективное и универсальное средство, этот метод доступен в программе Statistica, ничего вручную считать не надо и т.д и т.п. Мне просто даже интересно, как такое возможно, что Бокс-Кокс сделал непараметрику из параметрики, с учётом того, что программа проводит целую уйму подстановок для выбора оптимального значения лямбда? Я брал настройки по умолчанию для этого преобразования в Statistica, а именно: количество повторов (итераций) 40, диапазон лямбд от -5 до 5, эпсилон 0,00001, смещение альфа не брал (равно нулю). Может увеличить кол-во повторов?
2. Допустим проблему 1 мы решили, либо у нас её и не было изначально, то следующая задача представить адекватно полученные данные, т.е. нам нужно рассчитать новое среднее, ошибку, и построить график. Отсюда возникают вот такие подвопросы:
а) Мы просто берём новое среднее и ошибку, что выдаётся в результатах Бокса-Кокса и делаем обратное преобразование по формуле: x=(y*λ+1)^(1/λ). Так ведь? Я даже проверил (хотя это очевидно), что обратное преобразование каждого конкретного числа бессмысленно, мы получаем исходную выборку. Я это к тому, что строить график по результатам преобразования не комильфо, как бы, т.к. числа получаются не сопоставимые по величине с исходными, и нужно их привести к виду подобному исходному.
б) из пункта "а" напрямую возникает пункт "б". А разве есть такой график, либо такая программа, что позволяет строить, к примеру, Бокса-Вискера (либо что-то подобное), без исходных данных, только по среднему и ошибке? Знаю, что такое плюс-минус можно провернуть в Excel, но это у меня всегда вариант последнего выбора. Стараюсь избегать этой программы, по разным причинам, в т.ч., потому что это не спец программа для статистики, графики рисует не очень красивые и т.д. Я лично работаю в Statistica и GraphPad Prism. Знаете, можно ли провернуть в них такое? Может в какой-то бесплатной стат проге?

Я уже читал материалы данного форума по смежным вопросам, поэтому слёзно прошу не отписываться просто ссылкой на другую тему, разве что там есть прямой ответ на любой из вопросов, а я по каким-то причинам этого не заметил.

Сообщение отредактировал Cules2013 - 5.02.2018 - 16:50
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
 
Открыть тему
Ответов
DrgLena
сообщение 6.02.2018 - 10:20
Сообщение #2





Группа: Пользователи
Сообщений: 1325
Регистрация: 27.11.2007
Пользователь №: 4573



Cules2013, у вас есть большой массив данных для множественного сравнения несвязанных выборок. Можете ли вы сформулировать, с какой целью эти данные были собраны. Какова биологическая или иная научная гипотеза, лежащая в основе сбора данных. Есть понятие запланированных сравнений, вам не обязательно сравнивать все подряд , если есть план. Но если большой массив данных сбрасывают статистициану, то у него есть желание сравнить все что можно и даже не нужно. Например, нормальность в выборке проверять с помощью 20-ти критериев перед использованием ANOVA. С приходом многомерной статистики никто не отменял проверку каждого вариационного ряда на предмет ошибок ввода данных или выбросов. Знания предметной области необходимы, чтобы правильно выставить диапазоны возможных значений. Использовать критерий выбросов типа Граббса тоже помогает почистить данные. Досадные ошибки могут сильно повлиять не только на нормальность, но и вообще исказить результаты особенно при многомерном анализе данных.

Если у вас много факторов с множеством уровней или много количественных переменных и большое количество наблюдений, то следует подумать о MANOVA. В едином статистическом комплексе вы получите влияние нужных вам факторов и их взаимодействия на все количественные переменные, которые вас интересуют. Радует, что у вас большинство переменных имеет нормальное распределение. Это довольно частое явление при измерениях полученных с помощью современных диагностических приборов, например, метрические параметры толщины различных зон сетчатки глаза, полученные с помощью ОКТ имеют нормальное распределение.

Важно также принять , что для использования дисперсионного анализа необходимым условием является нормальность распределения остатков модели, а не нормальность в каждой группе. Это вытекает из свойств нормального распределения. Если значения зависимой переменной в каждой экспериментальной группе распределены нормально, то нормально будут распределены и значения остатков соответствующей линейной модели. Таким образом, вместо проверки нормальности распределения значений зависимой переменной в каждой группе, достаточно проверить нормальность распределения остатков модели (число которых равно общему объему наблюдений). Относительно гомоскедастичности, также достаточно проверить дисперсию остатков.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 

Сообщений в этой теме
- Cules2013   Преобразование Бокса-Кокса   5.02.2018 - 16:33
- - leo_biostat   Цитата(Cules2013 @ 5.02.2018 - 16:33...   5.02.2018 - 17:30
- - Олег Кравец   От модератора: Коллега, полагаю, участники форум...   5.02.2018 - 20:02
|- - leo_biostat   [quote name='Олег Кравец' date='5.02.2...   5.02.2018 - 21:32
- - DrgLena   Cules2013, у вас есть большой массив данных для м...   6.02.2018 - 10:20
|- - Cules2013   DrgLena, спасибо за ответ по сути, в отличие от не...   6.02.2018 - 11:55
- - nokh   1. Про то, что данные не могут быть (не)параметрич...   6.02.2018 - 12:33
|- - Cules2013   nokh 1. Ошибка модели - это что значит? Не совсем ...   6.02.2018 - 14:32
||- - nokh   Цитата(Cules2013 @ 6.02.2018 - 16:32...   7.02.2018 - 09:04
|- - bubnilkin   Прошу прощения, что вклиниваюсь. Хотел уточнить: Ц...   16.02.2018 - 01:53
|- - nokh   Цитата(bubnilkin @ 16.02.2018 - 03:5...   16.02.2018 - 22:55
- - DrgLena   На лабораторных животных моделируется депрессия и ...   6.02.2018 - 13:39
- - nokh   Ещё в догонку по поводу того, что БК не нормализуе...   7.02.2018 - 15:07
|- - Cules2013   nokh, спасибо за ответы. Некоторые вещи для себя р...   8.02.2018 - 13:05
|- - leo_biostat   Цитата(Cules2013 @ 8.02.2018 - 13:05...   9.02.2018 - 08:36
|- - nokh   Цитата(Cules2013 @ 8.02.2018 - 15:05...   15.02.2018 - 19:47
|- - Cules2013   nokh, спасибо за детальный ответ, понимаю, что это...   21.02.2018 - 09:18
|- - 100$   Цитата(Cules2013 @ 21.02.2018 - 09:1...   21.02.2018 - 16:14
- - DrgLena   cules2013, я не просто из любопытства, спросила, ч...   9.02.2018 - 10:44
- - DrgLena   Цитата(leo_biostat @ 9.02.2018 - 09...   9.02.2018 - 10:57
|- - Cules2013   Цитата(DrgLena @ 9.02.2018 - 10:57) ...   9.02.2018 - 17:56
- - Blaid   Возможно заблуждаюсь, но НИ КАКАЯ СПРАВОЧНАЯ СИСТЕ...   27.02.2018 - 12:28
- - 100$   Цитата(Blaid @ 27.02.2018 - 12:28) В...   27.02.2018 - 12:52


Добавить ответ в эту темуОткрыть тему