Форум врачей-аспирантов

Здравствуйте, гость ( Вход | Регистрация )

> Преобразование Бокса-Кокса, частные вопросы метода
Cules2013
сообщение 5.02.2018 - 16:33
Сообщение #1





Группа: Пользователи
Сообщений: 27
Регистрация: 5.02.2018
Пользователь №: 30938



Добрый день всем!
У меня есть большой массив данных для множественного сравнения (независимые выборки). Ситуация такая, что где-то 70-80% групп - это параметрика (определял по Д'Агостино-Пирсону), остальное - разумеется, что нет. Уже брал для определения различий тест Краскала-Уоллиса +тест Данна для множественных сравнений. Это самый простой способ, но тест Данна уж больно жёсткий, там достоверность определяется только железобетонная, которая даже визуально на графике просматривается. Т.е, к гадалке не ходи, достаточна велика вероятность ошибки второго рода. Не слишком-то подходит.
Поэтому решил просто довести распределение до нормального Боксом-Коксом и взять ANOVA. По ходу дела возникло несколько вопросов:
1. Если я правильно всё понимаю, то нельзя преобразовывать только отдельные выборки, коль взял преобразование, то нужно Боксом-Коксом прогнать все выборки, в т.ч. и те, что уже и так имеют нормальное распределение. И я заметил преинтереснейшую вещь: в большинстве случаев Бокс-Кокс работает шикарно, но иногда возникает обратная ситуация, там где была параметрика вдруг стала непараметрика. В итоге, я, конечно, увеличил % групп с нормальным распределением, так что как бы и результат положительный, но осадок остался, да и 100% параметрики я так и не получил и, по-прежнему, по всей строгости закона, ANOVA мне не светит, как и раньше. Как решить данную проблему? Я знаю про другие виды подгонки распределения под нормальное, но Бокс-кокс позиционируется как очень эффективное и универсальное средство, этот метод доступен в программе Statistica, ничего вручную считать не надо и т.д и т.п. Мне просто даже интересно, как такое возможно, что Бокс-Кокс сделал непараметрику из параметрики, с учётом того, что программа проводит целую уйму подстановок для выбора оптимального значения лямбда? Я брал настройки по умолчанию для этого преобразования в Statistica, а именно: количество повторов (итераций) 40, диапазон лямбд от -5 до 5, эпсилон 0,00001, смещение альфа не брал (равно нулю). Может увеличить кол-во повторов?
2. Допустим проблему 1 мы решили, либо у нас её и не было изначально, то следующая задача представить адекватно полученные данные, т.е. нам нужно рассчитать новое среднее, ошибку, и построить график. Отсюда возникают вот такие подвопросы:
а) Мы просто берём новое среднее и ошибку, что выдаётся в результатах Бокса-Кокса и делаем обратное преобразование по формуле: x=(y*λ+1)^(1/λ). Так ведь? Я даже проверил (хотя это очевидно), что обратное преобразование каждого конкретного числа бессмысленно, мы получаем исходную выборку. Я это к тому, что строить график по результатам преобразования не комильфо, как бы, т.к. числа получаются не сопоставимые по величине с исходными, и нужно их привести к виду подобному исходному.
б) из пункта "а" напрямую возникает пункт "б". А разве есть такой график, либо такая программа, что позволяет строить, к примеру, Бокса-Вискера (либо что-то подобное), без исходных данных, только по среднему и ошибке? Знаю, что такое плюс-минус можно провернуть в Excel, но это у меня всегда вариант последнего выбора. Стараюсь избегать этой программы, по разным причинам, в т.ч., потому что это не спец программа для статистики, графики рисует не очень красивые и т.д. Я лично работаю в Statistica и GraphPad Prism. Знаете, можно ли провернуть в них такое? Может в какой-то бесплатной стат проге?

Я уже читал материалы данного форума по смежным вопросам, поэтому слёзно прошу не отписываться просто ссылкой на другую тему, разве что там есть прямой ответ на любой из вопросов, а я по каким-то причинам этого не заметил.

Сообщение отредактировал Cules2013 - 5.02.2018 - 16:50
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
 
Открыть тему
Ответов
nokh
сообщение 6.02.2018 - 12:33
Сообщение #2





Группа: Пользователи
Сообщений: 1219
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704



1. Про то, что данные не могут быть (не)параметрическими вам уже указали.

2. Про то, что проверять нужно нормальность распределения ошибки модели, а не лазить по отдельным группам - тоже.
Поскольку все преобразования применяются к единому массиву данных, то и оценивать его результативность нужно применительно ко всему массиву. Естественно, что в отдельных группах при этом возможно появление положительной или отрицательной асимметрии распределения, т.е. типа "ухудшение" нормальности.

3. Формула обратного преобразования Бокса - Кокса правильная. Нужно только определиться что по ней вычислять. Однозначно нельзя вычислять ретрансформированием ошибку среднего, т.к. это просто неверно. По преобразованным данным вам нужно рассчитать среднее и 95%-ные доверительные интервалы (ДИ) для среднего - их и ретрансформировать. Про то, что ретрансформация по приведённой вами формуле называется наивной я уже писал и давал литературу - см. мои сообщения #8, #10 здесь: http://forum.disser.ru/index.php?showtopic=4111 ДИ после ретрансформации в исходную шкалу станут асимметричными, как собственно и само распределение - это логично. Также см. сообщение #10 здесь: http://forum.disser.ru/index.php?showtopic=3591

4. На графике следует давать среднее с ДИ, а не строить коробчатый график (Box-and-Whiskers Plot). Кстати это не "Бокса-Вискера", а "ящик с усами" smile.gif . Этот тип графика хорош для быстрого взгляда на форму распределения и только. Подавляющее большинство исследователей строят такие графики только потому, что видят их в работах по своей тематике у других. А эти другие строят такие графики только потому, что не умеют построить графики среднего с асимметричными 95% ДИ. Рискну утверждать, что те, кто строит такие графики с обозначенными снежинками якобы выбросами вообще мало что понимают в биостатистике, потому что просто не знают про асимметрию распределения большинства биологических показателей. Короче, Box-and-Whiskers Plot в статью гораздо чаще правильнее не строить. В свои черновики - можно, хотя если позволяет объём выборок, то лучше посмотреть гистограммы распределений.

5. По графикам. Насколько я знаю, в Statistica вы графики с ретрансформированными средними и ДИ не построите. Достаточно просто это можно сделать в R: пакет scales позволяет прописать лямбду и шкала графика + все объекты на нём автоматически ретрансформируются из Бокса - Кокса в исходный масштаб. Также в R можно построить графики по средним с ДИ, уже вычисленным ретрансформацией где-либо до этого (Statistica, Excel, ...). Я обычно строю такие графики в пакете KyPlot; нужны версии до 3.0 - они были бесплатными и не урезанными, в сети можно найти 2.13 и 2.15 . Там можно вручную прописать в ячейках средние и ДИ и строить график типа как в Excel. Лучше, конечно, сразу осваивать R, а не заведомо устаревший пакет, но версию 2.15 горячо любимого мной KyPlot могу выложить.

PS сообщение выше не читал ещё, отвечал на первый пост...

Сообщение отредактировал nokh - 6.02.2018 - 12:35
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Cules2013
сообщение 6.02.2018 - 14:32
Сообщение #3





Группа: Пользователи
Сообщений: 27
Регистрация: 5.02.2018
Пользователь №: 30938



nokh
1. Ошибка модели - это что значит? Не совсем понимаю.
2. Бокс-Кокс я применял к каждой отдельной группе. Разве адекватно объединять все группы в один массив и приводить его целиком к нормальности? Это же несвязанные группы, а экспериментальное воздействие на каждую из них разное. По идее, каждая же группа, должна относится к своей ген совокупности. От того и вопрос, как проведя Бокс-Кокс для одной конкретной выборки можно сделать хуже, чем было?
3. Про доверительные интервалы я знаю, часто их вижу в зарубежных статьях, хотя чаще именно в табличном виде, вместо ошибок среднего, в виде графиков реже. К тому же, если ничего не путаю, видел, например, таблицу с ДИ, но график (столбчатая диаграмма) с их любимым стандартным отклонением, вместо ошибки среднего. ДИ рассчитать проще простого, но вот графики я подобные не строил, ещё не разобрался как. В GraphPad Prism этот график есть точно. Я в курсе, что Бокс и Вискер - это не фамилии smile.gif, но так привык называть, и не я один, в рус. литре это распространённый вариант. Вы же не не говорите, например, "Критерий студента". Бокса-Вискера не такое дно, как вы описали, тем более, что ясень пень, что я указываю достоверность различий звёздочками, а как иначе? Этот тип графиков очень удобен, легко строится, наглядно показывает динамику. Как по мне, классика, довольно часто встречается в статьях, это к вопросу о общепринятых вещах в вашей области. Наоборот, чем более специфические методы обработки и визуализации инфы я буду использовать, тем больше вероятность того, что меня рецензенты выставят дураком и ничего им не докажешь lol.gif А вообще уровень стат обработки во многих зарубежных статьях такой заоблачный, что русскоязычная литра просто какое-то Средневековье, это неподъёмная планка.
Смотреть форму распределения на Бокса-Вискера - это как? А всякие бэгплоты и Q-Q плоты зачем тогда?
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
nokh
сообщение 7.02.2018 - 09:04
Сообщение #4





Группа: Пользователи
Сообщений: 1219
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704



Цитата(Cules2013 @ 6.02.2018 - 16:32) *
1. Ошибка модели - это что значит? Не совсем понимаю.

Так ведь читать нужно. В хорошей книжке найдёте формулу модели дисперсионного анализа. А в этой модели есть член - ошибка или остатки (residuals). О нём речь.
Цитата(Cules2013 @ 6.02.2018 - 16:32) *
2. Бокс-Кокс я применял к каждой отдельной группе. Разве адекватно объединять все группы в один массив и приводить его целиком к нормальности? Это же несвязанные группы, а экспериментальное воздействие на каждую из них разное. По идее, каждая же группа, должна относится к своей ген совокупности...

По идее, согласно нулевой гипотезе, все группы относятся к одной генеральной совокупности, а статметоды проверяют именно нулевую гипотезу. Вот что вы сделали: вместо значений одной группы взяли обратные значения 1/х (лямбда=-1), из значений другой группы взяли логарифм (лямбда=0), значения третьей группы оставили без изменений (лямбда=1), а значения четвёртой группы возвели, скажем, в квадрат (лямбда=2). И как после этого вы собираетесь сравнивать преобразованные средние? shok.gif Очевидно, что нужно либо всё оставлять без изменений, либо всё логарифмировать, либо ещё что...
Цитата(Cules2013 @ 6.02.2018 - 16:32) *
3. ...Бокса-Вискера не такое дно, как вы описали, тем более, что ясень пень, что я указываю достоверность различий звёздочками, а как иначе?

А разве я писал про "достоверность" (которая, кстати, таковой не является и на что указывалось выше) применительно к звёздочкам? И да, если в статье даны такие коробчатые графики, как я описал - это именно дно. Хорошая аналогия, порождающая целый ассоциативный ряд. Я так и вижу этих красненьких самоуверенных червячков, копошащихся в донных отложениях, весело пожирающих остатки друг друга и то, что нападало сверху. Но только на поверку кто-то из них окажется хирономидой, всплывёт и полетит (возможно, выше и дальше меня), а кто-то - трубочником, удел которого всю жизнь ковыряться в этом ... детрите. И за рубежом - подобное. Анализ публикаций биомедицинской тематики за вычетом обзоров показывает, что около 20-30% из них содержит некорректную статистику, а около 50% и более - мозаичные работы, когда отдельные части сделаны типа корректно, но общая идея или концепция подхода к анализу данных не прослеживается: одно подсмотрели у одних, другое - у других и получается такой более-менее статистически сносный винегрет. И только 10-20% работ действительно хороши или даже безупречны, на которые стоит равняться. Соглашусь с вами в том, что по сравнению с отечественными работами это очень высокий процент. И - да, рецензенты нередко такие же черви...
Цитата(Cules2013 @ 6.02.2018 - 16:32) *
Смотреть форму распределения на Бокса-Вискера - это как? А всякие бэгплоты и Q-Q плоты зачем тогда?

Так если читать у тех, кто про "Бокса-Вискера" пишет, так и не понять. Читайте тех, кто пишет про "Box-and-Whisker PLot".

PS
> модератор. Квотинг есть, но надеюсь - не овер:). Если "оверквотинг" запрешён, это следует прописать в правилах форума, а то "мужики-то не знают" (с)

Сообщение отредактировал nokh - 7.02.2018 - 10:10
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 

Сообщений в этой теме
- Cules2013   Преобразование Бокса-Кокса   5.02.2018 - 16:33
- - leo_biostat   Цитата(Cules2013 @ 5.02.2018 - 16:33...   5.02.2018 - 17:30
- - Олег Кравец   От модератора: Коллега, полагаю, участники форум...   5.02.2018 - 20:02
|- - leo_biostat   [quote name='Олег Кравец' date='5.02.2...   5.02.2018 - 21:32
- - DrgLena   Cules2013, у вас есть большой массив данных для м...   6.02.2018 - 10:20
|- - Cules2013   DrgLena, спасибо за ответ по сути, в отличие от не...   6.02.2018 - 11:55
- - nokh   1. Про то, что данные не могут быть (не)параметрич...   6.02.2018 - 12:33
|- - Cules2013   nokh 1. Ошибка модели - это что значит? Не совсем ...   6.02.2018 - 14:32
||- - nokh   Цитата(Cules2013 @ 6.02.2018 - 16:32...   7.02.2018 - 09:04
|- - bubnilkin   Прошу прощения, что вклиниваюсь. Хотел уточнить: Ц...   16.02.2018 - 01:53
|- - nokh   Цитата(bubnilkin @ 16.02.2018 - 03:5...   16.02.2018 - 22:55
- - DrgLena   На лабораторных животных моделируется депрессия и ...   6.02.2018 - 13:39
- - nokh   Ещё в догонку по поводу того, что БК не нормализуе...   7.02.2018 - 15:07
|- - Cules2013   nokh, спасибо за ответы. Некоторые вещи для себя р...   8.02.2018 - 13:05
|- - leo_biostat   Цитата(Cules2013 @ 8.02.2018 - 13:05...   9.02.2018 - 08:36
|- - nokh   Цитата(Cules2013 @ 8.02.2018 - 15:05...   15.02.2018 - 19:47
|- - Cules2013   nokh, спасибо за детальный ответ, понимаю, что это...   21.02.2018 - 09:18
|- - 100$   Цитата(Cules2013 @ 21.02.2018 - 09:1...   21.02.2018 - 16:14
- - DrgLena   cules2013, я не просто из любопытства, спросила, ч...   9.02.2018 - 10:44
- - DrgLena   Цитата(leo_biostat @ 9.02.2018 - 09...   9.02.2018 - 10:57
|- - Cules2013   Цитата(DrgLena @ 9.02.2018 - 10:57) ...   9.02.2018 - 17:56
- - Blaid   Возможно заблуждаюсь, но НИ КАКАЯ СПРАВОЧНАЯ СИСТЕ...   27.02.2018 - 12:28
- - 100$   Цитата(Blaid @ 27.02.2018 - 12:28) В...   27.02.2018 - 12:52


Добавить ответ в эту темуОткрыть тему