Версия для печати темы

Нажмите сюда для просмотра этой темы в обычном формате

Форум врачей-аспирантов _ Медицинская статистика _ Преобразование Бокса-Кокса

Автор: Cules2013 5.02.2018 - 16:33

Добрый день всем!
У меня есть большой массив данных для множественного сравнения (независимые выборки). Ситуация такая, что где-то 70-80% групп - это параметрика (определял по Д'Агостино-Пирсону), остальное - разумеется, что нет. Уже брал для определения различий тест Краскала-Уоллиса +тест Данна для множественных сравнений. Это самый простой способ, но тест Данна уж больно жёсткий, там достоверность определяется только железобетонная, которая даже визуально на графике просматривается. Т.е, к гадалке не ходи, достаточна велика вероятность ошибки второго рода. Не слишком-то подходит.
Поэтому решил просто довести распределение до нормального Боксом-Коксом и взять ANOVA. По ходу дела возникло несколько вопросов:
1. Если я правильно всё понимаю, то нельзя преобразовывать только отдельные выборки, коль взял преобразование, то нужно Боксом-Коксом прогнать все выборки, в т.ч. и те, что уже и так имеют нормальное распределение. И я заметил преинтереснейшую вещь: в большинстве случаев Бокс-Кокс работает шикарно, но иногда возникает обратная ситуация, там где была параметрика вдруг стала непараметрика. В итоге, я, конечно, увеличил % групп с нормальным распределением, так что как бы и результат положительный, но осадок остался, да и 100% параметрики я так и не получил и, по-прежнему, по всей строгости закона, ANOVA мне не светит, как и раньше. Как решить данную проблему? Я знаю про другие виды подгонки распределения под нормальное, но Бокс-кокс позиционируется как очень эффективное и универсальное средство, этот метод доступен в программе Statistica, ничего вручную считать не надо и т.д и т.п. Мне просто даже интересно, как такое возможно, что Бокс-Кокс сделал непараметрику из параметрики, с учётом того, что программа проводит целую уйму подстановок для выбора оптимального значения лямбда? Я брал настройки по умолчанию для этого преобразования в Statistica, а именно: количество повторов (итераций) 40, диапазон лямбд от -5 до 5, эпсилон 0,00001, смещение альфа не брал (равно нулю). Может увеличить кол-во повторов?
2. Допустим проблему 1 мы решили, либо у нас её и не было изначально, то следующая задача представить адекватно полученные данные, т.е. нам нужно рассчитать новое среднее, ошибку, и построить график. Отсюда возникают вот такие подвопросы:
а) Мы просто берём новое среднее и ошибку, что выдаётся в результатах Бокса-Кокса и делаем обратное преобразование по формуле: x=(y*λ+1)^(1/λ). Так ведь? Я даже проверил (хотя это очевидно), что обратное преобразование каждого конкретного числа бессмысленно, мы получаем исходную выборку. Я это к тому, что строить график по результатам преобразования не комильфо, как бы, т.к. числа получаются не сопоставимые по величине с исходными, и нужно их привести к виду подобному исходному.
б) из пункта "а" напрямую возникает пункт "б". А разве есть такой график, либо такая программа, что позволяет строить, к примеру, Бокса-Вискера (либо что-то подобное), без исходных данных, только по среднему и ошибке? Знаю, что такое плюс-минус можно провернуть в Excel, но это у меня всегда вариант последнего выбора. Стараюсь избегать этой программы, по разным причинам, в т.ч., потому что это не спец программа для статистики, графики рисует не очень красивые и т.д. Я лично работаю в Statistica и GraphPad Prism. Знаете, можно ли провернуть в них такое? Может в какой-то бесплатной стат проге?

Я уже читал материалы данного форума по смежным вопросам, поэтому слёзно прошу не отписываться просто ссылкой на другую тему, разве что там есть прямой ответ на любой из вопросов, а я по каким-то причинам этого не заметил.

Автор: leo_biostat 5.02.2018 - 17:30

Цитата(Cules2013 @ 5.02.2018 - 16:33) *
Добрый день всем!
У меня есть большой массив данных для множественного сравнения (независимые выборки). Ситуация такая, что где-то 70-80% групп - это параметрика (определял по Д'Агостино-Пирсону), остальное - разумеется, что нет. Уже брал для определения различий тест Краскала-Уоллиса +тест Данна для множественных сравнений. Это самый простой способ, но тест Данна уж больно жёсткий, там достоверность определяется только железобетонная, которая даже визуально на графике просматривается. Т.е, к гадалке не ходи, достаточна велика вероятность ошибки второго рода. Не слишком-то подходит.
Поэтому решил просто довести распределение до нормального Боксом-Коксом и взять ANOVA. По ходу дела возникло несколько вопросов:
1. Если я правильно всё понимаю, то нельзя преобразовывать только отдельные выборки, коль взял преобразование, то нужно Боксом-Коксом прогнать все выборки, в т.ч. и те, что уже и так имеют нормальное распределение. И я заметил преинтереснейшую вещь: в большинстве случаев Бокс-Кокс работает шикарно, но иногда возникает обратная ситуация, там где была параметрика вдруг стала непараметрика. В итоге, я, конечно, увеличил % групп с нормальным распределением, так что как бы и результат положительный, но осадок остался, да и 100% параметрики я так и не получил и, по-прежнему, по всей строгости закона, ANOVA мне не светит, как и раньше. Как решить данную проблему? Я знаю про другие виды подгонки распределения под нормальное, но Бокс-кокс позиционируется как очень эффективное и универсальное средство, этот метод доступен в программе Statistica, ничего вручную считать не надо и т.д и т.п. Мне просто даже интересно, как такое возможно, что Бокс-Кокс сделал непараметрику из параметрики, с учётом того, что программа проводит целую уйму подстановок для выбора оптимального значения лямбда? Я брал настройки по умолчанию для этого преобразования в Statistica, а именно: количество повторов (итераций) 40, диапазон лямбд от -5 до 5, эпсилон 0,00001, смещение альфа не брал (равно нулю). Может увеличить кол-во повторов?
2. Допустим проблему 1 мы решили, либо у нас её и не было изначально, то следующая задача представить адекватно полученные данные, т.е. нам нужно рассчитать новое среднее, ошибку, и построить график. Отсюда возникают вот такие подвопросы:
а) Мы просто берём новое среднее и ошибку, что выдаётся в результатах Бокса-Кокса и делаем обратное преобразование по формуле: x=(y*λ+1)^(1/λ). Так ведь? Я даже проверил (хотя это очевидно), что обратное преобразование каждого конкретного числа бессмысленно, мы получаем исходную выборку. Я это к тому, что строить график по результатам преобразования не комильфо, как бы, т.к. числа получаются не сопоставимые по величине с исходными, и нужно их привести к виду подобному исходному.
б) из пункта "а" напрямую возникает пункт "б". А разве есть такой график, либо такая программа, что позволяет строить, к примеру, Бокса-Вискера (либо что-то подобное), без исходных данных, только по среднему и ошибке? Знаю, что такое плюс-минус можно провернуть в Excel, но это у меня всегда вариант последнего выбора. Стараюсь избегать этой программы, по разным причинам, в т.ч., потому что это не спец программа для статистики, графики рисует не очень красивые и т.д. Я лично работаю в Statistica и GraphPad Prism. Знаете, можно ли провернуть в них такое? Может в какой-то бесплатной стат проге? Я уже читал материалы данного форума по смежным вопросам, поэтому слёзно прошу не отписываться просто ссылкой на другую тему, разве что там есть прямой ответ на любой из вопросов, а я по каким-то причинам этого не заметил.


Коллега, hi.gif!

"где-то 70-80% групп - это параметрика".
Это ошибочное фраза. ВСЕ группы ВСЕГДА - параметрические. Т.е. имеют свои собственные значения ПАРАМЕТРОВ РАСПРЕДЕЛЕНИЯ.
Если же Вы подразумеваете что речь идёт о нормальности распределения (количественных признаков), то это сомнительно.
Поскольку у количественных признаков нормальное распределение обнаруживается нечасто. И причин этому много.
Об этом нюансе можете прочитать в статье по адресу http://www.biometrica.tomsk.ru/comp_aver.htm

Далее, если используете дисперсионный анализ ( ANOVA), то одного лишь нормального распределения недостаточно. Должно выполняться и второе условие.
Причём оба условия одновременно в группах сравнения выполняются нечасто. Об этом можете прочитать также и в упомянутой статье.

Следующий нюанс групповых сравнений. Если анализируемых признаков не 2-3, а больше, то продуктивно использовать не только ANOVA, но и дискриминантный анализ.
А если есть не только количественные, но и качественные признаки, то используйте метод логистической регрессии (см. http://www.biometrica.tomsk.ru/logit_0.htm)

"там достоверность определяется". Достоверность не определяется. См. статью об этом "http://www.biometrica.tomsk.ru/let1.htm"
По п. 2. Зачем строить графики по исходным данным, если результат получен по преобразованным признакам? Ведь результат относится именно к преобразованным значениям, а не к исходным.

Желаю продуктивного успеха в исследованиях!

Автор: Олег Кравец 5.02.2018 - 20:02

От модератора:

Коллега, полагаю, участники форума владеют навыками чтения. Поэтому НЕ НУЖНО цитировать предшествующее сообщение. Это называется "оверквотинг" и запрещено.

Автор: leo_biostat 5.02.2018 - 21:32

[quote name='Олег Кравец' date='5.02.2018 - 20:02' post='22546']

Благодарю за эту информацию. Увы, не знал об этом ограничении.
Впредь буду учитывать это ограничение.

Автор: DrgLena 6.02.2018 - 10:20

Cules2013, у вас есть большой массив данных для множественного сравнения несвязанных выборок. Можете ли вы сформулировать, с какой целью эти данные были собраны. Какова биологическая или иная научная гипотеза, лежащая в основе сбора данных. Есть понятие запланированных сравнений, вам не обязательно сравнивать все подряд , если есть план. Но если большой массив данных сбрасывают статистициану, то у него есть желание сравнить все что можно и даже не нужно. Например, нормальность в выборке проверять с помощью 20-ти критериев перед использованием ANOVA. С приходом многомерной статистики никто не отменял проверку каждого вариационного ряда на предмет ошибок ввода данных или выбросов. Знания предметной области необходимы, чтобы правильно выставить диапазоны возможных значений. Использовать критерий выбросов типа Граббса тоже помогает почистить данные. Досадные ошибки могут сильно повлиять не только на нормальность, но и вообще исказить результаты особенно при многомерном анализе данных.

Если у вас много факторов с множеством уровней или много количественных переменных и большое количество наблюдений, то следует подумать о MANOVA. В едином статистическом комплексе вы получите влияние нужных вам факторов и их взаимодействия на все количественные переменные, которые вас интересуют. Радует, что у вас большинство переменных имеет нормальное распределение. Это довольно частое явление при измерениях полученных с помощью современных диагностических приборов, например, метрические параметры толщины различных зон сетчатки глаза, полученные с помощью ОКТ имеют нормальное распределение.

Важно также принять , что для использования дисперсионного анализа необходимым условием является нормальность распределения остатков модели, а не нормальность в каждой группе. Это вытекает из свойств нормального распределения. Если значения зависимой переменной в каждой экспериментальной группе распределены нормально, то нормально будут распределены и значения остатков соответствующей линейной модели. Таким образом, вместо проверки нормальности распределения значений зависимой переменной в каждой группе, достаточно проверить нормальность распределения остатков модели (число которых равно общему объему наблюдений). Относительно гомоскедастичности, также достаточно проверить дисперсию остатков.

Автор: Cules2013 6.02.2018 - 11:55

DrgLena, спасибо за ответ по сути, в отличие от некоторых...
1. Цель у меня сравнить все группы между собой. Она таковой была изначально. Фактор оценивается всего один, поэтому мне достаточно обычного ANOVA либо его непараметрических аналогов. Если вам интересна сама идея - исследование депрессии на лаб. животных, тест Порсолта, смотрим динамику самой депрессии + остальные группы - фармпрепараты, к-рые по изначальной гипотезе должны улучшать или ухудшать состояние. Поэтому тут никакой избирательности сравнений нет. На самом деле, статистически вполне простая ситуация, без изысков. Вопрос исключительно в распределении и выборе наиболее удачного критерия.
2. По поводу выбросов и прочего. Я в курсе о всяких таких вещах, критериях их отбора и т.д. и т.п. Но я также знаю, что выбросы можно точно определить только, если они явнее явного. Если у вас ряд 1,2,3,4,5 и 300, например, без всякого анализа ясно, что 300 - это что-то не то, но в реальной жизни такие вещи случаются редко, чаще ситуации в стиле 10,20,30, 40, 50, 100. И даже, если какой-то критерий отбора вам скажет, что 100 - выброс, вам могут задать вопрос (или у вас появятся вполне обоснованные сомнения), а так ли это? В случае выбросов большую роль играет ваше личное понимание биологического смысла данных, действительно ли это выброс, либо, например, индивидуальная чувствительность (либо резистентность) некоторых животных к вашему экспериментальному воздействию. Я проверял у себя выбросы, их мало и они вот из такого разряда "не true выбросы", а скорее просто широкая норма реакции. Я ведь не сам это придумал, это позиция одного из топовых зарубежных учебников по статистике. Сейчас фамилии не вспомню. В итоге вы сами решаете, выброс это или нет. Многие вполне обоснованно против "чисток" выборок, ибо легко перестараться и утратить важный биологический смысл. Лично в моём случае удаление выбросов не совсем целесообразно, и в итоге не решает проблему распределения.
3. Я вот честно никак не уловлю всю суть требований к ANOVA. Про остатки модели очень смутно понимаю, что такое гомоскедастичность - погуглил. У меня некий диссонанс, в т.ч. и из-за того, что вы написали.
Вот моя логическая цепочка:
- Для ANOVA нужно помимо нормального распределения, соблюдения условий нормальности распределения остатков модели, гомоскедастичность. Может что-то ещё подобное (не суть, сейчас). Но, если эти условия присущи нормальному распределению, зачем вообще о них говорить отдельно, если одно подразумевает другое. А то я подозреваю, что всё несколько сложнее. И каким образом в стат программе можно оценить эти параметры?
Тут всплывает другой интересный вопрос об определении нормальности как таковой. Каким бы вы критерием её не определяли, он вам даёт ваш уровень достоверности p. Хитрость то в том, что у вас может быть во всех выборках нормальное распределение, но где то р>0,99, где-то р>0,3, а где-то и вовсе р>0,055, к примеру. Дьявол в деталях, как говорится, и по-хорошему, такие вещи нельзя игнорировать. К тому же столкнулся ещё с такой забавной штукой, что GraphPadPrism рекомендует пользоваться тестом на нормальность Д'Агостино-Пирсона (я заметил, что он весьма либерален), а Смирнова-Колмогорова или Лилиефорса настоятельно не рекомендует, в то время, как в программе Statistica 10 Д'Агостино-Пирсона вообще нет, как и самого факта, что они что-то рекомендуют тоже нет, выбирай что хочешь, никаких подсказок по этому поводу. Вот и пойми их, ведущие производители софта, опираются не "на сплетни за углом", а серьёзные научные работы по статистике, нередко ссылаясь на первоисточник самого метода, но куда не глянь везде есть разночтения. Как для мат аппарата, в статистике что-то много спорных моментов и человеческого фактора.
Ещё раз спасибо за ответ, но, наверное, меня в первую очередь интересует само преобразованием Бокса-Кокса либо подбор его более удачного для моей ситуации аналога.

Автор: nokh 6.02.2018 - 12:33

1. Про то, что данные не могут быть (не)параметрическими вам уже указали.

2. Про то, что проверять нужно нормальность распределения ошибки модели, а не лазить по отдельным группам - тоже.
Поскольку все преобразования применяются к единому массиву данных, то и оценивать его результативность нужно применительно ко всему массиву. Естественно, что в отдельных группах при этом возможно появление положительной или отрицательной асимметрии распределения, т.е. типа "ухудшение" нормальности.

3. Формула обратного преобразования Бокса - Кокса правильная. Нужно только определиться что по ней вычислять. Однозначно нельзя вычислять ретрансформированием ошибку среднего, т.к. это просто неверно. По преобразованным данным вам нужно рассчитать среднее и 95%-ные доверительные интервалы (ДИ) для среднего - их и ретрансформировать. Про то, что ретрансформация по приведённой вами формуле называется наивной я уже писал и давал литературу - см. мои сообщения #8, #10 здесь: http://forum.disser.ru/index.php?showtopic=4111 ДИ после ретрансформации в исходную шкалу станут асимметричными, как собственно и само распределение - это логично. Также см. сообщение #10 здесь: http://forum.disser.ru/index.php?showtopic=3591

4. На графике следует давать среднее с ДИ, а не строить коробчатый график (Box-and-Whiskers Plot). Кстати это не "Бокса-Вискера", а "ящик с усами" smile.gif . Этот тип графика хорош для быстрого взгляда на форму распределения и только. Подавляющее большинство исследователей строят такие графики только потому, что видят их в работах по своей тематике у других. А эти другие строят такие графики только потому, что не умеют построить графики среднего с асимметричными 95% ДИ. Рискну утверждать, что те, кто строит такие графики с обозначенными снежинками якобы выбросами вообще мало что понимают в биостатистике, потому что просто не знают про асимметрию распределения большинства биологических показателей. Короче, Box-and-Whiskers Plot в статью гораздо чаще правильнее не строить. В свои черновики - можно, хотя если позволяет объём выборок, то лучше посмотреть гистограммы распределений.

5. По графикам. Насколько я знаю, в Statistica вы графики с ретрансформированными средними и ДИ не построите. Достаточно просто это можно сделать в R: пакет scales позволяет прописать лямбду и шкала графика + все объекты на нём автоматически ретрансформируются из Бокса - Кокса в исходный масштаб. Также в R можно построить графики по средним с ДИ, уже вычисленным ретрансформацией где-либо до этого (Statistica, Excel, ...). Я обычно строю такие графики в пакете KyPlot; нужны версии до 3.0 - они были бесплатными и не урезанными, в сети можно найти 2.13 и 2.15 . Там можно вручную прописать в ячейках средние и ДИ и строить график типа как в Excel. Лучше, конечно, сразу осваивать R, а не заведомо устаревший пакет, но версию 2.15 горячо любимого мной KyPlot могу выложить.

PS сообщение выше не читал ещё, отвечал на первый пост...

Автор: DrgLena 6.02.2018 - 13:39

На лабораторных животных моделируется депрессия и изучается ее динамика под различными фарм препаратами. Т.е. вы повторно проводите измерения и имеете связанные выборки внутри каждого препарата? Или вам важны сравнения в группах в каждой временной точке теста только между группами с разными фарм препаратами?

Уточню, если вызвала у вас диссонанс. Остатки и есть ошибки и их анализ доступен после ANOVA даже в программе Statistica. На форуме обсуждалось, ищите в поиске сочетание ? нормальность остатков?. Если вы с этим разберетесь, то, возможно, вам и не нужны будут никакие трансформации.

Более важным в дизайне вашего исследования оценить величину эффекта для каждого препарата, например, относительно контроля, это можно сделать с помощью расчета d Коэна, для какого то ключевого показателя теста, например индекса депрессивности или другого элемента теста.

Автор: Cules2013 6.02.2018 - 14:32

nokh
1. Ошибка модели - это что значит? Не совсем понимаю.
2. Бокс-Кокс я применял к каждой отдельной группе. Разве адекватно объединять все группы в один массив и приводить его целиком к нормальности? Это же несвязанные группы, а экспериментальное воздействие на каждую из них разное. По идее, каждая же группа, должна относится к своей ген совокупности. От того и вопрос, как проведя Бокс-Кокс для одной конкретной выборки можно сделать хуже, чем было?
3. Про доверительные интервалы я знаю, часто их вижу в зарубежных статьях, хотя чаще именно в табличном виде, вместо ошибок среднего, в виде графиков реже. К тому же, если ничего не путаю, видел, например, таблицу с ДИ, но график (столбчатая диаграмма) с их любимым стандартным отклонением, вместо ошибки среднего. ДИ рассчитать проще простого, но вот графики я подобные не строил, ещё не разобрался как. В GraphPad Prism этот график есть точно. Я в курсе, что Бокс и Вискер - это не фамилии smile.gif, но так привык называть, и не я один, в рус. литре это распространённый вариант. Вы же не не говорите, например, "Критерий студента". Бокса-Вискера не такое дно, как вы описали, тем более, что ясень пень, что я указываю достоверность различий звёздочками, а как иначе? Этот тип графиков очень удобен, легко строится, наглядно показывает динамику. Как по мне, классика, довольно часто встречается в статьях, это к вопросу о общепринятых вещах в вашей области. Наоборот, чем более специфические методы обработки и визуализации инфы я буду использовать, тем больше вероятность того, что меня рецензенты выставят дураком и ничего им не докажешь lol.gif А вообще уровень стат обработки во многих зарубежных статьях такой заоблачный, что русскоязычная литра просто какое-то Средневековье, это неподъёмная планка.
Смотреть форму распределения на Бокса-Вискера - это как? А всякие бэгплоты и Q-Q плоты зачем тогда?

Автор: nokh 7.02.2018 - 09:04

Цитата(Cules2013 @ 6.02.2018 - 16:32) *
1. Ошибка модели - это что значит? Не совсем понимаю.

Так ведь читать нужно. В хорошей книжке найдёте формулу модели дисперсионного анализа. А в этой модели есть член - ошибка или остатки (residuals). О нём речь.
Цитата(Cules2013 @ 6.02.2018 - 16:32) *
2. Бокс-Кокс я применял к каждой отдельной группе. Разве адекватно объединять все группы в один массив и приводить его целиком к нормальности? Это же несвязанные группы, а экспериментальное воздействие на каждую из них разное. По идее, каждая же группа, должна относится к своей ген совокупности...

По идее, согласно нулевой гипотезе, все группы относятся к одной генеральной совокупности, а статметоды проверяют именно нулевую гипотезу. Вот что вы сделали: вместо значений одной группы взяли обратные значения 1/х (лямбда=-1), из значений другой группы взяли логарифм (лямбда=0), значения третьей группы оставили без изменений (лямбда=1), а значения четвёртой группы возвели, скажем, в квадрат (лямбда=2). И как после этого вы собираетесь сравнивать преобразованные средние? shok.gif Очевидно, что нужно либо всё оставлять без изменений, либо всё логарифмировать, либо ещё что...
Цитата(Cules2013 @ 6.02.2018 - 16:32) *
3. ...Бокса-Вискера не такое дно, как вы описали, тем более, что ясень пень, что я указываю достоверность различий звёздочками, а как иначе?

А разве я писал про "достоверность" (которая, кстати, таковой не является и на что указывалось выше) применительно к звёздочкам? И да, если в статье даны такие коробчатые графики, как я описал - это именно дно. Хорошая аналогия, порождающая целый ассоциативный ряд. Я так и вижу этих красненьких самоуверенных червячков, копошащихся в донных отложениях, весело пожирающих остатки друг друга и то, что нападало сверху. Но только на поверку кто-то из них окажется хирономидой, всплывёт и полетит (возможно, выше и дальше меня), а кто-то - трубочником, удел которого всю жизнь ковыряться в этом ... детрите. И за рубежом - подобное. Анализ публикаций биомедицинской тематики за вычетом обзоров показывает, что около 20-30% из них содержит некорректную статистику, а около 50% и более - мозаичные работы, когда отдельные части сделаны типа корректно, но общая идея или концепция подхода к анализу данных не прослеживается: одно подсмотрели у одних, другое - у других и получается такой более-менее статистически сносный винегрет. И только 10-20% работ действительно хороши или даже безупречны, на которые стоит равняться. Соглашусь с вами в том, что по сравнению с отечественными работами это очень высокий процент. И - да, рецензенты нередко такие же черви...
Цитата(Cules2013 @ 6.02.2018 - 16:32) *
Смотреть форму распределения на Бокса-Вискера - это как? А всякие бэгплоты и Q-Q плоты зачем тогда?

Так если читать у тех, кто про "Бокса-Вискера" пишет, так и не понять. Читайте тех, кто пишет про "Box-and-Whisker PLot".

PS
> модератор. Квотинг есть, но надеюсь - не овер:). Если "оверквотинг" запрешён, это следует прописать в правилах форума, а то "мужики-то не знают" (с)

Автор: nokh 7.02.2018 - 15:07

Ещё в догонку по поводу того, что БК не нормализует идеально, а где-то даже ухудшает нормальность. Такой результат - несовпадение того как работает преобразование БК, и как оценвает его результаты критерий Д'Агостино - Пирсона. Преобразование Бокса - Кокса, будучи гибким степенным преобразованием, идеально устраняет асимметрию распределения. Поскольку многие биологические, химические, экономические и др. показатели имеют часто положительно асимметричные распределения, для их нормализации традиционно применяются степенные преобразования. Кто не умеет БК - логарифмирует и т.о., пусть не идельно, но поджимает хвост распределения. БК делает это идеально. Другая мера формы - эксцесс - более сложная и "мутная", т.к. процессы, которые к ней приводят не столь очевидны как в случае асимметрии. Это может быть и смесь распределений с близкими средними, и действие стабилизирующего отбора, может что-то ещё... Как исправлять (нормализовать) эксцессы и нужно ли это - не ясно.

Критерий Д'Агостино - Пирсона, как и критерий Харке - Бера, задействует в расчётах обе меры формы: и асимметрию, и эксцесс. Поэтому в случаях, когда распределение изначально было не слишком асимметричным, преобразование БК даже немного ухудшая эксцесс, приводит к более плохим значениям статистики критериев. Поэтому идеально оценивать результативность преобразования БК - по критерию асимметрии. Я обычно смотрю критерием Шапиро - Уилка (считается, что он чаще других правильно оценивает отклонения от нормальности - см. Кобзарь. Прикладная мат. статистика) и пока противоречий не замечал.

Автор: Cules2013 8.02.2018 - 13:05

nokh, спасибо за ответы. Некоторые вещи для себя разъяснил, но остались и вопросы. Поэтому я их озвучу, вы или ещё кто по возможности на них ответите, и на этом будем завершать дискуссию.
1. Требования к ANOVA. Я тут почитал, в т.ч. темы данного форума и пришёл к выводу, что одни считают, что нужна нормальность данных по каждой выборке (ссылаются на Петри "Наглядная статистика в медицине"), другие (в т.ч. и вы) говорят о нормальности распределения остатков.
Кто больше прав? Хотелось бы знать, на кого ссылаетесь вы.
2. GraphPadPrism 7 позволяет считать нормальность остатков и строить график, но делает это не отдельным пунктом, а как одну из опций регрессионного анализа, и это последний шаг, перед выводом. Значит, перед тем, как провести анализ остатков, нужно указать все параметры регрессии, которые, как я понимаю, влияют на итоговый результат. Интересно получается. Я в регрессии мало что смыслю, почти не сталкивался.
3. Вы говорите о нормальности остатков, но в тоже время и о критерии Шапиро-Уилка. Это же разные вещи. Как раз, Д'Агостино - Пирсон, Шапиро-Уилк и прочие - это для определения нормальности исходных данных по каждой группе. Я, конечно, могу взять сами остатки и прогнать их на нормальность отдельно этими критериями, вместо того, что встроен в модуль регрессии. Но разве так кто-то делает?
4. На форуме тут откопал такое мнение, что ANOVA - это робастный метод, поэтому нормальность и однородность могут быть частично нарушены (R. Cody, J. Smith, 1991. Applied statistics and the SAS programming language). Что значит "частично" и как это определить количественно в стат. программе - вопрос на миллион.
5. Понимаю, что прошу немало, но всё же, пожалуйста, если можете, подкрепляйте свои выводы конкретными ссылками на лит-ру. И мне будет спокойнее, и другим людям (в т.ч. рецензентам) смогу аргументировано ответить, отстоять свою точку зрения. Вот, например, вы говорите, что однородность дисперсий в группах лучше всего считать критерием Левне, а Бартлетта - это плохой вариант, ведь есть ещё Хартли, Шеффе, Кохрена... А почему так, откуда такая градация? Не обязательно отвечать полностью, можете просто кинуть ссылки на статьи или учебник или ещё что, где есть подобные сравнения. Я вот нашёл статью, где https://ami.nstu.ru/~headrd/seminar/publik_html/N_vestnik_2.htm , но Левне (Левене) там нет. И те, кто пишет о сравнениях и прочих подобных вещах, часто углубляется в формулы, чистую математику, и среди деревьев леса не видно.

Автор: leo_biostat 9.02.2018 - 08:36

Цитата(Cules2013 @ 8.02.2018 - 13:05) *
nokh, спасибо за ответы. Некоторые вещи для себя разъяснил, но остались и вопросы. Поэтому я их озвучу, вы или ещё кто по возможности на них ответите, и на этом будем завершать дискуссию.
1. Требования к ANOVA. Я тут почитал, в т.ч. темы данного форума и пришёл к выводу, что одни считают, что нужна нормальность данных по каждой выборке (ссылаются на Петри "Наглядная статистика в медицине"), другие (в т.ч. и вы) говорят о нормальности распределения остатков.

Коллега, hi.gif!
Проблемы требований к ANOVA очень старые, и по ним очень часто обращаются. Посмотрите, например, этот же вопрос по адресу http://forum.disser.ru/index.php?showtopic=3503
И такие вопросы возникают по одной простой причине: недостаточное владение теорией обсуждаемого классического метода анализа.
Как и противоречивые описания возможностей этого старого классического метода. Если Вы читали издания по ANOVA, то обратите внимание на то, каким статистическим критерием пользуются в этом методе.
И как этот самый статистический критерий, в формулах своего вычисления, взаимосвязан с критериями, вычисляемыми по нормальному распределению.
Когда освоите теорию вычисления значений этих критериев, поработайте с примерами выборок, которые можете сами генерировать, например, в EXCEL, где можете указывать нормальное распределения, параметры,
и объёмы выборок. И затем применяйте ANOVA для сравнения этих сконструированных выборок. Причём для этих выборок можно указывать не только средние значения, заимствованные из Ваших выборок.
Сужу о продуктивности таких упражнений по своему 25-летнему опыту преподавания в универе, когда я своим студентам, которых обучал этим методам, предлагал такие задания.
И они после работы с 10-15 такими искусственными выборками, понимали основы этого метода. Надеюсь, что после таких упражнений Вы найдёте ответы на свои вопросы.

Успеха!

Автор: DrgLena 9.02.2018 - 10:44

cules2013, я не просто из любопытства, спросила, что вы изучаете и есть ли повторные измерения, поскольку вы в динамике изучаете и саму депрессию и ее на фоне препаратов. Так что не все так просто, зря вы отмахнулись от MANOVA с повторными измерениями. Тест, который вы используете, дает несколько переменных (разные модификации) в основе которых измерение времени в секундах. Все составляющие тест переменные, скорее всего коррелируют между собой, если они про одно и то же, а может про разное, я не знаток. Наверное, все хотят эти самые секунды увидеть, чтобы можно было сопоставлять результаты различных исследований. MANOVA как раз и ответит на вопрос, как каждый препарат влияет на динамику каждого элемента вашего теста.

Любопытный тест, однако https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4401172/


Автор: DrgLena 9.02.2018 - 10:57

Цитата(leo_biostat @ 9.02.2018 - 09:36) *
И такие вопросы возникают по одной простой причине: недостаточное владение теорией обсуждаемого классического метода анализа.

Да, дисперсионный анализ ? старый классический метод и условия его применимости указаны в учебниках. 4 года назад, в дискуссии на этом форуме, которую упоминает leo_biostat, действительно, были представлены некоторые источники, отражающие обе точки зрения. Но ни в той дискуссии, ни в этой ветке, нет мнения leo_biostat (профессионального статистика, коим я не являюсь). Соглашусь, что полезно и очень увлекательно на стадии обучения руками считать простые примерчики и сравнивать с работой программ. Сама когда то считала пример по ДА из Афифи и Эйзен руками и в программе Statgraphics под dos.

Но жизнь продолжается и, сегодня я активно использую ANOVA , реже MANOVA и при этом заморачиваюсь только анализом остатков. Документация к пакетам SAS, SPSS и R для меня достаточно надежные источники.
Дисперсионный анализ представляет собой частный случай обобщенной линейной модели, как и регрессионный анализ. Оба входят в модуль GLM и даже в программе Statistica дается возможность анализа residuals. Ну, а для MANOVA ? в SPSS.

Приведу некоторые источники, которые кому то станут полезными, а кто то продолжит проверять нормальность в группах из трех мышек множеством критериев.
http://data.library.virginia.edu/normality-assumption/
http://r-analytics.blogspot.co.nz/2013/05/blog-post.html#.Wnz3V3aYPDd
https://onlinecourses.science.psu.edu/stat461/node/49
https://www.theanalysisfactor.com/checking-normality-anova-model/
http://www.itl.nist.gov/div898/handbook/pri/section2/pri24.htm


Автор: Cules2013 9.02.2018 - 17:56

Цитата(DrgLena @ 9.02.2018 - 10:57) *
Приведу некоторые источники, которые кому то станут полезными, а кто то продолжит проверять нормальность в группах из трех мышек множеством критериев.


Спасибо, обязательно почитаю. Всё по делу.

Автор: nokh 15.02.2018 - 19:47

Цитата(Cules2013 @ 8.02.2018 - 15:05) *
1. Требования к ANOVA. Я тут почитал, в т.ч. темы данного форума и пришёл к выводу, что одни считают, что нужна нормальность данных по каждой выборке (ссылаются на Петри "Наглядная статистика в медицине"), другие (в т.ч. и вы) говорят о нормальности распределения остатков. Кто больше прав? Хотелось бы знать, на кого ссылаетесь вы.

Любой учебник, где говорится о требовании нормальности распределения в выборке - сразу в топку. Речь может идти только о нормальном распределении в генеральной совокупности (ГС), откуда эта выборка извлекается. Широко известный в узких кругах отечественных статистиков и прикладников профессор Орлов вообще против подхода с оценкой нормальности по выборкам и остаткам типа для выбора грамотного способа выборочных сравнений, поскольку сама такая проверка принципиально сложнее задачи выборочных сравнений. Тем не менее в массе - проверяют. Если распределение в ГС нормальное, то и остатки модели будут распределены нормально. Но распределение в ГС мы часто не знаем, а оценить его по выборке не можем, ввиду её малого объёма (3 мышки DrgLena). Поэтому проверяем остатки: это и грамотнее, и реализуемо практически. Почитать нужно обязательно учебник(и) Дугласа Монтгомери - дядька крутой. Есть старое (2 или 4-ое) издание его книги на русском, а на английском уже 7 изданий. В переводной версии см. на стр. 36-37 формулу и его ответ на вопрос, хотя читать нужно всё.
Цитата(Cules2013 @ 8.02.2018 - 15:05) *
2. GraphPadPrism 7 позволяет считать нормальность остатков и строить график, но ...

Чё вы к этому Графпаду прицепились? Потому что немного её освоили? А если в освоенной программе нет нужного метода или он плохо реализован? Путь от пакета - тупиковый. Нужно наоборот идти от метода и искать такой пакет, где он реализован лучше всего. Далее. ДА - одно, регрессия - другое, и хотя это неверно, но на данном этапе вам будет полезнее думать об этих методах как о разных техниках (хотя ДА можно описать регрессионной моделью - разобрано понятно у Сокала и Рольфа).
Цитата(Cules2013 @ 8.02.2018 - 15:05) *
3. Вы говорите о нормальности остатков, но в тоже время и о критерии Шапиро-Уилка. Это же разные вещи...

Лопата - инструмент, позволяющий копать. Почву, песок, дресву и т.д, мы даже как-то донные отложения умудрились штыковой лопатой отобрать... Критерии проверки нормальности - инструмент, проверяющий нормальность. Выборок, остатков ANOVA, остатков регрессий любой сложности... Нет разницы.
Цитата(Cules2013 @ 8.02.2018 - 15:05) *
4. На форуме тут откопал такое мнение, что ANOVA - это робастный метод, поэтому нормальность и однородность могут быть частично нарушены. Что значит "частично" и как это определить количественно в стат. программе - вопрос на миллион.

Робастны. Количественно - вряд ли. В 2х словах не ответить, нужно начитывать литературу и пробовать. Однозначно: нужно стремиться выполнять требования модели анализа максимально. Но если они не выполняются, то выбор (1) делать всё равно "ибо модель робастна" или (2) преобразовывать данные для удовлетворения требованиям модели или (3) искать более подходящую модель - не столь однозначно. Это - не верная дверь, это - путь.
Цитата(Cules2013 @ 8.02.2018 - 15:05) *
5. Понимаю, что прошу немало, но всё же, пожалуйста, если можете, подкрепляйте свои выводы конкретными ссылками на лит-ру. ... И те, кто пишет о сравнениях и прочих подобных вещах, часто углубляется в формулы, чистую математику, и среди деревьев леса не видно.

Ну дак математики тоже люди. Им интересно заниматься именно тем, что умеют - это их поле. Прикладникам часто сложно читать такие работы. А выбор в пользу тех или иных методов делается обычно на основе численных экспериментов: генерируются данные с нужными свойствами и на них проверяются насколько хорошо справляются с задачей те или иные методы. С приходом среды R такие симуляции стали доступны не только математикам и атишникам.

Ссылка на хорошие книги: https://yadi.sk/d/0Jb-3hSLmK837
Обратите особое внимание на 2 англоязычные: по ним преподают биостатистистику во многих университах.
Бонусом - несколько программ и рассчётный файл Excel, сделанный когда-то плавом и дополненный мной байесовским апостериорным интервалом Джеффриса.

Автор: bubnilkin 16.02.2018 - 01:53

Прошу прощения, что вклиниваюсь. Хотел уточнить:

Цитата(nokh @ 6.02.2018 - 13:33) *
На графике следует давать среднее с ДИ, а не строить коробчатый график
А не надо ли случайно рисовать разницы между средними и ДИ к этим разницам ? Или это как доп. иллюстрации ?

Автор: nokh 16.02.2018 - 22:55

Цитата(bubnilkin @ 16.02.2018 - 03:53) *
Прошу прощения, что вклиниваюсь. Хотел уточнить: А не надо ли случайно рисовать разницы между средними и ДИ к этим разницам ? Или это как доп. иллюстрации ?

Вы же читаете статьи, много графиков с разностями вы видели? И доп. иллюстрации редакция не пропустит. Я видел мало, но у гигиенистов встречаются, у токсикологов, только они разность выражают в % от исходного значения (дельта, % ) или норматива. Также разность с ДИ кажется более уместной для иллюстрации величины эффекта в зависимых выборках, но, я всё равно строю обычно сами средние с ДИ...

Автор: Cules2013 21.02.2018 - 09:18

nokh, спасибо за детальный ответ, понимаю, что это чистый энтузиазм, никто к этому вас не обязывал. Я ранее пробовал на других форумах что-то спрашивать, но это оказался дохлый номер((
По поводу стат пакетов - дело в том, что каждый считает нужным хвалить то, что использует сам. Я это к тому, что если бы я слушал советы других людей, то уже должен был освоить 10 стат программ и 100 стат критериев. Как-то это не сильно сопоставимо с реальностью. Я умею работать в Графпаде и Статистике, а это уже не мало, программы эти известные и статусные. Немного знаю кода для SAS. Если я к каждой конкретной задаче будут вынужден осваивать отдельную стат программу и всё новые и новые стат методы, то я сам закопаю себя в яму, из которой не выберусь. Это контрпродуктивно. Поэтому так. Я всё же не математик, поэтому программы а-ля R меня напрягают, не хочу возиться с кодом и подобными вещами, тем более по неопытности могу легко допустить ошибки, а это чревато. Графпад, я заметил, очень популярен за рубежом, во многом как средство визуализации, но раз там есть и стат пакет методов, то грех ими не пользоваться, тем более, в отличие от той же Статистики и многих других программ, у Графпада есть заготовленные шаблоны, т.е. вам изначально рекомендуют какие-то вещи: например, если у вас однофакторный ANOVA, то вам советуют выбрать либо пост-хок от Тьюки, либо большую мощность (но без доверительных интервалов и точного значения p) с тестом Холм-Сидака. В Статистике, например, нет ничего подобного, лепи какие хочешь параметры анализа - сам должен перелопатить кучу лит-ры, чтобы разобраться, где какое значение ставить, а тут за тебя более грамотные люди уже подумали, но при этом, вам никто не мешает выбрать другой вариант анализа либо каких-то параметров, решать вам. А мануал к Статистике меня вообще до истерического laugh.gif доводил не раз - например, вот "в преобразовании Бокса-Кокса есть такой параметр, как лямбда. Вот формула этого преобразования. Используя нашу программу, вы увидите вот такое вот окно и строчку, где написано "лямбда". Здесь вы можете вручную выставить этот параметр". Всё, конец справки. У них там в каждом втором абзаце капитан очевидность. Зато ни слова, какая суть этого параметра и как мне оптимально выставить диапазон лямбды, я должен сам фиг знает где всё это выкапывать. У Графпада и справка адекватная, и рекомендуемые параметры есть, и графики на порядок красивее и современнее. Я это всё к тому, почему я зацикливаюсь на паре конкретных программ. Я ведь тоже не дурак))) Свои причины вполне разумные у меня есть. И как следствие, хочу сказать, что не вижу никакого особого недостатка в

Цитата
Путь от пакета - тупиковый.
Потому что в том же Графпаде в мануале есть конкретные ссылки на конкретные статьи и стат книги серьёзных людей, где проанализированы конкретные стат методы на конкретных примерах и сделаны выводы и рекомендации, например, почему лучше брать пост-хок Тьюки, а не другие виды. Составители стат программ сами математики и свои стат программы пишут не с потолка, а в соответствии с авторитетными источниками литературы. Поэтому мануалы и рекомендации ведущих стат программ - это авторитетный источник. Повторюсь, я не математик, и в дебри не хочу и не буду лезть, и работаю не в топ-лаборатории, как за рубежом на миллионных грантах, где стат анализ делают отдельные специалисты (не один, при чём) за нехилую плату - вот они так всё сделают так, чтобы комар носа не подточил. Но я не могу себе такого позволить, ни материально, ни в смысле времени, чтобы я вместо проведения экспериментов и написания статей месяцами зарывался в дебри статистики? Я, пожалуй, предпочту сплав простоты и относительного неплохого качества, что мне доступны при адекватном уровне затраченных усилий.

Не могу не отметить, что вы в своих комментариях неоднократно критиковали Гланца, подвергли сомнению учебник Петри, но в той подборке уважаемой вами лит-ры они есть. Интересно получается.

Ещё раз спасибо за книги и программы. Обязательно со всем ознакомлюсь.

Автор: 100$ 21.02.2018 - 16:14

Цитата(Cules2013 @ 21.02.2018 - 09:18) *
А мануал к Статистике меня вообще до истерического laugh.gif доводил не раз - например, вот "в преобразовании Бокса-Кокса есть такой параметр, как лямбда. Вот формула этого преобразования. Используя нашу программу, вы увидите вот такое вот окно и строчку, где написано "лямбда". Здесь вы можете вручную выставить этот параметр". Всё, конец справки. У них там в каждом втором абзаце капитан очевидность. Зато ни слова, какая суть этого параметра и как мне оптимально выставить диапазон лямбды, я должен сам фиг знает где всё это выкапывать.


Ужель все так плохо? Вот детальное http://documentation.statsoft.com/STATISTICAHelp.aspx?path=Spreadsheets/Spreadsheet/UsingSpreadsheets/BoxCoxTransformations/BoxCoxTransformationOverviewandTechnicalNotes. Суть параметра заключена формулах. А про то, какой именно диапазон выставить, никто писать и не будет, патамушта для оптимизируемого по выборке параметра такой диапазон указать в принципе невозможно. Теоретически он - в диапазоне [-inf;+inf], а на практике - зависит от датасета.

Если ознакомитесь со ссылкой, ответьте на контрольный вопрос - каким методом оптимизации осуществляется поиск упомянутой лямбды?

Автор: Blaid 27.02.2018 - 12:28

Возможно заблуждаюсь, но НИ КАКАЯ СПРАВОЧНАЯ СИСТЕМА НИ В КАКОЙ ПРОГРАММЕ (как бы развита ни была эта система) не заменит чтения соответствующей литературы! Причём литературы - адекватной (как говорят "правильной").
Да и здесь уже сказано было: путь от программы/программ к методу/методам - не правильный! Нужно сначала осваивать (понимать) метод (тот же дисперсионный анализ, например), а уже потом искать прогу, где он реализован (чтобы, грубо говоря, не считать вручную). Весь статистический софт для экономии времени создан (ну, и чтобы ошибки человека при расчётах убрать). Если метод понятен, понята его внутренняя структура, то и многие вопросы применимости и допустимости использования отпадают.
А умение работать с софтом (любым вообще, а не только статистическим) - это, по сути дела, кнопконажимательство и кнопкокликательство. Понажимал и покликал что надо и в нужной последовательности, ну программа и выдала результат... Хотя это тоже надо уметь, но это самое простое и доступное из всего.
Что касается, конкретных прог, то, например, в таком пакете-гиганте, как STATISTICA, реализовано большинство известных стат. методов ( в последних версиях даже нейронные сети появились). Большинству запросов в области стат. обработки и анализа данных STATISTICA вполне себе удовлетворяет.
SPSS "заточен" под психологию, социологию, экономику.
GrahPad Prism - прога для биологов, причём, на мой взгляд, непосредственно сама часть по обработке данных в ней как-бы второстепенна и поэтому развита слабо. Основной упор в ней сделан именно на биологические мат. методы (например, посчитать что-нибудь согласно ур-нию Михаэлиса-Мэнтен, всякие там IC50/EC50, cвязывание лигандов с рецепторами и т.д.).
Другое дело, что всё это коммерческий софт с соответствующей ценой на лицензию...
Но софт всё равно вторичен. Осваивать нужно, в первую очередь, метод, а не проги, в которых он реализован!

Автор: 100$ 27.02.2018 - 12:52

Цитата(Blaid @ 27.02.2018 - 12:28) *
Возможно заблуждаюсь, но НИ КАКАЯ СПРАВОЧНАЯ СИСТЕМА НИ В КАКОЙ ПРОГРАММЕ (как бы развита ни была эта система) не заменит чтения соответствующей литературы! Причём литературы - адекватной (как говорят "правильной").
Да и здесь уже сказано было: путь от программы/программ к методу/методам - не правильный! Нужно сначала осваивать (понимать) метод (тот же дисперсионный анализ, например), а уже потом искать прогу, где он реализован (чтобы, грубо говоря, не считать вручную). Весь статистический софт для экономии времени создан (ну, и чтобы ошибки человека при расчётах убрать). Если метод понятен, понята его внутренняя структура, то и многие вопросы применимости и допустимости использования отпадают.
А умение работать с софтом (любым вообще, а не только статистическим) - это, по сути дела, кнопконажимательство и кнопкокликательство. Понажимал и покликал что надо и в нужной последовательности, ну программа и выдала результат... Хотя это тоже надо уметь, но это самое простое и доступное из всего.
Что касается, конкретных прог, то, например, в таком пакете-гиганте, как STATISTICA, реализовано большинство известных стат. методов ( в последних версиях даже нейронные сети появились). Большинству запросов в области стат. обработки и анализа данных STATISTICA вполне себе удовлетворяет.
SPSS "заточен" под психологию, социологию, экономику.
GrahPad Prism - прога для биологов, причём, на мой взгляд, непосредственно сама часть по обработке данных в ней как-бы второстепенна и поэтому развита слабо. Основной упор в ней сделан именно на биологические мат. методы (например, посчитать что-нибудь согласно ур-нию Михаэлиса-Мэнтен, всякие там IC50/EC50, cвязывание лигандов с рецепторами и т.д.).
Другое дело, что всё это коммерческий софт с соответствующей ценой на лицензию...
Но софт всё равно вторичен. Осваивать нужно, в первую очередь, метод, а не проги, в которых он реализован!


Такъ! Спасибо, Кэп!

Форум Invision Power Board (http://www.invisionboard.com)
© Invision Power Services (http://www.invisionpower.com)