Форум врачей-аспирантов

Здравствуйте, гость ( Вход | Регистрация )

> Преобразование Бокса-Кокса, частные вопросы метода
Cules2013
сообщение 5.02.2018 - 16:33
Сообщение #1





Группа: Пользователи
Сообщений: 27
Регистрация: 5.02.2018
Пользователь №: 30938



Добрый день всем!
У меня есть большой массив данных для множественного сравнения (независимые выборки). Ситуация такая, что где-то 70-80% групп - это параметрика (определял по Д'Агостино-Пирсону), остальное - разумеется, что нет. Уже брал для определения различий тест Краскала-Уоллиса +тест Данна для множественных сравнений. Это самый простой способ, но тест Данна уж больно жёсткий, там достоверность определяется только железобетонная, которая даже визуально на графике просматривается. Т.е, к гадалке не ходи, достаточна велика вероятность ошибки второго рода. Не слишком-то подходит.
Поэтому решил просто довести распределение до нормального Боксом-Коксом и взять ANOVA. По ходу дела возникло несколько вопросов:
1. Если я правильно всё понимаю, то нельзя преобразовывать только отдельные выборки, коль взял преобразование, то нужно Боксом-Коксом прогнать все выборки, в т.ч. и те, что уже и так имеют нормальное распределение. И я заметил преинтереснейшую вещь: в большинстве случаев Бокс-Кокс работает шикарно, но иногда возникает обратная ситуация, там где была параметрика вдруг стала непараметрика. В итоге, я, конечно, увеличил % групп с нормальным распределением, так что как бы и результат положительный, но осадок остался, да и 100% параметрики я так и не получил и, по-прежнему, по всей строгости закона, ANOVA мне не светит, как и раньше. Как решить данную проблему? Я знаю про другие виды подгонки распределения под нормальное, но Бокс-кокс позиционируется как очень эффективное и универсальное средство, этот метод доступен в программе Statistica, ничего вручную считать не надо и т.д и т.п. Мне просто даже интересно, как такое возможно, что Бокс-Кокс сделал непараметрику из параметрики, с учётом того, что программа проводит целую уйму подстановок для выбора оптимального значения лямбда? Я брал настройки по умолчанию для этого преобразования в Statistica, а именно: количество повторов (итераций) 40, диапазон лямбд от -5 до 5, эпсилон 0,00001, смещение альфа не брал (равно нулю). Может увеличить кол-во повторов?
2. Допустим проблему 1 мы решили, либо у нас её и не было изначально, то следующая задача представить адекватно полученные данные, т.е. нам нужно рассчитать новое среднее, ошибку, и построить график. Отсюда возникают вот такие подвопросы:
а) Мы просто берём новое среднее и ошибку, что выдаётся в результатах Бокса-Кокса и делаем обратное преобразование по формуле: x=(y*λ+1)^(1/λ). Так ведь? Я даже проверил (хотя это очевидно), что обратное преобразование каждого конкретного числа бессмысленно, мы получаем исходную выборку. Я это к тому, что строить график по результатам преобразования не комильфо, как бы, т.к. числа получаются не сопоставимые по величине с исходными, и нужно их привести к виду подобному исходному.
б) из пункта "а" напрямую возникает пункт "б". А разве есть такой график, либо такая программа, что позволяет строить, к примеру, Бокса-Вискера (либо что-то подобное), без исходных данных, только по среднему и ошибке? Знаю, что такое плюс-минус можно провернуть в Excel, но это у меня всегда вариант последнего выбора. Стараюсь избегать этой программы, по разным причинам, в т.ч., потому что это не спец программа для статистики, графики рисует не очень красивые и т.д. Я лично работаю в Statistica и GraphPad Prism. Знаете, можно ли провернуть в них такое? Может в какой-то бесплатной стат проге?

Я уже читал материалы данного форума по смежным вопросам, поэтому слёзно прошу не отписываться просто ссылкой на другую тему, разве что там есть прямой ответ на любой из вопросов, а я по каким-то причинам этого не заметил.

Сообщение отредактировал Cules2013 - 5.02.2018 - 16:50
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
 
Открыть тему
Ответов
nokh
сообщение 7.02.2018 - 15:07
Сообщение #2





Группа: Пользователи
Сообщений: 1202
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704



Ещё в догонку по поводу того, что БК не нормализует идеально, а где-то даже ухудшает нормальность. Такой результат - несовпадение того как работает преобразование БК, и как оценвает его результаты критерий Д'Агостино - Пирсона. Преобразование Бокса - Кокса, будучи гибким степенным преобразованием, идеально устраняет асимметрию распределения. Поскольку многие биологические, химические, экономические и др. показатели имеют часто положительно асимметричные распределения, для их нормализации традиционно применяются степенные преобразования. Кто не умеет БК - логарифмирует и т.о., пусть не идельно, но поджимает хвост распределения. БК делает это идеально. Другая мера формы - эксцесс - более сложная и "мутная", т.к. процессы, которые к ней приводят не столь очевидны как в случае асимметрии. Это может быть и смесь распределений с близкими средними, и действие стабилизирующего отбора, может что-то ещё... Как исправлять (нормализовать) эксцессы и нужно ли это - не ясно.

Критерий Д'Агостино - Пирсона, как и критерий Харке - Бера, задействует в расчётах обе меры формы: и асимметрию, и эксцесс. Поэтому в случаях, когда распределение изначально было не слишком асимметричным, преобразование БК даже немного ухудшая эксцесс, приводит к более плохим значениям статистики критериев. Поэтому идеально оценивать результативность преобразования БК - по критерию асимметрии. Я обычно смотрю критерием Шапиро - Уилка (считается, что он чаще других правильно оценивает отклонения от нормальности - см. Кобзарь. Прикладная мат. статистика) и пока противоречий не замечал.

Сообщение отредактировал nokh - 7.02.2018 - 18:45
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Cules2013
сообщение 8.02.2018 - 13:05
Сообщение #3





Группа: Пользователи
Сообщений: 27
Регистрация: 5.02.2018
Пользователь №: 30938



nokh, спасибо за ответы. Некоторые вещи для себя разъяснил, но остались и вопросы. Поэтому я их озвучу, вы или ещё кто по возможности на них ответите, и на этом будем завершать дискуссию.
1. Требования к ANOVA. Я тут почитал, в т.ч. темы данного форума и пришёл к выводу, что одни считают, что нужна нормальность данных по каждой выборке (ссылаются на Петри "Наглядная статистика в медицине"), другие (в т.ч. и вы) говорят о нормальности распределения остатков.
Кто больше прав? Хотелось бы знать, на кого ссылаетесь вы.
2. GraphPadPrism 7 позволяет считать нормальность остатков и строить график, но делает это не отдельным пунктом, а как одну из опций регрессионного анализа, и это последний шаг, перед выводом. Значит, перед тем, как провести анализ остатков, нужно указать все параметры регрессии, которые, как я понимаю, влияют на итоговый результат. Интересно получается. Я в регрессии мало что смыслю, почти не сталкивался.
3. Вы говорите о нормальности остатков, но в тоже время и о критерии Шапиро-Уилка. Это же разные вещи. Как раз, Д'Агостино - Пирсон, Шапиро-Уилк и прочие - это для определения нормальности исходных данных по каждой группе. Я, конечно, могу взять сами остатки и прогнать их на нормальность отдельно этими критериями, вместо того, что встроен в модуль регрессии. Но разве так кто-то делает?
4. На форуме тут откопал такое мнение, что ANOVA - это робастный метод, поэтому нормальность и однородность могут быть частично нарушены (R. Cody, J. Smith, 1991. Applied statistics and the SAS programming language). Что значит "частично" и как это определить количественно в стат. программе - вопрос на миллион.
5. Понимаю, что прошу немало, но всё же, пожалуйста, если можете, подкрепляйте свои выводы конкретными ссылками на лит-ру. И мне будет спокойнее, и другим людям (в т.ч. рецензентам) смогу аргументировано ответить, отстоять свою точку зрения. Вот, например, вы говорите, что однородность дисперсий в группах лучше всего считать критерием Левне, а Бартлетта - это плохой вариант, ведь есть ещё Хартли, Шеффе, Кохрена... А почему так, откуда такая градация? Не обязательно отвечать полностью, можете просто кинуть ссылки на статьи или учебник или ещё что, где есть подобные сравнения. Я вот нашёл статью, где сравнение критериев определения однородность дисперсий , но Левне (Левене) там нет. И те, кто пишет о сравнениях и прочих подобных вещах, часто углубляется в формулы, чистую математику, и среди деревьев леса не видно.

Сообщение отредактировал Cules2013 - 8.02.2018 - 13:06
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
nokh
сообщение 15.02.2018 - 19:47
Сообщение #4





Группа: Пользователи
Сообщений: 1202
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704



Цитата(Cules2013 @ 8.02.2018 - 15:05) *
1. Требования к ANOVA. Я тут почитал, в т.ч. темы данного форума и пришёл к выводу, что одни считают, что нужна нормальность данных по каждой выборке (ссылаются на Петри "Наглядная статистика в медицине"), другие (в т.ч. и вы) говорят о нормальности распределения остатков. Кто больше прав? Хотелось бы знать, на кого ссылаетесь вы.

Любой учебник, где говорится о требовании нормальности распределения в выборке - сразу в топку. Речь может идти только о нормальном распределении в генеральной совокупности (ГС), откуда эта выборка извлекается. Широко известный в узких кругах отечественных статистиков и прикладников профессор Орлов вообще против подхода с оценкой нормальности по выборкам и остаткам типа для выбора грамотного способа выборочных сравнений, поскольку сама такая проверка принципиально сложнее задачи выборочных сравнений. Тем не менее в массе - проверяют. Если распределение в ГС нормальное, то и остатки модели будут распределены нормально. Но распределение в ГС мы часто не знаем, а оценить его по выборке не можем, ввиду её малого объёма (3 мышки DrgLena). Поэтому проверяем остатки: это и грамотнее, и реализуемо практически. Почитать нужно обязательно учебник(и) Дугласа Монтгомери - дядька крутой. Есть старое (2 или 4-ое) издание его книги на русском, а на английском уже 7 изданий. В переводной версии см. на стр. 36-37 формулу и его ответ на вопрос, хотя читать нужно всё.
Цитата(Cules2013 @ 8.02.2018 - 15:05) *
2. GraphPadPrism 7 позволяет считать нормальность остатков и строить график, но ...

Чё вы к этому Графпаду прицепились? Потому что немного её освоили? А если в освоенной программе нет нужного метода или он плохо реализован? Путь от пакета - тупиковый. Нужно наоборот идти от метода и искать такой пакет, где он реализован лучше всего. Далее. ДА - одно, регрессия - другое, и хотя это неверно, но на данном этапе вам будет полезнее думать об этих методах как о разных техниках (хотя ДА можно описать регрессионной моделью - разобрано понятно у Сокала и Рольфа).
Цитата(Cules2013 @ 8.02.2018 - 15:05) *
3. Вы говорите о нормальности остатков, но в тоже время и о критерии Шапиро-Уилка. Это же разные вещи...

Лопата - инструмент, позволяющий копать. Почву, песок, дресву и т.д, мы даже как-то донные отложения умудрились штыковой лопатой отобрать... Критерии проверки нормальности - инструмент, проверяющий нормальность. Выборок, остатков ANOVA, остатков регрессий любой сложности... Нет разницы.
Цитата(Cules2013 @ 8.02.2018 - 15:05) *
4. На форуме тут откопал такое мнение, что ANOVA - это робастный метод, поэтому нормальность и однородность могут быть частично нарушены. Что значит "частично" и как это определить количественно в стат. программе - вопрос на миллион.

Робастны. Количественно - вряд ли. В 2х словах не ответить, нужно начитывать литературу и пробовать. Однозначно: нужно стремиться выполнять требования модели анализа максимально. Но если они не выполняются, то выбор (1) делать всё равно "ибо модель робастна" или (2) преобразовывать данные для удовлетворения требованиям модели или (3) искать более подходящую модель - не столь однозначно. Это - не верная дверь, это - путь.
Цитата(Cules2013 @ 8.02.2018 - 15:05) *
5. Понимаю, что прошу немало, но всё же, пожалуйста, если можете, подкрепляйте свои выводы конкретными ссылками на лит-ру. ... И те, кто пишет о сравнениях и прочих подобных вещах, часто углубляется в формулы, чистую математику, и среди деревьев леса не видно.

Ну дак математики тоже люди. Им интересно заниматься именно тем, что умеют - это их поле. Прикладникам часто сложно читать такие работы. А выбор в пользу тех или иных методов делается обычно на основе численных экспериментов: генерируются данные с нужными свойствами и на них проверяются насколько хорошо справляются с задачей те или иные методы. С приходом среды R такие симуляции стали доступны не только математикам и атишникам.

Ссылка на хорошие книги: https://yadi.sk/d/0Jb-3hSLmK837
Обратите особое внимание на 2 англоязычные: по ним преподают биостатистистику во многих университах.
Бонусом - несколько программ и рассчётный файл Excel, сделанный когда-то плавом и дополненный мной байесовским апостериорным интервалом Джеффриса.

Сообщение отредактировал nokh - 16.02.2018 - 22:41
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Cules2013
сообщение 21.02.2018 - 09:18
Сообщение #5





Группа: Пользователи
Сообщений: 27
Регистрация: 5.02.2018
Пользователь №: 30938



nokh, спасибо за детальный ответ, понимаю, что это чистый энтузиазм, никто к этому вас не обязывал. Я ранее пробовал на других форумах что-то спрашивать, но это оказался дохлый номер((
По поводу стат пакетов - дело в том, что каждый считает нужным хвалить то, что использует сам. Я это к тому, что если бы я слушал советы других людей, то уже должен был освоить 10 стат программ и 100 стат критериев. Как-то это не сильно сопоставимо с реальностью. Я умею работать в Графпаде и Статистике, а это уже не мало, программы эти известные и статусные. Немного знаю кода для SAS. Если я к каждой конкретной задаче будут вынужден осваивать отдельную стат программу и всё новые и новые стат методы, то я сам закопаю себя в яму, из которой не выберусь. Это контрпродуктивно. Поэтому так. Я всё же не математик, поэтому программы а-ля R меня напрягают, не хочу возиться с кодом и подобными вещами, тем более по неопытности могу легко допустить ошибки, а это чревато. Графпад, я заметил, очень популярен за рубежом, во многом как средство визуализации, но раз там есть и стат пакет методов, то грех ими не пользоваться, тем более, в отличие от той же Статистики и многих других программ, у Графпада есть заготовленные шаблоны, т.е. вам изначально рекомендуют какие-то вещи: например, если у вас однофакторный ANOVA, то вам советуют выбрать либо пост-хок от Тьюки, либо большую мощность (но без доверительных интервалов и точного значения p) с тестом Холм-Сидака. В Статистике, например, нет ничего подобного, лепи какие хочешь параметры анализа - сам должен перелопатить кучу лит-ры, чтобы разобраться, где какое значение ставить, а тут за тебя более грамотные люди уже подумали, но при этом, вам никто не мешает выбрать другой вариант анализа либо каких-то параметров, решать вам. А мануал к Статистике меня вообще до истерического laugh.gif доводил не раз - например, вот "в преобразовании Бокса-Кокса есть такой параметр, как лямбда. Вот формула этого преобразования. Используя нашу программу, вы увидите вот такое вот окно и строчку, где написано "лямбда". Здесь вы можете вручную выставить этот параметр". Всё, конец справки. У них там в каждом втором абзаце капитан очевидность. Зато ни слова, какая суть этого параметра и как мне оптимально выставить диапазон лямбды, я должен сам фиг знает где всё это выкапывать. У Графпада и справка адекватная, и рекомендуемые параметры есть, и графики на порядок красивее и современнее. Я это всё к тому, почему я зацикливаюсь на паре конкретных программ. Я ведь тоже не дурак))) Свои причины вполне разумные у меня есть. И как следствие, хочу сказать, что не вижу никакого особого недостатка в
Цитата
Путь от пакета - тупиковый.
Потому что в том же Графпаде в мануале есть конкретные ссылки на конкретные статьи и стат книги серьёзных людей, где проанализированы конкретные стат методы на конкретных примерах и сделаны выводы и рекомендации, например, почему лучше брать пост-хок Тьюки, а не другие виды. Составители стат программ сами математики и свои стат программы пишут не с потолка, а в соответствии с авторитетными источниками литературы. Поэтому мануалы и рекомендации ведущих стат программ - это авторитетный источник. Повторюсь, я не математик, и в дебри не хочу и не буду лезть, и работаю не в топ-лаборатории, как за рубежом на миллионных грантах, где стат анализ делают отдельные специалисты (не один, при чём) за нехилую плату - вот они так всё сделают так, чтобы комар носа не подточил. Но я не могу себе такого позволить, ни материально, ни в смысле времени, чтобы я вместо проведения экспериментов и написания статей месяцами зарывался в дебри статистики? Я, пожалуй, предпочту сплав простоты и относительного неплохого качества, что мне доступны при адекватном уровне затраченных усилий.

Не могу не отметить, что вы в своих комментариях неоднократно критиковали Гланца, подвергли сомнению учебник Петри, но в той подборке уважаемой вами лит-ры они есть. Интересно получается.

Ещё раз спасибо за книги и программы. Обязательно со всем ознакомлюсь.

Сообщение отредактировал Cules2013 - 21.02.2018 - 09:23
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 

Сообщений в этой теме
- Cules2013   Преобразование Бокса-Кокса   5.02.2018 - 16:33
- - leo_biostat   Цитата(Cules2013 @ 5.02.2018 - 16:33...   5.02.2018 - 17:30
- - Олег Кравец   От модератора: Коллега, полагаю, участники форум...   5.02.2018 - 20:02
|- - leo_biostat   [quote name='Олег Кравец' date='5.02.2...   5.02.2018 - 21:32
- - DrgLena   Cules2013, у вас есть большой массив данных для м...   6.02.2018 - 10:20
|- - Cules2013   DrgLena, спасибо за ответ по сути, в отличие от не...   6.02.2018 - 11:55
- - nokh   1. Про то, что данные не могут быть (не)параметрич...   6.02.2018 - 12:33
|- - Cules2013   nokh 1. Ошибка модели - это что значит? Не совсем ...   6.02.2018 - 14:32
||- - nokh   Цитата(Cules2013 @ 6.02.2018 - 16:32...   7.02.2018 - 09:04
|- - bubnilkin   Прошу прощения, что вклиниваюсь. Хотел уточнить: Ц...   16.02.2018 - 01:53
|- - nokh   Цитата(bubnilkin @ 16.02.2018 - 03:5...   16.02.2018 - 22:55
- - DrgLena   На лабораторных животных моделируется депрессия и ...   6.02.2018 - 13:39
- - nokh   Ещё в догонку по поводу того, что БК не нормализуе...   7.02.2018 - 15:07
|- - Cules2013   nokh, спасибо за ответы. Некоторые вещи для себя р...   8.02.2018 - 13:05
|- - leo_biostat   Цитата(Cules2013 @ 8.02.2018 - 13:05...   9.02.2018 - 08:36
|- - nokh   Цитата(Cules2013 @ 8.02.2018 - 15:05...   15.02.2018 - 19:47
|- - Cules2013   nokh, спасибо за детальный ответ, понимаю, что это...   21.02.2018 - 09:18
|- - 100$   Цитата(Cules2013 @ 21.02.2018 - 09:1...   21.02.2018 - 16:14
- - DrgLena   cules2013, я не просто из любопытства, спросила, ч...   9.02.2018 - 10:44
- - DrgLena   Цитата(leo_biostat @ 9.02.2018 - 09...   9.02.2018 - 10:57
|- - Cules2013   Цитата(DrgLena @ 9.02.2018 - 10:57) ...   9.02.2018 - 17:56
- - Blaid   Возможно заблуждаюсь, но НИ КАКАЯ СПРАВОЧНАЯ СИСТЕ...   27.02.2018 - 12:28
- - 100$   Цитата(Blaid @ 27.02.2018 - 12:28) В...   27.02.2018 - 12:52


Добавить ответ в эту темуОткрыть тему