Здравствуйте, гость ( Вход | Регистрация )
5.02.2018 - 16:33
Сообщение
#1
|
|
|
Группа: Пользователи Сообщений: 27 Регистрация: 5.02.2018 Пользователь №: 30938 |
Добрый день всем!
У меня есть большой массив данных для множественного сравнения (независимые выборки). Ситуация такая, что где-то 70-80% групп - это параметрика (определял по Д'Агостино-Пирсону), остальное - разумеется, что нет. Уже брал для определения различий тест Краскала-Уоллиса +тест Данна для множественных сравнений. Это самый простой способ, но тест Данна уж больно жёсткий, там достоверность определяется только железобетонная, которая даже визуально на графике просматривается. Т.е, к гадалке не ходи, достаточна велика вероятность ошибки второго рода. Не слишком-то подходит. Поэтому решил просто довести распределение до нормального Боксом-Коксом и взять ANOVA. По ходу дела возникло несколько вопросов: 1. Если я правильно всё понимаю, то нельзя преобразовывать только отдельные выборки, коль взял преобразование, то нужно Боксом-Коксом прогнать все выборки, в т.ч. и те, что уже и так имеют нормальное распределение. И я заметил преинтереснейшую вещь: в большинстве случаев Бокс-Кокс работает шикарно, но иногда возникает обратная ситуация, там где была параметрика вдруг стала непараметрика. В итоге, я, конечно, увеличил % групп с нормальным распределением, так что как бы и результат положительный, но осадок остался, да и 100% параметрики я так и не получил и, по-прежнему, по всей строгости закона, ANOVA мне не светит, как и раньше. Как решить данную проблему? Я знаю про другие виды подгонки распределения под нормальное, но Бокс-кокс позиционируется как очень эффективное и универсальное средство, этот метод доступен в программе Statistica, ничего вручную считать не надо и т.д и т.п. Мне просто даже интересно, как такое возможно, что Бокс-Кокс сделал непараметрику из параметрики, с учётом того, что программа проводит целую уйму подстановок для выбора оптимального значения лямбда? Я брал настройки по умолчанию для этого преобразования в Statistica, а именно: количество повторов (итераций) 40, диапазон лямбд от -5 до 5, эпсилон 0,00001, смещение альфа не брал (равно нулю). Может увеличить кол-во повторов? 2. Допустим проблему 1 мы решили, либо у нас её и не было изначально, то следующая задача представить адекватно полученные данные, т.е. нам нужно рассчитать новое среднее, ошибку, и построить график. Отсюда возникают вот такие подвопросы: а) Мы просто берём новое среднее и ошибку, что выдаётся в результатах Бокса-Кокса и делаем обратное преобразование по формуле: x=(y*λ+1)^(1/λ). Так ведь? Я даже проверил (хотя это очевидно), что обратное преобразование каждого конкретного числа бессмысленно, мы получаем исходную выборку. Я это к тому, что строить график по результатам преобразования не комильфо, как бы, т.к. числа получаются не сопоставимые по величине с исходными, и нужно их привести к виду подобному исходному. б) из пункта "а" напрямую возникает пункт "б". А разве есть такой график, либо такая программа, что позволяет строить, к примеру, Бокса-Вискера (либо что-то подобное), без исходных данных, только по среднему и ошибке? Знаю, что такое плюс-минус можно провернуть в Excel, но это у меня всегда вариант последнего выбора. Стараюсь избегать этой программы, по разным причинам, в т.ч., потому что это не спец программа для статистики, графики рисует не очень красивые и т.д. Я лично работаю в Statistica и GraphPad Prism. Знаете, можно ли провернуть в них такое? Может в какой-то бесплатной стат проге? Я уже читал материалы данного форума по смежным вопросам, поэтому слёзно прошу не отписываться просто ссылкой на другую тему, разве что там есть прямой ответ на любой из вопросов, а я по каким-то причинам этого не заметил. Сообщение отредактировал Cules2013 - 5.02.2018 - 16:50 |
|
|
![]() |
![]() |
![]() |
6.02.2018 - 10:20
Сообщение
#2
|
|
|
Группа: Пользователи Сообщений: 1325 Регистрация: 27.11.2007 Пользователь №: 4573 |
Cules2013, у вас есть большой массив данных для множественного сравнения несвязанных выборок. Можете ли вы сформулировать, с какой целью эти данные были собраны. Какова биологическая или иная научная гипотеза, лежащая в основе сбора данных. Есть понятие запланированных сравнений, вам не обязательно сравнивать все подряд , если есть план. Но если большой массив данных сбрасывают статистициану, то у него есть желание сравнить все что можно и даже не нужно. Например, нормальность в выборке проверять с помощью 20-ти критериев перед использованием ANOVA. С приходом многомерной статистики никто не отменял проверку каждого вариационного ряда на предмет ошибок ввода данных или выбросов. Знания предметной области необходимы, чтобы правильно выставить диапазоны возможных значений. Использовать критерий выбросов типа Граббса тоже помогает почистить данные. Досадные ошибки могут сильно повлиять не только на нормальность, но и вообще исказить результаты особенно при многомерном анализе данных.
Если у вас много факторов с множеством уровней или много количественных переменных и большое количество наблюдений, то следует подумать о MANOVA. В едином статистическом комплексе вы получите влияние нужных вам факторов и их взаимодействия на все количественные переменные, которые вас интересуют. Радует, что у вас большинство переменных имеет нормальное распределение. Это довольно частое явление при измерениях полученных с помощью современных диагностических приборов, например, метрические параметры толщины различных зон сетчатки глаза, полученные с помощью ОКТ имеют нормальное распределение. Важно также принять , что для использования дисперсионного анализа необходимым условием является нормальность распределения остатков модели, а не нормальность в каждой группе. Это вытекает из свойств нормального распределения. Если значения зависимой переменной в каждой экспериментальной группе распределены нормально, то нормально будут распределены и значения остатков соответствующей линейной модели. Таким образом, вместо проверки нормальности распределения значений зависимой переменной в каждой группе, достаточно проверить нормальность распределения остатков модели (число которых равно общему объему наблюдений). Относительно гомоскедастичности, также достаточно проверить дисперсию остатков. |
|
|
![]() |
![]() |
6.02.2018 - 11:55
Сообщение
#3
|
|
|
Группа: Пользователи Сообщений: 27 Регистрация: 5.02.2018 Пользователь №: 30938 |
DrgLena, спасибо за ответ по сути, в отличие от некоторых...
1. Цель у меня сравнить все группы между собой. Она таковой была изначально. Фактор оценивается всего один, поэтому мне достаточно обычного ANOVA либо его непараметрических аналогов. Если вам интересна сама идея - исследование депрессии на лаб. животных, тест Порсолта, смотрим динамику самой депрессии + остальные группы - фармпрепараты, к-рые по изначальной гипотезе должны улучшать или ухудшать состояние. Поэтому тут никакой избирательности сравнений нет. На самом деле, статистически вполне простая ситуация, без изысков. Вопрос исключительно в распределении и выборе наиболее удачного критерия. 2. По поводу выбросов и прочего. Я в курсе о всяких таких вещах, критериях их отбора и т.д. и т.п. Но я также знаю, что выбросы можно точно определить только, если они явнее явного. Если у вас ряд 1,2,3,4,5 и 300, например, без всякого анализа ясно, что 300 - это что-то не то, но в реальной жизни такие вещи случаются редко, чаще ситуации в стиле 10,20,30, 40, 50, 100. И даже, если какой-то критерий отбора вам скажет, что 100 - выброс, вам могут задать вопрос (или у вас появятся вполне обоснованные сомнения), а так ли это? В случае выбросов большую роль играет ваше личное понимание биологического смысла данных, действительно ли это выброс, либо, например, индивидуальная чувствительность (либо резистентность) некоторых животных к вашему экспериментальному воздействию. Я проверял у себя выбросы, их мало и они вот из такого разряда "не true выбросы", а скорее просто широкая норма реакции. Я ведь не сам это придумал, это позиция одного из топовых зарубежных учебников по статистике. Сейчас фамилии не вспомню. В итоге вы сами решаете, выброс это или нет. Многие вполне обоснованно против "чисток" выборок, ибо легко перестараться и утратить важный биологический смысл. Лично в моём случае удаление выбросов не совсем целесообразно, и в итоге не решает проблему распределения. 3. Я вот честно никак не уловлю всю суть требований к ANOVA. Про остатки модели очень смутно понимаю, что такое гомоскедастичность - погуглил. У меня некий диссонанс, в т.ч. и из-за того, что вы написали. Вот моя логическая цепочка: - Для ANOVA нужно помимо нормального распределения, соблюдения условий нормальности распределения остатков модели, гомоскедастичность. Может что-то ещё подобное (не суть, сейчас). Но, если эти условия присущи нормальному распределению, зачем вообще о них говорить отдельно, если одно подразумевает другое. А то я подозреваю, что всё несколько сложнее. И каким образом в стат программе можно оценить эти параметры? Тут всплывает другой интересный вопрос об определении нормальности как таковой. Каким бы вы критерием её не определяли, он вам даёт ваш уровень достоверности p. Хитрость то в том, что у вас может быть во всех выборках нормальное распределение, но где то р>0,99, где-то р>0,3, а где-то и вовсе р>0,055, к примеру. Дьявол в деталях, как говорится, и по-хорошему, такие вещи нельзя игнорировать. К тому же столкнулся ещё с такой забавной штукой, что GraphPadPrism рекомендует пользоваться тестом на нормальность Д'Агостино-Пирсона (я заметил, что он весьма либерален), а Смирнова-Колмогорова или Лилиефорса настоятельно не рекомендует, в то время, как в программе Statistica 10 Д'Агостино-Пирсона вообще нет, как и самого факта, что они что-то рекомендуют тоже нет, выбирай что хочешь, никаких подсказок по этому поводу. Вот и пойми их, ведущие производители софта, опираются не "на сплетни за углом", а серьёзные научные работы по статистике, нередко ссылаясь на первоисточник самого метода, но куда не глянь везде есть разночтения. Как для мат аппарата, в статистике что-то много спорных моментов и человеческого фактора. Ещё раз спасибо за ответ, но, наверное, меня в первую очередь интересует само преобразованием Бокса-Кокса либо подбор его более удачного для моей ситуации аналога. Сообщение отредактировал Cules2013 - 6.02.2018 - 11:58 |
|
|
![]() |
![]() |
Cules2013 Преобразование Бокса-Кокса 5.02.2018 - 16:33
leo_biostat Цитата(Cules2013 @ 5.02.2018 - 16:33... 5.02.2018 - 17:30
Олег Кравец От модератора:
Коллега, полагаю, участники форум... 5.02.2018 - 20:02
leo_biostat [quote name='Олег Кравец' date='5.02.2... 5.02.2018 - 21:32
nokh 1. Про то, что данные не могут быть (не)параметрич... 6.02.2018 - 12:33
Cules2013 nokh
1. Ошибка модели - это что значит? Не совсем ... 6.02.2018 - 14:32

nokh Цитата(Cules2013 @ 6.02.2018 - 16:32... 7.02.2018 - 09:04
bubnilkin Прошу прощения, что вклиниваюсь. Хотел уточнить: Ц... 16.02.2018 - 01:53
nokh Цитата(bubnilkin @ 16.02.2018 - 03:5... 16.02.2018 - 22:55
DrgLena На лабораторных животных моделируется депрессия и ... 6.02.2018 - 13:39
nokh Ещё в догонку по поводу того, что БК не нормализуе... 7.02.2018 - 15:07
Cules2013 nokh, спасибо за ответы. Некоторые вещи для себя р... 8.02.2018 - 13:05
leo_biostat Цитата(Cules2013 @ 8.02.2018 - 13:05... 9.02.2018 - 08:36
nokh Цитата(Cules2013 @ 8.02.2018 - 15:05... 15.02.2018 - 19:47
Cules2013 nokh, спасибо за детальный ответ, понимаю, что это... 21.02.2018 - 09:18
100$ Цитата(Cules2013 @ 21.02.2018 - 09:1... 21.02.2018 - 16:14
DrgLena cules2013, я не просто из любопытства, спросила, ч... 9.02.2018 - 10:44
DrgLena Цитата(leo_biostat @ 9.02.2018 - 09... 9.02.2018 - 10:57
Cules2013 Цитата(DrgLena @ 9.02.2018 - 10:57) ... 9.02.2018 - 17:56
Blaid Возможно заблуждаюсь, но НИ КАКАЯ СПРАВОЧНАЯ СИСТЕ... 27.02.2018 - 12:28
100$ Цитата(Blaid @ 27.02.2018 - 12:28) В... 27.02.2018 - 12:52![]() ![]() |