Преобразование Бокса-Кокса - Форум врачей-аспирантов

Преобразование Бокса-Кокса, частные вопросы метода

Cules2013 Просмотр профиля	5.02.2018 - 16:33 Сообщение #1
Группа: Пользователи Сообщений: 27 Регистрация: 5.02.2018 Пользователь №: 30938	Добрый день всем! У меня есть большой массив данных для множественного сравнения (независимые выборки). Ситуация такая, что где-то 70-80% групп - это параметрика (определял по Д'Агостино-Пирсону), остальное - разумеется, что нет. Уже брал для определения различий тест Краскала-Уоллиса +тест Данна для множественных сравнений. Это самый простой способ, но тест Данна уж больно жёсткий, там достоверность определяется только железобетонная, которая даже визуально на графике просматривается. Т.е, к гадалке не ходи, достаточна велика вероятность ошибки второго рода. Не слишком-то подходит. Поэтому решил просто довести распределение до нормального Боксом-Коксом и взять ANOVA. По ходу дела возникло несколько вопросов: 1. Если я правильно всё понимаю, то нельзя преобразовывать только отдельные выборки, коль взял преобразование, то нужно Боксом-Коксом прогнать все выборки, в т.ч. и те, что уже и так имеют нормальное распределение. И я заметил преинтереснейшую вещь: в большинстве случаев Бокс-Кокс работает шикарно, но иногда возникает обратная ситуация, там где была параметрика вдруг стала непараметрика. В итоге, я, конечно, увеличил % групп с нормальным распределением, так что как бы и результат положительный, но осадок остался, да и 100% параметрики я так и не получил и, по-прежнему, по всей строгости закона, ANOVA мне не светит, как и раньше. Как решить данную проблему? Я знаю про другие виды подгонки распределения под нормальное, но Бокс-кокс позиционируется как очень эффективное и универсальное средство, этот метод доступен в программе Statistica, ничего вручную считать не надо и т.д и т.п. Мне просто даже интересно, как такое возможно, что Бокс-Кокс сделал непараметрику из параметрики, с учётом того, что программа проводит целую уйму подстановок для выбора оптимального значения лямбда? Я брал настройки по умолчанию для этого преобразования в Statistica, а именно: количество повторов (итераций) 40, диапазон лямбд от -5 до 5, эпсилон 0,00001, смещение альфа не брал (равно нулю). Может увеличить кол-во повторов? 2. Допустим проблему 1 мы решили, либо у нас её и не было изначально, то следующая задача представить адекватно полученные данные, т.е. нам нужно рассчитать новое среднее, ошибку, и построить график. Отсюда возникают вот такие подвопросы: а) Мы просто берём новое среднее и ошибку, что выдаётся в результатах Бокса-Кокса и делаем обратное преобразование по формуле: x=(yλ+1)^(1/λ). Так ведь? Я даже проверил (хотя это очевидно), что обратное преобразование каждого конкретного числа бессмысленно, мы получаем исходную выборку. Я это к тому, что строить график по результатам преобразования не комильфо, как бы, т.к. числа получаются не сопоставимые по величине с исходными, и нужно их привести к виду подобному исходному. б) из пункта "а" напрямую возникает пункт "б". А разве есть такой график, либо такая программа, что позволяет строить, к примеру, Бокса-Вискера (либо что-то подобное), без исходных данных, только по среднему и ошибке? Знаю, что такое плюс-минус можно провернуть в Excel, но это у меня всегда вариант последнего выбора. Стараюсь избегать этой программы, по разным причинам, в т.ч., потому что это не спец программа для статистики, графики рисует не очень красивые и т.д. Я лично работаю в Statistica и GraphPad Prism. Знаете, можно ли провернуть в них такое? Может в какой-то бесплатной стат проге? Я уже читал материалы данного форума по смежным вопросам, поэтому слёзно прошу не отписываться просто ссылкой на другую тему, разве что там есть прямой ответ на любой из вопросов, а я по каким-то причинам этого не заметил. Сообщение отредактировал Cules2013* - 5.02.2018 - 16:50

Ответов

Blaid Просмотр профиля	27.02.2018 - 12:28 Сообщение #2
Группа: Пользователи Сообщений: 36 Регистрация: 27.08.2012 Пользователь №: 24128	Возможно заблуждаюсь, но НИ КАКАЯ СПРАВОЧНАЯ СИСТЕМА НИ В КАКОЙ ПРОГРАММЕ (как бы развита ни была эта система) не заменит чтения соответствующей литературы! Причём литературы - адекватной (как говорят "правильной"). Да и здесь уже сказано было: путь от программы/программ к методу/методам - не правильный! Нужно сначала осваивать (понимать) метод (тот же дисперсионный анализ, например), а уже потом искать прогу, где он реализован (чтобы, грубо говоря, не считать вручную). Весь статистический софт для экономии времени создан (ну, и чтобы ошибки человека при расчётах убрать). Если метод понятен, понята его внутренняя структура, то и многие вопросы применимости и допустимости использования отпадают. А умение работать с софтом (любым вообще, а не только статистическим) - это, по сути дела, кнопконажимательство и кнопкокликательство. Понажимал и покликал что надо и в нужной последовательности, ну программа и выдала результат... Хотя это тоже надо уметь, но это самое простое и доступное из всего. Что касается, конкретных прог, то, например, в таком пакете-гиганте, как STATISTICA, реализовано большинство известных стат. методов ( в последних версиях даже нейронные сети появились). Большинству запросов в области стат. обработки и анализа данных STATISTICA вполне себе удовлетворяет. SPSS "заточен" под психологию, социологию, экономику. GrahPad Prism - прога для биологов, причём, на мой взгляд, непосредственно сама часть по обработке данных в ней как-бы второстепенна и поэтому развита слабо. Основной упор в ней сделан именно на биологические мат. методы (например, посчитать что-нибудь согласно ур-нию Михаэлиса-Мэнтен, всякие там IC50/EC50, cвязывание лигандов с рецепторами и т.д.). Другое дело, что всё это коммерческий софт с соответствующей ценой на лицензию... Но софт всё равно вторичен. Осваивать нужно, в первую очередь, метод, а не проги, в которых он реализован!

100$ Просмотр профиля	27.02.2018 - 12:52 Сообщение #3
Группа: Пользователи Сообщений: 902 Регистрация: 23.08.2010 Пользователь №: 22694	Цитата(Blaid @ 27.02.2018 - 12:28) Возможно заблуждаюсь, но НИ КАКАЯ СПРАВОЧНАЯ СИСТЕМА НИ В КАКОЙ ПРОГРАММЕ (как бы развита ни была эта система) не заменит чтения соответствующей литературы! Причём литературы - адекватной (как говорят "правильной"). Да и здесь уже сказано было: путь от программы/программ к методу/методам - не правильный! Нужно сначала осваивать (понимать) метод (тот же дисперсионный анализ, например), а уже потом искать прогу, где он реализован (чтобы, грубо говоря, не считать вручную). Весь статистический софт для экономии времени создан (ну, и чтобы ошибки человека при расчётах убрать). Если метод понятен, понята его внутренняя структура, то и многие вопросы применимости и допустимости использования отпадают. А умение работать с софтом (любым вообще, а не только статистическим) - это, по сути дела, кнопконажимательство и кнопкокликательство. Понажимал и покликал что надо и в нужной последовательности, ну программа и выдала результат... Хотя это тоже надо уметь, но это самое простое и доступное из всего. Что касается, конкретных прог, то, например, в таком пакете-гиганте, как STATISTICA, реализовано большинство известных стат. методов ( в последних версиях даже нейронные сети появились). Большинству запросов в области стат. обработки и анализа данных STATISTICA вполне себе удовлетворяет. SPSS "заточен" под психологию, социологию, экономику. GrahPad Prism - прога для биологов, причём, на мой взгляд, непосредственно сама часть по обработке данных в ней как-бы второстепенна и поэтому развита слабо. Основной упор в ней сделан именно на биологические мат. методы (например, посчитать что-нибудь согласно ур-нию Михаэлиса-Мэнтен, всякие там IC50/EC50, cвязывание лигандов с рецепторами и т.д.). Другое дело, что всё это коммерческий софт с соответствующей ценой на лицензию... Но софт всё равно вторичен. Осваивать нужно, в первую очередь, метод, а не проги, в которых он реализован! Такъ! Спасибо, Кэп!

Сообщений в этой теме

Cules2013 Преобразование Бокса-Кокса 5.02.2018 - 16:33

leo_biostat Цитата(Cules2013 @ 5.02.2018 - 16:33... 5.02.2018 - 17:30

Олег Кравец От модератора: Коллега, полагаю, участники форум... 5.02.2018 - 20:02

leo_biostat [quote name='Олег Кравец' date='5.02.2... 5.02.2018 - 21:32

DrgLena Cules2013, у вас есть большой массив данных для м... 6.02.2018 - 10:20

Cules2013 DrgLena, спасибо за ответ по сути, в отличие от не... 6.02.2018 - 11:55

nokh 1. Про то, что данные не могут быть (не)параметрич... 6.02.2018 - 12:33

Cules2013 nokh 1. Ошибка модели - это что значит? Не совсем ... 6.02.2018 - 14:32

nokh Цитата(Cules2013 @ 6.02.2018 - 16:32... 7.02.2018 - 09:04

bubnilkin Прошу прощения, что вклиниваюсь. Хотел уточнить: Ц... 16.02.2018 - 01:53

nokh Цитата(bubnilkin @ 16.02.2018 - 03:5... 16.02.2018 - 22:55

DrgLena На лабораторных животных моделируется депрессия и ... 6.02.2018 - 13:39

nokh Ещё в догонку по поводу того, что БК не нормализуе... 7.02.2018 - 15:07

Cules2013 nokh, спасибо за ответы. Некоторые вещи для себя р... 8.02.2018 - 13:05

leo_biostat Цитата(Cules2013 @ 8.02.2018 - 13:05... 9.02.2018 - 08:36

nokh Цитата(Cules2013 @ 8.02.2018 - 15:05... 15.02.2018 - 19:47

Cules2013 nokh, спасибо за детальный ответ, понимаю, что это... 21.02.2018 - 09:18

100$ Цитата(Cules2013 @ 21.02.2018 - 09:1... 21.02.2018 - 16:14

DrgLena cules2013, я не просто из любопытства, спросила, ч... 9.02.2018 - 10:44

DrgLena Цитата(leo_biostat @ 9.02.2018 - 09... 9.02.2018 - 10:57

Cules2013 Цитата(DrgLena @ 9.02.2018 - 10:57) ... 9.02.2018 - 17:56

Blaid Возможно заблуждаюсь, но НИ КАКАЯ СПРАВОЧНАЯ СИСТЕ... 27.02.2018 - 12:28

100$ Цитата(Blaid @ 27.02.2018 - 12:28) В... 27.02.2018 - 12:52

« Предыдущая тема · Медицинская статистика · Следующая тема »