Форум врачей-аспирантов

Здравствуйте, гость ( Вход | Регистрация )

 
Добавить ответ в эту темуОткрыть тему
> Преобразование данных (Box-Cocs transformation), как правильно делать?
Blaid
сообщение 27.08.2012 - 18:56
Сообщение #1





Группа: Пользователи
Сообщений: 36
Регистрация: 27.08.2012
Пользователь №: 24128



Здравствуйте! Приветствую уважаемую общественность!
В связи с необходимостью практического использования у меня возник следующий вопрос.
Есть данные, относящиеся к трём разным контрольным точкам (это различное время (в сутках) после воздействия, скажем 5-е, 10-е и 20-е сутки после воздействия). На каждой контрольной точке было 5 разных групп (при этом каждая точка обладала одними и теми же группами, т.е. набор групп для всех точек был одинаковым), численностью по 5 животных каждая. Т.о. всего насчитывается 75 переменных ("разбитых" по 25 на 3 точки, а каждая точка, в свою очередь, еще на 5 одинаковых (для всех трех точек) групп по 5 животных каждая). В дальнейшем на этих данных хочу сделать двухфакторный дисперсионный анализ без повторений (Two-Way ANOVA), который, как известно (для корректного его выполнения) требует соблюдения ряда требований (допущений). Одно из них - нормальность распределения ВСЕХ сравниваемых групп. Свои данные, распределенные по группам, я проверил на нормальность (критерий Шапиро-Уилка) - данные нескольких групп имеют распределение, отличное от нормального. В связи с этим планирую преобразование по Боксу-Коксу.
Собственно вопрос. Как это преобразование правильно сделать? ОТДЕЛЬНО ПРЕОБРАЗОВЫВАТЬ ТОЛЬКО ТЕ ГРУППЫ, ГДЕ РАСПРЕДЕЛЕНИЕ ОТЛИЧНО ОТ НОРМАЛЬНОГО? ИЛИ ЖЕ НУЖНО ОБЪЕДИНИТЬ ВСЕ ПЕРЕМЕННЫЕ В ЕДИНУЮ ВЫБОРКУ (С N=75) И ТРАНСФОРМИРОВАТЬ ИМЕННО ЕЁ?
Согласно моим дилетантским рассуждениям, если сделать первое (преобразовывать только "ненормальные" группы), то в дальнейшем возникнет проблема неравных дисперсий у преобразованных и не преобразованных групп, а насколько правомерно второе (преобразовывать сразу всю единую группу в 75 вариант) я не знаю.
Насчет неравных дисперсий: да, для дисперсионного анализа важна нормальность распределения остатков ( residuals) дисперсионного анализа, а не данных в самих сравниваемых группах; но помимо нормальности распределения остатков, дисперсионный анализ требует еще и соблюдения равенства дисперсий ВО ВСЕХ сравниваемых группах (для дисп. анализа с повторениями должно соблюдаться еще и условие т.н. сферичности). Для проверки этого условия есть (помимо прочих) критерий Бартлетта (его и собираюсь использовать), для применения которого ВСЕ сравниваемые (по дисперсиям) группы должны быть нормально распределены, поскольку этот критерий чувствителен к отклонениям от нормальности. Хотя ,вероятно, есть более либеральные критерии (устойчивые к отклонениям от нормальности).
Если мой подход неправилен - готов выслушать любые предложения.
Спасибо!
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
nokh
сообщение 3.09.2012 - 22:32
Сообщение #2





Группа: Пользователи
Сообщений: 1202
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704



Цитата(Blaid @ 27.08.2012 - 21:56) *
...ОТДЕЛЬНО ПРЕОБРАЗОВЫВАТЬ ТОЛЬКО ТЕ ГРУППЫ, ГДЕ РАСПРЕДЕЛЕНИЕ ОТЛИЧНО ОТ НОРМАЛЬНОГО? ИЛИ ЖЕ НУЖНО ОБЪЕДИНИТЬ ВСЕ ПЕРЕМЕННЫЕ В ЕДИНУЮ ВЫБОРКУ (С N=75) И ТРАНСФОРМИРОВАТЬ ИМЕННО ЕЁ?...

Насколько мне известно, преобразование Бокса-Кокса (Box-Cox) обычно применяют для всей совокупности данных - простой и чисто утилитарный подход, поскольку, как показывает моя практика, в этом случае распределение остатков дисперсионного комплекса действительно становится заметно более симметричным - чего и требовалось добиться. Теория здесь тоже проста: при статистической проверке мы исходим из справдливости нулевой гипотезы, т.е. что между группами нет различий - а значит мы должны пытаться выбрать нормализующее преобразование сразу для всей совокупности данных.

Мне описанный подход не нравится тем, что преобразование Бокса-Кокса - не простое преобразование из семейства степенных преобразований, оно задействует параметр (лямбда) который итерационно находится по выборке. Предположим, что выборки всё-таки отличались по средним значениям. В этом случае лямбда будет искаться не по одному распределению, а по целой смеси распредлений. Т.е. преобразование с этой лямбдой как-то трансформирет данные, но само его значение будет лишено всякого смысла. А это уже очень далеко от той философии, на которой и для которой оно делалось. Поэтому я отказался от простого преобразования Бокса-Кокса "в лоб" и заменил его такой практикой:

(1) Если объёмы выборок достаточно велики, для того чтобы пытаться найти для них преоразующую функцию (порядка 20 и более значений). Делаю преобразование Бокса-Кокса для каждой выборки и выписываю значения лямбда. Далее опираясь на них подбираю наиболее близкое преобразование из простых. Ну, например, можно найти среднее всех лямбд. Если оно близко к 0 - логарифмировать данные, если к 0,5 - извлекать корень, если к 0,25 - брать среднее между логарифмом и корнем. Аналогично в области отрицательных значений. Я описывал этот подход в примере с ковариационным анализом (есть на этом форуме). Или можно делать преобразование с использованием этой усреднённой лямбды - тогда в материале и методах можно даже написать, что использовали преобразование Бокса-Кокса (как именно использовали я опускаю laugh.gif ).

(2) Если объёмы выборок малы - всего несколько значений на ячейку дисперсионного комплекса. Провожу ДА с непреобразованными данными и смотрю распредление остатков. Делаю для него Бокса-Кокса и на основании лямбды выбираю простое преобразование для всего комплекса.

А вообще, преобразование Бокса-Кокса раньше мне казалось очень удачным и крутым. Но на практике всегда возникали какие-то сомнения и сложности выбора (как и у вас). Потом я понял, что с точки зрения более глубокого осмысления природы данных полезнее смотреть не преобразование Бокса-Кокса, а обычное логарифмическое преобразование но с константой: y'=log(y+a). Это хорошо описано у Хальда (Мат. статистика) и у Родионова (Статистика в геологии). К сожалению, мне не встречались программы, в которых было бы такое преобразование с итерационным подбором константы а. А очень жаль, т.к. у этого а есть биологический (или геологический или иной) смысл, тогда как у лямбды - исключительно математический.

Сообщение отредактировал nokh - 3.09.2012 - 22:39
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Blaid
сообщение 5.09.2012 - 10:22
Сообщение #3





Группа: Пользователи
Сообщений: 36
Регистрация: 27.08.2012
Пользователь №: 24128



Здравствуйте уважаемый nokh! С molbiol я решил перебраться и сюда. Так что каверзные вопросы буду задавать теперь здесь (да и подветка форума здесь более специализированная).
Спасибо за Ваш подробный и обстоятельный ответ!
Обязательно попробую сделать так, как Вы советуете. А пока что краткое описание того, что получилось на данный момент.
Делаю двухфакторный анализ. При этом получается:фактор А, фактор В, взаимоджействие А*В.
Сначала с помощью программы Rundom BC 1.0 (хотя сейчас уже есть версия 3.14, но у меня на компе она что-то не работает) сделал преобразование (опция normality and homogeneity of variances) cделал преобразование на уровне данных по группам, на уровне фактора А (т.е. 15 групп по 5 вариант в каждой, хотя, согласно критерию Шапиро-Уилка, из них только 2 не были нормально распределены). А уже потом сделал преобразование на уровне фактора В (это 3 временных срока, по 5 групп в каждом сроке с пятью вариантами в каждой группе; набор групп для всех сроков одинаков). И вот что получилось: уже после проведения Two-Way ANOVA (с использованием тех преобразованных данных, которые Rundom выводит сама) в STATISTICA 8.0, при проверка равенства дисперсий в модуле Assumptions представления результатов дисперсионного анализа, выясняется, что по фактору А (группы) дисперсии равны (тесты Бартлетта, Кохрейна, Хартли дают одинаковый - качественно -результат), дисперсии по фактору В - также равны, а вот по взаимодействию А*В - нет (все тесты дают одинаковый отрицательный результат).
Предполагаю, что или на уровне групп (фактор А) или, что представляется более вероятным, на уровне временных сроков (фактор В), и после преобразования сохраняется некоторая ассиметрия распределения. Взаимодействие факторов приводит к неравенству дисперсий на уровне их взаимодействия.
Почитал вот это http://forum.disser.ru/index.php?showtopic...t=0&start=0
Касательно Вашего первого поста в этой теме - есть еще критерий Брауна-Форсайта (Brown-Forsythe test), хотя подробно про него не знаю. В STATISTICA 8.0 он не реализован (есть в AtteStat).

Спасибо!


Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Blaid
сообщение 5.09.2012 - 14:24
Сообщение #4





Группа: Пользователи
Сообщений: 36
Регистрация: 27.08.2012
Пользователь №: 24128



(2) Если объёмы выборок малы - всего несколько значений на ячейку дисперсионного комплекса. Провожу ДА с непреобразованными данными и смотрю распредление остатков. Делаю для него Бокса-Кокса и на основании лямбды выбираю простое преобразование для всего комплекса.


Так сделать не удается - в остатках есть нулевые и отрицательные значения. Ни AtteStat, ни Rundom не преобразовывают такое.
Может быть нужно остатки брать по модулю (абсолютные значения), а к нулевым значениям прибавлять значащую величину?

Сообщение отредактировал Blaid - 5.09.2012 - 14:27
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
100$
сообщение 5.09.2012 - 21:51
Сообщение #5





Группа: Пользователи
Сообщений: 902
Регистрация: 23.08.2010
Пользователь №: 22694



Цитата(nokh @ 3.09.2012 - 22:32) *
Потом я понял, что с точки зрения более глубокого осмысления природы данных полезнее смотреть не преобразование Бокса-Кокса, а обычное логарифмическое преобразование но с константой: y'=log(y+a). Это хорошо описано у Хальда (Мат. статистика) и у Родионова (Статистика в геологии). К сожалению, мне не встречались программы, в которых было бы такое преобразование с итерационным подбором константы а. А очень жаль, т.к. у этого а есть биологический (или геологический или иной) смысл, тогда как у лямбды - исключительно математический.


Nokh, а нельзя выложить сканы этих методик (или их словесное описание), и тогда я запрограммирую это в качестве довеска к Экселю и выложу сюда.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Sjutka
сообщение 9.10.2012 - 16:19
Сообщение #6





Группа: Пользователи
Сообщений: 15
Регистрация: 13.09.2010
Пользователь №: 22733



Цитата(nokh @ 3.09.2012 - 21:32) *
А вообще, преобразование Бокса-Кокса раньше мне казалось очень удачным и крутым. Но на практике всегда возникали какие-то сомнения и сложности выбора (как и у вас). Потом я понял, что с точки зрения более глубокого осмысления природы данных полезнее смотреть не преобразование Бокса-Кокса, а обычное логарифмическое преобразование но с константой: y'=log(y+a). Это хорошо описано у Хальда (Мат. статистика) и у Родионова (Статистика в геологии). К сожалению, мне не встречались программы, в которых было бы такое преобразование с итерационным подбором константы а. А очень жаль, т.к. у этого а есть биологический (или геологический или иной) смысл, тогда как у лямбды - исключительно математический.


Здравствуйте, nokh!

Беспокою вас по поводу названия книги Д.А. Родионова "Статистика в геологии" . Вы имели ввиду книгу "Справочник по математическим методам в геологии"?

Спасибо!
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
nokh
сообщение 26.11.2012 - 15:24
Сообщение #7





Группа: Пользователи
Сообщений: 1202
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704



> 100$
К сожалению в книгах алгоритма нет. Сам Родионов пишет, что "Для этого пока не существует никаких приёмов кроме перебора различных вариантов значений константы до тех пор, пока не будет найден тот, при котором гипотеза о нормальном распределении будет принята для выборочных данных log(xi-a)." Т.е. нужно (1) самостоятельно задать область значений "а" для поиска, (2) выбрать к/л функцию в качестве маркёра отклонения отнормальности (3) по итерационному алгоритму прийти к минимуму этой функции. Я такой квалификации не имею:(

>Sjutka
Нет, в этой книге буквально строчка об этом. Подробнее в другой - "Статистические решения в геологии" (1981).
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
100$
сообщение 26.11.2012 - 18:04
Сообщение #8





Группа: Пользователи
Сообщений: 902
Регистрация: 23.08.2010
Пользователь №: 22694





Nokh, спасибо за ответ.
В таком случае все сказанное Родионовым - чистой воды шаманизм: теоретически ниоткуда не следует, что такая константа "а" может быть только одна.

Сообщение отредактировал 100$ - 26.11.2012 - 18:05
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 

Добавить ответ в эту темуОткрыть тему