Помощь - Поиск - Пользователи - Календарь
Полная версия этой страницы: Трансформация Бокса-Кокса
Форум врачей-аспирантов > Разделы форума > Медицинская статистика
fruitfly
Здравствуйте,
Ситуация: есть данные по шести экспериментальным группам. Хочу сделать АНОВУ, знаю что для этого данные должны быть нормально распределены. Вопрос такой: Как смотреть распределение (1) у всех групп по отдельности или (2) у всех групп вместе. Если (1) у 5 групп нормально распределены а у одной нет. Что делать. Что такое Cox-Box трансформация. Как ее сделать. Правда ли что это самая мощная трансформация?
Игорь
В случае, если распределение не является нормальным, нужно делать непараметрический дисперсионный анализ. К данной категории относятся: критерий Джонкхиера-Терпстра, критерий Краскела-Уоллиса, критерий Данна, ранговый критерий Фридмана, критерий Q Кокрена. Исходя из шкалы измерения и сопряженности исходных данных, следует выбрать подходящий метод.
плав
Рискуя показаться назойливым, все равно повторю - для проведения теста надо знать распределение показателя в популяции, а не в выборке. Поскольку основное допущение дисперсионного анализа - что все группы пришли из одной популяции, то надо анализировать суммарное распределение. Дисперсионный анализ относительно устойчив к небольшим отклонениям от нормального распределения, поэтому если отклонения будут небольшими, можно пользоваться и обычным дисперсионным анализом.
Трансформация Бокса-Кокса действительно используется достаточно часто для того, чтобы нормализовать данные.
T(трансформированное значение)=frac{y^{\lambda}-1}{\lambda} если lambda не равно 0 и
T(трансформированное значение)=ln{y} если lambda=0
Довольно часто программы имеют встроенные процедуры, которые позволяют найти наилучшее значение lambda. Затем данные трансформируются и с ними работают, как с исходными.
Игорь
Если не трудно, просьба указать источники, по которым можно ознакомиться с преобразованием Бокса-Кокса и другими методами нормализации данных, в том числе с критериями адекватности такой нормализации.
плав
Достаточно полное описание методов трансформации, включая трансформацию Бокса-Кокса дано в Armitage P., Berry G., Matthews J. Statistical Methods in Medical Research (Blackwell Science, 2002) раздел 10.8
Оригинальная работа была опубликована Box, George E. P.; Cox, D. R. (1964). "An analysis of transformations". Journal of Royal Statistical Society, Series B 26: 211-246
Очень неплохой обзор современного состояния, включая ряд проблем трансформации (достаточно технический) можно найти тут
http://www.stat.uconn.edu/~studentjournal/.../pengfi_s05.pdf
Википедия содержит краткое введение со ссылками на интерактивные экспериментальные страницы
http://en.wikipedia.org/wiki/Box-Cox_transformation
Довольно много статей посвященных разным аспектам использования этой трансформации, в основном в эконометрической литературе, есть в Интернете, например http://ageconsearch.umn.edu/bitstream/1234.../1/08010068.pdf
Кроме того, как обычно SAS предоставляет описание этого вида трансформации в документации на процедуру TRANSREG, которая как раз выполняет трансформацию по Боксу-Коксу и находит наилучшие значения параметра лямбда с которыми и может выполнять дисперсионный анализ или регрессию
Игорь
Большое спасибо.
Игорь
Собрал комплект оригинальных источников.

А есть ли по трансформациям вообще источники на русском языке? Если кто знает, укажите, пожалуйста.

Интересуют, конечно, не учебники по эконометрике, почти в каждом из которых метод упоминается, а работы, к примеру, описывающие алгоритмы подбора параметров преобразования.
плав
Цитата(Игорь @ 12.07.2008 - 17:46) *
Собрал комплект оригинальных источников.

А есть ли по трансформациям вообще источники на русском языке? Если кто знает, укажите, пожалуйста.

Интересуют, конечно, не учебники по эконометрике, почти в каждом из которых метод упоминается, а работы, к примеру, описывающие алгоритмы подбора параметров преобразования.

Так вроде Бокс и Кокс в своей статье как раз описали алгоритм, основанный на методе максимального правдоподобия.
Игорь
Да, конечно, изучаем.

Метод Зарембки оценки параметра лямбда искал. О русских источниках и речи нет frown.gif Английские не смог пока найти в бесплатном виде. Если не будут найдены работы, можно будет восстановить алгоритм по косвенным источникам. Что не раз уже бывало.
nokh
Цитата(Игорь @ 12.07.2008 - 21:49) *
... О русских источниках и речи нет...

Разбирался с Б-К год назад - прикрепил файл с пошаговым решением на примере (в форматах doc и на случай неотображения формул - pdf). Источник там указан, правда на итальянском, но понять что к чему можно. К сожалению, это самое простое преобразование Бокса-Кокса - однопараметрическое, не предусматривающее сдвига распределения на константу. Но именно оно чаще всего и используется.
Игорь
Спасибо, уважаемый nokh!

А вот эта работа Вам не встречалась?

Zarembka P. Transformation of variables in econometrics // In Frontiers in Econometrics / Ed by. P. Zarembka. - New York, NY: Academic Press, 1974.
плав
Кстати, попытаться разобраться в подходах можно при анализе кода программ, выполняющих эту трансформацию, например M.Friendly (язык SAS, он использует регрессию) http://www.math.yorku.ca/SCS/sasmac/boxcox.html или же программу в MatLab (http://www.mathworks.com/matlabcentral/fileexchange/loadFile.do?objectId=10419&objectType=FILE или она же http://www.mathworks.com/matlabcentral/fil...419/boxcoxlm.m).
Несколько других интересных статей, которые могут быть полезны:
http://dspace.mit.edu/bitstream/1721.1/231...87-22473972.pdf
http://ageconsearch.umn.edu/bitstream/32394/1/05020129.pdf
http://www.ajd.umontreal.ca/source-pdf/newcrt972.pdf
http://www.oup.com/uk/orc/bin/978019928096...erty3e_ch04.pdf
В последней ссылке приведена процедура Зарембки
плав
Нуждается в проверке, но, похоже, можно использовать следующий подход для выбора наиболее адекватного параметра лямбда трансформации (в Экселе)
1. Внести в таблицу значения х и у
2. Рассчитать трансформированные значения у для разных значений лямбда по формуле (y^lambda-1)/lambda и LOG(y) для лямбда=0.
3. Рассчитать среднее геометрическое для каждого трансформированного значения
4. Разделить все трансформированные значения на среднее геометрическое
5. Подсчитать коэффициент корреляции между х и трансформированных и деленным значением у.
6. Значение лямбда с наибольшим коэффициентом корреляции и есть нужное значение лямбда.
Поскольку процедура итеративная, найдя максимум при большом шаге лямбда, ставим найденное значение в середину и с боков ставим значения чуть меньшие и большие (grid search).
Прикрепляю экселевский файл с примером, где этот подход реализован (проверен сравнением результата с PROC TRANSREG SAS), хотя не считает доверительные интервалы.
nokh
>Игорь. Нет не встречалась, да и не знал про такую. Сейчас погуглил сам, начал смотреть ссылки Плава. Насколько понял, метод Зарембки используется в регрессионом анализе. Сходный с представленным выше Плавом алгоритм Заребки нашел тоже в C. Dougherty. Introduction to Econometrics (видно издание другое стр. 167 и без вывода формул): http://www.iaaeg.de/documents/kapitel_5.pdf .Только там не максимизируется коэффициент корреляции x и y, а минимизируется сумма квадратов отклонений от линейной регресии x и y, что аналогично.
В моем примере преобразование Бокса-Кокса использовалось для другой цели - нормализации распределения (в одной выборке). Если будете разбираться с алгоритмами, подскажите, пожалуйста, автора алгоритма в примере. Встречал также третью разновидность преобразования - программную реализацию алгоритма Б-K с одновременной оптимизацией нормальности и однородности дисперсий (для случая нескольких выборок) в бесплатной программе Rundom-BC: http://pjadw.tripod.com/legacy.htm#j2. Мой ручной расчет совпадает с выдаваемым этой программой для одновыборочного случая (не SAS, конечно, но тоже приятно smile.gif).
плав
Цитата(nokh @ 13.07.2008 - 19:21) *
>Игорь. Нет не встречалась, да и не знал про такую. Сейчас погуглил сам, начал смотреть ссылки Плава. Насколько понял, метод Зарембки используется в регрессионом анализе. Сходный с представленным выше Плавом алгоритм Заребки нашел тоже в C. Dougherty. Introduction to Econometrics (видно издание другое стр. 167 и без вывода формул): http://www.iaaeg.de/documents/kapitel_5.pdf .Только там не максимизируется коэффициент корреляции x и y, а минимизируется сумма квадратов отклонений от линейной регресии x и y, что аналогично.
В моем примере преобразование Бокса-Кокса использовалось для другой цели - нормализации распределения (в одной выборке). Если будете разбираться с алгоритмами, подскажите, пожалуйста, чей алгоритм в примере. Встречал также третью разновидность преобразования - программную реализацию алгоритма Б-K с одновременной оптимизацией нормальности и однородности дисперсий (для случая нескольких выборок) в бесплатной программе Rundom-BC: http://pjadw.tripod.com/legacy.htm#j2. Мой ручной расчет совпадает с выдаваемым этой программой для одновыборочного случая (не SAS, конечно, но тоже приятно smile.gif).

На самом деле я тоже начал минимизировать сумму квадратов, но наткнулся на то, что TRANSREG и другие программы дают иной результат, пытаясь нормализовать отклик в рамках регрессионного уравнения (т.е. варьируют лямбда и коэффициент регрессии). Моя ошибка была в том, что я пытался фиксировать коэффициент регрессии одинаковым для всех (бета1=1), а нужно варьировать одновременно коэффициентом регрессии и лямбда. Поэтому я стал использовать коэффициент корреляции.
Игорь
Поизучал немного источники по данной новой для себя теме. Ну вот, оказалось все так.
Цитата(nokh @ 13.07.2008 - 18:21) *
>Сходный с представленным выше Плавом алгоритм Заребки нашел тоже в C. Dougherty. Introduction to Econometrics (видно издание другое стр. 167 и без вывода формул): http://www.iaaeg.de/documents/kapitel_5.pdf .Только там не максимизируется коэффициент корреляции x и y, а минимизируется сумма квадратов отклонений от линейной регресии x и y, что аналогично.

Есть русское издание "Доугерти К. Введение в эконометрику. - М.: ИНФРА-М, 1999". Причем даже в Сети smile.gif
Цитата(nokh @ 13.07.2008 - 18:21) *
В моем примере преобразование Бокса-Кокса использовалось для другой цели - нормализации распределения (в одной выборке). Если будете разбираться с алгоритмами, подскажите, пожалуйста, автора алгоритма в примере. Встречал также третью разновидность преобразования - программную реализацию алгоритма Б-K с одновременной оптимизацией нормальности и однородности дисперсий (для случая нескольких выборок) в бесплатной программе Rundom-BC: http://pjadw.tripod.com/legacy.htm#j2. Мой ручной расчет совпадает с выдаваемым этой программой для одновыборочного случая (не SAS, конечно, но тоже приятно smile.gif).

Алгоритм практически из статьи Бокса-Кокса "Box G.E.P., Cox D.R. An analysis of transformations // Journal of Royal Statistical Society: Series B (Statistical Methodology), 1964, vol. 26, no. 2, pp. 211-246" с той разницей, что, в отличие от примера, в оригинале (в формуле для логарифмической функции максимального правдоподобия) нет умножения на "ню" (смысл? - разве если не игнорировать константу - вот здесь полная версия ФМП: http://projecteuclid.org/euclid.lnms/121546484) и на n не делится второе слагаемое, а умножается первое. Собственно, для максимизации ФМП все это не имеет никакого значения.
Поиск оптимальной лямбды перебором неэффективен. Можно использовать любой метод оптимизации. Хотя бы метод деления отрезка пополам.

Наверное, неплохо бы сделать и еще ряд преобразований. Хотя бы гиперболический арксинус, который, в отличие от Бокса-Кокса, может производить преобразование не только положительных, но и любых данных. ФМП для гиперболического арксинуса имеет другой вид, нежели для Бокса-Кокса. Для Бокса-Кокса - это кривая типа параболы. Для гиперболического арксинуса - две кривых, симметричных относительно нуля. Лямбда для Бокса-Кокса в наших экспериментах всегда была в интервале от -2 до 2. Для гиперболического арксинуса лямбда находилась в интервале от 0 (не включая) до 1. Источники: http://personal.lse.ac.uk/lintono/downloads/llvtrafo.pdf, http://citeseer.ist.psu.edu/linton97analysis.html. В обоих источниках только, по-моему, небольшая ошибка в ФМП (нет 1/2) и явная ошибка (лямбда должна быть в квадрате) в якобиане для гиперболического арксинуса.

Численные эксперименты показали следующее:

1. Вместо ФМП с успехом можно применить любой критерий проверки нормальности (например, статистику или p-значение критерия Шапиро-Франсиа). Представляется, что это даже более объективная характеристика. ФМП дает лучшую, в рамках рассматриваемой модели, трансформацию. Но "лучшая" еще не значит "верная". Так, некоторые наборы данных, в рамках модели, нельзя трансформировать в данные с нужными свойствами. Например, нормальны ли новые данные, все равно необходимо проверить. Почему бы это не сделать сразу?

2. Возможно организовать трансформацию данных для получения результата с требуемыми свойствами (симметричность, скошенность, функция распределения). Например, требуется симметричность. В качестве критерия используем значимость коэффициента асимметрии. И т.п.
nokh
Большое спасибо за информацию! Доугерти в и-нете нашел сразу, AtteStat опробовал. По поводу добавления преобразований: может их в отдельный модуль вынести, если много набирается?
С гиперболическим арксинусом не встречался, а по Вашим ссылкам еще не сходил. Полезная вещь - угловое фи-преобразование для частот (y'=2arcsinSQRT(p)). Также широко использовал преобразование Фримана-Тьюки (Freeman-Tukey transformations y'=SQRT(y)+SQRT(y+1)), правда это было до освоения Бокса-Кокса. Существует также вариант углового преобразование Фримана-Тьюки для частот (встречались разные формулы). К сожалению, оригинальными работами не располагаю. Отдельного внимания заслуживают преобразования для работы с композиционными данными. Но не знаю, стоит ли их включать, т.к. бесплатно распространяется пакет CoDaPack (тоже надстройка к Excel), который их делает. (Анализ композиционных данных - огромный вал работ, который, похоже, пока до нас не докатился. Кому интересно - можно начать знакомство отсюда: http://ima.udg.edu/Activitats/CoDaWork08/. Все работы CoDaWork за 2003 и 2005 гг - в свободном доступе).
Игорь
Цитата(nokh @ 17.07.2008 - 18:28) *
По поводу добавления преобразований: может их в отдельный модуль вынести, если много набирается?

Согласен, так и нужно сделать. Модуль называется "Преобразования данных".
Игорь
Цитата(fruitfly @ 10.12.2007 - 02:46) *
Здравствуйте,
Ситуация: есть данные по шести экспериментальным группам. Хочу сделать АНОВУ, знаю что для этого данные должны быть нормально распределены. Вопрос такой: Как смотреть распределение (1) у всех групп по отдельности или (2) у всех групп вместе. Если (1) у 5 групп нормально распределены а у одной нет. Что делать. Что такое Cox-Box трансформация. Как ее сделать. Правда ли что это самая мощная трансформация?

Хотя в данной теме мы всячески обсудили преобразования данных и задали хороший импульс для дальнейшего изучения интересного раздела прикладного анализа, считаю, применять классическое (одномерное) преобразование Бокса-Кокса в данном случае нельзя.

В данном случае, видимо, следует применять его многомерное обобщение. Вот источник http://citeseer.ist.psu.edu/377978.html.
плав
Цитата(Игорь @ 26.07.2008 - 13:58) *
Хотя в данной теме мы всячески обсудили преобразования данных и задали хороший импульс для дальнейшего изучения интересного раздела прикладного анализа, считаю, применять классическое (одномерное) преобразование Бокса-Кокса в данном случае нельзя.

В данном случае, видимо, следует применять его многомерное обобщение. Вот источник http://citeseer.ist.psu.edu/377978.html.

Не могу с этим однозначно согласиться. Описанное задание (так как оно сформулировано) напоминает классическое задание для применения трансформации Бокса-Кокса. Есть переменная отклика (возможно, не нормальная) и влияющая переменная с шестью уровнями. Соответственно, находится лямбда, которая минимизирует ошибку, иными словами делаем следующую дисперсионную модель: boxcox(dependent) ~ independent
Игорь
Прошу прощения, что отнимаю внимание собеседников, но применение преобразований - очень важная тема на том основании, что их использование позволяет применить мощные методы параметрической статистики к данным, до преобразований нормального распределения не показывавшим. Поэтому ряд вопросов нуждается в уточнении.
Цитата(плав @ 26.07.2008 - 16:51) *
Не могу с этим однозначно согласиться. Описанное задание (так как оно сформулировано) напоминает классическое задание для применения трансформации Бокса-Кокса. Есть переменная отклика (возможно, не нормальная) и влияющая переменная с шестью уровнями. Соответственно, находится лямбда, которая минимизирует ошибку, иными словами делаем следующую дисперсионную модель: boxcox(dependent) ~ independent

Означает ли это, что практически для вычислений оптимальной лямбды используется весь представленный массив данных?
Либо нужно находить оптимальную лямбду для каждого вектора данных без учета всех остальных?
плав
Цитата(Игорь @ 27.07.2008 - 10:09) *
Прошу прощения, что отнимаю внимание собеседников, но применение преобразований - очень важная тема на том основании, что их использование позволяет применить мощные методы параметрической статистики к данным, до преобразований нормального распределения не показывавшим. Поэтому ряд вопросов нуждается в уточнении.

Означает ли это, что практически для вычислений оптимальной лямбды используется весь представленный массив данных?
Либо нужно находить оптимальную лямбду для каждого вектора данных без учета всех остальных?

Конечно, находим одну лямбда для всего массива данных, поскольку мы же тестируем нулевую гипотезу о том, что (в данном случае) все шесть выборок произошли из одной популяции (mu1=mu2=mu3=mu4=mu5=mu6), соответственно, распределение в этом случае у всех шести должно быть одно. Если же предположить, что распределения разные, то это автоматически отвергает нулевую гипотезу.
Игорь
Цитата(плав @ 26.07.2008 - 16:51) *
Не могу с этим однозначно согласиться. Описанное задание (так как оно сформулировано) напоминает классическое задание для применения трансформации Бокса-Кокса. Есть переменная отклика (возможно, не нормальная) и влияющая переменная с шестью уровнями. Соответственно, находится лямбда, которая минимизирует ошибку, иными словами делаем следующую дисперсионную модель: boxcox(dependent) ~ independent

Обдумал. Вы совершенно правы, уважаемый плав. Я ошибся. В данной задаче так и должно быть.

Еще раз посмотрел найденные материалы по ссылке, которые указал выше, о многомерном преобразовании Бокса-Кокса. Автор настоятельно рекомендует его использование в случае применения факторного и дискриминантного анализа. Словом, там, где исходные данные, при внешней схожести (таблица) представляют собой не набор выборок, а одну многомерную выборку. В этом случае ведь действительно нужно применять многомерное обобщение Бокса-Кокса, а не обычное преобразование для каждого "измерения"?
плав
Цитата(Игорь @ 27.07.2008 - 16:08) *
Обдумал. Вы совершенно правы, уважаемый плав. Я ошибся. В данной задаче так и должно быть.

Еще раз посмотрел найденные материалы по ссылке, которые указал выше, о многомерном преобразовании Бокса-Кокса. Автор настоятельно рекомендует его использование в случае применения факторного и дискриминантного анализа. Словом, там, где исходные данные, при внешней схожести (таблица) представляют собой не набор выборок, а одну многомерную выборку. В этом случае ведь действительно нужно применять многомерное обобщение Бокса-Кокса, а не обычное преобразование для каждого "измерения"?

Вы абсолютно правы, в той статье речь идет о многомерных методиках, т.е. случаях, когда у нас есть несколько разных переменных. Иными словами, если бы автор изучал влияние взаимосвязь уровней систолического, диастолического артериального давления, триглицеридов, холестрина и возраста, то тогда надо было бы использовать многомероное обобщение.
Pinus
Разбираюсь с Боксом-Коксом, в целом технология вроде бы понятна, но появляются вопросы. Например, почему для регрессии нужно преобразовывать и отклик, и предиктор? Скажем в однофакторном ANOVA преобразуем только Y (X - просто уровни фактора). Но регрессия - это почти ANOVA, только фактор непрерывен. Тогда почему надо преобразовывать еще и X?
Pinus
Нашел еще хороший русский источник по Боксу-Коксу:
Айвазян С.А. Прикладная статистика. Основы эконометрики: Учебник для вузов; В 2 т. 2-е изд., испр. ? Т. 2. ? М.: ЮНИТИ-ДАНА, 2001. ? 432 с.
Там, кстати есть ответ на мой вопрос: можно преобразовывать и один Y, и Y с X вместе. Только есть разница в алгоритме определения лямбда.
nokh
Цитата(Pinus @ 6.02.2010 - 15:52) *
Нашел еще хороший русский источник по Боксу-Коксу:
Айвазян С.А. Прикладная статистика. Основы эконометрики: Учебник для вузов; В 2 т. 2-е изд., испр. ? Т. 2. ? М.: ЮНИТИ-ДАНА, 2001. ? 432 с.
Там, кстати есть ответ на мой вопрос: можно преобразовывать и один Y, и Y с X вместе. Только есть разница в алгоритме определения лямбда.

Это преобразование можно использовать руководствуясь разными целями, соответственно и результат будет разный. Классическое преобразование БК используется для нормализации распределения одной переменной. Следовательно в регрессии речь идёт о таком преобразовании зависимой переменной Y.
Про линеаризирующую модификацию преобразования БК, полагаю, в мире знает не так много людей - иначе спецы в эконометрике уже раструбили бы это по всем учебникам - больше чем они никто с регрессиями не работает. Я наткнулся на него случайно и из любопытства тогда попробовал - получилось. Применение этой модификации к независимой переменной X позволяет изменять степень кривизны регрессии. Можете поиграться с ним построив несколько простеньких нелинейных зависимостей известных типов (степенное, показательное, обратное) с известными параметрами регрессии и посмотреть как оно работает (я игрался).
В случае многомерного анализа типа главных компонент в идеале нужно многомерное нормальное распределение, которое нужно сказать на практике не наблюдается (даже идеальное двумерное норм. распределение - редкость). Следовательно правильнее будет трансформировать не каждый признак по отдельности, а весь массив. Это будет уже другая модификация пр-я Бокса-Кокса, которой нас Игорь порадовал в AtteStat.
Также его можно "заточить" и на что-то ещё, например на однородность дисперсии. Главное чтобы семейство степенных преобразований решало проблему (преобразование Бокса-Кокса не подходит для долей, не устраняет периодичность и др.)
Т.о. для случая регрессии можно одновременно применить 2 модификации Бокса-Кокса. Нормализующее преобразование для Y и линеализирующее для X. Вопрос на засыпку: какое делать вперёд? smile.gif
Pinus
Цитата(nokh @ 7.02.2010 - 17:46) *
Т.о. для случая регрессии можно одновременно применить 2 модификации Бокса-Кокса. Нормализующее преобразование для Y и линеализирующее для X. Вопрос на засыпку: какое делать вперёд?

Айвазян пишет, что после преобразования Б-К совокупность удовлетворяет всем требованиям нормальной классической линейной модели регрессии (включая нормальность остатков и однородность дисперсий). Может быть я не правильно понял, или не все знаю, но может быть или один Y, или Y и X вместе? И в том и в другом случае нормализует, а во втором случае еще делает однородными дисперсии остатков и линеаризует. А один X без Y в регрессии похоже нельзя.
Что значит заточить под однородность дисперсий? Методом подбора найти нужный эффект?
Green
> Нормализующее преобразование для Y и линеализирующее для X. Вопрос на засыпку: какое делать вперёд?

Опять я Вас не совсем понимаю.
Ведь если взять формулу для преобразования Б-К, то там стоит один аргумент, а не два сразу.
Поэтому какая разница?
Если же для линеаризации Х используется одновременно Y - тогда часть информации будет уже использована для линеаризации, перед построением регрессии. Как-то неправильно...?
Но тогда уж пусть Y - будет нормально. Т.е. сначала тянуть до нормальности. Потом тянуть до линейности.


>Айвазян пишет, что после преобразования Б-К совокупность удовлетворяет всем требованиям...
Надо посмотреть Айвазяна внимательно , потому что если опять же смотреть на формулу Б-К - то она не вытянет, к примеру функцию с двумя экстремумами к функции с одним. Преобразование Б-К - монотонно (возрастающее/убывающее).
Постараюсь найти Айвазяна. Скорее всего, там еще ограничения на использование или что-то такое...
А то получается, что синусоиду выпрямим до прямой линии.
nokh
Цитата(Pinus @ 7.02.2010 - 14:50) *
Айвазян пишет, что после преобразования Б-К совокупность удовлетворяет всем требованиям нормальной классической линейной модели регрессии (включая нормальность остатков и однородность дисперсий). Может быть я не правильно понял, или не все знаю, но может быть или один Y, или Y и X вместе? И в том и в другом случае нормализует, а во втором случае еще делает однородными дисперсии остатков и линеаризует. А один X без Y в регрессии похоже нельзя.
Что значит заточить под однородность дисперсий? Методом подбора найти нужный эффект?

Неоднородность дисперсий часто вызывается тем, что в асимметричных распределениях среднее связано с дисперсией (см. Закс, стр. 466-468). Поэтому нормализация данных "развязывает" среднее и дисперсию и т.о. помимо собственно нормализации ведёт и к повышению однородности дисперсий. Но если причина неоднородности дисперсий не была связана с асимметричностью распределения - преобразование проблему гетероскедастичности не решит. Например известно, что с возрастом шум биологических процессов увеличивается, поэтому теоретически можно предположить существование таких признаков, которые будучи нормально распределены, тем не менее с возрастом увеличивают изменчивость. Тогда классический нормализующий Бокс-Кокс не поможет. Кстати параметр лямбда ищется именно методом подбора, а функцию правдоподобия можно переписать в зависимости от цели: нормализация, увеличение гомоскедастичности, увеличение линейности отклика. Просто обычно речь идёт только о нормализации.

Цитата(Green @ 7.02.2010 - 15:45) *
... Но тогда уж пусть Y - будет нормально. Т.е. сначала тянуть до нормальности. Потом тянуть до линейности.

А как мы определим ненормальность Y? Построим зависимость, найдём остатки и проанализируем их распределение. А какой функцией мы будем приближать нелинейную зависимость, если её истинная форма нам не известна? - ведь мы и выбрали линеаризирующее преобразование Бокса-Кокса чтобы максимально спрямить неизвестную функцию. Если выберем для криволинейной зависимости прямую - остатки будут помимо вариабельности Y содержать также отклонения от линейности, а это помешает правильно нормализовать Y. Выходит сначала нужно линеаризовать зависимость преобразованием X, а уже затем подбирать нормализующее преобразование для Y. Но тогда, учитывая ненормальность Y линеаризация будет сделана с погрешностью. Такой вот замкнутый круг. Поэтому и написал, что вопрос - на засыпку.




Green
>А как мы определим ненормальность Y?
Самым обычным способом. Мы же считаем, что это переменная исследования (зависимая).
В общем случае, если строить регрессию, есть требование нормальности Y. ( Я помню, что мы это обсуждали, но...если все-таки опираться на классику, то для регрессии требуется нормальность Y, поэтому я вынесла преобразование Y до нормального вперед, перед преобразованием линейности).
nokh
Цитата(Green @ 9.02.2010 - 00:32) *
>А как мы определим ненормальность Y?
Самым обычным способом. Мы же считаем, что это переменная исследования (зависимая).
В общем случае, если строить регрессию, есть требование нормальности Y. ( Я помню, что мы это обсуждали, но...если все-таки опираться на классику, то для регрессии требуется нормальность Y, поэтому я вынесла преобразование Y до нормального вперед, перед преобразованием линейности).

Каким это интересно "самым обычным"?. Подразумевается что Y нормально распределена на каждом уровне X. Нормальность распределения Y и нормальность распределения Y на каждом уровне X - абсолютно разные вещи. И при одном наблюдении Y на каждый X Вы никак не проверите нормальность Y кроме как исследовав остатки. А для получения адекватных этой задаче остатков нужно знать вид зависимости.
Green
Как описывается введение в регрессионную модель?
Вроде так:
Пусть истинная связь между у и х линейна и наблюдение у на каждом уровне х ? случайная величина. ( НЕ сказано, с каким распределением)

Матожидание для каждого значения E(y/x)= b0+b1*x
Каждое наблюдение у=b0+b1*x + е
е- случайная ошибка с нулевым матожиданием и дисперсией сигма^2

y-e - должно быть нормально распределено с матожиданием y и сигма^2.

Вот отсюда и требование к Y - иметь нормальное распределение.
А не на каждом уровне Х.

Надо порыться в старых учебниках. Новые не внушают доверия frown.gif
nokh
Цитата(Green @ 10.02.2010 - 00:30) *
... Надо порыться в старых учебниках. Новые не внушают доверия frown.gif

Поройтесь, а для меня это - вопрос решённый, смысла в дальнейшей дискуссии не вижу.
Pinus
Цитата(Green @ 9.02.2010 - 05:32) *
В общем случае, если строить регрессию, есть требование нормальности Y. Я помню, что мы это обсуждали, но...если все-таки опираться на классику, то для регрессии требуется нормальность Y...
... Вот отсюда и требование к Y - иметь нормальное распределение. А не на каждом уровне Х. Надо порыться в старых учебниках. Новые не внушают доверия ...

Green, пожалуй что Вы не правы. Если приведете пример какой-нибудь книги (имеются ввиду авторитетные авторы, а не разные компиляции и учебные методички), то это будет интересно.
Pinus
Цитата(nokh @ 10.02.2010 - 06:03) *
... а для меня это - вопрос решённый ...

Nokh, я Ваc спрашивал в теме о выбросах, по поводу роли распределения переменных в оценке влияния наблюдений на регрессию. Мои мысли по этому поводу, что желательны симметричные распределения (не обязательно нормальные). Извините за навязчивость, но все-таки, что Вы думаете по этому поводу?
Green
nokh, Pinus
Афифи, Эйзен. Статистический анализ, Москва, Мир , 1982. Стр 147 (речь о случайных величинах, но не о нормально распределенных)
Монтгомери, Планирование эксперимента и анализ данных, 1980. стр282 , 288 ( а вообще всю главу прочтите)
Из модели, что ошибка e - распределена нормально, из того, что мы хотим оценить коэффициенты/параметры следует именно это. ( стр 288 внизу).


И еще. Оттого, что Вы для себя решаете, не следует что так трактует теория статистического оценивания.
Для того, чтобы провести оценку параметров - нам нужно предположение о нормальности.
=======
можно взять модель с любым распределением ошибки, но математика не проработана.
а проработана она для вот такого:

Матожидание для каждого значения E(y/x)= b0+b1*x
Каждое наблюдение у=b0+b1*x + е
е- случайная ошибка с нулевым матожиданием и дисперсией сигма^2

-------
А теперь жду источника, где написано что нужно норм распределение на каждом уровне X. Желательно не последних лет издания.
Или пояснения фразы "Подразумевается что Y нормально распределена на каждом уровне X. "

---------
Вообще, у меня возникает ощущение что Вы путаете два понятия - линейна по параметрам и линейна по переменным.
у=k*x+b
y=k*(x^2)+b
y=k*ln(x)+b

эти все функции линейны по параметрам. В теории статоценивания нам нужно оценить параметры.
поэтому сделайте нормальным y и крутите любые степени от х.





bubnilkin
Цитата(плав @ 11.12.2007 - 22:21) *
для проведения теста надо знать распределение показателя в популяции, а не в выборке. Поскольку основное допущение дисперсионного анализа - что все группы пришли из одной популяции, то надо анализировать суммарное распределение. Дисперсионный анализ относительно устойчив к небольшим отклонениям от нормального распределения, поэтому если отклонения будут небольшими, можно пользоваться и обычным дисперсионным анализом.


плав, Вы неоднократно озвучивали это на форуме, звучит, действительно, логично, но можно ссылку wink.gif

Если получены данные с неправильным распределением, их всегда нужно нормализовать?

Отклонение от нормального распределения на сколько допустимо для ANOVA?
Pinus
Цитата(Green @ 11.02.2010 - 00:33) *
nokh, Pinus
Афифи, Эйзен. Статистический анализ, Москва, Мир , 1982. Стр 147 (речь о случайных величинах, но не о нормально распределенных)
Монтгомери, Планирование эксперимента и анализ данных, 1980. стр282 , 288 ( а вообще всю главу прочтите)
Из модели, что ошибка e - распределена нормально, из того, что мы хотим оценить коэффициенты/параметры следует именно это. (стр 288 внизу).
Green, Вы утверждали, что для проведения регрессионного анализа необходимо нормальное распределение переменной Y. В приведенных Вами источниках на указанных страницах подтверждения Ваших слов нет.

Цитата(Green @ 11.02.2010 - 00:33) *
А теперь жду источника, где написано что нужно норм распределение на каждом уровне X.
Можно привести много источников, но сначала докажите свои утверждения.
Если хотите развивать этот вопрос, то лучше открыть новую тему. В этой теме отвечать больше не буду.




Green
Нажмите для просмотра прикрепленного файла

Есть такая центральная предельная теорема, которая гласит, что сумма большого количества слабозависимых случайных величин имеет распределение, близкое к нормальному.
Так вот, нам нужно оценить параметр b1. он оценивается по сумме yi ( которые являются случайными величинами, не обязательно нормальными на каждом уровне, но гомоскедастичными). yi- представляются как b1*xi+b0
Мы оцениваем параметры регрессии, а не объясняем зависимость у от х. Для оценки параметров достаточно, чтобы у имел НР. или проверять остатки на НР. Проверять на каждом уровне - это избыточно.
сумма - это линейное преобразование ( ссылка на линейную алгебру), и слово линейное в сочетании "линейная регрессия" относится к линейным преобразованиям, а не к прямой линии. поэтому, я писала в другой теме, нас интересует линейность по параметрам, а не в том смысле, что x - в первой степени.
nokh
Цитата(Pinus @ 10.02.2010 - 13:53) *
Nokh, я Ваc спрашивал в теме о выбросах, по поводу роли распределения переменных в оценке влияния наблюдений на регрессию. Мои мысли по этому поводу, что желательны симметричные распределения (не обязательно нормальные). Извините за навязчивость, но все-таки, что Вы думаете по этому поводу?

Если честно - не знаю. Вникать глубоко у меня сейчас пока нет возможности, а чтобы разобраться, нужно именно прочувствовать проблему на конкретных данных, лучше - на своих. За выбросы и влияющие наблюдения я взялся т.к. давно знал свой пробел в этом, а разобраться - повода не было. Скорее всего по части регрессии и влияющих наблюдений Вы уже более компетентны чем я, т.к. с регрессией сталкиваюсь редко, чаще дисперсионный, логлинейный анализ и ординация.
Pinus
Nokh, спасибо большое за ответ! А то я уже думал: или времени нет, или отвечать не хочет... У меня проблемы с инязом. Да и времени тоже не бесконечность, руководитель толкает: давай-давай, а хочется сделать качественно. А чем больше читаешь, тем больше и новых возможностей и, соответственно, больше вопросов. Еще раз спасибо.
nokh
Бокс-Кокс для расчёта средних и ДИ

Нашёл у себя ошибки в вычислениях. Устраню - выложу вопрос заново.
Для просмотра полной версии этой страницы, пожалуйста, пройдите по ссылке.
Форум IP.Board © 2001-2025 IPS, Inc.