Непараметрическая статистика, различия в результатах анализа по Фридмену и теста Уилкоксона |
Здравствуйте, гость ( Вход | Регистрация )
Непараметрическая статистика, различия в результатах анализа по Фридмену и теста Уилкоксона |
26.07.2009 - 12:29
Сообщение
#16
|
|
Группа: Пользователи Сообщений: 1325 Регистрация: 27.11.2007 Пользователь №: 4573 |
Да, и у Кобзаря (ссылку любезноо предоставил nokh) на стр. 482 хорошо описан этот критерий и назван Пейджа (Page). Мы, как то, на этом форуме разбирали критерий сдвига Джонкхиера-Терпстры (у Кобзаря Терпстры-Джонкхира). Но после того как сдвиг доказан, все равно нужно проводить парные сравнения и использовать поправку Бонферрони, как и сделал автор поста. Но его вопрос был в том, что он получил различающиеся оценки при испорльзовании разных критериев.
|
|
28.07.2009 - 07:31
Сообщение
#17
|
|
Группа: Пользователи Сообщений: 1114 Регистрация: 10.04.2007 Пользователь №: 4040 |
Но его вопрос был в том, что он получил различающиеся оценки при испорльзовании разных критериев. Результаты в данном случае и должны различаться. Мы могли бы обсудить, почему и насколько они различаются при наличии исходных данных. Автор темы их не приводит. Сообщение отредактировал Игорь - 28.07.2009 - 17:50 Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!
|
|
10.12.2009 - 08:09
Сообщение
#18
|
|
Группа: Пользователи Сообщений: 244 Регистрация: 28.08.2009 Пользователь №: 6286 |
Есть такая задача.
Рассматриваем две независимые выборки, в которых переменная Y подвержена влиянию фактора X (Y и X непрерывные случайные величины). Каждая выборка относится к определенному типу условий Z (качественный признак). Если рассматривать каждую выборку раздельно, то выявлено достоверное влияние X на Y и найдены уравнения регрессии с R^2>0,75. Необходимо определить значимость влияния типа условий Z на переменную Y. Распределения Y и X не являются нормальными. Мои соображения: Сгруппировать значения X по интервалам. Интервалы проранжировать. Тогда можем использовать двухфакторный дисперсионный анализ, но поскольку нет нормальности распределений, то он должен быть непараметрическим. В каждой ячейке плана предполагается самое разное количество наблюдений. Пустых ячеек скорее всего не будет. Двухфакторный анализ Фридмана не пойдет (применяется для связанных выборок). Нашел у Кобзаря критерий Мака-Скилингса (с. 601) и Лемана-Мака (с. 603). Какие методы в этом случае еще можно применить? Сообщение отредактировал Pinus - 10.12.2009 - 08:14 |
|
10.12.2009 - 09:25
Сообщение
#19
|
|
Группа: Пользователи Сообщений: 1202 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704 |
Есть такая задача. Рассматриваем две независимые выборки, в которых переменная Y подвержена влиянию фактора X (Y и X непрерывные случайные величины). Каждая выборка относится к определенному типу условий Z (качественный признак). Если рассматривать каждую выборку раздельно, то выявлено достоверное влияние X на Y и найдены уравнения регрессии с R^2>0,75. Необходимо определить значимость влияния типа условий Z на переменную Y. Распределения Y и X не являются нормальными. Мои соображения: Сгруппировать значения X по интервалам. Интервалы проранжировать. Тогда можем использовать двухфакторный дисперсионный анализ, но поскольку нет нормальности распределений, то он должен быть непараметрическим. В каждой ячейке плана предполагается самое разное количество наблюдений. Пустых ячеек скорее всего не будет. Двухфакторный анализ Фридмана не пойдет (применяется для связанных выборок). Нашел у Кобзаря критерий Мака-Скилингса (с. 601) и Лемана-Мака (с. 603). Какие методы в этом случае еще можно применить? Предложенный подход приведёт к сильной потере информации и будет обладать малой мощностью. Про нормальность: модели как дисперсионного, так и регрессионного анализов не требуют нормального распределения Y и тем более X. Нормально должны быть распределены ошибки модели, которые в регрессионном анализе чаще называют остатками. Но обычно если Y имеет нормальное распределение, то и ошибки будут также примерно нормально распределены. В дисперсионном анализе X - обычно вообще качественная переменная. Лучшее, что здесь можно сделать - ковариационный анализ (ancova) с предварительно преобразованными данными. Преобразования и в т.ч. Бокса-Кокса подробно обсуждались на форуме. Ограничения помимо норм. р-я ошибок - линейность зависимости и одинаковый наклон регрессий - только в этих условиях возможно выявить влияние Z на разность свободных членов регрессий. Нелинейность устраняется преобразованиями шкал x и y. Хуже всего статистически значимая непараллельность линий, но это только с точки зрения применимости данной техники, т.к. сама по себе непараллельность укажет на некорректность рассмотрения влияния Z на Y без одновременного учёта X - в терминах дисперсионного анализа это называется взаимодействием (XZ). |
|
10.12.2009 - 13:30
Сообщение
#20
|
|
Группа: Пользователи Сообщений: 120 Регистрация: 27.08.2009 Пользователь №: 6284 |
Pinus,
Условия Z - какая шкала? Если это страты( номинальная шкала) Рассуждаю так - у вас есть: модель зависимости Y=f(X) в условиях Z1 модель зависимости Y=f(X) в условиях Z2 задача - найти достоверную разницу между этими моделями? Можно оценить по отношению правдоподобия. Опять же, есть разные виды регресий. Соответственно, есть разные подходы. Подробнее бы написали о моделях и Z ? ( может это Кокс?...) Это не кованализ :)
|
|
10.12.2009 - 14:55
Сообщение
#21
|
|
Группа: Пользователи Сообщений: 1202 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704 |
Рассуждаю так - у вас есть: модель зависимости Y=f(X) в условиях Z1 модель зависимости Y=f(X) в условиях Z2 задача - найти достоверную разницу между этими моделями? Можно оценить по отношению правдоподобия... Никакие модели автора не интересуют, задача сформулирована чётко: Необходимо определить значимость влияния типа условий Z на переменную Y. Зачем переформулировать её непонятно во что? Сформулированная задача решается ковариационным анализом. |
|
10.12.2009 - 15:51
Сообщение
#22
|
|
Группа: Пользователи Сообщений: 244 Регистрация: 28.08.2009 Пользователь №: 6286 |
Лучшее, что здесь можно сделать - ковариационный анализ (ancova) с предварительно преобразованными данными. Nokh, если не затруднит, посоветуйте путнюю литературу по ковариационному анализу, а то я встречал только общие сведения о ковариации. Этот метод применим для полиномиальных зависимостей 2-го порядка?Про нормальность: модели как дисперсионного, так и регрессионного анализов не требуют нормального распределения Y и тем более X. Нормально должны быть распределены ошибки модели, которые в регрессионном анализе чаще называют остатками. Но обычно если Y имеет нормальное распределение, то и ошибки будут также примерно нормально распределены. Это очень хорошо, остатки у меня нормальные. Кстати в нескольких источниках встречал, и по регрессии, и по дисперсионному анализу, что одна из предпосылок это нормальное распределение переменных (что всегда вызывало подозрение); в других же источниках, что остатков. Это был для меня один из вопросов.Вообще изначально предполагалось, что Z будет оказывать влияние. Регрессии полиномиальные 2-го порядка, и думалось, что на графике в одинаковом масштабе одна получится выше, а другая ниже. А получилось, что совокупности почти накладываются, и параболы, за исключением крайней части, идут весьма близко друг к другу. Просто визуально обосновать, что нет влияния, будет плохо, надо какую-то статистическую достоверность. В дисперсионном анализе X - обычно вообще качественная переменная. Если все же порассуждать о дисперсионном анализе. Ввиду имеющейся точности метода наблюдений придется все равно X объединять в небольшие группы (по этой причине в другой теме интересовался про регрессию с ошибками в предикторах). Получится интервальная шкала (10-15 интервалов). В этом случае X будет количественной, но дискретной переменной. И если остатки нормальны, и остальные предпосылки выполняются, то можно обычный двухфакторный дисперсионный анализ. Как думаете?Предложенный подход приведёт к сильной потере информации и будет обладать малой мощностью. Проблема в группировке? Но если она все равно неизбежна (с узкими интервалами). Нет ли ограничений на минимальное количество наблюдений в ячейках (в среднем их будет по 2-3 в каждой, в некоторых по одному, в некоторых по 4-5)? Вообще есть разница по мощности скажем между квадратным планом и узковытянутым, если общее количество наблюдений одинаково?
Сообщение отредактировал Pinus - 10.12.2009 - 15:52 |
|
10.12.2009 - 16:05
Сообщение
#23
|
|
Группа: Пользователи Сообщений: 244 Регистрация: 28.08.2009 Пользователь №: 6286 |
Условия Z - какая шкала? Два качественных признака (например, хорошие условия и плохие условия).Если это страты( номинальная шкала) Опять же, есть разные виды регресий. Соответственно, есть разные подходы. В нескольких случаях парабола 2 порядка, в некоторых прямолинейная функция. |
|
10.12.2009 - 19:35
Сообщение
#24
|
|
Группа: Пользователи Сообщений: 1 Регистрация: 11.06.2009 Из: Москва Пользователь №: 6169 |
Да, и у Кобзаря (ссылку любезноо предоставил nokh) на стр. 482 хорошо описан этот критерий и назван Пейджа (Page). Мы, как то, на этом форуме разбирали критерий сдвига Джонкхиера-Терпстры (у Кобзаря Терпстры-Джонкхира). Но после того как сдвиг доказан, все равно нужно проводить парные сравнения и использовать поправку Бонферрони, как и сделал автор поста. Но его вопрос был в том, что он получил различающиеся оценки при испорльзовании разных критериев. слава богу, поправку Бонферрони использовать совсем не нужно - уже сорок лет как придумали менее консервативные поправки: Холма, Хохберга, Хоммеля, Рома, перестановочные и т.д. см., например, Blair, Troendle, Beck (1996) Control of Familywise Errors in Multiple Endpoint Assessments Via Stepwise Permutation Tests. |
|
10.12.2009 - 20:42
Сообщение
#25
|
|
Группа: Пользователи Сообщений: 1202 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704 |
Дисперсионный анализ можно. При этом интервалы совсем необязательно должны быть равными. В можете сделать их по своему усмотрению такими, чтобы они максимально отражали особенности поведения Y в зависимости от Х. При этом в ячейке должно быть столько наблюдений, чтобы можно было посчитать для них дисперсию, т.е. формально - не менее двух. Современные пакеты могут считать комплексы и с единственным наблюдением на ячейку и с пропусками, но при этом мощность снижается, думаю это уж совсем для каких-то уникальных случаев, где нет никакой возможности посчитать или перегруппировать иначе. Нарезку на интервалы желательно делать исходя из существа процессов, происходящих с Y в зависимости от Х. Например, в реальных условиях больниц никогда не получается собрать такие данные, чтобы к/л показатели регистрировались строго каждый день или через день после операции. Но они собираются всё равно не случайно, а сообразно своей логике, поэтому и после группировки их в интервалы всё равно основные особенности динамики "схватить" удаётся, хотя интервалы различны, например 1, 2-3, 4-5, 7 и более сут после операции.
Дисперсионный анализ подходит для сравнения рядов любой сложности, в т.ч. самой разнообразной нелинейной динамики. Но он будет уступать по мощности регрессионному анализу, т.к. в ДА единицей анализа является каждая группа по оси Х, а в регрессии - единственная функция - явный выигрыш по степеням свободы. Поэтому даже при ошибках в Х, думаю следует попробовать и регрессионный подход. Что делать с полиномами не знаю, но если кривые можно спрямить в ходе степенных преобразований - можно делать ancova. Нужно пробовать, всё-таки степенные преобразования - очень широкий класс преобразований, включающий и логарифмирование, и извлечение корней и обратные значения. Идея ancova доступно изложена в учебнике StatSoft: http://www.statsoft.ru/home/textbook/default.htm (Дисперсионный анализ - Ковариационный анализ (ANCOVA)), но не встречал на русском, чтобы было разложено всё по полочкам с комментариями. Можно попробовать (пока до нового года относительно свободен). Но мне нужно, чтобы я потом потенциально мог использовать этот материал в учебном процессе, а для этого нужно понимать суть рассматриваемых процессов. Если вы согласитесь выложить здесь свои данные в xls с небольшим поясняющим комментарием - попробую покрутить их, если данне позволят и ковариационным анализом в т.ч., а расчёты откомментирую. |
|
11.12.2009 - 07:55
Сообщение
#26
|
|
Группа: Пользователи Сообщений: 244 Регистрация: 28.08.2009 Пользователь №: 6286 |
Nokh, большое спасибо за предложение, но таких блоков с данными, для которых придется делать этот анализ у меня несколько и потом вероятно будет еще какое-то количество, и поскольку это не просто какой-то небольшой сложный элемент в работе, а значительный кусок, то надо разобраться самому что называется от корней. Нашел вроде неплохую главу по ковариационному анализу у Шеффе, и у Джонсона немного есть, пока поковыряюсь.
Какой-то пример с данными выложить не проблема, но они имеют отношение к биологии, а не к медицине, и наверно будет не очень хорошо их использовать в учебном процессе? В любом случае, Вам большое спасибо за наводку, хоть теперь знаю какой анализ разбирать. Беглое прочтение сути метода показывает, что это действительно то, что нужно. |
|
11.12.2009 - 10:22
Сообщение
#27
|
|
Группа: Пользователи Сообщений: 1114 Регистрация: 10.04.2007 Пользователь №: 4040 |
Nokh, если не затруднит, посоветуйте путнюю литературу по ковариационному анализу, а то я встречал только общие сведения о ковариации. Этот метод применим для полиномиальных зависимостей 2-го порядка? nokh Вам посоветовал и еще, конечно, посоветует. От себя предложу посмотреть: Milliken G.A., Johnson D.E. Analysis of messy data. Volume III: Analysis of covariance. - Boca Raton, FL: Chapman & Hall/CRC, 2002. Очень простое и толковое изложение, но на иностранном языке. Maxwell S.E., Delaney H.D. Designing experiments and analyzing data. A Model Comparison Perspective. - Mahwah, NJ: Lawrence Erlbaum Associates, 2004. На русском это глава 6 книги Шеффе Г. Дисперсионный анализ. - М.: Наука, 1980. Очень сложно изложено. Все книги встречались в электронном виде. Сообщение отредактировал Игорь - 11.12.2009 - 10:29 Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!
|
|
11.12.2009 - 12:03
Сообщение
#28
|
|
Группа: Пользователи Сообщений: 120 Регистрация: 27.08.2009 Пользователь №: 6284 |
nokh,
Никакие модели автора не интересуют, задача сформулирована чётко: Необходимо определить значимость влияния типа условий Z на переменную Y. Зачем переформулировать её непонятно во что? Сформулированная задача решается ковариационным анализом. В этом случае непонятно, зачем автор говорит о переменной Х? Переменная Z - биноминальная. Y - количественная ( не нормальная). Зачем тогда автор говорит о регрессионных моделях? Это НЕчеткая постановка, имхо Четкая, когда будет присутствовать условия, связанные с влияющими факторами. Сообщение отредактировал Green - 11.12.2009 - 12:11 Это не кованализ :)
|
|
11.12.2009 - 15:15
Сообщение
#29
|
|
Группа: Пользователи Сообщений: 244 Регистрация: 28.08.2009 Пользователь №: 6286 |
Игорь, спасибо за источники. Я уже стабильно каждую неделю жалею, что не владею английским. И судя по всему выхода хоть на какой-то более или менее профессиональный уровень анализа данных без него нет. Так что придется в будущем за это дело браться.
Green, на количественную переменную Y влияют два фактора: X (количественный) и Z (качественный). Нужно определить насколько значимо влияние Z. Две регрессии (для двух разных Z) были построены между Y и X, поскольку предполагалось значительное влияние Z. Выяснилось, что линии на графике очень близки друг к другу, что означает малое влияние Z. Нужно статистически доказать незначимость влияния Z. Тогда, с учетом теоретических соображений можно будет объединить две совокупности в одну и строить не две бессмысленных, а одну общую модель. Уровней Z в принципе может быть несколько, и может получиться так, что часть из них будут незначимо влияющими, а часть значимо. Тогда из всех получится, скажем, две достоверно отличающихся регрессионных модели (одна, например, для Z1 и Z2, а другая для Z3 и Z4). Такая идея. Сообщение отредактировал Pinus - 11.12.2009 - 15:29 |
|
12.12.2009 - 07:37
Сообщение
#30
|
|
Группа: Пользователи Сообщений: 1202 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704 |
Уже полгода как на форуме нет нашего уважаемого модератора. Последний бы раздел этой темы отсюда вырезать и поместить в новую тему "Ковариационный анализ".
К сожалению ничего путного больше по этому анализу с ходу не нашел. Есть правда очень хорошая книга, хотя и старая: Хальд. А. Математическая статистика с техническими приложениями. Взять можно здесь: http://extracoder.com/genesis/0012.html . В ней на примере (с. 488) разбирается как сравнивать 2 и более регрессий, что впоследствии и получило название ковариационного анализа. Но хорошо разобрана только его первая часть - сравнение наклонов регрессии. Вторая часть - сравнение свободных членов параллельных линий - по мнению автора не должна представлять для читателя никаких сложностей. Третья часть - получение и интерпретация согласованных (adjusted) значений параметров зависимости - отсутствует. Дополнительные трудности создаёт символика - она отличается от современной и требуется время чтобы понять где средний квадрат, где F-критерий и.т.д. Но скачайте в любом случае - очень хорошо изложены преобразования шкалы, работа с усечёнными распределениями и ещё ряд тем. То что данные не медицинские - не страшно, по нику могу даже предположить что ботанические, т.к. медиков учат другой латыни . Поэтому данные можете выложить или в личку скинуть, посмотрим что там можно сделать. Если честно, меня интересует не столько собственно ковариац. анализ, сколько возможность спрямления исходных зависимостей в ходе преобразования независимой переменной Х, в т.ч. по Боксу-Коксу. Мы на форуме обсуждали Бокса-Кокса для нормализации данных, но есть его модификация именно для спрямления кривых. Поскольку Б-К использует широкий класс степенных преобразований - писал в посте выше именно о степенных зависимостях. Т.к. обычно полиномы используют в тех случаях, когда нужно учесть нелинейность, а истинная форма зависимости неизвестна - предположил, что возможно степ. зависимость подойдёт. А если спрямить удастся - остальное дело техники. Сообщение отредактировал nokh - 12.12.2009 - 08:29 |
|