Форум врачей-аспирантов

Здравствуйте, гость ( Вход | Регистрация )

13 страниц V  < 1 2 3 4 > »   
Добавить ответ в эту темуОткрыть тему
> Непараметрическая статистика, различия в результатах анализа по Фридмену и теста Уилкоксона
DrgLena
сообщение 26.07.2009 - 12:29
Сообщение #16





Группа: Пользователи
Сообщений: 1325
Регистрация: 27.11.2007
Пользователь №: 4573



Да, и у Кобзаря (ссылку любезноо предоставил nokh) на стр. 482 хорошо описан этот критерий и назван Пейджа (Page). Мы, как то, на этом форуме разбирали критерий сдвига Джонкхиера-Терпстры (у Кобзаря Терпстры-Джонкхира). Но после того как сдвиг доказан, все равно нужно проводить парные сравнения и использовать поправку Бонферрони, как и сделал автор поста. Но его вопрос был в том, что он получил различающиеся оценки при испорльзовании разных критериев.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Игорь
сообщение 28.07.2009 - 07:31
Сообщение #17





Группа: Пользователи
Сообщений: 1114
Регистрация: 10.04.2007
Пользователь №: 4040



Цитата(DrgLena @ 26.07.2009 - 13:29) *
Но его вопрос был в том, что он получил различающиеся оценки при испорльзовании разных критериев.

Результаты в данном случае и должны различаться.

Мы могли бы обсудить, почему и насколько они различаются при наличии исходных данных. Автор темы их не приводит.

Сообщение отредактировал Игорь - 28.07.2009 - 17:50


Signature
Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Pinus
сообщение 10.12.2009 - 08:09
Сообщение #18





Группа: Пользователи
Сообщений: 244
Регистрация: 28.08.2009
Пользователь №: 6286



Есть такая задача.
Рассматриваем две независимые выборки, в которых переменная Y подвержена влиянию фактора X (Y и X непрерывные случайные величины). Каждая выборка относится к определенному типу условий Z (качественный признак). Если рассматривать каждую выборку раздельно, то выявлено достоверное влияние X на Y и найдены уравнения регрессии с R^2>0,75. Необходимо определить значимость влияния типа условий Z на переменную Y. Распределения Y и X не являются нормальными.

Мои соображения:
Сгруппировать значения X по интервалам. Интервалы проранжировать. Тогда можем использовать двухфакторный дисперсионный анализ, но поскольку нет нормальности распределений, то он должен быть непараметрическим. В каждой ячейке плана предполагается самое разное количество наблюдений. Пустых ячеек скорее всего не будет.
Двухфакторный анализ Фридмана не пойдет (применяется для связанных выборок). Нашел у Кобзаря критерий Мака-Скилингса (с. 601) и Лемана-Мака (с. 603). Какие методы в этом случае еще можно применить?

Сообщение отредактировал Pinus - 10.12.2009 - 08:14
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
nokh
сообщение 10.12.2009 - 09:25
Сообщение #19





Группа: Пользователи
Сообщений: 1202
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704



Цитата(Pinus @ 10.12.2009 - 10:09) *
Есть такая задача.
Рассматриваем две независимые выборки, в которых переменная Y подвержена влиянию фактора X (Y и X непрерывные случайные величины). Каждая выборка относится к определенному типу условий Z (качественный признак). Если рассматривать каждую выборку раздельно, то выявлено достоверное влияние X на Y и найдены уравнения регрессии с R^2>0,75. Необходимо определить значимость влияния типа условий Z на переменную Y. Распределения Y и X не являются нормальными.

Мои соображения:
Сгруппировать значения X по интервалам. Интервалы проранжировать. Тогда можем использовать двухфакторный дисперсионный анализ, но поскольку нет нормальности распределений, то он должен быть непараметрическим. В каждой ячейке плана предполагается самое разное количество наблюдений. Пустых ячеек скорее всего не будет.
Двухфакторный анализ Фридмана не пойдет (применяется для связанных выборок). Нашел у Кобзаря критерий Мака-Скилингса (с. 601) и Лемана-Мака (с. 603). Какие методы в этом случае еще можно применить?

Предложенный подход приведёт к сильной потере информации и будет обладать малой мощностью. Про нормальность: модели как дисперсионного, так и регрессионного анализов не требуют нормального распределения Y и тем более X. Нормально должны быть распределены ошибки модели, которые в регрессионном анализе чаще называют остатками. Но обычно если Y имеет нормальное распределение, то и ошибки будут также примерно нормально распределены. В дисперсионном анализе X - обычно вообще качественная переменная. Лучшее, что здесь можно сделать - ковариационный анализ (ancova) с предварительно преобразованными данными. Преобразования и в т.ч. Бокса-Кокса подробно обсуждались на форуме. Ограничения помимо норм. р-я ошибок - линейность зависимости и одинаковый наклон регрессий - только в этих условиях возможно выявить влияние Z на разность свободных членов регрессий. Нелинейность устраняется преобразованиями шкал x и y. Хуже всего статистически значимая непараллельность линий, но это только с точки зрения применимости данной техники, т.к. сама по себе непараллельность укажет на некорректность рассмотрения влияния Z на Y без одновременного учёта X - в терминах дисперсионного анализа это называется взаимодействием (XZ).
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Green
сообщение 10.12.2009 - 13:30
Сообщение #20





Группа: Пользователи
Сообщений: 120
Регистрация: 27.08.2009
Пользователь №: 6284



Pinus,

Условия Z - какая шкала?
Если это страты( номинальная шкала)

Рассуждаю так - у вас есть:
модель зависимости Y=f(X) в условиях Z1
модель зависимости Y=f(X) в условиях Z2

задача - найти достоверную разницу между этими моделями?
Можно оценить по отношению правдоподобия.

Опять же, есть разные виды регресий. Соответственно, есть разные подходы.

Подробнее бы написали о моделях и Z ?
( может это Кокс?...)








Signature
Это не кованализ :)
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
nokh
сообщение 10.12.2009 - 14:55
Сообщение #21





Группа: Пользователи
Сообщений: 1202
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704



Цитата(Green @ 10.12.2009 - 15:30) *
Рассуждаю так - у вас есть:
модель зависимости Y=f(X) в условиях Z1
модель зависимости Y=f(X) в условиях Z2
задача - найти достоверную разницу между этими моделями?
Можно оценить по отношению правдоподобия...

Никакие модели автора не интересуют, задача сформулирована чётко:
Цитата(Pinus @ 10.12.2009 - 10:09) *
Необходимо определить значимость влияния типа условий Z на переменную Y.

Зачем переформулировать её непонятно во что? Сформулированная задача решается ковариационным анализом.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Pinus
сообщение 10.12.2009 - 15:51
Сообщение #22





Группа: Пользователи
Сообщений: 244
Регистрация: 28.08.2009
Пользователь №: 6286



Цитата(nokh @ 10.12.2009 - 16:25) *
Лучшее, что здесь можно сделать - ковариационный анализ (ancova) с предварительно преобразованными данными.
Nokh, если не затруднит, посоветуйте путнюю литературу по ковариационному анализу, а то я встречал только общие сведения о ковариации. Этот метод применим для полиномиальных зависимостей 2-го порядка?

Цитата(nokh @ 10.12.2009 - 16:25) *
Про нормальность: модели как дисперсионного, так и регрессионного анализов не требуют нормального распределения Y и тем более X. Нормально должны быть распределены ошибки модели, которые в регрессионном анализе чаще называют остатками. Но обычно если Y имеет нормальное распределение, то и ошибки будут также примерно нормально распределены.
Это очень хорошо, остатки у меня нормальные. Кстати в нескольких источниках встречал, и по регрессии, и по дисперсионному анализу, что одна из предпосылок это нормальное распределение переменных (что всегда вызывало подозрение); в других же источниках, что остатков. Это был для меня один из вопросов.
Вообще изначально предполагалось, что Z будет оказывать влияние. Регрессии полиномиальные 2-го порядка, и думалось, что на графике в одинаковом масштабе одна получится выше, а другая ниже. А получилось, что совокупности почти накладываются, и параболы, за исключением крайней части, идут весьма близко друг к другу. Просто визуально обосновать, что нет влияния, будет плохо, надо какую-то статистическую достоверность.

Цитата(nokh @ 10.12.2009 - 16:25) *
В дисперсионном анализе X - обычно вообще качественная переменная.
Если все же порассуждать о дисперсионном анализе. Ввиду имеющейся точности метода наблюдений придется все равно X объединять в небольшие группы (по этой причине в другой теме интересовался про регрессию с ошибками в предикторах). Получится интервальная шкала (10-15 интервалов). В этом случае X будет количественной, но дискретной переменной. И если остатки нормальны, и остальные предпосылки выполняются, то можно обычный двухфакторный дисперсионный анализ. Как думаете?

Цитата(nokh @ 10.12.2009 - 16:25) *
Предложенный подход приведёт к сильной потере информации и будет обладать малой мощностью.
Проблема в группировке? Но если она все равно неизбежна (с узкими интервалами). Нет ли ограничений на минимальное количество наблюдений в ячейках (в среднем их будет по 2-3 в каждой, в некоторых по одному, в некоторых по 4-5)? Вообще есть разница по мощности скажем между квадратным планом и узковытянутым, если общее количество наблюдений одинаково?

Сообщение отредактировал Pinus - 10.12.2009 - 15:52
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Pinus
сообщение 10.12.2009 - 16:05
Сообщение #23





Группа: Пользователи
Сообщений: 244
Регистрация: 28.08.2009
Пользователь №: 6286



Цитата(Green @ 10.12.2009 - 20:30) *
Условия Z - какая шкала?
Если это страты( номинальная шкала)
Два качественных признака (например, хорошие условия и плохие условия).

Цитата(Green @ 10.12.2009 - 20:30) *
Опять же, есть разные виды регресий. Соответственно, есть разные подходы.
В нескольких случаях парабола 2 порядка, в некоторых прямолинейная функция.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Lars
сообщение 10.12.2009 - 19:35
Сообщение #24





Группа: Пользователи
Сообщений: 1
Регистрация: 11.06.2009
Из: Москва
Пользователь №: 6169



Цитата(DrgLena @ 26.07.2009 - 13:29) *
Да, и у Кобзаря (ссылку любезноо предоставил nokh) на стр. 482 хорошо описан этот критерий и назван Пейджа (Page). Мы, как то, на этом форуме разбирали критерий сдвига Джонкхиера-Терпстры (у Кобзаря Терпстры-Джонкхира). Но после того как сдвиг доказан, все равно нужно проводить парные сравнения и использовать поправку Бонферрони, как и сделал автор поста. Но его вопрос был в том, что он получил различающиеся оценки при испорльзовании разных критериев.

слава богу, поправку Бонферрони использовать совсем не нужно - уже сорок лет как придумали менее консервативные поправки: Холма, Хохберга, Хоммеля, Рома, перестановочные и т.д. см., например, Blair, Troendle, Beck (1996) Control of Familywise Errors in Multiple Endpoint Assessments Via Stepwise Permutation Tests.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
nokh
сообщение 10.12.2009 - 20:42
Сообщение #25





Группа: Пользователи
Сообщений: 1202
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704



Дисперсионный анализ можно. При этом интервалы совсем необязательно должны быть равными. В можете сделать их по своему усмотрению такими, чтобы они максимально отражали особенности поведения Y в зависимости от Х. При этом в ячейке должно быть столько наблюдений, чтобы можно было посчитать для них дисперсию, т.е. формально - не менее двух. Современные пакеты могут считать комплексы и с единственным наблюдением на ячейку и с пропусками, но при этом мощность снижается, думаю это уж совсем для каких-то уникальных случаев, где нет никакой возможности посчитать или перегруппировать иначе. Нарезку на интервалы желательно делать исходя из существа процессов, происходящих с Y в зависимости от Х. Например, в реальных условиях больниц никогда не получается собрать такие данные, чтобы к/л показатели регистрировались строго каждый день или через день после операции. Но они собираются всё равно не случайно, а сообразно своей логике, поэтому и после группировки их в интервалы всё равно основные особенности динамики "схватить" удаётся, хотя интервалы различны, например 1, 2-3, 4-5, 7 и более сут после операции.
Дисперсионный анализ подходит для сравнения рядов любой сложности, в т.ч. самой разнообразной нелинейной динамики. Но он будет уступать по мощности регрессионному анализу, т.к. в ДА единицей анализа является каждая группа по оси Х, а в регрессии - единственная функция - явный выигрыш по степеням свободы. Поэтому даже при ошибках в Х, думаю следует попробовать и регрессионный подход. Что делать с полиномами не знаю, но если кривые можно спрямить в ходе степенных преобразований - можно делать ancova. Нужно пробовать, всё-таки степенные преобразования - очень широкий класс преобразований, включающий и логарифмирование, и извлечение корней и обратные значения. Идея ancova доступно изложена в учебнике StatSoft: http://www.statsoft.ru/home/textbook/default.htm (Дисперсионный анализ - Ковариационный анализ (ANCOVA)), но не встречал на русском, чтобы было разложено всё по полочкам с комментариями. Можно попробовать (пока до нового года относительно свободен). Но мне нужно, чтобы я потом потенциально мог использовать этот материал в учебном процессе, а для этого нужно понимать суть рассматриваемых процессов. Если вы согласитесь выложить здесь свои данные в xls с небольшим поясняющим комментарием - попробую покрутить их, если данне позволят и ковариационным анализом в т.ч., а расчёты откомментирую.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Pinus
сообщение 11.12.2009 - 07:55
Сообщение #26





Группа: Пользователи
Сообщений: 244
Регистрация: 28.08.2009
Пользователь №: 6286



Nokh, большое спасибо за предложение, но таких блоков с данными, для которых придется делать этот анализ у меня несколько и потом вероятно будет еще какое-то количество, и поскольку это не просто какой-то небольшой сложный элемент в работе, а значительный кусок, то надо разобраться самому что называется от корней. Нашел вроде неплохую главу по ковариационному анализу у Шеффе, и у Джонсона немного есть, пока поковыряюсь.
Какой-то пример с данными выложить не проблема, но они имеют отношение к биологии, а не к медицине, и наверно будет не очень хорошо их использовать в учебном процессе? В любом случае, Вам большое спасибо за наводку, хоть теперь знаю какой анализ разбирать. Беглое прочтение сути метода показывает, что это действительно то, что нужно.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Игорь
сообщение 11.12.2009 - 10:22
Сообщение #27





Группа: Пользователи
Сообщений: 1114
Регистрация: 10.04.2007
Пользователь №: 4040



Цитата(Pinus @ 10.12.2009 - 16:51) *
Nokh, если не затруднит, посоветуйте путнюю литературу по ковариационному анализу, а то я встречал только общие сведения о ковариации. Этот метод применим для полиномиальных зависимостей 2-го порядка?

nokh Вам посоветовал и еще, конечно, посоветует. От себя предложу посмотреть:

Milliken G.A., Johnson D.E. Analysis of messy data. Volume III: Analysis of covariance. - Boca Raton, FL: Chapman & Hall/CRC, 2002. Очень простое и толковое изложение, но на иностранном языке.
Maxwell S.E., Delaney H.D. Designing experiments and analyzing data. A Model Comparison Perspective. - Mahwah, NJ: Lawrence Erlbaum Associates, 2004.

На русском это глава 6 книги Шеффе Г. Дисперсионный анализ. - М.: Наука, 1980. Очень сложно изложено.

Все книги встречались в электронном виде.

Сообщение отредактировал Игорь - 11.12.2009 - 10:29


Signature
Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Green
сообщение 11.12.2009 - 12:03
Сообщение #28





Группа: Пользователи
Сообщений: 120
Регистрация: 27.08.2009
Пользователь №: 6284



nokh,

Цитата(nokh @ 10.12.2009 - 13:55) *
Никакие модели автора не интересуют, задача сформулирована чётко:

Необходимо определить значимость влияния типа условий Z на переменную Y.

Зачем переформулировать её непонятно во что? Сформулированная задача решается ковариационным анализом.


В этом случае непонятно, зачем автор говорит о переменной Х?

Переменная Z - биноминальная.
Y - количественная ( не нормальная).

Зачем тогда автор говорит о регрессионных моделях?


Это НЕчеткая постановка, имхо
Четкая, когда будет присутствовать условия, связанные с влияющими факторами.

Сообщение отредактировал Green - 11.12.2009 - 12:11


Signature
Это не кованализ :)
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Pinus
сообщение 11.12.2009 - 15:15
Сообщение #29





Группа: Пользователи
Сообщений: 244
Регистрация: 28.08.2009
Пользователь №: 6286



Игорь, спасибо за источники. Я уже стабильно каждую неделю жалею, что не владею английским. И судя по всему выхода хоть на какой-то более или менее профессиональный уровень анализа данных без него нет. Так что придется в будущем за это дело браться.

Green, на количественную переменную Y влияют два фактора: X (количественный) и Z (качественный). Нужно определить насколько значимо влияние Z. Две регрессии (для двух разных Z) были построены между Y и X, поскольку предполагалось значительное влияние Z. Выяснилось, что линии на графике очень близки друг к другу, что означает малое влияние Z. Нужно статистически доказать незначимость влияния Z. Тогда, с учетом теоретических соображений можно будет объединить две совокупности в одну и строить не две бессмысленных, а одну общую модель. Уровней Z в принципе может быть несколько, и может получиться так, что часть из них будут незначимо влияющими, а часть значимо. Тогда из всех получится, скажем, две достоверно отличающихся регрессионных модели (одна, например, для Z1 и Z2, а другая для Z3 и Z4). Такая идея.

Сообщение отредактировал Pinus - 11.12.2009 - 15:29
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
nokh
сообщение 12.12.2009 - 07:37
Сообщение #30





Группа: Пользователи
Сообщений: 1202
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704



Уже полгода как на форуме нет нашего уважаемого модератора. Последний бы раздел этой темы отсюда вырезать и поместить в новую тему "Ковариационный анализ".

К сожалению ничего путного больше по этому анализу с ходу не нашел. Есть правда очень хорошая книга, хотя и старая: Хальд. А. Математическая статистика с техническими приложениями. Взять можно здесь: http://extracoder.com/genesis/0012.html . В ней на примере (с. 488) разбирается как сравнивать 2 и более регрессий, что впоследствии и получило название ковариационного анализа. Но хорошо разобрана только его первая часть - сравнение наклонов регрессии. Вторая часть - сравнение свободных членов параллельных линий - по мнению автора не должна представлять для читателя никаких сложностей. Третья часть - получение и интерпретация согласованных (adjusted) значений параметров зависимости - отсутствует. Дополнительные трудности создаёт символика - она отличается от современной и требуется время чтобы понять где средний квадрат, где F-критерий и.т.д. Но скачайте в любом случае - очень хорошо изложены преобразования шкалы, работа с усечёнными распределениями и ещё ряд тем.

То что данные не медицинские - не страшно, по нику могу даже предположить что ботанические, т.к. медиков учат другой латыни smile.gif. Поэтому данные можете выложить или в личку скинуть, посмотрим что там можно сделать. Если честно, меня интересует не столько собственно ковариац. анализ, сколько возможность спрямления исходных зависимостей в ходе преобразования независимой переменной Х, в т.ч. по Боксу-Коксу. Мы на форуме обсуждали Бокса-Кокса для нормализации данных, но есть его модификация именно для спрямления кривых. Поскольку Б-К использует широкий класс степенных преобразований - писал в посте выше именно о степенных зависимостях. Т.к. обычно полиномы используют в тех случаях, когда нужно учесть нелинейность, а истинная форма зависимости неизвестна - предположил, что возможно степ. зависимость подойдёт. А если спрямить удастся - остальное дело техники.

Сообщение отредактировал nokh - 12.12.2009 - 08:29
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 

13 страниц V  < 1 2 3 4 > » 
Добавить ответ в эту темуОткрыть тему