Помощь - Поиск - Пользователи - Календарь
Полная версия этой страницы: Непараметрическая статистика
Форум врачей-аспирантов > Разделы форума > Медицинская статистика
Страницы: 1, 2, 3, 4
dimcuslongus
Добрый вечер!
У меня похожая ситуация, что и у PantheraBagira, только переменные зависимые (трижды в динамике оценивается выраженность неврологического дефицита у одних и тех же пациентов). При анализе по Фридмену различия значимые (p<0,0000), при использовании теста Уилкоксона между 1-ой и 2-ой оценкой p "на грани" = 0,0170. При использовании критерия знаков для этой же пары различия значимые (p = 0,0022). Подскажите, как интерпретировать такие результаты? Спасибо!
nokh
Цитата(dimcuslongus @ 21.07.2009 - 00:30) *
...При анализе по Фридмену различия значимые (p<0,0000), при использовании теста Уилкоксона между 1-ой и 2-ой оценкой p "на грани" = 0,0170. При использовании критерия знаков для этой же пары различия значимые (p = 0,0022). Подскажите, как интерпретировать такие результаты? Спасибо!

Для такой задачи лучше использовать дисперсионный анализ с повторными наблюдениями, а сравнения между сроками проводить внутри всего дисперсионного комплекса. Если требуется - преобразовать исходные данные. В этом случае информация будет использована по максимуму. В случае анализа Фридмана в качестве значений для разных сроков можно использовать средние ранги и не проводить парных сравнений. По поводу критерия Уилкоксона для разностей пар не понятно на грани чего находится P? В подавляющем большинстве исследований достаточным принимается пятипроцентный уровень значимости. С этой позиции P=0,0170 и P=0,0022 - одно и то же. Если выборки, образующие пары, имеют распределение одного типа - лучше использовать критерий Уилкоксона: он строже и мощнее. Критерий знаков более либерален к данным, но обладает сходной эффективностью только на очень малых выборках (для n=6 - 95%), а при увеличении n его эффективность снижается вплоть до 64%.
dimcuslongus
Спасибо!
"На грани" - я использовал поправку Бонферрони для 3 сравнений - p = 0,05 / 3 = 0,017.
avorotniak
В отношении непараметрического подхода:

Основными непараметрическими аналогами 2-х факторного ANOVA являются критерии Friedman и Quade (оба критерия основаны на рангах). Первый из них является продолжением критерия знаков, для более 2-х связанных выборок, а второй - продолжением критерия Уилкоксона. (Кстати, для двух выборок, Friedman полностью совпадает с критерием знаков, а Quade - с критерием Уилкоксона). Критерий Quade мощнее, чем Friedman, поэтому предпочтительней. Для каждого из указанных критериев существуют формулы для попарного сравнения (если отвергнута основная гипотеза).

Для использования критерия Уилкоксона нужно проверить данные на симметрию (в отношении Quade не имею точной информации по этому поводу) . Если данные не симметричны и нет возоможности их трансформации, то лучше использовать критерий знаков или Friedman.

Успехов
Игорь
Цитата(avorotniak @ 24.07.2009 - 20:16) *
В отношении непараметрического подхода:

Основными непараметрическими аналогами 2-х факторного ANOVA являются критерии Friedman и Quade (оба критерия основаны на рангах). Первый из них является продолжением критерия знаков, для более 2-х связанных выборок, а второй ? продолжением критерия Уилкоксона. (Кстати, для двух выборок, Friedman полностью совпадает с критерием знаков, а Quade ? с критерием Уилкоксона). Критерий Quade мощнее, чем Friedman, поэтому предпочтительней. Для каждого из указанных критериев существуют формулы для попарного сравнения (если отвергнута основная гипотеза).
Для использования критерия Уилкоксона нужно проверить данные на симметрию (в отношении Quade не имею точной информации по этому поводу) . Если данные не симметричны и нет возоможности их трансформации, то лучше использовать критерий знаков или Friedman.

Успехов

Критерий Квейд хорошо описан в руководстве Солиани. http://www.dsa.unipr.it/soliani/capu15.pdf (с. 85). Правда, на итальянском smile.gif, но формулы понятны и так.
DrgLena
На английском тоже этот критерий тоже хорошо описан, но Avorotniak утверждает, что он более мощный чем критерий Фридмана, а потому, предпочтительней. Однако, это верно только для небольшого числа связанных выборок, как в данном случае (3), в то время как тест Фридмана более мощный, когда их число пять или больше.
Игорь
Цитата(DrgLena @ 25.07.2009 - 10:31) *
На английском тоже этот критерий тоже хорошо описан, но Avorotniak утверждает, что он более мощный чем критерий Фридмана, а потому, предпочтительней. Однако, это верно только для небольшого числа связанных выборок, как в данном случае (3), в то время как тест Фридмана более мощный, когда их число пять или больше.

Если не затруднит, укажите, пожалуйста, английский источник. И что за Avorotniak?
плав
Цитата(Игорь @ 25.07.2009 - 14:58) *
И что за Avorotniak?

Сообщение #4 в этой ветке smile.gif
Игорь
Цитата(плав @ 25.07.2009 - 15:15) *
Сообщение #4 в этой ветке smile.gif

Спасибо. Кстати, у Soliani как раз даны формулы для попарных сравнений в критерии Квейд. Критерий почему-то мало известен. Надо его популяризовать.

Критерий представлен в известной монографии Conover. Однако ознакомиться с данным источником не удалось.
avorotniak
Ссылки на критерий Квейда:
D. Quade (1979), Using weighted rankings in the analysis of complete blocks with additive block effects. Journal of the American Statistical Association, 74, 680?683.
William J. Conover (1999), Practical nonparametric statistics. New York: John Wiley & Sons. Pages 373?380.
В ?R? этот критерий вызывается командой quade.test()

Однако у Soliani (спасибо Игорю) также можно найти все необходимые формулы.
По поводу преимуществ Квейда, согласен с DrgLena.
Чтобы интуитивно понять эти преимущества предлагаю следующее:

Для подсчета статистики Фридмана используются R.j , при этом сначала определяются ранги внутри каждого блока Rij, а потом они суммируются по столбикам (treatments). В результате теряется ?межблочный? эффект. Это использовал Quade ?Using weighted rankings in the analysis of complete blocks with additive block effects?. Статистика Квейда основана на Sij = Qi*(Rij ? (k+1)/2), где Qi как раз и представляет собой взвешивание каждого блока. Qi это ранг каждого блока i в зависимости от range in block i = max Xij - min Xij. Таким образом, критерий Квейда использует больше информации, чем Фридман.

Успехов
nokh
По-русски причитать про Quade test с разбором на примере можно в Кобзарь А. И. Прикладная математическая статистика. Для инженеров и научных работников. - М.: ФИЗМАТЛИТ, 2006. - 816 с. (есть в сети в djvu). Там он на стр. 487 и называется "Критерий со взвешенными ранжировками Даны Квейд".
Игорь
Всем спасибо за информацию.

Oops!!! У Soliani пример посчитан неверно. Неаккуратно сделано ранжирование (ошибки в 3-х местах). Отсюда весь остальной расчет неверен.

Чтобы пример был хотя бы формально верен, предлагаю поменять исходные данные. Если исходные данные взять такие (показано в транспонированном виде)

115 28 220 82 298 294 98
142 31 311 56 256 322 87
36 7 108 33 46 176 55
91 21 51 46 124 54 84
28 6 117 24 84 86 25

то результатами можно воспользоваться в учебно-познавательных целях.

Еще в формуле для W ошибка. Малыми литерами r обозначен массив рангов, а на самом деле должен быть подставлен (и подставлен в примере) модифицированный массив рангов. Небрежность автора.

Да, кстати, верное замечание. Квейд - это "она".
DrgLena
Англоязычный источник - техническая документация к StatXact8, но пример там другой. Документация мне досталась от демо версии программы (pdf 12.3 МБ). Кроме уже указанных выше источников, есть немного в журнальных статьях:

Campbell RA. A comparison of the Quade and Friedman tests to the unbalanced two-way analysis of variance with biomedical data.
Comput Biol Med. 1988;18(6):441-7.

Theodorsson-Norheim E. Friedman and Quade tests: BASIC computer program to perform nonparametric two-way analysis of variance and multiple comparisons on ranks of several related samples.
Comput Biol Med. 1987;17(2):85-99
DrgLena
Для данных в итальянском источнике, действительно, значение статистики будет 10,38 а при исправлении рангов, как представил Игорь, получается 9,217, т.е. как в источнике. При этом двухсторонее значение р=0.0001167 (Asymptotic) и р=2.536e-005 (Exact).
Полезный критерий, да еще женский. Пример в StatXact значительно проще:

23 58 11 24 34
23 53 10 20 40
23 54 22 21 22

Полезные упражнения, однако, спасибо всем!
avorotniak

Хотелось бы возвратиться к исходной проблеме, предложенной dimcuslongus :

Я так понимаю, что имеет место дизайн полных блоков, то есть в строчках располагаются пациенты (blocks), а в колонках 3 неврологических измерения (treatments). Кроме классической постановки проблемы, Но: все медианы равны против Н1: имеются различия, можно бы сформулировать альтернативную гипотезу по другому: m1 <= m2 <= m3 (по крайней мере с одной строгой неравностью). Например, если нас интересует имелось ли улучшение оценки неврологического статуса пациентов в процессе наблюдения. Для такой гипотезы Page (1963) предложил следующую статистику:

Т = (1/sqrt(n))*sum ((j - (k+1)/2)*(R.j - n*(k+1)/2))
Var(T) = k^2(k^2 - 1)*(k+1)/144

Отвергаем Но если T > z(alfa) sqrt(Var(T)) , где z(alfa) соответствующий перцентиль нормального распределения. Думаю, что в указанной проблеме было бы интересно использовать этот критерий.

Взято из T. Hettmansperger Statistical Inference Based on Ranks
DrgLena
Да, и у Кобзаря (ссылку любезноо предоставил nokh) на стр. 482 хорошо описан этот критерий и назван Пейджа (Page). Мы, как то, на этом форуме разбирали критерий сдвига Джонкхиера-Терпстры (у Кобзаря Терпстры-Джонкхира). Но после того как сдвиг доказан, все равно нужно проводить парные сравнения и использовать поправку Бонферрони, как и сделал автор поста. Но его вопрос был в том, что он получил различающиеся оценки при испорльзовании разных критериев.
Игорь
Цитата(DrgLena @ 26.07.2009 - 13:29) *
Но его вопрос был в том, что он получил различающиеся оценки при испорльзовании разных критериев.

Результаты в данном случае и должны различаться.

Мы могли бы обсудить, почему и насколько они различаются при наличии исходных данных. Автор темы их не приводит.
Pinus
Есть такая задача.
Рассматриваем две независимые выборки, в которых переменная Y подвержена влиянию фактора X (Y и X непрерывные случайные величины). Каждая выборка относится к определенному типу условий Z (качественный признак). Если рассматривать каждую выборку раздельно, то выявлено достоверное влияние X на Y и найдены уравнения регрессии с R^2>0,75. Необходимо определить значимость влияния типа условий Z на переменную Y. Распределения Y и X не являются нормальными.

Мои соображения:
Сгруппировать значения X по интервалам. Интервалы проранжировать. Тогда можем использовать двухфакторный дисперсионный анализ, но поскольку нет нормальности распределений, то он должен быть непараметрическим. В каждой ячейке плана предполагается самое разное количество наблюдений. Пустых ячеек скорее всего не будет.
Двухфакторный анализ Фридмана не пойдет (применяется для связанных выборок). Нашел у Кобзаря критерий Мака-Скилингса (с. 601) и Лемана-Мака (с. 603). Какие методы в этом случае еще можно применить?
nokh
Цитата(Pinus @ 10.12.2009 - 10:09) *
Есть такая задача.
Рассматриваем две независимые выборки, в которых переменная Y подвержена влиянию фактора X (Y и X непрерывные случайные величины). Каждая выборка относится к определенному типу условий Z (качественный признак). Если рассматривать каждую выборку раздельно, то выявлено достоверное влияние X на Y и найдены уравнения регрессии с R^2>0,75. Необходимо определить значимость влияния типа условий Z на переменную Y. Распределения Y и X не являются нормальными.

Мои соображения:
Сгруппировать значения X по интервалам. Интервалы проранжировать. Тогда можем использовать двухфакторный дисперсионный анализ, но поскольку нет нормальности распределений, то он должен быть непараметрическим. В каждой ячейке плана предполагается самое разное количество наблюдений. Пустых ячеек скорее всего не будет.
Двухфакторный анализ Фридмана не пойдет (применяется для связанных выборок). Нашел у Кобзаря критерий Мака-Скилингса (с. 601) и Лемана-Мака (с. 603). Какие методы в этом случае еще можно применить?

Предложенный подход приведёт к сильной потере информации и будет обладать малой мощностью. Про нормальность: модели как дисперсионного, так и регрессионного анализов не требуют нормального распределения Y и тем более X. Нормально должны быть распределены ошибки модели, которые в регрессионном анализе чаще называют остатками. Но обычно если Y имеет нормальное распределение, то и ошибки будут также примерно нормально распределены. В дисперсионном анализе X - обычно вообще качественная переменная. Лучшее, что здесь можно сделать - ковариационный анализ (ancova) с предварительно преобразованными данными. Преобразования и в т.ч. Бокса-Кокса подробно обсуждались на форуме. Ограничения помимо норм. р-я ошибок - линейность зависимости и одинаковый наклон регрессий - только в этих условиях возможно выявить влияние Z на разность свободных членов регрессий. Нелинейность устраняется преобразованиями шкал x и y. Хуже всего статистически значимая непараллельность линий, но это только с точки зрения применимости данной техники, т.к. сама по себе непараллельность укажет на некорректность рассмотрения влияния Z на Y без одновременного учёта X - в терминах дисперсионного анализа это называется взаимодействием (XZ).
Green
Pinus,

Условия Z - какая шкала?
Если это страты( номинальная шкала)

Рассуждаю так - у вас есть:
модель зависимости Y=f(X) в условиях Z1
модель зависимости Y=f(X) в условиях Z2

задача - найти достоверную разницу между этими моделями?
Можно оценить по отношению правдоподобия.

Опять же, есть разные виды регресий. Соответственно, есть разные подходы.

Подробнее бы написали о моделях и Z ?
( может это Кокс?...)






nokh
Цитата(Green @ 10.12.2009 - 15:30) *
Рассуждаю так - у вас есть:
модель зависимости Y=f(X) в условиях Z1
модель зависимости Y=f(X) в условиях Z2
задача - найти достоверную разницу между этими моделями?
Можно оценить по отношению правдоподобия...

Никакие модели автора не интересуют, задача сформулирована чётко:
Цитата(Pinus @ 10.12.2009 - 10:09) *
Необходимо определить значимость влияния типа условий Z на переменную Y.

Зачем переформулировать её непонятно во что? Сформулированная задача решается ковариационным анализом.
Pinus
Цитата(nokh @ 10.12.2009 - 16:25) *
Лучшее, что здесь можно сделать - ковариационный анализ (ancova) с предварительно преобразованными данными.
Nokh, если не затруднит, посоветуйте путнюю литературу по ковариационному анализу, а то я встречал только общие сведения о ковариации. Этот метод применим для полиномиальных зависимостей 2-го порядка?

Цитата(nokh @ 10.12.2009 - 16:25) *
Про нормальность: модели как дисперсионного, так и регрессионного анализов не требуют нормального распределения Y и тем более X. Нормально должны быть распределены ошибки модели, которые в регрессионном анализе чаще называют остатками. Но обычно если Y имеет нормальное распределение, то и ошибки будут также примерно нормально распределены.
Это очень хорошо, остатки у меня нормальные. Кстати в нескольких источниках встречал, и по регрессии, и по дисперсионному анализу, что одна из предпосылок это нормальное распределение переменных (что всегда вызывало подозрение); в других же источниках, что остатков. Это был для меня один из вопросов.
Вообще изначально предполагалось, что Z будет оказывать влияние. Регрессии полиномиальные 2-го порядка, и думалось, что на графике в одинаковом масштабе одна получится выше, а другая ниже. А получилось, что совокупности почти накладываются, и параболы, за исключением крайней части, идут весьма близко друг к другу. Просто визуально обосновать, что нет влияния, будет плохо, надо какую-то статистическую достоверность.

Цитата(nokh @ 10.12.2009 - 16:25) *
В дисперсионном анализе X - обычно вообще качественная переменная.
Если все же порассуждать о дисперсионном анализе. Ввиду имеющейся точности метода наблюдений придется все равно X объединять в небольшие группы (по этой причине в другой теме интересовался про регрессию с ошибками в предикторах). Получится интервальная шкала (10-15 интервалов). В этом случае X будет количественной, но дискретной переменной. И если остатки нормальны, и остальные предпосылки выполняются, то можно обычный двухфакторный дисперсионный анализ. Как думаете?

Цитата(nokh @ 10.12.2009 - 16:25) *
Предложенный подход приведёт к сильной потере информации и будет обладать малой мощностью.
Проблема в группировке? Но если она все равно неизбежна (с узкими интервалами). Нет ли ограничений на минимальное количество наблюдений в ячейках (в среднем их будет по 2-3 в каждой, в некоторых по одному, в некоторых по 4-5)? Вообще есть разница по мощности скажем между квадратным планом и узковытянутым, если общее количество наблюдений одинаково?
Pinus
Цитата(Green @ 10.12.2009 - 20:30) *
Условия Z - какая шкала?
Если это страты( номинальная шкала)
Два качественных признака (например, хорошие условия и плохие условия).

Цитата(Green @ 10.12.2009 - 20:30) *
Опять же, есть разные виды регресий. Соответственно, есть разные подходы.
В нескольких случаях парабола 2 порядка, в некоторых прямолинейная функция.
Lars
Цитата(DrgLena @ 26.07.2009 - 13:29) *
Да, и у Кобзаря (ссылку любезноо предоставил nokh) на стр. 482 хорошо описан этот критерий и назван Пейджа (Page). Мы, как то, на этом форуме разбирали критерий сдвига Джонкхиера-Терпстры (у Кобзаря Терпстры-Джонкхира). Но после того как сдвиг доказан, все равно нужно проводить парные сравнения и использовать поправку Бонферрони, как и сделал автор поста. Но его вопрос был в том, что он получил различающиеся оценки при испорльзовании разных критериев.

слава богу, поправку Бонферрони использовать совсем не нужно - уже сорок лет как придумали менее консервативные поправки: Холма, Хохберга, Хоммеля, Рома, перестановочные и т.д. см., например, Blair, Troendle, Beck (1996) Control of Familywise Errors in Multiple Endpoint Assessments Via Stepwise Permutation Tests.
nokh
Дисперсионный анализ можно. При этом интервалы совсем необязательно должны быть равными. В можете сделать их по своему усмотрению такими, чтобы они максимально отражали особенности поведения Y в зависимости от Х. При этом в ячейке должно быть столько наблюдений, чтобы можно было посчитать для них дисперсию, т.е. формально - не менее двух. Современные пакеты могут считать комплексы и с единственным наблюдением на ячейку и с пропусками, но при этом мощность снижается, думаю это уж совсем для каких-то уникальных случаев, где нет никакой возможности посчитать или перегруппировать иначе. Нарезку на интервалы желательно делать исходя из существа процессов, происходящих с Y в зависимости от Х. Например, в реальных условиях больниц никогда не получается собрать такие данные, чтобы к/л показатели регистрировались строго каждый день или через день после операции. Но они собираются всё равно не случайно, а сообразно своей логике, поэтому и после группировки их в интервалы всё равно основные особенности динамики "схватить" удаётся, хотя интервалы различны, например 1, 2-3, 4-5, 7 и более сут после операции.
Дисперсионный анализ подходит для сравнения рядов любой сложности, в т.ч. самой разнообразной нелинейной динамики. Но он будет уступать по мощности регрессионному анализу, т.к. в ДА единицей анализа является каждая группа по оси Х, а в регрессии - единственная функция - явный выигрыш по степеням свободы. Поэтому даже при ошибках в Х, думаю следует попробовать и регрессионный подход. Что делать с полиномами не знаю, но если кривые можно спрямить в ходе степенных преобразований - можно делать ancova. Нужно пробовать, всё-таки степенные преобразования - очень широкий класс преобразований, включающий и логарифмирование, и извлечение корней и обратные значения. Идея ancova доступно изложена в учебнике StatSoft: http://www.statsoft.ru/home/textbook/default.htm (Дисперсионный анализ - Ковариационный анализ (ANCOVA)), но не встречал на русском, чтобы было разложено всё по полочкам с комментариями. Можно попробовать (пока до нового года относительно свободен). Но мне нужно, чтобы я потом потенциально мог использовать этот материал в учебном процессе, а для этого нужно понимать суть рассматриваемых процессов. Если вы согласитесь выложить здесь свои данные в xls с небольшим поясняющим комментарием - попробую покрутить их, если данне позволят и ковариационным анализом в т.ч., а расчёты откомментирую.
Pinus
Nokh, большое спасибо за предложение, но таких блоков с данными, для которых придется делать этот анализ у меня несколько и потом вероятно будет еще какое-то количество, и поскольку это не просто какой-то небольшой сложный элемент в работе, а значительный кусок, то надо разобраться самому что называется от корней. Нашел вроде неплохую главу по ковариационному анализу у Шеффе, и у Джонсона немного есть, пока поковыряюсь.
Какой-то пример с данными выложить не проблема, но они имеют отношение к биологии, а не к медицине, и наверно будет не очень хорошо их использовать в учебном процессе? В любом случае, Вам большое спасибо за наводку, хоть теперь знаю какой анализ разбирать. Беглое прочтение сути метода показывает, что это действительно то, что нужно.
Игорь
Цитата(Pinus @ 10.12.2009 - 16:51) *
Nokh, если не затруднит, посоветуйте путнюю литературу по ковариационному анализу, а то я встречал только общие сведения о ковариации. Этот метод применим для полиномиальных зависимостей 2-го порядка?

nokh Вам посоветовал и еще, конечно, посоветует. От себя предложу посмотреть:

Milliken G.A., Johnson D.E. Analysis of messy data. Volume III: Analysis of covariance. - Boca Raton, FL: Chapman & Hall/CRC, 2002. Очень простое и толковое изложение, но на иностранном языке.
Maxwell S.E., Delaney H.D. Designing experiments and analyzing data. A Model Comparison Perspective. - Mahwah, NJ: Lawrence Erlbaum Associates, 2004.

На русском это глава 6 книги Шеффе Г. Дисперсионный анализ. - М.: Наука, 1980. Очень сложно изложено.

Все книги встречались в электронном виде.
Green
nokh,

Цитата(nokh @ 10.12.2009 - 13:55) *
Никакие модели автора не интересуют, задача сформулирована чётко:

Необходимо определить значимость влияния типа условий Z на переменную Y.

Зачем переформулировать её непонятно во что? Сформулированная задача решается ковариационным анализом.


В этом случае непонятно, зачем автор говорит о переменной Х?

Переменная Z - биноминальная.
Y - количественная ( не нормальная).

Зачем тогда автор говорит о регрессионных моделях?


Это НЕчеткая постановка, имхо
Четкая, когда будет присутствовать условия, связанные с влияющими факторами.
Pinus
Игорь, спасибо за источники. Я уже стабильно каждую неделю жалею, что не владею английским. И судя по всему выхода хоть на какой-то более или менее профессиональный уровень анализа данных без него нет. Так что придется в будущем за это дело браться.

Green, на количественную переменную Y влияют два фактора: X (количественный) и Z (качественный). Нужно определить насколько значимо влияние Z. Две регрессии (для двух разных Z) были построены между Y и X, поскольку предполагалось значительное влияние Z. Выяснилось, что линии на графике очень близки друг к другу, что означает малое влияние Z. Нужно статистически доказать незначимость влияния Z. Тогда, с учетом теоретических соображений можно будет объединить две совокупности в одну и строить не две бессмысленных, а одну общую модель. Уровней Z в принципе может быть несколько, и может получиться так, что часть из них будут незначимо влияющими, а часть значимо. Тогда из всех получится, скажем, две достоверно отличающихся регрессионных модели (одна, например, для Z1 и Z2, а другая для Z3 и Z4). Такая идея.
nokh
Уже полгода как на форуме нет нашего уважаемого модератора. Последний бы раздел этой темы отсюда вырезать и поместить в новую тему "Ковариационный анализ".

К сожалению ничего путного больше по этому анализу с ходу не нашел. Есть правда очень хорошая книга, хотя и старая: Хальд. А. Математическая статистика с техническими приложениями. Взять можно здесь: http://extracoder.com/genesis/0012.html . В ней на примере (с. 488) разбирается как сравнивать 2 и более регрессий, что впоследствии и получило название ковариационного анализа. Но хорошо разобрана только его первая часть - сравнение наклонов регрессии. Вторая часть - сравнение свободных членов параллельных линий - по мнению автора не должна представлять для читателя никаких сложностей. Третья часть - получение и интерпретация согласованных (adjusted) значений параметров зависимости - отсутствует. Дополнительные трудности создаёт символика - она отличается от современной и требуется время чтобы понять где средний квадрат, где F-критерий и.т.д. Но скачайте в любом случае - очень хорошо изложены преобразования шкалы, работа с усечёнными распределениями и ещё ряд тем.

То что данные не медицинские - не страшно, по нику могу даже предположить что ботанические, т.к. медиков учат другой латыни smile.gif. Поэтому данные можете выложить или в личку скинуть, посмотрим что там можно сделать. Если честно, меня интересует не столько собственно ковариац. анализ, сколько возможность спрямления исходных зависимостей в ходе преобразования независимой переменной Х, в т.ч. по Боксу-Коксу. Мы на форуме обсуждали Бокса-Кокса для нормализации данных, но есть его модификация именно для спрямления кривых. Поскольку Б-К использует широкий класс степенных преобразований - писал в посте выше именно о степенных зависимостях. Т.к. обычно полиномы используют в тех случаях, когда нужно учесть нелинейность, а истинная форма зависимости неизвестна - предположил, что возможно степ. зависимость подойдёт. А если спрямить удастся - остальное дело техники.
Green
гхм...
собственно, то, о чем я и писала. Сравнить две регрессии.
Ковариационный анализ хорошо разработан на линейных моделях.
У Pinus - параболы.

где-то видела подход - значения вариант первой выборки (X1) подставляются во вторую модель регрессии (построенную по выборке X2).
Считаются и анализируются резидуалы от X1 и X2 (по второй модели).

по-моему критерий F=((RSS1)/d1)/(RSS2/d2)
где RSS - сумма квадратов остатков (т.е. суммарное расстояние между модельными и выборочными данными)
d- степени свободы.
(пока не могу найти, пишу по памяти frown.gif) Возможно, кто-то найдет, вспомнив формулу.
И естественно, если резидуалы "одинаковы" - это может говорить о том, что исходные данные из одной популяции.
Аналогично, Х2 - в модель 1.

------
nokh пытается сначала "выпрямить", потом сравнить. Любое преобразование - это частично потеря информации. Но, проводя ее приходим к "стандартным" в плане обработки ситуациям. Тоже хорошо.

Pinus
Цитата(nokh @ 12.12.2009 - 14:37) *
Последний бы раздел этой темы отсюда вырезать и поместить в новую тему "Ковариационный анализ".
Да, потому что получилось, что вопрос не относится к непараметрическим методам.

За ссылку большое спасибо, Nokh! И вообще за эту библиотеку, еще много полезного можно скачать, чего у меня не было.
Данные подготовлю и выложу.
На счет степенных функций не знаю. Речь идет, как Вы в принципе догадались о сосне (Pinus sylvestris это в общем-то не так далеко от Homo sapiens smile.gif ), в частности об изменении параметров роста деревьев с возрастом в разных условиях урбосреды. Рост деревьев вообще принято аппроксимировать семейством S-образных кривых, часто используют функцию Вейбулла и кривые Пирсона. Но это тогда, когда рассматривается весь жизненный цикл (или большая его часть). В моем случае изучаемый возрастной интервал составляет 15-55 лет, и в нем есть только второй перегиб (замедление роста при переходе в стадию старения) или перегибов нет совсем. Поэтому во втором случае регрессию беру прямолинейную, а в первом параболу (судя по диаграмме рассеяния и значению R^2). Конечно, есть специальные методы выбора модели, но есть ли смысл в данном случае их использовать, если речь идет о куске функции роста? Может наверно подойти и степенная, не пробовал.
Тут вот может быть ситуация, когда сравниваемые линии расходятся постепенно: при начальных значениях X линии идут очень близко, а к концу интервала значительно расходятся. Как в этом случае сравнивать? Или когда одна линия парабола, а у другой b2 незначим?
Pinus
Green, возможно есть какие-то еще походы, если дадите ссылки на источники, был бы тоже очень благодарен.
Игорь
Есть такая книга. Толковая. McDonald, J.H. 2009. Handbook of Biological Statistics, 2nd ed. Sparky House Publishing, Baltimore, Maryland. В электронном виде (не download!) доступна свободно на сайте автора http://udel.edu/~mcdonald/statintro.html

Особенность книги в том, что для всех описанных методов автор сразу предлагает ПО - либо on-line, либо загружаемое (макросы Excel).

Например, для ковариационного анализа см. страницу http://udel.edu/~mcdonald/statancova.html На ней ссылка http://faculty.vassar.edu/lowry/vsancova.html на бесплатное on-line ПО.
Pinus
Nokh, данные готовы, но форум не грузит файлы Excel. Их надо как-то специально преобразовывать?
Green
Pinus,

Хорошо, что описали задачу. Теперь стало понятнее.

Мне представляется, что сначала нужен анализ данных такого плана.
1. У вас, похоже, нет параболы в том виде, в котором ее принято представлять, а именно: при возрастании X ордината Y сначала уменьшается, потом растет.
2. У Вас только "половинка", которая более походит на логарифмическую. (часть S-образной кривой). Поэтому вам предлагают аппроксимацию зависимости логарифмической или степенной функцией.
(Добавлю, что с S-образной кривой хорошо работает Harrington desirability function Z=exp(-exp(-y)) , где у - кусочно-линейная аппроксимация некоторой зависимости)
3. Подразумевалось, что деревья растут по разному (т.е. вычислялся индекс роста)? Мне кажется, нужно использовать какой-то кумулятивный показатель роста.
4. Поскольку используются наблюдения, связанные со временем, то возможно - это Кокс с ковариатой. Возможно Пуассон....

Т.е., нужно провести "разведочный анализ данных", посмотреть на них. Если покажите описание единиц измерения X и У - будет еще понятнее.

Pinus
Вот, скажем, такой пример (шкалу X делать интервальной пока не стал). Исследуется зависимость высоты насаждения (Y) от возраста (X) в однорядных посадках (Z1) и парных посадках (Z2). Насаждения находятся в однородных условиях местопроизрастания. Требуется определить значимость влияния Z.
Pinus
Цитата(Green @ 13.12.2009 - 22:03) *
У вас, похоже, нет параболы в том виде, в котором ее принято представлять, а именно: при возрастании X ордината Y сначала уменьшается, потом растет.
Да, так.

Цитата(Green @ 13.12.2009 - 22:03) *
У Вас только "половинка", которая более походит на логарифмическую. (часть S-образной кривой). Поэтому вам предлагают аппроксимацию зависимости логарифмической или степенной функцией.
Если облако загибается в начальных значениях X, то логарифмическая хорошо. Если в конечных значениях X, то лучше полином 2 степени. Это судя по диаграмме рассеяния, визуально. Может быть скажется и на проверке модели на адекватность (по повторностям).

Цитата(Green @ 13.12.2009 - 22:03) *
Подразумевалось, что деревья растут по разному (т.е. вычислялся индекс роста)? Мне кажется, нужно использовать какой-то кумулятивный показатель роста.
Не понял вопроса. Различия могут быть в условиях роста и типе посадок, соответственно предполагаем, что Z оказывает влияние. Насколько оно значимо нужно выяснить. Если речь идет о различиях в росте при одинаковом возрасте (X) для одного и того же Z, то считаем, что они обусловлены случайной составляющей.

Цитата(Green @ 13.12.2009 - 22:03) *
Поскольку используются наблюдения, связанные со временем, то возможно - это Кокс с ковариатой. Возможно Пуассон....
Не могу судить. Знаю только, что это не временной ряд, потому что рассматривается не зависимость показателя роста (например, высоты) от возраста для одного и того же насаждения, а зависимость показателя от возраста по разным насаждениям.

Цитата(Green @ 13.12.2009 - 22:03) *
Если покажите описание единиц измерения X и У - будет еще понятнее.
X измеряется в годах, Y например в метрах.
Green
Pinus, я местами фантазировала, не имея достаточной информации.
Типа мысли вслух -может вы считали количество новых лапок за какой-то интервал времени:) Нет там Кокса, Пуассона.

Увидела данные.
Годы, метры, тип посадки (одномоментный срез).

Посмотрю данные с разных сторон.







Pinus
Цитата(Green @ 14.12.2009 - 05:23) *
Увидела данные.
Годы, метры, тип посадки (одномоментный срез).
На месте Z могут быть самые разные условия: плодородие почвы, класс атмосферного загрязнения, условия освещенности места и т.п. На месте Y также: диаметр ствола, диаметр кроны, объем кроны и пр. Подобные задачи могут возникать хоть где: и в биологии, и в медицине, и в сельском хозяйстве, и в любых других отраслях. На мой взгляд такой тип задач должен почти неизбежно сопровождать процесс регрессионного моделирования. Странно почему он слабо проработан на русском языке.
Pinus
Цитата(Игорь @ 13.12.2009 - 17:28) *
Особенность книги в том, что для всех описанных методов автор сразу предлагает ПО - либо on-line, либо загружаемое (макросы Excel).
Игорь, в очередной раз спасибо за ссылку. Вы не планируете включить ковариационный анализ в Attestate?
Игорь
Цитата(Pinus @ 14.12.2009 - 00:32) *
Игорь, в очередной раз спасибо за ссылку. Вы не планируете включить ковариационный анализ в Attestate?

Да, наверное, включу. Т.к. метод необходим пользователям. Часто возникают аналогичные задачи.
Green
Pinus,

1. Я не вижу оснований для ковариационного анализа в представленных данных.
Ковариата должна влять на зависимую и независимые переменные.
рассмотрим Ваши: возраст влияет на рост, но не влияет на тип посадки. Тип посадки не влияет на возраст, возможно влияет на рост. Рост не влияет на тип и на возраст.
Ковариации нет.

2. По поводу нормальности данных.
Вы случайным образом выбираете образцы и снимаете с них некоторые показатели ( в данном случае пара возраст-рост).
Нормально распределено у Вас кол-во деревьев разного возраста, что и означает репрезентативность выборки. А возраст -рост и не должны быть норм. распределены.

3. Переменной для изучения в представленных данных является тип посадки( группа), независимые переменные возраст и рост. Рост есть функция от возраста. Причем эта функция достаточно хорошо аппроксимируется прямой.
В принципе я вижу такую постановку задачи - можно ли определить тип посадки, зная возраст и рост. Или спрогнозировать высоту, зная год и тип посадки ?...Это мои домыслы к конкретным данным, которые Вы дали.
( Кстати, индекс роста =высота/возраст - распределен нормально и не различается в группах.
Еще немного покрутила данные по возрастам. До 22-23 лет они растут быстрее, потом медленнее - в обоих типах посадки, но значимого различия нет.)

4. Вы назвали еще несколько параметров - плодородие почвы, класс атмосферного загрязнения, условия освещенности места и т.п., а также диаметр ствола, диаметр кроны, объем кроны и пр. Я не знаток в биологии, ботанике. Что именно Вы хотите предсказывать по регрессионной модели ( которую хотите построить) ? Возможно, комбинация этих показателей даст различия в моделях. Но что именно изучается?

(Продожение следует)
Pinus
Цитата(Green @ 14.12.2009 - 19:59) *
Вы назвали еще несколько параметров - плодородие почвы, класс атмосферного загрязнения, условия освещенности места и т.п., а также диаметр ствола, диаметр кроны, объем кроны и пр. Я не знаток в биологии, ботанике. Что именно Вы хотите предсказывать по регрессионной модели ( которую хотите построить) ? Возможно, комбинация этих показателей даст различия в моделях. Но что именно изучается?

Я назвал эти варианты X и Y просто в качестве примера. По регрессионной модели хочу предсказывать Y (т.е. какой-либо параметр роста), задавая X (возраст). Другими словами какой высоты (например) будет насаждение в заданном возрасте. Но, по-моему это не имеет никакого значения. Для меня сейчас важно разобраться с теорией. Для этого вполне достаточно оперировать буквами X, Y и Z, зная какой тип переменных за ними стоит. А ботаника это или механика абсолютно без разницы.
Green
Pinus,

Регрессия вам может позволить предсказывать Y в зависимости от (Х1, Х2, Х3....,Хn).
На сегодняшний момент зависимость роста от возраста (Т.е. Y=f(X1) ) такова, что объясняет около 90% вариации. Дальнейшее улучшение модели (т.е. дополнительная параметризация, включение переменных Х2, Х3....,Хn) будет борьбой за оставшиеся 10%.

Уточняющий вопрос в контексте Ваших слов ( "хочу предсказывать Y (т.е. какой-либо параметр роста), задавая X (возраст)")
Вы хотите многомерную модель (несколько независимых переменных) или только одномерную (одна независимая переменная)?
Pinus
Green,
если уже объясняется 90% дисперсии, и если на горизонте исследователя нет количественных факторов, могущих влиять на отклик, то зачем многомерная модель? Все, что мне нужно, это подтвердить или опровергнуть незначимость влияния Z. Если Z значим, то надо оставлять обе модели (для Z1 и Z2 раздельно), если незначим, то объединять выборки в одну выборку и строить одну модель для Z1 и Z2. Если сказать применительно к предложенному примеру, то в случае значимости Z, я буду предлагать обе модели и буду говорить, что в однорядных и парных посадках высота насаждения изменяется в зависимости от возраста по-разному (статистически достоверно). В случае незначимости Z, буду предлагать одну общую модель, и буду говорить, что в однорядных и парных посадках высота насаждения изменяется в зависимости от возраста одинаково.
DrgLena
Для решения вашей задачи есть очень простой способ, описанный во всех старых книжках по биометрии, это сравнение коэффициентов корреляции. Два показателя линейно связаны и в условии Z1 и Z2 вне всякого сомнения rz1=0,949 rz2=0,9398 р=0,64. В программе Statistica есть возможность подставив значения n и r получить их сравнение. А дальше бощая модель. Но если нужно учесть двухвершинность распределения, то это мугут быть различные модели для например первых 30 лет и более для обоих z
nokh
>Pinus
Данные посмотрел, покрутил. Что выходит.
(1) Во-первых, раз речь пошла о процессах роста, то нужно иметь ввиду разработанность этого направления. В основных чертах анализ кривых роста (growth curves) сложился ещё до 1950-х гг. Однако вычислительные сложности не позволяли обычным исследователям эффективно обсчитывать даже логистическую модель, не говоря уже о моделях Берталанфи или Гомперца. Сейчас каждый может обсчитать и эти, и другие появившиеся модели у себя за столом, а это требует современного подхода и к выбору адекватных моделей и последующему сравнению кривых роста для разных популяций. К сожалению, и по этой теме приходится складывать мозаику. Беглый сёрфинг показал, что не существует универсального уравнения роста и многие работы посвящены именно сравнению точности 3-5 различных моделей. Для сравнения кривых роста часто используется перестановочный (permutation) тест. Однако мне такой подход не нравится: ну обнаружим что отличаются, а в чём отличия?
(2) Сложные модели привлекательны именно тем, что входящие в них параметры имеют хорошую теоретическую интерпретацию. Поэтому сравнить модели желательно и по отдельным параметрам, например по их доверительным интервалам. Хотя такой подход обладает меньшей мощностью, но зато в случае обнаружения различий их можно очень чётко интерпретировать по существу стоящих за ними различий биологических процессов. Думаю в лесоведении уже должны иметься некие стандарты или наработки по выбору и интерпретации параметров кривых роста. Такой подход для решения вашей задачи мне представляется наиболее глубоким и полным.
(3) Если, возвращаясь к исходной задаче, отказаться от использования сложных моделей, то всё равно проблема выбора типа зависимости остаётся: линейная, степенная, логарифмическая? Считаю, что раз мы здесь отказываемся от теоретического бэкграунда и исходим только из прагматических соображений - необходимости спрямления кривых для последующего ковариационного анализа - то вправе использовать тот метод, который позволяет сделать это наилучшим способом. Такой метод - преобразование Бокса-Кокса для независимой переменной. В примере для первой выборки лямбда = 0,25. Это соответствует среднему значению между логарифмом Х (лямбда=0) и квадратным корнем из Х (лямбда=0,5) . Т.е. если вместо Х использовать (ln(x)+sqrt(x))/2 то ваша зависимость станет настолько прямой, насколько это только возможно. Для второй выборки лямбда = 0,90. Для идеальной прямой лямбда будет равна 1. Это говорит о том, что во второй выборке зависимость уже близка к прямой. Чтобы объединить данные в одном анализе Х должно быть преобразовано одинаково, т.е. приблизительно через преобразование квадратного корня (для объединённой выборки лямбда = 0,465, что близко к 0,5, а это эквивалентно взятию квадратного корня). Попробуйте построить эти зависимости используя вместо х корень из х. Получим: у1=3,31754х-8,36593; у2=3,34129х-8,40210. Т.о. после преобразования шкалы и спрямления зависимостей стало очевидным, что они не различаются ни по коэффициенту регрессии, ни по свободному члену. На графике эти линии просто сливаются в одну. Если использовать не преобразование квадратного корня, а преобразование Бокса-Кокса с лямбда = 0,465 различия ещё капельку меньше. Честно говоря не хочется искать очевидно отсутствующую разницу между -8,36593 и -8,40210 в ходе ковариационного анализа. Может выложите данные, где одна кривая на глаз проходит повыше другой? Если нет - могу показать технику ковариационного анализа и на этом примере, но будем работать ловя различия в десятых и сотых - не так наглядно.

>DrgLena.
Это задача поиска зависимости и поиска различий между несколькими зависимостями, поэтому использование сравнения корреляций задачу не решает. Ковариационный анализ в Statistica есть, но разбит на 2 части и выдаёт не всю информацию, которую можно из данных выжать, хотя всё основное вроде есть. Сейчас не помню какие у меня были претензии к Statistica - вот определимся с Pinus с примером и я выложу сюда ручной расчёт и листинг Statistica. Если коротко то сначала нужно сравнить наклоны (коэффициенты) регрессий: Advanced Linear/Nonlinear Models - General Linear Models - Homogeneity-of-slopes model. Смотреть эффект взаимодействия x (возраст) и Z (тип посадки). Если оно незначимо - наклоны равны (в случае сравнения более двух регрессий - однородны) - переходим здесь же к Analysis of covariance. Если различия наклонов значимы - смысла переходить ко второй фазе и искать различия в свободном члене нет. Для данных Pinus с преобразованным через квадратный корень возрастом имеем для различий наклонов: F[1;123]=0,014; Р=0,973, что неудивительно, т.к. уравнения практически одинаковые.
Green
Тогда:
Первый вариант:
1. Доказательством того, что группы рандомизированы по возрасту может служить сравнение таблиц 2 х n
возраст - кол-во в 1 гр. кол-во во 2 гр.

Group Group Row
1 2 Totals
14 0 1 1
15 3 5 8
16 4 2 6
......

Там нет значимой разницы между группами в количестве случаев. Т.е. данные рандомизированы. И принадлежат одной выборке.


2. Далее - непараметрическая статистика по высоте (нулевая гипотеза - высоты одинаковы) в двух группах. Опять же - нулевая гипотеза не отклоняется.
==========
Второй вариант:
Две регресионные модели : (Nonlinear estimation - Модуль Statistica 6.0)
Наклон: Точечная и интервальные оценки:
Estimate Standard t-value p-level Lo. Conf Up. Conf
error df = 123 Limit Limit
b1_1 0,313243 0,004668 67,09792 0,00 0,304003 0,322482
b1_2 0,323259 0,004616 70,02467 0,00 0,314122 0,332395


Оба коэффициента наклона достоверно не различаются ( см. точечное оценивание и доверит. интервал), что означает, что достоверной разницы в наклоне нет.
==========
Третий вариант
Модуль STATISTICA 6.0 - GRM (GLM)

Зависимая переменная - высота
Независимая непрерывная - возраст
Независимая категориальная - группа

Результаты говорят о том, что влияния группы нет.

=======
Четвертый вариант: дискриминантный анализ. (StatiStica 6.0)
Хи-квадрат тест показывает неээфективность дискриминации.

======
Если в Excel нарисовать тренды (аналог регрессии) для каждой группы и для всех данных вместе - то... видно в общем-то...


=====
Возможно, когда несколько Ваших бинарных факторов будут влиять на модель - то будет несколько разных уравнений для комбининированных условий. Но с одним условием - имхо, не будет разных моделей.

P.S. пока писала, Появился пост nokh.
В принципе, вывод то тоже.
nokh
Цитата(Green @ 14.12.2009 - 21:00) *
P.S. пока писала, Появился пост nokh.
В принципе, вывод то тоже.

Вывод - да, принцип другой. Повторю, что эта задача решается ковариационным анализом или более "навороченными" методами анализа кривых роста. Всё остальное - шум т.к неоптимально, хотя понравилась идея подстановки второго набора данных в модель, построенную по первому (буду признателен за ссылку) - решает ту же задачу что и перестановочный тест и применим к моделям любой сложности. Если хорошенько покопаться в справочнике Кобзаря - можно подобрать ещё десятка 2-3 методов, которые можно применить к рассматриваемым данным, но зачем? Задача не в том, чтобы один и тот же пример обсчитать всеми известными отдельному исследователю методами, а в том, чтобы обсчитать его с использованием стандартной для таких случаев и наиболее мощной статистической модели, пускай пока и неизвестной отельному исследователю smile.gif.
Также не стал бы усложнять и без того непростые модели введением новых переменных и переходом к множественной регрессии. Более эффективно - получить из всех исходных признаков новые обобщающие переменные (главные компоненты, факторы), интерпретировать их, а потом использовать их в ковариационном анализе. Поскольку на всё многообразие собранных Pinus признаков влияет меньшее число биологических факторов - можно выделить их в рафинированном виде и сравнивать древостои по ним. А так каждый признак несёт в себе смесь этих исходных факторов - где-то "выстрелит" один, где-то другой - ещё обобщать и обобщать.
Для просмотра полной версии этой страницы, пожалуйста, пройдите по ссылке.
Форум IP.Board © 2001-2025 IPS, Inc.