Версия для печати темы

Нажмите сюда для просмотра этой темы в обычном формате

Форум врачей-аспирантов _ Медицинская статистика _ Непараметрическая статистика

Автор: dimcuslongus 20.07.2009 - 21:30

Добрый вечер!
У меня похожая ситуация, что и у PantheraBagira, только переменные зависимые (трижды в динамике оценивается выраженность неврологического дефицита у одних и тех же пациентов). При анализе по Фридмену различия значимые (p<0,0000), при использовании теста Уилкоксона между 1-ой и 2-ой оценкой p "на грани" = 0,0170. При использовании критерия знаков для этой же пары различия значимые (p = 0,0022). Подскажите, как интерпретировать такие результаты? Спасибо!

Автор: nokh 22.07.2009 - 21:52

Цитата(dimcuslongus @ 21.07.2009 - 00:30) *
...При анализе по Фридмену различия значимые (p<0,0000), при использовании теста Уилкоксона между 1-ой и 2-ой оценкой p "на грани" = 0,0170. При использовании критерия знаков для этой же пары различия значимые (p = 0,0022). Подскажите, как интерпретировать такие результаты? Спасибо!

Для такой задачи лучше использовать дисперсионный анализ с повторными наблюдениями, а сравнения между сроками проводить внутри всего дисперсионного комплекса. Если требуется - преобразовать исходные данные. В этом случае информация будет использована по максимуму. В случае анализа Фридмана в качестве значений для разных сроков можно использовать средние ранги и не проводить парных сравнений. По поводу критерия Уилкоксона для разностей пар не понятно на грани чего находится P? В подавляющем большинстве исследований достаточным принимается пятипроцентный уровень значимости. С этой позиции P=0,0170 и P=0,0022 - одно и то же. Если выборки, образующие пары, имеют распределение одного типа - лучше использовать критерий Уилкоксона: он строже и мощнее. Критерий знаков более либерален к данным, но обладает сходной эффективностью только на очень малых выборках (для n=6 - 95%), а при увеличении n его эффективность снижается вплоть до 64%.

Автор: dimcuslongus 23.07.2009 - 18:42

Спасибо!
"На грани" - я использовал поправку Бонферрони для 3 сравнений - p = 0,05 / 3 = 0,017.

Автор: avorotniak 24.07.2009 - 19:16

В отношении непараметрического подхода:

Основными непараметрическими аналогами 2-х факторного ANOVA являются критерии Friedman и Quade (оба критерия основаны на рангах). Первый из них является продолжением критерия знаков, для более 2-х связанных выборок, а второй - продолжением критерия Уилкоксона. (Кстати, для двух выборок, Friedman полностью совпадает с критерием знаков, а Quade - с критерием Уилкоксона). Критерий Quade мощнее, чем Friedman, поэтому предпочтительней. Для каждого из указанных критериев существуют формулы для попарного сравнения (если отвергнута основная гипотеза).

Для использования критерия Уилкоксона нужно проверить данные на симметрию (в отношении Quade не имею точной информации по этому поводу) . Если данные не симметричны и нет возоможности их трансформации, то лучше использовать критерий знаков или Friedman.

Успехов

Автор: Игорь 25.07.2009 - 06:41

Цитата(avorotniak @ 24.07.2009 - 20:16) *
В отношении непараметрического подхода:

Основными непараметрическими аналогами 2-х факторного ANOVA являются критерии Friedman и Quade (оба критерия основаны на рангах). Первый из них является продолжением критерия знаков, для более 2-х связанных выборок, а второй ? продолжением критерия Уилкоксона. (Кстати, для двух выборок, Friedman полностью совпадает с критерием знаков, а Quade ? с критерием Уилкоксона). Критерий Quade мощнее, чем Friedman, поэтому предпочтительней. Для каждого из указанных критериев существуют формулы для попарного сравнения (если отвергнута основная гипотеза).
Для использования критерия Уилкоксона нужно проверить данные на симметрию (в отношении Quade не имею точной информации по этому поводу) . Если данные не симметричны и нет возоможности их трансформации, то лучше использовать критерий знаков или Friedman.

Успехов

Критерий Квейд хорошо описан в руководстве Солиани. http://www.dsa.unipr.it/soliani/capu15.pdf (с. 85). Правда, на итальянском smile.gif, но формулы понятны и так.

Автор: DrgLena 25.07.2009 - 10:31

На английском тоже этот критерий тоже хорошо описан, но Avorotniak утверждает, что он более мощный чем критерий Фридмана, а потому, предпочтительней. Однако, это верно только для небольшого числа связанных выборок, как в данном случае (3), в то время как тест Фридмана более мощный, когда их число пять или больше.

Автор: Игорь 25.07.2009 - 13:58

Цитата(DrgLena @ 25.07.2009 - 10:31) *
На английском тоже этот критерий тоже хорошо описан, но Avorotniak утверждает, что он более мощный чем критерий Фридмана, а потому, предпочтительней. Однако, это верно только для небольшого числа связанных выборок, как в данном случае (3), в то время как тест Фридмана более мощный, когда их число пять или больше.

Если не затруднит, укажите, пожалуйста, английский источник. И что за Avorotniak?

Автор: плав 25.07.2009 - 15:15

Цитата(Игорь @ 25.07.2009 - 14:58) *
И что за Avorotniak?

Сообщение #4 в этой ветке smile.gif

Автор: Игорь 25.07.2009 - 16:02

Цитата(плав @ 25.07.2009 - 15:15) *
Сообщение #4 в этой ветке smile.gif

Спасибо. Кстати, у Soliani как раз даны формулы для попарных сравнений в критерии Квейд. Критерий почему-то мало известен. Надо его популяризовать.

Критерий представлен в известной монографии Conover. Однако ознакомиться с данным источником не удалось.

Автор: avorotniak 25.07.2009 - 18:03

Ссылки на критерий Квейда:
D. Quade (1979), Using weighted rankings in the analysis of complete blocks with additive block effects. Journal of the American Statistical Association, 74, 680?683.
William J. Conover (1999), Practical nonparametric statistics. New York: John Wiley & Sons. Pages 373?380.
В ?R? этот критерий вызывается командой quade.test()

Однако у Soliani (спасибо Игорю) также можно найти все необходимые формулы.
По поводу преимуществ Квейда, согласен с DrgLena.
Чтобы интуитивно понять эти преимущества предлагаю следующее:

Для подсчета статистики Фридмана используются R.j , при этом сначала определяются ранги внутри каждого блока Rij, а потом они суммируются по столбикам (treatments). В результате теряется ?межблочный? эффект. Это использовал Quade ?Using weighted rankings in the analysis of complete blocks with additive block effects?. Статистика Квейда основана на Sij = Qi*(Rij ? (k+1)/2), где Qi как раз и представляет собой взвешивание каждого блока. Qi это ранг каждого блока i в зависимости от range in block i = max Xij - min Xij. Таким образом, критерий Квейда использует больше информации, чем Фридман.

Успехов

Автор: nokh 25.07.2009 - 18:32

По-русски причитать про Quade test с разбором на примере можно в Кобзарь А. И. Прикладная математическая статистика. Для инженеров и научных работников. - М.: ФИЗМАТЛИТ, 2006. - 816 с. (есть в сети в djvu). Там он на стр. 487 и называется "Критерий со взвешенными ранжировками Даны Квейд".

Автор: Игорь 25.07.2009 - 18:33

Всем спасибо за информацию.

Oops!!! У Soliani пример посчитан неверно. Неаккуратно сделано ранжирование (ошибки в 3-х местах). Отсюда весь остальной расчет неверен.

Чтобы пример был хотя бы формально верен, предлагаю поменять исходные данные. Если исходные данные взять такие (показано в транспонированном виде)

115 28 220 82 298 294 98
142 31 311 56 256 322 87
36 7 108 33 46 176 55
91 21 51 46 124 54 84
28 6 117 24 84 86 25

то результатами можно воспользоваться в учебно-познавательных целях.

Еще в формуле для W ошибка. Малыми литерами r обозначен массив рангов, а на самом деле должен быть подставлен (и подставлен в примере) модифицированный массив рангов. Небрежность автора.

Да, кстати, верное замечание. Квейд - это "она".

Автор: DrgLena 25.07.2009 - 19:44

Англоязычный источник - техническая документация к StatXact8, но пример там другой. Документация мне досталась от демо версии программы (pdf 12.3 МБ). Кроме уже указанных выше источников, есть немного в журнальных статьях:

Campbell RA. A comparison of the Quade and Friedman tests to the unbalanced two-way analysis of variance with biomedical data.
Comput Biol Med. 1988;18(6):441-7.

Theodorsson-Norheim E. Friedman and Quade tests: BASIC computer program to perform nonparametric two-way analysis of variance and multiple comparisons on ranks of several related samples.
Comput Biol Med. 1987;17(2):85-99

Автор: DrgLena 25.07.2009 - 21:23

Для данных в итальянском источнике, действительно, значение статистики будет 10,38 а при исправлении рангов, как представил Игорь, получается 9,217, т.е. как в источнике. При этом двухсторонее значение р=0.0001167 (Asymptotic) и р=2.536e-005 (Exact).
Полезный критерий, да еще женский. Пример в StatXact значительно проще:

23 58 11 24 34
23 53 10 20 40
23 54 22 21 22

Полезные упражнения, однако, спасибо всем!

Автор: avorotniak 25.07.2009 - 23:22


Хотелось бы возвратиться к исходной проблеме, предложенной dimcuslongus :

Я так понимаю, что имеет место дизайн полных блоков, то есть в строчках располагаются пациенты (blocks), а в колонках 3 неврологических измерения (treatments). Кроме классической постановки проблемы, Но: все медианы равны против Н1: имеются различия, можно бы сформулировать альтернативную гипотезу по другому: m1 <= m2 <= m3 (по крайней мере с одной строгой неравностью). Например, если нас интересует имелось ли улучшение оценки неврологического статуса пациентов в процессе наблюдения. Для такой гипотезы Page (1963) предложил следующую статистику:

Т = (1/sqrt(n))*sum ((j - (k+1)/2)*(R.j - n*(k+1)/2))
Var(T) = k^2(k^2 - 1)*(k+1)/144

Отвергаем Но если T > z(alfa) sqrt(Var(T)) , где z(alfa) соответствующий перцентиль нормального распределения. Думаю, что в указанной проблеме было бы интересно использовать этот критерий.

Взято из T. Hettmansperger Statistical Inference Based on Ranks

Автор: DrgLena 26.07.2009 - 12:29

Да, и у Кобзаря (ссылку любезноо предоставил nokh) на стр. 482 хорошо описан этот критерий и назван Пейджа (Page). Мы, как то, на этом форуме разбирали критерий сдвига Джонкхиера-Терпстры (у Кобзаря Терпстры-Джонкхира). Но после того как сдвиг доказан, все равно нужно проводить парные сравнения и использовать поправку Бонферрони, как и сделал автор поста. Но его вопрос был в том, что он получил различающиеся оценки при испорльзовании разных критериев.

Автор: Игорь 28.07.2009 - 07:31

Цитата(DrgLena @ 26.07.2009 - 13:29) *
Но его вопрос был в том, что он получил различающиеся оценки при испорльзовании разных критериев.

Результаты в данном случае и должны различаться.

Мы могли бы обсудить, почему и насколько они различаются при наличии исходных данных. Автор темы их не приводит.

Автор: Pinus 10.12.2009 - 08:09

Есть такая задача.
Рассматриваем две независимые выборки, в которых переменная Y подвержена влиянию фактора X (Y и X непрерывные случайные величины). Каждая выборка относится к определенному типу условий Z (качественный признак). Если рассматривать каждую выборку раздельно, то выявлено достоверное влияние X на Y и найдены уравнения регрессии с R^2>0,75. Необходимо определить значимость влияния типа условий Z на переменную Y. Распределения Y и X не являются нормальными.

Мои соображения:
Сгруппировать значения X по интервалам. Интервалы проранжировать. Тогда можем использовать двухфакторный дисперсионный анализ, но поскольку нет нормальности распределений, то он должен быть непараметрическим. В каждой ячейке плана предполагается самое разное количество наблюдений. Пустых ячеек скорее всего не будет.
Двухфакторный анализ Фридмана не пойдет (применяется для связанных выборок). Нашел у Кобзаря критерий Мака-Скилингса (с. 601) и Лемана-Мака (с. 603). Какие методы в этом случае еще можно применить?

Автор: nokh 10.12.2009 - 09:25

Цитата(Pinus @ 10.12.2009 - 10:09) *
Есть такая задача.
Рассматриваем две независимые выборки, в которых переменная Y подвержена влиянию фактора X (Y и X непрерывные случайные величины). Каждая выборка относится к определенному типу условий Z (качественный признак). Если рассматривать каждую выборку раздельно, то выявлено достоверное влияние X на Y и найдены уравнения регрессии с R^2>0,75. Необходимо определить значимость влияния типа условий Z на переменную Y. Распределения Y и X не являются нормальными.

Мои соображения:
Сгруппировать значения X по интервалам. Интервалы проранжировать. Тогда можем использовать двухфакторный дисперсионный анализ, но поскольку нет нормальности распределений, то он должен быть непараметрическим. В каждой ячейке плана предполагается самое разное количество наблюдений. Пустых ячеек скорее всего не будет.
Двухфакторный анализ Фридмана не пойдет (применяется для связанных выборок). Нашел у Кобзаря критерий Мака-Скилингса (с. 601) и Лемана-Мака (с. 603). Какие методы в этом случае еще можно применить?

Предложенный подход приведёт к сильной потере информации и будет обладать малой мощностью. Про нормальность: модели как дисперсионного, так и регрессионного анализов не требуют нормального распределения Y и тем более X. Нормально должны быть распределены ошибки модели, которые в регрессионном анализе чаще называют остатками. Но обычно если Y имеет нормальное распределение, то и ошибки будут также примерно нормально распределены. В дисперсионном анализе X - обычно вообще качественная переменная. Лучшее, что здесь можно сделать - ковариационный анализ (ancova) с предварительно преобразованными данными. Преобразования и в т.ч. Бокса-Кокса подробно обсуждались на форуме. Ограничения помимо норм. р-я ошибок - линейность зависимости и одинаковый наклон регрессий - только в этих условиях возможно выявить влияние Z на разность свободных членов регрессий. Нелинейность устраняется преобразованиями шкал x и y. Хуже всего статистически значимая непараллельность линий, но это только с точки зрения применимости данной техники, т.к. сама по себе непараллельность укажет на некорректность рассмотрения влияния Z на Y без одновременного учёта X - в терминах дисперсионного анализа это называется взаимодействием (XZ).

Автор: Green 10.12.2009 - 13:30

Pinus,

Условия Z - какая шкала?
Если это страты( номинальная шкала)

Рассуждаю так - у вас есть:
модель зависимости Y=f(X) в условиях Z1
модель зависимости Y=f(X) в условиях Z2

задача - найти достоверную разницу между этими моделями?
Можно оценить по отношению правдоподобия.

Опять же, есть разные виды регресий. Соответственно, есть разные подходы.

Подробнее бы написали о моделях и Z ?
( может это Кокс?...)







Автор: nokh 10.12.2009 - 14:55

Цитата(Green @ 10.12.2009 - 15:30) *
Рассуждаю так - у вас есть:
модель зависимости Y=f(X) в условиях Z1
модель зависимости Y=f(X) в условиях Z2
задача - найти достоверную разницу между этими моделями?
Можно оценить по отношению правдоподобия...

Никакие модели автора не интересуют, задача сформулирована чётко:
Цитата(Pinus @ 10.12.2009 - 10:09) *
Необходимо определить значимость влияния типа условий Z на переменную Y.

Зачем переформулировать её непонятно во что? Сформулированная задача решается ковариационным анализом.

Автор: Pinus 10.12.2009 - 15:51

Цитата(nokh @ 10.12.2009 - 16:25) *
Лучшее, что здесь можно сделать - ковариационный анализ (ancova) с предварительно преобразованными данными.
Nokh, если не затруднит, посоветуйте путнюю литературу по ковариационному анализу, а то я встречал только общие сведения о ковариации. Этот метод применим для полиномиальных зависимостей 2-го порядка?

Цитата(nokh @ 10.12.2009 - 16:25) *
Про нормальность: модели как дисперсионного, так и регрессионного анализов не требуют нормального распределения Y и тем более X. Нормально должны быть распределены ошибки модели, которые в регрессионном анализе чаще называют остатками. Но обычно если Y имеет нормальное распределение, то и ошибки будут также примерно нормально распределены.
Это очень хорошо, остатки у меня нормальные. Кстати в нескольких источниках встречал, и по регрессии, и по дисперсионному анализу, что одна из предпосылок это нормальное распределение переменных (что всегда вызывало подозрение); в других же источниках, что остатков. Это был для меня один из вопросов.
Вообще изначально предполагалось, что Z будет оказывать влияние. Регрессии полиномиальные 2-го порядка, и думалось, что на графике в одинаковом масштабе одна получится выше, а другая ниже. А получилось, что совокупности почти накладываются, и параболы, за исключением крайней части, идут весьма близко друг к другу. Просто визуально обосновать, что нет влияния, будет плохо, надо какую-то статистическую достоверность.

Цитата(nokh @ 10.12.2009 - 16:25) *
В дисперсионном анализе X - обычно вообще качественная переменная.
Если все же порассуждать о дисперсионном анализе. Ввиду имеющейся точности метода наблюдений придется все равно X объединять в небольшие группы (по этой причине в другой теме интересовался про регрессию с ошибками в предикторах). Получится интервальная шкала (10-15 интервалов). В этом случае X будет количественной, но дискретной переменной. И если остатки нормальны, и остальные предпосылки выполняются, то можно обычный двухфакторный дисперсионный анализ. Как думаете?

Цитата(nokh @ 10.12.2009 - 16:25) *
Предложенный подход приведёт к сильной потере информации и будет обладать малой мощностью.
Проблема в группировке? Но если она все равно неизбежна (с узкими интервалами). Нет ли ограничений на минимальное количество наблюдений в ячейках (в среднем их будет по 2-3 в каждой, в некоторых по одному, в некоторых по 4-5)? Вообще есть разница по мощности скажем между квадратным планом и узковытянутым, если общее количество наблюдений одинаково?

Автор: Pinus 10.12.2009 - 16:05

Цитата(Green @ 10.12.2009 - 20:30) *
Условия Z - какая шкала?
Если это страты( номинальная шкала)
Два качественных признака (например, хорошие условия и плохие условия).

Цитата(Green @ 10.12.2009 - 20:30) *
Опять же, есть разные виды регресий. Соответственно, есть разные подходы.
В нескольких случаях парабола 2 порядка, в некоторых прямолинейная функция.

Автор: Lars 10.12.2009 - 19:35

Цитата(DrgLena @ 26.07.2009 - 13:29) *
Да, и у Кобзаря (ссылку любезноо предоставил nokh) на стр. 482 хорошо описан этот критерий и назван Пейджа (Page). Мы, как то, на этом форуме разбирали критерий сдвига Джонкхиера-Терпстры (у Кобзаря Терпстры-Джонкхира). Но после того как сдвиг доказан, все равно нужно проводить парные сравнения и использовать поправку Бонферрони, как и сделал автор поста. Но его вопрос был в том, что он получил различающиеся оценки при испорльзовании разных критериев.

слава богу, поправку Бонферрони использовать совсем не нужно - уже сорок лет как придумали менее консервативные поправки: Холма, Хохберга, Хоммеля, Рома, перестановочные и т.д. см., например, Blair, Troendle, Beck (1996) Control of Familywise Errors in Multiple Endpoint Assessments Via Stepwise Permutation Tests.

Автор: nokh 10.12.2009 - 20:42

Дисперсионный анализ можно. При этом интервалы совсем необязательно должны быть равными. В можете сделать их по своему усмотрению такими, чтобы они максимально отражали особенности поведения Y в зависимости от Х. При этом в ячейке должно быть столько наблюдений, чтобы можно было посчитать для них дисперсию, т.е. формально - не менее двух. Современные пакеты могут считать комплексы и с единственным наблюдением на ячейку и с пропусками, но при этом мощность снижается, думаю это уж совсем для каких-то уникальных случаев, где нет никакой возможности посчитать или перегруппировать иначе. Нарезку на интервалы желательно делать исходя из существа процессов, происходящих с Y в зависимости от Х. Например, в реальных условиях больниц никогда не получается собрать такие данные, чтобы к/л показатели регистрировались строго каждый день или через день после операции. Но они собираются всё равно не случайно, а сообразно своей логике, поэтому и после группировки их в интервалы всё равно основные особенности динамики "схватить" удаётся, хотя интервалы различны, например 1, 2-3, 4-5, 7 и более сут после операции.
Дисперсионный анализ подходит для сравнения рядов любой сложности, в т.ч. самой разнообразной нелинейной динамики. Но он будет уступать по мощности регрессионному анализу, т.к. в ДА единицей анализа является каждая группа по оси Х, а в регрессии - единственная функция - явный выигрыш по степеням свободы. Поэтому даже при ошибках в Х, думаю следует попробовать и регрессионный подход. Что делать с полиномами не знаю, но если кривые можно спрямить в ходе степенных преобразований - можно делать ancova. Нужно пробовать, всё-таки степенные преобразования - очень широкий класс преобразований, включающий и логарифмирование, и извлечение корней и обратные значения. Идея ancova доступно изложена в учебнике StatSoft: http://www.statsoft.ru/home/textbook/default.htm (Дисперсионный анализ - Ковариационный анализ (ANCOVA)), но не встречал на русском, чтобы было разложено всё по полочкам с комментариями. Можно попробовать (пока до нового года относительно свободен). Но мне нужно, чтобы я потом потенциально мог использовать этот материал в учебном процессе, а для этого нужно понимать суть рассматриваемых процессов. Если вы согласитесь выложить здесь свои данные в xls с небольшим поясняющим комментарием - попробую покрутить их, если данне позволят и ковариационным анализом в т.ч., а расчёты откомментирую.

Автор: Pinus 11.12.2009 - 07:55

Nokh, большое спасибо за предложение, но таких блоков с данными, для которых придется делать этот анализ у меня несколько и потом вероятно будет еще какое-то количество, и поскольку это не просто какой-то небольшой сложный элемент в работе, а значительный кусок, то надо разобраться самому что называется от корней. Нашел вроде неплохую главу по ковариационному анализу у Шеффе, и у Джонсона немного есть, пока поковыряюсь.
Какой-то пример с данными выложить не проблема, но они имеют отношение к биологии, а не к медицине, и наверно будет не очень хорошо их использовать в учебном процессе? В любом случае, Вам большое спасибо за наводку, хоть теперь знаю какой анализ разбирать. Беглое прочтение сути метода показывает, что это действительно то, что нужно.

Автор: Игорь 11.12.2009 - 10:22

Цитата(Pinus @ 10.12.2009 - 16:51) *
Nokh, если не затруднит, посоветуйте путнюю литературу по ковариационному анализу, а то я встречал только общие сведения о ковариации. Этот метод применим для полиномиальных зависимостей 2-го порядка?

nokh Вам посоветовал и еще, конечно, посоветует. От себя предложу посмотреть:

Milliken G.A., Johnson D.E. Analysis of messy data. Volume III: Analysis of covariance. - Boca Raton, FL: Chapman & Hall/CRC, 2002. Очень простое и толковое изложение, но на иностранном языке.
Maxwell S.E., Delaney H.D. Designing experiments and analyzing data. A Model Comparison Perspective. - Mahwah, NJ: Lawrence Erlbaum Associates, 2004.

На русском это глава 6 книги Шеффе Г. Дисперсионный анализ. - М.: Наука, 1980. Очень сложно изложено.

Все книги встречались в электронном виде.

Автор: Green 11.12.2009 - 12:03

nokh,

Цитата(nokh @ 10.12.2009 - 13:55) *
Никакие модели автора не интересуют, задача сформулирована чётко:

Необходимо определить значимость влияния типа условий Z на переменную Y.

Зачем переформулировать её непонятно во что? Сформулированная задача решается ковариационным анализом.


В этом случае непонятно, зачем автор говорит о переменной Х?

Переменная Z - биноминальная.
Y - количественная ( не нормальная).

Зачем тогда автор говорит о регрессионных моделях?


Это НЕчеткая постановка, имхо
Четкая, когда будет присутствовать условия, связанные с влияющими факторами.

Автор: Pinus 11.12.2009 - 15:15

Игорь, спасибо за источники. Я уже стабильно каждую неделю жалею, что не владею английским. И судя по всему выхода хоть на какой-то более или менее профессиональный уровень анализа данных без него нет. Так что придется в будущем за это дело браться.

Green, на количественную переменную Y влияют два фактора: X (количественный) и Z (качественный). Нужно определить насколько значимо влияние Z. Две регрессии (для двух разных Z) были построены между Y и X, поскольку предполагалось значительное влияние Z. Выяснилось, что линии на графике очень близки друг к другу, что означает малое влияние Z. Нужно статистически доказать незначимость влияния Z. Тогда, с учетом теоретических соображений можно будет объединить две совокупности в одну и строить не две бессмысленных, а одну общую модель. Уровней Z в принципе может быть несколько, и может получиться так, что часть из них будут незначимо влияющими, а часть значимо. Тогда из всех получится, скажем, две достоверно отличающихся регрессионных модели (одна, например, для Z1 и Z2, а другая для Z3 и Z4). Такая идея.

Автор: nokh 12.12.2009 - 07:37

Уже полгода как на форуме нет нашего уважаемого модератора. Последний бы раздел этой темы отсюда вырезать и поместить в новую тему "Ковариационный анализ".

К сожалению ничего путного больше по этому анализу с ходу не нашел. Есть правда очень хорошая книга, хотя и старая: Хальд. А. Математическая статистика с техническими приложениями. Взять можно здесь: http://extracoder.com/genesis/0012.html . В ней на примере (с. 488) разбирается как сравнивать 2 и более регрессий, что впоследствии и получило название ковариационного анализа. Но хорошо разобрана только его первая часть - сравнение наклонов регрессии. Вторая часть - сравнение свободных членов параллельных линий - по мнению автора не должна представлять для читателя никаких сложностей. Третья часть - получение и интерпретация согласованных (adjusted) значений параметров зависимости - отсутствует. Дополнительные трудности создаёт символика - она отличается от современной и требуется время чтобы понять где средний квадрат, где F-критерий и.т.д. Но скачайте в любом случае - очень хорошо изложены преобразования шкалы, работа с усечёнными распределениями и ещё ряд тем.

То что данные не медицинские - не страшно, по нику могу даже предположить что ботанические, т.к. медиков учат другой латыни smile.gif. Поэтому данные можете выложить или в личку скинуть, посмотрим что там можно сделать. Если честно, меня интересует не столько собственно ковариац. анализ, сколько возможность спрямления исходных зависимостей в ходе преобразования независимой переменной Х, в т.ч. по Боксу-Коксу. Мы на форуме обсуждали Бокса-Кокса для нормализации данных, но есть его модификация именно для спрямления кривых. Поскольку Б-К использует широкий класс степенных преобразований - писал в посте выше именно о степенных зависимостях. Т.к. обычно полиномы используют в тех случаях, когда нужно учесть нелинейность, а истинная форма зависимости неизвестна - предположил, что возможно степ. зависимость подойдёт. А если спрямить удастся - остальное дело техники.

Автор: Green 12.12.2009 - 21:43

гхм...
собственно, то, о чем я и писала. Сравнить две регрессии.
Ковариационный анализ хорошо разработан на линейных моделях.
У Pinus - параболы.

где-то видела подход - значения вариант первой выборки (X1) подставляются во вторую модель регрессии (построенную по выборке X2).
Считаются и анализируются резидуалы от X1 и X2 (по второй модели).

по-моему критерий F=((RSS1)/d1)/(RSS2/d2)
где RSS - сумма квадратов остатков (т.е. суммарное расстояние между модельными и выборочными данными)
d- степени свободы.
(пока не могу найти, пишу по памяти frown.gif) Возможно, кто-то найдет, вспомнив формулу.
И естественно, если резидуалы "одинаковы" - это может говорить о том, что исходные данные из одной популяции.
Аналогично, Х2 - в модель 1.

------
nokh пытается сначала "выпрямить", потом сравнить. Любое преобразование - это частично потеря информации. Но, проводя ее приходим к "стандартным" в плане обработки ситуациям. Тоже хорошо.


Автор: Pinus 13.12.2009 - 03:24

Цитата(nokh @ 12.12.2009 - 14:37) *
Последний бы раздел этой темы отсюда вырезать и поместить в новую тему "Ковариационный анализ".
Да, потому что получилось, что вопрос не относится к непараметрическим методам.

За ссылку большое спасибо, Nokh! И вообще за эту библиотеку, еще много полезного можно скачать, чего у меня не было.
Данные подготовлю и выложу.
На счет степенных функций не знаю. Речь идет, как Вы в принципе догадались о сосне (Pinus sylvestris это в общем-то не так далеко от Homo sapiens smile.gif ), в частности об изменении параметров роста деревьев с возрастом в разных условиях урбосреды. Рост деревьев вообще принято аппроксимировать семейством S-образных кривых, часто используют функцию Вейбулла и кривые Пирсона. Но это тогда, когда рассматривается весь жизненный цикл (или большая его часть). В моем случае изучаемый возрастной интервал составляет 15-55 лет, и в нем есть только второй перегиб (замедление роста при переходе в стадию старения) или перегибов нет совсем. Поэтому во втором случае регрессию беру прямолинейную, а в первом параболу (судя по диаграмме рассеяния и значению R^2). Конечно, есть специальные методы выбора модели, но есть ли смысл в данном случае их использовать, если речь идет о куске функции роста? Может наверно подойти и степенная, не пробовал.
Тут вот может быть ситуация, когда сравниваемые линии расходятся постепенно: при начальных значениях X линии идут очень близко, а к концу интервала значительно расходятся. Как в этом случае сравнивать? Или когда одна линия парабола, а у другой b2 незначим?

Автор: Pinus 13.12.2009 - 03:30

Green, возможно есть какие-то еще походы, если дадите ссылки на источники, был бы тоже очень благодарен.

Автор: Игорь 13.12.2009 - 10:28

Есть такая книга. Толковая. McDonald, J.H. 2009. Handbook of Biological Statistics, 2nd ed. Sparky House Publishing, Baltimore, Maryland. В электронном виде (не download!) доступна свободно на сайте автора http://udel.edu/~mcdonald/statintro.html

Особенность книги в том, что для всех описанных методов автор сразу предлагает ПО - либо on-line, либо загружаемое (макросы Excel).

Например, для ковариационного анализа см. страницу http://udel.edu/~mcdonald/statancova.html На ней ссылка http://faculty.vassar.edu/lowry/vsancova.html на бесплатное on-line ПО.

Автор: Pinus 13.12.2009 - 14:31

Nokh, данные готовы, но форум не грузит файлы Excel. Их надо как-то специально преобразовывать?

Автор: Green 13.12.2009 - 15:03

Pinus,

Хорошо, что описали задачу. Теперь стало понятнее.

Мне представляется, что сначала нужен анализ данных такого плана.
1. У вас, похоже, нет параболы в том виде, в котором ее принято представлять, а именно: при возрастании X ордината Y сначала уменьшается, потом растет.
2. У Вас только "половинка", которая более походит на логарифмическую. (часть S-образной кривой). Поэтому вам предлагают аппроксимацию зависимости логарифмической или степенной функцией.
(Добавлю, что с S-образной кривой хорошо работает Harrington desirability function Z=exp(-exp(-y)) , где у - кусочно-линейная аппроксимация некоторой зависимости)
3. Подразумевалось, что деревья растут по разному (т.е. вычислялся индекс роста)? Мне кажется, нужно использовать какой-то кумулятивный показатель роста.
4. Поскольку используются наблюдения, связанные со временем, то возможно - это Кокс с ковариатой. Возможно Пуассон....

Т.е., нужно провести "разведочный анализ данных", посмотреть на них. Если покажите описание единиц измерения X и У - будет еще понятнее.


Автор: Pinus 13.12.2009 - 16:35

Вот, скажем, такой пример (шкалу X делать интервальной пока не стал). Исследуется зависимость высоты насаждения (Y) от возраста (X) в однорядных посадках (Z1) и парных посадках (Z2). Насаждения находятся в однородных условиях местопроизрастания. Требуется определить значимость влияния Z.

 Книга1.rar ( 2,52 килобайт ) : 563
 

Автор: Pinus 13.12.2009 - 16:46

Цитата(Green @ 13.12.2009 - 22:03) *
У вас, похоже, нет параболы в том виде, в котором ее принято представлять, а именно: при возрастании X ордината Y сначала уменьшается, потом растет.
Да, так.

Цитата(Green @ 13.12.2009 - 22:03) *
У Вас только "половинка", которая более походит на логарифмическую. (часть S-образной кривой). Поэтому вам предлагают аппроксимацию зависимости логарифмической или степенной функцией.
Если облако загибается в начальных значениях X, то логарифмическая хорошо. Если в конечных значениях X, то лучше полином 2 степени. Это судя по диаграмме рассеяния, визуально. Может быть скажется и на проверке модели на адекватность (по повторностям).

Цитата(Green @ 13.12.2009 - 22:03) *
Подразумевалось, что деревья растут по разному (т.е. вычислялся индекс роста)? Мне кажется, нужно использовать какой-то кумулятивный показатель роста.
Не понял вопроса. Различия могут быть в условиях роста и типе посадок, соответственно предполагаем, что Z оказывает влияние. Насколько оно значимо нужно выяснить. Если речь идет о различиях в росте при одинаковом возрасте (X) для одного и того же Z, то считаем, что они обусловлены случайной составляющей.

Цитата(Green @ 13.12.2009 - 22:03) *
Поскольку используются наблюдения, связанные со временем, то возможно - это Кокс с ковариатой. Возможно Пуассон....
Не могу судить. Знаю только, что это не временной ряд, потому что рассматривается не зависимость показателя роста (например, высоты) от возраста для одного и того же насаждения, а зависимость показателя от возраста по разным насаждениям.

Цитата(Green @ 13.12.2009 - 22:03) *
Если покажите описание единиц измерения X и У - будет еще понятнее.
X измеряется в годах, Y например в метрах.

Автор: Green 13.12.2009 - 22:23

Pinus, я местами фантазировала, не имея достаточной информации.
Типа мысли вслух -может вы считали количество новых лапок за какой-то интервал времени:) Нет там Кокса, Пуассона.

Увидела данные.
Годы, метры, тип посадки (одномоментный срез).

Посмотрю данные с разных сторон.








Автор: Pinus 14.12.2009 - 00:26

Цитата(Green @ 14.12.2009 - 05:23) *
Увидела данные.
Годы, метры, тип посадки (одномоментный срез).
На месте Z могут быть самые разные условия: плодородие почвы, класс атмосферного загрязнения, условия освещенности места и т.п. На месте Y также: диаметр ствола, диаметр кроны, объем кроны и пр. Подобные задачи могут возникать хоть где: и в биологии, и в медицине, и в сельском хозяйстве, и в любых других отраслях. На мой взгляд такой тип задач должен почти неизбежно сопровождать процесс регрессионного моделирования. Странно почему он слабо проработан на русском языке.

Автор: Pinus 14.12.2009 - 00:32

Цитата(Игорь @ 13.12.2009 - 17:28) *
Особенность книги в том, что для всех описанных методов автор сразу предлагает ПО - либо on-line, либо загружаемое (макросы Excel).
Игорь, в очередной раз спасибо за ссылку. Вы не планируете включить ковариационный анализ в Attestate?

Автор: Игорь 14.12.2009 - 08:24

Цитата(Pinus @ 14.12.2009 - 00:32) *
Игорь, в очередной раз спасибо за ссылку. Вы не планируете включить ковариационный анализ в Attestate?

Да, наверное, включу. Т.к. метод необходим пользователям. Часто возникают аналогичные задачи.

Автор: Green 14.12.2009 - 12:59

Pinus,

1. Я не вижу оснований для ковариационного анализа в представленных данных.
Ковариата должна влять на зависимую и независимые переменные.
рассмотрим Ваши: возраст влияет на рост, но не влияет на тип посадки. Тип посадки не влияет на возраст, возможно влияет на рост. Рост не влияет на тип и на возраст.
Ковариации нет.

2. По поводу нормальности данных.
Вы случайным образом выбираете образцы и снимаете с них некоторые показатели ( в данном случае пара возраст-рост).
Нормально распределено у Вас кол-во деревьев разного возраста, что и означает репрезентативность выборки. А возраст -рост и не должны быть норм. распределены.

3. Переменной для изучения в представленных данных является тип посадки( группа), независимые переменные возраст и рост. Рост есть функция от возраста. Причем эта функция достаточно хорошо аппроксимируется прямой.
В принципе я вижу такую постановку задачи - можно ли определить тип посадки, зная возраст и рост. Или спрогнозировать высоту, зная год и тип посадки ?...Это мои домыслы к конкретным данным, которые Вы дали.
( Кстати, индекс роста =высота/возраст - распределен нормально и не различается в группах.
Еще немного покрутила данные по возрастам. До 22-23 лет они растут быстрее, потом медленнее - в обоих типах посадки, но значимого различия нет.)

4. Вы назвали еще несколько параметров - плодородие почвы, класс атмосферного загрязнения, условия освещенности места и т.п., а также диаметр ствола, диаметр кроны, объем кроны и пр. Я не знаток в биологии, ботанике. Что именно Вы хотите предсказывать по регрессионной модели ( которую хотите построить) ? Возможно, комбинация этих показателей даст различия в моделях. Но что именно изучается?

(Продожение следует)

Автор: Pinus 14.12.2009 - 13:53

Цитата(Green @ 14.12.2009 - 19:59) *
Вы назвали еще несколько параметров - плодородие почвы, класс атмосферного загрязнения, условия освещенности места и т.п., а также диаметр ствола, диаметр кроны, объем кроны и пр. Я не знаток в биологии, ботанике. Что именно Вы хотите предсказывать по регрессионной модели ( которую хотите построить) ? Возможно, комбинация этих показателей даст различия в моделях. Но что именно изучается?

Я назвал эти варианты X и Y просто в качестве примера. По регрессионной модели хочу предсказывать Y (т.е. какой-либо параметр роста), задавая X (возраст). Другими словами какой высоты (например) будет насаждение в заданном возрасте. Но, по-моему это не имеет никакого значения. Для меня сейчас важно разобраться с теорией. Для этого вполне достаточно оперировать буквами X, Y и Z, зная какой тип переменных за ними стоит. А ботаника это или механика абсолютно без разницы.

Автор: Green 14.12.2009 - 14:24

Pinus,

Регрессия вам может позволить предсказывать Y в зависимости от (Х1, Х2, Х3....,Хn).
На сегодняшний момент зависимость роста от возраста (Т.е. Y=f(X1) ) такова, что объясняет около 90% вариации. Дальнейшее улучшение модели (т.е. дополнительная параметризация, включение переменных Х2, Х3....,Хn) будет борьбой за оставшиеся 10%.

Уточняющий вопрос в контексте Ваших слов ( "хочу предсказывать Y (т.е. какой-либо параметр роста), задавая X (возраст)")
Вы хотите многомерную модель (несколько независимых переменных) или только одномерную (одна независимая переменная)?

Автор: Pinus 14.12.2009 - 15:36

Green,
если уже объясняется 90% дисперсии, и если на горизонте исследователя нет количественных факторов, могущих влиять на отклик, то зачем многомерная модель? Все, что мне нужно, это подтвердить или опровергнуть незначимость влияния Z. Если Z значим, то надо оставлять обе модели (для Z1 и Z2 раздельно), если незначим, то объединять выборки в одну выборку и строить одну модель для Z1 и Z2. Если сказать применительно к предложенному примеру, то в случае значимости Z, я буду предлагать обе модели и буду говорить, что в однорядных и парных посадках высота насаждения изменяется в зависимости от возраста по-разному (статистически достоверно). В случае незначимости Z, буду предлагать одну общую модель, и буду говорить, что в однорядных и парных посадках высота насаждения изменяется в зависимости от возраста одинаково.

Автор: DrgLena 14.12.2009 - 16:27

Для решения вашей задачи есть очень простой способ, описанный во всех старых книжках по биометрии, это сравнение коэффициентов корреляции. Два показателя линейно связаны и в условии Z1 и Z2 вне всякого сомнения rz1=0,949 rz2=0,9398 р=0,64. В программе Statistica есть возможность подставив значения n и r получить их сравнение. А дальше бощая модель. Но если нужно учесть двухвершинность распределения, то это мугут быть различные модели для например первых 30 лет и более для обоих z

Автор: nokh 14.12.2009 - 18:35

>Pinus
Данные посмотрел, покрутил. Что выходит.
(1) Во-первых, раз речь пошла о процессах роста, то нужно иметь ввиду разработанность этого направления. В основных чертах анализ кривых роста (growth curves) сложился ещё до 1950-х гг. Однако вычислительные сложности не позволяли обычным исследователям эффективно обсчитывать даже логистическую модель, не говоря уже о моделях Берталанфи или Гомперца. Сейчас каждый может обсчитать и эти, и другие появившиеся модели у себя за столом, а это требует современного подхода и к выбору адекватных моделей и последующему сравнению кривых роста для разных популяций. К сожалению, и по этой теме приходится складывать мозаику. Беглый сёрфинг показал, что не существует универсального уравнения роста и многие работы посвящены именно сравнению точности 3-5 различных моделей. Для сравнения кривых роста часто используется перестановочный (permutation) тест. Однако мне такой подход не нравится: ну обнаружим что отличаются, а в чём отличия?
(2) Сложные модели привлекательны именно тем, что входящие в них параметры имеют хорошую теоретическую интерпретацию. Поэтому сравнить модели желательно и по отдельным параметрам, например по их доверительным интервалам. Хотя такой подход обладает меньшей мощностью, но зато в случае обнаружения различий их можно очень чётко интерпретировать по существу стоящих за ними различий биологических процессов. Думаю в лесоведении уже должны иметься некие стандарты или наработки по выбору и интерпретации параметров кривых роста. Такой подход для решения вашей задачи мне представляется наиболее глубоким и полным.
(3) Если, возвращаясь к исходной задаче, отказаться от использования сложных моделей, то всё равно проблема выбора типа зависимости остаётся: линейная, степенная, логарифмическая? Считаю, что раз мы здесь отказываемся от теоретического бэкграунда и исходим только из прагматических соображений - необходимости спрямления кривых для последующего ковариационного анализа - то вправе использовать тот метод, который позволяет сделать это наилучшим способом. Такой метод - преобразование Бокса-Кокса для независимой переменной. В примере для первой выборки лямбда = 0,25. Это соответствует среднему значению между логарифмом Х (лямбда=0) и квадратным корнем из Х (лямбда=0,5) . Т.е. если вместо Х использовать (ln(x)+sqrt(x))/2 то ваша зависимость станет настолько прямой, насколько это только возможно. Для второй выборки лямбда = 0,90. Для идеальной прямой лямбда будет равна 1. Это говорит о том, что во второй выборке зависимость уже близка к прямой. Чтобы объединить данные в одном анализе Х должно быть преобразовано одинаково, т.е. приблизительно через преобразование квадратного корня (для объединённой выборки лямбда = 0,465, что близко к 0,5, а это эквивалентно взятию квадратного корня). Попробуйте построить эти зависимости используя вместо х корень из х. Получим: у1=3,31754х-8,36593; у2=3,34129х-8,40210. Т.о. после преобразования шкалы и спрямления зависимостей стало очевидным, что они не различаются ни по коэффициенту регрессии, ни по свободному члену. На графике эти линии просто сливаются в одну. Если использовать не преобразование квадратного корня, а преобразование Бокса-Кокса с лямбда = 0,465 различия ещё капельку меньше. Честно говоря не хочется искать очевидно отсутствующую разницу между -8,36593 и -8,40210 в ходе ковариационного анализа. Может выложите данные, где одна кривая на глаз проходит повыше другой? Если нет - могу показать технику ковариационного анализа и на этом примере, но будем работать ловя различия в десятых и сотых - не так наглядно.

>DrgLena.
Это задача поиска зависимости и поиска различий между несколькими зависимостями, поэтому использование сравнения корреляций задачу не решает. Ковариационный анализ в Statistica есть, но разбит на 2 части и выдаёт не всю информацию, которую можно из данных выжать, хотя всё основное вроде есть. Сейчас не помню какие у меня были претензии к Statistica - вот определимся с Pinus с примером и я выложу сюда ручной расчёт и листинг Statistica. Если коротко то сначала нужно сравнить наклоны (коэффициенты) регрессий: Advanced Linear/Nonlinear Models - General Linear Models - Homogeneity-of-slopes model. Смотреть эффект взаимодействия x (возраст) и Z (тип посадки). Если оно незначимо - наклоны равны (в случае сравнения более двух регрессий - однородны) - переходим здесь же к Analysis of covariance. Если различия наклонов значимы - смысла переходить ко второй фазе и искать различия в свободном члене нет. Для данных Pinus с преобразованным через квадратный корень возрастом имеем для различий наклонов: F[1;123]=0,014; Р=0,973, что неудивительно, т.к. уравнения практически одинаковые.

Автор: Green 14.12.2009 - 19:00

Тогда:
Первый вариант:
1. Доказательством того, что группы рандомизированы по возрасту может служить сравнение таблиц 2 х n
возраст - кол-во в 1 гр. кол-во во 2 гр.

Group Group Row
1 2 Totals
14 0 1 1
15 3 5 8
16 4 2 6
......

Там нет значимой разницы между группами в количестве случаев. Т.е. данные рандомизированы. И принадлежат одной выборке.


2. Далее - непараметрическая статистика по высоте (нулевая гипотеза - высоты одинаковы) в двух группах. Опять же - нулевая гипотеза не отклоняется.
==========
Второй вариант:
Две регресионные модели : (Nonlinear estimation - Модуль Statistica 6.0)
Наклон: Точечная и интервальные оценки:
Estimate Standard t-value p-level Lo. Conf Up. Conf
error df = 123 Limit Limit
b1_1 0,313243 0,004668 67,09792 0,00 0,304003 0,322482
b1_2 0,323259 0,004616 70,02467 0,00 0,314122 0,332395


Оба коэффициента наклона достоверно не различаются ( см. точечное оценивание и доверит. интервал), что означает, что достоверной разницы в наклоне нет.
==========
Третий вариант
Модуль STATISTICA 6.0 - GRM (GLM)

Зависимая переменная - высота
Независимая непрерывная - возраст
Независимая категориальная - группа

Результаты говорят о том, что влияния группы нет.

=======
Четвертый вариант: дискриминантный анализ. (StatiStica 6.0)
Хи-квадрат тест показывает неээфективность дискриминации.

======
Если в Excel нарисовать тренды (аналог регрессии) для каждой группы и для всех данных вместе - то... видно в общем-то...


=====
Возможно, когда несколько Ваших бинарных факторов будут влиять на модель - то будет несколько разных уравнений для комбининированных условий. Но с одним условием - имхо, не будет разных моделей.

P.S. пока писала, Появился пост nokh.
В принципе, вывод то тоже.

Автор: nokh 14.12.2009 - 19:23

Цитата(Green @ 14.12.2009 - 21:00) *
P.S. пока писала, Появился пост nokh.
В принципе, вывод то тоже.

Вывод - да, принцип другой. Повторю, что эта задача решается ковариационным анализом или более "навороченными" методами анализа кривых роста. Всё остальное - шум т.к неоптимально, хотя понравилась идея подстановки второго набора данных в модель, построенную по первому (буду признателен за ссылку) - решает ту же задачу что и перестановочный тест и применим к моделям любой сложности. Если хорошенько покопаться в справочнике Кобзаря - можно подобрать ещё десятка 2-3 методов, которые можно применить к рассматриваемым данным, но зачем? Задача не в том, чтобы один и тот же пример обсчитать всеми известными отдельному исследователю методами, а в том, чтобы обсчитать его с использованием стандартной для таких случаев и наиболее мощной статистической модели, пускай пока и неизвестной отельному исследователю smile.gif.
Также не стал бы усложнять и без того непростые модели введением новых переменных и переходом к множественной регрессии. Более эффективно - получить из всех исходных признаков новые обобщающие переменные (главные компоненты, факторы), интерпретировать их, а потом использовать их в ковариационном анализе. Поскольку на всё многообразие собранных Pinus признаков влияет меньшее число биологических факторов - можно выделить их в рафинированном виде и сравнивать древостои по ним. А так каждый признак несёт в себе смесь этих исходных факторов - где-то "выстрелит" один, где-то другой - ещё обобщать и обобщать.

Автор: DrgLena 14.12.2009 - 19:56

Nokh, я поняла ваш подход, т.е. ковариационный анализ, но в новой Statistica вначале не нашла ANCOVA и не использовала ранее в работе, спасибо за подсказку. С сейчас, я думаю весьма полезным рассмотреть нарушение корреляционных зависимостей при сравнении групп, например, больных и здоровых .
Вопрос к Green. Какое понятие вы вкладываете в выражение ?рандомизированы по возрасту?. Рандомизация в медицине имеет весьма конкретное и очень большое значение. Работы, в которых сравниваются две группы лечения, которые были рандомизированы по возрасту, дальше можно не читать. Рандомизация либо есть, либо нет, она не может быть по возрасту.
Еще о работе форума, личные письма не доходят, хотя идет информация, что они успешно отправлены, но в отправленных их нет, как нет и ответов на них. Вряд ли у nokh и Игоря есть причины не отвечать на личные письма.

Автор: nokh 14.12.2009 - 20:44

Цитата(DrgLena @ 14.12.2009 - 21:56) *
Еще о работе форума, личные письма не доходят, хотя идет информация, что они успешно отправлены, но в отправленных их нет, как нет и ответов на них. Вряд ли у nokh и Игоря есть причины не отвечать на личные письма.

Посмотрел, никаких личных сообщений действительно нет. Можете написать на nokhrin8собакаmail.ru.

Автор: Green 14.12.2009 - 22:40

nokh,
я понимаю, что аппарат КА может быть использован в данном случае.
Я не понимаю, как возраст влияет на тип посадки и наоборот. Формально КА используется, когда есть влияние между независимыми переменными. Я его не увидела. Поэтому предпочла GLM и GRM.
>Вывод - да, принцип другой.
Не думаю, в данном случае совпадали именно принципы, а не конкретная реализация. Вы также смотрели коэффициенты, вы также составляли факторный план.

>Также не стал бы усложнять и без того непростые модели введением новых переменных и переходом к множественной регрессии.
Это как раз будет КА. Я так поняла, что у Pinus много номинальных факторов (условий).
Использование МГК - достаточно сложно... и нужно ли?

В общем, я предпочитаю упрощать smile.gif а не усложнять.

Еще вопросы, nokh.
1.После трансформации данные нужно проверять на нормальность?
2. В регрессии зависимая переменная должна быть нормальна. Если не ошибаюсь. А в КА?


-----------
DrgLena
"Доказательством того, что группы рандомизированы по возрасту может служить сравнение таблиц 2 х n"
нужно читать
"Доказательством того, что группы рандомизированы, может служить сравнение количества случаев по возрасту - таблица 2 х n при последующей проверке на нормальность"

Рандомизация - это процедура, которая подразумевает, что данные будут случайны, без смещения. Я доказывала, что выбор образцов был случайным и подчинялся норм. закону. Т.е. смещения не было.



Р.S. Я занимаюсь в основном разведочным анализом данных. Там все идет от понимания моделей (для меня, во всяком случае). Но последнее время появились работы, связанные напрямую со статанализом и медициной. Поэтому могу ошибаться в точных формулировках. Все поправки приму с благодарностью smile.gif.

Автор: nokh 14.12.2009 - 23:40

Цитата(Green @ 15.12.2009 - 00:40) *
nokh,
я понимаю, что аппарат КА может быть использован в данном случае.
Я не понимаю, как возраст влияет на тип посадки и наоборот. Формально КА используется, когда есть влияние между независимыми переменными. Я его не увидела. Поэтому предпочла GLM и GRM.
...
Еще вопросы, nokh.
1.После трансформации данные нужно проверять на нормальность?
2. В регрессии зависимая переменная должна быть нормальна. Если не ошибаюсь. А в КА?

Возраст, конечно, на тип посадки не влияет. Требуется как в дисперсионном анализе или тесте Стьюдента выявить влияние типа посадки на средний размер дерева. Если бы все деревья были одного возраста - никаких проблем. Но вмешивается возраст, который также влияет на размер дерева и выступает в анализе непрерывной ковариатой. Поэтому и используется регрессионная техника: с её помощью выражаются регрессионные зависимости признака от ковариаты, а оценка различий между типами посадки сводится тогда к оценке различий между свободными членами регрессий. Ключевой здесь является параллельность зависимостей. Ковариационный анализ (как и дисперсионный, и регрессионный) является частным случаем General Linear Models (GLM), которая в свою очередь является частным случаем Generalized Linear Models.
Данные на нормальность проверять не нужно. Представьте, что у нас всего три возраста, скажем 10, 20 и 30 лет. Тогда распределение Y будет тримодальным - никакой нормальности. Но внутри каждого возрастного класса распределение должно быть нормальным, однако в силу особенностей данных такую проверку мы выполнить не можем. Поэтому в регрессии (как и в дисперсионном анализе) смотрится распределение ошибок - рассеяние относительно теоретической линии регрессии - оно должно быть нормальным, иначе данные нужно преобразовывать или использовать другую модель.

Автор: Pinus 15.12.2009 - 08:43

Nokh, к сожалению сильно отличающихся данных нет (будут только после второго этапа эксперимента). Те, что есть, все наподобие этого примера. Раз нет реальных данных, давайте сделаем искусственные. Предлагаю уменьшить Y(Z2) на 0,8. Значения остальных переменных оставить такими же. Z2 будем считать не парными, а одиночными посадками (тогда сохранится какая-то теоретическая логика).

Автор: Green 15.12.2009 - 12:10

nokh,
пытаюсь осмыслить "а оценка различий между типами посадки сводится тогда к оценке различий между свободными членами регрессий".
Свободный член в линейном уравнении означает сдвиг прямой вдоль оси Y.
Что означает, что посаженные образцы были изначально выше в одной группе, чем в другой?
Регрессия от возраста - это сколько дерево прибавило в росте за год. Если она линейная - это означает, что в 1 и 2 группах деревья одинаково прибавляли в росте (0,31м за год по модели).

---------------
Второе, что пытаюсь осмыслить: "Поэтому в регрессии (как и в дисперсионном анализе) смотрится распределение ошибок - рассеяние относительно теоретической линии регрессии - оно должно быть нормальным, иначе данные нужно преобразовывать или использовать другую модель." и соотнести с тем, что вы занялись преобразованием ДО построения модели. Ведь ошибки сразу были нормальные, до преобразования.
Какой смысл тогда был в преобразовании?

Автор: Green 16.12.2009 - 14:18

nokh,
по поводу ссылки на подстановку данных в модель именно с такой оценкой - пока не могу найти frown.gif

Сам подход достаточно известен в разведочном анализе, выборка рандомно разбивается 2 или более частей (обучающая и тестовая), по одной части строится модель, по остальным верифицируется. Иногда, например, для оценки процента корректной классификации, после построения модели по обучающей выборке, случайным образом генерируется множество подвыборок из тестовой модели и уже полученные данные по проценту корректной классификации ( или ошибки классификации) - образуют выборку, которая обрабатывается статистически ( среднее, дисперсия). Есть и др.
Но это уже совсем не имеет отношения к обсуждаемой теме.
Если не возражаете и есть интерес по построению моделей - то напишу уже на мыло.

Да, и еще.

Comparability Test - для JointPoint тут - http://srab.cancer.gov/joinpoint/comparabilitytest.html

Если иметь ввиду, что для линейной регрессии jp=0, то можно посмотреть, во что превращается выражение для тестовой статистики.



Автор: nokh 16.12.2009 - 15:49

>Green
Я начну сегодня готовить раздельчик по ковариационному анализу, типа как по анализу остатков - гл. обр. формулы. Постараюсь ответить на ваши вопросы там. Про перекрёстную проверку (crossvalidation) читал года 2-3 назад много, но до практики не дошло - выборки почти всегда крошечные, а без практики всё быстро забылось. Спасибо за ссылку по JointPoint, всё сгребу в архив, может пригодится когда: конспект вот по ковариационному анализу за 10 лет всего второй раз понадобился.

Автор: Игорь 16.12.2009 - 17:45

Цитата(nokh @ 16.12.2009 - 15:49) *
Я начну сегодня готовить раздельчик по ковариационному анализу, типа как по анализу остатков - гл. обр. формулы.

Может, поможет информация. Подборка формул по ковариационному анализу есть на с. 239 "Справочника по математическим методам в геологии" Д.А. Родионова с соавт. (1987 г.).

Пример можно взять на с. 42 книги Milliken G.A., Johnson D.E. Analysis of messy data. Volume III: Analysis of covariance. - Boca Raton, FL: Chapman & Hall/CRC, 2002. Далее в книге формул нет, но есть выдача SAS для этих данных.

Источники встречаются в электронном виде.

Автор: nokh 16.12.2009 - 19:45

Цитата(Игорь @ 16.12.2009 - 19:45) *
Может, поможет информация...

Большое спасибо! По аncova вряд ли поможет - у меня конспект по Sokal & Rohlf. Biometry, там достаточно полно всё изложено. Хотя, конечно, посмотреть не помешает. А вот справочник Родионова искал уже в 2 этапа, но на тот период не находил в сети. Сейчас значит должен найти. Пусть немного не в тему, но целые блоки современных стат. методов, применяемых в геологии, почти целиком не описаны по-русски: работа с композиционными данными, включая сложности многомерного анализа, а также визуализации на тройных диаграммах (ternary plot), работа с цензурированными наблюдениями типа "менее чем" (nondetect, "less-then" values), весь спектр геостатистических методов (анализ вариограмм, различные варианты кригинга и симуляционных методов интерполяции пространственных (regionalized) переменных. В принципе, все они могут и должны применяться и в медицине, но разрабатываются почти исключительно геологами и гео- или гидрохимиками.

PS Скачал Milliken & Johnson Analysis of covariance. Конечно с Sokal & Rohlf несопоставимо: у них глава в книге из 850 стр., а здесь целая книга на 625 стр smile.gif

Сделаю так:
(1) Поскольку линейная форма зависимости является необходимым условием классического ковариационного анализа - нужно уметь спрямлять кривые. У меня есть бесплатная программка для этого с различными вариантами преобразования Бокса-Кокса, но несколько неудобная. Хотя последнее время делал его неоднократно в AtteStat, один раз пришлось вернуться к старой - лямбда была около 3, а в AtteStat жёстко выставлено [-2; 2]. И ещё в ней есть спрямление кривых через БК-преобразование независимой переменной. Долгое время она была доступна на сайте автора, однако когда он включил этот модуль в свою последнюю версию также бесплатной программы Rundom Pro ( http://pjadw.tripod.com ), данную программку убрал. Но поскольку автор разрешил распространять её - выкладываю её здесь. На данных Pinus покажу как спрямлять кривые с её помощью. Если у Игоря будет интерес расширить БК на решение этой задачи: автор пишет об источнике:
"After some modifications of the procedure (but not the transformation itself), it is possible to use it to find the transformation of the X variable that improves the linear fit of Y against X. - for more details see Engineering Statistics Handbook ( online; http://www.itl.nist.gov/div898/handbook/index.htm ) "
(2) Поскольку оригинальные данные Pinus не наглядны для демонстрации ANCOVA и содержат только 2 зависимости, воспользуюсь советом Игоря и прорешаю пример с конфетками из Milliken & Johnson. Минус этих данных - зависимости вроде исходно прямые, плюсы - они уже проанализированы с помощью SAS (интересно сопоставить решения) и одновременно сравнивается 6 линий.

 Rundom_Box_Cox.zip ( 336,81 килобайт ) : 987
 

Автор: Pinus 17.12.2009 - 16:47

Цитата(nokh @ 17.12.2009 - 02:45) *
А вот справочник Родионова искал уже в 2 этапа, но на тот период не находил в сети. Сейчас значит должен найти.
Есть в ЭБ Нефть и газ, но за бабосы.

Цитата(nokh @ 17.12.2009 - 02:45) *
Поскольку оригинальные данные Pinus не наглядны для демонстрации ANCOVA и содержат только 2 зависимости, воспользуюсь советом Игоря и прорешаю пример с конфетками из Milliken & Johnson. Минус этих данных - зависимости вроде исходно прямые, плюсы - они уже проанализированы с помощью SAS (интересно сопоставить решения) и одновременно сравнивается 6 линий.
Не беда, главное чтобы понять суть и технику. Есть еще просчитанный пример ancova в Statistica в кн. Юнкеров_Математико-статистическая обработка данных медицинских исследований с. 99-101, 111-120. Но только теория и техника анализа не приводится, даются готовые таблицы с результатами.

Автор: DrgLena 17.12.2009 - 23:38

В принципе, пример Юнкерова дает представление о принципе метода и интерпретации результата, но в его примере 6.2 на 27 больных 9 уровней, по 3 больных в группе.

Автор: Pinus 18.12.2009 - 01:12

Цитата(DrgLena @ 18.12.2009 - 06:38) *
В принципе, пример Юнкерова дает представление о принципе метода и интерпретации результата, но в его примере 6.2 на 27 больных 9 уровней, по 3 больных в группе.

Посмотрел внимательней. Это не такой пример. Здесь в анализе только одна регрессия, и анализируется степень влияния основных (качественных) факторов и сопутствующих (ковариат). По сути это дисперсионный анализ с оценкой значимости коэффициентов регрессии. А судя по постам Nokh, сравнение должно идти по свободным членам нескольких параллельных регрессий.
Хотя этот пример тоже один из вариантов. По всей видимости разных вариантов ковариационного анализа много.

Автор: Green 18.12.2009 - 12:33

Pinus, пример и мне не очень.
Но и Ваши данные специфичны.

грубо говоря y=f(ковариата) + f(качественные факторы)
у-f(ковариата)=f(качественные факторы)

у Вас получается 100% дисперсии распадается на 90%, которая объясняется ковариатой, и 10% нормального остатка, который должен быть объяснен качественными факторами ( т.е. этот норм. остаток должен разложится на значимо разделяемые распределения).

В примере Юнкерова длительность лечения определялась начальными условиями,т.е. условиями на старте. В каком состоянии попал в больницу, какая тяжесть травмы.

Аналогия с Вашим примером такова - если за нач. условия принять дату посадки - то в какие условия было посажено дерево и его высота при посадке.
Отсюда и был мой вопрос об остатках.

Вас же интересует как меняется скорость роста при разных типах посадки (начальных условиях),т.е НЕпараллельность уравнений регресии при различном факторе воздействия. Т.е. если бы фактор воздействовал на возраст......

в общем, с процессами во времени не все так просто.

Ждем nokh c его материалом.



Автор: Игорь 21.12.2009 - 11:17

Ковариационный анализ есть в книге "Афифи А., Эйзен Ф. Статистический анализ. Поход с использованием ЭВМ. - М.: Мир, 1982, параграф 4.6" (замечена в Интернете). Т.о. на русском языке приличных (= с формулами и какой-никакой теорией) источников всего 3: в дополнение к упомянутому, это книга Шеффе и параграф в справочнике Родионова (без примера). Книги по ударно-нажимному применению трофейных компьютерных программ за серьезные источники не считаю.

Не обошлось без курьезов. Утверждается http://office.microsoft.com/ru-ru/excel/HP052038731049.aspx, что ковариационный анализ имеется в Excel. Тут же данная информация цитируется http://www.statplus.net.ua/ru/help/source/a_covar.htm. Легко заметить, что к ковариационному анализу все это никакого отношения не имеет. Грубо говоря (а здесь считаю это уместным), в данных источниках содержится полная чушь.

Еще любят (в т.ч. авторы упомянутых в теме источников, а также ПО) назвать нечто "Ковариационный анализ", а затем, как в старом студенческом анекдоте про огурец (http://kok-blog.1gb.ru/), выдать в теме все, что знали про дисперсионный анализ.

Автор: DrgLena 21.12.2009 - 13:58

Можно дополнить список "приличных" переводных книг:
1. Сербер Дж. Линейный регрессионный анализ. 1980. Глава 10 стр 273 посвящена ковариационному анализу.
2. Кендал и Стюарт Многомерный анализ и временные ряды. 1976 Ковариационный анализа с.79 матричная форма.

3. Болч Б., Хуань К.Дж Многомерные стат. методы для экономики 1978 . Этой книги у меня нет, если кто найдет поделитесь ссылкой.

Но Афифи и в этом вопросе просто, ясно и доступно, с четким определением понятий, выделенных курсивом, и толковым переводом. Все примеры можно посчитать и руками и пакетом. Кстати, заканчивая описание примера, Афифи пишет, что SS для диеты в SPSS, не совпадает с другими пакетами, сейчас совпадает и Statistica и SPSS по этому примеру совпадают.

Автор: nokh 21.12.2009 - 19:43

На форуме заработали личные сообщения - получил сейчас от Игоря. Ещё раз огромное спасибо!

>DrgLena. Возможно на мэйл.ру были проблемы во время отправки сообщения на мой адрес, т.к. я тоже не мог отправить Игорю письмо - дважды возвращалось, только с рамблера отправил.

По Ancova. Работаю insane.gif . Дня через 2-3 закончу, но все задержки - к лучшему: получается полнее чем планировал. Кстати Milliken & Johnson хоть и написали по Ancova целую книгу на 600 страниц, для восприятия она сложна. Ещё авторы обильно разбавляют материал полными выкладками результатов SAS и JMP. Эдак можно любой учебник до собрания сочинений разбавить.

Цитата(DrgLena @ 18.12.2009 - 01:38) *
В принципе, пример Юнкерова дает представление о принципе метода и интерпретации результата...

К книге Юнкерова у меня двойственное отношение. С одной стороны вызывает уважение сам факт доведения человеком своего труда до печатного варианта, т.к. сам уже более года не могу закончить нашу коллективную монографию по результатам подробных ежегодных отчётов, где уже почти всё есть. С другой стороны вреда от таких книг больше чем пользы, т.к. они демонстрируют пренебрежительное отношение к научному методу познания и создают полную иллюзию простоты анализа, особенно когда под рукой есть какая-нибудь волшебная программа. Отчасти автора оправдывает, что делается это не злонамеренно, а по искреннему неведению. Именно поэтому всё изложение строится как пересказ возможностей программы, без рекомендаций выбора тех или иных опций, в которых новичку ничего не понятно, именно поэтому в линейном дискриминантном анализе массово появляются качественные предикторы, а в регрессионном - непреобразованные частоты и.т.д. и т.п.

Автор: Green 22.12.2009 - 18:46

nokh,
Меня у Юнкерова насторожил тот пример (остальное не было времени смотреть). 27 кейсов. План 3х3. Т.е. три измерения в каждом в среднем. Плюс 3 ковариаты...

По скромным подсчетам - должно быть минимум раза в два больше кейсов.
Вообще, в Вашем изложении ковариационного анализа - может, напишете приблизительную оценку объема данных для проведения анализа с одной ковариатой, с двумя и т.д. при разном кол-ве факторов?

Автор: Игорь 23.12.2009 - 06:43

Цитата(DrgLena @ 21.12.2009 - 14:58) *
Но Афифи и в этом вопросе просто, ясно и доступно, с четким определением понятий, выделенных курсивом, и толковым переводом. Все примеры можно посчитать и руками и пакетом.

Пользуясь только книгой Афифи с соавт., посчитать пример "вручную" полностью нельзя, т.к. формул не хватает (то ли автор упустил, то ли переводчик - последнее проверить не смог, т.к. из последнего иностранного издания книги авторы обсуждаемый раздел убрали, а старого найти не удалось). Все недостающие формулы тут: Wildt A.R., Ahtola O. Analysis of covariance. - Newbury Park, CA: Sage Publications, 1978.

По поводу справочника Родионова - погорячился. Как бы выразиться тактичнее: параграф по ковариационному анализу - не самый сильный в справочнике.

Автор: nokh 23.12.2009 - 20:02

Закончил свой трактат. Результаты совпадают с результатами Statistica (уже нет желания делать листинги), а в части доверительных интервалов для согласованных (adjusted) средних - превосходят их, т.к. более узкие. Программку для спрямления кривых с помощью преобразования Бокса-Кокса выкладывал в этой теме форума (сообщение ? 60).

Цитата(Green @ 22.12.2009 - 20:46) *
...может, напишете приблизительную оценку объема данных для проведения анализа с одной ковариатой, с двумя и т.д. при разном кол-ве факторов?

Не встречал таких формул даже для двухфатороного дисперсионного анализа, наверное очень сложно посчитать. Но анализировать имеющиеся данные, думаю, стоит в любом случае: не хватит мощности - не так страшно - нулевая гипотеза останется в силе ещё какое-то время. Потомки отклонят smile.gif .

Обнаружены ошибки/описки. Следует читать:
Стр. 9 …как дисперсии x и у, умноженные на число степеней свободы…
Стр.13… для демонстрации полного разложения изменчивости в ходе ковариационного анализа (см. эффекты ?Между? и ?Внутри? в табл. 11), он представлен в таблице 8.
Стр. 16 … (planned)
Стр. 16…(Tukey-Kramer)
Стр. 17. Как видно из рис. 5, с точностью до сотых…


 Ковариационный_анализ.rar ( 564,97 килобайт ) : 896
 

Автор: DrgLena 23.12.2009 - 21:26

Цитата(nokh @ 23.12.2009 - 20:02) *
Закончил свой трактат.

Я желаю Вам искренне, закончить и другой трактат, о котором вы упомянули, где и другие методы также толково будут представлены. Я занимаю очередь на покупку этого трактат. А чтобы не обсасывать приторные конфетки, готова поискать у себя данные биомедицинского профиля под любые методы анализа. Благодаря этой ветке форума, я кое- что уже раскопала из старых данных, где очень кстати будет ковариационный анализ.
Успехов Вам!

Автор: nokh 24.12.2009 - 00:09

>DrgLena
Если бы писал по анализу данных! Книгу доделываю по экологии наших местных водоёмов. Хотя если "нырять" поглубже - есть тоже много интересного, в т.ч. и по анализу. Нестрогий план на 2 года включает монографию и докторскую, потом нужно пережить 2012 г (очень уж пугают eek.gif ) и при условии сохранения существующего миропорядка можно будет смело браться за учебник по анализу данных (наработки есть, но красивых данных всегда не хватает и ближе к делу, думаю, воспользуюсь Вашим предложением, спасибо!).

>Green
Забыл совсем про проверку нормальности распределения ошибок. Её нужно делать сразу на этапе проверки однородности наклонов и если остатки будут распределены ненормально - преобразовывать также и y. Для поиска преобразования y можно использовать того же Бокса-Кокса, но классического - "заточенного" на нормальность. Если проанализируете данные Pinus после спрямления (результаты я где-то выше кратко описал) - увидите, что и после преобразования шкалы остатки были распределены примерно нормально, никаких хвостов не образовалось ни справа, ни слева.

Автор: Игорь 24.12.2009 - 07:42

Цитата(nokh @ 23.12.2009 - 21:02) *
Закончил свой трактат.

Совсем не то, что ожидал увидеть, но очень интересно. Живой взгляд на проблему. Студентам понравится.

Хорошо, что ничего общего с моими выкладками (включая источники), которые представляют собой две страницы формул. Немного причешу, выложу в новой версии AtteStat. Совпадает с опубликованными примерами. В процессе анализа нашел ошибки у Афифи (чисто расчетные, из-за округления - не в теории, там все строго) и у Wildt с соавт. (одна незначительная ошибка вычисления). Как результаты Афифи могут совпадать с результатами Statistica, как утверждается выше, не вполне понимаю.

Сейчас думаю, Афифи и Wildt (почти брошюра) - две основные книги, которые могут быть использованы при работе над темой ковариационного анализа. К сожалению, "Биометрию" Sokal найти не удалось - хотелось бы ознакомиться. Вообще, это одна из двух книг, на которые все ссылаются. Вторая - это "Непараметрическая статистика" Conover. И ее тоже нет!

Небольшое замечание (хотя можно и не учитывать). Линеаризацию и прочее убрал бы из числа этапов коварационного анализа (а именно, первые два и восьмой - исключить из данной темы). Считаю, для метода достаточно сформулировать формальные требования. Т.е., полагать, что адекватные данные для описываемого метода уже представлены. А все преобразования данных - это этап их подготовки (подгонки к требованиям метода) - отдельная тема.

Автор: nokh 24.12.2009 - 08:32

Да, получилось типа методички, но практика показывает, что такое потенциально может понравится не более чем 1-3 студентам из 40-50. У аспирантов должно быть побольше, но они озабочены в первую очередь сбором материала, а до анализа доходит когда уже "горит". С замечаниями/пожеланиями полностью согласен, но учитывая самостоятельность раздела (этакий сингл) может оно и к лучшему: предыдущий pdf - черновик по выбросам уже находится поисковиками самостоятельно, в отрыве от этого форума. Sokal & Rohlf конспектировал выборочно в аспирантуре, потом долго искал в сети и тоже не нашёл. Хотел как-то даже купить на ebay себе на день рождения, но передумал (купил джинсы и апгрейдил компьютер:) . Учитывая, что у Sokal & Rohlf вышло уже 3 издания с периодичностью лет в 12 и последнее было в 1995, уже можно ждать четвертого при условии что авторы живы-здоровы. А сейчас всё что выходит оцифровывается. Из авторитетных учебников мелькал также Zar с Biostatistical analysis, но в своё время также не нашёл. Но в целом в интернете столько всего, что при определённых затратах времени всегда можно собрать любой раздел из разных источников.

Автор: Pinus 24.12.2009 - 09:57

DrgLena, у Вас с какой точностью совпадение со Statistica?
У меня получается так
Равенство скорректированных средних (Диета): SS=0,10077; MS=0,03359; F=60,53
Нулевой наклон (Сопутствующая переменная): SS=14,03970; MS=14,03970; F=25300,43

В примере так
Равенство скорректированных средних (Диета): SS=0,103; MS=0,0345; F=57,5
Нулевой наклон (Сопутствующая переменная): SS=14,039; MS=14,0387; F=23999

Если бы пример в книге был ручного расчета, то расхождение можно было бы объяснить ошибками округления, но примеры машинные, на разных программах. Почему так может быть?

Автор: Pinus 24.12.2009 - 09:59

Nokh, великое Вам спасибо за конспект! Пока только бегло просмотрел. Спасибо также за Хальда, многое стало понятно. Эта книга неплохое подспорье к Афифи, только по-иному формулы и другая символика. Мне еще конечно разбираться и разбираться, но со вчерашнего дня некий прорыв. А то после Шеффе и Кендалла как-то было тоскливо.

Автор: DrgLena 24.12.2009 - 18:01

Цитата(Игорь @ 24.12.2009 - 07:42) *
(одна незначительная ошибка вычисления). Как результаты Афифи могут совпадать с результатами Statistica, как утверждается выше, не вполне понимаю.

Я утверждала, что результаты по примеру из Афифи полностью совпадают в программе Statistica и SPSS и это сейчас, действительно так, документ с результатами прилагаю. Но с расчетом откорректированных средних ?У?, которые представлены в таб А на стр 307 у Афифи расхождения в четвертом знаке после запятой, понятное дело, свякие там округления, а может и найденная вами ошибка. Но если измерения сделаны до третьего знака, но можно сказать, решение в этих двух программах с результатами Афифи совпадают. Не сомневаюсь , что и AtteStat даст такой же результат, как и гиганты.


 Var3.doc ( 49,5 килобайт ) : 425
 

Автор: Игорь 25.12.2009 - 20:40

Цитата(Pinus @ 24.12.2009 - 09:57) *
DrgLena, у Вас с какой точностью совпадение со Statistica?
У меня получается так
...
Если бы пример в книге был ручного расчета, то расхождение можно было бы объяснить ошибками округления, но примеры машинные, на разных программах. Почему так может быть?

Мы с Вами неудачный пример взяли. Хотя он был первым, на который наткнулись в книге Афифи. Неудачный потому, что пошагово расчеты в источнике не сделаны. Ошибиться автор мог где угодно. Так, в нашей практике был случай, когда автор подставил в программу просто не совсем те данные, что опубликовал в примере.

Поэтому предлагаю взять и просчитать пример из книги Wildt c соавт. Итак, данные на с. 33:
Код
X      Y      X      Y      X      Y
190    177    252    226    206    226
261    225    228    196    239    229
194    167    240    198    217    215
217    176    246    206    177    188

Далее я воспользуюсь для сравнения выдачей тестовой версии программы AtteStat (для пользователей она недоступна, имеет спартанский интерфейс в виде командной строки, но сейчас это неважно):
Код
Mean X  Mean Y
215.5    186.25
241.5    206.5
209.75    214.5
Exx = 5494.75
Exy = 4007    (в источнике небольшая ошибка: 4005.67, практически не влияющая на результат)
Eyy = 3670.75
Txx = 7784.25
Txy = 4153.75
Tyy = 5366.92
Mxx = 2289.5
Mxy = 146.75
Myy = 1696.17
MSM = 1200.88 (обозначения из Афифи)
MSZ = 2922.07
MSE = 93.5849
MSB = 36.8416
MSR = 112.499
sm = 12.832 - эта статистика в источнике не считается
sg = 31.2237 (с. 39)
sb = 0.327483 (с. 38)

Все совпадает!

Отдельно отметил статистики Sg и Sb. Их вычисление см. на соответствующих страницах Wildt, в справке AtteStat, а также у Афифи, причем для последней статистики Афифи формул не дает, но их дает Wildt. Характерно, что обозначения в использованных источниках совпадают.

Теперь выдача последнего релиза AtteStat для тех же данных (вместе с P-значением):
Код
Sm    12,83196987    0,000519513
Sg    31,22374679    3,61582E-05
Sb    0,327482818    0,550118658


P.S. Может возникнуть вопрос, почему в релизе AtteStat не выводятся все промежуточные результаты. А потому что, полагаем, в отличие от уважаемых коллег, этого не нужно. Афифи, кстати, это подтверждает. Нужно проверить три гипотезы: выдать три статистики и их P-значения. И достаточно.

Автор: DrgLena 25.12.2009 - 23:18

Nokh ведь уже показал, по каким формулам считают большие программы, и привел ссылки, результат по конфеткам полностью, до любого знака совпадают, см. табл. 9 на стр 14 у Nokh и результат Statistica, SPSS, NSCC совпадают.
Univariate Tests of Significance for y (конфетки.sta)
545,367 1 545,367 8,98161 0,005660
1473,629 1 1473,629 24,26910 0,000034
3988,089 5 797,618 13,13591 0,000001
1700,171 28 60,720

А что по конфеткам или примером из Афифи получается в Attestat, так как в SAS или есть расхождения из за найденной вами ошибки у Афифи?
Кроме статистик также хорошо было бы на выходе получить скорректированные средние, которые приводит Афифи.

Автор: DrgLena 25.12.2009 - 23:54

"Большим" программам повезло. Форма выдачи сильно искажается, но совпадение легко найти.
Univariate Tests of Significance for y (Игорю.sta)
Effective hypothesis decomposition
SS Degr. of MS F p
Freedom
Intercept 179,3856 1 179,386 1,9168225 0,203597
x2 2922,0709 1 2922,071 31,2237468 0,000518
f 2401,7570 2 1200,878 12,8319699 0,003189
Error 748,6791 8 93,585


Поздравляю AtteStat! Но не нашла у вас intersept, другие обозначения (F=1,91168; p=0,203597)

Автор: nokh 25.12.2009 - 23:59

Цитата(Игорь @ 25.12.2009 - 22:40) *
Мы с Вами неудачный пример взяли. Хотя он был первым, на который наткнулись в книге Афифи. Неудачный потому, что пошагово расчеты в источнике не сделаны. Ошибиться автор мог где угодно. Так, в нашей практике был случай, когда автор подставил в программу просто не совсем те данные, что опубликовал в примере.
Поэтому предлагаю взять и просчитать пример из книги Wildt c соавт. Итак, данные на с. 33: ...

Странно это всё. Я по Вашей наводке рассчитал пошагово абсолютно дурацкий пример только затем чтобы "пошагово", а Вы теперь предлагаете другой. Это раз. Мой пример мало того что рассчитан пошагово, так ещё и совпадает с результатами "большого" пакета, а алгоритм взят из авторитетного источника. Воды, не спорю, много, но все формулы и расчёты есть, пусть и студенческие. Спрашивается почему я теперь должен верить работе алгоритма в пакете, если Вы сами сомневаетесь в совпадении результатов со Statistica, а я самолично и пошагово убедился, что она считает верно? Это - два. А под занавес:
Цитата(Игорь @ 25.12.2009 - 22:40) *
P.S. Может возникнуть вопрос, почему в релизе AtteStat не выводятся все промежуточные результаты. А потому что, полагаем, в отличие от уважаемых коллег, этого не нужно. Афифи, кстати, это подтверждает. Нужно проверить три гипотезы: выдать три статистики и их P-значения. И достаточно.

Я ищу хлеб с хрустящей корочкой. Вместо этого мне предлагают сухари. Возьму ли я сухари? Возьму, потому что бесплатно. Но и после этого мне всё равно нужен хлеб с корочкой. И это несмотря на то, что два уважаемых араба на другом краю планеты убеждены, что я могу обойтись сухарями. А я не могу. И не просто не "не хочу" из вредности, а "не могу". И прав здесь - однозначно я! Если мне нужно, чтобы любая GLM сопровождалась подробнейшей таблицей результатов дисперсионного анализа - я буду искать софт, где это реализовано. Может мне это нужно для ручной декомпозиции дисперсий по Сэттервейту, может - для мета-анализа, да мало ли... И большинство пакетов дают мне такую возможность. Более того, мне нужно, чтобы помимо SS, df, MS, F и P пакет выдавал ещё и структуру математических ожидаемых средних квадратов, потому что надоело каждые пол-года - год сидеть над учебником Монтгомери по несколько часов, а то и дней, вспоминать что и как, прорешивать тестовые примеры, чтобы убедиться что вспомнил, решать и перепроверять уже свои данные, а потом все заново забывать без ежедневной практики. А ещё мне нужно, чтобы пакет делал высококачественные рисунки с широкими возможностями их редактирования. И поскольку, скажем, для ancova такого ни один пакет в мире не делает, я буду искать такой пакет, который максимально облегчит мне задачу. Например, выдаст параметры всех частных регрессий и их adjusted варинтов. А дальше я буду искать по-возможности бесплатный пакет, который позволит ввести эти уравнения, построить красивый график и отредактировать его. И все это мне нужно.
В отличие от работающих по техническому заданию программистов "больших" пактов, Вы имеете уникальную возможность вживую общаться с потребителями Вашего интеллектуального продукта. Почему же Вы отметаете наши "студенческие" желания как несерьёзные? Да и кто является главным пользователем AtteStat: математики, важные доктора наук, "продвинутые" врачи, самовлюблённые профессиональные статистики/биостатистики с других сайтов или же молодёжь: студенты, аспиранты, молодые учёные (да горстка людей из тех кому за ..., увлечённых грамотным анализом данных)?

PS. Пост Drg Len'ы появился пока всё это писал, но уже устал сегодня - лень редактировать свой комментарий.

Автор: Игорь 26.12.2009 - 11:36

[Исправлено - я ошибся в вводе данных]
Результаты по шоколадкам будут

Код
Mean X    Mean Y
25.75    45.375
27.75    58.625
20    40.25
22.5    38.5
29.2    27.8
22    28.5
Overall mean X    Overall mean Y
25.0286    41.6286
Exx = 1486.8
Exy = 1480.2
Eyy = 3173.8
Txx = 1818.97
Txy = 1881.37
Tyy = 7634.17
Mxx = 332.171
Mxy = 401.171
Myy = 4460.37
MSM = 797.618
MSZ = 1473.63
MSE = 60.7204
MSB = 31.032
MSR = 67.1744
Sm = 13.1359
Sg = 24.2691
Sb = 0.461961


Цитата(nokh @ 26.12.2009 - 00:59) *
Я ищу хлеб с хрустящей корочкой. Вместо этого мне предлагают сухари.
...

Согласен. Все это хочется иметь. Но к ковариационному анализу это не всегда имеет отношение и легко рассчитывается в других разделах:
- описательная статистика - в одноименном разделе,
- Box-Cox - в преобразованиях данных
и т.д.

Автор: nokh 26.12.2009 - 11:59

Цитата(Игорь @ 26.12.2009 - 13:36) *
Nokh, табл. 7. Среднее Choc Chip y=40,25. Должно быть 35,25. Соответственно, "уплыло все остальное". И с какими же программами совпадает такой расчет? С SPSS?

Ну не знаю, мой китайский Noname Scientific calculator CT-109 за 105 р. выдаёт, что (36+51+40+34)/4=40,25. Расчёт совпадает со Statistica 7.

Автор: Игорь 26.12.2009 - 12:25

Цитата(nokh @ 26.12.2009 - 12:59) *
Ну не знаю, мой китайский Noname Scientific calculator CT-109 за 105 р. выдаёт, что (36+51+40+34)/4=40,25. Расчёт совпадает со Statistica 7.

Пока писал, nokh ответил. AtteStat считал верно, но я ошибся при подстановке данных по шоколадкам. Прошу прощения. Исправил уже (выше). Т.о. предмет спора исчез. Результаты (в общих разделах) совпадают.

Спасибо за плодотворное обсуждение. Не покидает только одна мысль - почему ANCOVA оказалась у нас в теме "Непараметрическая статистика"? frown.gif

Автор: Green 26.12.2009 - 12:52

nokh,
ОГРОМНОЕ спасибо за проделанную работу.
детали утрясутся, так или иначе.

У меня маленький вопрос: где написано, что не важна форма распределения зависимой переменной при построении регрессии, а только форма остатков? ( Вопрос не с потолка, поверьте...одной моей студентке забраковали диплом из-за этого, пришлось все переделывать...отдельная история).

========
Теперь вернемся к данным Pinus.
Я не хотела ничего говорить ДО того, как Вы закончите свой труд, но мне все время казалось, что данные Pinus надо как-то представить под другим углом. Например, взять годовую скорость роста.
Изучив пример с конфетами, да и Юнкерова...
Фиксируется момент наступления события (рассасывание, выписка из госпиталя) или косвенно меряется скорость рассасывания, скорость выздоровления.
Возможно, данные Pinus нужно представить в таком виде.

Возраст, рост, прирост за год, тип посадки.

Прирост за год рассчитать из имеющихся данных:

например, есть деревья 15 лет и 16 лет во второй группе.
вот:
5,2 15
5,3 15
5,1 15
5,1 15
4,3 15
4,6 16
4,3 16

-----пересчитываем
age1 high1 dif
15 5,2 0,6
15 5,3 0,7
15 5,1 0,5
15 5,1 0,5
15 4,3 -0,3
15 5,2 0,9
15 5,3 1
15 5,1 0,8
15 5,1 0,8
15 4,3 0

Предполагаем, скорость (dif) зависит от возраста, роста, и типа посадки.
Далее тогда попадаем в Вашу модель ковариационного анализа.
Или всё не так?

Р.S. Пока писала, и детали утряслись smile.gif

Автор: Green 26.12.2009 - 14:27

Решила еще сказать пару слов для Pinus

Вы рассматривали линейную регрессию высота=f(возраст) (добавляем факторы тип посадки, освещенность...)
Линейность предполагает постоянную скорость роста. v=const

Я Вам предлагаю рассмотреть скорость, которая будет линейно зависеть от возраста и имеющейся высоты (добавляем факторы тип посадки, освещенность...)
Если это биологически неправильно, то ... извините smile.gif

Автор: DrgLena 26.12.2009 - 17:53

Уважаемый Nokh, на основе Вашего трактата не только хлеб с румяной корочкой можно создать, но и поистине кулинарный шедевр. Но у тех, кто желает повторить ваш подвиг, должна быть возможность сослаться на вашу работу. Можно и ?Врач-Аспирант? украсить подобной публикацией (с другим примером), а можно и в любом журнале по вашей специальности опубликовать статью. Была еще ?Заводская лаборатория?, где Орлов печатался, можно и там.

Относительно сухарика. Так ведь очень голодному как раз это и нужно. Я недавно билась со своими данными, как анализировать, и даже обращалась на форум. Нашла критерий медианы для больших рядов только в AtteStat (не нашла только ссылок и ответа на вопрос почему его нельзя использовать для связанных выборок, но это отдельная ветка). Сегодня в сети много есть самоделок, которые создаются в университетах и именно эти программки используются для выполнения квалификационных работ типа наших кандидатских или докторских, поскольку они свободно распространяются и за ними университетские гарантии качества. Никто на западе не покупает программы гиганты для выполнения дипломной работы. Но департаменты статистики при научных учреждениях имеют приличные программы для анализа данных, и в публикациях обычно указано в среде какого пакета проведен анализ. Наш диссертанты, без зазрения совести, а часто и по указки руководителя пишут, что расчеты проведены в гиганте и ученый совет ? под гипнозом, забывая о том, что указанную программу сначала нужно купить.

Автор: Pinus 27.12.2009 - 01:12

Цитата(Green @ 26.12.2009 - 19:52) *
Например, взять годовую скорость роста.

Приросты это отдельная тема, и она обычно рассматривается в терминах временных рядов. Сейчас мне все в целом понятно, осталось дошлифовать, спасибо.

Автор: Игорь 27.12.2009 - 12:48

Цитата(DrgLena @ 26.12.2009 - 18:53) *
Сегодня в сети много есть самоделок, которые создаются в университетах и именно эти программки используются для выполнения квалификационных работ типа наших кандидатских или докторских, поскольку они свободно распространяются...

Раз нужен пользователям расширенный вывод, нужно предоставить им такую возможность. Новая версия AtteStat с ковариационным анализом доступна для загрузки.

Автор: DrgLena 27.12.2009 - 23:04

Цитата(Игорь @ 21.12.2009 - 11:17) *
Еще любят (в т.ч. авторы упомянутых в теме источников, а также ПО) назвать нечто "Ковариационный анализ", а затем, как в старом студенческом анекдоте про огурец (http://kok-blog.1gb.ru/), выдать в теме все, что знали про дисперсионный анализ.

Оказывается нужно знать еще больше, вот когда Attestat выдал перед ковариационным анализом результат однофакторного дисперсионного, вылезла ошибка, с которой выдает результат этого анализа AtteStat. Дисперсионное отношение считается верно, но его оценка не верна. Или опять ошибка у Афифи?
Желающие узнать еще больше про дисперсионный анализа и проверить как он реализован в AtteStat, могут воспользоваться рекомендованным Игорем источником Афифи и посчитать пример на стр. 239, в котором нулевая гипотеза справедливо отвергается, в отличие от AtteStat.
Цитата(Игорь @ 24.12.2009 - 07:42) *
Хорошо, что ничего общего с моими выкладками (включая источники), которые представляют собой две страницы формул.

Почему, собственно, хорошо. Форма выдачи результата и обозначения, который представил Nokh, более понятна пользователям, возможно из-за похожести с Афифи, но это мое субъективное мнение. Игорь, у вас есть уникальная возможность обозвать главные выходы по русски, Афифи пришлось переводить, Sm, Sg, Sb пользователи будут благодарны. И еще пожелание, не искушенному пользователю трудно догадаться, как вводится массив данных для ковариационного анализа. Где фактор, где ковариата. Я поняла, поскольку вы свой пример в такой форме выложили. Но возможно, это только мои трудности, я в экселе не знаток.

Любопытная у нас тема получается про непараметрическую статистику.


.

Автор: nokh 28.12.2009 - 07:26

>DrgLena, Игорь
Я совсем не против минимализма в интерфейсе и никоим образом не призываю программистов создавать какую-нибудь очередную Statzill'у - вполне достаточно имеющихся. Просто обидно если разработчик затратит уйму времени на увеличение функционала продукта, а воспользоваться им будет нельзя. Последнюю версию AtteStat ещё не качал, но если Игорь говорит что расширил вывод - это всё что необходимо и достаточно. Хочется увидеть стандартные таблицы anova или всё для их ручного заполнения.
>DrgLena
По поводу "сослаться" даже не знаю. Никаких революционных идей там нет, программы и алгоритмы - чужие + материал не оформлен по всем правилам публикаций, да и не статья это, скорее методичка. Выложить его кроме как сюда мне пока особо и некуда. Но если Вы считаете, что подобный материал имеет смысл доводить до ума и до умов - можно совместно пересчитать всё на медицинском примере, дополнить врачебной интерпретацией результатов, алгоритмами проведения анализа в нескольких пакетах и снова подумать куда его можно пристроить:).
>Green
Про ошибки источники поищу. Где-то попадалось даже, что сейчас все подобные анализы используют несколько отличные от классических аналогов требования, поскольку являются частными случаями GLM и реализованы в пакетах именно в таком виде, а значит используют регрессионную технику.

Автор: Pinus 28.12.2009 - 08:59

Например, ситуация:
Наклоны регрессий получились значимо различны. Рекомендуется прекратить дальнейший ковариационный анализ и, как вариант, воспользоваться ANOVA.

Возможен ли другой (частный) подход:
Если наклоны регрессий значимо различны, значит, если бы уровней фактора было бы два, то можно статистически достоверно утверждать о значимом различии межгрупповых регрессий и для каждой из них строить свою модель (уравнение). В случае большего чем два уровней фактора, сделать такой вывод нельзя, поскольку регрессий несколько. Тогда может быть, если нет другого подхода, воспользоваться следующим методом: сделать тесты на однородность наклонов для пар регрессий. Сначала сравнить пару А и Б. Если наклоны одинаковы, то сравнить наклоны для пары А+Б и В. И так перебрать все образующиеся сочетания. Если уровней фактора немного, то в принципе это не так долго. В конце концов получится, скажем, три значимо различных (по наклонам) группы регрессий (например, А+Б; В; Г). Для групп регрессий с одинаковым наклоном продолжить проверку на равенство свободных членов. Для регрессий значимо различных по наклонам, находить свои отдельные уравнения регрессии.

Автор: Pinus 28.12.2009 - 09:23

Цитата(nokh @ 28.12.2009 - 14:26) *
По поводу "сослаться" даже не знаю. Никаких революционных идей там нет, программы и алгоритмы - чужие + материал не оформлен по всем правилам публикаций, да и не статья это, скорее методичка. Выложить его кроме как сюда мне пока особо и некуда. Но если Вы считаете, что подобный материал имеет смысл доводить до ума и до умов - можно совместно пересчитать всё на медицинском примере, дополнить врачебной интерпретацией результатов, алгоритмами проведения анализа в нескольких пакетах и снова подумать куда его можно пристроить:).

Очень даже было бы неплохо. Можно не делать статью как предложение какого-то нового метода, а просто применение ковариационного анализа в биомедицинских исследованиях. А можно сделать в контексте какого-то реального исследования.
Если трудно разместить в ВАКовском издании, то можно просто подобрать известный и более или менее авторитетный журнал. Ссылаться и на Афифи можно, но если бы не Хальд, Ваш конспект и инфа в этой ветке про модули с ANCOVA в Statistica, то я бы вряд ли этот метод поднял. Хотя сейчас кажется, что по сути ничего сложного в нем и нет. Так что для аспирантов такая публикация была бы незаменимым подспорьем.

Автор: Green 28.12.2009 - 18:36

nokh, спасибо, поищите.

Поскольку наши доктора физ-мат наук говорят в один голос, что регрессионый анализ ( техника выметания матриц и проч) основывается именно на нормальности зависимой переменной.

=======
Вопрос по Вашему труду- страница 2, Эпап 1 "Идентификация зависимостей"
Вы пишите "Для данных примера визуальная оценка диаграммы рассеяния (см. рис. 1) не даёт
веских оснований предполагать нелинейность отклика, а выполнить соответствующую
статистическую проверку не позволяет тип исходных данных, когда для каждого случая X
известно только одно единственное значение Y, а не несколько."

Зависимость - когда значению х ставится в соответствие значение у ( статистическая модель зависимости у=f(x)+е(ошибка) )

О каких соответствующих проверках идет речь?
Как идентифицируется зависимость?
Я полагала, что необходимо смотреть уравнение регресии (для каждого типа конфеты) ( т.е. оценка параметров регрессии, остатков и проч..). А что смотреть визуально? Что нужно "увидеть" на Scatterplot? Откуда вывод, что можно переходить к этапу 3?
тем более, что далее, во втором этапе (преобразование нелинейных зависимостей) Вы на этих данных приходите к коэффициенту -2,7 - который означает нелинейность х по отношению y.

Не сочтите за занудство.
Спасибо!

Автор: DrgLena 29.12.2009 - 13:43

Я только параллельно с этой веткой изучаю ковариационный анализ, многое уже понятно, изначальный пример про рост деревьев меня вдохновил, поскольку в реальной жизни часто возникают подобные задачи. А слова adjusting confounding уже не пугают наших читателей.
Как я поняла, могут быть рассмотрены два типа задач решаемых ковариационным анализом.

1. Изучить регрессионную зависимость при влиянии фактора. Это случай Pinus, изучается зависимость высоты от возраста, а тип посадки выступает в роли вмешивающегося в регрессию фактора. Или, аналогично, можно сформулировать задачу исследования регрессионной зависимости роста и веса подростков, но с учетом пола. В таких задачах нужно получить уравнение регрессии с учетом фактора, который не является объясняющей переменной, но лишь конфаундер.

2. Цель может быть и другая, когда интересуют различия средних значений показателя при действии влияющей переменной ? фактора, но с учетом влияния другой количественной переменной. Например, изучение различий средних значений количественного показателя (биохимические иммунологические показатели) в условии клинического фактора (наличие заболевания, степени тяжести, методов лечения), но с учетом того что этот показатель может быть возраст -зависимыми.
Что дают пакеты, (опустим оценку различий наклонов, свободных членов и т.д.)

Для 1 типа задач нужны коэффициенты уравнения регрессии, чтобы посчитать, например высоту 20 летнего дерева у Pinus в зависимости от типа посадки. ПО коэффициентам, которые выдает AtteStat можно посчитать высоту 20 летнего дерева в условии z1 (6,43) или z2(6,47) и без условия z по общему уравнению регрессии (6,475). И все эти расчеты Statistica совпадают с AtteStat. Но это пока не ковариационный анализ. Дальше нужно получить скорректированное уравнение регрессии. Statistica дает общее уравнение регрессии, и можно посчитать высоту 20 летнего дерева (6,35 при z1 и 6,466 при z2).

Для решения второго типа задач нужны скорректированные средние на каждом уровне фактора. AtteStat их выдает, но как их сравнить? Например, дисперсионным анализом было показано, что средние различаются, однако, согласованные с ковариатой (возрастом) оценки могут и не различаться. У меня есть уже свой реальный пример, когда так и есть.
Atatistica дает s.e. и 95% ДИ, но странное дело, post-hoc дает различия несогласованных оценок, которые и так можно получить в дисперсионном анализе. Это большой недостаток программы. Можно, конечно *.svb написать.
В более продвинутых программах post-hoc предоставляет широкие возможности с рекомендацией выбрать из множества критериев множественного сравнения критерий Tukey-Kramer (меньше неучтенная ошибка ковариаты, я так поняла) и рассчитать соответствующие ДИ (Simultaneous Confidence Intervals) и выдается таблица сравнения таких интервалов.

AttaStat не может, конечно, удовлетворить всех пользователей, мне тоже кажется, что лишние коэффициенты из этого модуля можно убрать, а сравнение скорректированных средних можно добавить. А совсем круто получить на одном графике средние полученные дисперсионным и совариационным анализом, я слепила в Statistica.

 

Автор: Green 29.12.2009 - 16:00

DrgLena,
рост, возраст, вес и т.п. и подростков ПОХОЖЕ на рост деревьев, но, есть одно отличие.

Сначала поясню на примере: подставив в форумулу регрессии возраст 0, вы должны получить свободный член уравнения регрессии. так вот для детей это будет не ноль, а для деревьев ноль.
Что это значит?
это значит, что уравнение регрессии для деревьев должно строится без intersept, т.е. все необясненные остатки идут за счет влияния качественных факторов.

-----------
в данном случае тип посадки - не конфаундер. По определению - скрытый фактор влияет на зависимую и независимую переменную.
А вот в конфетах конфаундер есть - это индивидуальные особенности испытуемого, он устранялся с помощью ковариаты - она влияла на скорость рассасывания контрольной ириски и др. конфет.
-----------
Так вот, для первого класса задач в постановке ковариационного анализа ( деревья) на самом деле происходит вот что:
пишем уравнение регресии: рост=b1*возраст+b0 +е(ошибка)
вычитаем ковариату:

(рост-b1*возраст)=b0+e. (из реального роста вычитаем средний на этот возрат рост, общий для всех групп). т.е. убрали возраст.
и далее мы имеем право изучать только дисперсию(рассеяние) в различных группах и межгрупповую, ибо она не зависит от местоположения. т.е. b0 не должно играть.

Более того, если если даже использовать математику ( ей, математике, все равно) и получить оценки b0j ...то как это интерпретировать? как прибавку к росту дерева на момент посадки? за год? за всю жизнь? на момент измерения? возраст-то мы полностью исключили..."в первом типе посадке использовались саженцы, в среднем на z см выше, чем во втором". т.е. доказали, что эксперимент изначально проходил не в равных начальных условиях. Для освещенности - соответственно: "деревья для посадки на солнечную сторону подбирались на z см выше, чем на теневую".

А вот для конфет - мы изучаем уточненное среднее (после вычета ковариаты).
т.е. именно разницу в b0j (j - группа, j=1,n)

---------
Конечно, нужен комментарий nokh.
Но мне кажется, что важно понимать суть моделей.



Автор: Green 29.12.2009 - 19:36

DrgLena, еще раз внимательно пыталась перепроверить, то что Вы сделали
"ПО коэффициентам, которые выдает AtteStat можно посчитать высоту 20 летнего дерева в условии z1 (6,43) или z2(6,47) и без условия z по общему уравнению регрессии (6,475)"

Здравый смысл мне подсказывает, что по общему уравнению ( линейному, конечно) высота не может быть больше, чем высоты, полученные по частным моделям. Она должна быть где-то посередине.
и еще ... подставьте в свои уравнения возраст=0. Попробуйте объяснить результат.


Автор: Pinus 30.12.2009 - 00:52

Цитата(DrgLena @ 29.12.2009 - 20:43) *
AttaStat не может, конечно, удовлетворить всех пользователей, мне тоже кажется, что лишние коэффициенты из этого модуля можно убрать, а сравнение скорректированных средних можно добавить.

Поддерживаю предложение.

Автор: Pinus 30.12.2009 - 00:54

Цитата(Green @ 29.12.2009 - 23:00) *
рост, возраст, вес и т.п. и подростков ПОХОЖЕ на рост деревьев, но, есть одно отличие.
Сначала поясню на примере: подставив в форумулу регрессии возраст 0, вы должны получить свободный член уравнения регрессии. так вот для детей это будет не ноль, а для деревьев ноль.

Не понятно почему? Если в уравнении есть свободный член, то без разницы деревья или подростки, при возрасте ноль нулевого роста не будет ни в том ни в другом случае. Но здесь нужна не интерпретация этого, а понимание того, что мы не имеем права искать прогнозное значение вне области, в которой строилась регрессия. Если бы мы имели наблюдения на всем интервале жизни деревьев (или людей), в т.ч. при возрасте близком к нулю, то мы бы не смогли воспользоваться прямой или параболой, а подбирали бы одну из функций роста, которые исходят из нуля. Тогда бы имели право прогнозировать на всем интервале возрастов, в т.ч. и нулевом возрасте. В противном случае, свободный член уравнения просто определяет положение линии регрессии относительно оси OY и не имеет реального смысла.

Автор: DrgLena 30.12.2009 - 01:00

Цитата(Green @ 29.12.2009 - 20:36) *
DrgLena, еще раз внимательно пыталась перепроверить, то что Вы сделали

Так выкладывайте результат проверки. Что посчитано не точно? И в чем вы проверяли?

Цитата(Green @ 29.12.2009 - 20:36) *
Здравый смысл мне подсказывает, что по общему уравнению ( линейному, конечно) высота не может быть больше, чем высоты, полученные по частным моделям. Она должна быть где-то посередине.

Возможно, приведите расчет для 20 летнего дерева. Для 30 летних деревьев результат вам понравится. Z1=9,4471; Z2= 9,6977, а по общему уравнению 9,5665 (в AtteStat). По ковариарационному анализу, хорошо чтобы кто то проверил 9,4527 и 9,5567 (не в AtteStat). Для меня сейчас важно понять, как описать эти цифры в регрессионных задачах предсказания.
Со вторым типом задач мне понятно как интерпретировать согласованные средние, а какой вывод в этой задаче?

Цитата(Green @ 29.12.2009 - 20:36) *
и еще ... подставьте в свои уравнения возраст=0. Попробуйте объяснить результат.

Мой здравый смысл подсказывает, что область значений для ?х? определена автором от 14 до 55 лет, и я ничего в "0" загонять не буду, это вы можете пофантазировать на занятиях со студентами, определив математически, какого размера и возраста саженцы высаживали, точно не все они были 29 см, или вообще семечки сеяли, и по какому закону они росли в младенчестве.

P.S. Пока писала ответ, Pinus сам из нуля выбрался.

Автор: Green 30.12.2009 - 02:24

>Так выкладывайте результат проверки. Что посчитано не точно? И в чем вы проверяли?

Так если следовать технике ковариационного анализа - не надо пользоваться отдельно моделями z1 и z2. Разве нет? Ведь мы говорим о удалении общей ковариации?
Либо мы принимаем, что у них общая ковариация и строим единую регрессию. А далее исследуем оставшуюся дисперсию с помощью дисперсионного анализа, т.е. это техника кованализа. Либо мы отдельно исследуем несколько регрессий ( это НЕ кованализ).

>Для меня сейчас важно понять, как описать эти цифры в регрессионных задачах предсказания.
А это другое. Еще раз - ковавнвлиз - это техника исследования дисперсий, а не построение регрессионной модели.
Похоже, да. Но это другое.

> Со вторым типом задач мне понятно как интерпретировать согласованные средние, а какой вывод в этой задаче?
А вот вопрос к Вам, что вы исследуете в первом типе задач.... и пытаюсь Вас навести на мысль, что задачи первого типа - не решаются кованализом.
А второй - да, это оно.

>Область значений для ?х? определена автором от 14 до 55 лет,
ну, я не просто так спросила про 0.
ок, вы начали исследование с 15 лет. значит в 15летнем возрасте они различались по росту, если Вы будете использовать технику кованализа в "регрессионных задачах предсказания". Выводы будут те же самые, вы удаляете общую регрессию. Посмотрите у nokh рис.4. Он именно о том, что линии стали паралелльны. А это значит, наклон у них одинаковый, и различаются они свободными членами. и тезис можно повторить.

Пока есть две регрессии и вы исследуете их - это не кованализ, когда они стали параллельны ( наклон одинаков, и различаются только свободные члены) - вы их "изымаете" из общей вариации , тогда вы попадаете в кованализ. Но по ним не надо делать предсказание.

У nokh все описано, это и есть техника кованализа. Он ничего не говорит о построении модели регрессии ( не предсказывает, как долго будет рассасываться конфета, он сравнивает скорость рассасывания разных типов конфет, сравнивает, а не строит регрессионную модель).

---------------
Новый Год на носу.
Давайте поздравлять всех под пушистой елкой или сосной... пусть растут нам на радость!

С наступающим! smile.gif







Автор: Pinus 30.12.2009 - 08:40

Цитата(DrgLena @ 29.12.2009 - 20:43) *
Как я поняла, могут быть рассмотрены два типа задач решаемых ковариационным анализом.

У меня вот какие мысли складываются. В каждом из этих типов задач возникают два исхода.
Для 2-го типа задач (исследователя интересуют различия в средних значениях зависимой переменной под влиянием фактора при сопутствующем влиянии ковариаты):
а) влияние фактора значимо, влияние ковариаты нет.
Тогда сравнение средних решается ANOVA.
б) значимо влияние и фактора, и ковариаты.
Тогда используем межгрупповые сравнения по фактору для выявления значимо влияющих уровней или их групп. Сравнение ведется по средним, скорректированным на влияние ковариаты.

Для 1-го типа задач (исследователя интересуют различия между регрессиями при влиянии фактора):
а) влияние ковариаты значимо, влияние фактора нет.
Тогда мы вправе объединить исходные выборки всех уровней фактора и построить единую регрессионную модель.
б) значимо влияние и ковариаты, и фактора.
Тогда, также, используем один из методов межгрупповых сравнений. Для уровней фактора, скорректированные средние которых различаются незначимо, также можем объединить исходные выборки для построения общих регрессионных моделей. В итоге получаем несколько значимо различающихся моделей (имеющих одинаковые наклоны).

Сказанное для 1-го и 2-го типа задач справедливо при одинаковом наклоне регрессий.
Поскольку различия между прямыми регрессии выражаются двумя параметрами: коэффициентом регрессии и свободным членом, то существует проблема сравнения регрессий и средних по фактору при значимо отличающихся наклонах.
Если для 2-го типа задач проблема озвучена и признана трудноразрешимой, то для 1-го типа задач она нами не рассматривалась. Может быть для 1-го типа задач она не является такой же фатальной, и существуют методы ее решения (о чем я пытался сказать несколькими постами выше)?

Автор: Pinus 30.12.2009 - 12:30

Цитата(DrgLena @ 29.12.2009 - 20:43) *
Для 1 типа задач нужны коэффициенты уравнения регрессии, чтобы посчитать, например высоту 20 летнего дерева у Pinus в зависимости от типа посадки. ПО коэффициентам, которые выдает AtteStat можно посчитать высоту 20 летнего дерева в условии z1 (6,43) или z2(6,47) и без условия z по общему уравнению регрессии (6,475). И все эти расчеты Statistica совпадают с AtteStat. Но это пока не ковариационный анализ. Дальше нужно получить скорректированное уравнение регрессии. Statistica дает общее уравнение регрессии, и можно посчитать высоту 20 летнего дерева (6,35 при z1 и 6,466 при z2).

DrgLena, я не понимаю зачем пользоваться скорректированным уравнением регрессии для прогноза? Может быть я ошибаюсь, но по-моему скорректированные на общий наклон уравнения регрессии мы находим только для того, чтобы их запараллелить друг с другом и затем использовать для сравнения согласованных средних по фактору. Средние по фактору нужно корректировать на ковариату, потому что она непрерывна. Уравнения регрессии не нужно корректировать на фактор, потому что для каждого значимо отличающегося уровня есть своя независимая выборка из пар значений Y и X. Нужно просто определить эти отличающиеся уровни фактора, а затем строить модели для прогноза по исходным выборкам. Или я ошибаюсь?

Автор: DrgLena 30.12.2009 - 13:32

Да, я тоже пытаюсь выпутаться из тупика по вашему примеру.

По 2 типу задач, а это и есть ковариационный анализ и мы сообща уже преодолели трудности, перерешали многие примеры и можем оторваться от них и приступить к своим задачам.

А первый тип задач, а именно ваши сосны, должен называться регрессионным анализом и решаться в его рамках.
Для этого используют несколько подходов. Stratified method, это понятно, или регрессионное уравнение включает в себя также z. Вот по этому уравнению, и рассчитывают ?у?. И Statistica вам его дает в модуле ковариационного анализа и расчет высоты 30 летнего дерева совпадает с расчетом по уравнению множественной регрессии в модуле регрессии.
Есть еще третий путь regression adjustment, описано тут?
Biostatistics. A Methodology for the Health Sciences. GERALD VAN BELLE, LLOYD D. FISHER, PATRICK J. HEAGERTY, THOMAS LUMLEY.2004 by John Wiley & Sons

Но, Nokh решительно увел нас в сторону ковариационного анализа, за что ему большое спасибо!

Автор: Green 30.12.2009 - 13:32

Pinus, в такой постановке я с Вами согласна.
Что касается второго типа задач, тут все ясно.
Что касается первого, тоже логично.
После праздников набросаю один пример по первому типу (именно связанный со временем). Не для оппонирования, а для лучшего понимания. Ведь если равный наклон, то для любой точки x расчет разности между моделью z1 и z2 будет b01-b02 =const.( Постоянная разность между свободными членами, т.е. для возраста 15 лет и для возраста 50 разность будет одна и таже).









Автор: Игорь 3.01.2010 - 16:40

Цитата(nokh @ 28.12.2009 - 07:26) *
Я совсем не против минимализма в интерфейсе и никоим образом не призываю программистов создавать какую-нибудь очередную Statzill'у
...
По поводу "сослаться"

Нет, нужно - значит - нужно. В последней версии (от 3 января) AtteStat вывод в-основном соответствует методическим материалам nokh, включая регрессии и ДИ. Источники (в т.ч. для ссылок) добавлены. Ознакомиться со многими из них можно совершенно легально в Google Books.

Автор: DrgLena 3.01.2010 - 19:29

Не осилила ввод данных, две ковариаты, один фактор с двумя уровнями. Игорь, к Вам просьба, показать как создать массив на пришпиленном примере . Вроде бы, все делаю по указанию из документации, только к двум Х-ам , один У.

 С_Новым_Годом_.rar ( 53,75 килобайт ) : 396
 

Автор: Игорь 3.01.2010 - 20:15

Цитата(DrgLena @ 3.01.2010 - 19:29) *
Не осилила ввод данных, две ковариаты, один фактор с двумя уровнями. Игорь, к Вам просьба, показать как создать массив на пришпиленном примере . Вроде бы, все делаю по указанию из документации, только к двум Х-ам , один У.

Лучше покажу на данных Milliken (как у nokh). См. рисунок. Исходные данные ("Интервал данных") - нужно протащить курсор с ячейки A2 до ячейки L9. Данные представляют собой 6 регрессий. Каждая регрессия (2 столбца - X и Y) соответствует одному уровню качественного фактора, который не вводится. Выходной интервал - M2. Выбрать метод. Нажать "Выполнить расчет".

Если нужно при одном X ввести два Y (т.е. имеется 2 уровня качественного фактора), то нужно повторить X для второго Y, чтобы было 2 пары столбцов (= две регрессии). Как быть с двумя X - пока не представляю (многофакторную ANCOVA AtteStat не делает).

 

Автор: DrgLena 3.01.2010 - 20:47

Все обсуждаемые в этой верке примеры я в AtteStat осилила. Сейчас у меня реальная задачка, когда фактор один, поэтому это однофакторый анализ но учесть нужно влияние двух ковариат. Выводы о различии средних с учетом ковариат и без учета существенно отличаются.

Автор: Pinus 4.01.2010 - 00:47

Цитата(DrgLena @ 30.12.2009 - 20:32) *
По 2 типу задач, а это и есть ковариационный анализ и мы сообща уже преодолели трудности, перерешали многие примеры и можем оторваться от них и приступить к своим задачам.
А первый тип задач, а именно ваши сосны, должен называться регрессионным анализом и решаться в его рамках.
Для этого используют несколько подходов. Stratified method, ... regression adjustment...

Давайте это подробнее разберем, DrgLena, почему Вы так считаете? Конечно в большинстве книг (на русском) по ковариационному анализу постановка задачи и примеры приводятся для 2-го типа задач. Но есть источники, в которых и 1-й, и 2-й типы задач считаются равноправными и все-таки относятся к одному и тому же ковариационному анализу.
Например:
Кендалл М., Стьюарт А. Многомерный статистический анализ и временные ряды. ? М.: Наука, 1976. (на стр. 79-80);
Айвазян С.А., Енюков И.С., Мешалкин Л.Д. Прикладная статистика: Исследование зависимостей: Справ. изд. Под ред. С.А. Айвазяна. ? М.: Финансы и статистика, 1985. (на стр. 395 и 400);
Закс Л. Статистическое оценивание. Пер. с нем. В.Н. Варыгина. Под ред. Ю.П. Адлера, В.Г. Горского. М.: Статистика, 1976. (на стр. 405 ? Приводит метод сравнения двух коэффициентов регрессий (аналогично Хальду, с. 488) и говорит, что сравнение нескольких коэффициентов регрессий производится с помощью ковариационного анализа).

Конечно, видимо есть и другие подходы к решению 1-го типа задач. Например, включение в уравнение регрессии Z и др. (то, о чем Вы писали). Если известны книги на русском по этим методам, пожалуйста, поделитесь ссылками.

Поэтому остается еще и нерассмотренная нами проблема сравнения регрессий с разными наклонами для 1-го типа задач ковариационного анализа. Может быть кто-нибудь сталкивался с такими задачами?

Автор: DrgLena 4.01.2010 - 13:34

Цитата(Pinus @ 4.01.2010 - 01:47) *
Но есть источники, в которых и 1-й, и 2-й типы задач считаются равноправными и все-таки относятся к одному и тому же ковариационному анализу.

Совершенно верно, nokh дал все, что душе угодно для решения обеих задач, я просто логически разделила на две задачи именно терминологически, первая задача регрессионная.
Цитата(Pinus @ 4.01.2010 - 01:47) *
Конечно, видимо есть и другие подходы к решению 1-го типа задач. Например, включение в уравнение регрессии Z и др. (то, о чем Вы писали). Если известны книги на русском по этим методам, пожалуйста, поделитесь ссылками.


Это решение, как раз выдается в рамках модуля ковариационного анализа (Statistica)

Цитата(Pinus @ 4.01.2010 - 01:47) *
Поэтому остается еще и нерассмотренная нами проблема сравнения регрессий с разными наклонами для 1-го типа задач ковариационного анализа. Может быть кто-нибудь сталкивался с такими задачами?

Вот вы сами и отвечаете, как что назвать, и сравнивайте себе коэффициенты b, ведь ошибки прилагаются. Т.е. фактор влияет на регрессию, а не ковариата на средние.
Для меня не очень важно, в каком модуле программы будут выдаваться средние или коэффициеты, важно как их содержательно описать и сделать выводы, а это зависит от конкретных данных, и от целей с которыми вы к этим данным подходите.

Автор: Pinus 4.01.2010 - 14:27

Цитата(DrgLena @ 4.01.2010 - 20:34) *
Вот вы сами и отвечаете, как что назвать...

Я не отвечаю. Просто пытаюсь рассуждать. А название ? это важно, потому что за названием стоит суть предмета.

Цитата(DrgLena @ 4.01.2010 - 20:34) *
Для меня не очень важно, в каком модуле программы будут выдаваться средние или коэффициеты, важно как их содержательно описать и сделать выводы...

Для меня тоже это не очень важно. Главное получить правильный результат.

Автор: DrgLena 4.01.2010 - 15:26

Название GLM, там вся суть и содержится. Программы гиганты в этом модуле, если вы вводите ковариату, дадут вам коэффициенты, если вы их закажете. Но если в логистической регрессии вы кроме интересующих вас факторов вводите например возраст, но вы получаете согласованные с возрастом (adjusted) коэффициенты. Также и в вашей задаче, если вы вводите в модель z, то получаете согласованные оценки параметров и коэффициенты для к-1 уровней. А дальше смотрите на эти оценки и используйте те коэффициенты, которые значимы на выбранном уровне. Уровень можно и повыше, чем 0,05 выбрать.
SPSS и Statistica дают однаковые значения 30 летних деревьев в каждой зоне при использовании общего уравенения.

Автор: nokh 4.01.2010 - 20:36

С новым годом! Как тут уже много написали...

Цитата(Pinus @ 28.12.2009 - 10:59) *
...Возможен ли другой (частный) подход:
Если наклоны регрессий значимо различны, значит, если бы уровней фактора было бы два, то можно статистически достоверно утверждать о значимом различии межгрупповых регрессий и для каждой из них строить свою модель (уравнение). В случае большего чем два уровней фактора, сделать такой вывод нельзя, поскольку регрессий несколько. Тогда может быть, если нет другого подхода, воспользоваться следующим методом: сделать тесты на однородность наклонов для пар регрессий. Сначала сравнить пару А и Б. Если наклоны одинаковы, то сравнить наклоны для пары А+Б и В. И так перебрать все образующиеся сочетания. Если уровней фактора немного, то в принципе это не так долго. В конце концов получится, скажем, три значимо различных (по наклонам) группы регрессий (например, А+Б; В; Г). Для групп регрессий с одинаковым наклоном продолжить проверку на равенство свободных членов. Для регрессий значимо различных по наклонам, находить свои отдельные уравнения регрессии.

В принципе подход выглядит здравым, но каким-то неизящным. Механистическим что-ли. Я бы поступил всё-таки в зависимости от глубинной цели исследования, которая в свою очередь определяется номером специальности по которой будет защищаться работа: лесоводство и т.п. или экология, ботаника и т.п.
(1) Цель: СРАВНИТЬ ПОКАЗАТЕЛИ древостоев в разных условиях посадок с учётом их различий по возрасту. Это - однозначно задача ковариационного анализа. Не соглашусь здесь с DrgLena, что это - регрессионная задача, а я пусть и кстати, увёл её в сторону ковариации. Это типичная задача сравнения средних для нескольких групп (раз помимо A и Б, есть ещё В и Г). И решается она дисперсионным анализом (ANOVA) с последующими попарными сравнениями внутри дисперсионного комплекса. Если бы посадки были одновозрастные - мы бы так и поступили. Но поскольку вмешивается возраст, также влияющий на величину показателей, его влияние требуется исключить. Не ИЗУЧИТЬ (регрессия), а выразить и ИСКЛЮЧИТЬ. Поэтому данные подгоняются под требования ковариационного анализа (линейность ответа, нормальное распределение ошибки), проверяется требование параллельности зависимостей и по сути проводится ANOVA, но для скорректированных на различия по возрасту данных. Дальше как обычно следуют попарные сравнения. Никакой регрессии. Такой подход более уместен, когда цель имеет чёткий практический выход. Например, лесохозяйство интересует как организовать посадки, чтобы заполнить пространство деревьями с максимальной отдачей качественной древесины в будущем. Поэтому здесь работа по отдельным показателям вполне оправдана: дерево должно быть высоким, с большим обхватом, ровным, несучковатым и т.д. Потом взвесив все "за" и "против" будет приниматься решение о способе посадки. Если всё так - думаю можно и механистически погруппировать выборки, хотя цель такой процедуры не вполне ясна - кому какая разница как они группируются - дерева больше давай! Есть и техническая сложность при таком подходе - большое число сравнений, а значит рост ошибки первого рода (лжеоткрытия). Бороться нужно спецсредствами типа последовательной техники Бонферрони: метод Данна-Шидака (Dunn - Šidak), это видимо то же самое, что в источнике avorotnyak названо методом Данна-Бонферрони. Где-то в пока соседней теме были предложены менее консервативные методы, но они мне ещё неизвестны.
(2) Цель: СРАВНИТЬ РОСТ деревьев в разных условиях посадок. Эта цель более общая и ориентированная на теорию, хотя в качестве одного из возможных подходов к реализации включает в себя и Цель 1. Но т.к. здесь речь идёт о росте - его и нужно стараться изучить в первую очередь, не ИСКЛЮЧИТЬ как в (1), а ИЗУЧИТЬ. Рост изучается регрессионными техниками, уход от них есть упрощение задачи, и в этом контексте задача представляется однозначно регрессионной. Ещё в самом начале я описывал этот подход, но Pinus им не заинтересовался или не был готов обсуждать. В отличие от простых зависимостей уравнения роста сложны, но зато каждый параметр этого уравнения имеет чёткий биологический смысл (но потребуется литературу поднимать), а значит сравнивая параметры таких регрессий мы автоматически обобщаем данные, уходим от конкретного показателя к биологическому явлению. Выразив эти параметры и оценив значимость различий по ним (здесь я не силён, но пакеты должны помочь) можно переходить к естественной группировке выборок с помощью кластерного анализа. Выбрки A, Б, В и Г будут точками в пространстве нескольких параметров уравнений роста - для них можно смотреть близость-дальность по тому же расстоянию Махаланобиса, и обсуждать с точки зрения близости-дальности выборок по стоящим за параметрами уравнений биологическими явлениями. Учитывая, что признаков несколько - нужно будет ещё подумать, как обобщать информацию по ним: в самом начале - т.е переходя от признаков к главным компонентам или факторам, или в конце - оценивая согласованность параметров динамики роста для разных признаков в популяциях. Ведь нас здесь интересуют не отдельные признаки, а процессы. Тоже не просто, даже скорее сложно. Но мне как экологу такой подход представляется куда глубже и изящнее. Хотя с практической (потребительской) точки зрения - почти всё это есть умствование.

Автор: nokh 4.01.2010 - 21:24

Цитата(Green @ 28.12.2009 - 20:36) *
Вопрос по Вашему труду- страница 2, Эпап 1 "Идентификация зависимостей"
Вы пишите "Для данных примера визуальная оценка диаграммы рассеяния (см. рис. 1) не даёт веских оснований предполагать нелинейность отклика, а выполнить соответствующую статистическую проверку не позволяет тип исходных данных, когда для каждого случая X
известно только одно единственное значение Y, а не несколько."
Зависимость - когда значению х ставится в соответствие значение у ( статистическая модель зависимости у=f(x)+е(ошибка) )
О каких соответствующих проверках идет речь?

Если для каждого х имеется несколько значений у, то сумму квадратов остатков (ошибки) можно разложить на 2 части: отклонения групповых средних от линейной регрессии и отклонения внутригрупповых значений от своего среднего (как в дисперсионном анализе), которые теперь выступят статистикой для проверки линейности. Если Вы этого не умеете - создайте другую тему, можно разобрать на к/л примере, хотя и в доступной литературе всё это должно быть. Другое дело что пакеты в результатах регрессионного анализа такой проверки не выдают.
Цитата(Green @ 28.12.2009 - 20:36) *
... Я полагала, что необходимо смотреть уравнение регресии (для каждого типа конфеты) ( т.е. оценка параметров регрессии, остатков и проч..). А что смотреть визуально? Что нужно "увидеть" на Scatterplot? Откуда вывод, что можно переходить к этапу 3?
тем более, что далее, во втором этапе (преобразование нелинейных зависимостей) Вы на этих данных приходите к коэффициенту -2,7 - который означает нелинейность х по отношению y.

Если бы речь шла не о скорости рассасывания шоколадки и ириски, а о совсем непонятных мне процессах, скажем о скоростях к/л процессов в адронном коллайдере - однозначно использовал бы преобразование к более линейному виду (если бы физики меня не отговорили). Однако мой исключительно субъективный опыт сосания конфеток и ирисок не даёт оснований предполагать что скорость этих процессов связывает величина, обратная корню степени 2,7:). Хотя если углубиться в физико-химические свойства - кто его знает? Да и субъективизм - штука ненадёжная: читал когда-то в "Знание-Сила", что когда испытуемым предлагали отсортировать монетки с наклеенными случайным образом двумя бусинками они делили их в пропорции золотого сечения. Хотя весь мой жизненный опыт не позволяет даже помыслить о том, что доля субъективно негармоничных для меня сочетаний среди случайных комбинаций составит (sqrt(5)-1)/2.
Если серьёзно - для меня часто большая трудность решить с чем работать и что показывать: исходные данные или преобразованные значения, особенно когда отклонения от требований модели невелико. Скажем так: если бы я считал именно эти данные себе, то преобразовал бы их по Боксу-Коксу, а после всех анализов построил графики средних с ДИ, рассчитанными после обратного преобразования средних и симметричных ДИ из анализа. Такие ДИ были бы несимметричными, а все графические построения и расчёты для них пришлось бы делать вручную. Но если бы с этими данными ко мне пришёл аспирант от научного руководителя также не разбирающегося в статистике (а таких почему-то большинство) - стал бы искать компромисс между требованиями модели и простотой восприятия материала сначала аспирантом и его руководителем, а в последующем - учёным советом. В данном конкретном случае - оставил бы линейность (на практике часто спасает логарифмирование, т.к. пакеты позволяют представлять оси в логарифмическом масштабе, но только приходится делать 2 анализа: один для оценки значимости, другой - для построения графика).
Цитата(Green @ 28.12.2009 - 20:36) *
nokh, спасибо, поищите.
Поскольку наши доктора физ-мат наук говорят в один голос, что регрессионый анализ (техника выметания матриц и проч) основывается именно на нормальности зависимой переменной.

Ну с вашими докторами мне не тягаться... (да и речь исходно шла не о регрессии, а об anova и ancova). Я понимаю так: если данные y исходно распределены нормально на каждом уровне х - ошибки также будут распределены нормально. Математический аппарат регрессионного анализа выводится из этого. Однако почему невозможна ситуация, когда данные распределены ненормально, а ошибка - нормально? Часто при описании моделей выдаётся именно требование нормального распределения ошибки. Посмотрите ковариац. анализ того-же Афифи, книгу Монтгомери. В регрессии также акцентируют внимание на ошибке, например:
(1)... In the univariate linear regression model, we assume that y=E(Y|x)+ε, where E denotes the mathematical expectation of Y given x and could be any deterministic function of x in which the parameters appear in linear form; ε, the error term; stands for all the other unaccounted for factors that make up the observed value y. How accurate our estimates are and how consistent they will be from sample to sample will depend on the nature of the error terms. If none of the many factors that contribute to the value of ε makes more than a small contribution to the total, then ε will have a Gaussian distribution. If the {εi} are independent and normally distributed (Gaussian), then the ordinary least-squares estimates of the coefficients produced by most statistical software will be unbiased and have minimum variance (выделение - моё. Из:
Phillip I. Good, James W. Hardin. Common Errors in Statistics (and How to Avoid Them) Или это:
(2) 5.3.8 Assumptions of regression analysis
The assumptions of the linear regression model strictly concern the error terms (εi) in the model, as described in Section 5.3.2. Since these error terms are the only random ones in the model, then the assumptions also apply to observations of the response variable yi. Note that these
assumptions are not required for the OLS estimation of model parameters but are necessary for reliable confidence intervals and hypothesis tests based on t distributions or F distributions... (выделение - моё. Из: GerryP.Quinn, Michael J.Keough. Experimental Designand Data Analysis for Biologists)
Так что поспрашивайте докторов поподробнее, возможно ли нормальное распределение ошибки при ненормальных данных, и чем нам грозит нарушение нормальности данных - я здесь некомпетентен и просто цитирую людей компетентных.
Цитата(Green @ 29.12.2009 - 18:00) *
DrgLena,
рост, возраст, вес и т.п. и подростков ПОХОЖЕ на рост деревьев, но, есть одно отличие.
Сначала поясню на примере: подставив в форумулу регрессии возраст 0, вы должны получить свободный член уравнения регрессии. так вот для детей это будет не ноль, а для деревьев ноль. Что это значит? это значит, что уравнение регрессии для деревьев должно строится без intersept, т.е. все необясненные остатки идут за счет влияния качественных факторов.

В рассуждениях есть ошибка. И растения, и животные развиваются из одной клетки, поэтому если исходный размер организма если и не ноль (диаметр зиготы), то очень близок к нему по сравнению с размером взрослого организма. Просто в силу нашей безграмотности мы не знаем дату нашего зачатия, а захватившей нас паразитической цивилизации выгодно считать неродившихся людей "плодом", в т.ч. чтобы использовать в своих целях абортивный материал. Если же считать размеры человека от зачатия или сдвинуть ноль на 3/4 года (9 месяцев) назад, то все кажущиеся отличия между началом роста человека и растения снимаются. Принципиальное же различие заключается в другом - рост растений замедляется, но не прекращается, тогда как рост человека выходит на плато, а если человек собой не занимается - то и снижается к старости.

PS. Ниже - таблица из книги INTRODUCING ANOVA AND ANCOVA A GLM APPROACH (лень уже авторов искать) со сравнением требований anova и GLM.

 

Автор: nokh 4.01.2010 - 22:17

Цитата(Игорь @ 3.01.2010 - 18:40) *
Нет, нужно - значит - нужно. В последней версии (от 3 января) AtteStat вывод в-основном соответствует методическим материалам nokh, включая регрессии и ДИ. Источники (в т.ч. для ссылок) добавлены. Ознакомиться со многими из них можно совершенно легально в Google Books.

Огромная благодарность за проделанную работу! Модуль действительно востребованный для тех кто пользуется таким анализом, хотя сам метод пока недостаточно "раскручен". Из пожеланий: всё-таки хотелось бы в модуле "дисперсионный анализ" увидеть стандартные таблицы результатов. То что они есть во всех статпакетах и насколько помню даже в Excel подсказывает мне что это нужно не только таким занудам как я:).

Автор: nokh 4.01.2010 - 22:56

Цитата(DrgLena @ 3.01.2010 - 22:47) *
Все обсуждаемые в этой верке примеры я в AtteStat осилила. Сейчас у меня реальная задачка, когда фактор один, поэтому это однофакторый анализ но учесть нужно влияние двух ковариат. Выводы о различии средних с учетом ковариат и без учета существенно отличаются.

Посмотрел Ваши данные, покрутил. Хотелось бы подойти к ним не механистически, а для этого важно знать: бимодальность показателя х2 связана с особенностями сбора материала или же она также наблюдается в популяции? Насколько понял из цифр и эл. письма это - возраст больных.

Автор: Green 5.01.2010 - 15:14

nokh, спасибо за ответы!

Все, что меня до сих пор смущает в применении ковариационного анализа для данных Pinus - попробую пояснить.

Пункт 1. Поскольку коэффициент регрессии находится как центр масс соответствующих точек, данные представляются мне несбалансированными.

Поясню на примере. В первой выборке - года с 15 до 55, во второй с 14 до 43.
Если убрать замеры в первой выборке от 44 до 55 (4 кейса), во второй 14 (1 кейс), то... пожалуйста, посмотрите сами что получается при использовании кованализа.

пункт 2. Confounding
Скрытая переменная не должна сама присутствовать в анализе. Вы ее включаете. Тогда влияние чего вы исключаете? Несбалансированности исходных данных? Таким образом его исключить не удастся.
---
Для балансирования данных используются страты (я бы сослалась на на EPA QA/G-9. Guidance for Data Quality Assessment, Practical Methods for Data Analysis, 1.3.2.4 Stratified Samples)


Тут бы было уместно сначала сбалансировать (найти среднее для каждого возраста), и только потом строить регрессию. Также тогда можно было бы и провести кованализ, где использовались бы данные каждой страты ( возраста), а сам возраст действительно был бы конфаундером.

Да и Вы сами завуалированно ссылаетесь на балансировку: "Если для каждого х имеется несколько значений у, то сумму квадратов остатков (ошибки) можно разложить на 2 части: отклонения групповых средних от линейной регрессии и отклонения внутригрупповых значений от своего среднего (как в дисперсионном анализе)". Да, в данных Pinus именно так, для одного х (возраста) несколько различных y(высот).
Как посчитать, думаю, не составит труда.
Что и сделала.
первая группа
уравнение регрессии построено по данным первой группы у=0,409358714 +0,301258128*х
подставила значения средних в каждой возрастной группе.
получена SSобщ=22,59411535 (df=1)
рассчитала SS для каждой группы возрастной группы в отношении их среднего.
SSгрупп= 34,51520833 (df=24)
MSобщ=22,59411535
MSгрупп=1,438133681
MSобщ/MSгрупп=15,71071984
p=,000578

Вторая группа
уравнение регрессии у=0,004065221+0,323122789*х
SSобщ=19,87431237 (df=1)
SSгрупп= 43,6705 (df=26)
....
p=,001976

Где и что теперь я сделала не так?
Какой вывод следует из данных расчетов?
Для меня - опять же показывает, что нельзя строить напрямую регрессию по этим данным.
========
А за ссылки по требованиям к нормальности - спасибо огромное!
Потому что те доктора физмат наук - почтенного возраста, разговаривать с ними трудно, а на предзащите диплома девочку ввели в полный ступор. Спорить напрямую я с ними не буду, но... ссылочки приведу, если будет повторятся ситуация.


Автор: Pinus 5.01.2010 - 15:16

DrgLena, я начал разбирать предложенный Вами метод, но никак не могу уловить, Вы считаете мой подход ошибочным (для незначимо влияющих уровней фактора объединить исходные выборки и построить общую модель обычным регрессионным анализом, и уже по ней делать прогноз)? Или просто предлагаете другие известные методы?
Я не вижу ошибки в своих умозаключениях, если она есть, и я просто чего-то недопонимаю, то скажите в чем эта ошибка.

Автор: Pinus 5.01.2010 - 15:18

Цитата
Nokh.
(1) Цель: СРАВНИТЬ ПОКАЗАТЕЛИ древостоев в разных условиях посадок с учётом их различий по возрасту.
Это конечно не моя цель.

Цитата
(2) Цель: СРАВНИТЬ РОСТ деревьев в разных условиях посадок. Эта цель более общая и ориентированная на теорию ?
Ещё в самом начале я описывал этот подход, но Pinus им не заинтересовался или не был готов обсуждать. В отличие от простых зависимостей уравнения роста сложны, но зато каждый параметр этого уравнения имеет чёткий биологический смысл (но потребуется литературу поднимать), а значит сравнивая параметры таких регрессий мы автоматически обобщаем данные, уходим от конкретного показателя к биологическому явлению.
Это тоже не моя цель. Моя задача проще. Получить регрессионные модели (значимо различающиеся), по которым можно было бы построить таблицы хода роста насаждений. Таблицы хода роста ? это таблицы возрастной динамики показателей, для каждой градации возраста (например, через 5 лет) приводятся прогнозные значения параметров роста (высота, диаметр ствола, диаметр кроны и т.д.). Такие таблицы могут например использоваться в ландшафтном проектировании, чтобы архитектор знал динамику роста насаждения и мог, соответственно, судить о динамике ландшафта. Кроме того, такие модели могут использоваться для оценок возрастной динамики фитомассы насаждений и для других целей. Когда подобные таблицы строят для лесных насаждений, то они используются для лесохозяйственного планирования.
Я сначала не понял, зачем Вы настаиваете на функциях роста (ведь зависимости простые и прогнозные значения вряд ли будут значимо отличаться, да и практическое значение таких различий ничтожно). А теперь понятно, что Вы подумали, что я взялся за теоретическое изучение роста. Это не так. Подобные работы встречал, часто используют функцию Вейбулла и кривые Пирсона. Также есть монографии (в т.ч. авт. Кивистэ) и докт. диссертации на эту тему.

Nokh, ошибочен ли предложенный мной подход: вот для конфеток получились три значимо отличающихся друг от друга группы уровней фактора. Правомочно ли объединить исходные выборки для таких однородных групп и построить три значимо различающиеся регрессионные модели обычным регрессионным анализом, и уже по ним тогда делать прогноз? Дисперсии для уровней фактора однородны, ошибки нормальны, средние, по ANCOVA, значимо не отличающиеся. А то никто конкретно не скажет, да или нет. Если правомочно, то мне пока от ANCOVA больше ничего не надо (задачу для фактора тоже разобрал). Если нет, то почему?

Автор: nokh 5.01.2010 - 19:00

Цитата(Pinus @ 5.01.2010 - 17:18) *
Это конечно не моя цель...
Это тоже не моя цель. Моя задача проще...

Ну значит Вы плохо сформулировали цель. Соответственно получили то, что Вам в действительности не нужно, или не совсем то, что нужно и, вероятно, потеряли месяц времени. Конечно "потеряли" условно: с пользой для себя и для других участников и читателей форума, которые сейчас достаточно полно осведомлены о ковариационном анализе и имеют возможность провести его в выверенном бесплатном пакете AtteStat. Но от истинной цели Вы почти так же далеко. Напомню исходную формулировку задачи:
Цитата(Pinus @ 10.12.2009 - 10:09) *
Есть такая задача.
Рассматриваем две независимые выборки, в которых переменная Y подвержена влиянию фактора X (Y и X непрерывные случайные величины). Каждая выборка относится к определенному типу условий Z (качественный признак). Если рассматривать каждую выборку раздельно, то выявлено достоверное влияние X на Y и найдены уравнения регрессии с R^2>0,75. Необходимо определить значимость влияния типа условий Z на переменную Y. Распределения Y и X не являются нормальными.

Выделение моё. Определить значимость влияния типа условий Z на переменную Y, которая также подвержена влиянию регрессора X - это и есть ... цель 1 в чистом виде (sic!).
(Ответить Green не смогу, т.к. я просто уже не понимаю о чём речь: как-будто во сне услышал, а сейчас ускользает. Тебе - балансировка, мне - балансировка..., рассказать сказку про белого бычка? Эта задача решается ковариационным анализом, который для этого и был разработан, ничего изобретать не нужно, нужно только проверить выполнение определённых требований...)
Ваша же истинная цель, Pinus, формулируется примерно так: определить уравнения динамики роста деревьев по ряду показателей, оценить влияние на рост условий посадки и сделать прогноз. Это очень близко к цели 2, т.к. требуется использовать регрессионную технику. И она не особенно проще. Какие формы зависимости использовать? Ясно, что самые точные, т.к. чем качественнее подгонка (fit) модели, тем точнее прогноз. А наиболее точные уравнения роста получены из теоретического анализа ростовых процессов. Почти цель 2, но с креном не в теорию, а в прогноз.
На Ваш последний вопрос, конечно, можно ответить утвердительно. Раз нет статистически значимых различий, значит это - одна генеральная совокупность, а раз так - с ней и нужно работать далее как с единым массивом. Вот только как Вы планируете теперь это сделать?
(1) Согласитесь что как-то непоследовательно искать различия с помощью искусственно спрямлённых зависимостей, а потом объединить данные и выражать нелинейные зависимости и по ним делать прогноз. И всё равно встаёт большой вопрос выбора типа нелинейной зависимости для прогноза. И какой-нибудь дяденька в учёном совете обязательно спросит, "почему вы сравнивали зависимости с использованием одной модели (однофакторный ancova), а прогнозируете с использованием другой, нет ли здесь противоречия?". Т.е. хочу сказать, что органичнее было бы изначально работать с уравнениями динамики роста, хотя это сложнее, по крайней мере для меня, т.к. вообще с таким не сталкивался (специалисты по эконометрике такие задачки должны щёлкать, т.к. только с регрессиями и работают).
(2) Если вы всё же не захотите отказываться от ков. анализа, найдёте однородные группы и объедините прямые по преобразованным данным, а затем с помощью обратного преобразования выдадите кривую роста с прогнозом - тоже могут быть вопросы. Хотя такая кривая и будет очень близка к идеальному fit, какая-нибудь тётенька спросит "почему Вы изобретаете велосипед прикрываясь Боксом и Коксом, тогда как она с коллегами, ещё в далёком 197...-198... году показала, что динамика роста сосны прекрасно описывается уравнением ..., есть зарубежные работы на эту тему ... и почему Вы отказываетесь от общепринятых подходов путая нас неуместными здесь статистическими терминами?"
Не знаю что Вы выберете, но считал нужным это написать.

Автор: DrgLena 5.01.2010 - 20:08

Цитата(nokh @ 4.01.2010 - 23:56) *
Посмотрел Ваши данные, покрутил. Хотелось бы подойти к ним не механистически, а для этого важно знать: бимодальность показателя х2 связана с особенностями сбора материала или же она также наблюдается в популяции? Насколько понял из цифр и эл. письма это - возраст больных.

х1 - возраст, известно, что от имеет слабую обратную корреляционную связь с изучаемыми показателями (у, а их у меня не один, а 4) подтверждено популяционными исследованиями здоровых лиц, х2 - длительность заболевания СД, также по нашим данным имеет корреляционную связь с У. Фактор - два уровня определенное состояние есть, или нет. цель - определить имеется ли различие средних значений в этих показателях ( а их у меня не один, а 4) в двух уровнях с учетом влияния возраста и длительности заболевания СД. Чисто ковариацонная задача? rolleyes.gif

Автор: Green 5.01.2010 - 20:33

nokh,

во-первых и главных, все Ваши усилия не прошли даром. За это Вам огромное спасибо!
Подняла много литературы, посмотрела другим взглядом на кое-какие вещи.
-----
Я сейчас не буду говорить о кованализе, Бог с ним!

Попробую еще раз пояснить на очень простом простом детерминированном примере.

Едут две машины
номер скорость длительность путь
1 1 50 50
3 10 100 1000

Найти среднюю скорость, с которой двигались машины
(50+100)/2=75 км/ч

А теперь, используя регрессию, постройте уравнение по двум точкам (1, 50) и (10, 1000). У меня получилось y = 105,56x - 55,556

Это очень известный "парадокс", который объясняется тем, что в линейной регрессии используется центр масс для расчета коэффициента наклона.
-------------
НО!!!
Как только абсцисса х измеряет время, а мы хотим использовать уравнение прямой y=k*x +b, мы ведем речь о процессе, протекающем во времени с постоянной скоростью.
Постоянная скорость ? это k=const.
b ? начальные условия процесса.
Никаких других трактовок изображения линейного процесса во времени не придумано ни в одной науке, ни в биологии, ни в физике, ни в медицине. Скорость и начальные условия, если по оси абсцисс обозначено время, а по y - некоторая количественная переменная.

Поэтому используют стратификацию, чтобы избежать "перевеса". Используют весовые коэффициенты страт, чтобы исправить это в практических расчетах.
----------
Вы сами предлагали проверить "линейность". Я проверила. Что получилось? Данные нелинейны? Как правильно трактовать?

Я не занудствую, я молчу про кованвлиз, но пожалуйста, поясните мне что такое линейная регрессия во времени? До сих пор я была уверена, что мы строим линейную модель роста/движения/развития/как угодно во времени, где наклон - это скорость.

И еще раз, я ОЧЕНЬ благодарна Вам за весь представленный материал. Повторю, я пришла из разведочного анализа, методов интеллектуального анализа и проч в статистику. Мне иногда трудно перенаправить взгляд от "физики" процесса.
Но одно я знаю точно - статистика - не ?бог из машины?, которые позволит получить результаты, отличные по смыслу от тех, которые бы были получены другими методами, например, матанализа для неслучайных величин.

Автор: DrgLena 5.01.2010 - 22:46

Цитата(Pinus @ 5.01.2010 - 16:16) *
DrgLena, я начал разбирать предложенный Вами метод, но никак не могу уловить, Вы считаете мой подход ошибочным (для незначимо влияющих уровней фактора объединить исходные выборки и построить общую модель обычным регрессионным анализом, и уже по ней делать прогноз)? Или просто предлагаете другие известные методы?
Я не вижу ошибки в своих умозаключениях, если она есть, и я просто чего-то недопонимаю, то скажите в чем эта ошибка.

Я не думала, что могут запутаться в трех соснах те, кто их изучает.
Вы никак не можете выделить главное, для чего вам нужен анализ данных. Никакого Вашего подхода нет, есть только частности из которых вы никак не можете выйти. Вы как будто под пыткой выдаете крупицы информации, что вы на самом деле хотите анализировать, поэтому каждый из участников обсуждения вас понимает по свойму.
Я предложила в рамках совариационного анализа (Statistica) общее решение, не я его изобрела, это уравнение получено по вашим данным и абсолютно универсально для ваших задач, коэффициенты:

Intercept 0,247706 (p=0,397553)
x 0,310287 (p=0,000000)
z - 0,104374 (p=0,299433)

Параметры уравнения регрессии перед вами, уровней z может быть сколько вам нужно (в вашем случае z=2 понижен, для него не нужен коэффициент) и z может быть как не значимым и вы можете не учитывать этот член уравнения регрессии, а может быть значим, тогда высота деревьев будет существенно различаться, не так, как в данном случае.

Автор: Green 6.01.2010 - 11:54

DrgLena,

а Вы не пробовали для своих "новогодних" данных воспользоваться survival analysis?
Он прекрасно показывает различия в Ваших группах, если х2 - длительность. Трактовку дать воздержусь, но К_М графики посмотрите.
Кокс тоже показал на y.

Но, дело Ваше, конечно smile.gif

Автор: DrgLena 6.01.2010 - 15:01

Цитата(Green @ 6.01.2010 - 11:54) *
а Вы не пробовали для своих "новогодних" данных воспользоваться survival analysis?

Нет, я на трезвую голову цель сформулировала. И матанализ для неслучайных величин я тоже не буду делать.
Цитата(Green @ 6.01.2010 - 11:54) *
Он прекрасно показывает различия в Ваших группах, если х2 - длительность.

Различия по какому признаку?
Цитата(Green @ 6.01.2010 - 11:54) *
Трактовку дать воздержусь, но К_М графики посмотрите.

Посмотрю, если вы их сделаете и пришпилете. И помогу вам с трактовкой Кокса.
Цитата(Green @ 6.01.2010 - 11:54) *
Но, дело Ваше, конечно smile.gif

Да, мое дело учиться, но мои знания разведочного анализа мне подсказывают, что эта тема, которая сама по себе не в теме, вырождается, к ней прилепилось много лишнего, сказывается отсутствие Плава.
Всех С Праздником!!!

Автор: Pinus 6.01.2010 - 15:02

Цитата(nokh @ 6.01.2010 - 02:00) *
Ну значит Вы плохо сформулировали цель.
Nokh, цель я сформулировал нормально. Просто мы уже запутались, какая задача ?1, а какая ?2. Но это уже не важно. Я не выражал сомнения в правильности использования ковариационного анализа в моей ситуации, просто хотел сказать, что не намерен заниматься теоретическим изучением роста, а хочу получить модели для прогноза. Вы, с этим согласились:
Цитата(nokh @ 6.01.2010 - 02:00) *
Почти цель 2, но с креном не в теорию, а в прогноз.


Проблемы получаются другие.
Во-первых, я неправильно понял, как работать с методами преобразования данных. Теперь понятно, что неправильно
Цитата(nokh @ 6.01.2010 - 02:00) *
искать различия с помощью искусственно спрямлённых зависимостей, а потом объединить данные и выражать нелинейные зависимости и по ним делать прогноз.
С этим согласен, не додумал. Правильный выход, который Вы предложили, нормальный:
Цитата(nokh @ 6.01.2010 - 02:00) *
Если вы всё же не захотите отказываться от ков. анализа, найдёте однородные группы и объедините прямые по преобразованным данным, а затем с помощью обратного преобразования выдадите кривую роста с прогнозом ? такая кривая и будет очень близка к идеальному fit ?


Что касается использования для моделей функций роста, то посоветуюсь еще с научруком.
Мне здесь не совсем понятно вот что. Например, на основании теоретических сведений известно, что какой-либо процесс соответствует параболе. Параметры уравнения определяем исходя из имеющихся статистических данных. Но изучаемый возрастной интервал небольшой, и, положим, параметр при x^2 получился незначимым (изгиб кривой небольшой). Ведь тогда можно исключать из уравнения x^2 и описывать процесс прямой линией. Или обязательно сохранять квадратичное уравнение с незначимым параметром (т.к. надо чтобы соответствовало теории)?
Положим мы выбрали какую-нибудь S-образную функцию роста. Поскольку в моей ситуации на рассматриваемом возрастном интервале один перегиб, а в большинстве других зависимостей их не будет совсем, то значит параметры уравнения, обеспечивающие перегибы, будут незначимыми. Есть ли смысл использовать сложные функции для описания таких простых зависимостей? Или целесообразнее это делать при исследовании всего периода жизни, когда проявляется весь характер закономерности. Мне кажется особые функции роста стали применять только для того, чтобы описать все замедления и ускорения процесса. Или я неправ?

Даже если решим работать с функциями роста, все равно ковариационный анализ будет нужен для других моментов в работе (там общепринятая зависимость линейная). Так что никуда время не пропало, и за ANCOVA Вам еще раз большое спасибо. Да и в будущем он еще не один раз пригодится.



Автор: Pinus 6.01.2010 - 15:08

Цитата(DrgLena @ 6.01.2010 - 05:46) *
Я не думала, что могут запутаться в трех соснах те, кто их изучает.

Ну, в соснах я еще никогда не блудил. И не только в трех. А вот в стат. анализе немного плутаю, это верно. Но ничего, Москва тоже не сразу строилась, осилим.

Автор: DrgLena 6.01.2010 - 15:46

А это я в шутку конечно, про сосны. В медицине не хватает таких соискателей, которые способны самостоятельно освоить анализ собственных данных, поэтому и прикрываются тезисом, что медицина не наука, а искусство.

Автор: Green 6.01.2010 - 20:03

DrgLena,

Я тоже учусь. Поэтому спасибо за разрешение "покрутить" Ваши данные.

x2- если это длительность заболевания - то это распределение Вейбулла. проверено Hollander-Proschan test. Загнать их в линейную ковариату, возможно, поможет nokh.
Я же (ну, интересны мне реальные данные smile.gif ) посмотрела для начала эти данные Каплан-Майером. (x2, конечно, по группам). Потом уже покрутила Кокса. Интересно, параметр y - измеряется до лечения или после?

Если действительно интересно, могу скинуть в личку. Тема окончательно разбухла в разных направлениях.

С Рождеством!







Автор: DrgLena 6.01.2010 - 23:34

Цитата(Green @ 6.01.2010 - 20:03) *
Я тоже учусь.

Если это так, посмотрите цель исследования, она четко сформулирована.Меня интересует различие У в двух группах с учетом влияния х1 и х2. А вы мне предлагаете получить оценку вероятности наступления события в зависимости от х1 и У.


Автор: nokh 7.01.2010 - 07:53

Цитата(DrgLena @ 5.01.2010 - 22:08) *
х1 - возраст, известно, что от имеет слабую обратную корреляционную связь с изучаемыми показателями (у, а их у меня не один, а 4) подтверждено популяционными исследованиями здоровых лиц, х2 - длительность заболевания СД, также по нашим данным имеет корреляционную связь с У. Фактор - два уровня определенное состояние есть, или нет. цель - определить имеется ли различие средних значений в этих показателях ( а их у меня не один, а 4) в двух уровнях с учетом влияния возраста и длительности заболевания СД. Чисто ковариацонная задача? rolleyes.gif

Задача действительно представляется ковариационной, т.к. оценивается не влияние факторов на развитие заболевания (логистич. регрессия), а влияние заболевания и др. факторов на количественный показатель y. Посмотрите, пожалуйста, ещё раз файл "С Новым годом". Мне кажется, что всё-таки возраст это x2, а не x1, тогда всё логично получается.

Автор: DrgLena 7.01.2010 - 16:17

Да, конечно х1 дительность заболевания в годах, а х2 возраст.

Автор: Green 7.01.2010 - 16:42

1. nokh, я приношу свои извинения за ту кучу вопросв, которе я поставила.
Нашла книгу в Инете Analysis of Messy Data: Analysis of covariance , George A. Milliken,Dallas E. Johnson

Прочла, разобралась.

В своем труде ( а он не вызывает никаких сомнений) Вы указали требования к модели кованализа, 4 требования.
Но забыли (или не знали) самого первого: randomized complete block design structure
В книге это упоминается. Причем на первых же страницах. Основное условие, иначе исследователю грозят смещения данных.

Так вот я пыталась показать Вам эти смещения, разными способами.

Но тем не менее, приношу свои извинения. При наличии требования полной рандомизации, безусловно, первый тип задач - это задачи кованализа.

2. DrgLena, Вам , как медику, тем более понятно, когда и зачем нужна рандомизация. (я с нее и начинала анализ данных Pinus) - это требование ковариационного анализа. Хотите Вы того, или нет. А в Ваших данных этого нет.

И Вы, думаю, прекрасно отличаете Prospective or Cohort study , Retrospective or Case-Control Study, Experimantal Studies or Randomized Clinical Trials.

Возможно, nokh, проанализирует Ваши данные и мне интересно, как он это сделает (Надеюсь, что покажете, потому что это был бы образец, хороший образец для всех). Но пока не будет выполнено требование randomized complete block design structure относится серьезно к результатам будет трудно.

Удачи!

Автор: Green 7.01.2010 - 18:01

да, и забыла написать, почему предлагала survival analysis.

>Меня интересует различие У в двух группах с учетом влияния х1 и х2.

В кованализе Вы будете изучать влияние фактора F на у с учетом ковариат x1 и x2

я недаром спросила, контролируется ли y - на начало заболевания или на конец.

Обычно в исследованиях, связанных с продолжительностью болезни (лечения), зависимая переменная - время (продолжительность наблюдения). Остальные переменные являются независимыми. Строится модель зависимости времени жизни(лечения) от независимых параметров модели. и т.д. Описывать не буду. Но поверьте, не только оценку вероятности события получают smile.gif А также влияние различных факторов и проч.

Вы уверены, что y- это зависимая переменная? В таком случае она должна измерятся ПОСЛЕ срока лечения ( выздоровления, смерти)?

Что от чего зависит? Срок болезни от у или у от срока болезни?

Автор: DrgLena 7.01.2010 - 21:56

Эти данные уже проанализированы ковариационным анализом, благодаря тому, что nokh нас с ним познакомил.

Автор: nokh 8.01.2010 - 00:11

>Green
Вам не за что извиняться, Вы меня ничем не обидели. Просто Ваши знания в области анализа данных крайне отрывочны, хотя местами, видимо, куда глубже моих. Всё-таки технарям математику лучше дают, а ВУЗ - это фундамент. Но отрывочность знаний порождает неверные решения. В корне неверные. Поэтому как педагог могу посоветовать систематизировать их следующим образом. Постройте таблицу с 4 столбцами: Задача исследователя, Количественные признаки с нормальным распределением, Количественные признаки с ненормальным распределением и порядковые признаки, Качественные признаки. В первой колонке следующие задачи: (1) Описание данных, (2) Выборочные сравнения для 2 групп, (3) Выборочные сравнения для 3 и более групп, (4) Поиск связей, (5) Поиск зависимостей, (6) Редукция данных с обобщением (7) Прочее. Это, конечно, грубо: например, все параметрические регрессии и анализ временных рядов попадут в клетку (1; 5), но вполне достаточно - мы со студентами так делаем. В каждую клетку пересечения вписываются строго те методы, которые для этой цели стандартно используются. Которые можно притянуть за уши вписывать не нужно, иначе всё поплывёт. Имея такую схему можно быстро ориентироваться в её крупных блоках. Крупные блоки можно дробить на меньшие. Например, сравнение двух выборок с примерно нормальным распределением можно проводить по (1) мерам положения , (2) мерам рассеяния и (3) мерам формы распределения. Выборки могут быть зависимые и независимые, данные могут быть полные или цензурированные, критерии - односторонние и двусторонние и т.д. Когда заполните её целиком - уже не придёт в голову использовать анализ выживаемости для нецензурированных данных только потому что одна из переменных - возраст и вы с этим анализом знакомы.
А вошедшее в моду слово "рандомизация" ничего кроме обычного здравого смысла за собой не содержит. Если не можешь или не хочешь контролировать мешающие факторы - сделай так, чтобы они "размазались" по группам случайным образом. Вот и вся рандомизация. И это не панацея, т.к. когда нужно используются специальные экспериментальные планы (experimental design) с ограничениями на рандомизацию. А то что о ней в голос заговорили везде относительно недавно не делает чести медицинской науке и указывает на то, "насколько всё было запущено". Чисто для интереса посмотрите многие ли учебники по прикладной статистике в медицине содержат элементарную таблицу случайных чисел. Но это - эксперимент. А что делать если данные собираются "в природе", например в больнице? Часто приходится и брать не случайным образом, а подряд всё что есть. И молодые врачи в больницах так и делают. Как можно рандомизировать лечение, если пациент должен получить оптимальный его вариант? И поскольку здесь никакая рандомизация невозможна приходится контролировать потенциальные мешающие факторы, чтобы потом свести их на нет с помощью спец. техник и получить adjusted оценки. И ковариационный анализ относится именно к таким методам, а точнее может быть использован и в этих целях тоже.

Автор: nokh 8.01.2010 - 01:52

>DrgLena

Предварительно исключил пациента #133: х2=70, а х1 не было, но это не принципиально.
Несколькими постами выше я спросил:

Цитата(nokh @ 5.01.2010 - 00:56) *
... важно знать: бимодальность показателя х2 связана с особенностями сбора материала или же она также наблюдается в популяции? Насколько понял из цифр и эл. письма это - возраст больных.

Но Вы не ответили. А бимодальность - это какой-то неучтённый качественный признак. Пришлось залезть в википедию, и узнать, что СД первого и второго типа сильно различается по срокам манифестации. Поэтому предположил, что группа молодых больных - преимущественно СД 1, а пожилых - преимущественно СД2. Хотя это может быть и артефактом выборки (например соединили картотеки поликлиники и дома престарелых), но согласитесь что моё предположение уже не беспочвенно. Примем эту пока фантазию за гипотезу, хотя в википедии написано, что соотношение типов СД 1 и 2 примерно 1:9, а у Вас получилось примерно 2:3 (не знаю, кто ваши больные, но может для хантов или одесских евреев это обычное дело?). Далее вычел из возраста длительность болезни (х2-х1) и получил срок начала болезни. Бимодальность сохранилась и если считать в её основе диабеты разного типа, то по этому "очищенному" графику уже можно провести разделение выборки на 2 группы: см. рисунок 1. Делал в бесплатном пакете Past ( http://folk.uio.no/ohammer/past/ ; Statistics - Mixture analysis). Если подставить полученные средние и ст. отклонения в формулы норм. распределения и приравнять их - найдём абсциссу точки пересечения двух кривых. На глаз - 35 лет, по расчёту на калькуляторе получилось 36,15 лет. Ввёл новый фактор "Тип СД" и закодировал 1 - по 36 лет, 2 - более 36 лет. Двухфакторный дисперсионный анализ (факторы: "Заболевание F" и "Тип СД") показал тенденцию к взаимодействию факторов F(1; 358) = 3,216; P=0,074, которое проявилось в том, что для типа 1 были сильные различия по у для разных заболеваний F, а для типа 2 их практически не было (см. рис. 2). Поэтому далее разделил выборку на 2 части и провёл ancova отдельно для типов 1 и 2: зависимая - у, качественный предиктор - заболевание F, количественный - длительность болезни x1 (возраст х2 в этом контексте уже теряет свой исходный смысл и вероятно слабо коррелирует с х1). В обоих случаях наклоны не отличались, а в результатах собственно ancova обнаружилось:
(1) Величина у растёт с ростом длительности болезни x1 (все уравнения если нужно можно построить по результатам расчётов в AtteStat, я для экономии времени только прикидывал)
(2) Для типа СД 1 различия по у для заболеваний F высоко статистически значимы: F(1; 143) = 9,820; P=0,0021, для F=1 - меньше, чем для F=0. В отличие от рис.2. после корекции на длительность болезни ДИ уже совсем не пересекаются.
(3) Для типа СД 2 различия по у для заболеваний F незначимы: F(1; 213) = 0,195; P=0,659, но для F=1 - тоже стало немного меньше, в отличие от графика 2, где до коррекции на длительность болезни для F=1 было немного больше, чем для F=0.

Несмотря на то, что ков. анализ пришлось разбить на 2 анализа, такие результаты кажутся мне проще для интерпретации, т.к. если вводить несколько непрерывных ковариат одновременно теряется "контроль" ума над сутью процессов и приходится вслепую верить цифрам статпакета. Также по моему анализу вышло, что слабая отриц. связь с возрастом в действительности "натягивается" качественным фактором, т.е. является артефактом совместного анализа разнородных данных. Вот такие результаты вкратце, мне нравятся:) Хотя признак "у" сильно "шумит", такое впечатление, что ещё что-то не учтено. Если же гипотеза о двух типах СД неверна, а бимодальность возраста порождена в действительности слиянием "двух картотек", то анализ построил бы иначе.

 

Автор: DrgLena 8.01.2010 - 03:22

Я выдала в экселе эти данные только для того, чтобы Игорь подсказал, как ввести массив в AtteStat, поскольку там реализован только однофакторный ANCOVA, я один фактор и привела, но две ковариаты, я думала, что это возможно в AtteStat. Конечно, для этих данных есть тип диабета. Nokh, вы проделали большую работу по созданию этой переменной, но поступили очень механистически, разбив выборку на две только по возрастному признаку, назвав это типом диабета и выводы сделаны соответственно этому.
Чтобы было интереснее и ближе к жизни, я добавила еще один фактор, тип СД. Больные с 1 типом более молодые, но с большим стажем заболевания и соотношение их практически 1:1 и это соотношение в госпитальной когорте больных с СД.

 С_Рождеством_.rar ( 10,2 килобайт ) : 339
 

Автор: nokh 8.01.2010 - 12:18

Цитата(DrgLena @ 8.01.2010 - 05:22) *
...Nokh, вы проделали большую работу по созданию этой переменной, но поступили очень механистически, разбив выборку на две только по возрастному признаку, назвав это типом диабета и выводы сделаны соответственно этому...

Категорически не согласен, что мой подход был механистическим. Механистически - это свалить всё в одну кучу без разбора и пытаться применять какие-то методы. Я же действовал в условиях недостатка информации осмысленно: (1) покрутил данные, посмотрел распределения и выявил гетерогенность выборки по важному биологическому показателю, (2) выдвинул объясняющую её гипотезу (может и грубую, но вполне адекватную, особенно учитывая что 2 дня назад я ничего не знал о типах диабета и только что-то слышал об этом), (3) устранил гетерогенность выборки разбиением её на 2 части наилучшим способом, который был для меня доступен, т.е. исходя из её внутренней структуры, не прибегая к внешней информации которой у меня не было, (4) проанализировал данные и обнаружил, что разбиение на 2 части было оправданным, т.к. поведение рассматриваемой системы для этих частей имело принципиальные отличия (5) дошлифовал анализы введением ковариаты и получив согласованные оценки. Это не механистический подход, это - творческий научный поиск. Но играть дальше на Вашем поле не нахожу для себя интересным.
Отмечу ещё только, что диагностическая эффективность моего разбиения на типы диабета составила на выборке в 362 человека (одного, как уже писал, исключил) 83,04% (для СД 1 чувствительность - 72,8%, специфичность - 93,3, для СД 2 - соответственно наоборот). Это не так уж плохо, учитывая что врачи не отказываются от пальцевого ректального исследования для диагностики аденомы простаты, имея ДЭ в 50%, что равнозначно подбрасыванию монетки smile.gif . Поэтому рискну даже предположить, что и полученные мной выводы могут оказаться близки к реальности, хотя конечно я здесь не специалист. А шум "у" и гетерогенность группы СД 1 мне все равно не нравятся wink.gif .

Автор: Green 8.01.2010 - 12:26

nokh, спасибо!
Такая табличка... уже полгода на столе. Изучаю smile.gif
Только у меня добавлена еще одна колонка, не знаю, как правильно назвать - качественные переменные, связанные со временем?. Т.е. туда попадают Пуассон и проч. , survival...( и требования к моделям обязательно).
вторая табличка - это схемы такого плана: Соотношение разных типов переменных.
Например: зависимая - номинальная, независимые - количественные, порядковые, номинальные...( 1 независимая, много..) Методы их анализа.
Обязательно добавить требования к модели

Это тоже полезная табличка ( делюсь опытом smile.gif ).

=======
По поводу рандомизации - в данном случае вы не правы.

Я понимаю, что у меня другой фундамент, но, я очень Вас прошу посмотреть эти два графика в аттаче. Они схематичны.
Вы рискуете попасть в ситуацию, показанную на графиках.
Я пока не буду комментировать и прошу, очень прошу прокомментировать их Вас.
Если они Вам непонятны, я постараюсь пояснить Вам по-другому.



Р.S. а по поводу выживаемости. Мне DrgLena не сказала, что такое F. Да и возраст с длительностью перепутала. Получилось типа "угадай данные". Я предположила, что F - censor. Не угадала smile.gif

Автор: DrgLena 8.01.2010 - 14:03

Цитата(nokh @ 8.01.2010 - 13:18) *
Отмечу ещё только, что диагностическая эффективность моего разбиения на типы диабета составила на выборке в 362 человека (одного, как уже писал, исключил) 83,04% (для СД 1 чувствительность - 72,8%, специфичность - 93,3, для СД 2 - соответственно наоборот).


Доктора, которые посещают эту ветку, разорвут нас на части, если дифференциация двух типов диабета будет проводится только по возрасту больного. Чувствительно, специфично, но не верно.
Вы ввели бинарный фактор возраст, так и называли бы его так. И выводы бы делали соответственно, что у молодых при состоянии f1 признак У снижен относительно f0. А у старых нет различий.
В решении я хотела увидеть сравнение средних от фактора f с учетом х1 и х2, в ковариационном анализе. Вопрос в том, как это лучше сделать, в двух факторном ковариационном анализе, согласуя с двумя ковариатами 4 средних, или ков анализ проводить по двум типам СД отдельно.

Автор: nokh 9.01.2010 - 22:25

Цитата(Green @ 8.01.2010 - 14:26) *
По поводу рандомизации - в данном случае вы не правы...

Ну тогда опишите как её понимаете Вы и как её можно обеспечить в натурных, а не экспериментальных условиях. Давайте чтобы далеко не ходить и не выходить за рамки темы возьмём пример Pinus. Картинки вроде понятные, но прокомментировать их я не готов, т.к. не до конца понимаю в каком случае я рискую стать жертвой "парадокса".

Автор: Green 10.01.2010 - 12:08

nokh,
У Pinus на представленных данных есть все возраста. Правда, в группе z1 есть есть 50-55 лет,которые не представлены в z2.
Но выборка достаточно большая, поэтому ничего особенного.
Теперь, предположим маргинальный случай.
из z1 возьмем данные 40-55 лет,
из z2 - от 15 до 19.

Изучаем фактор "тип посадки".



Ура! Доказали, влияет!!

Когда мы изучаем случайную величину - мы ее характеризуем средним, т.е. заменяем выборку одним значением.
теперь изучаем монотонно-возрастающую функцию от случайной величины - и тоже заменяем ее средним (На интервале изменения х).
Это "механика" работы кованализа. т.е. вместо функций сравнивать средние.( Сделали линии параллельными, потом линии "подменили" одним средним значением).

В экспериментальных условиях хотя бы - проверьте х ( возраст деревьев у Pinus) параметрическим или непараметрическим тестом различий (t-тест, Манна - Уитни). Если различий не будет - то... ну, делайте кованализ. Более-менее пойдет, при выполнении остальных условий.

В данных DrgLena условие не было соблюдено категорически. Это будет отдельный пост.

---------
О рандомизации, зачем она нужна. Это из собственного понимания.
Есть такое заболевание - острые лейкозы.
У детей -... даже слов нет, что сказать.

Так вот, давно уже приняли решение - лечить детей по протоколам.
Что это такое: строго регламентированная процедура лечения ( талмуд страниц 150-200). В лечение включается определенная группа больных, которые соответсвуют критериям. Оговорено как и что будет исследоваться.
Все лечебные мероприятия и их последовательность строго регламентированы.
В протокол включаются "ветки" ( т.е. лечение, к примеру, разными лекарствами). - Вот тут СТРОГО рандомизация.
Протокол обычно действует 3-5 лет.
Потом начинают сравнивать эффективность лечения ( по выживаемости, безрецедивности и проч)

Что дает такая система?
1. По результатам исследования протокол изменяется. ( Причем были случаи. когда неудачный протокол меняли через год -два, ранние результаты тоже сразу сравниваются с предыдущими протоколами.)
2. Каждый раз медики делают маленький шаг вперед в лечении лейкоза.
3. Заболевание, слава Богу, редкое, но проблема малых данных. Если несколько центров работают по одному протоколу - возможность межцентровых исследований.

На сегодняшний момент выживаемость по острым лимфобластным лейкозам - в нашем центре - 80-85%. В некоторых европейских ниже.

Возможно, с точки зрения медика - пояснила путано. Но, я думаю, суть Вы уловили.

Поэтому прошу подкорректировать Ваше мнение о рандомизации.


Автор: Green 10.01.2010 - 13:21

Теперь по данным DrgLena.
Хотя напрямую DrgLena мне не сказала, что есть F, из контекста я предположила, что это наличие сопутствующего заболевания.

тогда:

Соб1 - событие - началась болезнь СД
Соб2 - событие - началась болезнь F

Т.е. работали два Пуассоновских события.


развернем во времени:
рождение -->---------------C1---------------------C2---------------------


Теперь: как меряли у?
так
рождение -->-------------Cоб1----------------Cоб2--------------у---

или так
рождение -->-----Соб1--------------у----------?


Я обратила внимание на то, что риск получить заболевание F у тех, кто проболел СД >8 лет, в ДВА раза выше, чем у тех, кто только начал болеть СД ( <=8 лет).
Но, у нас нет данных, через сколько лет после начала СД (Соб1) случилоcь F (Cоб2).

Я построила 2 графика.



По вертикальной оси - среднее значение "у" у группы, которая болеет СД не более х лет

Синий : болеет СД не более х лет - не имеет F (Cоб2)
Красный : болеет СД не более х лет - уже имеет F (Cоб2)


В данных "шумели" Пуассоновские события. Т.е. в основном заболевание F получали после 8 лет наличия СД.


Если бы DrgLena изучала когорту, то например, можно было взять только тех, кто заболели СД до 2000 г (условно). ( Т.е. болеет СД >8 лет) ( смотрим график, после 8 лет линии практически параллельны). Если из исходных данных убрать кейсы, где x1<=8, то "у" - играет сразу. Не нужно сложных моделей.

Если бы был case-control - то на каждый случай заболевания F - можно было бы подобрать пару не заболел F - в таких же условиях возраста и длительности СД. И изучать зависимость у от возраста, длительности

И мы знаем, что это не рандомизированное исследование.

Это одномоментный срез среди больных СД. Но тогда в нем нет даты Соб2. А тогда бы играла разница между Соб1 и Соб2.( график до 8 лет)
------------------------

Если посмотреть распределение пациентов по группам, то заметно, что СД2 - попали в группу болеющих СД менее 8 лет.
Так что предположение nokh о слиянии картотек - небезосновательно. А точнее, слияние нескольких способов исследования в один. Вот и шумит Пуассон в одномоментом срезе.

По большому счету, мне все равно, как будут изучаться эти данные. Не моя зона ответственности. Мне было интересно понять эти данные.

И похоже, у - да, индикатор (прогностический показатель), только для x1>8.

Р.S.
Надо сменить подпись "Это не кованализ smile.gif "

Автор: DrgLena 10.01.2010 - 17:50

Цитата(Green @ 7.01.2010 - 16:42) *
И Вы, думаю, прекрасно отличаете Prospective or Cohort study , Retrospective or Case-Control Study, Experimantal Studies or Randomized Clinical Trials.

Хорошо, чтобы и для Вас это не был набор слов.
Цитата(Green @ 10.01.2010 - 12:08) *
О рандомизации, зачем она нужна. Это из собственного понимания.

Вы привели понятие, что такое лечение по протоколу, но это не относится к понятию рандомизация при проведении клинических исследований сравнения нескольких методов лечения, это отдельная тема, и на форуме и в инете много на эту тему написано, и медики как раз это понимают и различают методы рандомизации.
Цитата(Green @ 7.01.2010 - 16:42) *
2. DrgLena, Вам , как медику, тем более понятно, когда и зачем нужна рандомизация. (я с нее и начинала анализ данных Pinus) - это требование ковариационного анализа. Хотите Вы того, или нет. А в Ваших данных этого нет.

Вот это не понятно, чего нет в моих данных, однородности по ковариатам или рандомизации.
Ковариационный анализ мне нужен был только для того, чтобы определить, есть ли из 4 показателей У такие, которые различаются в группах F=0 и F=1 при согласованной с возрастом и стажем диабета оценке. И это кованализ. Вы хотите сказать, что если группы F=0 и F=1 различаются по возрасту и стажу СД, то не корректно проводить ков. анализ. Именно поэтому я провожу не дисперсионный, а ковариационный анализ.
А дальше, если интересно, то стаж диабета более 7 лет, возраст старше 46 лет и У<= 1,43 могут рассматриваться как повышающие шансы иметь F=1. А дальше, продолжение следует.

Автор: Green 11.01.2010 - 11:47

DrgLena,
пойдем по порядку и медленно. Я Вам обещаю, что покажу, расскажу, и мы проясним ситуацию, как для Вас, так и для меня.
Итак,

У Вас рассматривались 2 группы:
1. Событие "сопутствующее заболевание" наступило
2. Событие "сопутствующее заболевание" не наступило (и возможно не наступит).

Можно так сказать? да или нет?

Р.S. про протоколы и применение в них рандомизации я рассказала для примера, чтобы nokh немного "проникся". Что это не только здравый смысл, как он написал, но и четкая процедура, необходимая для....

Автор: DrgLena 11.01.2010 - 13:27

К сожалению, я не могу сейчас выделить достаточно времени, чтобы медленно ходить по кругу.

Автор: Green 11.01.2010 - 14:03

раз есть время заглядывать на форум...
Тогда я быстро.

Цитирую nokh, ковариационный анализ.pdf

Требования модели ковариационного анализа: (1) ошибки нормально распределены,
(2) дисперсия ошибок однородна (ошибки гомоскедастичны), (3) зависимость отклика от
количественных предикторов линейна,
(4) линейные зависимости на разных уровнях
факторов имеют одинаковый наклон.
Жирным выделен, то что не соблюдается у Вас.

Где у Вас в модели линейная зависимость у от х1 ?

Я Вам нарисовала Вашу "линейную зависимость". Смотрите. Что по группе 1, что по группе 0.

Это прямая ? Это похоже на прямумю линию? Это можно аппроксимировать прямой линией?



Вы собрали данные для одной модели исследования, потом попытались "запихать" их в другую. Они "зашумели".
Я попыталась объяснить Вам, но, когда пошли вопросы по существу Ваших данных, Вы уходите в кусты.

Да, Вам понравился кованализ. Но это не повод пихать его куда попало.

Автор: Green 11.01.2010 - 16:02

Правильно ли я понимаю, что "стаж диабета более 7 лет, возраст старше 46 лет и У<= 1,43 могут рассматриваться как повышающие шансы иметь F=1. "

Надо рассчитать отношение шансов?

тогда:

наличие трех признаков это новый признак?

составляем табличку 2x2 из представленных данных

34......9
150....169


оцениваем шансы:
(34*169)/(150*9)=4,26

-----------
А если признак стаж диабета более 7 лет и возраст более 30 лет

120....41
64....137
(120*137)/(64*41)=6,27

Или я не так считаю шансы? Или кованализ это круто....





Автор: DrgLena 11.01.2010 - 18:45

Можно и так. Я сделала логистическую регрессию с тремя количественными предикторами. ПО расчетному значению "р" - выделила 4 группы риска по сочетанию этих предикторов.
Через час поезд в Карпаты, потому времени нет увидеть продолжение ...

Автор: Green 13.01.2010 - 16:12

Я ее тоже делала frown.gif

F=b1*x1+b2*x2+b3*y+b4

У меня получились такие значимые коэффициенты

b1=-0,086887
b2=-0,032111
b3=0,721294



Тогда сделалa full fraction
dur - это длительность x1
age - это возраст x2

Приведены значения p

dur 0,251336
age 0,573126
y 0,175546
dur*age 0,623894
dur*y 0,607620
age*y 0,141068
dur*age*y 0,942329



Убрала часть эффектов
в результате получилось при значимом р



dur -0,247173
y 2,657539
dur*age 0,003044
age*y -0,037909




Вопросы: Отсюда как группу риска достать?
Вы же ищите прогностические факторы? или все-таки факторы риска?

--------
Если на отдых, то приятного:)

Автор: nokh 21.01.2010 - 23:33

Цитата(Green @ 10.01.2010 - 14:08) *
nokh,
У Pinus на представленных данных есть все возраста. Правда, в группе z1 есть есть 50-55 лет,которые не представлены в z2.
Но выборка достаточно большая, поэтому ничего особенного.
Теперь, предположим маргинальный случай.
из z1 возьмем данные 40-55 лет,
из z2 - от 15 до 19. ...
... Поэтому прошу подкорректировать Ваше мнение о рандомизации.

Отношение к рандомизации у меня прежнее: ставишь эксперимент - рандомизируй что не можешь/хочешь контролировать (сейчас в зависимости от дизайна исследования разработаны типовые процедуры рандомизации). Если собираешь данные в природе - контролируй потенциальные мешающие факторы. Рандомизация возможна и в случае Pinus для сведения к минимуму различий в почве, освещённости, влажности и т.п. экологическим факторам. Как вариант - определить направления в посадках и исследовать только деревья по таблице случайных чисел. Но я боюсь, что для увеличения объёма выборки исследовались все объекты, а тогда и простенькая рандомизация невозможна.

Идею, которую Вы доносили в рисунках понял. Полностью согласен. Выходит, что действительно ковариационный анализ нужно начинать именно с проверки сопоставимости выборок по величине ковариаты. И как раз здесь, врачи обычно очень педантичны: проверка сопоставимости выборок по полу, возрасту и др. важным в исследовании показателям в ретроспективных исследованиях является необходимым условием последующих сравнений по исследуемым факторам.

Автор: Pinus 22.01.2010 - 00:55

Цитата(nokh @ 22.01.2010 - 06:33) *
Но я боюсь, что для увеличения объёма выборки исследовались все объекты...
Так и есть. Просто сначала не было гарантии, что вообще можно будет приемлемые выборки набрать. Так же было мнение, что в разных типах посадок параметры роста будут отличаться, что тоже толкало на увеличение массива наблюдений. Выборка не совсем сплошная. На территориях военных ведомств не удалось померить.

Цитата(nokh @ 22.01.2010 - 06:33) *
Выходит, что действительно ковариационный анализ нужно начинать именно с проверки сопоставимости выборок по величине ковариаты.

Если зависимость прямолинейная (не спрямленная, а изначально прямая), как можно выйти из положения? Если обрезать длинный хвост (со значениями ковариаты, отсутствующими для других зависимостей) и сравнить значимость различий регрессий по таким усеченным выборкам. А потом сделать сравнение регрессий с первоначальными выборками и посмотреть различаются ли результаты?
Какие существуют обоснованные подходы для преодоления разбалансированности? Есть ли какие-либо придержки для оценки степени разбалансированности? Ведь одинаковые по ковариате выборки получаются только при контролируемом эксперименте. В случае наблюдений часто сначала даже нельзя предположить, какой будет размах той или иной переменной в разных сравниваемых группах. По идее должны существовать какие-то стандартные подходы для преодоления этой проблемы. Вообще насколько значительны нарушения при несоответствии по величине ковариаты?
Где об это можно почитать (вопрос в т.ч. и к Green)?


Автор: Pinus 22.01.2010 - 02:24

Попутно возникла идея. Когда разбирали тему выбросов и влияющих наблюдений, там была мера DFBETAS для оценки степени влияния i-го наблюдения на параметры регрессии. Посмотрел формулы, что нам мешает применить эту меру для оценки степени влияния не одного, а одновременно нескольких наблюдений? Тогда подход такой (для линейной регрессии): усекаем выборку до пределов значения ковариаты, соответствующих другим сравниваемым регрессиям. Проверяем мерой DFBETAS значимость изменения параметров регрессии. Если влияние несильное, делаем ANCOVA (можно и по усеченной выборке, и по первоначальной для сравнения). Как думаете?

Автор: Green 5.02.2010 - 21:34

Доброго времени суток. Прошу прощения за долгое отсутствие.
Попробую ответить сразу для nokh и Pinus.

>какие-то стандартные подходы для преодоления этой проблемы
>ставишь эксперимент - рандомизируй что не можешь/хочешь контролировать (сейчас в зависимости от дизайна исследования разработаны типовые процедуры рандомизации)

Pinus, Ваш вопрос больше адресуется к постановке эксперимента. Т.е. должен быть продуман дизайн эксперимента.
Есть типовые дизайны экспериментов (не только процедуры рандомизации).

>Ведь одинаковые по ковариате выборки получаются только при контролируемом эксперименте.
"Одинаковые" - немного не то слово. Взяты из одной генеральной совокупности, принадлежащие одной популяции, скорее так правильнее.

> . В случае наблюдений часто сначала даже нельзя предположить, какой будет размах той или иной переменной в разных сравниваемых группах
Не путайте зависимые и независимые переменные.
Опять же, начнем "от печки".
В случае регрессии: есть независимые переменные ( которые контролирует исследователь и даже может задавать) и зависимая переменная ( которую он не контролирует, а только измеряет при некоторых значениях X). Пусть независимая переменная одна. Для регрессии - это ось Х. Поставьте эксперимент таким образом, чтобы данные по оси Х - принадлежали одной выборке. В случае с ирисками - Х это было время рассасывания контрольной ириски неким субъектом.

Но если бы ставили эксперимент с ирисками, где часть субъектов были обычные люди, а часть... ну, к примеру с нарушением слюноотделения... и их свалили в одну кучу, имхо, это было бы неверным экспериментом для сравнения скорости рассасывания различных ирисок. Но для изучения нарушения слюноотделения по скорости рассасывания одного типа ирисок - возможно, только - это не кованализ:)

------
Ковариационный анализ был в первую очередь разработан для устранения конфаундеров. Идея удалять регрессию с помощью кованализа мне не принадлежит. В Вашем случае с деревьями... я писала, что возраст ( ось X) у вас рандомный в обеих группах. В средних нет различия. Там мне не нравилась другая идея, о параллельности. Ведь эффект способа посадки должен накапливаться во времени. А это и значит, что не могут они быть параллельными... как-то так...
--------
Я придерживаюсь идеи, которую сама себе назвала "follow the data".
Мне на анализ иногда попадают данные из не очень продуманных экспериментов. И, тогда я думаю, какие методы анализа тут можно использовать, что можно вытянуть из данных. Что допустимо, что нет, что имеет смысл, объяснение, а что нет.

Например, мысль о том, что фактор "накапливается" во времени приводил к мысли, что параллельность линий регрессии - это неправильная посылка, т.е. кованализ туда не пойдет. Потом пролистала книги, нигде в кованализе по оси Х не идет возраст.
В эпидемиологических исследованиях возраст стратифицируется, например.
Время - вообще "отдельная" категория, есть спецметоды для исследования изменений во времени.

Т.е. если понять данные, то найдется адекватный способ анализа. Нельзя использовать методы, видя перед собой только цифры.

> Попутно возникла идея.

Я уже писала для nokh, повторю.

Идея кованализа в том, что отрезок (кусочек прямой линии, линии регрессии) заменяется точками (средними) с координатами по оси Х и Y, и при одинаковых х начинают различаться y ( или не различаются).
"х одинаковы" это условно одинаковы, точнее неразличимы, ибо данные для расчета x взяты рандомно из одной генсовокупности.
Замена линии (у которой уравнение) точкой (у которой координата x,y).
Надеюсь, что понятно написала.
Это грубое изложение, но я постаралась передать суть. Посмотрите рисунки выше.

Если Вы рассчитали средние по одним данным, потом заменяете их другими? Подумайте, что получится?

Автор: Pinus 6.02.2010 - 01:20

Green, Ваша идея про то, что в сравниваемых регрессиях должны быть примерно равны размахи предиктора, мне понятна, и я с ней тоже согласен. Что касается планируемого эксперимента, то в моем случае это организовать вряд ли возможно. Приходится довольствоваться выборочными методами пассивного наблюдения (измерения) и соответственно получать то, что есть, а не то, чего бы хотелось.
Нашел еще один источник на русском с главой по ANCOVA: Джонстон Дж. Эконометрические методы / Пер. с англ. ? М.: Статистика, 1980. ? 444 с. (есть в сети)
Для обсуждения вопросов сравнения нелинейных регрессий приглашаю в тему ?Нелинейная регрессия?.

Автор: Игорь 6.02.2010 - 13:36

Цитата(Pinus @ 6.02.2010 - 02:20) *
... вопросов сравнения нелинейных регрессий ...

Для этой задачи можно применить ковариационный анализ.

Автор: Pinus 6.02.2010 - 13:42

Цитата(Игорь @ 6.02.2010 - 20:36) *
Для этой задачи можно применить ковариационный анализ.

Для нелинеаризуемых? Как?

Автор: Игорь 6.02.2010 - 20:13

Цитата(Pinus @ 6.02.2010 - 13:42) *
Для нелинеаризуемых? Как?

Примерно так:

Dette H., Neumeyer N. Nonparametric analysis of covariance // The Annals of Statistics, 2001, vol. 29, no. 5, pp. 1361-1400. Есть в Интернете. http://projecteuclid.org/euclid.aos/1013203458

Olejnik S.F., Algina J. A Review of Nonparametric Alternatives To Analysis of Covariance // Evaluation Review, 1985, vol. 9, no. 1, pp. 51-83. Есть в Интернете. http://www.eric.ed.gov/ERICDocs/data/ericdocs2sql/content_storage_01/0000019b/80/38/a6/39.pdf

Olejnik S.F., Algina J. Parametric ANCOVA vs. Rank Transform ANCOVA when Assumptions of Conditional Normality and Homoscedasticity Are Violated // the Annual Meeting of the American Educational Research Association (67th, Montreal, Quebec, April 11-15, 1983). http://www.eric.ed.gov/ERICDocs/data/ericdocs2sql/content_storage_01/0000019b/80/31/e5/2b.pdf

Edwards L. Applied Analysis of Variance in Behavioral Science / Ed. by L. Edwards. - New York, NY: Chapman & Hall/CRC, 1993. Есть в Интернете (полную версию надо искать smile.gif, в Гугле - интересующий параграф 3.3.3. имеется)

Vickers A.J. Parametric versus non-parametric statistics in the analysis of randomized trials with non-normally distributed data // BMC Medical Research Methodology, 2005, 5:35. Есть в Интернете. http://www.biomedcentral.com/1471-2288/5/35

Porter A.C., McSweeney M. Comparison of Rank Analysis of Covariance and Nonparametric Randomized Blocks Analysis // The Annual Meeting of the American Educational Research Association, New York, New York, February 1971. Есть в Интернете. http://www.eric.ed.gov/ERICDocs/data/ericdocs2sql/content_storage_01/0000019b/80/39/98/ba.pdf

Conover W.J., Iman R.L. Analysis of covariance using the rank transformation // Biometrics, September 1982, vol. 38, no. 3, pp. 715-724. В Интернете есть, но авторы хотят денег.

Puri M.L., Sen P.K. Analysis of Covariance Based on General Rank Scores // The Annals of Mathematical Statistics, 1969, vol. 40, no. 2, pp. 610-618. Есть в Интернете. http://projecteuclid.org/euclid.aoms/1177697729

Во-вторых, если регрессии одного параметрического семейства и для параметров регрессий вычислены как точечные оценки, так и дисперсии, то можно сравнить их (параметры) по Стьюденту. Это идея тем более обоснованна, если параметры допускают физическую интерпретацию. Могу ошибаться, но представляется, что сравнить физические параметры процессов интереснее, чем некие абстрактные наборы данных, не допускающих осмысленной интерпретации.

Автор: Pinus 7.02.2010 - 00:50

Да.... Наша отечественная литература по статистике не просто в хвосте у Запада, а в самой натуральной з-це (извиняюсь). В последнее время, чем больше узнаю, тем больше меня как-то придавливает. Английский неизбежен....
Спасибо, Игорь, за ссылки и за мысль про сравнение параметров по Стьюденту. Как-то это уже несколько раз звучало, но все как-то не доходило. Подумаю, почитаю.

Автор: Green 7.02.2010 - 14:11

Pinus, осмелюсь Вам дать совет.

У Вас прикладная задача - табулировать данные о росте различных растений в различных условиях.
Для решения таких задач я бы использовала демографическую (эпидемиологическую) аналитическую статистику.
Возраст стратифицируется (диаграмма Лексиса). Далее рассчитываются характеристики страт. Сравниваются, анализируются и проч.
Аналогично этот аппарат можно положить на Вашу задачу. С другими стратами, без учета естественного выбывания и проч.

Поскольку Вы все далее идете в более сложные аспекты анализа, смею заметить, только математика не сможет решить проблему. Прикладные работы, как правило, делаются на простых моделях.

Но это только мое мнение.




Автор: Игорь 8.02.2010 - 09:01

Цитата(Pinus @ 7.02.2010 - 00:50) *
Да.... Наша отечественная литература по статистике не просто в хвосте у Запада, а в самой натуральной з-це (извиняюсь). В последнее время, чем больше узнаю, тем больше меня как-то придавливает. Английский неизбежен....
Спасибо, Игорь, за ссылки и за мысль про сравнение параметров по Стьюденту. Как-то это уже несколько раз звучало, но все как-то не доходило. Подумаю, почитаю.

Еще немного ссылок:
Quade D. Rank analysis of covariance // Journal of the American Statistical Association, 1967, vol. 62, pp. 1187-1200.

Quade D. Nonparametric analysis of covariance by matching // Biometrics, 1982, vol. 38, pp. 597-611.

Lawson A. Rank analysis of covariance: Alternative approaches // Journal of the Royal Statistical Society. Series D (The Statistician), September 1983, vol. 32, no. 3, pp. 331-337.

Amini S.B., Woolson R.F. Rank covariance methods for the analysis of survival data // Biometrical Journal, 18 January 2007, vol. 33, issue 4, pp. 429-439.

Ramaswamy R., Koch G.G., Amara I.A. Application of rank analysis of covariance methods to analysis of multiple anatomical regions with treatment for seborrheic dermatitis // Journal of Biopharmaceutical Statistics, 1997, vol. 7, issue 3, pp. 403-416.

Adichie J.N. Ranking in analysis of covariance tests // Communications in Statistics - Theory and Methods, 1975, vol. 4, issue 9, pp. 883-890.

Conover W.J., Iman R.L. Analysis of covariance using the rank transformation // Biometrics, September 1982, vol. 38, no. 3, pp. 715-724.

Gary G. A review of some statistical methods for covariance analysis of categorical data / G. Gary, G.G. Koch, I.A. Amara et al. // Biometrics, September 1982, vol. 38, no. 3, Special Issue: Analysis of Covariance, pp. 563-595.

К сожалению, все они недоступны без денег, а авторы не стремятся выложить их на свои сайты (есть информация, что это требование издательств). Есть еще вариант загрузки статей через службу типа JSTOR, но к ней подключены только некоторые университеты (Москва, СПб). Поэтому большинству исследователей статьи недоступны.

Основные источники - это Puri с соавт. и Dana Quade, которая, как считается, первой предложила непараметрический ANCOVA. Тут такая ситуация. По статьям родоначальников метода сделать работающий алгоритм, как правило, не представляется возможным. Они содержат идеи. Нужен некоторый промежуточный слой теоретических и практических исследований (примеров применения), чтобы метод получил широкое употребление в массах. Поэтому, скажем, обзорная статья малоизвестного автора из периферийного университета оказывается более ценной для нас, чем оригинальная работа.

Автор: Pinus 8.02.2010 - 11:23

Цитата(Игорь @ 8.02.2010 - 16:01) *
Поэтому, скажем, обзорная статья малоизвестного автора из периферийного университета оказывается более ценной для нас, чем оригинальная работа.

Игорь, а которая из них "малоизвестного автора из периферийного университета" (более ценная для практического применения)? Чтоб наверняка, по-меньше маяться с переводом.

Автор: Игорь 8.02.2010 - 11:41

Цитата(Pinus @ 8.02.2010 - 12:23) *
Игорь, а которая из них "малоизвестного автора из периферийного университета" (более ценная для практического применения)? Чтоб наверняка, по-меньше маяться с переводом.

Совершенно очевидно, что не классики и не монографии. А Dette с соавт. и Olejnik с соавт. Это из того, что есть в свободном доступе.

Хотелось бы, конечно, современных классиков посмотреть - Conover с соавт. (особенно!) и Quade. Но на них денег нет (точнее - жалко). Если найдете - поделитесь, пожалуйста.

Вы собираетесь переводить? А зачем терять время? Все учили английский, сдавали экзамены и кандидатский минимум? Ну вот - есть возможность практически проявить подтвержденные высокими оценками навыки (мне лично, учившему немецкий и не особо обремененному способностями к языкам, без всякой практики, лет 20 назад хватило 2-месячных курсов английского, чтобы с тех пор понимать смысл статей по интересующим тематикам). Чтобы понять десяток формул с пояснениями, переводить статью нет необходимости.

Автор: Green 8.02.2010 - 22:18

Игорь, Вы, отвечая на вопрос о нелинейных регрессиях, перешли к литературе о непараметрических моделях. Это одно и тоже? Я полагала, что нелинейные и непараметрические - это разные вещи. Не так?

Автор: Игорь 9.02.2010 - 07:03

А это вообще странная тема.

Цитата(Green @ 8.02.2010 - 22:18) *
Игорь, Вы, отвечая на вопрос о нелинейных регрессиях, перешли к литературе о непараметрических моделях. Это одно и тоже? Я полагала, что нелинейные и непараметрические - это разные вещи. Не так?

Не одно и то же. Нелинейная модель - параметрическая. Вы невнимательно прочитали вопрос:
Цитата(Pinus @ 6.02.2010 - 14:42) *
Для нелинеаризуемых? Как?

Если у Вас есть идентифицированная нелинейная модель, ничто не мешает использовать преобразования данных для ее "спрямления". Pinus же пишет "нелинеаризуемых". Могу предположить, что имелись в виду данные, для которых не удалось подобрать никакую параметрическую модель. Следовательно, обращаемся к непараметрике.

Ну вот, нашел работу Conover и Iman (парадокс, но не в Интернете, а в закоулках своих архивов). Как и ожидалось - это [методически] лучший источник по теме. Без излишних обобщений, просто, понятно и с примерами. Жалко, монографию Conover в свое время не перевели - многих томов (особенно, отечественных) она стоит. Да и оригинальной в электронном виде нет, что еще хуже.

Автор: Green 9.02.2010 - 16:55

Игорь, спасибо, понятно. Pinus сначала написал о нелинейной регрессии и вы ему отвечали, потом о нелинеаризуемой. (конец сообщения 157, сообщение 158 и 159 в этой теме). Я разницу понимаю. Надеюсь, Pinus тоже.
-----
Вам в копилку, если не имеете
Анатольев.С. Непараметрическая регрессия. 2009, Квантиль, ?7, стр 37-52.

Лежала в Инете, сейчас не знаю.

----------
И все-таки еще раз внимательно посмотрела весь диалог.
Линейная регрессиия - это понятно
Нелинейная -понятно
Нелианеризуемая - невозможно представить линейной.
Но кто мешает оценить параметры?
Нелинейная параметрическая - почему нет?
Нелинеаризуемая параметрическая - почему нет?

Непараметрическая - вот к ней неприменимо любое слово, ни слово "линейная" ни слово "нелинейная".
Что я не так сказала?

Автор: Игорь 9.02.2010 - 18:03

Цитата(Green @ 9.02.2010 - 16:55) *
Лежала в Инете, сейчас не знаю.

И сейчас лежит, ибо сетевой журнал "Квантиль" распространяется бесплатно. http://quantile.ru/07/07-SA.pdf В журнале и еще много чего интересного есть.

Выше в теме подробно обсуждался ANCOVA. Еще источник попался: Монтгомери Д.К. Планирование эксперимента и анализ данных. - Л.: Судостроение, 1980, вся гл. 15. Есть в Интернете.

Автор: Pinus 10.02.2010 - 12:26

Цитата(Игорь @ 9.02.2010 - 14:03) *
Если у Вас есть идентифицированная нелинейная модель, ничто не мешает использовать преобразования данных для ее "спрямления". Pinus же пишет "нелинеаризуемых". Могу предположить, что имелись в виду данные, для которых не удалось подобрать никакую параметрическую модель. Следовательно, обращаемся к непараметрике.

Игорь, под нелинеаризуемыми я имел ввиду функции, которые нельзя привести к линейному виду.
Просто под нелинейными регрессиями часто понимают разное, и встречал, что авторы уточняют, что они имеют ввиду. Например, есть источники (тот же Ферстер с соавт.), в которых линейные - это прямолинейные, а нелинейные делятся на два класса: квазилинейные (которые путем преобразований или введением фиктивных переменных можно привести к прямолинейному виду) и нелинеаризуемые (которые путем математических действий не поддаются линеаризации). Для нахождения оценок параметров нелинеаризуемых регрессий используют различные итерационные методы. То есть получается, что эти методы можно называть непараметрическими?

Автор: Pinus 10.02.2010 - 12:50

Цитата(Игорь @ 8.02.2010 - 18:41) *
Вы собираетесь переводить? А зачем терять время? Все учили английский, сдавали экзамены и кандидатский минимум? Ну вот - есть возможность практически проявить подтвержденные высокими оценками навыки (мне лично, учившему немецкий и не особо обремененному способностями к языкам, без всякой практики, лет 20 назад хватило 2-месячных курсов английского, чтобы с тех пор понимать смысл статей по интересующим тематикам). Чтобы понять десяток формул с пояснениями, переводить статью нет необходимости.

Английский учил конечно, но как-то особо неблистал? Определенные навыки конечно остались, но словарный запас желает быть лучше. Курсы и кандидатский минимум еще предстоят, а вступительные в аспирантуру не сдавал, поскольку свободно соискательствую. Сразу с листа понимать не получается, в т.ч. справки по разным программам. Поэтому определенные затраты времени неизбежны. Конечно речь не идет о книгах, просто отдельные важные куски и, конечно, при помощи программ-переводчиков.

Автор: bubnilkin 26.05.2010 - 09:55

Подскажите, пожалуйста, почему получаются разные разультаты между Фридманом и Вилкоксоном? (Группы связанные, считал с поправкой Бонферрони, т.е. для каждого из 10 возможных попарных сравнений установил p < 0.005)

заранее спасибо

Автор: Pyrosmani 26.05.2010 - 14:48

Цитата(bubnilkin @ 26.05.2010 - 10:55) *
Подскажите, пожалуйста, почему получаются разные разультаты между Фридманом и Вилкоксоном? (Группы связанные, считал с поправкой Бонферрони, т.е. для каждого из 10 возможных попарных сравнений установил p < 0.005)

заранее спасибо


Может разница обусловлена условиями применимости каждого из методов?

http://www.matlab.mgppu.ru/work/0014.htm
http://www.matlab.mgppu.ru/work/0022.htm


книга
http://noleex.ru/

главы
http://noleex.ru/0041.htm
http://noleex.ru/0042.htm

ссылка на руководство по СПСС, где тоже указывается, что есть различия по значимости при использовании Вилкоксона и Фридмана http://lib.socio.msu.ru/l/library?e=d-000-00---001ucheb--00-0-0-0prompt-10---4------0-1l--1-ru-50---20-help---00031-001-1-0windowsZz-1251-10&cl=CL1&d=HASH0118d87e3e3c4a2c03c5b7f3.6&x=1 но нет ответа чем они обусловлены

Лучше если Вам ответит кто-нибудь из наших гуру, я как и вы только осваиваю статистику поэтому могу ошибаться.

Автор: nokh 26.05.2010 - 22:04

Цитата(bubnilkin @ 26.05.2010 - 12:55) *
Подскажите, пожалуйста, почему получаются разные разультаты между Фридманом и Вилкоксоном? (Группы связанные, считал с поправкой Бонферрони, т.е. для каждого из 10 возможных попарных сравнений установил p < 0.005)
заранее спасибо

Методы разные - разные и результаты. Пакеты могут эту разницу усиливать, т.к. в случае Фридмана использовать аппроксимацию хи-квадратом, а в случае Вилкоксона для разностей пар - t-критерием, что не является правильным для столь малых выборок. Но и в этом случае различия двух методов не должны быть сильными. Например, в паре (1-2) Фридман даёт P=0,005, Вилкоксон P=0,013; для (1-3) это 0,059 и 0,042; для (2-4) это 0,257 и 0,171. Очень близко! Поправка Боферрони итак очень консервативна, а на столь малой выборке вообще всё на нет сводёт. Если использовать непараметрику, то я бы для Ваших данных использовал только Фридмана для всего набора данных - колоссальная значимость различий: P=0,00008. По средним рангам видно где и насколько лучше. Построить соответсвующий график. Если очень нужно попарно сравнить - не обязательно ведь проводить все возможные сравнения, я бы делал упор только на доказательстве эффективности веществ А и В.

Автор: bubnilkin 6.06.2010 - 10:37

Pyrosmani, спасибо за ссылки smile.gif
nokh, спасибо за разъяснения smile.gif

Цитата(nokh @ 26.05.2010 - 23:04) *
в случае Фридмана использовать аппроксимацию хи-квадратом, а в случае Вилкоксона для разностей пар - t-критерием, что не является правильным для столь малых выборок.

nokh, а что вы посоветуете вместо Фридмана и Вилкоксона?

График строить по средним рангам или по медианам? Что нужно поставить в ДИ (размах или квартильный размах)?


Можно ли использ. разные методы контроля ошибки 1 рода в одной cтатье?

заранее спасибо

Автор: nokh 6.06.2010 - 18:51

Цитата(bubnilkin @ 6.06.2010 - 13:37) *
nokh, а что вы посоветуете вместо Фридмана и Вилкоксона?

Да, в принципе, и они нормально. Можно сделать дисперсионный анализ с повторными измерениями, но попарные сравнения внутри дисперсионного комплекса провести не получится, т.к. выборки зависимые, а измерения в каждой точке проводились однократно - ошибку выразить нельзя. Поэтому для попарных сравнений и после дисп. анализа придётся прибегать к другим методам. Т.е. в данном случае такой вариант будет не лучше непараметрики, но оставляет вопросы по поводу нормальности распределения показателей.
Цитата(bubnilkin @ 6.06.2010 - 13:37) *
График строить по средним рангам или по медианам? Что нужно поставить в ДИ (размах или квартильный размах)?

Мы сравниваем средние значения, не так важно на что при этом опирается критерий - на ранги, медианы или что-то ещё. Думаю, нужно дать обычный коробчатый график - см. ниже.
Цитата(bubnilkin @ 6.06.2010 - 13:37) *
Можно ли использ. разные методы контроля ошибки 1 рода в одной cтатье?

Это будет выглядеть несколько вычурно, хотя встречал в литературе, что люди дублируют статпроверку для пущей убедительности. Для меня такое дублирование свидетельствует, как правило, не о продвинутости автора в статистике, а о его неумении обоснованно выбрать единственный оптимальный в данном конкретном случае стат. критерий. Иногда это вообще сильно бросается в глаза - автор просто даёт всё подряд, что содержится в отчёте статпакета.

Если бы я делал такой анализ в отчёт - ограничился бы рисунком, куда-то посерьёзнее - делал бы Фридмана и Вилкоксона + рисунок. В особо важном случае преобразовал бы данные по Боксу-Коксу, провёл дисп. анализ с повторными измерениями, попарные сравнения сделал бы парным критерием Стьюдента, а поправку на множественность сравнений провёл бы последовательной техникой Бонферрони (метод Данна-Шидака). После расчёта средних и 95%-ных ДИ для преобразованных по Боксу-Коксу данных ретрансформировал бы их обратно к исходной шкале (ДИ станут асимметричными) и это показал бы на графике.


 

Автор: bubnilkin 22.07.2010 - 08:15

nokh, я вам благодарен за исчерпывающий ответ smile.gif!

а скажите, пожалуйста, эту процедуру можно применить для процентных данных (проценты выражают число клеток)?

нужно ли отображать первоначальные (полученные в результате эксперимента, т.е. нетрансформированные) данные на диаграмме с обратно-трансформированными средними и их ДИ? или это ненужные излишества?

Автор: nokh 6.08.2010 - 13:24

Цитата(bubnilkin @ 22.07.2010 - 11:15) *
а скажите, пожалуйста, эту процедуру можно применить для процентных данных (проценты выражают число клеток)?

Преобразование Бокса-Кокса является лучшим из семейства степенных преобразований (power transformation). Для процентов применяются преобразования из другого семейства - угловые преобразования. Наиболее известное - фи-преобразование y=2arcsin (sqrt(p)). где p - частота (например клеток) в долях единицы. Описано с выводом в Хальд - Математическая статистика, детали в Большев, Смирнов - Математико-статистические таблицы ... и в Урбах - Биометрические методы... Более мощное угловое преобразование - преобразование Фримана-Тьюки (Freeman-Tukey transformation). Для него встречал несколько отличающихся формул.
Цитата(bubnilkin @ 22.07.2010 - 11:15) *
нужно ли отображать первоначальные (полученные в результате эксперимента, т.е. нетрансформированные) данные на диаграмме с обратно-трансформированными средними и их ДИ? или это ненужные излишества?

Т.к. средние значения и ДИ правильны только для ретрансформированных данных - их и нужно приводить. Для угловых преобразований ДИ также будут асимметричными, особенно вблизи 0 и 1 (0 или 100%).

Автор: Pinus 15.08.2010 - 16:29

Попалась книжка: Любищев А.А. Дисперсионный анализ в биологии, 1986. Она конечно старая (автор почил в 1972 г.), но вот высказывается мысль, что есть методы применения параметрического ANCOVA в случае нелинейных регрессий. Где об этом можно почитать и в каком софте это реализовано?

Плав, зимой в этой теме (Непараметрическая статистика) неудачно стали обсуждать ковариационный анализ (со стр. 2). Может быть есть смысл перенести этот материал в новую отдельную тему?

Автор: bubnilkin 18.08.2010 - 06:52

уважаемый nokh, спасибо за ответы!

извините за назойливость.... подскажите, пожалуйста, а как быть со статанализом, если данные в виде ПРОЦЕНТОВ, а дизайн -- тот же? Вы рассказали про угловые преобразования..., а дальше делать также как описано (?):

1) угловое преобразование
2) дисп. анализ с повторными измерениями (RM ANOVA)
3) попарные сравнения парным критерием Стьюдента + поправка на множественность сравнений техникой Бонферрони (например, метод Данна-Шидака)
4) расчёт средних и 95%-ных ДИ для преобразованных по Фриману-Тьюки данных
5) ретрансформация их к исходной шкале (ДИ станут асимметричными)
6) диаграмма (M+/- 95CI%).

заранее благодарю

Автор: bubnilkin 30.08.2010 - 07:05

SOS! подскажите, прошу weep.gif

Автор: nokh 30.08.2010 - 14:36

Цитата(bubnilkin @ 30.08.2010 - 10:05) *
SOS! подскажите, прошу weep.gif

Цитата(bubnilkin @ 18.08.2010 - 09:52) *
уважаемый nokh, спасибо за ответы!
извините за назойливость.... подскажите, пожалуйста, а как быть со статанализом, если данные в виде ПРОЦЕНТОВ, а дизайн -- тот же? Вы рассказали про угловые преобразования..., а дальше делать также как описано (?):
1) угловое преобразование
2) дисп. анализ с повторными измерениями (RM ANOVA)
3) попарные сравнения парным критерием Стьюдента + поправка на множественность сравнений техникой Бонферрони (например, метод Данна-Шидака)
4) расчёт средних и 95%-ных ДИ для преобразованных по Фриману-Тьюки данных
5) ретрансформация их к исходной шкале (ДИ станут асимметричными)
6) диаграмма (M+/- 95CI%).
заранее благодарю

Как-то пропустил вопрос... Да, всё так, кроме попарных сравнений Стьюдентом - для post-hoc сравнений много других методов (описывал в соседней теме - см. http://forum.disser.ru/index.php?showtopic=2518&pid=10349&st=15&#entry10349 сообщение #16). Выводы о статистически значимых эффектах делаются по таблице результатам анализа с преобразованными данными. Но если на рисунке Вы хотите давать непреобразованные проценты (пункт 6) - его придётся строить вручную (программы такого не сделают): т.е. вносить средние и ДИ к ним, при желании соединять точки линиями для получения профилей (как делает Statistica по умолчанию). Для построения таких графиков лучше воспользоваться программой KyPlot, обсуждали её здесь: http://forum.disser.ru/index.php?showtopic=2496&hl=KyPlot , скачать можно здесь: http://freestatistics.altervista.org/en/stat.php.

Автор: bubnilkin 1.06.2011 - 15:22

Цитата(nokh @ 6.08.2010 - 13:24) *
Преобразование Бокса-Кокса является лучшим из семейства степенных преобразований (power transformation). Для процентов применяются преобразования из другого семейства - угловые преобразования. Наиболее известное - фи-преобразование y=2arcsin (sqrt(p)). где p - частота (например клеток) в долях единицы. Описано с выводом в Хальд - Математическая статистика, детали в Большев, Смирнов - Математико-статистические таблицы ... и в Урбах - Биометрические методы... Более мощное угловое преобразование - преобразование Фримана-Тьюки (Freeman-Tukey transformation). Для него встречал несколько отличающихся формул.

Т.к. средние значения и ДИ правильны только для ретрансформированных данных - их и нужно приводить. Для угловых преобразований ДИ также будут асимметричными, особенно вблизи 0 и 1 (0 или 100%).


спасибо за ответ smile.gif

я воспользовался Freeman-Tukey: y=sqrt(x)+sqrt(x+1).
(на вики (http://en.wikipedia.org/wiki/Anscombe_transform) -- эта формула, в статье (http://www.jstor.org/pss/2236611) -- есть ещё одна... но выбрал эту т.к. в статье написано, что (вроде) применима к данным с распределением Пуассона. а раз мы считаем (клетки), то я решил взять эту формулу. это правильно?
хотя опять-таки: данные я проверял на нормальное распределение, а не на распределение Пуассона...
как тут всё состыковать не пойму. подскажите?)

как я делал
шапиро показал "ненормальность"
Freeman-Tukey: y=sqrt(x)+sqrt(x+1), где x -- это процентные значения (а не доли единицы) (верно?)
получил транформированный ряд. тестировал на нём H0: проверял нормальность (Shapiro-Wilk's), однородность (Levene's), делал RM ANOVA, при p < 0.05 делал Tukey's HSD, p отсеивал с помощью Holm(1979).
остались только "значимые" p.

тут возник вопрос: как получить несимметричные интервалы?

я попытался обратно преобразовать трансформированные данные с помощью этой формулы: x=((y-sqrt(x))^2)-1 (я сам попытался рассчитать, может не вижу ошибки..?).
но получаю почему-то не точь-в-точь (а иногда и различающиеся на порядок) данные
расчитываю по ним средее, SEM, SD, CI. но почему-то все они симметричными получаются... frown.gif

или мне только средее, SEM, SD, CI обратно преобразовывать или... ?


вообщем, запутался вконец, помогите, пожалуйста

Автор: nokh 4.06.2011 - 17:23

Думаю, что да, формула применяется к % или промилле. Хотя если точнее - то к штукам на исследуемую единицу чего-то, раз распределение пуассоновское. Например, к числу телефонных звонков за час, к числу мутаций в локусе на поколение, к числу аномальных клеток на 100 или 1000 изученных (а это и есть % или промилле).
Если среднее и ДИ измеряются тех же единицах, в каких проводилось измерение (метры, граммы, %), то SD и SE - нет. Поэтому SD и SE имеют смысл только для преобразованного ряда значений, а ретрансформировать их в исходную шкалу тем же способом, что и среднее с ДИ нельзя. Поэтому я бы ограничился в итоговой описательной статистике только средним с 95%-ным ДИ для него.
Формулу ретрансформации вы не привели к окончательному виду, и я, честно говоря, не понял как вы по ней вообще что-то считали. Это простая алгебра - нужно выразить x через y. У меня получилось так: х=((у^2-1)/2y)^2. Пробуйте подставлять: если x=2, и после преобразования Ф-Т стало у=3,14626437, то обратное преобразование должно дать снова 2 (ну или чуть отличное значение в результате ошибок округления, но никак не на порядок).

Автор: bubnilkin 10.06.2011 - 05:46

nokh, спасибо за ответ smile.gif

сейчас всё получается по вашей формуле

Форум Invision Power Board (http://www.invisionboard.com)
© Invision Power Services (http://www.invisionpower.com)