Непараметрическая статистика - Форум врачей-аспирантов

Непараметрическая статистика, различия в результатах анализа по Фридмену и теста Уилкоксона

dimcuslongus Просмотр профиля	20.07.2009 - 21:30 Сообщение #1
Группа: Пользователи Сообщений: 3 Регистрация: 17.10.2005 Пользователь №: 555	Добрый вечер! У меня похожая ситуация, что и у PantheraBagira, только переменные зависимые (трижды в динамике оценивается выраженность неврологического дефицита у одних и тех же пациентов). При анализе по Фридмену различия значимые (p<0,0000), при использовании теста Уилкоксона между 1-ой и 2-ой оценкой p "на грани" = 0,0170. При использовании критерия знаков для этой же пары различия значимые (p = 0,0022). Подскажите, как интерпретировать такие результаты? Спасибо!

nokh Просмотр профиля	22.07.2009 - 21:52 Сообщение #2
Группа: Пользователи Сообщений: 1219 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704	Цитата(dimcuslongus @ 21.07.2009 - 00:30) ...При анализе по Фридмену различия значимые (p<0,0000), при использовании теста Уилкоксона между 1-ой и 2-ой оценкой p "на грани" = 0,0170. При использовании критерия знаков для этой же пары различия значимые (p = 0,0022). Подскажите, как интерпретировать такие результаты? Спасибо! Для такой задачи лучше использовать дисперсионный анализ с повторными наблюдениями, а сравнения между сроками проводить внутри всего дисперсионного комплекса. Если требуется - преобразовать исходные данные. В этом случае информация будет использована по максимуму. В случае анализа Фридмана в качестве значений для разных сроков можно использовать средние ранги и не проводить парных сравнений. По поводу критерия Уилкоксона для разностей пар не понятно на грани чего находится P? В подавляющем большинстве исследований достаточным принимается пятипроцентный уровень значимости. С этой позиции P=0,0170 и P=0,0022 - одно и то же. Если выборки, образующие пары, имеют распределение одного типа - лучше использовать критерий Уилкоксона: он строже и мощнее. Критерий знаков более либерален к данным, но обладает сходной эффективностью только на очень малых выборках (для n=6 - 95%), а при увеличении n его эффективность снижается вплоть до 64%.

dimcuslongus Просмотр профиля	23.07.2009 - 18:42 Сообщение #3
Группа: Пользователи Сообщений: 3 Регистрация: 17.10.2005 Пользователь №: 555	Спасибо! "На грани" - я использовал поправку Бонферрони для 3 сравнений - p = 0,05 / 3 = 0,017. Сообщение отредактировал dimcuslongus - 23.07.2009 - 18:43

avorotniak Просмотр профиля	24.07.2009 - 19:16 Сообщение #4
Группа: Пользователи Сообщений: 23 Регистрация: 24.07.2009 Пользователь №: 6183	В отношении непараметрического подхода: Основными непараметрическими аналогами 2-х факторного ANOVA являются критерии Friedman и Quade (оба критерия основаны на рангах). Первый из них является продолжением критерия знаков, для более 2-х связанных выборок, а второй - продолжением критерия Уилкоксона. (Кстати, для двух выборок, Friedman полностью совпадает с критерием знаков, а Quade - с критерием Уилкоксона). Критерий Quade мощнее, чем Friedman, поэтому предпочтительней. Для каждого из указанных критериев существуют формулы для попарного сравнения (если отвергнута основная гипотеза). Для использования критерия Уилкоксона нужно проверить данные на симметрию (в отношении Quade не имею точной информации по этому поводу) . Если данные не симметричны и нет возоможности их трансформации, то лучше использовать критерий знаков или Friedman. Успехов

Игорь Просмотр профиля	25.07.2009 - 06:41 Сообщение #5
Группа: Пользователи Сообщений: 1162 Регистрация: 10.04.2007 Пользователь №: 4040	Цитата(avorotniak @ 24.07.2009 - 20:16) В отношении непараметрического подхода: Основными непараметрическими аналогами 2-х факторного ANOVA являются критерии Friedman и Quade (оба критерия основаны на рангах). Первый из них является продолжением критерия знаков, для более 2-х связанных выборок, а второй ? продолжением критерия Уилкоксона. (Кстати, для двух выборок, Friedman полностью совпадает с критерием знаков, а Quade ? с критерием Уилкоксона). Критерий Quade мощнее, чем Friedman, поэтому предпочтительней. Для каждого из указанных критериев существуют формулы для попарного сравнения (если отвергнута основная гипотеза). Для использования критерия Уилкоксона нужно проверить данные на симметрию (в отношении Quade не имею точной информации по этому поводу) . Если данные не симметричны и нет возоможности их трансформации, то лучше использовать критерий знаков или Friedman. Успехов Критерий Квейд хорошо описан в руководстве Солиани. http://www.dsa.unipr.it/soliani/capu15.pdf (с. 85). Правда, на итальянском , но формулы понятны и так. Сообщение отредактировал Игорь - 25.07.2009 - 15:59 Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!

DrgLena Просмотр профиля	25.07.2009 - 10:31 Сообщение #6
Группа: Пользователи Сообщений: 1325 Регистрация: 27.11.2007 Пользователь №: 4573	На английском тоже этот критерий тоже хорошо описан, но Avorotniak утверждает, что он более мощный чем критерий Фридмана, а потому, предпочтительней. Однако, это верно только для небольшого числа связанных выборок, как в данном случае (3), в то время как тест Фридмана более мощный, когда их число пять или больше.

Игорь Просмотр профиля	25.07.2009 - 13:58 Сообщение #7
Группа: Пользователи Сообщений: 1162 Регистрация: 10.04.2007 Пользователь №: 4040	Цитата(DrgLena @ 25.07.2009 - 10:31) На английском тоже этот критерий тоже хорошо описан, но Avorotniak утверждает, что он более мощный чем критерий Фридмана, а потому, предпочтительней. Однако, это верно только для небольшого числа связанных выборок, как в данном случае (3), в то время как тест Фридмана более мощный, когда их число пять или больше. Если не затруднит, укажите, пожалуйста, английский источник. И что за Avorotniak? Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!

плав Просмотр профиля	25.07.2009 - 15:15 Сообщение #8
Группа: Пользователи Сообщений: 1013 Регистрация: 4.10.2006 Пользователь №: 1933	Цитата(Игорь @ 25.07.2009 - 14:58) И что за Avorotniak? Сообщение #4 в этой ветке

Игорь Просмотр профиля	25.07.2009 - 16:02 Сообщение #9
Группа: Пользователи Сообщений: 1162 Регистрация: 10.04.2007 Пользователь №: 4040	Цитата(плав @ 25.07.2009 - 15:15) Сообщение #4 в этой ветке Спасибо. Кстати, у Soliani как раз даны формулы для попарных сравнений в критерии Квейд. Критерий почему-то мало известен. Надо его популяризовать. Критерий представлен в известной монографии Conover. Однако ознакомиться с данным источником не удалось. Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!

avorotniak Просмотр профиля	25.07.2009 - 18:03 Сообщение #10
Группа: Пользователи Сообщений: 23 Регистрация: 24.07.2009 Пользователь №: 6183	Ссылки на критерий Квейда: D. Quade (1979), Using weighted rankings in the analysis of complete blocks with additive block effects. Journal of the American Statistical Association, 74, 680?683. William J. Conover (1999), Practical nonparametric statistics. New York: John Wiley & Sons. Pages 373?380. В ?R? этот критерий вызывается командой quade.test() Однако у Soliani (спасибо Игорю) также можно найти все необходимые формулы. По поводу преимуществ Квейда, согласен с DrgLena. Чтобы интуитивно понять эти преимущества предлагаю следующее: Для подсчета статистики Фридмана используются R.j , при этом сначала определяются ранги внутри каждого блока Rij, а потом они суммируются по столбикам (treatments). В результате теряется ?межблочный? эффект. Это использовал Quade ?Using weighted rankings in the analysis of complete blocks with additive block effects?. Статистика Квейда основана на Sij = Qi*(Rij ? (k+1)/2), где Qi как раз и представляет собой взвешивание каждого блока. Qi это ранг каждого блока i в зависимости от range in block i = max Xij - min Xij. Таким образом, критерий Квейда использует больше информации, чем Фридман. Успехов

nokh Просмотр профиля	25.07.2009 - 18:32 Сообщение #11
Группа: Пользователи Сообщений: 1219 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704	По-русски причитать про Quade test с разбором на примере можно в Кобзарь А. И. Прикладная математическая статистика. Для инженеров и научных работников. - М.: ФИЗМАТЛИТ, 2006. - 816 с. (есть в сети в djvu). Там он на стр. 487 и называется "Критерий со взвешенными ранжировками Даны Квейд".

Игорь Просмотр профиля	25.07.2009 - 18:33 Сообщение #12
Группа: Пользователи Сообщений: 1162 Регистрация: 10.04.2007 Пользователь №: 4040	Всем спасибо за информацию. Oops!!! У Soliani пример посчитан неверно. Неаккуратно сделано ранжирование (ошибки в 3-х местах). Отсюда весь остальной расчет неверен. Чтобы пример был хотя бы формально верен, предлагаю поменять исходные данные. Если исходные данные взять такие (показано в транспонированном виде) 115 28 220 82 298 294 98 142 31 311 56 256 322 87 36 7 108 33 46 176 55 91 21 51 46 124 54 84 28 6 117 24 84 86 25 то результатами можно воспользоваться в учебно-познавательных целях. Еще в формуле для W ошибка. Малыми литерами r обозначен массив рангов, а на самом деле должен быть подставлен (и подставлен в примере) модифицированный массив рангов. Небрежность автора. Да, кстати, верное замечание. Квейд - это "она". Сообщение отредактировал Игорь - 25.07.2009 - 19:02 Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!

DrgLena Просмотр профиля	25.07.2009 - 19:44 Сообщение #13
Группа: Пользователи Сообщений: 1325 Регистрация: 27.11.2007 Пользователь №: 4573	Англоязычный источник - техническая документация к StatXact8, но пример там другой. Документация мне досталась от демо версии программы (pdf 12.3 МБ). Кроме уже указанных выше источников, есть немного в журнальных статьях: Campbell RA. A comparison of the Quade and Friedman tests to the unbalanced two-way analysis of variance with biomedical data. Comput Biol Med. 1988;18(6):441-7. Theodorsson-Norheim E. Friedman and Quade tests: BASIC computer program to perform nonparametric two-way analysis of variance and multiple comparisons on ranks of several related samples. Comput Biol Med. 1987;17(2):85-99

DrgLena Просмотр профиля	25.07.2009 - 21:23 Сообщение #14
Группа: Пользователи Сообщений: 1325 Регистрация: 27.11.2007 Пользователь №: 4573	Для данных в итальянском источнике, действительно, значение статистики будет 10,38 а при исправлении рангов, как представил Игорь, получается 9,217, т.е. как в источнике. При этом двухсторонее значение р=0.0001167 (Asymptotic) и р=2.536e-005 (Exact). Полезный критерий, да еще женский. Пример в StatXact значительно проще: 23 58 11 24 34 23 53 10 20 40 23 54 22 21 22 Полезные упражнения, однако, спасибо всем! Сообщение отредактировал DrgLena - 25.07.2009 - 21:30

avorotniak Просмотр профиля	25.07.2009 - 23:22 Сообщение #15
Группа: Пользователи Сообщений: 23 Регистрация: 24.07.2009 Пользователь №: 6183	Хотелось бы возвратиться к исходной проблеме, предложенной dimcuslongus : Я так понимаю, что имеет место дизайн полных блоков, то есть в строчках располагаются пациенты (blocks), а в колонках 3 неврологических измерения (treatments). Кроме классической постановки проблемы, Но: все медианы равны против Н1: имеются различия, можно бы сформулировать альтернативную гипотезу по другому: m1 <= m2 <= m3 (по крайней мере с одной строгой неравностью). Например, если нас интересует имелось ли улучшение оценки неврологического статуса пациентов в процессе наблюдения. Для такой гипотезы Page (1963) предложил следующую статистику: Т = (1/sqrt(n))sum ((j - (k+1)/2)(R.j - n(k+1)/2)) Var(T) = k^2(k^2 - 1)(k+1)/144 Отвергаем Но если T > z(alfa) sqrt(Var(T)) , где z(alfa) соответствующий перцентиль нормального распределения. Думаю, что в указанной проблеме было бы интересно использовать этот критерий. Взято из T. Hettmansperger Statistical Inference Based on Ranks

DrgLena Просмотр профиля	26.07.2009 - 12:29 Сообщение #16
Группа: Пользователи Сообщений: 1325 Регистрация: 27.11.2007 Пользователь №: 4573	Да, и у Кобзаря (ссылку любезноо предоставил nokh) на стр. 482 хорошо описан этот критерий и назван Пейджа (Page). Мы, как то, на этом форуме разбирали критерий сдвига Джонкхиера-Терпстры (у Кобзаря Терпстры-Джонкхира). Но после того как сдвиг доказан, все равно нужно проводить парные сравнения и использовать поправку Бонферрони, как и сделал автор поста. Но его вопрос был в том, что он получил различающиеся оценки при испорльзовании разных критериев.

Игорь Просмотр профиля	28.07.2009 - 07:31 Сообщение #17
Группа: Пользователи Сообщений: 1162 Регистрация: 10.04.2007 Пользователь №: 4040	Цитата(DrgLena @ 26.07.2009 - 13:29) Но его вопрос был в том, что он получил различающиеся оценки при испорльзовании разных критериев. Результаты в данном случае и должны различаться. Мы могли бы обсудить, почему и насколько они различаются при наличии исходных данных. Автор темы их не приводит. Сообщение отредактировал Игорь - 28.07.2009 - 17:50 Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!

Pinus Просмотр профиля	10.12.2009 - 08:09 Сообщение #18
Группа: Пользователи Сообщений: 244 Регистрация: 28.08.2009 Пользователь №: 6286	Есть такая задача. Рассматриваем две независимые выборки, в которых переменная Y подвержена влиянию фактора X (Y и X непрерывные случайные величины). Каждая выборка относится к определенному типу условий Z (качественный признак). Если рассматривать каждую выборку раздельно, то выявлено достоверное влияние X на Y и найдены уравнения регрессии с R^2>0,75. Необходимо определить значимость влияния типа условий Z на переменную Y. Распределения Y и X не являются нормальными. Мои соображения: Сгруппировать значения X по интервалам. Интервалы проранжировать. Тогда можем использовать двухфакторный дисперсионный анализ, но поскольку нет нормальности распределений, то он должен быть непараметрическим. В каждой ячейке плана предполагается самое разное количество наблюдений. Пустых ячеек скорее всего не будет. Двухфакторный анализ Фридмана не пойдет (применяется для связанных выборок). Нашел у Кобзаря критерий Мака-Скилингса (с. 601) и Лемана-Мака (с. 603). Какие методы в этом случае еще можно применить? Сообщение отредактировал Pinus - 10.12.2009 - 08:14

nokh Просмотр профиля	10.12.2009 - 09:25 Сообщение #19
Группа: Пользователи Сообщений: 1219 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704	Цитата(Pinus @ 10.12.2009 - 10:09) Есть такая задача. Рассматриваем две независимые выборки, в которых переменная Y подвержена влиянию фактора X (Y и X непрерывные случайные величины). Каждая выборка относится к определенному типу условий Z (качественный признак). Если рассматривать каждую выборку раздельно, то выявлено достоверное влияние X на Y и найдены уравнения регрессии с R^2>0,75. Необходимо определить значимость влияния типа условий Z на переменную Y. Распределения Y и X не являются нормальными. Мои соображения: Сгруппировать значения X по интервалам. Интервалы проранжировать. Тогда можем использовать двухфакторный дисперсионный анализ, но поскольку нет нормальности распределений, то он должен быть непараметрическим. В каждой ячейке плана предполагается самое разное количество наблюдений. Пустых ячеек скорее всего не будет. Двухфакторный анализ Фридмана не пойдет (применяется для связанных выборок). Нашел у Кобзаря критерий Мака-Скилингса (с. 601) и Лемана-Мака (с. 603). Какие методы в этом случае еще можно применить? Предложенный подход приведёт к сильной потере информации и будет обладать малой мощностью. Про нормальность: модели как дисперсионного, так и регрессионного анализов не требуют нормального распределения Y и тем более X. Нормально должны быть распределены ошибки модели, которые в регрессионном анализе чаще называют остатками. Но обычно если Y имеет нормальное распределение, то и ошибки будут также примерно нормально распределены. В дисперсионном анализе X - обычно вообще качественная переменная. Лучшее, что здесь можно сделать - ковариационный анализ (ancova) с предварительно преобразованными данными. Преобразования и в т.ч. Бокса-Кокса подробно обсуждались на форуме. Ограничения помимо норм. р-я ошибок - линейность зависимости и одинаковый наклон регрессий - только в этих условиях возможно выявить влияние Z на разность свободных членов регрессий. Нелинейность устраняется преобразованиями шкал x и y. Хуже всего статистически значимая непараллельность линий, но это только с точки зрения применимости данной техники, т.к. сама по себе непараллельность укажет на некорректность рассмотрения влияния Z на Y без одновременного учёта X - в терминах дисперсионного анализа это называется взаимодействием (XZ).

Green Просмотр профиля	10.12.2009 - 13:30 Сообщение #20
Группа: Пользователи Сообщений: 120 Регистрация: 27.08.2009 Пользователь №: 6284	Pinus, Условия Z - какая шкала? Если это страты( номинальная шкала) Рассуждаю так - у вас есть: модель зависимости Y=f(X) в условиях Z1 модель зависимости Y=f(X) в условиях Z2 задача - найти достоверную разницу между этими моделями? Можно оценить по отношению правдоподобия. Опять же, есть разные виды регресий. Соответственно, есть разные подходы. Подробнее бы написали о моделях и Z ? ( может это Кокс?...) Это не кованализ :)

nokh Просмотр профиля	10.12.2009 - 14:55 Сообщение #21
Группа: Пользователи Сообщений: 1219 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704	Цитата(Green @ 10.12.2009 - 15:30) Рассуждаю так - у вас есть: модель зависимости Y=f(X) в условиях Z1 модель зависимости Y=f(X) в условиях Z2 задача - найти достоверную разницу между этими моделями? Можно оценить по отношению правдоподобия... Никакие модели автора не интересуют, задача сформулирована чётко: Цитата(Pinus @ 10.12.2009 - 10:09) Необходимо определить значимость влияния типа условий Z на переменную Y. Зачем переформулировать её непонятно во что? Сформулированная задача решается ковариационным анализом.

Pinus Просмотр профиля	10.12.2009 - 15:51 Сообщение #22
Группа: Пользователи Сообщений: 244 Регистрация: 28.08.2009 Пользователь №: 6286	Цитата(nokh @ 10.12.2009 - 16:25) Лучшее, что здесь можно сделать - ковариационный анализ (ancova) с предварительно преобразованными данными. Nokh, если не затруднит, посоветуйте путнюю литературу по ковариационному анализу, а то я встречал только общие сведения о ковариации. Этот метод применим для полиномиальных зависимостей 2-го порядка? Цитата(nokh @ 10.12.2009 - 16:25) Про нормальность: модели как дисперсионного, так и регрессионного анализов не требуют нормального распределения Y и тем более X. Нормально должны быть распределены ошибки модели, которые в регрессионном анализе чаще называют остатками. Но обычно если Y имеет нормальное распределение, то и ошибки будут также примерно нормально распределены. Это очень хорошо, остатки у меня нормальные. Кстати в нескольких источниках встречал, и по регрессии, и по дисперсионному анализу, что одна из предпосылок это нормальное распределение переменных (что всегда вызывало подозрение); в других же источниках, что остатков. Это был для меня один из вопросов. Вообще изначально предполагалось, что Z будет оказывать влияние. Регрессии полиномиальные 2-го порядка, и думалось, что на графике в одинаковом масштабе одна получится выше, а другая ниже. А получилось, что совокупности почти накладываются, и параболы, за исключением крайней части, идут весьма близко друг к другу. Просто визуально обосновать, что нет влияния, будет плохо, надо какую-то статистическую достоверность. Цитата(nokh @ 10.12.2009 - 16:25) В дисперсионном анализе X - обычно вообще качественная переменная. Если все же порассуждать о дисперсионном анализе. Ввиду имеющейся точности метода наблюдений придется все равно X объединять в небольшие группы (по этой причине в другой теме интересовался про регрессию с ошибками в предикторах). Получится интервальная шкала (10-15 интервалов). В этом случае X будет количественной, но дискретной переменной. И если остатки нормальны, и остальные предпосылки выполняются, то можно обычный двухфакторный дисперсионный анализ. Как думаете? Цитата(nokh @ 10.12.2009 - 16:25) Предложенный подход приведёт к сильной потере информации и будет обладать малой мощностью. Проблема в группировке? Но если она все равно неизбежна (с узкими интервалами). Нет ли ограничений на минимальное количество наблюдений в ячейках (в среднем их будет по 2-3 в каждой, в некоторых по одному, в некоторых по 4-5)? Вообще есть разница по мощности скажем между квадратным планом и узковытянутым, если общее количество наблюдений одинаково? Сообщение отредактировал Pinus - 10.12.2009 - 15:52

Pinus Просмотр профиля	10.12.2009 - 16:05 Сообщение #23
Группа: Пользователи Сообщений: 244 Регистрация: 28.08.2009 Пользователь №: 6286	Цитата(Green @ 10.12.2009 - 20:30) Условия Z - какая шкала? Если это страты( номинальная шкала) Два качественных признака (например, хорошие условия и плохие условия). Цитата(Green @ 10.12.2009 - 20:30) Опять же, есть разные виды регресий. Соответственно, есть разные подходы. В нескольких случаях парабола 2 порядка, в некоторых прямолинейная функция.

Lars Просмотр профиля	10.12.2009 - 19:35 Сообщение #24
Группа: Пользователи Сообщений: 1 Регистрация: 11.06.2009 Из: Москва Пользователь №: 6169	Цитата(DrgLena @ 26.07.2009 - 13:29) Да, и у Кобзаря (ссылку любезноо предоставил nokh) на стр. 482 хорошо описан этот критерий и назван Пейджа (Page). Мы, как то, на этом форуме разбирали критерий сдвига Джонкхиера-Терпстры (у Кобзаря Терпстры-Джонкхира). Но после того как сдвиг доказан, все равно нужно проводить парные сравнения и использовать поправку Бонферрони, как и сделал автор поста. Но его вопрос был в том, что он получил различающиеся оценки при испорльзовании разных критериев. слава богу, поправку Бонферрони использовать совсем не нужно - уже сорок лет как придумали менее консервативные поправки: Холма, Хохберга, Хоммеля, Рома, перестановочные и т.д. см., например, Blair, Troendle, Beck (1996) Control of Familywise Errors in Multiple Endpoint Assessments Via Stepwise Permutation Tests.

nokh Просмотр профиля	10.12.2009 - 20:42 Сообщение #25
Группа: Пользователи Сообщений: 1219 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704	Дисперсионный анализ можно. При этом интервалы совсем необязательно должны быть равными. В можете сделать их по своему усмотрению такими, чтобы они максимально отражали особенности поведения Y в зависимости от Х. При этом в ячейке должно быть столько наблюдений, чтобы можно было посчитать для них дисперсию, т.е. формально - не менее двух. Современные пакеты могут считать комплексы и с единственным наблюдением на ячейку и с пропусками, но при этом мощность снижается, думаю это уж совсем для каких-то уникальных случаев, где нет никакой возможности посчитать или перегруппировать иначе. Нарезку на интервалы желательно делать исходя из существа процессов, происходящих с Y в зависимости от Х. Например, в реальных условиях больниц никогда не получается собрать такие данные, чтобы к/л показатели регистрировались строго каждый день или через день после операции. Но они собираются всё равно не случайно, а сообразно своей логике, поэтому и после группировки их в интервалы всё равно основные особенности динамики "схватить" удаётся, хотя интервалы различны, например 1, 2-3, 4-5, 7 и более сут после операции. Дисперсионный анализ подходит для сравнения рядов любой сложности, в т.ч. самой разнообразной нелинейной динамики. Но он будет уступать по мощности регрессионному анализу, т.к. в ДА единицей анализа является каждая группа по оси Х, а в регрессии - единственная функция - явный выигрыш по степеням свободы. Поэтому даже при ошибках в Х, думаю следует попробовать и регрессионный подход. Что делать с полиномами не знаю, но если кривые можно спрямить в ходе степенных преобразований - можно делать ancova. Нужно пробовать, всё-таки степенные преобразования - очень широкий класс преобразований, включающий и логарифмирование, и извлечение корней и обратные значения. Идея ancova доступно изложена в учебнике StatSoft: http://www.statsoft.ru/home/textbook/default.htm (Дисперсионный анализ - Ковариационный анализ (ANCOVA)), но не встречал на русском, чтобы было разложено всё по полочкам с комментариями. Можно попробовать (пока до нового года относительно свободен). Но мне нужно, чтобы я потом потенциально мог использовать этот материал в учебном процессе, а для этого нужно понимать суть рассматриваемых процессов. Если вы согласитесь выложить здесь свои данные в xls с небольшим поясняющим комментарием - попробую покрутить их, если данне позволят и ковариационным анализом в т.ч., а расчёты откомментирую.

Pinus Просмотр профиля	11.12.2009 - 07:55 Сообщение #26
Группа: Пользователи Сообщений: 244 Регистрация: 28.08.2009 Пользователь №: 6286	Nokh, большое спасибо за предложение, но таких блоков с данными, для которых придется делать этот анализ у меня несколько и потом вероятно будет еще какое-то количество, и поскольку это не просто какой-то небольшой сложный элемент в работе, а значительный кусок, то надо разобраться самому что называется от корней. Нашел вроде неплохую главу по ковариационному анализу у Шеффе, и у Джонсона немного есть, пока поковыряюсь. Какой-то пример с данными выложить не проблема, но они имеют отношение к биологии, а не к медицине, и наверно будет не очень хорошо их использовать в учебном процессе? В любом случае, Вам большое спасибо за наводку, хоть теперь знаю какой анализ разбирать. Беглое прочтение сути метода показывает, что это действительно то, что нужно.

Игорь Просмотр профиля	11.12.2009 - 10:22 Сообщение #27
Группа: Пользователи Сообщений: 1162 Регистрация: 10.04.2007 Пользователь №: 4040	Цитата(Pinus @ 10.12.2009 - 16:51) Nokh, если не затруднит, посоветуйте путнюю литературу по ковариационному анализу, а то я встречал только общие сведения о ковариации. Этот метод применим для полиномиальных зависимостей 2-го порядка? nokh Вам посоветовал и еще, конечно, посоветует. От себя предложу посмотреть: Milliken G.A., Johnson D.E. Analysis of messy data. Volume III: Analysis of covariance. - Boca Raton, FL: Chapman & Hall/CRC, 2002. Очень простое и толковое изложение, но на иностранном языке. Maxwell S.E., Delaney H.D. Designing experiments and analyzing data. A Model Comparison Perspective. - Mahwah, NJ: Lawrence Erlbaum Associates, 2004. На русском это глава 6 книги Шеффе Г. Дисперсионный анализ. - М.: Наука, 1980. Очень сложно изложено. Все книги встречались в электронном виде. Сообщение отредактировал Игорь - 11.12.2009 - 10:29 Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!

Green Просмотр профиля	11.12.2009 - 12:03 Сообщение #28
Группа: Пользователи Сообщений: 120 Регистрация: 27.08.2009 Пользователь №: 6284	nokh, Цитата(nokh @ 10.12.2009 - 13:55) Никакие модели автора не интересуют, задача сформулирована чётко: Необходимо определить значимость влияния типа условий Z на переменную Y. Зачем переформулировать её непонятно во что? Сформулированная задача решается ковариационным анализом. В этом случае непонятно, зачем автор говорит о переменной Х? Переменная Z - биноминальная. Y - количественная ( не нормальная). Зачем тогда автор говорит о регрессионных моделях? Это НЕчеткая постановка, имхо Четкая, когда будет присутствовать условия, связанные с влияющими факторами. Сообщение отредактировал Green - 11.12.2009 - 12:11 Это не кованализ :)

Pinus Просмотр профиля	11.12.2009 - 15:15 Сообщение #29
Группа: Пользователи Сообщений: 244 Регистрация: 28.08.2009 Пользователь №: 6286	Игорь, спасибо за источники. Я уже стабильно каждую неделю жалею, что не владею английским. И судя по всему выхода хоть на какой-то более или менее профессиональный уровень анализа данных без него нет. Так что придется в будущем за это дело браться. Green, на количественную переменную Y влияют два фактора: X (количественный) и Z (качественный). Нужно определить насколько значимо влияние Z. Две регрессии (для двух разных Z) были построены между Y и X, поскольку предполагалось значительное влияние Z. Выяснилось, что линии на графике очень близки друг к другу, что означает малое влияние Z. Нужно статистически доказать незначимость влияния Z. Тогда, с учетом теоретических соображений можно будет объединить две совокупности в одну и строить не две бессмысленных, а одну общую модель. Уровней Z в принципе может быть несколько, и может получиться так, что часть из них будут незначимо влияющими, а часть значимо. Тогда из всех получится, скажем, две достоверно отличающихся регрессионных модели (одна, например, для Z1 и Z2, а другая для Z3 и Z4). Такая идея. Сообщение отредактировал Pinus - 11.12.2009 - 15:29

nokh Просмотр профиля	12.12.2009 - 07:37 Сообщение #30
Группа: Пользователи Сообщений: 1219 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704	Уже полгода как на форуме нет нашего уважаемого модератора. Последний бы раздел этой темы отсюда вырезать и поместить в новую тему "Ковариационный анализ". К сожалению ничего путного больше по этому анализу с ходу не нашел. Есть правда очень хорошая книга, хотя и старая: Хальд. А. Математическая статистика с техническими приложениями. Взять можно здесь: http://extracoder.com/genesis/0012.html . В ней на примере (с. 488) разбирается как сравнивать 2 и более регрессий, что впоследствии и получило название ковариационного анализа. Но хорошо разобрана только его первая часть - сравнение наклонов регрессии. Вторая часть - сравнение свободных членов параллельных линий - по мнению автора не должна представлять для читателя никаких сложностей. Третья часть - получение и интерпретация согласованных (adjusted) значений параметров зависимости - отсутствует. Дополнительные трудности создаёт символика - она отличается от современной и требуется время чтобы понять где средний квадрат, где F-критерий и.т.д. Но скачайте в любом случае - очень хорошо изложены преобразования шкалы, работа с усечёнными распределениями и ещё ряд тем. То что данные не медицинские - не страшно, по нику могу даже предположить что ботанические, т.к. медиков учат другой латыни . Поэтому данные можете выложить или в личку скинуть, посмотрим что там можно сделать. Если честно, меня интересует не столько собственно ковариац. анализ, сколько возможность спрямления исходных зависимостей в ходе преобразования независимой переменной Х, в т.ч. по Боксу-Коксу. Мы на форуме обсуждали Бокса-Кокса для нормализации данных, но есть его модификация именно для спрямления кривых. Поскольку Б-К использует широкий класс степенных преобразований - писал в посте выше именно о степенных зависимостях. Т.к. обычно полиномы используют в тех случаях, когда нужно учесть нелинейность, а истинная форма зависимости неизвестна - предположил, что возможно степ. зависимость подойдёт. А если спрямить удастся - остальное дело техники. Сообщение отредактировал nokh - 12.12.2009 - 08:29

Green Просмотр профиля	12.12.2009 - 21:43 Сообщение #31
Группа: Пользователи Сообщений: 120 Регистрация: 27.08.2009 Пользователь №: 6284	гхм... собственно, то, о чем я и писала. Сравнить две регрессии. Ковариационный анализ хорошо разработан на линейных моделях. У Pinus - параболы. где-то видела подход - значения вариант первой выборки (X1) подставляются во вторую модель регрессии (построенную по выборке X2). Считаются и анализируются резидуалы от X1 и X2 (по второй модели). по-моему критерий F=((RSS1)/d1)/(RSS2/d2) где RSS - сумма квадратов остатков (т.е. суммарное расстояние между модельными и выборочными данными) d- степени свободы. (пока не могу найти, пишу по памяти ) Возможно, кто-то найдет, вспомнив формулу. И естественно, если резидуалы "одинаковы" - это может говорить о том, что исходные данные из одной популяции. Аналогично, Х2 - в модель 1. ------ nokh пытается сначала "выпрямить", потом сравнить. Любое преобразование - это частично потеря информации. Но, проводя ее приходим к "стандартным" в плане обработки ситуациям. Тоже хорошо. Это не кованализ :)

Pinus Просмотр профиля	13.12.2009 - 03:24 Сообщение #32
Группа: Пользователи Сообщений: 244 Регистрация: 28.08.2009 Пользователь №: 6286	Цитата(nokh @ 12.12.2009 - 14:37) Последний бы раздел этой темы отсюда вырезать и поместить в новую тему "Ковариационный анализ". Да, потому что получилось, что вопрос не относится к непараметрическим методам. За ссылку большое спасибо, Nokh! И вообще за эту библиотеку, еще много полезного можно скачать, чего у меня не было. Данные подготовлю и выложу. На счет степенных функций не знаю. Речь идет, как Вы в принципе догадались о сосне (Pinus sylvestris это в общем-то не так далеко от Homo sapiens ), в частности об изменении параметров роста деревьев с возрастом в разных условиях урбосреды. Рост деревьев вообще принято аппроксимировать семейством S-образных кривых, часто используют функцию Вейбулла и кривые Пирсона. Но это тогда, когда рассматривается весь жизненный цикл (или большая его часть). В моем случае изучаемый возрастной интервал составляет 15-55 лет, и в нем есть только второй перегиб (замедление роста при переходе в стадию старения) или перегибов нет совсем. Поэтому во втором случае регрессию беру прямолинейную, а в первом параболу (судя по диаграмме рассеяния и значению R^2). Конечно, есть специальные методы выбора модели, но есть ли смысл в данном случае их использовать, если речь идет о куске функции роста? Может наверно подойти и степенная, не пробовал. Тут вот может быть ситуация, когда сравниваемые линии расходятся постепенно: при начальных значениях X линии идут очень близко, а к концу интервала значительно расходятся. Как в этом случае сравнивать? Или когда одна линия парабола, а у другой b2 незначим?

Pinus Просмотр профиля	13.12.2009 - 03:30 Сообщение #33
Группа: Пользователи Сообщений: 244 Регистрация: 28.08.2009 Пользователь №: 6286	Green, возможно есть какие-то еще походы, если дадите ссылки на источники, был бы тоже очень благодарен.

Игорь Просмотр профиля	13.12.2009 - 10:28 Сообщение #34
Группа: Пользователи Сообщений: 1162 Регистрация: 10.04.2007 Пользователь №: 4040	Есть такая книга. Толковая. McDonald, J.H. 2009. Handbook of Biological Statistics, 2nd ed. Sparky House Publishing, Baltimore, Maryland. В электронном виде (не download!) доступна свободно на сайте автора http://udel.edu/~mcdonald/statintro.html Особенность книги в том, что для всех описанных методов автор сразу предлагает ПО - либо on-line, либо загружаемое (макросы Excel). Например, для ковариационного анализа см. страницу http://udel.edu/~mcdonald/statancova.html На ней ссылка http://faculty.vassar.edu/lowry/vsancova.html на бесплатное on-line ПО. Сообщение отредактировал Игорь - 13.12.2009 - 13:43 Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!

Pinus Просмотр профиля	13.12.2009 - 14:31 Сообщение #35
Группа: Пользователи Сообщений: 244 Регистрация: 28.08.2009 Пользователь №: 6286	Nokh, данные готовы, но форум не грузит файлы Excel. Их надо как-то специально преобразовывать? Сообщение отредактировал Pinus - 13.12.2009 - 14:32

Green Просмотр профиля	13.12.2009 - 15:03 Сообщение #36
Группа: Пользователи Сообщений: 120 Регистрация: 27.08.2009 Пользователь №: 6284	Pinus, Хорошо, что описали задачу. Теперь стало понятнее. Мне представляется, что сначала нужен анализ данных такого плана. 1. У вас, похоже, нет параболы в том виде, в котором ее принято представлять, а именно: при возрастании X ордината Y сначала уменьшается, потом растет. 2. У Вас только "половинка", которая более походит на логарифмическую. (часть S-образной кривой). Поэтому вам предлагают аппроксимацию зависимости логарифмической или степенной функцией. (Добавлю, что с S-образной кривой хорошо работает Harrington desirability function Z=exp(-exp(-y)) , где у - кусочно-линейная аппроксимация некоторой зависимости) 3. Подразумевалось, что деревья растут по разному (т.е. вычислялся индекс роста)? Мне кажется, нужно использовать какой-то кумулятивный показатель роста. 4. Поскольку используются наблюдения, связанные со временем, то возможно - это Кокс с ковариатой. Возможно Пуассон.... Т.е., нужно провести "разведочный анализ данных", посмотреть на них. Если покажите описание единиц измерения X и У - будет еще понятнее. Это не кованализ :)

Pinus Просмотр профиля	13.12.2009 - 16:35 Сообщение #37
Группа: Пользователи Сообщений: 244 Регистрация: 28.08.2009 Пользователь №: 6286	Вот, скажем, такой пример (шкалу X делать интервальной пока не стал). Исследуется зависимость высоты насаждения (Y) от возраста (X) в однорядных посадках (Z1) и парных посадках (Z2). Насаждения находятся в однородных условиях местопроизрастания. Требуется определить значимость влияния Z. Прикрепленные файлы Книга1.rar ( 2,52 килобайт ) Кол-во скачиваний: 636

Pinus Просмотр профиля	13.12.2009 - 16:46 Сообщение #38
Группа: Пользователи Сообщений: 244 Регистрация: 28.08.2009 Пользователь №: 6286	Цитата(Green @ 13.12.2009 - 22:03) У вас, похоже, нет параболы в том виде, в котором ее принято представлять, а именно: при возрастании X ордината Y сначала уменьшается, потом растет. Да, так. Цитата(Green @ 13.12.2009 - 22:03) У Вас только "половинка", которая более походит на логарифмическую. (часть S-образной кривой). Поэтому вам предлагают аппроксимацию зависимости логарифмической или степенной функцией. Если облако загибается в начальных значениях X, то логарифмическая хорошо. Если в конечных значениях X, то лучше полином 2 степени. Это судя по диаграмме рассеяния, визуально. Может быть скажется и на проверке модели на адекватность (по повторностям). Цитата(Green @ 13.12.2009 - 22:03) Подразумевалось, что деревья растут по разному (т.е. вычислялся индекс роста)? Мне кажется, нужно использовать какой-то кумулятивный показатель роста. Не понял вопроса. Различия могут быть в условиях роста и типе посадок, соответственно предполагаем, что Z оказывает влияние. Насколько оно значимо нужно выяснить. Если речь идет о различиях в росте при одинаковом возрасте (X) для одного и того же Z, то считаем, что они обусловлены случайной составляющей. Цитата(Green @ 13.12.2009 - 22:03) Поскольку используются наблюдения, связанные со временем, то возможно - это Кокс с ковариатой. Возможно Пуассон.... Не могу судить. Знаю только, что это не временной ряд, потому что рассматривается не зависимость показателя роста (например, высоты) от возраста для одного и того же насаждения, а зависимость показателя от возраста по разным насаждениям. Цитата(Green @ 13.12.2009 - 22:03) Если покажите описание единиц измерения X и У - будет еще понятнее. X измеряется в годах, Y например в метрах.

Green Просмотр профиля	13.12.2009 - 22:23 Сообщение #39
Группа: Пользователи Сообщений: 120 Регистрация: 27.08.2009 Пользователь №: 6284	Pinus, я местами фантазировала, не имея достаточной информации. Типа мысли вслух -может вы считали количество новых лапок за какой-то интервал времени:) Нет там Кокса, Пуассона. Увидела данные. Годы, метры, тип посадки (одномоментный срез). Посмотрю данные с разных сторон. Это не кованализ :)

Pinus Просмотр профиля	14.12.2009 - 00:26 Сообщение #40
Группа: Пользователи Сообщений: 244 Регистрация: 28.08.2009 Пользователь №: 6286	Цитата(Green @ 14.12.2009 - 05:23) Увидела данные. Годы, метры, тип посадки (одномоментный срез). На месте Z могут быть самые разные условия: плодородие почвы, класс атмосферного загрязнения, условия освещенности места и т.п. На месте Y также: диаметр ствола, диаметр кроны, объем кроны и пр. Подобные задачи могут возникать хоть где: и в биологии, и в медицине, и в сельском хозяйстве, и в любых других отраслях. На мой взгляд такой тип задач должен почти неизбежно сопровождать процесс регрессионного моделирования. Странно почему он слабо проработан на русском языке.

Pinus Просмотр профиля	14.12.2009 - 00:32 Сообщение #41
Группа: Пользователи Сообщений: 244 Регистрация: 28.08.2009 Пользователь №: 6286	Цитата(Игорь @ 13.12.2009 - 17:28) Особенность книги в том, что для всех описанных методов автор сразу предлагает ПО - либо on-line, либо загружаемое (макросы Excel). Игорь, в очередной раз спасибо за ссылку. Вы не планируете включить ковариационный анализ в Attestate?

Игорь Просмотр профиля	14.12.2009 - 08:24 Сообщение #42
Группа: Пользователи Сообщений: 1162 Регистрация: 10.04.2007 Пользователь №: 4040	Цитата(Pinus @ 14.12.2009 - 00:32) Игорь, в очередной раз спасибо за ссылку. Вы не планируете включить ковариационный анализ в Attestate? Да, наверное, включу. Т.к. метод необходим пользователям. Часто возникают аналогичные задачи. Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!

Green Просмотр профиля	14.12.2009 - 12:59 Сообщение #43
Группа: Пользователи Сообщений: 120 Регистрация: 27.08.2009 Пользователь №: 6284	Pinus, 1. Я не вижу оснований для ковариационного анализа в представленных данных. Ковариата должна влять на зависимую и независимые переменные. рассмотрим Ваши: возраст влияет на рост, но не влияет на тип посадки. Тип посадки не влияет на возраст, возможно влияет на рост. Рост не влияет на тип и на возраст. Ковариации нет. 2. По поводу нормальности данных. Вы случайным образом выбираете образцы и снимаете с них некоторые показатели ( в данном случае пара возраст-рост). Нормально распределено у Вас кол-во деревьев разного возраста, что и означает репрезентативность выборки. А возраст -рост и не должны быть норм. распределены. 3. Переменной для изучения в представленных данных является тип посадки( группа), независимые переменные возраст и рост. Рост есть функция от возраста. Причем эта функция достаточно хорошо аппроксимируется прямой. В принципе я вижу такую постановку задачи - можно ли определить тип посадки, зная возраст и рост. Или спрогнозировать высоту, зная год и тип посадки ?...Это мои домыслы к конкретным данным, которые Вы дали. ( Кстати, индекс роста =высота/возраст - распределен нормально и не различается в группах. Еще немного покрутила данные по возрастам. До 22-23 лет они растут быстрее, потом медленнее - в обоих типах посадки, но значимого различия нет.) 4. Вы назвали еще несколько параметров - плодородие почвы, класс атмосферного загрязнения, условия освещенности места и т.п., а также диаметр ствола, диаметр кроны, объем кроны и пр. Я не знаток в биологии, ботанике. Что именно Вы хотите предсказывать по регрессионной модели ( которую хотите построить) ? Возможно, комбинация этих показателей даст различия в моделях. Но что именно изучается? (Продожение следует) Это не кованализ :)

Pinus Просмотр профиля	14.12.2009 - 13:53 Сообщение #44
Группа: Пользователи Сообщений: 244 Регистрация: 28.08.2009 Пользователь №: 6286	Цитата(Green @ 14.12.2009 - 19:59) Вы назвали еще несколько параметров - плодородие почвы, класс атмосферного загрязнения, условия освещенности места и т.п., а также диаметр ствола, диаметр кроны, объем кроны и пр. Я не знаток в биологии, ботанике. Что именно Вы хотите предсказывать по регрессионной модели ( которую хотите построить) ? Возможно, комбинация этих показателей даст различия в моделях. Но что именно изучается? Я назвал эти варианты X и Y просто в качестве примера. По регрессионной модели хочу предсказывать Y (т.е. какой-либо параметр роста), задавая X (возраст). Другими словами какой высоты (например) будет насаждение в заданном возрасте. Но, по-моему это не имеет никакого значения. Для меня сейчас важно разобраться с теорией. Для этого вполне достаточно оперировать буквами X, Y и Z, зная какой тип переменных за ними стоит. А ботаника это или механика абсолютно без разницы.

Green Просмотр профиля	14.12.2009 - 14:24 Сообщение #45
Группа: Пользователи Сообщений: 120 Регистрация: 27.08.2009 Пользователь №: 6284	Pinus, Регрессия вам может позволить предсказывать Y в зависимости от (Х1, Х2, Х3....,Хn). На сегодняшний момент зависимость роста от возраста (Т.е. Y=f(X1) ) такова, что объясняет около 90% вариации. Дальнейшее улучшение модели (т.е. дополнительная параметризация, включение переменных Х2, Х3....,Хn) будет борьбой за оставшиеся 10%. Уточняющий вопрос в контексте Ваших слов ( "хочу предсказывать Y (т.е. какой-либо параметр роста), задавая X (возраст)") Вы хотите многомерную модель (несколько независимых переменных) или только одномерную (одна независимая переменная)? Сообщение отредактировал Green - 14.12.2009 - 14:26 Это не кованализ :)

Pinus Просмотр профиля	14.12.2009 - 15:36 Сообщение #46
Группа: Пользователи Сообщений: 244 Регистрация: 28.08.2009 Пользователь №: 6286	Green, если уже объясняется 90% дисперсии, и если на горизонте исследователя нет количественных факторов, могущих влиять на отклик, то зачем многомерная модель? Все, что мне нужно, это подтвердить или опровергнуть незначимость влияния Z. Если Z значим, то надо оставлять обе модели (для Z1 и Z2 раздельно), если незначим, то объединять выборки в одну выборку и строить одну модель для Z1 и Z2. Если сказать применительно к предложенному примеру, то в случае значимости Z, я буду предлагать обе модели и буду говорить, что в однорядных и парных посадках высота насаждения изменяется в зависимости от возраста по-разному (статистически достоверно). В случае незначимости Z, буду предлагать одну общую модель, и буду говорить, что в однорядных и парных посадках высота насаждения изменяется в зависимости от возраста одинаково.

DrgLena Просмотр профиля	14.12.2009 - 16:27 Сообщение #47
Группа: Пользователи Сообщений: 1325 Регистрация: 27.11.2007 Пользователь №: 4573	Для решения вашей задачи есть очень простой способ, описанный во всех старых книжках по биометрии, это сравнение коэффициентов корреляции. Два показателя линейно связаны и в условии Z1 и Z2 вне всякого сомнения rz1=0,949 rz2=0,9398 р=0,64. В программе Statistica есть возможность подставив значения n и r получить их сравнение. А дальше бощая модель. Но если нужно учесть двухвершинность распределения, то это мугут быть различные модели для например первых 30 лет и более для обоих z

nokh Просмотр профиля	14.12.2009 - 18:35 Сообщение #48
Группа: Пользователи Сообщений: 1219 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704	>Pinus Данные посмотрел, покрутил. Что выходит. (1) Во-первых, раз речь пошла о процессах роста, то нужно иметь ввиду разработанность этого направления. В основных чертах анализ кривых роста (growth curves) сложился ещё до 1950-х гг. Однако вычислительные сложности не позволяли обычным исследователям эффективно обсчитывать даже логистическую модель, не говоря уже о моделях Берталанфи или Гомперца. Сейчас каждый может обсчитать и эти, и другие появившиеся модели у себя за столом, а это требует современного подхода и к выбору адекватных моделей и последующему сравнению кривых роста для разных популяций. К сожалению, и по этой теме приходится складывать мозаику. Беглый сёрфинг показал, что не существует универсального уравнения роста и многие работы посвящены именно сравнению точности 3-5 различных моделей. Для сравнения кривых роста часто используется перестановочный (permutation) тест. Однако мне такой подход не нравится: ну обнаружим что отличаются, а в чём отличия? (2) Сложные модели привлекательны именно тем, что входящие в них параметры имеют хорошую теоретическую интерпретацию. Поэтому сравнить модели желательно и по отдельным параметрам, например по их доверительным интервалам. Хотя такой подход обладает меньшей мощностью, но зато в случае обнаружения различий их можно очень чётко интерпретировать по существу стоящих за ними различий биологических процессов. Думаю в лесоведении уже должны иметься некие стандарты или наработки по выбору и интерпретации параметров кривых роста. Такой подход для решения вашей задачи мне представляется наиболее глубоким и полным. (3) Если, возвращаясь к исходной задаче, отказаться от использования сложных моделей, то всё равно проблема выбора типа зависимости остаётся: линейная, степенная, логарифмическая? Считаю, что раз мы здесь отказываемся от теоретического бэкграунда и исходим только из прагматических соображений - необходимости спрямления кривых для последующего ковариационного анализа - то вправе использовать тот метод, который позволяет сделать это наилучшим способом. Такой метод - преобразование Бокса-Кокса для независимой переменной. В примере для первой выборки лямбда = 0,25. Это соответствует среднему значению между логарифмом Х (лямбда=0) и квадратным корнем из Х (лямбда=0,5) . Т.е. если вместо Х использовать (ln(x)+sqrt(x))/2 то ваша зависимость станет настолько прямой, насколько это только возможно. Для второй выборки лямбда = 0,90. Для идеальной прямой лямбда будет равна 1. Это говорит о том, что во второй выборке зависимость уже близка к прямой. Чтобы объединить данные в одном анализе Х должно быть преобразовано одинаково, т.е. приблизительно через преобразование квадратного корня (для объединённой выборки лямбда = 0,465, что близко к 0,5, а это эквивалентно взятию квадратного корня). Попробуйте построить эти зависимости используя вместо х корень из х. Получим: у1=3,31754х-8,36593; у2=3,34129х-8,40210. Т.о. после преобразования шкалы и спрямления зависимостей стало очевидным, что они не различаются ни по коэффициенту регрессии, ни по свободному члену. На графике эти линии просто сливаются в одну. Если использовать не преобразование квадратного корня, а преобразование Бокса-Кокса с лямбда = 0,465 различия ещё капельку меньше. Честно говоря не хочется искать очевидно отсутствующую разницу между -8,36593 и -8,40210 в ходе ковариационного анализа. Может выложите данные, где одна кривая на глаз проходит повыше другой? Если нет - могу показать технику ковариационного анализа и на этом примере, но будем работать ловя различия в десятых и сотых - не так наглядно. >DrgLena. Это задача поиска зависимости и поиска различий между несколькими зависимостями, поэтому использование сравнения корреляций задачу не решает. Ковариационный анализ в Statistica есть, но разбит на 2 части и выдаёт не всю информацию, которую можно из данных выжать, хотя всё основное вроде есть. Сейчас не помню какие у меня были претензии к Statistica - вот определимся с Pinus с примером и я выложу сюда ручной расчёт и листинг Statistica. Если коротко то сначала нужно сравнить наклоны (коэффициенты) регрессий: Advanced Linear/Nonlinear Models - General Linear Models - Homogeneity-of-slopes model. Смотреть эффект взаимодействия x (возраст) и Z (тип посадки). Если оно незначимо - наклоны равны (в случае сравнения более двух регрессий - однородны) - переходим здесь же к Analysis of covariance. Если различия наклонов значимы - смысла переходить ко второй фазе и искать различия в свободном члене нет. Для данных Pinus с преобразованным через квадратный корень возрастом имеем для различий наклонов: F_[1;123]=0,014; Р=0,973, что неудивительно, т.к. уравнения практически одинаковые. Сообщение отредактировал nokh - 14.12.2009 - 19:05

Green Просмотр профиля	14.12.2009 - 19:00 Сообщение #49
Группа: Пользователи Сообщений: 120 Регистрация: 27.08.2009 Пользователь №: 6284	Тогда: Первый вариант: 1. Доказательством того, что группы рандомизированы по возрасту может служить сравнение таблиц 2 х n возраст - кол-во в 1 гр. кол-во во 2 гр. Group Group Row 1 2 Totals 14 0 1 1 15 3 5 8 16 4 2 6 ...... Там нет значимой разницы между группами в количестве случаев. Т.е. данные рандомизированы. И принадлежат одной выборке. 2. Далее - непараметрическая статистика по высоте (нулевая гипотеза - высоты одинаковы) в двух группах. Опять же - нулевая гипотеза не отклоняется. ========== Второй вариант: Две регресионные модели : (Nonlinear estimation - Модуль Statistica 6.0) Наклон: Точечная и интервальные оценки: Estimate Standard t-value p-level Lo. Conf Up. Conf error df = 123 Limit Limit b1_1 0,313243 0,004668 67,09792 0,00 0,304003 0,322482 b1_2 0,323259 0,004616 70,02467 0,00 0,314122 0,332395 Оба коэффициента наклона достоверно не различаются ( см. точечное оценивание и доверит. интервал), что означает, что достоверной разницы в наклоне нет. ========== Третий вариант Модуль STATISTICA 6.0 - GRM (GLM) Зависимая переменная - высота Независимая непрерывная - возраст Независимая категориальная - группа Результаты говорят о том, что влияния группы нет. ======= Четвертый вариант: дискриминантный анализ. (StatiStica 6.0) Хи-квадрат тест показывает неээфективность дискриминации. ====== Если в Excel нарисовать тренды (аналог регрессии) для каждой группы и для всех данных вместе - то... видно в общем-то... ===== Возможно, когда несколько Ваших бинарных факторов будут влиять на модель - то будет несколько разных уравнений для комбининированных условий. Но с одним условием - имхо, не будет разных моделей. P.S. пока писала, Появился пост nokh. В принципе, вывод то тоже. Сообщение отредактировал Green - 14.12.2009 - 19:04 Это не кованализ :)

nokh Просмотр профиля	14.12.2009 - 19:23 Сообщение #50
Группа: Пользователи Сообщений: 1219 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704	Цитата(Green @ 14.12.2009 - 21:00) P.S. пока писала, Появился пост nokh. В принципе, вывод то тоже. Вывод - да, принцип другой. Повторю, что эта задача решается ковариационным анализом или более "навороченными" методами анализа кривых роста. Всё остальное - шум т.к неоптимально, хотя понравилась идея подстановки второго набора данных в модель, построенную по первому (буду признателен за ссылку) - решает ту же задачу что и перестановочный тест и применим к моделям любой сложности. Если хорошенько покопаться в справочнике Кобзаря - можно подобрать ещё десятка 2-3 методов, которые можно применить к рассматриваемым данным, но зачем? Задача не в том, чтобы один и тот же пример обсчитать всеми известными отдельному исследователю методами, а в том, чтобы обсчитать его с использованием стандартной для таких случаев и наиболее мощной статистической модели, пускай пока и неизвестной отельному исследователю . Также не стал бы усложнять и без того непростые модели введением новых переменных и переходом к множественной регрессии. Более эффективно - получить из всех исходных признаков новые обобщающие переменные (главные компоненты, факторы), интерпретировать их, а потом использовать их в ковариационном анализе. Поскольку на всё многообразие собранных Pinus признаков влияет меньшее число биологических факторов - можно выделить их в рафинированном виде и сравнивать древостои по ним. А так каждый признак несёт в себе смесь этих исходных факторов - где-то "выстрелит" один, где-то другой - ещё обобщать и обобщать. Сообщение отредактировал nokh - 14.12.2009 - 19:38

DrgLena Просмотр профиля	14.12.2009 - 19:56 Сообщение #51
Группа: Пользователи Сообщений: 1325 Регистрация: 27.11.2007 Пользователь №: 4573	Nokh, я поняла ваш подход, т.е. ковариационный анализ, но в новой Statistica вначале не нашла ANCOVA и не использовала ранее в работе, спасибо за подсказку. С сейчас, я думаю весьма полезным рассмотреть нарушение корреляционных зависимостей при сравнении групп, например, больных и здоровых . Вопрос к Green. Какое понятие вы вкладываете в выражение ?рандомизированы по возрасту?. Рандомизация в медицине имеет весьма конкретное и очень большое значение. Работы, в которых сравниваются две группы лечения, которые были рандомизированы по возрасту, дальше можно не читать. Рандомизация либо есть, либо нет, она не может быть по возрасту. Еще о работе форума, личные письма не доходят, хотя идет информация, что они успешно отправлены, но в отправленных их нет, как нет и ответов на них. Вряд ли у nokh и Игоря есть причины не отвечать на личные письма.

nokh Просмотр профиля	14.12.2009 - 20:44 Сообщение #52
Группа: Пользователи Сообщений: 1219 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704	Цитата(DrgLena @ 14.12.2009 - 21:56) Еще о работе форума, личные письма не доходят, хотя идет информация, что они успешно отправлены, но в отправленных их нет, как нет и ответов на них. Вряд ли у nokh и Игоря есть причины не отвечать на личные письма. Посмотрел, никаких личных сообщений действительно нет. Можете написать на nokhrin8собакаmail.ru.

Green Просмотр профиля	14.12.2009 - 22:40 Сообщение #53
Группа: Пользователи Сообщений: 120 Регистрация: 27.08.2009 Пользователь №: 6284	nokh, я понимаю, что аппарат КА может быть использован в данном случае. Я не понимаю, как возраст влияет на тип посадки и наоборот. Формально КА используется, когда есть влияние между независимыми переменными. Я его не увидела. Поэтому предпочла GLM и GRM. >Вывод - да, принцип другой. Не думаю, в данном случае совпадали именно принципы, а не конкретная реализация. Вы также смотрели коэффициенты, вы также составляли факторный план. >Также не стал бы усложнять и без того непростые модели введением новых переменных и переходом к множественной регрессии. Это как раз будет КА. Я так поняла, что у Pinus много номинальных факторов (условий). Использование МГК - достаточно сложно... и нужно ли? В общем, я предпочитаю упрощать а не усложнять. Еще вопросы, nokh. 1.После трансформации данные нужно проверять на нормальность? 2. В регрессии зависимая переменная должна быть нормальна. Если не ошибаюсь. А в КА? ----------- DrgLena "Доказательством того, что группы рандомизированы по возрасту может служить сравнение таблиц 2 х n" нужно читать "Доказательством того, что группы рандомизированы, может служить сравнение количества случаев по возрасту - таблица 2 х n при последующей проверке на нормальность" Рандомизация - это процедура, которая подразумевает, что данные будут случайны, без смещения. Я доказывала, что выбор образцов был случайным и подчинялся норм. закону. Т.е. смещения не было. Р.S. Я занимаюсь в основном разведочным анализом данных. Там все идет от понимания моделей (для меня, во всяком случае). Но последнее время появились работы, связанные напрямую со статанализом и медициной. Поэтому могу ошибаться в точных формулировках. Все поправки приму с благодарностью . Сообщение отредактировал Green - 14.12.2009 - 22:42 Это не кованализ :)

nokh Просмотр профиля	14.12.2009 - 23:40 Сообщение #54
Группа: Пользователи Сообщений: 1219 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704	Цитата(Green @ 15.12.2009 - 00:40) nokh, я понимаю, что аппарат КА может быть использован в данном случае. Я не понимаю, как возраст влияет на тип посадки и наоборот. Формально КА используется, когда есть влияние между независимыми переменными. Я его не увидела. Поэтому предпочла GLM и GRM. ... Еще вопросы, nokh. 1.После трансформации данные нужно проверять на нормальность? 2. В регрессии зависимая переменная должна быть нормальна. Если не ошибаюсь. А в КА? Возраст, конечно, на тип посадки не влияет. Требуется как в дисперсионном анализе или тесте Стьюдента выявить влияние типа посадки на средний размер дерева. Если бы все деревья были одного возраста - никаких проблем. Но вмешивается возраст, который также влияет на размер дерева и выступает в анализе непрерывной ковариатой. Поэтому и используется регрессионная техника: с её помощью выражаются регрессионные зависимости признака от ковариаты, а оценка различий между типами посадки сводится тогда к оценке различий между свободными членами регрессий. Ключевой здесь является параллельность зависимостей. Ковариационный анализ (как и дисперсионный, и регрессионный) является частным случаем General Linear Models (GLM), которая в свою очередь является частным случаем Generalized Linear Models. Данные на нормальность проверять не нужно. Представьте, что у нас всего три возраста, скажем 10, 20 и 30 лет. Тогда распределение Y будет тримодальным - никакой нормальности. Но внутри каждого возрастного класса распределение должно быть нормальным, однако в силу особенностей данных такую проверку мы выполнить не можем. Поэтому в регрессии (как и в дисперсионном анализе) смотрится распределение ошибок - рассеяние относительно теоретической линии регрессии - оно должно быть нормальным, иначе данные нужно преобразовывать или использовать другую модель. Сообщение отредактировал nokh - 14.12.2009 - 23:41

Pinus Просмотр профиля	15.12.2009 - 08:43 Сообщение #55
Группа: Пользователи Сообщений: 244 Регистрация: 28.08.2009 Пользователь №: 6286	Nokh, к сожалению сильно отличающихся данных нет (будут только после второго этапа эксперимента). Те, что есть, все наподобие этого примера. Раз нет реальных данных, давайте сделаем искусственные. Предлагаю уменьшить Y(Z2) на 0,8. Значения остальных переменных оставить такими же. Z2 будем считать не парными, а одиночными посадками (тогда сохранится какая-то теоретическая логика).

Green Просмотр профиля	15.12.2009 - 12:10 Сообщение #56
Группа: Пользователи Сообщений: 120 Регистрация: 27.08.2009 Пользователь №: 6284	nokh, пытаюсь осмыслить "а оценка различий между типами посадки сводится тогда к оценке различий между свободными членами регрессий". Свободный член в линейном уравнении означает сдвиг прямой вдоль оси Y. Что означает, что посаженные образцы были изначально выше в одной группе, чем в другой? Регрессия от возраста - это сколько дерево прибавило в росте за год. Если она линейная - это означает, что в 1 и 2 группах деревья одинаково прибавляли в росте (0,31м за год по модели). --------------- Второе, что пытаюсь осмыслить: "Поэтому в регрессии (как и в дисперсионном анализе) смотрится распределение ошибок - рассеяние относительно теоретической линии регрессии - оно должно быть нормальным, иначе данные нужно преобразовывать или использовать другую модель." и соотнести с тем, что вы занялись преобразованием ДО построения модели. Ведь ошибки сразу были нормальные, до преобразования. Какой смысл тогда был в преобразовании? Это не кованализ :)

Green Просмотр профиля	16.12.2009 - 14:18 Сообщение #57
Группа: Пользователи Сообщений: 120 Регистрация: 27.08.2009 Пользователь №: 6284	nokh, по поводу ссылки на подстановку данных в модель именно с такой оценкой - пока не могу найти Сам подход достаточно известен в разведочном анализе, выборка рандомно разбивается 2 или более частей (обучающая и тестовая), по одной части строится модель, по остальным верифицируется. Иногда, например, для оценки процента корректной классификации, после построения модели по обучающей выборке, случайным образом генерируется множество подвыборок из тестовой модели и уже полученные данные по проценту корректной классификации ( или ошибки классификации) - образуют выборку, которая обрабатывается статистически ( среднее, дисперсия). Есть и др. Но это уже совсем не имеет отношения к обсуждаемой теме. Если не возражаете и есть интерес по построению моделей - то напишу уже на мыло. Да, и еще. Comparability Test - для JointPoint тут - http://srab.cancer.gov/joinpoint/comparabilitytest.html Если иметь ввиду, что для линейной регрессии jp=0, то можно посмотреть, во что превращается выражение для тестовой статистики. Это не кованализ :)

nokh Просмотр профиля	16.12.2009 - 15:49 Сообщение #58
Группа: Пользователи Сообщений: 1219 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704	>Green Я начну сегодня готовить раздельчик по ковариационному анализу, типа как по анализу остатков - гл. обр. формулы. Постараюсь ответить на ваши вопросы там. Про перекрёстную проверку (crossvalidation) читал года 2-3 назад много, но до практики не дошло - выборки почти всегда крошечные, а без практики всё быстро забылось. Спасибо за ссылку по JointPoint, всё сгребу в архив, может пригодится когда: конспект вот по ковариационному анализу за 10 лет всего второй раз понадобился.

Игорь Просмотр профиля	16.12.2009 - 17:45 Сообщение #59
Группа: Пользователи Сообщений: 1162 Регистрация: 10.04.2007 Пользователь №: 4040	Цитата(nokh @ 16.12.2009 - 15:49) Я начну сегодня готовить раздельчик по ковариационному анализу, типа как по анализу остатков - гл. обр. формулы. Может, поможет информация. Подборка формул по ковариационному анализу есть на с. 239 "Справочника по математическим методам в геологии" Д.А. Родионова с соавт. (1987 г.). Пример можно взять на с. 42 книги Milliken G.A., Johnson D.E. Analysis of messy data. Volume III: Analysis of covariance. - Boca Raton, FL: Chapman & Hall/CRC, 2002. Далее в книге формул нет, но есть выдача SAS для этих данных. Источники встречаются в электронном виде. Сообщение отредактировал Игорь - 16.12.2009 - 17:49 Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!

nokh Просмотр профиля	16.12.2009 - 19:45 Сообщение #60
Группа: Пользователи Сообщений: 1219 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704	Цитата(Игорь @ 16.12.2009 - 19:45) Может, поможет информация... Большое спасибо! По аncova вряд ли поможет - у меня конспект по Sokal & Rohlf. Biometry, там достаточно полно всё изложено. Хотя, конечно, посмотреть не помешает. А вот справочник Родионова искал уже в 2 этапа, но на тот период не находил в сети. Сейчас значит должен найти. Пусть немного не в тему, но целые блоки современных стат. методов, применяемых в геологии, почти целиком не описаны по-русски: работа с композиционными данными, включая сложности многомерного анализа, а также визуализации на тройных диаграммах (ternary plot), работа с цензурированными наблюдениями типа "менее чем" (nondetect, "less-then" values), весь спектр геостатистических методов (анализ вариограмм, различные варианты кригинга и симуляционных методов интерполяции пространственных (regionalized) переменных. В принципе, все они могут и должны применяться и в медицине, но разрабатываются почти исключительно геологами и гео- или гидрохимиками. PS Скачал Milliken & Johnson Analysis of covariance. Конечно с Sokal & Rohlf несопоставимо: у них глава в книге из 850 стр., а здесь целая книга на 625 стр Сделаю так: (1) Поскольку линейная форма зависимости является необходимым условием классического ковариационного анализа - нужно уметь спрямлять кривые. У меня есть бесплатная программка для этого с различными вариантами преобразования Бокса-Кокса, но несколько неудобная. Хотя последнее время делал его неоднократно в AtteStat, один раз пришлось вернуться к старой - лямбда была около 3, а в AtteStat жёстко выставлено [-2; 2]. И ещё в ней есть спрямление кривых через БК-преобразование независимой переменной. Долгое время она была доступна на сайте автора, однако когда он включил этот модуль в свою последнюю версию также бесплатной программы Rundom Pro ( http://pjadw.tripod.com ), данную программку убрал. Но поскольку автор разрешил распространять её - выкладываю её здесь. На данных Pinus покажу как спрямлять кривые с её помощью. Если у Игоря будет интерес расширить БК на решение этой задачи: автор пишет об источнике: "After some modifications of the procedure (but not the transformation itself), it is possible to use it to find the transformation of the X variable that improves the linear fit of Y against X. - for more details see Engineering Statistics Handbook ( online; http://www.itl.nist.gov/div898/handbook/index.htm ) " (2) Поскольку оригинальные данные Pinus не наглядны для демонстрации ANCOVA и содержат только 2 зависимости, воспользуюсь советом Игоря и прорешаю пример с конфетками из Milliken & Johnson. Минус этих данных - зависимости вроде исходно прямые, плюсы - они уже проанализированы с помощью SAS (интересно сопоставить решения) и одновременно сравнивается 6 линий. Сообщение отредактировал nokh - 16.12.2009 - 21:12 Прикрепленные файлы Rundom_Box_Cox.zip ( 336,81 килобайт ) Кол-во скачиваний: 1108

Pinus Просмотр профиля	17.12.2009 - 16:47 Сообщение #61
Группа: Пользователи Сообщений: 244 Регистрация: 28.08.2009 Пользователь №: 6286	Цитата(nokh @ 17.12.2009 - 02:45) А вот справочник Родионова искал уже в 2 этапа, но на тот период не находил в сети. Сейчас значит должен найти. Есть в ЭБ Нефть и газ, но за бабосы. Цитата(nokh @ 17.12.2009 - 02:45) Поскольку оригинальные данные Pinus не наглядны для демонстрации ANCOVA и содержат только 2 зависимости, воспользуюсь советом Игоря и прорешаю пример с конфетками из Milliken & Johnson. Минус этих данных - зависимости вроде исходно прямые, плюсы - они уже проанализированы с помощью SAS (интересно сопоставить решения) и одновременно сравнивается 6 линий. Не беда, главное чтобы понять суть и технику. Есть еще просчитанный пример ancova в Statistica в кн. Юнкеров_Математико-статистическая обработка данных медицинских исследований с. 99-101, 111-120. Но только теория и техника анализа не приводится, даются готовые таблицы с результатами.

DrgLena Просмотр профиля	17.12.2009 - 23:38 Сообщение #62
Группа: Пользователи Сообщений: 1325 Регистрация: 27.11.2007 Пользователь №: 4573	В принципе, пример Юнкерова дает представление о принципе метода и интерпретации результата, но в его примере 6.2 на 27 больных 9 уровней, по 3 больных в группе.

Pinus Просмотр профиля	18.12.2009 - 01:12 Сообщение #63
Группа: Пользователи Сообщений: 244 Регистрация: 28.08.2009 Пользователь №: 6286	Цитата(DrgLena @ 18.12.2009 - 06:38) В принципе, пример Юнкерова дает представление о принципе метода и интерпретации результата, но в его примере 6.2 на 27 больных 9 уровней, по 3 больных в группе. Посмотрел внимательней. Это не такой пример. Здесь в анализе только одна регрессия, и анализируется степень влияния основных (качественных) факторов и сопутствующих (ковариат). По сути это дисперсионный анализ с оценкой значимости коэффициентов регрессии. А судя по постам Nokh, сравнение должно идти по свободным членам нескольких параллельных регрессий. Хотя этот пример тоже один из вариантов. По всей видимости разных вариантов ковариационного анализа много. Сообщение отредактировал Pinus - 18.12.2009 - 01:15

Green Просмотр профиля	18.12.2009 - 12:33 Сообщение #64
Группа: Пользователи Сообщений: 120 Регистрация: 27.08.2009 Пользователь №: 6284	Pinus, пример и мне не очень. Но и Ваши данные специфичны. грубо говоря y=f(ковариата) + f(качественные факторы) у-f(ковариата)=f(качественные факторы) у Вас получается 100% дисперсии распадается на 90%, которая объясняется ковариатой, и 10% нормального остатка, который должен быть объяснен качественными факторами ( т.е. этот норм. остаток должен разложится на значимо разделяемые распределения). В примере Юнкерова длительность лечения определялась начальными условиями,т.е. условиями на старте. В каком состоянии попал в больницу, какая тяжесть травмы. Аналогия с Вашим примером такова - если за нач. условия принять дату посадки - то в какие условия было посажено дерево и его высота при посадке. Отсюда и был мой вопрос об остатках. Вас же интересует как меняется скорость роста при разных типах посадки (начальных условиях),т.е НЕпараллельность уравнений регресии при различном факторе воздействия. Т.е. если бы фактор воздействовал на возраст...... в общем, с процессами во времени не все так просто. Ждем nokh c его материалом. Это не кованализ :)

Игорь Просмотр профиля	21.12.2009 - 11:17 Сообщение #65
Группа: Пользователи Сообщений: 1162 Регистрация: 10.04.2007 Пользователь №: 4040	Ковариационный анализ есть в книге "Афифи А., Эйзен Ф. Статистический анализ. Поход с использованием ЭВМ. - М.: Мир, 1982, параграф 4.6" (замечена в Интернете). Т.о. на русском языке приличных (= с формулами и какой-никакой теорией) источников всего 3: в дополнение к упомянутому, это книга Шеффе и параграф в справочнике Родионова (без примера). Книги по ударно-нажимному применению трофейных компьютерных программ за серьезные источники не считаю. Не обошлось без курьезов. Утверждается http://office.microsoft.com/ru-ru/excel/HP052038731049.aspx, что ковариационный анализ имеется в Excel. Тут же данная информация цитируется http://www.statplus.net.ua/ru/help/source/a_covar.htm. Легко заметить, что к ковариационному анализу все это никакого отношения не имеет. Грубо говоря (а здесь считаю это уместным), в данных источниках содержится полная чушь. Еще любят (в т.ч. авторы упомянутых в теме источников, а также ПО) назвать нечто "Ковариационный анализ", а затем, как в старом студенческом анекдоте про огурец (http://kok-blog.1gb.ru/), выдать в теме все, что знали про дисперсионный анализ. Сообщение отредактировал Игорь - 21.12.2009 - 11:53 Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!

DrgLena Просмотр профиля	21.12.2009 - 13:58 Сообщение #66
Группа: Пользователи Сообщений: 1325 Регистрация: 27.11.2007 Пользователь №: 4573	Можно дополнить список "приличных" переводных книг: 1. Сербер Дж. Линейный регрессионный анализ. 1980. Глава 10 стр 273 посвящена ковариационному анализу. 2. Кендал и Стюарт Многомерный анализ и временные ряды. 1976 Ковариационный анализа с.79 матричная форма. 3. Болч Б., Хуань К.Дж Многомерные стат. методы для экономики 1978 . Этой книги у меня нет, если кто найдет поделитесь ссылкой. Но Афифи и в этом вопросе просто, ясно и доступно, с четким определением понятий, выделенных курсивом, и толковым переводом. Все примеры можно посчитать и руками и пакетом. Кстати, заканчивая описание примера, Афифи пишет, что SS для диеты в SPSS, не совпадает с другими пакетами, сейчас совпадает и Statistica и SPSS по этому примеру совпадают. Сообщение отредактировал DrgLena - 21.12.2009 - 16:26

nokh Просмотр профиля	21.12.2009 - 19:43 Сообщение #67
Группа: Пользователи Сообщений: 1219 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704	На форуме заработали личные сообщения - получил сейчас от Игоря. Ещё раз огромное спасибо! >DrgLena. Возможно на мэйл.ру были проблемы во время отправки сообщения на мой адрес, т.к. я тоже не мог отправить Игорю письмо - дважды возвращалось, только с рамблера отправил. По Ancova. Работаю . Дня через 2-3 закончу, но все задержки - к лучшему: получается полнее чем планировал. Кстати Milliken & Johnson хоть и написали по Ancova целую книгу на 600 страниц, для восприятия она сложна. Ещё авторы обильно разбавляют материал полными выкладками результатов SAS и JMP. Эдак можно любой учебник до собрания сочинений разбавить. Цитата(DrgLena @ 18.12.2009 - 01:38) В принципе, пример Юнкерова дает представление о принципе метода и интерпретации результата... К книге Юнкерова у меня двойственное отношение. С одной стороны вызывает уважение сам факт доведения человеком своего труда до печатного варианта, т.к. сам уже более года не могу закончить нашу коллективную монографию по результатам подробных ежегодных отчётов, где уже почти всё есть. С другой стороны вреда от таких книг больше чем пользы, т.к. они демонстрируют пренебрежительное отношение к научному методу познания и создают полную иллюзию простоты анализа, особенно когда под рукой есть какая-нибудь волшебная программа. Отчасти автора оправдывает, что делается это не злонамеренно, а по искреннему неведению. Именно поэтому всё изложение строится как пересказ возможностей программы, без рекомендаций выбора тех или иных опций, в которых новичку ничего не понятно, именно поэтому в линейном дискриминантном анализе массово появляются качественные предикторы, а в регрессионном - непреобразованные частоты и.т.д. и т.п. Сообщение отредактировал nokh - 21.12.2009 - 22:28

Green Просмотр профиля	22.12.2009 - 18:46 Сообщение #68
Группа: Пользователи Сообщений: 120 Регистрация: 27.08.2009 Пользователь №: 6284	nokh, Меня у Юнкерова насторожил тот пример (остальное не было времени смотреть). 27 кейсов. План 3х3. Т.е. три измерения в каждом в среднем. Плюс 3 ковариаты... По скромным подсчетам - должно быть минимум раза в два больше кейсов. Вообще, в Вашем изложении ковариационного анализа - может, напишете приблизительную оценку объема данных для проведения анализа с одной ковариатой, с двумя и т.д. при разном кол-ве факторов? Это не кованализ :)

Игорь Просмотр профиля	23.12.2009 - 06:43 Сообщение #69
Группа: Пользователи Сообщений: 1162 Регистрация: 10.04.2007 Пользователь №: 4040	Цитата(DrgLena @ 21.12.2009 - 14:58) Но Афифи и в этом вопросе просто, ясно и доступно, с четким определением понятий, выделенных курсивом, и толковым переводом. Все примеры можно посчитать и руками и пакетом. Пользуясь только книгой Афифи с соавт., посчитать пример "вручную" полностью нельзя, т.к. формул не хватает (то ли автор упустил, то ли переводчик - последнее проверить не смог, т.к. из последнего иностранного издания книги авторы обсуждаемый раздел убрали, а старого найти не удалось). Все недостающие формулы тут: Wildt A.R., Ahtola O. Analysis of covariance. - Newbury Park, CA: Sage Publications, 1978. По поводу справочника Родионова - погорячился. Как бы выразиться тактичнее: параграф по ковариационному анализу - не самый сильный в справочнике. Сообщение отредактировал Игорь - 23.12.2009 - 07:54 Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!

nokh Просмотр профиля	23.12.2009 - 20:02 Сообщение #70
Группа: Пользователи Сообщений: 1219 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704	Закончил свой трактат. Результаты совпадают с результатами Statistica (уже нет желания делать листинги), а в части доверительных интервалов для согласованных (adjusted) средних - превосходят их, т.к. более узкие. Программку для спрямления кривых с помощью преобразования Бокса-Кокса выкладывал в этой теме форума (сообщение ? 60). Цитата(Green @ 22.12.2009 - 20:46) ...может, напишете приблизительную оценку объема данных для проведения анализа с одной ковариатой, с двумя и т.д. при разном кол-ве факторов? Не встречал таких формул даже для двухфатороного дисперсионного анализа, наверное очень сложно посчитать. Но анализировать имеющиеся данные, думаю, стоит в любом случае: не хватит мощности - не так страшно - нулевая гипотеза останется в силе ещё какое-то время. Потомки отклонят . Обнаружены ошибки/описки. Следует читать: Стр. 9 …как дисперсии x и у, умноженные на число степеней свободы… Стр.13… для демонстрации полного разложения изменчивости в ходе ковариационного анализа (см. эффекты ?Между? и ?Внутри? в табл. 11), он представлен в таблице 8. Стр. 16 … (planned) Стр. 16…(Tukey-Kramer) Стр. 17. Как видно из рис. 5, с точностью до сотых… Сообщение отредактировал nokh - 23.12.2009 - 23:18 Прикрепленные файлы Ковариационный_анализ.rar ( 564,97 килобайт ) Кол-во скачиваний: 1203

DrgLena Просмотр профиля	23.12.2009 - 21:26 Сообщение #71
Группа: Пользователи Сообщений: 1325 Регистрация: 27.11.2007 Пользователь №: 4573	Цитата(nokh @ 23.12.2009 - 20:02) Закончил свой трактат. Я желаю Вам искренне, закончить и другой трактат, о котором вы упомянули, где и другие методы также толково будут представлены. Я занимаю очередь на покупку этого трактат. А чтобы не обсасывать приторные конфетки, готова поискать у себя данные биомедицинского профиля под любые методы анализа. Благодаря этой ветке форума, я кое- что уже раскопала из старых данных, где очень кстати будет ковариационный анализ. Успехов Вам!

nokh Просмотр профиля	24.12.2009 - 00:09 Сообщение #72
Группа: Пользователи Сообщений: 1219 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704	>DrgLena Если бы писал по анализу данных! Книгу доделываю по экологии наших местных водоёмов. Хотя если "нырять" поглубже - есть тоже много интересного, в т.ч. и по анализу. Нестрогий план на 2 года включает монографию и докторскую, потом нужно пережить 2012 г (очень уж пугают ) и при условии сохранения существующего миропорядка можно будет смело браться за учебник по анализу данных (наработки есть, но красивых данных всегда не хватает и ближе к делу, думаю, воспользуюсь Вашим предложением, спасибо!). >Green Забыл совсем про проверку нормальности распределения ошибок. Её нужно делать сразу на этапе проверки однородности наклонов и если остатки будут распределены ненормально - преобразовывать также и y. Для поиска преобразования y можно использовать того же Бокса-Кокса, но классического - "заточенного" на нормальность. Если проанализируете данные Pinus после спрямления (результаты я где-то выше кратко описал) - увидите, что и после преобразования шкалы остатки были распределены примерно нормально, никаких хвостов не образовалось ни справа, ни слева. Сообщение отредактировал nokh - 24.12.2009 - 06:52

Игорь Просмотр профиля	24.12.2009 - 07:42 Сообщение #73
Группа: Пользователи Сообщений: 1162 Регистрация: 10.04.2007 Пользователь №: 4040	Цитата(nokh @ 23.12.2009 - 21:02) Закончил свой трактат. Совсем не то, что ожидал увидеть, но очень интересно. Живой взгляд на проблему. Студентам понравится. Хорошо, что ничего общего с моими выкладками (включая источники), которые представляют собой две страницы формул. Немного причешу, выложу в новой версии AtteStat. Совпадает с опубликованными примерами. В процессе анализа нашел ошибки у Афифи (чисто расчетные, из-за округления - не в теории, там все строго) и у Wildt с соавт. (одна незначительная ошибка вычисления). Как результаты Афифи могут совпадать с результатами Statistica, как утверждается выше, не вполне понимаю. Сейчас думаю, Афифи и Wildt (почти брошюра) - две основные книги, которые могут быть использованы при работе над темой ковариационного анализа. К сожалению, "Биометрию" Sokal найти не удалось - хотелось бы ознакомиться. Вообще, это одна из двух книг, на которые все ссылаются. Вторая - это "Непараметрическая статистика" Conover. И ее тоже нет! Небольшое замечание (хотя можно и не учитывать). Линеаризацию и прочее убрал бы из числа этапов коварационного анализа (а именно, первые два и восьмой - исключить из данной темы). Считаю, для метода достаточно сформулировать формальные требования. Т.е., полагать, что адекватные данные для описываемого метода уже представлены. А все преобразования данных - это этап их подготовки (подгонки к требованиям метода) - отдельная тема. Сообщение отредактировал Игорь - 24.12.2009 - 07:54 Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!

nokh Просмотр профиля	24.12.2009 - 08:32 Сообщение #74
Группа: Пользователи Сообщений: 1219 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704	Да, получилось типа методички, но практика показывает, что такое потенциально может понравится не более чем 1-3 студентам из 40-50. У аспирантов должно быть побольше, но они озабочены в первую очередь сбором материала, а до анализа доходит когда уже "горит". С замечаниями/пожеланиями полностью согласен, но учитывая самостоятельность раздела (этакий сингл) может оно и к лучшему: предыдущий pdf - черновик по выбросам уже находится поисковиками самостоятельно, в отрыве от этого форума. Sokal & Rohlf конспектировал выборочно в аспирантуре, потом долго искал в сети и тоже не нашёл. Хотел как-то даже купить на ebay себе на день рождения, но передумал (купил джинсы и апгрейдил компьютер:) . Учитывая, что у Sokal & Rohlf вышло уже 3 издания с периодичностью лет в 12 и последнее было в 1995, уже можно ждать четвертого при условии что авторы живы-здоровы. А сейчас всё что выходит оцифровывается. Из авторитетных учебников мелькал также Zar с Biostatistical analysis, но в своё время также не нашёл. Но в целом в интернете столько всего, что при определённых затратах времени всегда можно собрать любой раздел из разных источников.

Pinus Просмотр профиля	24.12.2009 - 09:57 Сообщение #75
Группа: Пользователи Сообщений: 244 Регистрация: 28.08.2009 Пользователь №: 6286	DrgLena, у Вас с какой точностью совпадение со Statistica? У меня получается так Равенство скорректированных средних (Диета): SS=0,10077; MS=0,03359; F=60,53 Нулевой наклон (Сопутствующая переменная): SS=14,03970; MS=14,03970; F=25300,43 В примере так Равенство скорректированных средних (Диета): SS=0,103; MS=0,0345; F=57,5 Нулевой наклон (Сопутствующая переменная): SS=14,039; MS=14,0387; F=23999 Если бы пример в книге был ручного расчета, то расхождение можно было бы объяснить ошибками округления, но примеры машинные, на разных программах. Почему так может быть? Сообщение отредактировал Pinus - 24.12.2009 - 09:58

Pinus Просмотр профиля	24.12.2009 - 09:59 Сообщение #76
Группа: Пользователи Сообщений: 244 Регистрация: 28.08.2009 Пользователь №: 6286	Nokh, великое Вам спасибо за конспект! Пока только бегло просмотрел. Спасибо также за Хальда, многое стало понятно. Эта книга неплохое подспорье к Афифи, только по-иному формулы и другая символика. Мне еще конечно разбираться и разбираться, но со вчерашнего дня некий прорыв. А то после Шеффе и Кендалла как-то было тоскливо.

DrgLena Просмотр профиля	24.12.2009 - 18:01 Сообщение #77
Группа: Пользователи Сообщений: 1325 Регистрация: 27.11.2007 Пользователь №: 4573	Цитата(Игорь @ 24.12.2009 - 07:42) (одна незначительная ошибка вычисления). Как результаты Афифи могут совпадать с результатами Statistica, как утверждается выше, не вполне понимаю. Я утверждала, что результаты по примеру из Афифи полностью совпадают в программе Statistica и SPSS и это сейчас, действительно так, документ с результатами прилагаю. Но с расчетом откорректированных средних ?У?, которые представлены в таб А на стр 307 у Афифи расхождения в четвертом знаке после запятой, понятное дело, свякие там округления, а может и найденная вами ошибка. Но если измерения сделаны до третьего знака, но можно сказать, решение в этих двух программах с результатами Афифи совпадают. Не сомневаюсь , что и AtteStat даст такой же результат, как и гиганты. Прикрепленные файлы Var3.doc ( 49,5 килобайт ) Кол-во скачиваний: 483

Игорь Просмотр профиля	25.12.2009 - 20:40 Сообщение #78
Группа: Пользователи Сообщений: 1162 Регистрация: 10.04.2007 Пользователь №: 4040	Цитата(Pinus @ 24.12.2009 - 09:57) DrgLena, у Вас с какой точностью совпадение со Statistica? У меня получается так ... Если бы пример в книге был ручного расчета, то расхождение можно было бы объяснить ошибками округления, но примеры машинные, на разных программах. Почему так может быть? Мы с Вами неудачный пример взяли. Хотя он был первым, на который наткнулись в книге Афифи. Неудачный потому, что пошагово расчеты в источнике не сделаны. Ошибиться автор мог где угодно. Так, в нашей практике был случай, когда автор подставил в программу просто не совсем те данные, что опубликовал в примере. Поэтому предлагаю взять и просчитать пример из книги Wildt c соавт. Итак, данные на с. 33: Код X Y X Y X Y 190 177 252 226 206 226 261 225 228 196 239 229 194 167 240 198 217 215 217 176 246 206 177 188 Далее я воспользуюсь для сравнения выдачей тестовой версии программы AtteStat (для пользователей она недоступна, имеет спартанский интерфейс в виде командной строки, но сейчас это неважно): Код Mean X Mean Y 215.5 186.25 241.5 206.5 209.75 214.5 Exx = 5494.75 Exy = 4007 (в источнике небольшая ошибка: 4005.67, практически не влияющая на результат) Eyy = 3670.75 Txx = 7784.25 Txy = 4153.75 Tyy = 5366.92 Mxx = 2289.5 Mxy = 146.75 Myy = 1696.17 MSM = 1200.88 (обозначения из Афифи) MSZ = 2922.07 MSE = 93.5849 MSB = 36.8416 MSR = 112.499 sm = 12.832 - эта статистика в источнике не считается sg = 31.2237 (с. 39) sb = 0.327483 (с. 38) Все совпадает! Отдельно отметил статистики Sg и Sb. Их вычисление см. на соответствующих страницах Wildt, в справке AtteStat, а также у Афифи, причем для последней статистики Афифи формул не дает, но их дает Wildt. Характерно, что обозначения в использованных источниках совпадают. Теперь выдача последнего релиза AtteStat для тех же данных (вместе с P-значением): Код Sm 12,83196987 0,000519513 Sg 31,22374679 3,61582E-05 Sb 0,327482818 0,550118658 P.S. Может возникнуть вопрос, почему в релизе AtteStat не выводятся все промежуточные результаты. А потому что, полагаем, в отличие от уважаемых коллег, этого не нужно. Афифи, кстати, это подтверждает. Нужно проверить три гипотезы: выдать три статистики и их P-значения. И достаточно. Сообщение отредактировал Игорь - 26.12.2009 - 12:25 Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!

DrgLena Просмотр профиля	25.12.2009 - 23:18 Сообщение #79
Группа: Пользователи Сообщений: 1325 Регистрация: 27.11.2007 Пользователь №: 4573	Nokh ведь уже показал, по каким формулам считают большие программы, и привел ссылки, результат по конфеткам полностью, до любого знака совпадают, см. табл. 9 на стр 14 у Nokh и результат Statistica, SPSS, NSCC совпадают. Univariate Tests of Significance for y (конфетки.sta) 545,367 1 545,367 8,98161 0,005660 1473,629 1 1473,629 24,26910 0,000034 3988,089 5 797,618 13,13591 0,000001 1700,171 28 60,720 А что по конфеткам или примером из Афифи получается в Attestat, так как в SAS или есть расхождения из за найденной вами ошибки у Афифи? Кроме статистик также хорошо было бы на выходе получить скорректированные средние, которые приводит Афифи. Сообщение отредактировал DrgLena - 25.12.2009 - 23:30

DrgLena Просмотр профиля	25.12.2009 - 23:54 Сообщение #80
Группа: Пользователи Сообщений: 1325 Регистрация: 27.11.2007 Пользователь №: 4573	"Большим" программам повезло. Форма выдачи сильно искажается, но совпадение легко найти. Univariate Tests of Significance for y (Игорю.sta) Effective hypothesis decomposition SS Degr. of MS F p Freedom Intercept 179,3856 1 179,386 1,9168225 0,203597 x2 2922,0709 1 2922,071 31,2237468 0,000518 f 2401,7570 2 1200,878 12,8319699 0,003189 Error 748,6791 8 93,585 Поздравляю AtteStat! Но не нашла у вас intersept, другие обозначения (F=1,91168; p=0,203597) Сообщение отредактировал DrgLena - 26.12.2009 - 00:01

nokh Просмотр профиля	25.12.2009 - 23:59 Сообщение #81
Группа: Пользователи Сообщений: 1219 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704	Цитата(Игорь @ 25.12.2009 - 22:40) Мы с Вами неудачный пример взяли. Хотя он был первым, на который наткнулись в книге Афифи. Неудачный потому, что пошагово расчеты в источнике не сделаны. Ошибиться автор мог где угодно. Так, в нашей практике был случай, когда автор подставил в программу просто не совсем те данные, что опубликовал в примере. Поэтому предлагаю взять и просчитать пример из книги Wildt c соавт. Итак, данные на с. 33: ... Странно это всё. Я по Вашей наводке рассчитал пошагово абсолютно дурацкий пример только затем чтобы "пошагово", а Вы теперь предлагаете другой. Это раз. Мой пример мало того что рассчитан пошагово, так ещё и совпадает с результатами "большого" пакета, а алгоритм взят из авторитетного источника. Воды, не спорю, много, но все формулы и расчёты есть, пусть и студенческие. Спрашивается почему я теперь должен верить работе алгоритма в пакете, если Вы сами сомневаетесь в совпадении результатов со Statistica, а я самолично и пошагово убедился, что она считает верно? Это - два. А под занавес: Цитата(Игорь @ 25.12.2009 - 22:40) P.S. Может возникнуть вопрос, почему в релизе AtteStat не выводятся все промежуточные результаты. А потому что, полагаем, в отличие от уважаемых коллег, этого не нужно. Афифи, кстати, это подтверждает. Нужно проверить три гипотезы: выдать три статистики и их P-значения. И достаточно. Я ищу хлеб с хрустящей корочкой. Вместо этого мне предлагают сухари. Возьму ли я сухари? Возьму, потому что бесплатно. Но и после этого мне всё равно нужен хлеб с корочкой. И это несмотря на то, что два уважаемых араба на другом краю планеты убеждены, что я могу обойтись сухарями. А я не могу. И не просто не "не хочу" из вредности, а "не могу". И прав здесь - однозначно я! Если мне нужно, чтобы любая GLM сопровождалась подробнейшей таблицей результатов дисперсионного анализа - я буду искать софт, где это реализовано. Может мне это нужно для ручной декомпозиции дисперсий по Сэттервейту, может - для мета-анализа, да мало ли... И большинство пакетов дают мне такую возможность. Более того, мне нужно, чтобы помимо SS, df, MS, F и P пакет выдавал ещё и структуру математических ожидаемых средних квадратов, потому что надоело каждые пол-года - год сидеть над учебником Монтгомери по несколько часов, а то и дней, вспоминать что и как, прорешивать тестовые примеры, чтобы убедиться что вспомнил, решать и перепроверять уже свои данные, а потом все заново забывать без ежедневной практики. А ещё мне нужно, чтобы пакет делал высококачественные рисунки с широкими возможностями их редактирования. И поскольку, скажем, для ancova такого ни один пакет в мире не делает, я буду искать такой пакет, который максимально облегчит мне задачу. Например, выдаст параметры всех частных регрессий и их adjusted варинтов. А дальше я буду искать по-возможности бесплатный пакет, который позволит ввести эти уравнения, построить красивый график и отредактировать его. И все это мне нужно. В отличие от работающих по техническому заданию программистов "больших" пактов, Вы имеете уникальную возможность вживую общаться с потребителями Вашего интеллектуального продукта. Почему же Вы отметаете наши "студенческие" желания как несерьёзные? Да и кто является главным пользователем AtteStat: математики, важные доктора наук, "продвинутые" врачи, самовлюблённые профессиональные статистики/биостатистики с других сайтов или же молодёжь: студенты, аспиранты, молодые учёные (да горстка людей из тех кому за ..., увлечённых грамотным анализом данных)? PS. Пост Drg Len'ы появился пока всё это писал, но уже устал сегодня - лень редактировать свой комментарий. Сообщение отредактировал nokh - 26.12.2009 - 01:04

Игорь Просмотр профиля	26.12.2009 - 11:36 Сообщение #82
Группа: Пользователи Сообщений: 1162 Регистрация: 10.04.2007 Пользователь №: 4040	[Исправлено - я ошибся в вводе данных] Результаты по шоколадкам будут Код Mean X Mean Y 25.75 45.375 27.75 58.625 20 40.25 22.5 38.5 29.2 27.8 22 28.5 Overall mean X Overall mean Y 25.0286 41.6286 Exx = 1486.8 Exy = 1480.2 Eyy = 3173.8 Txx = 1818.97 Txy = 1881.37 Tyy = 7634.17 Mxx = 332.171 Mxy = 401.171 Myy = 4460.37 MSM = 797.618 MSZ = 1473.63 MSE = 60.7204 MSB = 31.032 MSR = 67.1744 Sm = 13.1359 Sg = 24.2691 Sb = 0.461961 Цитата(nokh @ 26.12.2009 - 00:59) Я ищу хлеб с хрустящей корочкой. Вместо этого мне предлагают сухари. ... Согласен. Все это хочется иметь. Но к ковариационному анализу это не всегда имеет отношение и легко рассчитывается в других разделах: - описательная статистика - в одноименном разделе, - Box-Cox - в преобразованиях данных и т.д. Сообщение отредактировал Игорь - 26.12.2009 - 12:29 Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!

nokh Просмотр профиля	26.12.2009 - 11:59 Сообщение #83
Группа: Пользователи Сообщений: 1219 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704	Цитата(Игорь @ 26.12.2009 - 13:36) Nokh, табл. 7. Среднее Choc Chip y=40,25. Должно быть 35,25. Соответственно, "уплыло все остальное". И с какими же программами совпадает такой расчет? С SPSS? Ну не знаю, мой китайский Noname Scientific calculator CT-109 за 105 р. выдаёт, что (36+51+40+34)/4=40,25. Расчёт совпадает со Statistica 7.

Игорь Просмотр профиля	26.12.2009 - 12:25 Сообщение #84
Группа: Пользователи Сообщений: 1162 Регистрация: 10.04.2007 Пользователь №: 4040	Цитата(nokh @ 26.12.2009 - 12:59) Ну не знаю, мой китайский Noname Scientific calculator CT-109 за 105 р. выдаёт, что (36+51+40+34)/4=40,25. Расчёт совпадает со Statistica 7. Пока писал, nokh ответил. AtteStat считал верно, но я ошибся при подстановке данных по шоколадкам. Прошу прощения. Исправил уже (выше). Т.о. предмет спора исчез. Результаты (в общих разделах) совпадают. Спасибо за плодотворное обсуждение. Не покидает только одна мысль - почему ANCOVA оказалась у нас в теме "Непараметрическая статистика"? Сообщение отредактировал Игорь - 26.12.2009 - 12:27 Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!

Green Просмотр профиля	26.12.2009 - 12:52 Сообщение #85
Группа: Пользователи Сообщений: 120 Регистрация: 27.08.2009 Пользователь №: 6284	nokh, ОГРОМНОЕ спасибо за проделанную работу. детали утрясутся, так или иначе. У меня маленький вопрос: где написано, что не важна форма распределения зависимой переменной при построении регрессии, а только форма остатков? ( Вопрос не с потолка, поверьте...одной моей студентке забраковали диплом из-за этого, пришлось все переделывать...отдельная история). ======== Теперь вернемся к данным Pinus. Я не хотела ничего говорить ДО того, как Вы закончите свой труд, но мне все время казалось, что данные Pinus надо как-то представить под другим углом. Например, взять годовую скорость роста. Изучив пример с конфетами, да и Юнкерова... Фиксируется момент наступления события (рассасывание, выписка из госпиталя) или косвенно меряется скорость рассасывания, скорость выздоровления. Возможно, данные Pinus нужно представить в таком виде. Возраст, рост, прирост за год, тип посадки. Прирост за год рассчитать из имеющихся данных: например, есть деревья 15 лет и 16 лет во второй группе. вот: 5,2 15 5,3 15 5,1 15 5,1 15 4,3 15 4,6 16 4,3 16 -----пересчитываем age1 high1 dif 15 5,2 0,6 15 5,3 0,7 15 5,1 0,5 15 5,1 0,5 15 4,3 -0,3 15 5,2 0,9 15 5,3 1 15 5,1 0,8 15 5,1 0,8 15 4,3 0 Предполагаем, скорость (dif) зависит от возраста, роста, и типа посадки. Далее тогда попадаем в Вашу модель ковариационного анализа. Или всё не так? Р.S. Пока писала, и детали утряслись Сообщение отредактировал Green - 26.12.2009 - 12:53 Это не кованализ :)

Green Просмотр профиля	26.12.2009 - 14:27 Сообщение #86
Группа: Пользователи Сообщений: 120 Регистрация: 27.08.2009 Пользователь №: 6284	Решила еще сказать пару слов для Pinus Вы рассматривали линейную регрессию высота=f(возраст) (добавляем факторы тип посадки, освещенность...) Линейность предполагает постоянную скорость роста. v=const Я Вам предлагаю рассмотреть скорость, которая будет линейно зависеть от возраста и имеющейся высоты (добавляем факторы тип посадки, освещенность...) Если это биологически неправильно, то ... извините Это не кованализ :)

DrgLena Просмотр профиля	26.12.2009 - 17:53 Сообщение #87
Группа: Пользователи Сообщений: 1325 Регистрация: 27.11.2007 Пользователь №: 4573	Уважаемый Nokh, на основе Вашего трактата не только хлеб с румяной корочкой можно создать, но и поистине кулинарный шедевр. Но у тех, кто желает повторить ваш подвиг, должна быть возможность сослаться на вашу работу. Можно и ?Врач-Аспирант? украсить подобной публикацией (с другим примером), а можно и в любом журнале по вашей специальности опубликовать статью. Была еще ?Заводская лаборатория?, где Орлов печатался, можно и там. Относительно сухарика. Так ведь очень голодному как раз это и нужно. Я недавно билась со своими данными, как анализировать, и даже обращалась на форум. Нашла критерий медианы для больших рядов только в AtteStat (не нашла только ссылок и ответа на вопрос почему его нельзя использовать для связанных выборок, но это отдельная ветка). Сегодня в сети много есть самоделок, которые создаются в университетах и именно эти программки используются для выполнения квалификационных работ типа наших кандидатских или докторских, поскольку они свободно распространяются и за ними университетские гарантии качества. Никто на западе не покупает программы гиганты для выполнения дипломной работы. Но департаменты статистики при научных учреждениях имеют приличные программы для анализа данных, и в публикациях обычно указано в среде какого пакета проведен анализ. Наш диссертанты, без зазрения совести, а часто и по указки руководителя пишут, что расчеты проведены в гиганте и ученый совет ? под гипнозом, забывая о том, что указанную программу сначала нужно купить.

Pinus Просмотр профиля	27.12.2009 - 01:12 Сообщение #88
Группа: Пользователи Сообщений: 244 Регистрация: 28.08.2009 Пользователь №: 6286	Цитата(Green @ 26.12.2009 - 19:52) Например, взять годовую скорость роста. Приросты это отдельная тема, и она обычно рассматривается в терминах временных рядов. Сейчас мне все в целом понятно, осталось дошлифовать, спасибо.

Игорь Просмотр профиля	27.12.2009 - 12:48 Сообщение #89
Группа: Пользователи Сообщений: 1162 Регистрация: 10.04.2007 Пользователь №: 4040	Цитата(DrgLena @ 26.12.2009 - 18:53) Сегодня в сети много есть самоделок, которые создаются в университетах и именно эти программки используются для выполнения квалификационных работ типа наших кандидатских или докторских, поскольку они свободно распространяются... Раз нужен пользователям расширенный вывод, нужно предоставить им такую возможность. Новая версия AtteStat с ковариационным анализом доступна для загрузки. Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!

DrgLena Просмотр профиля	27.12.2009 - 23:04 Сообщение #90
Группа: Пользователи Сообщений: 1325 Регистрация: 27.11.2007 Пользователь №: 4573	Цитата(Игорь @ 21.12.2009 - 11:17) Еще любят (в т.ч. авторы упомянутых в теме источников, а также ПО) назвать нечто "Ковариационный анализ", а затем, как в старом студенческом анекдоте про огурец (http://kok-blog.1gb.ru/), выдать в теме все, что знали про дисперсионный анализ. Оказывается нужно знать еще больше, вот когда Attestat выдал перед ковариационным анализом результат однофакторного дисперсионного, вылезла ошибка, с которой выдает результат этого анализа AtteStat. Дисперсионное отношение считается верно, но его оценка не верна. Или опять ошибка у Афифи? Желающие узнать еще больше про дисперсионный анализа и проверить как он реализован в AtteStat, могут воспользоваться рекомендованным Игорем источником Афифи и посчитать пример на стр. 239, в котором нулевая гипотеза справедливо отвергается, в отличие от AtteStat. Цитата(Игорь @ 24.12.2009 - 07:42) Хорошо, что ничего общего с моими выкладками (включая источники), которые представляют собой две страницы формул. Почему, собственно, хорошо. Форма выдачи результата и обозначения, который представил Nokh, более понятна пользователям, возможно из-за похожести с Афифи, но это мое субъективное мнение. Игорь, у вас есть уникальная возможность обозвать главные выходы по русски, Афифи пришлось переводить, Sm, Sg, Sb пользователи будут благодарны. И еще пожелание, не искушенному пользователю трудно догадаться, как вводится массив данных для ковариационного анализа. Где фактор, где ковариата. Я поняла, поскольку вы свой пример в такой форме выложили. Но возможно, это только мои трудности, я в экселе не знаток. Любопытная у нас тема получается про непараметрическую статистику. .

nokh Просмотр профиля	28.12.2009 - 07:26 Сообщение #91
Группа: Пользователи Сообщений: 1219 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704	>DrgLena, Игорь Я совсем не против минимализма в интерфейсе и никоим образом не призываю программистов создавать какую-нибудь очередную Statzill'у - вполне достаточно имеющихся. Просто обидно если разработчик затратит уйму времени на увеличение функционала продукта, а воспользоваться им будет нельзя. Последнюю версию AtteStat ещё не качал, но если Игорь говорит что расширил вывод - это всё что необходимо и достаточно. Хочется увидеть стандартные таблицы anova или всё для их ручного заполнения. >DrgLena По поводу "сослаться" даже не знаю. Никаких революционных идей там нет, программы и алгоритмы - чужие + материал не оформлен по всем правилам публикаций, да и не статья это, скорее методичка. Выложить его кроме как сюда мне пока особо и некуда. Но если Вы считаете, что подобный материал имеет смысл доводить до ума и до умов - можно совместно пересчитать всё на медицинском примере, дополнить врачебной интерпретацией результатов, алгоритмами проведения анализа в нескольких пакетах и снова подумать куда его можно пристроить:). >Green Про ошибки источники поищу. Где-то попадалось даже, что сейчас все подобные анализы используют несколько отличные от классических аналогов требования, поскольку являются частными случаями GLM и реализованы в пакетах именно в таком виде, а значит используют регрессионную технику.

Pinus Просмотр профиля	28.12.2009 - 08:59 Сообщение #92
Группа: Пользователи Сообщений: 244 Регистрация: 28.08.2009 Пользователь №: 6286	Например, ситуация: Наклоны регрессий получились значимо различны. Рекомендуется прекратить дальнейший ковариационный анализ и, как вариант, воспользоваться ANOVA. Возможен ли другой (частный) подход: Если наклоны регрессий значимо различны, значит, если бы уровней фактора было бы два, то можно статистически достоверно утверждать о значимом различии межгрупповых регрессий и для каждой из них строить свою модель (уравнение). В случае большего чем два уровней фактора, сделать такой вывод нельзя, поскольку регрессий несколько. Тогда может быть, если нет другого подхода, воспользоваться следующим методом: сделать тесты на однородность наклонов для пар регрессий. Сначала сравнить пару А и Б. Если наклоны одинаковы, то сравнить наклоны для пары А+Б и В. И так перебрать все образующиеся сочетания. Если уровней фактора немного, то в принципе это не так долго. В конце концов получится, скажем, три значимо различных (по наклонам) группы регрессий (например, А+Б; В; Г). Для групп регрессий с одинаковым наклоном продолжить проверку на равенство свободных членов. Для регрессий значимо различных по наклонам, находить свои отдельные уравнения регрессии.

Pinus Просмотр профиля	28.12.2009 - 09:23 Сообщение #93
Группа: Пользователи Сообщений: 244 Регистрация: 28.08.2009 Пользователь №: 6286	Цитата(nokh @ 28.12.2009 - 14:26) По поводу "сослаться" даже не знаю. Никаких революционных идей там нет, программы и алгоритмы - чужие + материал не оформлен по всем правилам публикаций, да и не статья это, скорее методичка. Выложить его кроме как сюда мне пока особо и некуда. Но если Вы считаете, что подобный материал имеет смысл доводить до ума и до умов - можно совместно пересчитать всё на медицинском примере, дополнить врачебной интерпретацией результатов, алгоритмами проведения анализа в нескольких пакетах и снова подумать куда его можно пристроить:). Очень даже было бы неплохо. Можно не делать статью как предложение какого-то нового метода, а просто применение ковариационного анализа в биомедицинских исследованиях. А можно сделать в контексте какого-то реального исследования. Если трудно разместить в ВАКовском издании, то можно просто подобрать известный и более или менее авторитетный журнал. Ссылаться и на Афифи можно, но если бы не Хальд, Ваш конспект и инфа в этой ветке про модули с ANCOVA в Statistica, то я бы вряд ли этот метод поднял. Хотя сейчас кажется, что по сути ничего сложного в нем и нет. Так что для аспирантов такая публикация была бы незаменимым подспорьем.

Green Просмотр профиля	28.12.2009 - 18:36 Сообщение #94
Группа: Пользователи Сообщений: 120 Регистрация: 27.08.2009 Пользователь №: 6284	nokh, спасибо, поищите. Поскольку наши доктора физ-мат наук говорят в один голос, что регрессионый анализ ( техника выметания матриц и проч) основывается именно на нормальности зависимой переменной. ======= Вопрос по Вашему труду- страница 2, Эпап 1 "Идентификация зависимостей" Вы пишите "Для данных примера визуальная оценка диаграммы рассеяния (см. рис. 1) не даёт веских оснований предполагать нелинейность отклика, а выполнить соответствующую статистическую проверку не позволяет тип исходных данных, когда для каждого случая X известно только одно единственное значение Y, а не несколько." Зависимость - когда значению х ставится в соответствие значение у ( статистическая модель зависимости у=f(x)+е(ошибка) ) О каких соответствующих проверках идет речь? Как идентифицируется зависимость? Я полагала, что необходимо смотреть уравнение регресии (для каждого типа конфеты) ( т.е. оценка параметров регрессии, остатков и проч..). А что смотреть визуально? Что нужно "увидеть" на Scatterplot? Откуда вывод, что можно переходить к этапу 3? тем более, что далее, во втором этапе (преобразование нелинейных зависимостей) Вы на этих данных приходите к коэффициенту -2,7 - который означает нелинейность х по отношению y. Не сочтите за занудство. Спасибо! Сообщение отредактировал Green - 28.12.2009 - 18:38 Это не кованализ :)

DrgLena

29.12.2009 - 13:43

Сообщение #95

Группа: Пользователи
Сообщений: 1325
Регистрация: 27.11.2007
Пользователь №: 4573

Я только параллельно с этой веткой изучаю ковариационный анализ, многое уже понятно, изначальный пример про рост деревьев меня вдохновил, поскольку в реальной жизни часто возникают подобные задачи. А слова adjusting confounding уже не пугают наших читателей.
Как я поняла, могут быть рассмотрены два типа задач решаемых ковариационным анализом.

1. Изучить регрессионную зависимость при влиянии фактора. Это случай Pinus, изучается зависимость высоты от возраста, а тип посадки выступает в роли вмешивающегося в регрессию фактора. Или, аналогично, можно сформулировать задачу исследования регрессионной зависимости роста и веса подростков, но с учетом пола. В таких задачах нужно получить уравнение регрессии с учетом фактора, который не является объясняющей переменной, но лишь конфаундер.

2. Цель может быть и другая, когда интересуют различия средних значений показателя при действии влияющей переменной ? фактора, но с учетом влияния другой количественной переменной. Например, изучение различий средних значений количественного показателя (биохимические иммунологические показатели) в условии клинического фактора (наличие заболевания, степени тяжести, методов лечения), но с учетом того что этот показатель может быть возраст -зависимыми.
Что дают пакеты, (опустим оценку различий наклонов, свободных членов и т.д.)

Для 1 типа задач нужны коэффициенты уравнения регрессии, чтобы посчитать, например высоту 20 летнего дерева у Pinus в зависимости от типа посадки. ПО коэффициентам, которые выдает AtteStat можно посчитать высоту 20 летнего дерева в условии z1 (6,43) или z2(6,47) и без условия z по общему уравнению регрессии (6,475). И все эти расчеты Statistica совпадают с AtteStat. Но это пока не ковариационный анализ. Дальше нужно получить скорректированное уравнение регрессии. Statistica дает общее уравнение регрессии, и можно посчитать высоту 20 летнего дерева (6,35 при z1 и 6,466 при z2).

Для решения второго типа задач нужны скорректированные средние на каждом уровне фактора. AtteStat их выдает, но как их сравнить? Например, дисперсионным анализом было показано, что средние различаются, однако, согласованные с ковариатой (возрастом) оценки могут и не различаться. У меня есть уже свой реальный пример, когда так и есть.
Atatistica дает s.e. и 95% ДИ, но странное дело, post-hoc дает различия несогласованных оценок, которые и так можно получить в дисперсионном анализе. Это большой недостаток программы. Можно, конечно *.svb написать.
В более продвинутых программах post-hoc предоставляет широкие возможности с рекомендацией выбрать из множества критериев множественного сравнения критерий Tukey-Kramer (меньше неучтенная ошибка ковариаты, я так поняла) и рассчитать соответствующие ДИ (Simultaneous Confidence Intervals) и выдается таблица сравнения таких интервалов.

AttaStat не может, конечно, удовлетворить всех пользователей, мне тоже кажется, что лишние коэффициенты из этого модуля можно убрать, а сравнение скорректированных средних можно добавить. А совсем круто получить на одном графике средние полученные дисперсионным и совариационным анализом, я слепила в Statistica.

Сообщение отредактировал DrgLena - 29.12.2009 - 14:09

Эскизы прикрепленных изображений

Ответить с цитированием данного сообщения

Green Просмотр профиля	29.12.2009 - 16:00 Сообщение #96
Группа: Пользователи Сообщений: 120 Регистрация: 27.08.2009 Пользователь №: 6284	DrgLena, рост, возраст, вес и т.п. и подростков ПОХОЖЕ на рост деревьев, но, есть одно отличие. Сначала поясню на примере: подставив в форумулу регрессии возраст 0, вы должны получить свободный член уравнения регрессии. так вот для детей это будет не ноль, а для деревьев ноль. Что это значит? это значит, что уравнение регрессии для деревьев должно строится без intersept, т.е. все необясненные остатки идут за счет влияния качественных факторов. ----------- в данном случае тип посадки - не конфаундер. По определению - скрытый фактор влияет на зависимую и независимую переменную. А вот в конфетах конфаундер есть - это индивидуальные особенности испытуемого, он устранялся с помощью ковариаты - она влияла на скорость рассасывания контрольной ириски и др. конфет. ----------- Так вот, для первого класса задач в постановке ковариационного анализа ( деревья) на самом деле происходит вот что: пишем уравнение регресии: рост=b1возраст+b0 +е(ошибка) вычитаем ковариату: (рост-b1возраст)=b0+e. (из реального роста вычитаем средний на этот возрат рост, общий для всех групп). т.е. убрали возраст. и далее мы имеем право изучать только дисперсию(рассеяние) в различных группах и межгрупповую, ибо она не зависит от местоположения. т.е. b0 не должно играть. Более того, если если даже использовать математику ( ей, математике, все равно) и получить оценки b0j ...то как это интерпретировать? как прибавку к росту дерева на момент посадки? за год? за всю жизнь? на момент измерения? возраст-то мы полностью исключили..."в первом типе посадке использовались саженцы, в среднем на z см выше, чем во втором". т.е. доказали, что эксперимент изначально проходил не в равных начальных условиях. Для освещенности - соответственно: "деревья для посадки на солнечную сторону подбирались на z см выше, чем на теневую". А вот для конфет - мы изучаем уточненное среднее (после вычета ковариаты). т.е. именно разницу в b0j (j - группа, j=1,n) --------- Конечно, нужен комментарий nokh. Но мне кажется, что важно понимать суть моделей. Это не кованализ :)

Green Просмотр профиля	29.12.2009 - 19:36 Сообщение #97
Группа: Пользователи Сообщений: 120 Регистрация: 27.08.2009 Пользователь №: 6284	DrgLena, еще раз внимательно пыталась перепроверить, то что Вы сделали "ПО коэффициентам, которые выдает AtteStat можно посчитать высоту 20 летнего дерева в условии z1 (6,43) или z2(6,47) и без условия z по общему уравнению регрессии (6,475)" Здравый смысл мне подсказывает, что по общему уравнению ( линейному, конечно) высота не может быть больше, чем высоты, полученные по частным моделям. Она должна быть где-то посередине. и еще ... подставьте в свои уравнения возраст=0. Попробуйте объяснить результат. Это не кованализ :)

Pinus Просмотр профиля	30.12.2009 - 00:52 Сообщение #98
Группа: Пользователи Сообщений: 244 Регистрация: 28.08.2009 Пользователь №: 6286	Цитата(DrgLena @ 29.12.2009 - 20:43) AttaStat не может, конечно, удовлетворить всех пользователей, мне тоже кажется, что лишние коэффициенты из этого модуля можно убрать, а сравнение скорректированных средних можно добавить. Поддерживаю предложение.

Pinus Просмотр профиля	30.12.2009 - 00:54 Сообщение #99
Группа: Пользователи Сообщений: 244 Регистрация: 28.08.2009 Пользователь №: 6286	Цитата(Green @ 29.12.2009 - 23:00) рост, возраст, вес и т.п. и подростков ПОХОЖЕ на рост деревьев, но, есть одно отличие. Сначала поясню на примере: подставив в форумулу регрессии возраст 0, вы должны получить свободный член уравнения регрессии. так вот для детей это будет не ноль, а для деревьев ноль. Не понятно почему? Если в уравнении есть свободный член, то без разницы деревья или подростки, при возрасте ноль нулевого роста не будет ни в том ни в другом случае. Но здесь нужна не интерпретация этого, а понимание того, что мы не имеем права искать прогнозное значение вне области, в которой строилась регрессия. Если бы мы имели наблюдения на всем интервале жизни деревьев (или людей), в т.ч. при возрасте близком к нулю, то мы бы не смогли воспользоваться прямой или параболой, а подбирали бы одну из функций роста, которые исходят из нуля. Тогда бы имели право прогнозировать на всем интервале возрастов, в т.ч. и нулевом возрасте. В противном случае, свободный член уравнения просто определяет положение линии регрессии относительно оси OY и не имеет реального смысла.

DrgLena Просмотр профиля	30.12.2009 - 01:00 Сообщение #100
Группа: Пользователи Сообщений: 1325 Регистрация: 27.11.2007 Пользователь №: 4573	Цитата(Green @ 29.12.2009 - 20:36) DrgLena, еще раз внимательно пыталась перепроверить, то что Вы сделали Так выкладывайте результат проверки. Что посчитано не точно? И в чем вы проверяли? Цитата(Green @ 29.12.2009 - 20:36) Здравый смысл мне подсказывает, что по общему уравнению ( линейному, конечно) высота не может быть больше, чем высоты, полученные по частным моделям. Она должна быть где-то посередине. Возможно, приведите расчет для 20 летнего дерева. Для 30 летних деревьев результат вам понравится. Z1=9,4471; Z2= 9,6977, а по общему уравнению 9,5665 (в AtteStat). По ковариарационному анализу, хорошо чтобы кто то проверил 9,4527 и 9,5567 (не в AtteStat). Для меня сейчас важно понять, как описать эти цифры в регрессионных задачах предсказания. Со вторым типом задач мне понятно как интерпретировать согласованные средние, а какой вывод в этой задаче? Цитата(Green @ 29.12.2009 - 20:36) и еще ... подставьте в свои уравнения возраст=0. Попробуйте объяснить результат. Мой здравый смысл подсказывает, что область значений для ?х? определена автором от 14 до 55 лет, и я ничего в "0" загонять не буду, это вы можете пофантазировать на занятиях со студентами, определив математически, какого размера и возраста саженцы высаживали, точно не все они были 29 см, или вообще семечки сеяли, и по какому закону они росли в младенчестве. P.S. Пока писала ответ, Pinus сам из нуля выбрался. Сообщение отредактировал DrgLena - 30.12.2009 - 01:10

« Предыдущая тема · Медицинская статистика · Следующая тема »