Помощь - Поиск - Пользователи - Календарь
Полная версия этой страницы: Непараметрическая статистика
Форум врачей-аспирантов > Разделы форума > Медицинская статистика
Страницы: 1, 2, 3, 4
DrgLena
Nokh, я поняла ваш подход, т.е. ковариационный анализ, но в новой Statistica вначале не нашла ANCOVA и не использовала ранее в работе, спасибо за подсказку. С сейчас, я думаю весьма полезным рассмотреть нарушение корреляционных зависимостей при сравнении групп, например, больных и здоровых .
Вопрос к Green. Какое понятие вы вкладываете в выражение ?рандомизированы по возрасту?. Рандомизация в медицине имеет весьма конкретное и очень большое значение. Работы, в которых сравниваются две группы лечения, которые были рандомизированы по возрасту, дальше можно не читать. Рандомизация либо есть, либо нет, она не может быть по возрасту.
Еще о работе форума, личные письма не доходят, хотя идет информация, что они успешно отправлены, но в отправленных их нет, как нет и ответов на них. Вряд ли у nokh и Игоря есть причины не отвечать на личные письма.
nokh
Цитата(DrgLena @ 14.12.2009 - 21:56) *
Еще о работе форума, личные письма не доходят, хотя идет информация, что они успешно отправлены, но в отправленных их нет, как нет и ответов на них. Вряд ли у nokh и Игоря есть причины не отвечать на личные письма.

Посмотрел, никаких личных сообщений действительно нет. Можете написать на nokhrin8собакаmail.ru.
Green
nokh,
я понимаю, что аппарат КА может быть использован в данном случае.
Я не понимаю, как возраст влияет на тип посадки и наоборот. Формально КА используется, когда есть влияние между независимыми переменными. Я его не увидела. Поэтому предпочла GLM и GRM.
>Вывод - да, принцип другой.
Не думаю, в данном случае совпадали именно принципы, а не конкретная реализация. Вы также смотрели коэффициенты, вы также составляли факторный план.

>Также не стал бы усложнять и без того непростые модели введением новых переменных и переходом к множественной регрессии.
Это как раз будет КА. Я так поняла, что у Pinus много номинальных факторов (условий).
Использование МГК - достаточно сложно... и нужно ли?

В общем, я предпочитаю упрощать smile.gif а не усложнять.

Еще вопросы, nokh.
1.После трансформации данные нужно проверять на нормальность?
2. В регрессии зависимая переменная должна быть нормальна. Если не ошибаюсь. А в КА?


-----------
DrgLena
"Доказательством того, что группы рандомизированы по возрасту может служить сравнение таблиц 2 х n"
нужно читать
"Доказательством того, что группы рандомизированы, может служить сравнение количества случаев по возрасту - таблица 2 х n при последующей проверке на нормальность"

Рандомизация - это процедура, которая подразумевает, что данные будут случайны, без смещения. Я доказывала, что выбор образцов был случайным и подчинялся норм. закону. Т.е. смещения не было.



Р.S. Я занимаюсь в основном разведочным анализом данных. Там все идет от понимания моделей (для меня, во всяком случае). Но последнее время появились работы, связанные напрямую со статанализом и медициной. Поэтому могу ошибаться в точных формулировках. Все поправки приму с благодарностью smile.gif.
nokh
Цитата(Green @ 15.12.2009 - 00:40) *
nokh,
я понимаю, что аппарат КА может быть использован в данном случае.
Я не понимаю, как возраст влияет на тип посадки и наоборот. Формально КА используется, когда есть влияние между независимыми переменными. Я его не увидела. Поэтому предпочла GLM и GRM.
...
Еще вопросы, nokh.
1.После трансформации данные нужно проверять на нормальность?
2. В регрессии зависимая переменная должна быть нормальна. Если не ошибаюсь. А в КА?

Возраст, конечно, на тип посадки не влияет. Требуется как в дисперсионном анализе или тесте Стьюдента выявить влияние типа посадки на средний размер дерева. Если бы все деревья были одного возраста - никаких проблем. Но вмешивается возраст, который также влияет на размер дерева и выступает в анализе непрерывной ковариатой. Поэтому и используется регрессионная техника: с её помощью выражаются регрессионные зависимости признака от ковариаты, а оценка различий между типами посадки сводится тогда к оценке различий между свободными членами регрессий. Ключевой здесь является параллельность зависимостей. Ковариационный анализ (как и дисперсионный, и регрессионный) является частным случаем General Linear Models (GLM), которая в свою очередь является частным случаем Generalized Linear Models.
Данные на нормальность проверять не нужно. Представьте, что у нас всего три возраста, скажем 10, 20 и 30 лет. Тогда распределение Y будет тримодальным - никакой нормальности. Но внутри каждого возрастного класса распределение должно быть нормальным, однако в силу особенностей данных такую проверку мы выполнить не можем. Поэтому в регрессии (как и в дисперсионном анализе) смотрится распределение ошибок - рассеяние относительно теоретической линии регрессии - оно должно быть нормальным, иначе данные нужно преобразовывать или использовать другую модель.
Pinus
Nokh, к сожалению сильно отличающихся данных нет (будут только после второго этапа эксперимента). Те, что есть, все наподобие этого примера. Раз нет реальных данных, давайте сделаем искусственные. Предлагаю уменьшить Y(Z2) на 0,8. Значения остальных переменных оставить такими же. Z2 будем считать не парными, а одиночными посадками (тогда сохранится какая-то теоретическая логика).
Green
nokh,
пытаюсь осмыслить "а оценка различий между типами посадки сводится тогда к оценке различий между свободными членами регрессий".
Свободный член в линейном уравнении означает сдвиг прямой вдоль оси Y.
Что означает, что посаженные образцы были изначально выше в одной группе, чем в другой?
Регрессия от возраста - это сколько дерево прибавило в росте за год. Если она линейная - это означает, что в 1 и 2 группах деревья одинаково прибавляли в росте (0,31м за год по модели).

---------------
Второе, что пытаюсь осмыслить: "Поэтому в регрессии (как и в дисперсионном анализе) смотрится распределение ошибок - рассеяние относительно теоретической линии регрессии - оно должно быть нормальным, иначе данные нужно преобразовывать или использовать другую модель." и соотнести с тем, что вы занялись преобразованием ДО построения модели. Ведь ошибки сразу были нормальные, до преобразования.
Какой смысл тогда был в преобразовании?
Green
nokh,
по поводу ссылки на подстановку данных в модель именно с такой оценкой - пока не могу найти frown.gif

Сам подход достаточно известен в разведочном анализе, выборка рандомно разбивается 2 или более частей (обучающая и тестовая), по одной части строится модель, по остальным верифицируется. Иногда, например, для оценки процента корректной классификации, после построения модели по обучающей выборке, случайным образом генерируется множество подвыборок из тестовой модели и уже полученные данные по проценту корректной классификации ( или ошибки классификации) - образуют выборку, которая обрабатывается статистически ( среднее, дисперсия). Есть и др.
Но это уже совсем не имеет отношения к обсуждаемой теме.
Если не возражаете и есть интерес по построению моделей - то напишу уже на мыло.

Да, и еще.

Comparability Test - для JointPoint тут - http://srab.cancer.gov/joinpoint/comparabilitytest.html

Если иметь ввиду, что для линейной регрессии jp=0, то можно посмотреть, во что превращается выражение для тестовой статистики.


nokh
>Green
Я начну сегодня готовить раздельчик по ковариационному анализу, типа как по анализу остатков - гл. обр. формулы. Постараюсь ответить на ваши вопросы там. Про перекрёстную проверку (crossvalidation) читал года 2-3 назад много, но до практики не дошло - выборки почти всегда крошечные, а без практики всё быстро забылось. Спасибо за ссылку по JointPoint, всё сгребу в архив, может пригодится когда: конспект вот по ковариационному анализу за 10 лет всего второй раз понадобился.
Игорь
Цитата(nokh @ 16.12.2009 - 15:49) *
Я начну сегодня готовить раздельчик по ковариационному анализу, типа как по анализу остатков - гл. обр. формулы.

Может, поможет информация. Подборка формул по ковариационному анализу есть на с. 239 "Справочника по математическим методам в геологии" Д.А. Родионова с соавт. (1987 г.).

Пример можно взять на с. 42 книги Milliken G.A., Johnson D.E. Analysis of messy data. Volume III: Analysis of covariance. - Boca Raton, FL: Chapman & Hall/CRC, 2002. Далее в книге формул нет, но есть выдача SAS для этих данных.

Источники встречаются в электронном виде.
nokh
Цитата(Игорь @ 16.12.2009 - 19:45) *
Может, поможет информация...

Большое спасибо! По аncova вряд ли поможет - у меня конспект по Sokal & Rohlf. Biometry, там достаточно полно всё изложено. Хотя, конечно, посмотреть не помешает. А вот справочник Родионова искал уже в 2 этапа, но на тот период не находил в сети. Сейчас значит должен найти. Пусть немного не в тему, но целые блоки современных стат. методов, применяемых в геологии, почти целиком не описаны по-русски: работа с композиционными данными, включая сложности многомерного анализа, а также визуализации на тройных диаграммах (ternary plot), работа с цензурированными наблюдениями типа "менее чем" (nondetect, "less-then" values), весь спектр геостатистических методов (анализ вариограмм, различные варианты кригинга и симуляционных методов интерполяции пространственных (regionalized) переменных. В принципе, все они могут и должны применяться и в медицине, но разрабатываются почти исключительно геологами и гео- или гидрохимиками.

PS Скачал Milliken & Johnson Analysis of covariance. Конечно с Sokal & Rohlf несопоставимо: у них глава в книге из 850 стр., а здесь целая книга на 625 стр smile.gif

Сделаю так:
(1) Поскольку линейная форма зависимости является необходимым условием классического ковариационного анализа - нужно уметь спрямлять кривые. У меня есть бесплатная программка для этого с различными вариантами преобразования Бокса-Кокса, но несколько неудобная. Хотя последнее время делал его неоднократно в AtteStat, один раз пришлось вернуться к старой - лямбда была около 3, а в AtteStat жёстко выставлено [-2; 2]. И ещё в ней есть спрямление кривых через БК-преобразование независимой переменной. Долгое время она была доступна на сайте автора, однако когда он включил этот модуль в свою последнюю версию также бесплатной программы Rundom Pro ( http://pjadw.tripod.com ), данную программку убрал. Но поскольку автор разрешил распространять её - выкладываю её здесь. На данных Pinus покажу как спрямлять кривые с её помощью. Если у Игоря будет интерес расширить БК на решение этой задачи: автор пишет об источнике:
"After some modifications of the procedure (but not the transformation itself), it is possible to use it to find the transformation of the X variable that improves the linear fit of Y against X. - for more details see Engineering Statistics Handbook ( online; http://www.itl.nist.gov/div898/handbook/index.htm ) "
(2) Поскольку оригинальные данные Pinus не наглядны для демонстрации ANCOVA и содержат только 2 зависимости, воспользуюсь советом Игоря и прорешаю пример с конфетками из Milliken & Johnson. Минус этих данных - зависимости вроде исходно прямые, плюсы - они уже проанализированы с помощью SAS (интересно сопоставить решения) и одновременно сравнивается 6 линий.
Pinus
Цитата(nokh @ 17.12.2009 - 02:45) *
А вот справочник Родионова искал уже в 2 этапа, но на тот период не находил в сети. Сейчас значит должен найти.
Есть в ЭБ Нефть и газ, но за бабосы.

Цитата(nokh @ 17.12.2009 - 02:45) *
Поскольку оригинальные данные Pinus не наглядны для демонстрации ANCOVA и содержат только 2 зависимости, воспользуюсь советом Игоря и прорешаю пример с конфетками из Milliken & Johnson. Минус этих данных - зависимости вроде исходно прямые, плюсы - они уже проанализированы с помощью SAS (интересно сопоставить решения) и одновременно сравнивается 6 линий.
Не беда, главное чтобы понять суть и технику. Есть еще просчитанный пример ancova в Statistica в кн. Юнкеров_Математико-статистическая обработка данных медицинских исследований с. 99-101, 111-120. Но только теория и техника анализа не приводится, даются готовые таблицы с результатами.
DrgLena
В принципе, пример Юнкерова дает представление о принципе метода и интерпретации результата, но в его примере 6.2 на 27 больных 9 уровней, по 3 больных в группе.
Pinus
Цитата(DrgLena @ 18.12.2009 - 06:38) *
В принципе, пример Юнкерова дает представление о принципе метода и интерпретации результата, но в его примере 6.2 на 27 больных 9 уровней, по 3 больных в группе.

Посмотрел внимательней. Это не такой пример. Здесь в анализе только одна регрессия, и анализируется степень влияния основных (качественных) факторов и сопутствующих (ковариат). По сути это дисперсионный анализ с оценкой значимости коэффициентов регрессии. А судя по постам Nokh, сравнение должно идти по свободным членам нескольких параллельных регрессий.
Хотя этот пример тоже один из вариантов. По всей видимости разных вариантов ковариационного анализа много.
Green
Pinus, пример и мне не очень.
Но и Ваши данные специфичны.

грубо говоря y=f(ковариата) + f(качественные факторы)
у-f(ковариата)=f(качественные факторы)

у Вас получается 100% дисперсии распадается на 90%, которая объясняется ковариатой, и 10% нормального остатка, который должен быть объяснен качественными факторами ( т.е. этот норм. остаток должен разложится на значимо разделяемые распределения).

В примере Юнкерова длительность лечения определялась начальными условиями,т.е. условиями на старте. В каком состоянии попал в больницу, какая тяжесть травмы.

Аналогия с Вашим примером такова - если за нач. условия принять дату посадки - то в какие условия было посажено дерево и его высота при посадке.
Отсюда и был мой вопрос об остатках.

Вас же интересует как меняется скорость роста при разных типах посадки (начальных условиях),т.е НЕпараллельность уравнений регресии при различном факторе воздействия. Т.е. если бы фактор воздействовал на возраст......

в общем, с процессами во времени не все так просто.

Ждем nokh c его материалом.


Игорь
Ковариационный анализ есть в книге "Афифи А., Эйзен Ф. Статистический анализ. Поход с использованием ЭВМ. - М.: Мир, 1982, параграф 4.6" (замечена в Интернете). Т.о. на русском языке приличных (= с формулами и какой-никакой теорией) источников всего 3: в дополнение к упомянутому, это книга Шеффе и параграф в справочнике Родионова (без примера). Книги по ударно-нажимному применению трофейных компьютерных программ за серьезные источники не считаю.

Не обошлось без курьезов. Утверждается http://office.microsoft.com/ru-ru/excel/HP052038731049.aspx, что ковариационный анализ имеется в Excel. Тут же данная информация цитируется http://www.statplus.net.ua/ru/help/source/a_covar.htm. Легко заметить, что к ковариационному анализу все это никакого отношения не имеет. Грубо говоря (а здесь считаю это уместным), в данных источниках содержится полная чушь.

Еще любят (в т.ч. авторы упомянутых в теме источников, а также ПО) назвать нечто "Ковариационный анализ", а затем, как в старом студенческом анекдоте про огурец (http://kok-blog.1gb.ru/), выдать в теме все, что знали про дисперсионный анализ.
DrgLena
Можно дополнить список "приличных" переводных книг:
1. Сербер Дж. Линейный регрессионный анализ. 1980. Глава 10 стр 273 посвящена ковариационному анализу.
2. Кендал и Стюарт Многомерный анализ и временные ряды. 1976 Ковариационный анализа с.79 матричная форма.

3. Болч Б., Хуань К.Дж Многомерные стат. методы для экономики 1978 . Этой книги у меня нет, если кто найдет поделитесь ссылкой.

Но Афифи и в этом вопросе просто, ясно и доступно, с четким определением понятий, выделенных курсивом, и толковым переводом. Все примеры можно посчитать и руками и пакетом. Кстати, заканчивая описание примера, Афифи пишет, что SS для диеты в SPSS, не совпадает с другими пакетами, сейчас совпадает и Statistica и SPSS по этому примеру совпадают.
nokh
На форуме заработали личные сообщения - получил сейчас от Игоря. Ещё раз огромное спасибо!

>DrgLena. Возможно на мэйл.ру были проблемы во время отправки сообщения на мой адрес, т.к. я тоже не мог отправить Игорю письмо - дважды возвращалось, только с рамблера отправил.

По Ancova. Работаю insane.gif . Дня через 2-3 закончу, но все задержки - к лучшему: получается полнее чем планировал. Кстати Milliken & Johnson хоть и написали по Ancova целую книгу на 600 страниц, для восприятия она сложна. Ещё авторы обильно разбавляют материал полными выкладками результатов SAS и JMP. Эдак можно любой учебник до собрания сочинений разбавить.
Цитата(DrgLena @ 18.12.2009 - 01:38) *
В принципе, пример Юнкерова дает представление о принципе метода и интерпретации результата...

К книге Юнкерова у меня двойственное отношение. С одной стороны вызывает уважение сам факт доведения человеком своего труда до печатного варианта, т.к. сам уже более года не могу закончить нашу коллективную монографию по результатам подробных ежегодных отчётов, где уже почти всё есть. С другой стороны вреда от таких книг больше чем пользы, т.к. они демонстрируют пренебрежительное отношение к научному методу познания и создают полную иллюзию простоты анализа, особенно когда под рукой есть какая-нибудь волшебная программа. Отчасти автора оправдывает, что делается это не злонамеренно, а по искреннему неведению. Именно поэтому всё изложение строится как пересказ возможностей программы, без рекомендаций выбора тех или иных опций, в которых новичку ничего не понятно, именно поэтому в линейном дискриминантном анализе массово появляются качественные предикторы, а в регрессионном - непреобразованные частоты и.т.д. и т.п.
Green
nokh,
Меня у Юнкерова насторожил тот пример (остальное не было времени смотреть). 27 кейсов. План 3х3. Т.е. три измерения в каждом в среднем. Плюс 3 ковариаты...

По скромным подсчетам - должно быть минимум раза в два больше кейсов.
Вообще, в Вашем изложении ковариационного анализа - может, напишете приблизительную оценку объема данных для проведения анализа с одной ковариатой, с двумя и т.д. при разном кол-ве факторов?
Игорь
Цитата(DrgLena @ 21.12.2009 - 14:58) *
Но Афифи и в этом вопросе просто, ясно и доступно, с четким определением понятий, выделенных курсивом, и толковым переводом. Все примеры можно посчитать и руками и пакетом.

Пользуясь только книгой Афифи с соавт., посчитать пример "вручную" полностью нельзя, т.к. формул не хватает (то ли автор упустил, то ли переводчик - последнее проверить не смог, т.к. из последнего иностранного издания книги авторы обсуждаемый раздел убрали, а старого найти не удалось). Все недостающие формулы тут: Wildt A.R., Ahtola O. Analysis of covariance. - Newbury Park, CA: Sage Publications, 1978.

По поводу справочника Родионова - погорячился. Как бы выразиться тактичнее: параграф по ковариационному анализу - не самый сильный в справочнике.
nokh
Закончил свой трактат. Результаты совпадают с результатами Statistica (уже нет желания делать листинги), а в части доверительных интервалов для согласованных (adjusted) средних - превосходят их, т.к. более узкие. Программку для спрямления кривых с помощью преобразования Бокса-Кокса выкладывал в этой теме форума (сообщение ? 60).
Цитата(Green @ 22.12.2009 - 20:46) *
...может, напишете приблизительную оценку объема данных для проведения анализа с одной ковариатой, с двумя и т.д. при разном кол-ве факторов?

Не встречал таких формул даже для двухфатороного дисперсионного анализа, наверное очень сложно посчитать. Но анализировать имеющиеся данные, думаю, стоит в любом случае: не хватит мощности - не так страшно - нулевая гипотеза останется в силе ещё какое-то время. Потомки отклонят smile.gif .

Обнаружены ошибки/описки. Следует читать:
Стр. 9 …как дисперсии x и у, умноженные на число степеней свободы…
Стр.13… для демонстрации полного разложения изменчивости в ходе ковариационного анализа (см. эффекты ?Между? и ?Внутри? в табл. 11), он представлен в таблице 8.
Стр. 16 … (planned)
Стр. 16…(Tukey-Kramer)
Стр. 17. Как видно из рис. 5, с точностью до сотых…
DrgLena
Цитата(nokh @ 23.12.2009 - 20:02) *
Закончил свой трактат.

Я желаю Вам искренне, закончить и другой трактат, о котором вы упомянули, где и другие методы также толково будут представлены. Я занимаю очередь на покупку этого трактат. А чтобы не обсасывать приторные конфетки, готова поискать у себя данные биомедицинского профиля под любые методы анализа. Благодаря этой ветке форума, я кое- что уже раскопала из старых данных, где очень кстати будет ковариационный анализ.
Успехов Вам!
nokh
>DrgLena
Если бы писал по анализу данных! Книгу доделываю по экологии наших местных водоёмов. Хотя если "нырять" поглубже - есть тоже много интересного, в т.ч. и по анализу. Нестрогий план на 2 года включает монографию и докторскую, потом нужно пережить 2012 г (очень уж пугают eek.gif ) и при условии сохранения существующего миропорядка можно будет смело браться за учебник по анализу данных (наработки есть, но красивых данных всегда не хватает и ближе к делу, думаю, воспользуюсь Вашим предложением, спасибо!).

>Green
Забыл совсем про проверку нормальности распределения ошибок. Её нужно делать сразу на этапе проверки однородности наклонов и если остатки будут распределены ненормально - преобразовывать также и y. Для поиска преобразования y можно использовать того же Бокса-Кокса, но классического - "заточенного" на нормальность. Если проанализируете данные Pinus после спрямления (результаты я где-то выше кратко описал) - увидите, что и после преобразования шкалы остатки были распределены примерно нормально, никаких хвостов не образовалось ни справа, ни слева.
Игорь
Цитата(nokh @ 23.12.2009 - 21:02) *
Закончил свой трактат.

Совсем не то, что ожидал увидеть, но очень интересно. Живой взгляд на проблему. Студентам понравится.

Хорошо, что ничего общего с моими выкладками (включая источники), которые представляют собой две страницы формул. Немного причешу, выложу в новой версии AtteStat. Совпадает с опубликованными примерами. В процессе анализа нашел ошибки у Афифи (чисто расчетные, из-за округления - не в теории, там все строго) и у Wildt с соавт. (одна незначительная ошибка вычисления). Как результаты Афифи могут совпадать с результатами Statistica, как утверждается выше, не вполне понимаю.

Сейчас думаю, Афифи и Wildt (почти брошюра) - две основные книги, которые могут быть использованы при работе над темой ковариационного анализа. К сожалению, "Биометрию" Sokal найти не удалось - хотелось бы ознакомиться. Вообще, это одна из двух книг, на которые все ссылаются. Вторая - это "Непараметрическая статистика" Conover. И ее тоже нет!

Небольшое замечание (хотя можно и не учитывать). Линеаризацию и прочее убрал бы из числа этапов коварационного анализа (а именно, первые два и восьмой - исключить из данной темы). Считаю, для метода достаточно сформулировать формальные требования. Т.е., полагать, что адекватные данные для описываемого метода уже представлены. А все преобразования данных - это этап их подготовки (подгонки к требованиям метода) - отдельная тема.
nokh
Да, получилось типа методички, но практика показывает, что такое потенциально может понравится не более чем 1-3 студентам из 40-50. У аспирантов должно быть побольше, но они озабочены в первую очередь сбором материала, а до анализа доходит когда уже "горит". С замечаниями/пожеланиями полностью согласен, но учитывая самостоятельность раздела (этакий сингл) может оно и к лучшему: предыдущий pdf - черновик по выбросам уже находится поисковиками самостоятельно, в отрыве от этого форума. Sokal & Rohlf конспектировал выборочно в аспирантуре, потом долго искал в сети и тоже не нашёл. Хотел как-то даже купить на ebay себе на день рождения, но передумал (купил джинсы и апгрейдил компьютер:) . Учитывая, что у Sokal & Rohlf вышло уже 3 издания с периодичностью лет в 12 и последнее было в 1995, уже можно ждать четвертого при условии что авторы живы-здоровы. А сейчас всё что выходит оцифровывается. Из авторитетных учебников мелькал также Zar с Biostatistical analysis, но в своё время также не нашёл. Но в целом в интернете столько всего, что при определённых затратах времени всегда можно собрать любой раздел из разных источников.
Pinus
DrgLena, у Вас с какой точностью совпадение со Statistica?
У меня получается так
Равенство скорректированных средних (Диета): SS=0,10077; MS=0,03359; F=60,53
Нулевой наклон (Сопутствующая переменная): SS=14,03970; MS=14,03970; F=25300,43

В примере так
Равенство скорректированных средних (Диета): SS=0,103; MS=0,0345; F=57,5
Нулевой наклон (Сопутствующая переменная): SS=14,039; MS=14,0387; F=23999

Если бы пример в книге был ручного расчета, то расхождение можно было бы объяснить ошибками округления, но примеры машинные, на разных программах. Почему так может быть?
Pinus
Nokh, великое Вам спасибо за конспект! Пока только бегло просмотрел. Спасибо также за Хальда, многое стало понятно. Эта книга неплохое подспорье к Афифи, только по-иному формулы и другая символика. Мне еще конечно разбираться и разбираться, но со вчерашнего дня некий прорыв. А то после Шеффе и Кендалла как-то было тоскливо.
DrgLena
Цитата(Игорь @ 24.12.2009 - 07:42) *
(одна незначительная ошибка вычисления). Как результаты Афифи могут совпадать с результатами Statistica, как утверждается выше, не вполне понимаю.

Я утверждала, что результаты по примеру из Афифи полностью совпадают в программе Statistica и SPSS и это сейчас, действительно так, документ с результатами прилагаю. Но с расчетом откорректированных средних ?У?, которые представлены в таб А на стр 307 у Афифи расхождения в четвертом знаке после запятой, понятное дело, свякие там округления, а может и найденная вами ошибка. Но если измерения сделаны до третьего знака, но можно сказать, решение в этих двух программах с результатами Афифи совпадают. Не сомневаюсь , что и AtteStat даст такой же результат, как и гиганты.
Игорь
Цитата(Pinus @ 24.12.2009 - 09:57) *
DrgLena, у Вас с какой точностью совпадение со Statistica?
У меня получается так
...
Если бы пример в книге был ручного расчета, то расхождение можно было бы объяснить ошибками округления, но примеры машинные, на разных программах. Почему так может быть?

Мы с Вами неудачный пример взяли. Хотя он был первым, на который наткнулись в книге Афифи. Неудачный потому, что пошагово расчеты в источнике не сделаны. Ошибиться автор мог где угодно. Так, в нашей практике был случай, когда автор подставил в программу просто не совсем те данные, что опубликовал в примере.

Поэтому предлагаю взять и просчитать пример из книги Wildt c соавт. Итак, данные на с. 33:
Код
X      Y      X      Y      X      Y
190    177    252    226    206    226
261    225    228    196    239    229
194    167    240    198    217    215
217    176    246    206    177    188

Далее я воспользуюсь для сравнения выдачей тестовой версии программы AtteStat (для пользователей она недоступна, имеет спартанский интерфейс в виде командной строки, но сейчас это неважно):
Код
Mean X  Mean Y
215.5    186.25
241.5    206.5
209.75    214.5
Exx = 5494.75
Exy = 4007    (в источнике небольшая ошибка: 4005.67, практически не влияющая на результат)
Eyy = 3670.75
Txx = 7784.25
Txy = 4153.75
Tyy = 5366.92
Mxx = 2289.5
Mxy = 146.75
Myy = 1696.17
MSM = 1200.88 (обозначения из Афифи)
MSZ = 2922.07
MSE = 93.5849
MSB = 36.8416
MSR = 112.499
sm = 12.832 - эта статистика в источнике не считается
sg = 31.2237 (с. 39)
sb = 0.327483 (с. 38)

Все совпадает!

Отдельно отметил статистики Sg и Sb. Их вычисление см. на соответствующих страницах Wildt, в справке AtteStat, а также у Афифи, причем для последней статистики Афифи формул не дает, но их дает Wildt. Характерно, что обозначения в использованных источниках совпадают.

Теперь выдача последнего релиза AtteStat для тех же данных (вместе с P-значением):
Код
Sm    12,83196987    0,000519513
Sg    31,22374679    3,61582E-05
Sb    0,327482818    0,550118658


P.S. Может возникнуть вопрос, почему в релизе AtteStat не выводятся все промежуточные результаты. А потому что, полагаем, в отличие от уважаемых коллег, этого не нужно. Афифи, кстати, это подтверждает. Нужно проверить три гипотезы: выдать три статистики и их P-значения. И достаточно.
DrgLena
Nokh ведь уже показал, по каким формулам считают большие программы, и привел ссылки, результат по конфеткам полностью, до любого знака совпадают, см. табл. 9 на стр 14 у Nokh и результат Statistica, SPSS, NSCC совпадают.
Univariate Tests of Significance for y (конфетки.sta)
545,367 1 545,367 8,98161 0,005660
1473,629 1 1473,629 24,26910 0,000034
3988,089 5 797,618 13,13591 0,000001
1700,171 28 60,720

А что по конфеткам или примером из Афифи получается в Attestat, так как в SAS или есть расхождения из за найденной вами ошибки у Афифи?
Кроме статистик также хорошо было бы на выходе получить скорректированные средние, которые приводит Афифи.
DrgLena
"Большим" программам повезло. Форма выдачи сильно искажается, но совпадение легко найти.
Univariate Tests of Significance for y (Игорю.sta)
Effective hypothesis decomposition
SS Degr. of MS F p
Freedom
Intercept 179,3856 1 179,386 1,9168225 0,203597
x2 2922,0709 1 2922,071 31,2237468 0,000518
f 2401,7570 2 1200,878 12,8319699 0,003189
Error 748,6791 8 93,585


Поздравляю AtteStat! Но не нашла у вас intersept, другие обозначения (F=1,91168; p=0,203597)
nokh
Цитата(Игорь @ 25.12.2009 - 22:40) *
Мы с Вами неудачный пример взяли. Хотя он был первым, на который наткнулись в книге Афифи. Неудачный потому, что пошагово расчеты в источнике не сделаны. Ошибиться автор мог где угодно. Так, в нашей практике был случай, когда автор подставил в программу просто не совсем те данные, что опубликовал в примере.
Поэтому предлагаю взять и просчитать пример из книги Wildt c соавт. Итак, данные на с. 33: ...

Странно это всё. Я по Вашей наводке рассчитал пошагово абсолютно дурацкий пример только затем чтобы "пошагово", а Вы теперь предлагаете другой. Это раз. Мой пример мало того что рассчитан пошагово, так ещё и совпадает с результатами "большого" пакета, а алгоритм взят из авторитетного источника. Воды, не спорю, много, но все формулы и расчёты есть, пусть и студенческие. Спрашивается почему я теперь должен верить работе алгоритма в пакете, если Вы сами сомневаетесь в совпадении результатов со Statistica, а я самолично и пошагово убедился, что она считает верно? Это - два. А под занавес:
Цитата(Игорь @ 25.12.2009 - 22:40) *
P.S. Может возникнуть вопрос, почему в релизе AtteStat не выводятся все промежуточные результаты. А потому что, полагаем, в отличие от уважаемых коллег, этого не нужно. Афифи, кстати, это подтверждает. Нужно проверить три гипотезы: выдать три статистики и их P-значения. И достаточно.

Я ищу хлеб с хрустящей корочкой. Вместо этого мне предлагают сухари. Возьму ли я сухари? Возьму, потому что бесплатно. Но и после этого мне всё равно нужен хлеб с корочкой. И это несмотря на то, что два уважаемых араба на другом краю планеты убеждены, что я могу обойтись сухарями. А я не могу. И не просто не "не хочу" из вредности, а "не могу". И прав здесь - однозначно я! Если мне нужно, чтобы любая GLM сопровождалась подробнейшей таблицей результатов дисперсионного анализа - я буду искать софт, где это реализовано. Может мне это нужно для ручной декомпозиции дисперсий по Сэттервейту, может - для мета-анализа, да мало ли... И большинство пакетов дают мне такую возможность. Более того, мне нужно, чтобы помимо SS, df, MS, F и P пакет выдавал ещё и структуру математических ожидаемых средних квадратов, потому что надоело каждые пол-года - год сидеть над учебником Монтгомери по несколько часов, а то и дней, вспоминать что и как, прорешивать тестовые примеры, чтобы убедиться что вспомнил, решать и перепроверять уже свои данные, а потом все заново забывать без ежедневной практики. А ещё мне нужно, чтобы пакет делал высококачественные рисунки с широкими возможностями их редактирования. И поскольку, скажем, для ancova такого ни один пакет в мире не делает, я буду искать такой пакет, который максимально облегчит мне задачу. Например, выдаст параметры всех частных регрессий и их adjusted варинтов. А дальше я буду искать по-возможности бесплатный пакет, который позволит ввести эти уравнения, построить красивый график и отредактировать его. И все это мне нужно.
В отличие от работающих по техническому заданию программистов "больших" пактов, Вы имеете уникальную возможность вживую общаться с потребителями Вашего интеллектуального продукта. Почему же Вы отметаете наши "студенческие" желания как несерьёзные? Да и кто является главным пользователем AtteStat: математики, важные доктора наук, "продвинутые" врачи, самовлюблённые профессиональные статистики/биостатистики с других сайтов или же молодёжь: студенты, аспиранты, молодые учёные (да горстка людей из тех кому за ..., увлечённых грамотным анализом данных)?

PS. Пост Drg Len'ы появился пока всё это писал, но уже устал сегодня - лень редактировать свой комментарий.
Игорь
[Исправлено - я ошибся в вводе данных]
Результаты по шоколадкам будут
Код
Mean X    Mean Y
25.75    45.375
27.75    58.625
20    40.25
22.5    38.5
29.2    27.8
22    28.5
Overall mean X    Overall mean Y
25.0286    41.6286
Exx = 1486.8
Exy = 1480.2
Eyy = 3173.8
Txx = 1818.97
Txy = 1881.37
Tyy = 7634.17
Mxx = 332.171
Mxy = 401.171
Myy = 4460.37
MSM = 797.618
MSZ = 1473.63
MSE = 60.7204
MSB = 31.032
MSR = 67.1744
Sm = 13.1359
Sg = 24.2691
Sb = 0.461961


Цитата(nokh @ 26.12.2009 - 00:59) *
Я ищу хлеб с хрустящей корочкой. Вместо этого мне предлагают сухари.
...

Согласен. Все это хочется иметь. Но к ковариационному анализу это не всегда имеет отношение и легко рассчитывается в других разделах:
- описательная статистика - в одноименном разделе,
- Box-Cox - в преобразованиях данных
и т.д.
nokh
Цитата(Игорь @ 26.12.2009 - 13:36) *
Nokh, табл. 7. Среднее Choc Chip y=40,25. Должно быть 35,25. Соответственно, "уплыло все остальное". И с какими же программами совпадает такой расчет? С SPSS?

Ну не знаю, мой китайский Noname Scientific calculator CT-109 за 105 р. выдаёт, что (36+51+40+34)/4=40,25. Расчёт совпадает со Statistica 7.
Игорь
Цитата(nokh @ 26.12.2009 - 12:59) *
Ну не знаю, мой китайский Noname Scientific calculator CT-109 за 105 р. выдаёт, что (36+51+40+34)/4=40,25. Расчёт совпадает со Statistica 7.

Пока писал, nokh ответил. AtteStat считал верно, но я ошибся при подстановке данных по шоколадкам. Прошу прощения. Исправил уже (выше). Т.о. предмет спора исчез. Результаты (в общих разделах) совпадают.

Спасибо за плодотворное обсуждение. Не покидает только одна мысль - почему ANCOVA оказалась у нас в теме "Непараметрическая статистика"? frown.gif
Green
nokh,
ОГРОМНОЕ спасибо за проделанную работу.
детали утрясутся, так или иначе.

У меня маленький вопрос: где написано, что не важна форма распределения зависимой переменной при построении регрессии, а только форма остатков? ( Вопрос не с потолка, поверьте...одной моей студентке забраковали диплом из-за этого, пришлось все переделывать...отдельная история).

========
Теперь вернемся к данным Pinus.
Я не хотела ничего говорить ДО того, как Вы закончите свой труд, но мне все время казалось, что данные Pinus надо как-то представить под другим углом. Например, взять годовую скорость роста.
Изучив пример с конфетами, да и Юнкерова...
Фиксируется момент наступления события (рассасывание, выписка из госпиталя) или косвенно меряется скорость рассасывания, скорость выздоровления.
Возможно, данные Pinus нужно представить в таком виде.

Возраст, рост, прирост за год, тип посадки.

Прирост за год рассчитать из имеющихся данных:

например, есть деревья 15 лет и 16 лет во второй группе.
вот:
5,2 15
5,3 15
5,1 15
5,1 15
4,3 15
4,6 16
4,3 16

-----пересчитываем
age1 high1 dif
15 5,2 0,6
15 5,3 0,7
15 5,1 0,5
15 5,1 0,5
15 4,3 -0,3
15 5,2 0,9
15 5,3 1
15 5,1 0,8
15 5,1 0,8
15 4,3 0

Предполагаем, скорость (dif) зависит от возраста, роста, и типа посадки.
Далее тогда попадаем в Вашу модель ковариационного анализа.
Или всё не так?

Р.S. Пока писала, и детали утряслись smile.gif
Green
Решила еще сказать пару слов для Pinus

Вы рассматривали линейную регрессию высота=f(возраст) (добавляем факторы тип посадки, освещенность...)
Линейность предполагает постоянную скорость роста. v=const

Я Вам предлагаю рассмотреть скорость, которая будет линейно зависеть от возраста и имеющейся высоты (добавляем факторы тип посадки, освещенность...)
Если это биологически неправильно, то ... извините smile.gif
DrgLena
Уважаемый Nokh, на основе Вашего трактата не только хлеб с румяной корочкой можно создать, но и поистине кулинарный шедевр. Но у тех, кто желает повторить ваш подвиг, должна быть возможность сослаться на вашу работу. Можно и ?Врач-Аспирант? украсить подобной публикацией (с другим примером), а можно и в любом журнале по вашей специальности опубликовать статью. Была еще ?Заводская лаборатория?, где Орлов печатался, можно и там.

Относительно сухарика. Так ведь очень голодному как раз это и нужно. Я недавно билась со своими данными, как анализировать, и даже обращалась на форум. Нашла критерий медианы для больших рядов только в AtteStat (не нашла только ссылок и ответа на вопрос почему его нельзя использовать для связанных выборок, но это отдельная ветка). Сегодня в сети много есть самоделок, которые создаются в университетах и именно эти программки используются для выполнения квалификационных работ типа наших кандидатских или докторских, поскольку они свободно распространяются и за ними университетские гарантии качества. Никто на западе не покупает программы гиганты для выполнения дипломной работы. Но департаменты статистики при научных учреждениях имеют приличные программы для анализа данных, и в публикациях обычно указано в среде какого пакета проведен анализ. Наш диссертанты, без зазрения совести, а часто и по указки руководителя пишут, что расчеты проведены в гиганте и ученый совет ? под гипнозом, забывая о том, что указанную программу сначала нужно купить.
Pinus
Цитата(Green @ 26.12.2009 - 19:52) *
Например, взять годовую скорость роста.

Приросты это отдельная тема, и она обычно рассматривается в терминах временных рядов. Сейчас мне все в целом понятно, осталось дошлифовать, спасибо.
Игорь
Цитата(DrgLena @ 26.12.2009 - 18:53) *
Сегодня в сети много есть самоделок, которые создаются в университетах и именно эти программки используются для выполнения квалификационных работ типа наших кандидатских или докторских, поскольку они свободно распространяются...

Раз нужен пользователям расширенный вывод, нужно предоставить им такую возможность. Новая версия AtteStat с ковариационным анализом доступна для загрузки.
DrgLena
Цитата(Игорь @ 21.12.2009 - 11:17) *
Еще любят (в т.ч. авторы упомянутых в теме источников, а также ПО) назвать нечто "Ковариационный анализ", а затем, как в старом студенческом анекдоте про огурец (http://kok-blog.1gb.ru/), выдать в теме все, что знали про дисперсионный анализ.

Оказывается нужно знать еще больше, вот когда Attestat выдал перед ковариационным анализом результат однофакторного дисперсионного, вылезла ошибка, с которой выдает результат этого анализа AtteStat. Дисперсионное отношение считается верно, но его оценка не верна. Или опять ошибка у Афифи?
Желающие узнать еще больше про дисперсионный анализа и проверить как он реализован в AtteStat, могут воспользоваться рекомендованным Игорем источником Афифи и посчитать пример на стр. 239, в котором нулевая гипотеза справедливо отвергается, в отличие от AtteStat.
Цитата(Игорь @ 24.12.2009 - 07:42) *
Хорошо, что ничего общего с моими выкладками (включая источники), которые представляют собой две страницы формул.

Почему, собственно, хорошо. Форма выдачи результата и обозначения, который представил Nokh, более понятна пользователям, возможно из-за похожести с Афифи, но это мое субъективное мнение. Игорь, у вас есть уникальная возможность обозвать главные выходы по русски, Афифи пришлось переводить, Sm, Sg, Sb пользователи будут благодарны. И еще пожелание, не искушенному пользователю трудно догадаться, как вводится массив данных для ковариационного анализа. Где фактор, где ковариата. Я поняла, поскольку вы свой пример в такой форме выложили. Но возможно, это только мои трудности, я в экселе не знаток.

Любопытная у нас тема получается про непараметрическую статистику.


.
nokh
>DrgLena, Игорь
Я совсем не против минимализма в интерфейсе и никоим образом не призываю программистов создавать какую-нибудь очередную Statzill'у - вполне достаточно имеющихся. Просто обидно если разработчик затратит уйму времени на увеличение функционала продукта, а воспользоваться им будет нельзя. Последнюю версию AtteStat ещё не качал, но если Игорь говорит что расширил вывод - это всё что необходимо и достаточно. Хочется увидеть стандартные таблицы anova или всё для их ручного заполнения.
>DrgLena
По поводу "сослаться" даже не знаю. Никаких революционных идей там нет, программы и алгоритмы - чужие + материал не оформлен по всем правилам публикаций, да и не статья это, скорее методичка. Выложить его кроме как сюда мне пока особо и некуда. Но если Вы считаете, что подобный материал имеет смысл доводить до ума и до умов - можно совместно пересчитать всё на медицинском примере, дополнить врачебной интерпретацией результатов, алгоритмами проведения анализа в нескольких пакетах и снова подумать куда его можно пристроить:).
>Green
Про ошибки источники поищу. Где-то попадалось даже, что сейчас все подобные анализы используют несколько отличные от классических аналогов требования, поскольку являются частными случаями GLM и реализованы в пакетах именно в таком виде, а значит используют регрессионную технику.
Pinus
Например, ситуация:
Наклоны регрессий получились значимо различны. Рекомендуется прекратить дальнейший ковариационный анализ и, как вариант, воспользоваться ANOVA.

Возможен ли другой (частный) подход:
Если наклоны регрессий значимо различны, значит, если бы уровней фактора было бы два, то можно статистически достоверно утверждать о значимом различии межгрупповых регрессий и для каждой из них строить свою модель (уравнение). В случае большего чем два уровней фактора, сделать такой вывод нельзя, поскольку регрессий несколько. Тогда может быть, если нет другого подхода, воспользоваться следующим методом: сделать тесты на однородность наклонов для пар регрессий. Сначала сравнить пару А и Б. Если наклоны одинаковы, то сравнить наклоны для пары А+Б и В. И так перебрать все образующиеся сочетания. Если уровней фактора немного, то в принципе это не так долго. В конце концов получится, скажем, три значимо различных (по наклонам) группы регрессий (например, А+Б; В; Г). Для групп регрессий с одинаковым наклоном продолжить проверку на равенство свободных членов. Для регрессий значимо различных по наклонам, находить свои отдельные уравнения регрессии.
Pinus
Цитата(nokh @ 28.12.2009 - 14:26) *
По поводу "сослаться" даже не знаю. Никаких революционных идей там нет, программы и алгоритмы - чужие + материал не оформлен по всем правилам публикаций, да и не статья это, скорее методичка. Выложить его кроме как сюда мне пока особо и некуда. Но если Вы считаете, что подобный материал имеет смысл доводить до ума и до умов - можно совместно пересчитать всё на медицинском примере, дополнить врачебной интерпретацией результатов, алгоритмами проведения анализа в нескольких пакетах и снова подумать куда его можно пристроить:).

Очень даже было бы неплохо. Можно не делать статью как предложение какого-то нового метода, а просто применение ковариационного анализа в биомедицинских исследованиях. А можно сделать в контексте какого-то реального исследования.
Если трудно разместить в ВАКовском издании, то можно просто подобрать известный и более или менее авторитетный журнал. Ссылаться и на Афифи можно, но если бы не Хальд, Ваш конспект и инфа в этой ветке про модули с ANCOVA в Statistica, то я бы вряд ли этот метод поднял. Хотя сейчас кажется, что по сути ничего сложного в нем и нет. Так что для аспирантов такая публикация была бы незаменимым подспорьем.
Green
nokh, спасибо, поищите.

Поскольку наши доктора физ-мат наук говорят в один голос, что регрессионый анализ ( техника выметания матриц и проч) основывается именно на нормальности зависимой переменной.

=======
Вопрос по Вашему труду- страница 2, Эпап 1 "Идентификация зависимостей"
Вы пишите "Для данных примера визуальная оценка диаграммы рассеяния (см. рис. 1) не даёт
веских оснований предполагать нелинейность отклика, а выполнить соответствующую
статистическую проверку не позволяет тип исходных данных, когда для каждого случая X
известно только одно единственное значение Y, а не несколько."

Зависимость - когда значению х ставится в соответствие значение у ( статистическая модель зависимости у=f(x)+е(ошибка) )

О каких соответствующих проверках идет речь?
Как идентифицируется зависимость?
Я полагала, что необходимо смотреть уравнение регресии (для каждого типа конфеты) ( т.е. оценка параметров регрессии, остатков и проч..). А что смотреть визуально? Что нужно "увидеть" на Scatterplot? Откуда вывод, что можно переходить к этапу 3?
тем более, что далее, во втором этапе (преобразование нелинейных зависимостей) Вы на этих данных приходите к коэффициенту -2,7 - который означает нелинейность х по отношению y.

Не сочтите за занудство.
Спасибо!
DrgLena
Я только параллельно с этой веткой изучаю ковариационный анализ, многое уже понятно, изначальный пример про рост деревьев меня вдохновил, поскольку в реальной жизни часто возникают подобные задачи. А слова adjusting confounding уже не пугают наших читателей.
Как я поняла, могут быть рассмотрены два типа задач решаемых ковариационным анализом.

1. Изучить регрессионную зависимость при влиянии фактора. Это случай Pinus, изучается зависимость высоты от возраста, а тип посадки выступает в роли вмешивающегося в регрессию фактора. Или, аналогично, можно сформулировать задачу исследования регрессионной зависимости роста и веса подростков, но с учетом пола. В таких задачах нужно получить уравнение регрессии с учетом фактора, который не является объясняющей переменной, но лишь конфаундер.

2. Цель может быть и другая, когда интересуют различия средних значений показателя при действии влияющей переменной ? фактора, но с учетом влияния другой количественной переменной. Например, изучение различий средних значений количественного показателя (биохимические иммунологические показатели) в условии клинического фактора (наличие заболевания, степени тяжести, методов лечения), но с учетом того что этот показатель может быть возраст -зависимыми.
Что дают пакеты, (опустим оценку различий наклонов, свободных членов и т.д.)

Для 1 типа задач нужны коэффициенты уравнения регрессии, чтобы посчитать, например высоту 20 летнего дерева у Pinus в зависимости от типа посадки. ПО коэффициентам, которые выдает AtteStat можно посчитать высоту 20 летнего дерева в условии z1 (6,43) или z2(6,47) и без условия z по общему уравнению регрессии (6,475). И все эти расчеты Statistica совпадают с AtteStat. Но это пока не ковариационный анализ. Дальше нужно получить скорректированное уравнение регрессии. Statistica дает общее уравнение регрессии, и можно посчитать высоту 20 летнего дерева (6,35 при z1 и 6,466 при z2).

Для решения второго типа задач нужны скорректированные средние на каждом уровне фактора. AtteStat их выдает, но как их сравнить? Например, дисперсионным анализом было показано, что средние различаются, однако, согласованные с ковариатой (возрастом) оценки могут и не различаться. У меня есть уже свой реальный пример, когда так и есть.
Atatistica дает s.e. и 95% ДИ, но странное дело, post-hoc дает различия несогласованных оценок, которые и так можно получить в дисперсионном анализе. Это большой недостаток программы. Можно, конечно *.svb написать.
В более продвинутых программах post-hoc предоставляет широкие возможности с рекомендацией выбрать из множества критериев множественного сравнения критерий Tukey-Kramer (меньше неучтенная ошибка ковариаты, я так поняла) и рассчитать соответствующие ДИ (Simultaneous Confidence Intervals) и выдается таблица сравнения таких интервалов.

AttaStat не может, конечно, удовлетворить всех пользователей, мне тоже кажется, что лишние коэффициенты из этого модуля можно убрать, а сравнение скорректированных средних можно добавить. А совсем круто получить на одном графике средние полученные дисперсионным и совариационным анализом, я слепила в Statistica.
Green
DrgLena,
рост, возраст, вес и т.п. и подростков ПОХОЖЕ на рост деревьев, но, есть одно отличие.

Сначала поясню на примере: подставив в форумулу регрессии возраст 0, вы должны получить свободный член уравнения регрессии. так вот для детей это будет не ноль, а для деревьев ноль.
Что это значит?
это значит, что уравнение регрессии для деревьев должно строится без intersept, т.е. все необясненные остатки идут за счет влияния качественных факторов.

-----------
в данном случае тип посадки - не конфаундер. По определению - скрытый фактор влияет на зависимую и независимую переменную.
А вот в конфетах конфаундер есть - это индивидуальные особенности испытуемого, он устранялся с помощью ковариаты - она влияла на скорость рассасывания контрольной ириски и др. конфет.
-----------
Так вот, для первого класса задач в постановке ковариационного анализа ( деревья) на самом деле происходит вот что:
пишем уравнение регресии: рост=b1*возраст+b0 +е(ошибка)
вычитаем ковариату:

(рост-b1*возраст)=b0+e. (из реального роста вычитаем средний на этот возрат рост, общий для всех групп). т.е. убрали возраст.
и далее мы имеем право изучать только дисперсию(рассеяние) в различных группах и межгрупповую, ибо она не зависит от местоположения. т.е. b0 не должно играть.

Более того, если если даже использовать математику ( ей, математике, все равно) и получить оценки b0j ...то как это интерпретировать? как прибавку к росту дерева на момент посадки? за год? за всю жизнь? на момент измерения? возраст-то мы полностью исключили..."в первом типе посадке использовались саженцы, в среднем на z см выше, чем во втором". т.е. доказали, что эксперимент изначально проходил не в равных начальных условиях. Для освещенности - соответственно: "деревья для посадки на солнечную сторону подбирались на z см выше, чем на теневую".

А вот для конфет - мы изучаем уточненное среднее (после вычета ковариаты).
т.е. именно разницу в b0j (j - группа, j=1,n)

---------
Конечно, нужен комментарий nokh.
Но мне кажется, что важно понимать суть моделей.


Green
DrgLena, еще раз внимательно пыталась перепроверить, то что Вы сделали
"ПО коэффициентам, которые выдает AtteStat можно посчитать высоту 20 летнего дерева в условии z1 (6,43) или z2(6,47) и без условия z по общему уравнению регрессии (6,475)"

Здравый смысл мне подсказывает, что по общему уравнению ( линейному, конечно) высота не может быть больше, чем высоты, полученные по частным моделям. Она должна быть где-то посередине.
и еще ... подставьте в свои уравнения возраст=0. Попробуйте объяснить результат.

Pinus
Цитата(DrgLena @ 29.12.2009 - 20:43) *
AttaStat не может, конечно, удовлетворить всех пользователей, мне тоже кажется, что лишние коэффициенты из этого модуля можно убрать, а сравнение скорректированных средних можно добавить.

Поддерживаю предложение.
Pinus
Цитата(Green @ 29.12.2009 - 23:00) *
рост, возраст, вес и т.п. и подростков ПОХОЖЕ на рост деревьев, но, есть одно отличие.
Сначала поясню на примере: подставив в форумулу регрессии возраст 0, вы должны получить свободный член уравнения регрессии. так вот для детей это будет не ноль, а для деревьев ноль.

Не понятно почему? Если в уравнении есть свободный член, то без разницы деревья или подростки, при возрасте ноль нулевого роста не будет ни в том ни в другом случае. Но здесь нужна не интерпретация этого, а понимание того, что мы не имеем права искать прогнозное значение вне области, в которой строилась регрессия. Если бы мы имели наблюдения на всем интервале жизни деревьев (или людей), в т.ч. при возрасте близком к нулю, то мы бы не смогли воспользоваться прямой или параболой, а подбирали бы одну из функций роста, которые исходят из нуля. Тогда бы имели право прогнозировать на всем интервале возрастов, в т.ч. и нулевом возрасте. В противном случае, свободный член уравнения просто определяет положение линии регрессии относительно оси OY и не имеет реального смысла.
DrgLena
Цитата(Green @ 29.12.2009 - 20:36) *
DrgLena, еще раз внимательно пыталась перепроверить, то что Вы сделали

Так выкладывайте результат проверки. Что посчитано не точно? И в чем вы проверяли?

Цитата(Green @ 29.12.2009 - 20:36) *
Здравый смысл мне подсказывает, что по общему уравнению ( линейному, конечно) высота не может быть больше, чем высоты, полученные по частным моделям. Она должна быть где-то посередине.

Возможно, приведите расчет для 20 летнего дерева. Для 30 летних деревьев результат вам понравится. Z1=9,4471; Z2= 9,6977, а по общему уравнению 9,5665 (в AtteStat). По ковариарационному анализу, хорошо чтобы кто то проверил 9,4527 и 9,5567 (не в AtteStat). Для меня сейчас важно понять, как описать эти цифры в регрессионных задачах предсказания.
Со вторым типом задач мне понятно как интерпретировать согласованные средние, а какой вывод в этой задаче?

Цитата(Green @ 29.12.2009 - 20:36) *
и еще ... подставьте в свои уравнения возраст=0. Попробуйте объяснить результат.

Мой здравый смысл подсказывает, что область значений для ?х? определена автором от 14 до 55 лет, и я ничего в "0" загонять не буду, это вы можете пофантазировать на занятиях со студентами, определив математически, какого размера и возраста саженцы высаживали, точно не все они были 29 см, или вообще семечки сеяли, и по какому закону они росли в младенчестве.

P.S. Пока писала ответ, Pinus сам из нуля выбрался.
Для просмотра полной версии этой страницы, пожалуйста, пройдите по ссылке.
Форум IP.Board © 2001-2025 IPS, Inc.