Помощь - Поиск - Пользователи - Календарь
Полная версия этой страницы: Непараметрическая статистика
Форум врачей-аспирантов > Разделы форума > Медицинская статистика
Страницы: 1, 2, 3, 4
Green
>Так выкладывайте результат проверки. Что посчитано не точно? И в чем вы проверяли?

Так если следовать технике ковариационного анализа - не надо пользоваться отдельно моделями z1 и z2. Разве нет? Ведь мы говорим о удалении общей ковариации?
Либо мы принимаем, что у них общая ковариация и строим единую регрессию. А далее исследуем оставшуюся дисперсию с помощью дисперсионного анализа, т.е. это техника кованализа. Либо мы отдельно исследуем несколько регрессий ( это НЕ кованализ).

>Для меня сейчас важно понять, как описать эти цифры в регрессионных задачах предсказания.
А это другое. Еще раз - ковавнвлиз - это техника исследования дисперсий, а не построение регрессионной модели.
Похоже, да. Но это другое.

> Со вторым типом задач мне понятно как интерпретировать согласованные средние, а какой вывод в этой задаче?
А вот вопрос к Вам, что вы исследуете в первом типе задач.... и пытаюсь Вас навести на мысль, что задачи первого типа - не решаются кованализом.
А второй - да, это оно.

>Область значений для ?х? определена автором от 14 до 55 лет,
ну, я не просто так спросила про 0.
ок, вы начали исследование с 15 лет. значит в 15летнем возрасте они различались по росту, если Вы будете использовать технику кованализа в "регрессионных задачах предсказания". Выводы будут те же самые, вы удаляете общую регрессию. Посмотрите у nokh рис.4. Он именно о том, что линии стали паралелльны. А это значит, наклон у них одинаковый, и различаются они свободными членами. и тезис можно повторить.

Пока есть две регрессии и вы исследуете их - это не кованализ, когда они стали параллельны ( наклон одинаков, и различаются только свободные члены) - вы их "изымаете" из общей вариации , тогда вы попадаете в кованализ. Но по ним не надо делать предсказание.

У nokh все описано, это и есть техника кованализа. Он ничего не говорит о построении модели регрессии ( не предсказывает, как долго будет рассасываться конфета, он сравнивает скорость рассасывания разных типов конфет, сравнивает, а не строит регрессионную модель).

---------------
Новый Год на носу.
Давайте поздравлять всех под пушистой елкой или сосной... пусть растут нам на радость!

С наступающим! smile.gif






Pinus
Цитата(DrgLena @ 29.12.2009 - 20:43) *
Как я поняла, могут быть рассмотрены два типа задач решаемых ковариационным анализом.

У меня вот какие мысли складываются. В каждом из этих типов задач возникают два исхода.
Для 2-го типа задач (исследователя интересуют различия в средних значениях зависимой переменной под влиянием фактора при сопутствующем влиянии ковариаты):
а) влияние фактора значимо, влияние ковариаты нет.
Тогда сравнение средних решается ANOVA.
б) значимо влияние и фактора, и ковариаты.
Тогда используем межгрупповые сравнения по фактору для выявления значимо влияющих уровней или их групп. Сравнение ведется по средним, скорректированным на влияние ковариаты.

Для 1-го типа задач (исследователя интересуют различия между регрессиями при влиянии фактора):
а) влияние ковариаты значимо, влияние фактора нет.
Тогда мы вправе объединить исходные выборки всех уровней фактора и построить единую регрессионную модель.
б) значимо влияние и ковариаты, и фактора.
Тогда, также, используем один из методов межгрупповых сравнений. Для уровней фактора, скорректированные средние которых различаются незначимо, также можем объединить исходные выборки для построения общих регрессионных моделей. В итоге получаем несколько значимо различающихся моделей (имеющих одинаковые наклоны).

Сказанное для 1-го и 2-го типа задач справедливо при одинаковом наклоне регрессий.
Поскольку различия между прямыми регрессии выражаются двумя параметрами: коэффициентом регрессии и свободным членом, то существует проблема сравнения регрессий и средних по фактору при значимо отличающихся наклонах.
Если для 2-го типа задач проблема озвучена и признана трудноразрешимой, то для 1-го типа задач она нами не рассматривалась. Может быть для 1-го типа задач она не является такой же фатальной, и существуют методы ее решения (о чем я пытался сказать несколькими постами выше)?
Pinus
Цитата(DrgLena @ 29.12.2009 - 20:43) *
Для 1 типа задач нужны коэффициенты уравнения регрессии, чтобы посчитать, например высоту 20 летнего дерева у Pinus в зависимости от типа посадки. ПО коэффициентам, которые выдает AtteStat можно посчитать высоту 20 летнего дерева в условии z1 (6,43) или z2(6,47) и без условия z по общему уравнению регрессии (6,475). И все эти расчеты Statistica совпадают с AtteStat. Но это пока не ковариационный анализ. Дальше нужно получить скорректированное уравнение регрессии. Statistica дает общее уравнение регрессии, и можно посчитать высоту 20 летнего дерева (6,35 при z1 и 6,466 при z2).

DrgLena, я не понимаю зачем пользоваться скорректированным уравнением регрессии для прогноза? Может быть я ошибаюсь, но по-моему скорректированные на общий наклон уравнения регрессии мы находим только для того, чтобы их запараллелить друг с другом и затем использовать для сравнения согласованных средних по фактору. Средние по фактору нужно корректировать на ковариату, потому что она непрерывна. Уравнения регрессии не нужно корректировать на фактор, потому что для каждого значимо отличающегося уровня есть своя независимая выборка из пар значений Y и X. Нужно просто определить эти отличающиеся уровни фактора, а затем строить модели для прогноза по исходным выборкам. Или я ошибаюсь?
DrgLena
Да, я тоже пытаюсь выпутаться из тупика по вашему примеру.

По 2 типу задач, а это и есть ковариационный анализ и мы сообща уже преодолели трудности, перерешали многие примеры и можем оторваться от них и приступить к своим задачам.

А первый тип задач, а именно ваши сосны, должен называться регрессионным анализом и решаться в его рамках.
Для этого используют несколько подходов. Stratified method, это понятно, или регрессионное уравнение включает в себя также z. Вот по этому уравнению, и рассчитывают ?у?. И Statistica вам его дает в модуле ковариационного анализа и расчет высоты 30 летнего дерева совпадает с расчетом по уравнению множественной регрессии в модуле регрессии.
Есть еще третий путь regression adjustment, описано тут?
Biostatistics. A Methodology for the Health Sciences. GERALD VAN BELLE, LLOYD D. FISHER, PATRICK J. HEAGERTY, THOMAS LUMLEY.2004 by John Wiley & Sons

Но, Nokh решительно увел нас в сторону ковариационного анализа, за что ему большое спасибо!
Green
Pinus, в такой постановке я с Вами согласна.
Что касается второго типа задач, тут все ясно.
Что касается первого, тоже логично.
После праздников набросаю один пример по первому типу (именно связанный со временем). Не для оппонирования, а для лучшего понимания. Ведь если равный наклон, то для любой точки x расчет разности между моделью z1 и z2 будет b01-b02 =const.( Постоянная разность между свободными членами, т.е. для возраста 15 лет и для возраста 50 разность будет одна и таже).








Игорь
Цитата(nokh @ 28.12.2009 - 07:26) *
Я совсем не против минимализма в интерфейсе и никоим образом не призываю программистов создавать какую-нибудь очередную Statzill'у
...
По поводу "сослаться"

Нет, нужно - значит - нужно. В последней версии (от 3 января) AtteStat вывод в-основном соответствует методическим материалам nokh, включая регрессии и ДИ. Источники (в т.ч. для ссылок) добавлены. Ознакомиться со многими из них можно совершенно легально в Google Books.
DrgLena
Не осилила ввод данных, две ковариаты, один фактор с двумя уровнями. Игорь, к Вам просьба, показать как создать массив на пришпиленном примере . Вроде бы, все делаю по указанию из документации, только к двум Х-ам , один У.
Игорь
Цитата(DrgLena @ 3.01.2010 - 19:29) *
Не осилила ввод данных, две ковариаты, один фактор с двумя уровнями. Игорь, к Вам просьба, показать как создать массив на пришпиленном примере . Вроде бы, все делаю по указанию из документации, только к двум Х-ам , один У.

Лучше покажу на данных Milliken (как у nokh). См. рисунок. Исходные данные ("Интервал данных") - нужно протащить курсор с ячейки A2 до ячейки L9. Данные представляют собой 6 регрессий. Каждая регрессия (2 столбца - X и Y) соответствует одному уровню качественного фактора, который не вводится. Выходной интервал - M2. Выбрать метод. Нажать "Выполнить расчет".

Если нужно при одном X ввести два Y (т.е. имеется 2 уровня качественного фактора), то нужно повторить X для второго Y, чтобы было 2 пары столбцов (= две регрессии). Как быть с двумя X - пока не представляю (многофакторную ANCOVA AtteStat не делает).
DrgLena
Все обсуждаемые в этой верке примеры я в AtteStat осилила. Сейчас у меня реальная задачка, когда фактор один, поэтому это однофакторый анализ но учесть нужно влияние двух ковариат. Выводы о различии средних с учетом ковариат и без учета существенно отличаются.
Pinus
Цитата(DrgLena @ 30.12.2009 - 20:32) *
По 2 типу задач, а это и есть ковариационный анализ и мы сообща уже преодолели трудности, перерешали многие примеры и можем оторваться от них и приступить к своим задачам.
А первый тип задач, а именно ваши сосны, должен называться регрессионным анализом и решаться в его рамках.
Для этого используют несколько подходов. Stratified method, ... regression adjustment...

Давайте это подробнее разберем, DrgLena, почему Вы так считаете? Конечно в большинстве книг (на русском) по ковариационному анализу постановка задачи и примеры приводятся для 2-го типа задач. Но есть источники, в которых и 1-й, и 2-й типы задач считаются равноправными и все-таки относятся к одному и тому же ковариационному анализу.
Например:
Кендалл М., Стьюарт А. Многомерный статистический анализ и временные ряды. ? М.: Наука, 1976. (на стр. 79-80);
Айвазян С.А., Енюков И.С., Мешалкин Л.Д. Прикладная статистика: Исследование зависимостей: Справ. изд. Под ред. С.А. Айвазяна. ? М.: Финансы и статистика, 1985. (на стр. 395 и 400);
Закс Л. Статистическое оценивание. Пер. с нем. В.Н. Варыгина. Под ред. Ю.П. Адлера, В.Г. Горского. М.: Статистика, 1976. (на стр. 405 ? Приводит метод сравнения двух коэффициентов регрессий (аналогично Хальду, с. 488) и говорит, что сравнение нескольких коэффициентов регрессий производится с помощью ковариационного анализа).

Конечно, видимо есть и другие подходы к решению 1-го типа задач. Например, включение в уравнение регрессии Z и др. (то, о чем Вы писали). Если известны книги на русском по этим методам, пожалуйста, поделитесь ссылками.

Поэтому остается еще и нерассмотренная нами проблема сравнения регрессий с разными наклонами для 1-го типа задач ковариационного анализа. Может быть кто-нибудь сталкивался с такими задачами?
DrgLena
Цитата(Pinus @ 4.01.2010 - 01:47) *
Но есть источники, в которых и 1-й, и 2-й типы задач считаются равноправными и все-таки относятся к одному и тому же ковариационному анализу.

Совершенно верно, nokh дал все, что душе угодно для решения обеих задач, я просто логически разделила на две задачи именно терминологически, первая задача регрессионная.
Цитата(Pinus @ 4.01.2010 - 01:47) *
Конечно, видимо есть и другие подходы к решению 1-го типа задач. Например, включение в уравнение регрессии Z и др. (то, о чем Вы писали). Если известны книги на русском по этим методам, пожалуйста, поделитесь ссылками.


Это решение, как раз выдается в рамках модуля ковариационного анализа (Statistica)

Цитата(Pinus @ 4.01.2010 - 01:47) *
Поэтому остается еще и нерассмотренная нами проблема сравнения регрессий с разными наклонами для 1-го типа задач ковариационного анализа. Может быть кто-нибудь сталкивался с такими задачами?

Вот вы сами и отвечаете, как что назвать, и сравнивайте себе коэффициенты b, ведь ошибки прилагаются. Т.е. фактор влияет на регрессию, а не ковариата на средние.
Для меня не очень важно, в каком модуле программы будут выдаваться средние или коэффициеты, важно как их содержательно описать и сделать выводы, а это зависит от конкретных данных, и от целей с которыми вы к этим данным подходите.
Pinus
Цитата(DrgLena @ 4.01.2010 - 20:34) *
Вот вы сами и отвечаете, как что назвать...

Я не отвечаю. Просто пытаюсь рассуждать. А название ? это важно, потому что за названием стоит суть предмета.

Цитата(DrgLena @ 4.01.2010 - 20:34) *
Для меня не очень важно, в каком модуле программы будут выдаваться средние или коэффициеты, важно как их содержательно описать и сделать выводы...

Для меня тоже это не очень важно. Главное получить правильный результат.
DrgLena
Название GLM, там вся суть и содержится. Программы гиганты в этом модуле, если вы вводите ковариату, дадут вам коэффициенты, если вы их закажете. Но если в логистической регрессии вы кроме интересующих вас факторов вводите например возраст, но вы получаете согласованные с возрастом (adjusted) коэффициенты. Также и в вашей задаче, если вы вводите в модель z, то получаете согласованные оценки параметров и коэффициенты для к-1 уровней. А дальше смотрите на эти оценки и используйте те коэффициенты, которые значимы на выбранном уровне. Уровень можно и повыше, чем 0,05 выбрать.
SPSS и Statistica дают однаковые значения 30 летних деревьев в каждой зоне при использовании общего уравенения.
nokh
С новым годом! Как тут уже много написали...
Цитата(Pinus @ 28.12.2009 - 10:59) *
...Возможен ли другой (частный) подход:
Если наклоны регрессий значимо различны, значит, если бы уровней фактора было бы два, то можно статистически достоверно утверждать о значимом различии межгрупповых регрессий и для каждой из них строить свою модель (уравнение). В случае большего чем два уровней фактора, сделать такой вывод нельзя, поскольку регрессий несколько. Тогда может быть, если нет другого подхода, воспользоваться следующим методом: сделать тесты на однородность наклонов для пар регрессий. Сначала сравнить пару А и Б. Если наклоны одинаковы, то сравнить наклоны для пары А+Б и В. И так перебрать все образующиеся сочетания. Если уровней фактора немного, то в принципе это не так долго. В конце концов получится, скажем, три значимо различных (по наклонам) группы регрессий (например, А+Б; В; Г). Для групп регрессий с одинаковым наклоном продолжить проверку на равенство свободных членов. Для регрессий значимо различных по наклонам, находить свои отдельные уравнения регрессии.

В принципе подход выглядит здравым, но каким-то неизящным. Механистическим что-ли. Я бы поступил всё-таки в зависимости от глубинной цели исследования, которая в свою очередь определяется номером специальности по которой будет защищаться работа: лесоводство и т.п. или экология, ботаника и т.п.
(1) Цель: СРАВНИТЬ ПОКАЗАТЕЛИ древостоев в разных условиях посадок с учётом их различий по возрасту. Это - однозначно задача ковариационного анализа. Не соглашусь здесь с DrgLena, что это - регрессионная задача, а я пусть и кстати, увёл её в сторону ковариации. Это типичная задача сравнения средних для нескольких групп (раз помимо A и Б, есть ещё В и Г). И решается она дисперсионным анализом (ANOVA) с последующими попарными сравнениями внутри дисперсионного комплекса. Если бы посадки были одновозрастные - мы бы так и поступили. Но поскольку вмешивается возраст, также влияющий на величину показателей, его влияние требуется исключить. Не ИЗУЧИТЬ (регрессия), а выразить и ИСКЛЮЧИТЬ. Поэтому данные подгоняются под требования ковариационного анализа (линейность ответа, нормальное распределение ошибки), проверяется требование параллельности зависимостей и по сути проводится ANOVA, но для скорректированных на различия по возрасту данных. Дальше как обычно следуют попарные сравнения. Никакой регрессии. Такой подход более уместен, когда цель имеет чёткий практический выход. Например, лесохозяйство интересует как организовать посадки, чтобы заполнить пространство деревьями с максимальной отдачей качественной древесины в будущем. Поэтому здесь работа по отдельным показателям вполне оправдана: дерево должно быть высоким, с большим обхватом, ровным, несучковатым и т.д. Потом взвесив все "за" и "против" будет приниматься решение о способе посадки. Если всё так - думаю можно и механистически погруппировать выборки, хотя цель такой процедуры не вполне ясна - кому какая разница как они группируются - дерева больше давай! Есть и техническая сложность при таком подходе - большое число сравнений, а значит рост ошибки первого рода (лжеоткрытия). Бороться нужно спецсредствами типа последовательной техники Бонферрони: метод Данна-Шидака (Dunn - Šidak), это видимо то же самое, что в источнике avorotnyak названо методом Данна-Бонферрони. Где-то в пока соседней теме были предложены менее консервативные методы, но они мне ещё неизвестны.
(2) Цель: СРАВНИТЬ РОСТ деревьев в разных условиях посадок. Эта цель более общая и ориентированная на теорию, хотя в качестве одного из возможных подходов к реализации включает в себя и Цель 1. Но т.к. здесь речь идёт о росте - его и нужно стараться изучить в первую очередь, не ИСКЛЮЧИТЬ как в (1), а ИЗУЧИТЬ. Рост изучается регрессионными техниками, уход от них есть упрощение задачи, и в этом контексте задача представляется однозначно регрессионной. Ещё в самом начале я описывал этот подход, но Pinus им не заинтересовался или не был готов обсуждать. В отличие от простых зависимостей уравнения роста сложны, но зато каждый параметр этого уравнения имеет чёткий биологический смысл (но потребуется литературу поднимать), а значит сравнивая параметры таких регрессий мы автоматически обобщаем данные, уходим от конкретного показателя к биологическому явлению. Выразив эти параметры и оценив значимость различий по ним (здесь я не силён, но пакеты должны помочь) можно переходить к естественной группировке выборок с помощью кластерного анализа. Выбрки A, Б, В и Г будут точками в пространстве нескольких параметров уравнений роста - для них можно смотреть близость-дальность по тому же расстоянию Махаланобиса, и обсуждать с точки зрения близости-дальности выборок по стоящим за параметрами уравнений биологическими явлениями. Учитывая, что признаков несколько - нужно будет ещё подумать, как обобщать информацию по ним: в самом начале - т.е переходя от признаков к главным компонентам или факторам, или в конце - оценивая согласованность параметров динамики роста для разных признаков в популяциях. Ведь нас здесь интересуют не отдельные признаки, а процессы. Тоже не просто, даже скорее сложно. Но мне как экологу такой подход представляется куда глубже и изящнее. Хотя с практической (потребительской) точки зрения - почти всё это есть умствование.
nokh
Цитата(Green @ 28.12.2009 - 20:36) *
Вопрос по Вашему труду- страница 2, Эпап 1 "Идентификация зависимостей"
Вы пишите "Для данных примера визуальная оценка диаграммы рассеяния (см. рис. 1) не даёт веских оснований предполагать нелинейность отклика, а выполнить соответствующую статистическую проверку не позволяет тип исходных данных, когда для каждого случая X
известно только одно единственное значение Y, а не несколько."
Зависимость - когда значению х ставится в соответствие значение у ( статистическая модель зависимости у=f(x)+е(ошибка) )
О каких соответствующих проверках идет речь?

Если для каждого х имеется несколько значений у, то сумму квадратов остатков (ошибки) можно разложить на 2 части: отклонения групповых средних от линейной регрессии и отклонения внутригрупповых значений от своего среднего (как в дисперсионном анализе), которые теперь выступят статистикой для проверки линейности. Если Вы этого не умеете - создайте другую тему, можно разобрать на к/л примере, хотя и в доступной литературе всё это должно быть. Другое дело что пакеты в результатах регрессионного анализа такой проверки не выдают.
Цитата(Green @ 28.12.2009 - 20:36) *
... Я полагала, что необходимо смотреть уравнение регресии (для каждого типа конфеты) ( т.е. оценка параметров регрессии, остатков и проч..). А что смотреть визуально? Что нужно "увидеть" на Scatterplot? Откуда вывод, что можно переходить к этапу 3?
тем более, что далее, во втором этапе (преобразование нелинейных зависимостей) Вы на этих данных приходите к коэффициенту -2,7 - который означает нелинейность х по отношению y.

Если бы речь шла не о скорости рассасывания шоколадки и ириски, а о совсем непонятных мне процессах, скажем о скоростях к/л процессов в адронном коллайдере - однозначно использовал бы преобразование к более линейному виду (если бы физики меня не отговорили). Однако мой исключительно субъективный опыт сосания конфеток и ирисок не даёт оснований предполагать что скорость этих процессов связывает величина, обратная корню степени 2,7:). Хотя если углубиться в физико-химические свойства - кто его знает? Да и субъективизм - штука ненадёжная: читал когда-то в "Знание-Сила", что когда испытуемым предлагали отсортировать монетки с наклеенными случайным образом двумя бусинками они делили их в пропорции золотого сечения. Хотя весь мой жизненный опыт не позволяет даже помыслить о том, что доля субъективно негармоничных для меня сочетаний среди случайных комбинаций составит (sqrt(5)-1)/2.
Если серьёзно - для меня часто большая трудность решить с чем работать и что показывать: исходные данные или преобразованные значения, особенно когда отклонения от требований модели невелико. Скажем так: если бы я считал именно эти данные себе, то преобразовал бы их по Боксу-Коксу, а после всех анализов построил графики средних с ДИ, рассчитанными после обратного преобразования средних и симметричных ДИ из анализа. Такие ДИ были бы несимметричными, а все графические построения и расчёты для них пришлось бы делать вручную. Но если бы с этими данными ко мне пришёл аспирант от научного руководителя также не разбирающегося в статистике (а таких почему-то большинство) - стал бы искать компромисс между требованиями модели и простотой восприятия материала сначала аспирантом и его руководителем, а в последующем - учёным советом. В данном конкретном случае - оставил бы линейность (на практике часто спасает логарифмирование, т.к. пакеты позволяют представлять оси в логарифмическом масштабе, но только приходится делать 2 анализа: один для оценки значимости, другой - для построения графика).
Цитата(Green @ 28.12.2009 - 20:36) *
nokh, спасибо, поищите.
Поскольку наши доктора физ-мат наук говорят в один голос, что регрессионый анализ (техника выметания матриц и проч) основывается именно на нормальности зависимой переменной.

Ну с вашими докторами мне не тягаться... (да и речь исходно шла не о регрессии, а об anova и ancova). Я понимаю так: если данные y исходно распределены нормально на каждом уровне х - ошибки также будут распределены нормально. Математический аппарат регрессионного анализа выводится из этого. Однако почему невозможна ситуация, когда данные распределены ненормально, а ошибка - нормально? Часто при описании моделей выдаётся именно требование нормального распределения ошибки. Посмотрите ковариац. анализ того-же Афифи, книгу Монтгомери. В регрессии также акцентируют внимание на ошибке, например:
(1)... In the univariate linear regression model, we assume that y=E(Y|x)+ε, where E denotes the mathematical expectation of Y given x and could be any deterministic function of x in which the parameters appear in linear form; ε, the error term; stands for all the other unaccounted for factors that make up the observed value y. How accurate our estimates are and how consistent they will be from sample to sample will depend on the nature of the error terms. If none of the many factors that contribute to the value of ε makes more than a small contribution to the total, then ε will have a Gaussian distribution. If the {εi} are independent and normally distributed (Gaussian), then the ordinary least-squares estimates of the coefficients produced by most statistical software will be unbiased and have minimum variance (выделение - моё. Из:
Phillip I. Good, James W. Hardin. Common Errors in Statistics (and How to Avoid Them) Или это:
(2) 5.3.8 Assumptions of regression analysis
The assumptions of the linear regression model strictly concern the error terms (εi) in the model, as described in Section 5.3.2. Since these error terms are the only random ones in the model, then the assumptions also apply to observations of the response variable yi. Note that these
assumptions are not required for the OLS estimation of model parameters but are necessary for reliable confidence intervals and hypothesis tests based on t distributions or F distributions... (выделение - моё. Из: GerryP.Quinn, Michael J.Keough. Experimental Designand Data Analysis for Biologists)
Так что поспрашивайте докторов поподробнее, возможно ли нормальное распределение ошибки при ненормальных данных, и чем нам грозит нарушение нормальности данных - я здесь некомпетентен и просто цитирую людей компетентных.
Цитата(Green @ 29.12.2009 - 18:00) *
DrgLena,
рост, возраст, вес и т.п. и подростков ПОХОЖЕ на рост деревьев, но, есть одно отличие.
Сначала поясню на примере: подставив в форумулу регрессии возраст 0, вы должны получить свободный член уравнения регрессии. так вот для детей это будет не ноль, а для деревьев ноль. Что это значит? это значит, что уравнение регрессии для деревьев должно строится без intersept, т.е. все необясненные остатки идут за счет влияния качественных факторов.

В рассуждениях есть ошибка. И растения, и животные развиваются из одной клетки, поэтому если исходный размер организма если и не ноль (диаметр зиготы), то очень близок к нему по сравнению с размером взрослого организма. Просто в силу нашей безграмотности мы не знаем дату нашего зачатия, а захватившей нас паразитической цивилизации выгодно считать неродившихся людей "плодом", в т.ч. чтобы использовать в своих целях абортивный материал. Если же считать размеры человека от зачатия или сдвинуть ноль на 3/4 года (9 месяцев) назад, то все кажущиеся отличия между началом роста человека и растения снимаются. Принципиальное же различие заключается в другом - рост растений замедляется, но не прекращается, тогда как рост человека выходит на плато, а если человек собой не занимается - то и снижается к старости.

PS. Ниже - таблица из книги INTRODUCING ANOVA AND ANCOVA A GLM APPROACH (лень уже авторов искать) со сравнением требований anova и GLM.
nokh
Цитата(Игорь @ 3.01.2010 - 18:40) *
Нет, нужно - значит - нужно. В последней версии (от 3 января) AtteStat вывод в-основном соответствует методическим материалам nokh, включая регрессии и ДИ. Источники (в т.ч. для ссылок) добавлены. Ознакомиться со многими из них можно совершенно легально в Google Books.

Огромная благодарность за проделанную работу! Модуль действительно востребованный для тех кто пользуется таким анализом, хотя сам метод пока недостаточно "раскручен". Из пожеланий: всё-таки хотелось бы в модуле "дисперсионный анализ" увидеть стандартные таблицы результатов. То что они есть во всех статпакетах и насколько помню даже в Excel подсказывает мне что это нужно не только таким занудам как я:).
nokh
Цитата(DrgLena @ 3.01.2010 - 22:47) *
Все обсуждаемые в этой верке примеры я в AtteStat осилила. Сейчас у меня реальная задачка, когда фактор один, поэтому это однофакторый анализ но учесть нужно влияние двух ковариат. Выводы о различии средних с учетом ковариат и без учета существенно отличаются.

Посмотрел Ваши данные, покрутил. Хотелось бы подойти к ним не механистически, а для этого важно знать: бимодальность показателя х2 связана с особенностями сбора материала или же она также наблюдается в популяции? Насколько понял из цифр и эл. письма это - возраст больных.
Green
nokh, спасибо за ответы!

Все, что меня до сих пор смущает в применении ковариационного анализа для данных Pinus - попробую пояснить.

Пункт 1. Поскольку коэффициент регрессии находится как центр масс соответствующих точек, данные представляются мне несбалансированными.

Поясню на примере. В первой выборке - года с 15 до 55, во второй с 14 до 43.
Если убрать замеры в первой выборке от 44 до 55 (4 кейса), во второй 14 (1 кейс), то... пожалуйста, посмотрите сами что получается при использовании кованализа.

пункт 2. Confounding
Скрытая переменная не должна сама присутствовать в анализе. Вы ее включаете. Тогда влияние чего вы исключаете? Несбалансированности исходных данных? Таким образом его исключить не удастся.
---
Для балансирования данных используются страты (я бы сослалась на на EPA QA/G-9. Guidance for Data Quality Assessment, Practical Methods for Data Analysis, 1.3.2.4 Stratified Samples)


Тут бы было уместно сначала сбалансировать (найти среднее для каждого возраста), и только потом строить регрессию. Также тогда можно было бы и провести кованализ, где использовались бы данные каждой страты ( возраста), а сам возраст действительно был бы конфаундером.

Да и Вы сами завуалированно ссылаетесь на балансировку: "Если для каждого х имеется несколько значений у, то сумму квадратов остатков (ошибки) можно разложить на 2 части: отклонения групповых средних от линейной регрессии и отклонения внутригрупповых значений от своего среднего (как в дисперсионном анализе)". Да, в данных Pinus именно так, для одного х (возраста) несколько различных y(высот).
Как посчитать, думаю, не составит труда.
Что и сделала.
первая группа
уравнение регрессии построено по данным первой группы у=0,409358714 +0,301258128*х
подставила значения средних в каждой возрастной группе.
получена SSобщ=22,59411535 (df=1)
рассчитала SS для каждой группы возрастной группы в отношении их среднего.
SSгрупп= 34,51520833 (df=24)
MSобщ=22,59411535
MSгрупп=1,438133681
MSобщ/MSгрупп=15,71071984
p=,000578

Вторая группа
уравнение регрессии у=0,004065221+0,323122789*х
SSобщ=19,87431237 (df=1)
SSгрупп= 43,6705 (df=26)
....
p=,001976

Где и что теперь я сделала не так?
Какой вывод следует из данных расчетов?
Для меня - опять же показывает, что нельзя строить напрямую регрессию по этим данным.
========
А за ссылки по требованиям к нормальности - спасибо огромное!
Потому что те доктора физмат наук - почтенного возраста, разговаривать с ними трудно, а на предзащите диплома девочку ввели в полный ступор. Спорить напрямую я с ними не буду, но... ссылочки приведу, если будет повторятся ситуация.

Pinus
DrgLena, я начал разбирать предложенный Вами метод, но никак не могу уловить, Вы считаете мой подход ошибочным (для незначимо влияющих уровней фактора объединить исходные выборки и построить общую модель обычным регрессионным анализом, и уже по ней делать прогноз)? Или просто предлагаете другие известные методы?
Я не вижу ошибки в своих умозаключениях, если она есть, и я просто чего-то недопонимаю, то скажите в чем эта ошибка.
Pinus
Цитата
Nokh.
(1) Цель: СРАВНИТЬ ПОКАЗАТЕЛИ древостоев в разных условиях посадок с учётом их различий по возрасту.
Это конечно не моя цель.

Цитата
(2) Цель: СРАВНИТЬ РОСТ деревьев в разных условиях посадок. Эта цель более общая и ориентированная на теорию ?
Ещё в самом начале я описывал этот подход, но Pinus им не заинтересовался или не был готов обсуждать. В отличие от простых зависимостей уравнения роста сложны, но зато каждый параметр этого уравнения имеет чёткий биологический смысл (но потребуется литературу поднимать), а значит сравнивая параметры таких регрессий мы автоматически обобщаем данные, уходим от конкретного показателя к биологическому явлению.
Это тоже не моя цель. Моя задача проще. Получить регрессионные модели (значимо различающиеся), по которым можно было бы построить таблицы хода роста насаждений. Таблицы хода роста ? это таблицы возрастной динамики показателей, для каждой градации возраста (например, через 5 лет) приводятся прогнозные значения параметров роста (высота, диаметр ствола, диаметр кроны и т.д.). Такие таблицы могут например использоваться в ландшафтном проектировании, чтобы архитектор знал динамику роста насаждения и мог, соответственно, судить о динамике ландшафта. Кроме того, такие модели могут использоваться для оценок возрастной динамики фитомассы насаждений и для других целей. Когда подобные таблицы строят для лесных насаждений, то они используются для лесохозяйственного планирования.
Я сначала не понял, зачем Вы настаиваете на функциях роста (ведь зависимости простые и прогнозные значения вряд ли будут значимо отличаться, да и практическое значение таких различий ничтожно). А теперь понятно, что Вы подумали, что я взялся за теоретическое изучение роста. Это не так. Подобные работы встречал, часто используют функцию Вейбулла и кривые Пирсона. Также есть монографии (в т.ч. авт. Кивистэ) и докт. диссертации на эту тему.

Nokh, ошибочен ли предложенный мной подход: вот для конфеток получились три значимо отличающихся друг от друга группы уровней фактора. Правомочно ли объединить исходные выборки для таких однородных групп и построить три значимо различающиеся регрессионные модели обычным регрессионным анализом, и уже по ним тогда делать прогноз? Дисперсии для уровней фактора однородны, ошибки нормальны, средние, по ANCOVA, значимо не отличающиеся. А то никто конкретно не скажет, да или нет. Если правомочно, то мне пока от ANCOVA больше ничего не надо (задачу для фактора тоже разобрал). Если нет, то почему?
nokh
Цитата(Pinus @ 5.01.2010 - 17:18) *
Это конечно не моя цель...
Это тоже не моя цель. Моя задача проще...

Ну значит Вы плохо сформулировали цель. Соответственно получили то, что Вам в действительности не нужно, или не совсем то, что нужно и, вероятно, потеряли месяц времени. Конечно "потеряли" условно: с пользой для себя и для других участников и читателей форума, которые сейчас достаточно полно осведомлены о ковариационном анализе и имеют возможность провести его в выверенном бесплатном пакете AtteStat. Но от истинной цели Вы почти так же далеко. Напомню исходную формулировку задачи:
Цитата(Pinus @ 10.12.2009 - 10:09) *
Есть такая задача.
Рассматриваем две независимые выборки, в которых переменная Y подвержена влиянию фактора X (Y и X непрерывные случайные величины). Каждая выборка относится к определенному типу условий Z (качественный признак). Если рассматривать каждую выборку раздельно, то выявлено достоверное влияние X на Y и найдены уравнения регрессии с R^2>0,75. Необходимо определить значимость влияния типа условий Z на переменную Y. Распределения Y и X не являются нормальными.

Выделение моё. Определить значимость влияния типа условий Z на переменную Y, которая также подвержена влиянию регрессора X - это и есть ... цель 1 в чистом виде (sic!).
(Ответить Green не смогу, т.к. я просто уже не понимаю о чём речь: как-будто во сне услышал, а сейчас ускользает. Тебе - балансировка, мне - балансировка..., рассказать сказку про белого бычка? Эта задача решается ковариационным анализом, который для этого и был разработан, ничего изобретать не нужно, нужно только проверить выполнение определённых требований...)
Ваша же истинная цель, Pinus, формулируется примерно так: определить уравнения динамики роста деревьев по ряду показателей, оценить влияние на рост условий посадки и сделать прогноз. Это очень близко к цели 2, т.к. требуется использовать регрессионную технику. И она не особенно проще. Какие формы зависимости использовать? Ясно, что самые точные, т.к. чем качественнее подгонка (fit) модели, тем точнее прогноз. А наиболее точные уравнения роста получены из теоретического анализа ростовых процессов. Почти цель 2, но с креном не в теорию, а в прогноз.
На Ваш последний вопрос, конечно, можно ответить утвердительно. Раз нет статистически значимых различий, значит это - одна генеральная совокупность, а раз так - с ней и нужно работать далее как с единым массивом. Вот только как Вы планируете теперь это сделать?
(1) Согласитесь что как-то непоследовательно искать различия с помощью искусственно спрямлённых зависимостей, а потом объединить данные и выражать нелинейные зависимости и по ним делать прогноз. И всё равно встаёт большой вопрос выбора типа нелинейной зависимости для прогноза. И какой-нибудь дяденька в учёном совете обязательно спросит, "почему вы сравнивали зависимости с использованием одной модели (однофакторный ancova), а прогнозируете с использованием другой, нет ли здесь противоречия?". Т.е. хочу сказать, что органичнее было бы изначально работать с уравнениями динамики роста, хотя это сложнее, по крайней мере для меня, т.к. вообще с таким не сталкивался (специалисты по эконометрике такие задачки должны щёлкать, т.к. только с регрессиями и работают).
(2) Если вы всё же не захотите отказываться от ков. анализа, найдёте однородные группы и объедините прямые по преобразованным данным, а затем с помощью обратного преобразования выдадите кривую роста с прогнозом - тоже могут быть вопросы. Хотя такая кривая и будет очень близка к идеальному fit, какая-нибудь тётенька спросит "почему Вы изобретаете велосипед прикрываясь Боксом и Коксом, тогда как она с коллегами, ещё в далёком 197...-198... году показала, что динамика роста сосны прекрасно описывается уравнением ..., есть зарубежные работы на эту тему ... и почему Вы отказываетесь от общепринятых подходов путая нас неуместными здесь статистическими терминами?"
Не знаю что Вы выберете, но считал нужным это написать.
DrgLena
Цитата(nokh @ 4.01.2010 - 23:56) *
Посмотрел Ваши данные, покрутил. Хотелось бы подойти к ним не механистически, а для этого важно знать: бимодальность показателя х2 связана с особенностями сбора материала или же она также наблюдается в популяции? Насколько понял из цифр и эл. письма это - возраст больных.

х1 - возраст, известно, что от имеет слабую обратную корреляционную связь с изучаемыми показателями (у, а их у меня не один, а 4) подтверждено популяционными исследованиями здоровых лиц, х2 - длительность заболевания СД, также по нашим данным имеет корреляционную связь с У. Фактор - два уровня определенное состояние есть, или нет. цель - определить имеется ли различие средних значений в этих показателях ( а их у меня не один, а 4) в двух уровнях с учетом влияния возраста и длительности заболевания СД. Чисто ковариацонная задача? rolleyes.gif
Green
nokh,

во-первых и главных, все Ваши усилия не прошли даром. За это Вам огромное спасибо!
Подняла много литературы, посмотрела другим взглядом на кое-какие вещи.
-----
Я сейчас не буду говорить о кованализе, Бог с ним!

Попробую еще раз пояснить на очень простом простом детерминированном примере.

Едут две машины
номер скорость длительность путь
1 1 50 50
3 10 100 1000

Найти среднюю скорость, с которой двигались машины
(50+100)/2=75 км/ч

А теперь, используя регрессию, постройте уравнение по двум точкам (1, 50) и (10, 1000). У меня получилось y = 105,56x - 55,556

Это очень известный "парадокс", который объясняется тем, что в линейной регрессии используется центр масс для расчета коэффициента наклона.
-------------
НО!!!
Как только абсцисса х измеряет время, а мы хотим использовать уравнение прямой y=k*x +b, мы ведем речь о процессе, протекающем во времени с постоянной скоростью.
Постоянная скорость ? это k=const.
b ? начальные условия процесса.
Никаких других трактовок изображения линейного процесса во времени не придумано ни в одной науке, ни в биологии, ни в физике, ни в медицине. Скорость и начальные условия, если по оси абсцисс обозначено время, а по y - некоторая количественная переменная.

Поэтому используют стратификацию, чтобы избежать "перевеса". Используют весовые коэффициенты страт, чтобы исправить это в практических расчетах.
----------
Вы сами предлагали проверить "линейность". Я проверила. Что получилось? Данные нелинейны? Как правильно трактовать?

Я не занудствую, я молчу про кованвлиз, но пожалуйста, поясните мне что такое линейная регрессия во времени? До сих пор я была уверена, что мы строим линейную модель роста/движения/развития/как угодно во времени, где наклон - это скорость.

И еще раз, я ОЧЕНЬ благодарна Вам за весь представленный материал. Повторю, я пришла из разведочного анализа, методов интеллектуального анализа и проч в статистику. Мне иногда трудно перенаправить взгляд от "физики" процесса.
Но одно я знаю точно - статистика - не ?бог из машины?, которые позволит получить результаты, отличные по смыслу от тех, которые бы были получены другими методами, например, матанализа для неслучайных величин.
DrgLena
Цитата(Pinus @ 5.01.2010 - 16:16) *
DrgLena, я начал разбирать предложенный Вами метод, но никак не могу уловить, Вы считаете мой подход ошибочным (для незначимо влияющих уровней фактора объединить исходные выборки и построить общую модель обычным регрессионным анализом, и уже по ней делать прогноз)? Или просто предлагаете другие известные методы?
Я не вижу ошибки в своих умозаключениях, если она есть, и я просто чего-то недопонимаю, то скажите в чем эта ошибка.

Я не думала, что могут запутаться в трех соснах те, кто их изучает.
Вы никак не можете выделить главное, для чего вам нужен анализ данных. Никакого Вашего подхода нет, есть только частности из которых вы никак не можете выйти. Вы как будто под пыткой выдаете крупицы информации, что вы на самом деле хотите анализировать, поэтому каждый из участников обсуждения вас понимает по свойму.
Я предложила в рамках совариационного анализа (Statistica) общее решение, не я его изобрела, это уравнение получено по вашим данным и абсолютно универсально для ваших задач, коэффициенты:

Intercept 0,247706 (p=0,397553)
x 0,310287 (p=0,000000)
z - 0,104374 (p=0,299433)

Параметры уравнения регрессии перед вами, уровней z может быть сколько вам нужно (в вашем случае z=2 понижен, для него не нужен коэффициент) и z может быть как не значимым и вы можете не учитывать этот член уравнения регрессии, а может быть значим, тогда высота деревьев будет существенно различаться, не так, как в данном случае.
Green
DrgLena,

а Вы не пробовали для своих "новогодних" данных воспользоваться survival analysis?
Он прекрасно показывает различия в Ваших группах, если х2 - длительность. Трактовку дать воздержусь, но К_М графики посмотрите.
Кокс тоже показал на y.

Но, дело Ваше, конечно smile.gif
DrgLena
Цитата(Green @ 6.01.2010 - 11:54) *
а Вы не пробовали для своих "новогодних" данных воспользоваться survival analysis?

Нет, я на трезвую голову цель сформулировала. И матанализ для неслучайных величин я тоже не буду делать.
Цитата(Green @ 6.01.2010 - 11:54) *
Он прекрасно показывает различия в Ваших группах, если х2 - длительность.

Различия по какому признаку?
Цитата(Green @ 6.01.2010 - 11:54) *
Трактовку дать воздержусь, но К_М графики посмотрите.

Посмотрю, если вы их сделаете и пришпилете. И помогу вам с трактовкой Кокса.
Цитата(Green @ 6.01.2010 - 11:54) *
Но, дело Ваше, конечно smile.gif

Да, мое дело учиться, но мои знания разведочного анализа мне подсказывают, что эта тема, которая сама по себе не в теме, вырождается, к ней прилепилось много лишнего, сказывается отсутствие Плава.
Всех С Праздником!!!
Pinus
Цитата(nokh @ 6.01.2010 - 02:00) *
Ну значит Вы плохо сформулировали цель.
Nokh, цель я сформулировал нормально. Просто мы уже запутались, какая задача ?1, а какая ?2. Но это уже не важно. Я не выражал сомнения в правильности использования ковариационного анализа в моей ситуации, просто хотел сказать, что не намерен заниматься теоретическим изучением роста, а хочу получить модели для прогноза. Вы, с этим согласились:
Цитата(nokh @ 6.01.2010 - 02:00) *
Почти цель 2, но с креном не в теорию, а в прогноз.


Проблемы получаются другие.
Во-первых, я неправильно понял, как работать с методами преобразования данных. Теперь понятно, что неправильно
Цитата(nokh @ 6.01.2010 - 02:00) *
искать различия с помощью искусственно спрямлённых зависимостей, а потом объединить данные и выражать нелинейные зависимости и по ним делать прогноз.
С этим согласен, не додумал. Правильный выход, который Вы предложили, нормальный:
Цитата(nokh @ 6.01.2010 - 02:00) *
Если вы всё же не захотите отказываться от ков. анализа, найдёте однородные группы и объедините прямые по преобразованным данным, а затем с помощью обратного преобразования выдадите кривую роста с прогнозом ? такая кривая и будет очень близка к идеальному fit ?


Что касается использования для моделей функций роста, то посоветуюсь еще с научруком.
Мне здесь не совсем понятно вот что. Например, на основании теоретических сведений известно, что какой-либо процесс соответствует параболе. Параметры уравнения определяем исходя из имеющихся статистических данных. Но изучаемый возрастной интервал небольшой, и, положим, параметр при x^2 получился незначимым (изгиб кривой небольшой). Ведь тогда можно исключать из уравнения x^2 и описывать процесс прямой линией. Или обязательно сохранять квадратичное уравнение с незначимым параметром (т.к. надо чтобы соответствовало теории)?
Положим мы выбрали какую-нибудь S-образную функцию роста. Поскольку в моей ситуации на рассматриваемом возрастном интервале один перегиб, а в большинстве других зависимостей их не будет совсем, то значит параметры уравнения, обеспечивающие перегибы, будут незначимыми. Есть ли смысл использовать сложные функции для описания таких простых зависимостей? Или целесообразнее это делать при исследовании всего периода жизни, когда проявляется весь характер закономерности. Мне кажется особые функции роста стали применять только для того, чтобы описать все замедления и ускорения процесса. Или я неправ?

Даже если решим работать с функциями роста, все равно ковариационный анализ будет нужен для других моментов в работе (там общепринятая зависимость линейная). Так что никуда время не пропало, и за ANCOVA Вам еще раз большое спасибо. Да и в будущем он еще не один раз пригодится.


Pinus
Цитата(DrgLena @ 6.01.2010 - 05:46) *
Я не думала, что могут запутаться в трех соснах те, кто их изучает.

Ну, в соснах я еще никогда не блудил. И не только в трех. А вот в стат. анализе немного плутаю, это верно. Но ничего, Москва тоже не сразу строилась, осилим.
DrgLena
А это я в шутку конечно, про сосны. В медицине не хватает таких соискателей, которые способны самостоятельно освоить анализ собственных данных, поэтому и прикрываются тезисом, что медицина не наука, а искусство.
Green
DrgLena,

Я тоже учусь. Поэтому спасибо за разрешение "покрутить" Ваши данные.

x2- если это длительность заболевания - то это распределение Вейбулла. проверено Hollander-Proschan test. Загнать их в линейную ковариату, возможно, поможет nokh.
Я же (ну, интересны мне реальные данные smile.gif ) посмотрела для начала эти данные Каплан-Майером. (x2, конечно, по группам). Потом уже покрутила Кокса. Интересно, параметр y - измеряется до лечения или после?

Если действительно интересно, могу скинуть в личку. Тема окончательно разбухла в разных направлениях.

С Рождеством!






DrgLena
Цитата(Green @ 6.01.2010 - 20:03) *
Я тоже учусь.

Если это так, посмотрите цель исследования, она четко сформулирована.Меня интересует различие У в двух группах с учетом влияния х1 и х2. А вы мне предлагаете получить оценку вероятности наступления события в зависимости от х1 и У.

nokh
Цитата(DrgLena @ 5.01.2010 - 22:08) *
х1 - возраст, известно, что от имеет слабую обратную корреляционную связь с изучаемыми показателями (у, а их у меня не один, а 4) подтверждено популяционными исследованиями здоровых лиц, х2 - длительность заболевания СД, также по нашим данным имеет корреляционную связь с У. Фактор - два уровня определенное состояние есть, или нет. цель - определить имеется ли различие средних значений в этих показателях ( а их у меня не один, а 4) в двух уровнях с учетом влияния возраста и длительности заболевания СД. Чисто ковариацонная задача? rolleyes.gif

Задача действительно представляется ковариационной, т.к. оценивается не влияние факторов на развитие заболевания (логистич. регрессия), а влияние заболевания и др. факторов на количественный показатель y. Посмотрите, пожалуйста, ещё раз файл "С Новым годом". Мне кажется, что всё-таки возраст это x2, а не x1, тогда всё логично получается.
DrgLena
Да, конечно х1 дительность заболевания в годах, а х2 возраст.
Green
1. nokh, я приношу свои извинения за ту кучу вопросв, которе я поставила.
Нашла книгу в Инете Analysis of Messy Data: Analysis of covariance , George A. Milliken,Dallas E. Johnson

Прочла, разобралась.

В своем труде ( а он не вызывает никаких сомнений) Вы указали требования к модели кованализа, 4 требования.
Но забыли (или не знали) самого первого: randomized complete block design structure
В книге это упоминается. Причем на первых же страницах. Основное условие, иначе исследователю грозят смещения данных.

Так вот я пыталась показать Вам эти смещения, разными способами.

Но тем не менее, приношу свои извинения. При наличии требования полной рандомизации, безусловно, первый тип задач - это задачи кованализа.

2. DrgLena, Вам , как медику, тем более понятно, когда и зачем нужна рандомизация. (я с нее и начинала анализ данных Pinus) - это требование ковариационного анализа. Хотите Вы того, или нет. А в Ваших данных этого нет.

И Вы, думаю, прекрасно отличаете Prospective or Cohort study , Retrospective or Case-Control Study, Experimantal Studies or Randomized Clinical Trials.

Возможно, nokh, проанализирует Ваши данные и мне интересно, как он это сделает (Надеюсь, что покажете, потому что это был бы образец, хороший образец для всех). Но пока не будет выполнено требование randomized complete block design structure относится серьезно к результатам будет трудно.

Удачи!
Green
да, и забыла написать, почему предлагала survival analysis.

>Меня интересует различие У в двух группах с учетом влияния х1 и х2.

В кованализе Вы будете изучать влияние фактора F на у с учетом ковариат x1 и x2

я недаром спросила, контролируется ли y - на начало заболевания или на конец.

Обычно в исследованиях, связанных с продолжительностью болезни (лечения), зависимая переменная - время (продолжительность наблюдения). Остальные переменные являются независимыми. Строится модель зависимости времени жизни(лечения) от независимых параметров модели. и т.д. Описывать не буду. Но поверьте, не только оценку вероятности события получают smile.gif А также влияние различных факторов и проч.

Вы уверены, что y- это зависимая переменная? В таком случае она должна измерятся ПОСЛЕ срока лечения ( выздоровления, смерти)?

Что от чего зависит? Срок болезни от у или у от срока болезни?
DrgLena
Эти данные уже проанализированы ковариационным анализом, благодаря тому, что nokh нас с ним познакомил.
nokh
>Green
Вам не за что извиняться, Вы меня ничем не обидели. Просто Ваши знания в области анализа данных крайне отрывочны, хотя местами, видимо, куда глубже моих. Всё-таки технарям математику лучше дают, а ВУЗ - это фундамент. Но отрывочность знаний порождает неверные решения. В корне неверные. Поэтому как педагог могу посоветовать систематизировать их следующим образом. Постройте таблицу с 4 столбцами: Задача исследователя, Количественные признаки с нормальным распределением, Количественные признаки с ненормальным распределением и порядковые признаки, Качественные признаки. В первой колонке следующие задачи: (1) Описание данных, (2) Выборочные сравнения для 2 групп, (3) Выборочные сравнения для 3 и более групп, (4) Поиск связей, (5) Поиск зависимостей, (6) Редукция данных с обобщением (7) Прочее. Это, конечно, грубо: например, все параметрические регрессии и анализ временных рядов попадут в клетку (1; 5), но вполне достаточно - мы со студентами так делаем. В каждую клетку пересечения вписываются строго те методы, которые для этой цели стандартно используются. Которые можно притянуть за уши вписывать не нужно, иначе всё поплывёт. Имея такую схему можно быстро ориентироваться в её крупных блоках. Крупные блоки можно дробить на меньшие. Например, сравнение двух выборок с примерно нормальным распределением можно проводить по (1) мерам положения , (2) мерам рассеяния и (3) мерам формы распределения. Выборки могут быть зависимые и независимые, данные могут быть полные или цензурированные, критерии - односторонние и двусторонние и т.д. Когда заполните её целиком - уже не придёт в голову использовать анализ выживаемости для нецензурированных данных только потому что одна из переменных - возраст и вы с этим анализом знакомы.
А вошедшее в моду слово "рандомизация" ничего кроме обычного здравого смысла за собой не содержит. Если не можешь или не хочешь контролировать мешающие факторы - сделай так, чтобы они "размазались" по группам случайным образом. Вот и вся рандомизация. И это не панацея, т.к. когда нужно используются специальные экспериментальные планы (experimental design) с ограничениями на рандомизацию. А то что о ней в голос заговорили везде относительно недавно не делает чести медицинской науке и указывает на то, "насколько всё было запущено". Чисто для интереса посмотрите многие ли учебники по прикладной статистике в медицине содержат элементарную таблицу случайных чисел. Но это - эксперимент. А что делать если данные собираются "в природе", например в больнице? Часто приходится и брать не случайным образом, а подряд всё что есть. И молодые врачи в больницах так и делают. Как можно рандомизировать лечение, если пациент должен получить оптимальный его вариант? И поскольку здесь никакая рандомизация невозможна приходится контролировать потенциальные мешающие факторы, чтобы потом свести их на нет с помощью спец. техник и получить adjusted оценки. И ковариационный анализ относится именно к таким методам, а точнее может быть использован и в этих целях тоже.
nokh
>DrgLena

Предварительно исключил пациента #133: х2=70, а х1 не было, но это не принципиально.
Несколькими постами выше я спросил:
Цитата(nokh @ 5.01.2010 - 00:56) *
... важно знать: бимодальность показателя х2 связана с особенностями сбора материала или же она также наблюдается в популяции? Насколько понял из цифр и эл. письма это - возраст больных.

Но Вы не ответили. А бимодальность - это какой-то неучтённый качественный признак. Пришлось залезть в википедию, и узнать, что СД первого и второго типа сильно различается по срокам манифестации. Поэтому предположил, что группа молодых больных - преимущественно СД 1, а пожилых - преимущественно СД2. Хотя это может быть и артефактом выборки (например соединили картотеки поликлиники и дома престарелых), но согласитесь что моё предположение уже не беспочвенно. Примем эту пока фантазию за гипотезу, хотя в википедии написано, что соотношение типов СД 1 и 2 примерно 1:9, а у Вас получилось примерно 2:3 (не знаю, кто ваши больные, но может для хантов или одесских евреев это обычное дело?). Далее вычел из возраста длительность болезни (х2-х1) и получил срок начала болезни. Бимодальность сохранилась и если считать в её основе диабеты разного типа, то по этому "очищенному" графику уже можно провести разделение выборки на 2 группы: см. рисунок 1. Делал в бесплатном пакете Past ( http://folk.uio.no/ohammer/past/ ; Statistics - Mixture analysis). Если подставить полученные средние и ст. отклонения в формулы норм. распределения и приравнять их - найдём абсциссу точки пересечения двух кривых. На глаз - 35 лет, по расчёту на калькуляторе получилось 36,15 лет. Ввёл новый фактор "Тип СД" и закодировал 1 - по 36 лет, 2 - более 36 лет. Двухфакторный дисперсионный анализ (факторы: "Заболевание F" и "Тип СД") показал тенденцию к взаимодействию факторов F(1; 358) = 3,216; P=0,074, которое проявилось в том, что для типа 1 были сильные различия по у для разных заболеваний F, а для типа 2 их практически не было (см. рис. 2). Поэтому далее разделил выборку на 2 части и провёл ancova отдельно для типов 1 и 2: зависимая - у, качественный предиктор - заболевание F, количественный - длительность болезни x1 (возраст х2 в этом контексте уже теряет свой исходный смысл и вероятно слабо коррелирует с х1). В обоих случаях наклоны не отличались, а в результатах собственно ancova обнаружилось:
(1) Величина у растёт с ростом длительности болезни x1 (все уравнения если нужно можно построить по результатам расчётов в AtteStat, я для экономии времени только прикидывал)
(2) Для типа СД 1 различия по у для заболеваний F высоко статистически значимы: F(1; 143) = 9,820; P=0,0021, для F=1 - меньше, чем для F=0. В отличие от рис.2. после корекции на длительность болезни ДИ уже совсем не пересекаются.
(3) Для типа СД 2 различия по у для заболеваний F незначимы: F(1; 213) = 0,195; P=0,659, но для F=1 - тоже стало немного меньше, в отличие от графика 2, где до коррекции на длительность болезни для F=1 было немного больше, чем для F=0.

Несмотря на то, что ков. анализ пришлось разбить на 2 анализа, такие результаты кажутся мне проще для интерпретации, т.к. если вводить несколько непрерывных ковариат одновременно теряется "контроль" ума над сутью процессов и приходится вслепую верить цифрам статпакета. Также по моему анализу вышло, что слабая отриц. связь с возрастом в действительности "натягивается" качественным фактором, т.е. является артефактом совместного анализа разнородных данных. Вот такие результаты вкратце, мне нравятся:) Хотя признак "у" сильно "шумит", такое впечатление, что ещё что-то не учтено. Если же гипотеза о двух типах СД неверна, а бимодальность возраста порождена в действительности слиянием "двух картотек", то анализ построил бы иначе.
DrgLena
Я выдала в экселе эти данные только для того, чтобы Игорь подсказал, как ввести массив в AtteStat, поскольку там реализован только однофакторный ANCOVA, я один фактор и привела, но две ковариаты, я думала, что это возможно в AtteStat. Конечно, для этих данных есть тип диабета. Nokh, вы проделали большую работу по созданию этой переменной, но поступили очень механистически, разбив выборку на две только по возрастному признаку, назвав это типом диабета и выводы сделаны соответственно этому.
Чтобы было интереснее и ближе к жизни, я добавила еще один фактор, тип СД. Больные с 1 типом более молодые, но с большим стажем заболевания и соотношение их практически 1:1 и это соотношение в госпитальной когорте больных с СД.
nokh
Цитата(DrgLena @ 8.01.2010 - 05:22) *
...Nokh, вы проделали большую работу по созданию этой переменной, но поступили очень механистически, разбив выборку на две только по возрастному признаку, назвав это типом диабета и выводы сделаны соответственно этому...

Категорически не согласен, что мой подход был механистическим. Механистически - это свалить всё в одну кучу без разбора и пытаться применять какие-то методы. Я же действовал в условиях недостатка информации осмысленно: (1) покрутил данные, посмотрел распределения и выявил гетерогенность выборки по важному биологическому показателю, (2) выдвинул объясняющую её гипотезу (может и грубую, но вполне адекватную, особенно учитывая что 2 дня назад я ничего не знал о типах диабета и только что-то слышал об этом), (3) устранил гетерогенность выборки разбиением её на 2 части наилучшим способом, который был для меня доступен, т.е. исходя из её внутренней структуры, не прибегая к внешней информации которой у меня не было, (4) проанализировал данные и обнаружил, что разбиение на 2 части было оправданным, т.к. поведение рассматриваемой системы для этих частей имело принципиальные отличия (5) дошлифовал анализы введением ковариаты и получив согласованные оценки. Это не механистический подход, это - творческий научный поиск. Но играть дальше на Вашем поле не нахожу для себя интересным.
Отмечу ещё только, что диагностическая эффективность моего разбиения на типы диабета составила на выборке в 362 человека (одного, как уже писал, исключил) 83,04% (для СД 1 чувствительность - 72,8%, специфичность - 93,3, для СД 2 - соответственно наоборот). Это не так уж плохо, учитывая что врачи не отказываются от пальцевого ректального исследования для диагностики аденомы простаты, имея ДЭ в 50%, что равнозначно подбрасыванию монетки smile.gif . Поэтому рискну даже предположить, что и полученные мной выводы могут оказаться близки к реальности, хотя конечно я здесь не специалист. А шум "у" и гетерогенность группы СД 1 мне все равно не нравятся wink.gif .
Green
nokh, спасибо!
Такая табличка... уже полгода на столе. Изучаю smile.gif
Только у меня добавлена еще одна колонка, не знаю, как правильно назвать - качественные переменные, связанные со временем?. Т.е. туда попадают Пуассон и проч. , survival...( и требования к моделям обязательно).
вторая табличка - это схемы такого плана: Соотношение разных типов переменных.
Например: зависимая - номинальная, независимые - количественные, порядковые, номинальные...( 1 независимая, много..) Методы их анализа.
Обязательно добавить требования к модели

Это тоже полезная табличка ( делюсь опытом smile.gif ).

=======
По поводу рандомизации - в данном случае вы не правы.

Я понимаю, что у меня другой фундамент, но, я очень Вас прошу посмотреть эти два графика в аттаче. Они схематичны.
Вы рискуете попасть в ситуацию, показанную на графиках.
Я пока не буду комментировать и прошу, очень прошу прокомментировать их Вас.
Если они Вам непонятны, я постараюсь пояснить Вам по-другому.
Нажмите для просмотра прикрепленного файлаНажмите для просмотра прикрепленного файла

Р.S. а по поводу выживаемости. Мне DrgLena не сказала, что такое F. Да и возраст с длительностью перепутала. Получилось типа "угадай данные". Я предположила, что F - censor. Не угадала smile.gif
DrgLena
Цитата(nokh @ 8.01.2010 - 13:18) *
Отмечу ещё только, что диагностическая эффективность моего разбиения на типы диабета составила на выборке в 362 человека (одного, как уже писал, исключил) 83,04% (для СД 1 чувствительность - 72,8%, специфичность - 93,3, для СД 2 - соответственно наоборот).


Доктора, которые посещают эту ветку, разорвут нас на части, если дифференциация двух типов диабета будет проводится только по возрасту больного. Чувствительно, специфично, но не верно.
Вы ввели бинарный фактор возраст, так и называли бы его так. И выводы бы делали соответственно, что у молодых при состоянии f1 признак У снижен относительно f0. А у старых нет различий.
В решении я хотела увидеть сравнение средних от фактора f с учетом х1 и х2, в ковариационном анализе. Вопрос в том, как это лучше сделать, в двух факторном ковариационном анализе, согласуя с двумя ковариатами 4 средних, или ков анализ проводить по двум типам СД отдельно.
nokh
Цитата(Green @ 8.01.2010 - 14:26) *
По поводу рандомизации - в данном случае вы не правы...

Ну тогда опишите как её понимаете Вы и как её можно обеспечить в натурных, а не экспериментальных условиях. Давайте чтобы далеко не ходить и не выходить за рамки темы возьмём пример Pinus. Картинки вроде понятные, но прокомментировать их я не готов, т.к. не до конца понимаю в каком случае я рискую стать жертвой "парадокса".
Green
nokh,
У Pinus на представленных данных есть все возраста. Правда, в группе z1 есть есть 50-55 лет,которые не представлены в z2.
Но выборка достаточно большая, поэтому ничего особенного.
Теперь, предположим маргинальный случай.
из z1 возьмем данные 40-55 лет,
из z2 - от 15 до 19.

Изучаем фактор "тип посадки".
Нажмите для просмотра прикрепленного файла

Ура! Доказали, влияет!!

Когда мы изучаем случайную величину - мы ее характеризуем средним, т.е. заменяем выборку одним значением.
теперь изучаем монотонно-возрастающую функцию от случайной величины - и тоже заменяем ее средним (На интервале изменения х).
Это "механика" работы кованализа. т.е. вместо функций сравнивать средние.( Сделали линии параллельными, потом линии "подменили" одним средним значением).

В экспериментальных условиях хотя бы - проверьте х ( возраст деревьев у Pinus) параметрическим или непараметрическим тестом различий (t-тест, Манна - Уитни). Если различий не будет - то... ну, делайте кованализ. Более-менее пойдет, при выполнении остальных условий.

В данных DrgLena условие не было соблюдено категорически. Это будет отдельный пост.

---------
О рандомизации, зачем она нужна. Это из собственного понимания.
Есть такое заболевание - острые лейкозы.
У детей -... даже слов нет, что сказать.

Так вот, давно уже приняли решение - лечить детей по протоколам.
Что это такое: строго регламентированная процедура лечения ( талмуд страниц 150-200). В лечение включается определенная группа больных, которые соответсвуют критериям. Оговорено как и что будет исследоваться.
Все лечебные мероприятия и их последовательность строго регламентированы.
В протокол включаются "ветки" ( т.е. лечение, к примеру, разными лекарствами). - Вот тут СТРОГО рандомизация.
Протокол обычно действует 3-5 лет.
Потом начинают сравнивать эффективность лечения ( по выживаемости, безрецедивности и проч)

Что дает такая система?
1. По результатам исследования протокол изменяется. ( Причем были случаи. когда неудачный протокол меняли через год -два, ранние результаты тоже сразу сравниваются с предыдущими протоколами.)
2. Каждый раз медики делают маленький шаг вперед в лечении лейкоза.
3. Заболевание, слава Богу, редкое, но проблема малых данных. Если несколько центров работают по одному протоколу - возможность межцентровых исследований.

На сегодняшний момент выживаемость по острым лимфобластным лейкозам - в нашем центре - 80-85%. В некоторых европейских ниже.

Возможно, с точки зрения медика - пояснила путано. Но, я думаю, суть Вы уловили.

Поэтому прошу подкорректировать Ваше мнение о рандомизации.

Green
Теперь по данным DrgLena.
Хотя напрямую DrgLena мне не сказала, что есть F, из контекста я предположила, что это наличие сопутствующего заболевания.

тогда:

Соб1 - событие - началась болезнь СД
Соб2 - событие - началась болезнь F

Т.е. работали два Пуассоновских события.


развернем во времени:
рождение -->---------------C1---------------------C2---------------------


Теперь: как меряли у?
так
рождение -->-------------Cоб1----------------Cоб2--------------у---

или так
рождение -->-----Соб1--------------у----------?


Я обратила внимание на то, что риск получить заболевание F у тех, кто проболел СД >8 лет, в ДВА раза выше, чем у тех, кто только начал болеть СД ( <=8 лет).
Но, у нас нет данных, через сколько лет после начала СД (Соб1) случилоcь F (Cоб2).

Я построила 2 графика.
Нажмите для просмотра прикрепленного файла

По вертикальной оси - среднее значение "у" у группы, которая болеет СД не более х лет

Синий : болеет СД не более х лет - не имеет F (Cоб2)
Красный : болеет СД не более х лет - уже имеет F (Cоб2)


В данных "шумели" Пуассоновские события. Т.е. в основном заболевание F получали после 8 лет наличия СД.


Если бы DrgLena изучала когорту, то например, можно было взять только тех, кто заболели СД до 2000 г (условно). ( Т.е. болеет СД >8 лет) ( смотрим график, после 8 лет линии практически параллельны). Если из исходных данных убрать кейсы, где x1<=8, то "у" - играет сразу. Не нужно сложных моделей.

Если бы был case-control - то на каждый случай заболевания F - можно было бы подобрать пару не заболел F - в таких же условиях возраста и длительности СД. И изучать зависимость у от возраста, длительности

И мы знаем, что это не рандомизированное исследование.

Это одномоментный срез среди больных СД. Но тогда в нем нет даты Соб2. А тогда бы играла разница между Соб1 и Соб2.( график до 8 лет)
------------------------

Если посмотреть распределение пациентов по группам, то заметно, что СД2 - попали в группу болеющих СД менее 8 лет.
Так что предположение nokh о слиянии картотек - небезосновательно. А точнее, слияние нескольких способов исследования в один. Вот и шумит Пуассон в одномоментом срезе.

По большому счету, мне все равно, как будут изучаться эти данные. Не моя зона ответственности. Мне было интересно понять эти данные.

И похоже, у - да, индикатор (прогностический показатель), только для x1>8.

Р.S.
Надо сменить подпись "Это не кованализ smile.gif "
DrgLena
Цитата(Green @ 7.01.2010 - 16:42) *
И Вы, думаю, прекрасно отличаете Prospective or Cohort study , Retrospective or Case-Control Study, Experimantal Studies or Randomized Clinical Trials.

Хорошо, чтобы и для Вас это не был набор слов.
Цитата(Green @ 10.01.2010 - 12:08) *
О рандомизации, зачем она нужна. Это из собственного понимания.

Вы привели понятие, что такое лечение по протоколу, но это не относится к понятию рандомизация при проведении клинических исследований сравнения нескольких методов лечения, это отдельная тема, и на форуме и в инете много на эту тему написано, и медики как раз это понимают и различают методы рандомизации.
Цитата(Green @ 7.01.2010 - 16:42) *
2. DrgLena, Вам , как медику, тем более понятно, когда и зачем нужна рандомизация. (я с нее и начинала анализ данных Pinus) - это требование ковариационного анализа. Хотите Вы того, или нет. А в Ваших данных этого нет.

Вот это не понятно, чего нет в моих данных, однородности по ковариатам или рандомизации.
Ковариационный анализ мне нужен был только для того, чтобы определить, есть ли из 4 показателей У такие, которые различаются в группах F=0 и F=1 при согласованной с возрастом и стажем диабета оценке. И это кованализ. Вы хотите сказать, что если группы F=0 и F=1 различаются по возрасту и стажу СД, то не корректно проводить ков. анализ. Именно поэтому я провожу не дисперсионный, а ковариационный анализ.
А дальше, если интересно, то стаж диабета более 7 лет, возраст старше 46 лет и У<= 1,43 могут рассматриваться как повышающие шансы иметь F=1. А дальше, продолжение следует.
Green
DrgLena,
пойдем по порядку и медленно. Я Вам обещаю, что покажу, расскажу, и мы проясним ситуацию, как для Вас, так и для меня.
Итак,

У Вас рассматривались 2 группы:
1. Событие "сопутствующее заболевание" наступило
2. Событие "сопутствующее заболевание" не наступило (и возможно не наступит).

Можно так сказать? да или нет?

Р.S. про протоколы и применение в них рандомизации я рассказала для примера, чтобы nokh немного "проникся". Что это не только здравый смысл, как он написал, но и четкая процедура, необходимая для....
DrgLena
К сожалению, я не могу сейчас выделить достаточно времени, чтобы медленно ходить по кругу.
Green
раз есть время заглядывать на форум...
Тогда я быстро.

Цитирую nokh, ковариационный анализ.pdf

Требования модели ковариационного анализа: (1) ошибки нормально распределены,
(2) дисперсия ошибок однородна (ошибки гомоскедастичны), (3) зависимость отклика от
количественных предикторов линейна,
(4) линейные зависимости на разных уровнях
факторов имеют одинаковый наклон.
Жирным выделен, то что не соблюдается у Вас.

Где у Вас в модели линейная зависимость у от х1 ?

Я Вам нарисовала Вашу "линейную зависимость". Смотрите. Что по группе 1, что по группе 0.

Это прямая ? Это похоже на прямумю линию? Это можно аппроксимировать прямой линией?



Вы собрали данные для одной модели исследования, потом попытались "запихать" их в другую. Они "зашумели".
Я попыталась объяснить Вам, но, когда пошли вопросы по существу Ваших данных, Вы уходите в кусты.

Да, Вам понравился кованализ. Но это не повод пихать его куда попало.
Green
Правильно ли я понимаю, что "стаж диабета более 7 лет, возраст старше 46 лет и У<= 1,43 могут рассматриваться как повышающие шансы иметь F=1. "

Надо рассчитать отношение шансов?

тогда:

наличие трех признаков это новый признак?

составляем табличку 2x2 из представленных данных

34......9
150....169


оцениваем шансы:
(34*169)/(150*9)=4,26

-----------
А если признак стаж диабета более 7 лет и возраст более 30 лет

120....41
64....137
(120*137)/(64*41)=6,27

Или я не так считаю шансы? Или кованализ это круто....




Для просмотра полной версии этой страницы, пожалуйста, пройдите по ссылке.
Форум IP.Board © 2001-2025 IPS, Inc.