Каким методом воспользоваться? - Форум врачей-аспирантов

Каким методом воспользоваться?

Leer Просмотр профиля	30.08.2011 - 22:33 Сообщение #1
Группа: Пользователи Сообщений: 13 Регистрация: 30.08.2011 Пользователь №: 23261	Коллеги, у меня случился приступ кретинизма и сомнений. Прошу помочь в двух вопросах. 1. На руках данные - скорость наступления события N (две переменных, начало = 0, конец = t, цензурированных и пропущенных нет, событие N наступило для всех наблюдений, других эпизодов наблюдений нет, окно наблюдения также не опредлено). Задача - оценить скорость наступления события N для разных групп обследуемых. Заказчик честно утверждает, что это Kaplan-Meier estimation+piecewise constant exponential models. Я столь же честно смотрю на данные и думаю, что все-таки нужно использовать только ANOVA, без бессмсыленных изысков анализа выживаемости. Прав ли я? 2. надо проверить связь двух переменных (или оценить влияние) - одна дихотомическая, вторая ранговая, порядка 10 градаций. Из методов в голову приходит только традиционная ранговая корреляция r-Спирмена. Но меня внезапно стали терзать смутные сомнения, может - есть еще что более подходящее задаче. Чем бы вы воспользовались? В обоих случаях выборка - несколько тысяч наблюдений.

Ответов

nokh Просмотр профиля	1.09.2011 - 22:30 Сообщение #2
Группа: Пользователи Сообщений: 1219 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704	Цитата(Leer @ 31.08.2011 - 20:07) расскажите, пожалуйста, подробнее, как Вы делаете "анализ по форме распределений: скажем нарезать распределения на кусочки и анализировать как таблицу частот"? я с такой формой анализа не встречался. Суть такая же как проверка соответствия эмпирического распределения теоретическому с помощью критерия хи-квадрат (есть в разных учебниках). Только здесь имеем 2 или несколько эмпирических распределений. Нарезать можно примерно так: найти минимальное и максимальное значение показателя в массиве данных и разделить отрезок между ними на несколько частей (можно равных, но необязательно). Сколько таких отрезков сделать зависит от формы распределений и объёма выборок: нужно "ухватить" особенности формы распределения. Далее подсчитать количество значений для каждой выборки, попавших в каждый интервал и сформировать из этих чисел таблицу частот, которую проанализировать на однородность критериями хи-квадрат или лучше критерием отношения правдоподобия (синонимы: G-критерий Вулфа, G-квадрат, информационный критерий Кульбака и др.). В случае обнаружения неоднородности уже разбираться за счёт чего (каких ячеек) она проявилась. Странно, что вы, работая с социологическими данными, не имеете опыта анализа больших таблиц сопряжённости: там же без этого - никуда? Здесь-то ещё просто разбираться: r x c - всё на плоскости, а вот с многомерными таблицами частот бывает туго. Диаграммы, предложенные р2004r, хорошо визуализируют неоднородность в таблице частот, но к ним нужно какое-то время привыкать, и они всё равно не отражают статистической значимости "выпадения" ячеек. Я обычно делаю примитивно: рассчитываю для каждой ячейки отклонения Фримана-Тьюки и заливаю эти ячейки разными цветами: красным - ячейки, отклоняющиеся от ожидаемых частот с p<0,001, жёлтым - с p<0,01 и зелёным - с p<0,05, а затем интерпретирую. Можно вместо отклонений Фримана-Тьюки использовать стандартизованные остатки. Цитата(Leer @ 31.08.2011 - 20:07) кстати, а для чего Вы делаете преобразование к нормальному распределению для ANOVA? Ведь, насколько я помню, дисперсионный анализ больше требователен к гомогенности дисперсий, и не оперирует параметрами распределения. Я обхожусь проверкой на гомогенность (критерий Левена) или на сферичность - при многомерном дисперсионном (критерий Бокса). Многомерный дисперсионный анализ не использую по принципиальным соображениям. А требований у любого ANOVA два: нормальность распределения ошибки (остатков) и однородность дисперсий (гомоскедастичность). Причём во всех учебниках на первом месте стоит именно нормальность. Помните плохо: дисперсионный анализ - параметрический метод и оперирует именно параметрами распределения: средними и дисперсиями. Уверен, что распределение времени до трудоустройства скорее логнормально, чем нормально, т.к. все события во времени имеют выраженную положительную асимметрию. Проверьте распределение остатков на нормальность, если скошенное - попробуйте предварительно прологарифмировать данные и снова посмотреть на остатки, а также оценить насколько изменятся или нет выводы. Цитата(Leer @ 31.08.2011 - 20:07) бисериальный...спасибо, подумаю. софта как такового не видел, но знаю, что для SPSS написан макрос - http://rivita.ru/files/KO_Various_proximities_RU.zip возможно, есть реализация в R, но я с ним пока не работаю Посмотрел файл - там бисериальный. Это обычная корреляция Пирсона - мы как-то уже обсуждали это на форуме. По крайней мере программы его обычно так и считают. А здесь нужен не бисериальный, а рангово-бисериальный. А это уже экзотика даже в англоязычном мире. Сообщение отредактировал nokh - 1.09.2011 - 22:53

p2004r Просмотр профиля	2.09.2011 - 00:35 Сообщение #3
Группа: Пользователи Сообщений: 1091 Регистрация: 26.08.2010 Пользователь №: 22699	Цитата(nokh @ 1.09.2011 - 21:30) Диаграммы, предложенные р2004r, хорошо визуализируют неоднородность в таблице частот, но к ним нужно какое-то время привыкать, и они всё равно не отражают статистической значимости "выпадения" ячеек. Я обычно делаю примитивно: рассчитываю для каждой ячейки отклонения Фримана-Тьюки и заливаю эти ячейки разными цветами: красным - ячейки, отклоняющиеся от ожидаемых частот с p<0,001, жёлтым - с p<0,01 и зелёным - с p<0,05, а затем интерпретирую. Можно вместо отклонений Фримана-Тьюки использовать стандартизованные остатки. ... цветовая (тональная) заливка в мозаике (и в её продвинутых вариантах) естественно предусмотрена, чаще всего заливают цветом пропорциональным ошибке. вот ссылка в ней есть pdf с примерами http://cran.r-project.org/web/packages/vcd/index.html Сообщение отредактировал p2004r - 2.09.2011 - 00:40 http://r-statistics.livejournal.com/

Сообщений в этой теме

Leer Каким методом воспользоваться? 30.08.2011 - 22:33

DrgLena 1. Заказчик абсолютно прав. Нужен анализ скорости ... 31.08.2011 - 11:37

nokh (1). А я согласен с Leer. И Каплан-Мейер, и Кокс н... 31.08.2011 - 13:02

Leer DrgLena, nokh - благодарю. 2 DrgLena если вдавать... 31.08.2011 - 17:07

p2004r Цитата(Leer @ 31.08.2011 - 16:07) ..... 1.09.2011 - 09:35

Leer Цитата(p2004r @ 1.09.2011 - 10:35) н... 1.09.2011 - 10:33

p2004r Цитата(Leer @ 1.09.2011 - 09:33) мен... 1.09.2011 - 18:30

DoctorStat Цитата(Leer @ 1.09.2011 - 11:33) а п... 1.09.2011 - 21:44

DrgLena Интерпретация таблиц вытекает из их содержания, на... 1.09.2011 - 12:11

nokh Цитата(Leer @ 31.08.2011 - 20:07) ра... 1.09.2011 - 22:30

p2004r Цитата(nokh @ 1.09.2011 - 21:30) Диа... 2.09.2011 - 00:35

Leer 1. большое спасибо за разъяснения по анализу табли... 3.09.2011 - 16:19

DrgLena Я сейчас со STATA не работаю. Не совсем понимаю за... 7.09.2011 - 07:49

Leer 2 DrgLena. спасибо за ответ. Данные имеют структу... 8.09.2011 - 09:45

DrgLena Если интересует только время первой работы, то выб... 11.09.2011 - 19:57

Leer 2DrgLena несколько заболел, поэтому не сразу отве... 19.09.2011 - 10:54

« Предыдущая тема · Медицинская статистика · Следующая тема »