Цитата(Sham @ 4.09.2010 - 22:19)

я тут читаю потихоньку, но не все доходит) в общем вопрос - обычно в учебниках рассматриваются случаи (я, например, про дисперсионный анализ, но вопрос по всем методам), когда у нас есть 2 выборки по N испытуемых и каждому испытуемому соответствует значение зависимой переменной (тот же латентный период) и определена его принадлежность к одной из градаций какого-либо фактора (независимая переменная) - далее мы вычисляем средние, дисперсии и сравниваем. А если у меня у каждого испытуемого 25 попыток - вычислять среднее этих 25-ти попыток, а потом среднюю по выборке? получится какая-то средняя средних...

у меня в опытах у животного всегда много попыток, тк велика вероятность, что он отвлечется, случайно нажмет на педальку и тп. как это учитывать? то же про анализ выживаемости - я так поняла мне нужна модель выживаемости смешанного типа, для учета этих 25 попыток, но чет в Гланце ничего про это нет, а интернет заводит куда-то не туда... как это будет называться на англ. может в англоязычной лит-ре покопаться? и неужели, если эксперимент ограничен во времени, всегда необходимо использовать анализ выживаемости?
нельзя, допустим, проверить отличаются ли выборки по "решабельности" (ну, по тому, сколько животных не справилось с тестом в 1 выборке и сколько во второй) и если они не отличаются, уже сравнивать латентные периоды дисперсионным анализом без учета не справившихся с заданием животных? а еще в одной из работ с похожим экспериментом (там попытка длилась максимум 5 минут) авторы приписывали животному. не справившемуся с тестом все эти 300 секунд, правильно ли это, можно ли получить таким способом достоверные результаты?
Обычно в таких экспериментах не обращают внимания на то, что используется показатель времени (из-за сложности моделей выживаемости, хотя сейчас это преодолимо). Надо посмотреть вначале как распределены времена латентности. Если они не очень обрезаны (т.е. примерно колоколообразная картинка получается), то тогда можно попробовать апрроксимировать распределение времен латентности нормальным. Однако если "хвосты" будут большими так не получится.
Поскольку у Вас 25 измерений на одно животное, соответственно речь идет о смешанных моделях при которых номер животного выступает как случайный фактор. Модели выживаемости со смешанными факторами разработаны, но не очень распространены (обычно человек все-таки умирает только один раз), поэтому, возможно, при таком количестве повторов придется идти на "обычную" линейную модель с повторными измерениями (случайными факторами). Однако возникнет проблема этих 300 секунд. Если таких животных немного, то замена на 300 хоть и не хороша, но может и не привести к серьезным смещениям (правда, если нет подгруппы с латентным периодом 3000 секунд).
По большому счету лучше было бы тогда вообще "обрезать" данные - т.е. отбросить как наибольшие, так и наименьшие значения (trimmed/winsorized), т.е. если есть посkедовательность
1 2 20 50 200 290 >300 >300, ее заменяют на
20 20 20 50 200 290 290 290
однако в этом случае, допущение нормальности летит и поэтому оценки обычной модели оказываются смещенными и надо использовать bootstrap и затем смотреть на распределение значений статистик для коэффициентов.
К сожалению, это уровень, значительно превышающий уровень Гланца

, посему может быть проще будет попытаться использовать стратифицированный вариант модели Кокса или параметрической модели выживаемости.
На самом деле здесь надо как следует смотреть на исходные данные.