Форум врачей-аспирантов

Здравствуйте, гость ( Вход | Регистрация )

 
Добавить ответ в эту темуОткрыть тему
> Многофакторный анализ, как учесть влияние дополнительного фактора в непараметрическом анализе
Val
сообщение 12.03.2008 - 18:51
Сообщение #1





Группа: Пользователи
Сообщений: 2
Регистрация: 12.03.2008
Пользователь №: 4877



Уважаемые форумчане!
Посоветуйте пожалуйста, как учесть влияние эксперимента на количественные признаки? Нужно оценить различия в нескольких количественных признаках по полу в 14 линиях мышей, а также межлинейные различия. Проблема в том, что внутри подгрупп (по полу и линиям) признаки распределены ненормально, то есть многофакторный дисперсионный анализ применять нельзя. Трансформация (логарифмирование и т.п.) не помогает, обязательно в какой-нибудь из подгрупп признаки не отвечают требованиям параметрического анализа. А мыши исследовались не одновременно, было 8 экспериментов, что достоверно влияет на признаки, судя по результатам критериев Манна-уитни и Краскала-Уоллиса. Как бы учесть влияние этого самого эксперимента, а также возраста мышей. Есть ли какой-нибудь непараметрический многофакторный анализ?
Заранее огромное спасибо!
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
nokh
сообщение 12.03.2008 - 21:35
Сообщение #2





Группа: Пользователи
Сообщений: 1202
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704



Если t-критиерий и однофакторный дисперсионный анализ имеют прямые непараметрические аналоги (применявшиеся вами критерии Манна-Уитни и Краскела-Уоллиса), причем лишь на 5% уступающие параметрическим в мощности, то для сложных моделей дисперсионного анализа, тем более с ковариатами (возраст) таких аналогов нет. Логлинейный анализ рассматривать в качестве аналога можно с большой натяжкой, т.к. он предполагает сильное огрубление количественных показателей - до категорий и несет новые проблемы в виде слабозаполненных или пустых ячеек таблицы частот. Еще можно использовать бутстрэп-оценки интересующих статистических гипотез в параметрическом анализе. Это не совсем непараметрический аналог, скорее полупараметрический, но это будет грамотно, хотя и хлопотно: готовых программ, с внедренным в процедуру общих линейных моделей (GLM) бутстрэпом нет и придется осваивать язык статистического программирования в среде R, причем сразу в самом сложном варианте. Поэтому, думаю, списывать параметрику рано. К тому же многофакторный дисперсионный анализ достаточно устойчив к отклонениям от нормальности. + пока неясно насколько выборки были велики, чтобы можно было доказать отклонения от нормальности, не было ли в эксперименте откровенных артефактов (типа больных животных), засоряющих выборки и которые следует удалить из анализа.

Чтобы «учесть влияние эксперимента» нужно понять план всего исследования. При обработке больших массивов данных все недостатки планирования вылазят наружу. Пока не понятно является ли эксперимент полноценной повторностью: ко всем ли 14 линиям применялось восьмикратное повторение опыта и если да - то зачем? Наверное вы имели в виду что-то другое. Еще очень важно знать: однократно или многократно измерялись признаки у конкретных мышей в ходе исследования, т.е. использовались ли, например, до и после воздействия одни и те же животные или разные? Насколько обоснована необходимость включения в анализ возраста в качестве ковариаты? Распишите эксперимент как можно подробнее, будем пытаться разобраться.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Val
сообщение 13.03.2008 - 19:17
Сообщение #3





Группа: Пользователи
Сообщений: 2
Регистрация: 12.03.2008
Пользователь №: 4877



Большое спасибо за ответ! Сейчас занимаюсь проверкой на наличие артефактов. Сразу скажу, сам эксперимент делала не я, мне досталась только база данных. Человек сейчас не работает, этим и осложняется дело. Эксперименты были не повторные. Просто в разные моменты времени брали мышей, забивали, набирали кучу образцов, измеряли кучу параметров. Так 8 раз. Причем в каждом эксперименте брались далеко не все линии мышей, а видимо, какие были в наличии. По совокупности их набралось 14. Количество мышей во всех группах по полу в каждой линии разное (от 8 до 32). По-моему, при таких малых выборках дисперсионный анализ не работает? В общем, полный бардак! Общее количество мышей 448. "Эксперимент", который нужно учесть, это тот самый временной фактор. Так как то, что все мыши забивались не одновременно, неизбежно влияет. Возраст не так уж важен (все мыши были взрослые), но вполне возможно, что влияние оказывает, так как его разброс достаточно большой (от 7 до 47 недель).
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
nokh
сообщение 17.03.2008 - 21:15
Сообщение #4





Группа: Пользователи
Сообщений: 1202
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704



Да, неважное вам досталось наследство, подтвердились худшие опасения. Пока вижу два пути.
(1). Если интересуют только различия по полу - смотреть их в отдельных выборках. Сравнивать можно непараметрикой, например критерием Манна-Уитни. Выборка объемом 8 не самая маленькая, хотя конечно все зависит от изменчивости признака и степени различий. Но по крайней мере пытаться искать различия смысл есть. Получится много значений вероятности Р что различий нет. Если вопрос стоит так: «Существуют ли половые различия по данному признаку у лабораторных мышей?», то все полученные значения P можно объединить. Даже если по отдельным сравнениям различия не были статистически значимыми, после объединения они могут проявится. Минус всего подхода - теряется информация о возможных взаимодействиях факторов «Эксперимент», «Линия» и «Пол», смотрятся только половые различия, причем без учета направления у кого больше: у самцов или самок, только: «есть» различия или «нет». Если этот подход устроит, я дам формулу по которой можно объединять вероятности независимых тестов.
(2). Но скорее ваш вопрос стоит так «Что можно найти полезного во всем этом массиве данных?». Можно пойти таким путем. Если оба пола использовались не во всех экспериментах - отобрать выборки где были оба. Составить таблицу, в которой в столбцах - названия линий, в 8 строках - номера экспериментов, и пометить крестами ячейки для которых есть данные. Найти такое сочетание линий мышей и экспериментов, при котором будет задействовано максимальное количество ячеек с крестами. Для них провести трехфакторный дисперсионный анализ с факторами «Пол», «Линия» и «Эксперимент». Для дисперсионного анализа и 2 наблюдения на ячейку -нормально: уже можно рассчитать среднее и дисперсию. Возможно данные предварительно придется преобразовать, может быть логарифмировать, как вы пробовали, но необязательно. Вообще, лучшее преобразование в ситуации когда верное преобразование неизвестно - преобразование Бокса-Кокса (Box-Cox transformation). Дальнейший анализ будет зависеть от полученных результатов: что можно объединять и можно ли. Пока остановимся на этом. С возрастом разбираться потом или сейчас, но параллельно. По возрасту данные крайне неоднородны: от неполовозрелого животного (7 нед) до откровенного старика (47 нед)!
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 

Добавить ответ в эту темуОткрыть тему