Форум врачей-аспирантов

Здравствуйте, гость ( Вход | Регистрация )

 
Добавить ответ в эту темуОткрыть тему
> Множественные сравнения, Помощь по методам сравнения.
Vladislav
сообщение 2.05.2014 - 17:14
Сообщение #1





Группа: Пользователи
Сообщений: 7
Регистрация: 2.05.2014
Пользователь №: 26388



Доброго времени суток! Очень нужна Ваша помощь по множественным сравнениям, но вопрос объёмный, так что думаю следует разбить на несколько подтем.
Суть такова. В двух несвязанных выборках ( животные из природных популяций) оценивается пул свободных аминокислот (20 протеиногенных и их производные, всего 26 показателей получается). Распределение в группах ненормальное. При сравнении двух групп обычно использую критерий Манна-Уитни. Итак:

1) Если две группы сравниваются по 26 показателям (причём эти показатели могут быть связаны - как в случае аминокислот) - не присутствует ли здесь эффект множественных сравнений. Соответственно, если отсутствует, то как я понимаю могу и дальше две группы сравнивать с помощью Манна-Уитни, а если присутствует - что делать тогда???
2) Если сравниваются три группы, то применяю критерий Краскелла-Уоллеса, затем по Гланцу для попарного сравнения критерий Ньюмена-Кейлся (одинаковые по размеру выборки) или Данна (выборки отличаются по размеру). Вопрос: где в пакетах Statistica найти эти критерии для апостериорных сравнений???
Заранее благодарю за помощь smile.gif
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
p2004r
сообщение 2.05.2014 - 18:57
Сообщение #2





Группа: Пользователи
Сообщений: 1091
Регистрация: 26.08.2010
Пользователь №: 22699



Цитата(Vladislav @ 2.05.2014 - 17:14) *
1) Если две группы сравниваются по 26 показателям (причём эти показатели могут быть связаны - как в случае аминокислот) - не присутствует ли здесь эффект множественных сравнений. Соответственно, если отсутствует, то как я понимаю могу и дальше две группы сравнивать с помощью Манна-Уитни, а если присутствует - что делать тогда???


Раз "групп" (на самом деле просто имеется качественный признак еще один в датасете) только две, то присутствует множественное сравнение всегда когда "группы" сравниваются более одного раза.

1) Можно построить модель логистической регрессии которая включает в себя все показатели, с зависимой переменной в лице качественного признака группы.

2) Можно построить бутстрепом доверительные интервалы (или сами распределения, что информативнее) одновременно для межгрупповой разницы медиан всех показателей.


Signature
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Vladislav
сообщение 2.05.2014 - 19:17
Сообщение #3





Группа: Пользователи
Сообщений: 7
Регистрация: 2.05.2014
Пользователь №: 26388



Уточню. Две группы сравнивались ОДИН раз, но по 26 показателям - в моём случае - 26 аминокислот. Подобное может произойти когда сравниваю две группы по результатам гематологического анализатора, там может быть (в зависимости от анализатора) - от 18 до 32 показателей. Получается, что групп - две, сравниваются - один раз, но показателей сравнения довольно много, да ещё они и связаны могут быть между собой. Ну и одни коллеги говорят что в этом случае есть множественные сравнения, другие говорят, что групп две, сравниваешь один раз, дак какие тут могут быть проблемы? Вот хотелось бы разобраться. Прошу прощения, что изначально неточно сформулировал проблему.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Vladislav
сообщение 2.05.2014 - 19:26
Сообщение #4





Группа: Пользователи
Сообщений: 7
Регистрация: 2.05.2014
Пользователь №: 26388



К примеру беру кровь у летучих мышей, отгоняю плазму, делаю пробоподготовку на анализ аминокислот, получаю аминограммы. Сравниваю аминокислотный фонд (26 аминокислот) летних и осенних мышей
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
p2004r
сообщение 2.05.2014 - 20:49
Сообщение #5





Группа: Пользователи
Сообщений: 1091
Регистрация: 26.08.2010
Пользователь №: 22699



Цитата(Vladislav @ 2.05.2014 - 19:17) *
Уточню. Две группы сравнивались ОДИН раз, но по 26 показателям - в моём случае - 26 аминокислот. Подобное может произойти когда сравниваю две группы по результатам гематологического анализатора, там может быть (в зависимости от анализатора) - от 18 до 32 показателей. Получается, что групп - две, сравниваются - один раз, но показателей сравнения довольно много, да ещё они и связаны могут быть между собой. Ну и одни коллеги говорят что в этом случае есть множественные сравнения, другие говорят, что групп две, сравниваешь один раз, дак какие тут могут быть проблемы? Вот хотелось бы разобраться. Прошу прощения, что изначально неточно сформулировал проблему.


Да это множественные сравнения, если бы для сравнения каждого показателя Вы брали новую группу, то это не были бы множественные сравнения.

Статкритерий который Вы вычисляете много раз на одном эксперименте вне зависимости от того что каждый раз рассчитывается для нового показателя является множественным сравнением. Именно в силу того что показатели --- "ещё они и связаны могут быть между собой".

Только сравнение _полностью_ случайных выборок будет не являться повторным сравнением. (Фактически означает --- не нравиться бутстреп делайте рандомизацию для сравнения с "нулевой гипотезой":)


Signature
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Vladislav
сообщение 2.05.2014 - 20:59
Сообщение #6





Группа: Пользователи
Сообщений: 7
Регистрация: 2.05.2014
Пользователь №: 26388



Спасибо большое за разъяснение) А не могли бы Вы пояснить что лучше сделать в этом случае? Или что почитать для понимания. Просто мне очень важно проанализировать изменения в эксперименте...
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
p2004r
сообщение 2.05.2014 - 21:14
Сообщение #7





Группа: Пользователи
Сообщений: 1091
Регистрация: 26.08.2010
Пользователь №: 22699



Цитата(Vladislav @ 2.05.2014 - 20:59) *
Спасибо большое за разъяснение) А не могли бы Вы пояснить что лучше сделать в этом случае? Или что почитать для понимания. Просто мне очень важно проанализировать изменения в эксперименте...


Мне приходят в голову два варианта:

1) Модель в виде логистической регрессии, которая показывает насколько группы различимы и за счет чего различимы. Ну и исследования этой модели на предмет оптимального состава предикторов.

Поскольку 26 показателей сразу как то может оказаться слишком много, то возможен этап отбора существенных для модели предикторов. (На форуме я приводил отбор предикторов в модель с помощью library(Boruta) из R)

В принципе вот целый список расширений которые пригодны для селекции перспективных предикторов.

- randomForest
- party
- Boruta
- [[http://cran.r-project.org/web/packages/penalizedSVM/index.html][penalizedSVM]]
- [[http://cran.r-project.org/web/packages/FSelector/index.html][FSelector (Weka)]]
- [[http://cran.r-project.org/web/packages/CORElearn/index.html][CORElearn]]
- [[http://cran.r-project.org/web/packages/ClustOfVar/index.html][ClustOfVar]]

2) Просто построить бутстрепом доверительный интервал для нужной характеристики


Signature
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Vladislav
сообщение 2.05.2014 - 21:15
Сообщение #8





Группа: Пользователи
Сообщений: 7
Регистрация: 2.05.2014
Пользователь №: 26388



Большое спасибо за помощь и советы smile.gif Надеюсь дойдёт как и что - буду разбираться))))))
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Vladislav
сообщение 3.05.2014 - 21:40
Сообщение #9





Группа: Пользователи
Сообщений: 7
Регистрация: 2.05.2014
Пользователь №: 26388



Добрый вечер!) Появилось ещё несколько вопросов насчёт логистической регрессии. Немного запутался в построении модели. Суть такова.

1 случай: У меня есть три выбоки. Летние, осенние и весенние животные. в каждой выбоке по 6-7 животных. У каждого животного была взята кровь на анализ, определялся фонд аминокислот плазмы крови (23-26 аминокислот). Нужно проверить отличается ли фонд аминокислот между группами (т.е. между сезонами - сезонные изменения)

2 случай: в Каждом сезоне (т.е. лето, осень, зима) - группы представлены самцами и самками - соответственно нужно найти половые различия (есть или нет) по фонду аминокислот плазмы крови.

Так вот... может в рамках логистической регрессии эти задачи можно совместить? Но тогда какой параметр взять за зависимую переменную (y). Предполагал что можно так: "различия есть" - 1, "нет" - 0. Но тогда как быть с предикторами? Все аминокислоты вгонять? плюс ещё пол и сезоны? и как построить такую модель чтобы могла показать, что три группы (лето, осень, зима) - отличаются друг от друга по аминокислотам...

Проблема в том, что я только начал осваивать логит-регрессию, поэтому трудно мне построить модель... может в силу туповатости... В любом случае буду очень признателен за помощь. Если необходимо, я могу скинуть базу данных... Ну и прошу прощение за непонимание frown.gif

Сообщение отредактировал Vladislav - 3.05.2014 - 21:40
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
p2004r
сообщение 4.05.2014 - 00:48
Сообщение #10





Группа: Пользователи
Сообщений: 1091
Регистрация: 26.08.2010
Пользователь №: 22699



Цитата(Vladislav @ 3.05.2014 - 21:40) *
1 случай: У меня есть три выбоки. Летние, осенние и весенние животные. в каждой выбоке по 6-7 животных. У каждого животного была взята кровь на анализ, определялся фонд аминокислот плазмы крови (23-26 аминокислот). Нужно проверить отличается ли фонд аминокислот между группами (т.е. между сезонами - сезонные изменения)

2 случай: в Каждом сезоне (т.е. лето, осень, зима) - группы представлены самцами и самками - соответственно нужно найти половые различия (есть или нет) по фонду аминокислот плазмы крови.

Так вот... может в рамках логистической регрессии эти задачи можно совместить? Но тогда какой параметр взять за зависимую переменную (y). Предполагал что можно так: "различия есть" - 1, "нет" - 0. Но тогда как быть с предикторами? Все аминокислоты вгонять? плюс ещё пол и сезоны? и как построить такую модель чтобы могла показать, что три группы (лето, осень, зима) - отличаются друг от друга по аминокислотам...

Проблема в том, что я только начал осваивать логит-регрессию, поэтому трудно мне построить модель... может в силу туповатости... В любом случае буду очень признателен за помощь. Если необходимо, я могу скинуть базу данных... Ну и прошу прощение за непонимание frown.gif


1) Если Вам надо именно предсказать структуру --- то есть единовременно дать прогноз по группе качественных признаков опираясь на группу неких предикторов, то это довольно сложная задача structured prediction.

2) Когда у номинальной шкалы больше двух отсчетов, то используем http://en.wikipedia.org/wiki/Multinomial_logit

3) Для отбора предикторов я указал целый перечень пакетов и здесь на форуме даже pdf выкладывал с полным анализом с помощью Boruta. Вот ссылка http://forum.disser.ru/index.php?showtopic...amp;#entry16317
Попробуйте разобраться, там все просто. Если не получиться, тогда можно будет вернуться к варианту повторить это на Ваших данных.


Signature
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Vladislav
сообщение 4.05.2014 - 01:19
Сообщение #11





Группа: Пользователи
Сообщений: 7
Регистрация: 2.05.2014
Пользователь №: 26388



Большое спасибо! Буду читать smile.gif и благодарю за терпение)
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 

Добавить ответ в эту темуОткрыть тему