Форум врачей-аспирантов

Здравствуйте, гость ( Вход | Регистрация )

> Cравнение методов
Leer
сообщение 11.06.2012 - 00:50
Сообщение #1





Группа: Пользователи
Сообщений: 13
Регистрация: 30.08.2011
Пользователь №: 23261



Коллеги!

вопрос не столько практический, сколько теоретический.
Допустим, есть несколько аналогичных по задачам, но разных по структре методов - U-Манна-Уитни, t-Стюдента, ANOVA, glm+mixed models
данные удовлетворяют всем необходимым условиям.

мне интересно, какой метод будет мощнее/точнее. понятно, что при идеальных данных (как в моих условиях), результаты будут не сильно отличаться. но что будет при зашумленных? Есть ли какие-нибудь критерии и алгоритмы сравнения методов, именно аналитические? куда вообще смотреть надо?
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
 
Открыть тему
Ответов
nokh
сообщение 11.06.2012 - 07:09
Сообщение #2





Группа: Пользователи
Сообщений: 1219
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704



Цитата(Leer @ 11.06.2012 - 02:50) *
Коллеги!

вопрос не столько практический, сколько теоретический.
Допустим, есть несколько аналогичных по задачам, но разных по структре методов - U-Манна-Уитни, t-Стюдента, ANOVA, glm+mixed models
данные удовлетворяют всем необходимым условиям.

мне интересно, какой метод будет мощнее/точнее. понятно, что при идеальных данных (как в моих условиях), результаты будут не сильно отличаться. но что будет при зашумленных? Есть ли какие-нибудь критерии и алгоритмы сравнения методов, именно аналитические? куда вообще смотреть надо?

Ну, общее правило общеизвестно: непараметрические методы уступают в мощности параметрическим. Это логично, т.к. параметрические критерии задействуют больше информации о данных. Асимптотическая эффективность для порядковых критериев Манна-Уитни и Краскела-Уоллиса составляет около 95% по отношению к, соответственно, t-критерию и дисперсионному анализу. Т.е. они заведомо менее мощные в случае нормального распределения. Однако столь незначительная потеря в мощности с лихвой окупается большей универсальностью. Из правил бывают исключения, например, критерий Ван-дер-Вардена не уступает по мощности t-критерию (но, возможно он и менее универсален - нужно читать).

Насколько мне известно, никаких аналитических процедур для сравнения мощности критериев не существует: это очень сложно, а полученные решения всё равно будут иметь частный характер. Куда проще проводить симуляционные эксперименты. Т.е. генерировать данные с заранее заданными свойствами (степень отклонения от нормальности, характер отклонения от номальности, процент засорения и т.п.), извлекать из них выборки и рассчитывать мощность критериев для разных условий. Потом пытаться обобщить полученные результаты в виде неких обобщающих правил. Этому посвящены узкие специальные работы, которые обычно обобщают авторы обзорных статей и учебников, но которые не особо интересуют практиков.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Leer
сообщение 11.06.2012 - 10:18
Сообщение #3





Группа: Пользователи
Сообщений: 13
Регистрация: 30.08.2011
Пользователь №: 23261



Цитата(nokh @ 11.06.2012 - 08:09) *
Насколько мне известно, никаких аналитических процедур для сравнения мощности критериев не существует: это очень сложно, а полученные решения всё равно будут иметь частный характер. Куда проще проводить симуляционные эксперименты. Т.е. генерировать данные с заранее заданными свойствами (степень отклонения от нормальности, характер отклонения от номальности, процент засорения и т.п.), извлекать из них выборки и рассчитывать мощность критериев для разных условий. Потом пытаться обобщить полученные результаты в виде неких обобщающих правил. Этому посвящены узкие специальные работы, которые обычно обобщают авторы обзорных статей и учебников, но которые не особо интересуют практиков.


Значит, симуляции...спасибо. Видимо, это единственный вариант.
у меня как раз очень узкая и, в основном, аналитическая задача - как раз для обзорной статьи или подобных текстов.
Данные одного типа экспериментов (время реакции) - там полный разнобой со стимулами, всегда стоит проблема ненормальности и выбросов. То есть, это сначала надо будет исследовать эмпирические данные - определять параметры распределения и строить модель, на основе которых уже делать симуляцию. Как раз сложность определения параметров из-за выбросов и смешивает все карты.

а не подскажете, где и что почитать по симуляционным экспериментам?
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
nokh
сообщение 11.06.2012 - 19:15
Сообщение #4





Группа: Пользователи
Сообщений: 1219
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704



Цитата(Leer @ 11.06.2012 - 12:18) *
Значит, симуляции...спасибо. Видимо, это единственный вариант.
у меня как раз очень узкая и, в основном, аналитическая задача - как раз для обзорной статьи или подобных текстов.
Данные одного типа экспериментов (время реакции) - там полный разнобой со стимулами, всегда стоит проблема ненормальности и выбросов. То есть, это сначала надо будет исследовать эмпирические данные - определять параметры распределения и строить модель, на основе которых уже делать симуляцию. Как раз сложность определения параметров из-за выбросов и смешивает все карты.
а не подскажете, где и что почитать по симуляционным экспериментам?

Всё-таки мне задача пока не совсем ясна. Варианты:
1). Нужно подвести некую теоретическую базу для выбора наиболее оптимальных статистических критериев для работы с данными в вашей области. Это - самостоятельная и серьёзная задача, я не имею такого опыта. Целенаправленно по симуляциям никогда не искал, но то что попадалось всегда выглядело одинаково занудненько: кучи графиков и таблиц для разных условий эксперимента и пространные попытки обобщения результатов. Обычно в таких работах один автор - специалист в предметной области, а другой - соавтор - чистый математик. На русском языке в 90-х была серия статей в журнале "Заводская лаборатория". Недавно знакомые просили прокомментировать статью в Психологическом журнале (2011, т.32, N 1, С. 97-110) "Условия применимости критериев Стьюдента и Манна-Уитни". Для себя как для практика толку от этой статьи не нашёл совсем, думаю и вы не найдёте, но посмотреть принцип таких экспериментов - можно. Погуглите. Я вот сразу вышел на эту: http://www.biomedcentral.com/1471-2288/10/48 . Но полагаю, что если вы этим не занимались, то по подсказкам с форумов освоить будет тяжеловато.
2). Нужно просто работать с выборками, распределение показателей в которых сильно отличается от нормального и/или вообще непонятно какое. Т.е. цель не методологическая, а обычная исследовательская. Здесь всё проще: как вам уже посоветовали выше нужно просто работать робастными методами, если по-современному - то всякими ресэмплинг-техниками типа бутстрэпа и рандомизационных тестов.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Leer
сообщение 12.06.2012 - 12:59
Сообщение #5





Группа: Пользователи
Сообщений: 13
Регистрация: 30.08.2011
Пользователь №: 23261



Цитата(nokh @ 11.06.2012 - 20:15) *
1). Нужно подвести некую теоретическую базу для выбора наиболее оптимальных статистических критериев для работы с данными в вашей области.


Именно для этого, все верно.
Я сейчас столкнулся с двумя проблемами - во-первых, данные с выбросами. необходимо определить стратегию удаления выбросов, а то иногда бывают совсем уж жуткие перекосы, с длинным правым хвостом - при медиане в 750мс размах может составлять до 40000мс. Плюс, если брать просто пороговую обрезку или процентильную, или по двум сигмам - то результаты получаются весьма разные frown.gif
Вторая проблема - это подбор метода. чертова куча литературы/статей, и везде данные обрабатываются по-разному, без какого-либо обоснования.
И попутно получается, что обе задачи - взаимосвязанные. Без очистки выбросов я не могу выделить параметры распределения и симуляционного эксперимента по точности методов, а без контроля требований методов к данным анализа я не могу определить эффективную стратегию удаления выбросов.

в общем, моя цель сейчас - разработать стратегию анализа данных подобного типа экспериметов (время реакции).
некоторый опыт и понимание пути есть, по форумам хожу, скорее, для расширения поля и проговаривания задач (так самому некоторые вещи становятся понятнее).

спасибо за ответ и за ссылки.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 

Сообщений в этой теме


Добавить ответ в эту темуОткрыть тему