Форум врачей-аспирантов > Cравнение методов

Leer

11.06.2012 - 00:50

Коллеги!

вопрос не столько практический, сколько теоретический.
Допустим, есть несколько аналогичных по задачам, но разных по структре методов - U-Манна-Уитни, t-Стюдента, ANOVA, glm+mixed models
данные удовлетворяют всем необходимым условиям.

мне интересно, какой метод будет мощнее/точнее. понятно, что при идеальных данных (как в моих условиях), результаты будут не сильно отличаться. но что будет при зашумленных? Есть ли какие-нибудь критерии и алгоритмы сравнения методов, именно аналитические? куда вообще смотреть надо?

nokh

11.06.2012 - 07:09

Цитата(Leer @ 11.06.2012 - 02:50)

Коллеги!

вопрос не столько практический, сколько теоретический.
Допустим, есть несколько аналогичных по задачам, но разных по структре методов - U-Манна-Уитни, t-Стюдента, ANOVA, glm+mixed models
данные удовлетворяют всем необходимым условиям.

мне интересно, какой метод будет мощнее/точнее. понятно, что при идеальных данных (как в моих условиях), результаты будут не сильно отличаться. но что будет при зашумленных? Есть ли какие-нибудь критерии и алгоритмы сравнения методов, именно аналитические? куда вообще смотреть надо?

Ну, общее правило общеизвестно: непараметрические методы уступают в мощности параметрическим. Это логично, т.к. параметрические критерии задействуют больше информации о данных. Асимптотическая эффективность для порядковых критериев Манна-Уитни и Краскела-Уоллиса составляет около 95% по отношению к, соответственно, t-критерию и дисперсионному анализу. Т.е. они заведомо менее мощные в случае нормального распределения. Однако столь незначительная потеря в мощности с лихвой окупается большей универсальностью. Из правил бывают исключения, например, критерий Ван-дер-Вардена не уступает по мощности t-критерию (но, возможно он и менее универсален - нужно читать).

Насколько мне известно, никаких аналитических процедур для сравнения мощности критериев не существует: это очень сложно, а полученные решения всё равно будут иметь частный характер. Куда проще проводить симуляционные эксперименты. Т.е. генерировать данные с заранее заданными свойствами (степень отклонения от нормальности, характер отклонения от номальности, процент засорения и т.п.), извлекать из них выборки и рассчитывать мощность критериев для разных условий. Потом пытаться обобщить полученные результаты в виде неких обобщающих правил. Этому посвящены узкие специальные работы, которые обычно обобщают авторы обзорных статей и учебников, но которые не особо интересуют практиков.

Leer

11.06.2012 - 10:18

Цитата(nokh @ 11.06.2012 - 08:09)

Насколько мне известно, никаких аналитических процедур для сравнения мощности критериев не существует: это очень сложно, а полученные решения всё равно будут иметь частный характер. Куда проще проводить симуляционные эксперименты. Т.е. генерировать данные с заранее заданными свойствами (степень отклонения от нормальности, характер отклонения от номальности, процент засорения и т.п.), извлекать из них выборки и рассчитывать мощность критериев для разных условий. Потом пытаться обобщить полученные результаты в виде неких обобщающих правил. Этому посвящены узкие специальные работы, которые обычно обобщают авторы обзорных статей и учебников, но которые не особо интересуют практиков.

Значит, симуляции...спасибо. Видимо, это единственный вариант.
у меня как раз очень узкая и, в основном, аналитическая задача - как раз для обзорной статьи или подобных текстов.
Данные одного типа экспериментов (время реакции) - там полный разнобой со стимулами, всегда стоит проблема ненормальности и выбросов. То есть, это сначала надо будет исследовать эмпирические данные - определять параметры распределения и строить модель, на основе которых уже делать симуляцию. Как раз сложность определения параметров из-за выбросов и смешивает все карты.

а не подскажете, где и что почитать по симуляционным экспериментам?

p2004r

11.06.2012 - 11:17

Цитата(Leer @ 11.06.2012 - 00:50)

Коллеги!

вопрос не столько практический, сколько теоретический.
Допустим, есть несколько аналогичных по задачам, но разных по структре методов - U-Манна-Уитни, t-Стюдента, ANOVA, glm+mixed models
данные удовлетворяют всем необходимым условиям.

мне интересно, какой метод будет мощнее/точнее. понятно, что при идеальных данных (как в моих условиях), результаты будут не сильно отличаться. но что будет при зашумленных? Есть ли какие-нибудь критерии и алгоритмы сравнения методов, именно аналитические? куда вообще смотреть надо?

мне представляется что бутстреп оценка значения критерия для конкретной экспериментальной выборки вполне позволяет оценить его возможности.

DoctorStat

11.06.2012 - 15:08

Цитата(Leer @ 11.06.2012 - 11:18)

Как раз сложность определения параметров из-за выбросов и смешивает все карты.

Для обработки зашумленных данных есть специальные статистические методы, которые называются "робастные". Они устойчивы к выбросам (сильным погрешностям) измерений.

nokh

11.06.2012 - 19:15

Цитата(Leer @ 11.06.2012 - 12:18)

Значит, симуляции...спасибо. Видимо, это единственный вариант.
у меня как раз очень узкая и, в основном, аналитическая задача - как раз для обзорной статьи или подобных текстов.
Данные одного типа экспериментов (время реакции) - там полный разнобой со стимулами, всегда стоит проблема ненормальности и выбросов. То есть, это сначала надо будет исследовать эмпирические данные - определять параметры распределения и строить модель, на основе которых уже делать симуляцию. Как раз сложность определения параметров из-за выбросов и смешивает все карты.
а не подскажете, где и что почитать по симуляционным экспериментам?

Всё-таки мне задача пока не совсем ясна. Варианты:
1). Нужно подвести некую теоретическую базу для выбора наиболее оптимальных статистических критериев для работы с данными в вашей области. Это - самостоятельная и серьёзная задача, я не имею такого опыта. Целенаправленно по симуляциям никогда не искал, но то что попадалось всегда выглядело одинаково занудненько: кучи графиков и таблиц для разных условий эксперимента и пространные попытки обобщения результатов. Обычно в таких работах один автор - специалист в предметной области, а другой - соавтор - чистый математик. На русском языке в 90-х была серия статей в журнале "Заводская лаборатория". Недавно знакомые просили прокомментировать статью в Психологическом журнале (2011, т.32, N 1, С. 97-110) "Условия применимости критериев Стьюдента и Манна-Уитни". Для себя как для практика толку от этой статьи не нашёл совсем, думаю и вы не найдёте, но посмотреть принцип таких экспериментов - можно. Погуглите. Я вот сразу вышел на эту: http://www.biomedcentral.com/1471-2288/10/48 . Но полагаю, что если вы этим не занимались, то по подсказкам с форумов освоить будет тяжеловато.
2). Нужно просто работать с выборками, распределение показателей в которых сильно отличается от нормального и/или вообще непонятно какое. Т.е. цель не методологическая, а обычная исследовательская. Здесь всё проще: как вам уже посоветовали выше нужно просто работать робастными методами, если по-современному - то всякими ресэмплинг-техниками типа бутстрэпа и рандомизационных тестов.

Leer

12.06.2012 - 12:45

Цитата(DoctorStat @ 11.06.2012 - 16:08)

Для обработки зашумленных данных есть специальные статистические методы, которые называются "робастные". Они устойчивы к выбросам (сильным погрешностям) измерений.

понимаете, мне мало обработать данные - в конце концов, возьму грубый U-Манна-Уитни и все. мне надо определить, почему я беру именно этот метод.
например, какой-нибудь робастный метод или дисперсионный на обрезанных (с удалением выбросов) данных. что выбрать? второй вариант - наиболее традиционный для исследований по моей теме, но это лишь традиция. сейчас набирает силу подход с использованием смешанных моделей, что само по себе непростой вариант.
мне нужен обоснованный выбор.

Leer

12.06.2012 - 12:59

Цитата(nokh @ 11.06.2012 - 20:15)

1). Нужно подвести некую теоретическую базу для выбора наиболее оптимальных статистических критериев для работы с данными в вашей области.

Именно для этого, все верно.
Я сейчас столкнулся с двумя проблемами - во-первых, данные с выбросами. необходимо определить стратегию удаления выбросов, а то иногда бывают совсем уж жуткие перекосы, с длинным правым хвостом - при медиане в 750мс размах может составлять до 40000мс. Плюс, если брать просто пороговую обрезку или процентильную, или по двум сигмам - то результаты получаются весьма разные

Вторая проблема - это подбор метода. чертова куча литературы/статей, и везде данные обрабатываются по-разному, без какого-либо обоснования.
И попутно получается, что обе задачи - взаимосвязанные. Без очистки выбросов я не могу выделить параметры распределения и симуляционного эксперимента по точности методов, а без контроля требований методов к данным анализа я не могу определить эффективную стратегию удаления выбросов.

в общем, моя цель сейчас - разработать стратегию анализа данных подобного типа экспериметов (время реакции).
некоторый опыт и понимание пути есть, по форумам хожу, скорее, для расширения поля и проговаривания задач (так самому некоторые вещи становятся понятнее).

спасибо за ответ и за ссылки.

nokh

12.06.2012 - 15:27

Цитата(Leer @ 12.06.2012 - 14:59)

... Я сейчас столкнулся с двумя проблемами - во-первых, данные с выбросами. необходимо определить стратегию удаления выбросов, а то иногда бывают совсем уж жуткие перекосы, с длинным правым хвостом - при медиане в 750мс размах может составлять до 40000мс. Плюс, если брать просто пороговую обрезку или процентильную, или по двум сигмам - то результаты получаются весьма разные

Вторая проблема - это подбор метода. чертова куча литературы/статей, и везде данные обрабатываются по-разному, без какого-либо обоснования...

Я с большим подозрением отношусь к любым методам удаления выбросов. Что за выбросы? Откуда они берутся? Одно дело, если речь идёт о каких-то показателях, где скажем болезнь может сильно повлиять на его значение. Но для таких физиологических показателей как "время реакции" не вполне понятно откуда браться аномально высоким значениям. Не забывайте, что все показатели, завязанные на времени, имеют не нормальное, а близкое к логарифмически нормальному распределение. Прологарифмируйте свой материал и посмотрите распределение логарифмов: в логарифмической шкале 750 и 40000 не так и далеки: 6,62 и 10,60 - для натуральных логарифмов, 2,88 и 4,60 - для десятичных. Согласитесь, не такая уж и большая разница... А то, что люди пытаются измерять какие-то значения своей линейкой, а не той, что пользуется природа - так кто в этом виноват? Если выборки действительно засорённые, то на гистограмме распределения в логарифмической шкале будут отчётливо видны дополнительные моды, которые в шкале "мс" не видны и просто попадают куда-то в хвост распределения. Тогда можно обоснованно делить материал на группы и пытаться разобраться в причинах полимодальности. С другой стороны, если окажется, что просто распределение элементарно логарифмически нормальное, то нет нужды что-то чистить и греться по поводу методов, получите готовое решение - работать с логарифмами.

Barabek

19.06.2012 - 10:28

Цитата(Leer @ 11.06.2012 - 02:50)

Коллеги!

вопрос не столько практический, сколько теоретический.
Допустим, есть несколько аналогичных по задачам, но разных по структре методов - U-Манна-Уитни, t-Стюдента, ANOVA, glm+mixed models
данные удовлетворяют всем необходимым условиям.

мне интересно, какой метод будет мощнее/точнее. понятно, что при идеальных данных (как в моих условиях), результаты будут не сильно отличаться. но что будет при зашумленных? Есть ли какие-нибудь критерии и алгоритмы сравнения методов, именно аналитические? куда вообще смотреть надо?

Не знаю как для всех методов, но для сравнения моделей (ANOVA и т.д.) в R project есть информационный критерий AIC (Akaike information criterion). Синтаксис: AIC(model)

Чем ниже показатель AIC, тем точнее модель.

Leer

19.06.2012 - 14:45

Цитата(Barabek @ 19.06.2012 - 11:28)

Не знаю как для всех методов, но для сравнения моделей (ANOVA и т.д.) в R project есть информационный критерий AIC (Akaike information criterion). Синтаксис: AIC(model)

Чем ниже показатель AIC, тем точнее модель.

информационный критерий...я эту группу и этот подход не знаю, будет повод изучить. спасибо.

Leer

19.06.2012 - 15:05

Цитата(nokh @ 12.06.2012 - 16:27)

Я с большим подозрением отношусь к любым методам удаления выбросов. Что за выбросы? Откуда они берутся? Одно дело, если речь идёт о каких-то показателях, где скажем болезнь может сильно повлиять на его значение. Но для таких физиологических показателей как "время реакции" не вполне понятно откуда браться аномально высоким значениям. Не забывайте, что все показатели, завязанные на времени, имеют не нормальное, а близкое к логарифмически нормальному распределение. Прологарифмируйте свой материал и посмотрите распределение логарифмов: в логарифмической шкале 750 и 40000 не так и далеки: 6,62 и 10,60 - для натуральных логарифмов, 2,88 и 4,60 - для десятичных. Согласитесь, не такая уж и большая разница... А то, что люди пытаются измерять какие-то значения своей линейкой, а не той, что пользуется природа - так кто в этом виноват? Если выборки действительно засорённые, то на гистограмме распределения в логарифмической шкале будут отчётливо видны дополнительные моды, которые в шкале "мс" не видны и просто попадают куда-то в хвост распределения. Тогда можно обоснованно делить материал на группы и пытаться разобраться в причинах полимодальности. С другой стороны, если окажется, что просто распределение элементарно логарифмически нормальное, то нет нужды что-то чистить и греться по поводу методов, получите готовое решение - работать с логарифмами.

дико извиняюсь за такое долгое молчание.

спасибо большое за такой длинный пост и идеи.
в моем случае - это выбросы, которые возникают из экспериментальной ситуации. так, я предъявляю на экране буквосочетание и измеряю время реакции - время принятия лексического решения (является ли это буквосочетание словом или нет). Соответственно, 40000мс реакции возникают тогда, когда испытуемый, например, отвлекся. И если я буду считать центральные тенденции, то получу огульные значения - по реакции на стимул, и по шумовым реакциям.
Да, конечно, можно логарифмизировать данные, и я уже думал на эту тему. Но меня всегда смущает два сложным момента - как интерпретирвоать результаты. делать обратную логарифимизацию, что ли? и второй момент - а почему именно логарифмизация, а не другой тип преобразования?

nokh

19.06.2012 - 18:14

Цитата(Leer @ 19.06.2012 - 17:05)

... Да, конечно, можно логарифмизировать данные, и я уже думал на эту тему. Но меня всегда смущает два сложным момента - как интерпретирвоать результаты. делать обратную логарифимизацию, что ли? и второй момент - а почему именно логарифмизация, а не другой тип преобразования?

Такова природа данных, зависящих от времени - просто они имеют логнормальное распределение и всё, приводящие к изменчивости ошибки накапливаются не аддитивно, а мультипликативно. Обязательно найдите и посмотрите старую, но добротную книгу: Хальд А. Математическая статистика с техническими приложениями (есть в сети). Несмотря на название множество примеров из биологии и медицины. Там логнормальное распределение очень хорошо разобрано. Думаю в вашем случае распределение будет даже не логнормальное, а логнормальное с константой, т.е. нормально распределена величина log(x-a), где а - физиологический минимум скорости реакции, обусловленный невозможностью проведения импульса по нервной системе быстрее, чем это возможно (ну или что-то в этом роде). Вопросы интерпретации не особо зависят от типа распределения и определяются скорее предметной областью. Если 5 > 2, то и log5 > log2, выводы не меняются, меняется невозможность применения математического аппарата параметрической статистики на возможность его использования, а это всегда выгодно, т.к. он лучше разработан и задействует больше информации о данных. В микробиологии и популяционной экологии, например, работа с логарифмами является столь же обычной, как в других областях с исходными данными (правда там природа логнормального распределения несколько другая). Как видно из рисунка, если распредление логнормальное, то после преобразования логарифма становится нормальным и мы можем работать параметрической статистикой. Ретрансформация к исходной шкале понадобится для грамотного выражения средних, а также 95%-ных доверительных интервалов, которые станут асимметричными (как и само логнормальное распределение). Аналогично для площадей используют преобразование квадратного корня, а для долей - угловые преобразования.

Barabek

20.06.2012 - 07:30

Цитата(nokh @ 19.06.2012 - 20:14)

Такова природа данных, зависящих от времени - просто они имеют логнормальное распределение и всё, приводящие к изменчивости ошибки накапливаются не аддитивно, а мультипликативно. Обязательно найдите и посмотрите старую, но добротную книгу: Хальд А. Математическая статистика с техническими приложениями (есть в сети). Несмотря на название множество примеров из биологии и медицины. Там логнормальное распределение очень хорошо разобрано. Думаю в вашем случае распределение будет даже не логнормальное, а логнормальное с константой, т.е. нормально распределена величина log(x-a), где а - физиологический минимум скорости реакции, обусловленный невозможностью проведения импульса по нервной системе быстрее, чем это возможно (ну или что-то в этом роде). Вопросы интерпретации не особо зависят от типа распределения и определяются скорее предметной областью. Если 5 > 2, то и log5 > log2, выводы не меняются, меняется невозможность применения математического аппарата параметрической статистики на возможность его использования, а это всегда выгодно, т.к. он лучше разработан и задействует больше информации о данных. В микробиологии и популяционной экологии, например, работа с логарифмами является столь же обычной, как в других областях с исходными данными (правда там природа логнормального распределения несколько другая). Как видно из рисунка, если распредление логнормальное, то после преобразования логарифма становится нормальным и мы можем работать параметрической статистикой. Ретрансформация к исходной шкале понадобится для грамотного выражения средних, а также 95%-ных доверительных интервалов, которые станут асимметричными (как и само логнормальное распределение). Аналогично для площадей используют преобразование квадратного корня, а для долей - угловые преобразования.

Насколько я понял в данном случае поможет нормализация данных по логарифмической шкале? А вот как интерпретировать потом такие данные? Если есть какая-нибудь ссылка по этой теме, будет полезно почитать всем.

nokh

20.06.2012 - 13:22

Цитата(Barabek @ 20.06.2012 - 09:30)

Насколько я понял в данном случае поможет нормализация данных по логарифмической шкале? А вот как интерпретировать потом такие данные? Если есть какая-нибудь ссылка по этой теме, будет полезно почитать всем.

Насчёт всех не уверен, но некоторым, вероятно, полезно перечитывать сообщения, чтобы найти в них и ссылки, и ответы на свои вопросы

Barabek

21.06.2012 - 08:04

Цитата(nokh @ 20.06.2012 - 15:22)

Насчёт всех не уверен, но некоторым, вероятно, полезно перечитывать сообщения, чтобы найти в них и ссылки, и ответы на свои вопросы

То что выводы не меняются я понял. Насчет ссылок, наверно мне надо было конкретнее указать, что иммелось ввиду нормализация данных в среде R project.

Leer

27.06.2012 - 12:05

Цитата(nokh @ 19.06.2012 - 19:14)

Такова природа данных, зависящих от времени - просто они имеют логнормальное распределение и всё, приводящие к изменчивости ошибки накапливаются не аддитивно, а мультипликативно. Обязательно найдите и посмотрите старую, но добротную книгу: Хальд А. Математическая статистика с техническими приложениями (есть в сети). Несмотря на название множество примеров из биологии и медицины. Там логнормальное распределение очень хорошо разобрано. Думаю в вашем случае распределение будет даже не логнормальное, а логнормальное с константой, т.е. нормально распределена величина log(x-a), где а - физиологический минимум скорости реакции, обусловленный невозможностью проведения импульса по нервной системе быстрее, чем это возможно (ну или что-то в этом роде). Вопросы интерпретации не особо зависят от типа распределения и определяются скорее предметной областью. Если 5 > 2, то и log5 > log2, выводы не меняются, меняется невозможность применения математического аппарата параметрической статистики на возможность его использования, а это всегда выгодно, т.к. он лучше разработан и задействует больше информации о данных. В микробиологии и популяционной экологии, например, работа с логарифмами является столь же обычной, как в других областях с исходными данными (правда там природа логнормального распределения несколько другая). Как видно из рисунка, если распредление логнормальное, то после преобразования логарифма становится нормальным и мы можем работать параметрической статистикой. Ретрансформация к исходной шкале понадобится для грамотного выражения средних, а также 95%-ных доверительных интервалов, которые станут асимметричными (как и само логнормальное распределение). Аналогично для площадей используют преобразование квадратного корня, а для долей - угловые преобразования.

наконец-то добрался до адекватного интернета...
спасибо большое за ссылку на книгу - скачал, мельком просмотрел - очень полезно. буду читать подробнее.
и с интерпретацией понял, спасибо.

а по поводу распределений - вопрос возник буквально вчера - как определять форму распределения? просто подбирать несколько вариантов и смотреть best-fit, наиболее подходящее?
потому что, насколько я помню по статьям, по моим данным обычно не простое логнормальное, а с еще какими-то добавками...и как по сырым данным оценивать распределение, если я знаю, что оно зашумлено? бустрепом и прочими играми с семплами?