Цитата(nokh @ 12.06.2012 - 16:27)

Я с большим подозрением отношусь к любым методам удаления выбросов. Что за выбросы? Откуда они берутся? Одно дело, если речь идёт о каких-то показателях, где скажем болезнь может сильно повлиять на его значение. Но для таких физиологических показателей как "время реакции" не вполне понятно откуда браться аномально высоким значениям. Не забывайте, что все показатели, завязанные на времени, имеют не нормальное, а близкое к логарифмически нормальному распределение. Прологарифмируйте свой материал и посмотрите распределение логарифмов: в логарифмической шкале 750 и 40000 не так и далеки: 6,62 и 10,60 - для натуральных логарифмов, 2,88 и 4,60 - для десятичных. Согласитесь, не такая уж и большая разница... А то, что люди пытаются измерять какие-то значения своей линейкой, а не той, что пользуется природа - так кто в этом виноват? Если выборки действительно засорённые, то на гистограмме распределения в логарифмической шкале будут отчётливо видны дополнительные моды, которые в шкале "мс" не видны и просто попадают куда-то в хвост распределения. Тогда можно обоснованно делить материал на группы и пытаться разобраться в причинах полимодальности. С другой стороны, если окажется, что просто распределение элементарно логарифмически нормальное, то нет нужды что-то чистить и греться по поводу методов, получите готовое решение - работать с логарифмами.
дико извиняюсь за такое долгое молчание.
спасибо большое за такой длинный пост и идеи.
в моем случае - это выбросы, которые возникают из экспериментальной ситуации. так, я предъявляю на экране буквосочетание и измеряю время реакции - время принятия лексического решения (является ли это буквосочетание словом или нет). Соответственно, 40000мс реакции возникают тогда, когда испытуемый, например, отвлекся. И если я буду считать центральные тенденции, то получу огульные значения - по реакции на стимул, и по шумовым реакциям.
Да, конечно, можно логарифмизировать данные, и я уже думал на эту тему. Но меня всегда смущает два сложным момента - как интерпретирвоать результаты. делать обратную логарифимизацию, что ли? и второй момент - а почему именно логарифмизация, а не другой тип преобразования?