Сравнение параметров сдвига нескольких совокупностей, непараметрика? |
Здравствуйте, гость ( Вход | Регистрация )
Сравнение параметров сдвига нескольких совокупностей, непараметрика? |
11.05.2011 - 01:06
Сообщение
#1
|
|
Группа: Пользователи Сообщений: 244 Регистрация: 28.08.2009 Пользователь №: 6286 |
Прошу совета старших товарищей.
Надо сравнить параметры положения (средние/медианы) распределений трех несвязанных выборок. Объемы выборок от 98 до 135 ед. (не равные). Распределения двух из рассматриваемых совокупностей подчиняются нормальному закону (проверка Шапиро-Уилком). Третья совокупность ненормальна. Вопросы: 1. Является ли обязательным условие, что для применения непараметрических критериев (Крускал-Уоллиса, медианного) тип распределения во всех выборках должен быть одинаковым? 2. Существуют ли непараметрические критерии множественного сравнения (чтобы сравнить средние/медианы попарно)? 3. Существуют ли какие-нибудь критерии (способы) для сравнения мод? 4. Что вообще лучше здесь предпринять? Сообщение отредактировал Pinus - 11.05.2011 - 02:39 |
|
11.05.2011 - 09:27
Сообщение
#2
|
|
Группа: Пользователи Сообщений: 1091 Регистрация: 26.08.2010 Пользователь №: 22699 |
2. Существуют ли непараметрические критерии множественного сравнения (чтобы сравнить средние/медианы попарно)? 3. Существуют ли какие-нибудь критерии (способы) для сравнения мод? 4. Что вообще лучше здесь предпринять? 2. Критерий Даннета после того как отвергнута гипотеза о отсутствии различий? 3.-4. Я бы построил бутстреп процедуру. На каждом шаге делаем перевыборки с возвращением из исходных 3х групп. Получаем три групповых медианы. Они дают три разности. Это одно наблюдение. Накапливаем 10000 экспериментов. Для разностей строим распределение плотности этих 10000 экспериментов. Смотрим есть ли вообще разности которые меньше или равны 0 (или наоборот больше или равны, смотря какую медиану из какой вычитали). Если есть считаем сколько случаев из 10000 меньше или равно 0. Это и есть вероятность. |
|
11.05.2011 - 09:27
Сообщение
#3
|
|
Группа: Пользователи Сообщений: 377 Регистрация: 18.08.2008 Из: Москва Златоглавая Пользователь №: 5224 |
Распределения двух из рассматриваемых совокупностей подчиняются нормальному закону (проверка Шапиро-Уилком). Третья совокупность ненормальна. А почему две выборки нормальны, а третья нет? Нехорошо это )Просто включи мозги => http://doctorstat.narod.ru
|
|
11.05.2011 - 12:55
Сообщение
#4
|
|
Группа: Пользователи Сообщений: 244 Регистрация: 28.08.2009 Пользователь №: 6286 |
2. Критерий Даннета после того как отвергнута гипотеза о отсутствии различий? А он же при ANOVA вроде? Там разве нормальности не требуется? 3.-4. Я бы построил бутстреп процедуру. На каждом шаге делаем перевыборки с возвращением из исходных 3х групп. Получаем три групповых медианы. Они дают три разности. Это одно наблюдение. Накапливаем 10000 экспериментов. Для разностей строим распределение плотности этих 10000 экспериментов. Смотрим есть ли вообще разности которые меньше или равны 0 (или наоборот больше или равны, смотря какую медиану из какой вычитали). Если есть считаем сколько случаев из 10000 меньше или равно 0. Это и есть вероятность. Это для меня пока новая тема. Сходу не возьму, а разбираться основательно - времени в обрез. В книге Холлендера "Непараметрические методы статистики" есть процедура множественного сравнения (непараметрика), но для равных объемов выборок. Для неравных предложена какая-то консервативная "залепуха". Но это на крайний случай, если ничего больше не найду. |
|
11.05.2011 - 12:59
Сообщение
#5
|
|
Группа: Пользователи Сообщений: 244 Регистрация: 28.08.2009 Пользователь №: 6286 |
|
|
12.05.2011 - 00:18
Сообщение
#6
|
|
Группа: Пользователи Сообщений: 1325 Регистрация: 27.11.2007 Пользователь №: 4573 |
Распределения двух из рассматриваемых совокупностей подчиняются нормальному закону (проверка Шапиро-Уилком). Третья совокупность ненормальна. Нет, это не точно. Распределения в двух выборках подчиняются закону нормального распределения, а в третьей выборке он нарушен. Дисперсионный анализ требует нормального распределения не в каждой выборке, а именно в генеральной совокупности. Поэтому не воспринимайте вопрос DoctorStat иронически и решайте эту задачу ?влет? ANOVA. |
|
12.05.2011 - 11:05
Сообщение
#7
|
|
Группа: Пользователи Сообщений: 244 Регистрация: 28.08.2009 Пользователь №: 6286 |
Нет, это не точно. Распределения в двух выборках подчиняются закону нормального распределения, а в третьей выборке он нарушен. Дисперсионный анализ требует нормального распределения не в каждой выборке, а именно в генеральной совокупности. Возможен ведь и такой случай: три выборки соответствуют трем уровням влияния качественного фактора. Предположим, на каком-то из уровней это влияние приводит к асимметричности распределения. Ведь такое возможно? Но нас не интересует асимметричность или показатели вариации. Просто нужно выяснить, приводит ли изменение качественного фактора к значимому изменению типичного (среднее/медиана/мода) значения признака? Если имеющиеся три выборки объединить, то распределение тоже не будет нормальным. А если говорить о генеральной совокупности, то из теоретических соображений, если продолжать увеличивать число наблюдений, то в первых двух выборках тоже вероятно появление левых хвостов, и соответственно совокупности не будут нормальными. Так что ANOVA не подходит. Поэтому не воспринимайте вопрос DoctorStat иронически... Не было и тени иронии, DrgLena. Я просто согласился, что при нормальности всех выборок все было бы гораздо проще. Сообщение отредактировал Pinus - 12.05.2011 - 11:49 |
|
12.05.2011 - 13:22
Сообщение
#8
|
|
Группа: Пользователи Сообщений: 1325 Регистрация: 27.11.2007 Пользователь №: 4573 |
А почему две выборки нормальны, а третья нет? Нехорошо это ) Потому, что на третьем уровне фактора сильнее дует влево. Я не убедила относительно ANOVA. Попробуйте не увеличить, а уменьшить выборки, возьмите всего по три числа из каждой, например 25,05 24,50 и 26,80 и получите нормальность по Shapiro-Wilk W=,91681, p=,44121. Значит, для трех наблюдений в группе вы можете использовать ANOVA, а для 100 не можете. Поищите соображения плава по поводу дисперсионного анализа на этом форуме, он убедил меня в том, что не нужно отказываться от ANOVA в пользу непараметрики. А если все же склоняетесь к непараметрике, посмотрите дискуссию открытую nokh по анализу иммунологических данных, там есть про множественные сравнения. Сравните выводы, полученные двумя путями |
|
12.05.2011 - 16:02
Сообщение
#9
|
|
Группа: Пользователи Сообщений: 244 Регистрация: 28.08.2009 Пользователь №: 6286 |
Я не убедила относительно ANOVA. Попробуйте не увеличить, а уменьшить выборки, возьмите всего по три числа из каждой, например 25,05 24,50 и 26,80 и получите нормальность по Shapiro-Wilk W=,91681, p=,44121. Значит, для трех наблюдений в группе вы можете использовать ANOVA, а для 100 не можете. Поищите соображения плава по поводу дисперсионного анализа на этом форуме, он убедил меня в том, что не нужно отказываться от ANOVA в пользу непараметрики. Идея понятна, в целом, но может быть все же это больше соответствует выборкам небольшого объема, где включение или исключение части наблюдений может сильно влиять на характер распределения? Вообще спасибо за направление, посмотрю. |
|
12.05.2011 - 19:08
Сообщение
#10
|
|
Группа: Пользователи Сообщений: 1202 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704 |
Если ещё точнее, то технически дисперсионный анализ требует даже не нормального распределения в ГС, а нормального распределения ошибки. Модель ДА: yi=мю+Ai+ej(i). Ошибка е и должна быть распределена нормально со средним равным нулю. Т.е. нужно провести ДА и посмотреть распределение остатков. Если номальное - ОК, если нет - можно добиться его нормальности преобразованием исходных данных. Например, определить лямбду в преобразовании Бокса-Кокса для остатков (AtteStat) и с этой лямбдой преобразовать исходные данные.
Непараметрические множественные сравнениям слабо освещены в распространённой литературе. Да и как вы заметили опираются на требования критерий Краскела-Уоллиса. Я сделал в Excel калькулятор который по результатам К-У рассчитывает 3 варианта сравнений (не выложил сюда т.к. не успел его выверить окончательно) - они сильно разнятся. Поэтому тоже за ДА. А подход с ресэмплингом можно сделать и без R - в Rundom Pro (http://pjadw.tripod.com/ ), но он будет менее мощным чем обычный ДА после Бокса-Кокса. |
|
13.05.2011 - 03:08
Сообщение
#11
|
|
Группа: Пользователи Сообщений: 244 Регистрация: 28.08.2009 Пользователь №: 6286 |
Что-то я действительно зациклился на исходных, когда надо остатки смотреть...
Спасибо, Nokh! |
|