Версия для печати темы

Нажмите сюда для просмотра этой темы в обычном формате

Форум врачей-аспирантов _ Медицинская статистика _ Сравнение параметров сдвига нескольких совокупностей

Автор: Pinus 11.05.2011 - 01:06

Прошу совета старших товарищей.
Надо сравнить параметры положения (средние/медианы) распределений трех несвязанных выборок. Объемы выборок от 98 до 135 ед. (не равные). Распределения двух из рассматриваемых совокупностей подчиняются нормальному закону (проверка Шапиро-Уилком). Третья совокупность ненормальна.
Вопросы:
1. Является ли обязательным условие, что для применения непараметрических критериев (Крускал-Уоллиса, медианного) тип распределения во всех выборках должен быть одинаковым?
2. Существуют ли непараметрические критерии множественного сравнения (чтобы сравнить средние/медианы попарно)?
3. Существуют ли какие-нибудь критерии (способы) для сравнения мод?
4. Что вообще лучше здесь предпринять?

Автор: p2004r 11.05.2011 - 09:27

Цитата(Pinus @ 11.05.2011 - 00:06) *
2. Существуют ли непараметрические критерии множественного сравнения (чтобы сравнить средние/медианы попарно)?
3. Существуют ли какие-нибудь критерии (способы) для сравнения мод?
4. Что вообще лучше здесь предпринять?


2. Критерий Даннета после того как отвергнута гипотеза о отсутствии различий?

3.-4. Я бы построил бутстреп процедуру. На каждом шаге делаем перевыборки с возвращением из исходных 3х групп. Получаем три групповых медианы. Они дают три разности. Это одно наблюдение. Накапливаем 10000 экспериментов. Для разностей строим распределение плотности этих 10000 экспериментов. Смотрим есть ли вообще разности которые меньше или равны 0 (или наоборот больше или равны, смотря какую медиану из какой вычитали). Если есть считаем сколько случаев из 10000 меньше или равно 0. Это и есть вероятность.

Автор: DoctorStat 11.05.2011 - 09:27

Цитата(Pinus @ 11.05.2011 - 02:06) *
Распределения двух из рассматриваемых совокупностей подчиняются нормальному закону (проверка Шапиро-Уилком). Третья совокупность ненормальна.
А почему две выборки нормальны, а третья нет? Нехорошо это frown.gif)

Автор: Pinus 11.05.2011 - 12:55

Цитата(p2004r @ 11.05.2011 - 17:27) *
2. Критерий Даннета после того как отвергнута гипотеза о отсутствии различий?

А он же при ANOVA вроде? Там разве нормальности не требуется?

Цитата(p2004r @ 11.05.2011 - 17:27) *
3.-4. Я бы построил бутстреп процедуру. На каждом шаге делаем перевыборки с возвращением из исходных 3х групп. Получаем три групповых медианы. Они дают три разности. Это одно наблюдение. Накапливаем 10000 экспериментов. Для разностей строим распределение плотности этих 10000 экспериментов. Смотрим есть ли вообще разности которые меньше или равны 0 (или наоборот больше или равны, смотря какую медиану из какой вычитали). Если есть считаем сколько случаев из 10000 меньше или равно 0. Это и есть вероятность.

Это для меня пока новая тема. Сходу не возьму, а разбираться основательно - времени в обрез.
В книге Холлендера "Непараметрические методы статистики" есть процедура множественного сравнения (непараметрика), но для равных объемов выборок. Для неравных предложена какая-то консервативная "залепуха". Но это на крайний случай, если ничего больше не найду.

Автор: Pinus 11.05.2011 - 12:59

Цитата(DoctorStat @ 11.05.2011 - 17:27) *
А почему две выборки нормальны, а третья нет? Нехорошо это frown.gif)

Ну, да, были б нормальные все, всё бы влет решилось.

Автор: DrgLena 12.05.2011 - 00:18

Цитата(Pinus @ 11.05.2011 - 01:06) *
Распределения двух из рассматриваемых совокупностей подчиняются нормальному закону (проверка Шапиро-Уилком). Третья совокупность ненормальна.

Нет, это не точно. Распределения в двух выборках подчиняются закону нормального распределения, а в третьей выборке он нарушен.
Дисперсионный анализ требует нормального распределения не в каждой выборке, а именно в генеральной совокупности. Поэтому не воспринимайте вопрос DoctorStat иронически и решайте эту задачу ?влет? ANOVA.

Автор: Pinus 12.05.2011 - 11:05

Цитата(DrgLena @ 12.05.2011 - 08:18) *
Нет, это не точно. Распределения в двух выборках подчиняются закону нормального распределения, а в третьей выборке он нарушен.
Дисперсионный анализ требует нормального распределения не в каждой выборке, а именно в генеральной совокупности.

Возможен ведь и такой случай: три выборки соответствуют трем уровням влияния качественного фактора. Предположим, на каком-то из уровней это влияние приводит к асимметричности распределения. Ведь такое возможно? Но нас не интересует асимметричность или показатели вариации. Просто нужно выяснить, приводит ли изменение качественного фактора к значимому изменению типичного (среднее/медиана/мода) значения признака?
Если имеющиеся три выборки объединить, то распределение тоже не будет нормальным.
А если говорить о генеральной совокупности, то из теоретических соображений, если продолжать увеличивать число наблюдений, то в первых двух выборках тоже вероятно появление левых хвостов, и соответственно совокупности не будут нормальными.
Так что ANOVA не подходит.

Цитата(DrgLena @ 12.05.2011 - 08:18) *
Поэтому не воспринимайте вопрос DoctorStat иронически...

Не было и тени иронии, DrgLena. Я просто согласился, что при нормальности всех выборок все было бы гораздо проще.

Автор: DrgLena 12.05.2011 - 13:22

Цитата(DoctorStat @ 11.05.2011 - 09:27) *
А почему две выборки нормальны, а третья нет? Нехорошо это frown.gif)

Потому, что на третьем уровне фактора сильнее дует влево.
Я не убедила относительно ANOVA. Попробуйте не увеличить, а уменьшить выборки, возьмите всего по три числа из каждой, например 25,05 24,50 и 26,80 и получите нормальность по Shapiro-Wilk W=,91681, p=,44121. Значит, для трех наблюдений в группе вы можете использовать ANOVA, а для 100 не можете. Поищите соображения плава по поводу дисперсионного анализа на этом форуме, он убедил меня в том, что не нужно отказываться от ANOVA в пользу непараметрики. А если все же склоняетесь к непараметрике, посмотрите дискуссию открытую nokh по анализу иммунологических данных, там есть про множественные сравнения. Сравните выводы, полученные двумя путями

Автор: Pinus 12.05.2011 - 16:02

Цитата(DrgLena @ 12.05.2011 - 21:22) *
Я не убедила относительно ANOVA. Попробуйте не увеличить, а уменьшить выборки, возьмите всего по три числа из каждой, например 25,05 24,50 и 26,80 и получите нормальность по Shapiro-Wilk W=,91681, p=,44121. Значит, для трех наблюдений в группе вы можете использовать ANOVA, а для 100 не можете. Поищите соображения плава по поводу дисперсионного анализа на этом форуме, он убедил меня в том, что не нужно отказываться от ANOVA в пользу непараметрики.

Идея понятна, в целом, но может быть все же это больше соответствует выборкам небольшого объема, где включение или исключение части наблюдений может сильно влиять на характер распределения?
Вообще спасибо за направление, посмотрю.

Автор: nokh 12.05.2011 - 19:08

Если ещё точнее, то технически дисперсионный анализ требует даже не нормального распределения в ГС, а нормального распределения ошибки. Модель ДА: yi=мю+Ai+ej(i). Ошибка е и должна быть распределена нормально со средним равным нулю. Т.е. нужно провести ДА и посмотреть распределение остатков. Если номальное - ОК, если нет - можно добиться его нормальности преобразованием исходных данных. Например, определить лямбду в преобразовании Бокса-Кокса для остатков (AtteStat) и с этой лямбдой преобразовать исходные данные.
Непараметрические множественные сравнениям слабо освещены в распространённой литературе. Да и как вы заметили опираются на требования критерий Краскела-Уоллиса. Я сделал в Excel калькулятор который по результатам К-У рассчитывает 3 варианта сравнений (не выложил сюда т.к. не успел его выверить окончательно) - они сильно разнятся. Поэтому тоже за ДА. А подход с ресэмплингом можно сделать и без R - в Rundom Pro (http://pjadw.tripod.com/ ), но он будет менее мощным чем обычный ДА после Бокса-Кокса.

Автор: Pinus 13.05.2011 - 03:08

Что-то я действительно зациклился на исходных, когда надо остатки смотреть... insane.gif
Спасибо, Nokh!

Форум Invision Power Board (http://www.invisionboard.com)
© Invision Power Services (http://www.invisionpower.com)