Версия для печати темы

Нажмите сюда для просмотра этой темы в обычном формате

Форум врачей-аспирантов _ Медицинская статистика _ В помощь новичку

Автор: bubnilkin 7.02.2010 - 17:06

Присутствует ли эффект множественных сравнений при использовании непараметрических критериев?

У меня 1 контрольная группа и 4 опытных; т.к. в каждом случае кровь брали для всех 4х лекарств и контроля, считаю группы связанными/зависимыми; численность групп неодинакова ? от 8 до 12; итого 5 групп и 10 попарных сравнений... и разница статистически значима для той пары, для которой p < 0.005. Т.к. проверка на нормальность согласно Shapiro-Wilk?s Test (Statistica) показала, что распределение в выборках различны, и поэтому использовал Friedman ANOVA and Kendall Coeff. of Concordance, а потом Wilcoxon Matched Pairs Test. По последнему получил 10 попарных сравнений. Верно ли рассуждаю?

Я так понимаю: Friedman ANOVA and Kendall Coeff. of Concordance говорит нам, что есть где-то между сравниваемыми группами различие, а Wilcoxon Matched Pairs Test указывает между какими конкретно. Это так? (интересно?, а зачем такая пошаговость?)

P.S.
На форуме неоднократно звучало, что для использования параметрики или непараметрики нужно прежде всего определиться с распределением вариант генеральной совокупности, а не выборки? но как это сделать, если: (1) генеральная совокупность нам неизвестна и (2) в диссертациях всегда есть глава ?новизна?, я так понимаю, где объясняют зачем диссертант проводит исследование?, т.е. до этого никто такого же не делал? (Т.е. если бы делал, то можно было бы составить мета-анализ, объединить данные?) Как быть?

С уважением

Автор: nokh 8.02.2010 - 00:02

Очень сумбурно всё написано. Опишите нормально свой эксперимент, чтобы не приходилось догадываться что там и как. И признак какой - количественный или качественный? Не думаю что столь молниеносный уход в непараметрику - хорошее решение. А пошаговость свойственна и обычному дисперсионному анализу: сначала проверяется нулевая гипотеза о равенстве всех средних, и если отклоняется - далее с помощью попарных сравнений в рамках дисперсионного комплекса выясняется за счёт чего.

Автор: bubnilkin 8.02.2010 - 16:03

nokh, cпасибо за внимание к посту

признак: количественный (мы число клеток считаем)
группы: контрольная и 4 опытных (5 групп), связанные (кровь одного и того же человека для всех групп)
объём: 8-12 человек (в разных группах по-разному)

предполагаемый алгоритм:
1. проверка на нормальность (Shapiro-Wilk?s Test)
(я так понимаю, надо ВСЕ (!!это для меня новость!!) варианты отдать под проверку для п.1, не проверяя 5 раз, а только 1)
2. (а) если ответ "приближается к нормальному", то исп. ANOVA (буду смотреть у Ребровой)
(б) если ответ "не приближается к нормальному", то вышеуказанный алгоритм

----------
P.S. а что такое "в рамках дисперсионного комплекса"? может это имеется ввиду вкладка post-hoc в диалоге в Statistica... или это не то...?

P.P.S.
натолкнулся на ресурс: http://www.socr.ucla.edu/

Автор: nokh 8.02.2010 - 17:21

Мне дизайн не понятен. К сожалению помочь не смогу. Подождите более догадливых.
Незапланированные сравнения (post-hoc comparisons) - целый спектр методов, некоторые из них можно рассматривать как сравнения "внутри комплекса", некоторые - нет. В любом случае они менее мощные по сравнению с запланированными ортогональными сравнениями (planned comparisons) в которых строятся линейные контрасты между интересующими вариантами.

Автор: Green 9.02.2010 - 17:08

bubnilkin,
У пациента взяли взяли кровь, разделили на 5 частей. 1 контрольная, на 4 воздействовали 4 разными препаратами. И так у 12 пациентов, хотя, где-то материал попортили. Правильно излагаю?

nokh, если так, то это похоже на ириски .

Автор: bubnilkin 9.02.2010 - 17:25

2 Green

Ну, конечно ! Вы всё верно поняли !

Автор: Green 9.02.2010 - 17:56

тогда похоже на ковариационный анализ.
Последнее слово за nokh.

Автор: nokh 10.02.2010 - 08:02

Цитата(Green @ 9.02.2010 - 19:56)

тогда похоже на ковариационный анализ.
Последнее слово за nokh.

Почему за мной? Потому, что я разобрался в ковариационном анализе? Ну тогда спешу Вас обрадовать: это не "кованализ"

. Наиболее эффективно задача решается дисперсионным анализом с повторными измерениями (repeated measures ANOVA).

Автор: Green 10.02.2010 - 16:03

nokh, согласна
я с утра на свежую голову тоже сообразила, что это repeated measures ANOVA. Только никак до форума добраться не могла.

Тут одно только "но" - потерянные данные.
Если часть данных утеряна, то полных ( 5 измерений) будет у нескольких пациентов. А может, и ни у одного

А соответсвенно, если взять контроль и 1 измерение первого реагента от одного пациента, контроль и 1 измерение 2 реагента от другого.... то можно использовать АNCOVA, разве нет?

> Почему за мной?
Потому что Вы уже отвечали автору вопроса.
Потому что одна голова хорошо, а две лучше.
Потому что Вы действительно разобрались в кованализе.
Потому, что я уважаю Ваше мнение.

Автор: Green 10.02.2010 - 16:05

bubnilkin,
сколько человек имеют все 5 измерений?
Сколько данных потеряно?

Автор: bubnilkin 10.02.2010 - 16:56

Цитата(Green @ 10.02.2010 - 16:05)

сколько человек имеют все 5 измерений?

Цитата(Green @ 10.02.2010 - 16:05)

Сколько данных потеряно?

7

Может, тех доноров, у которых не все данные, исключить (хотя жалко)?

А главным основанием отвергнуть ANOVA и принять Repeated Measures ANOVA является связанность/сопряжённость групп?

По группам проверка на нормальность показала, что в некоторых распред-е нормальное, в других -- нет. Как быть в таком случае? ANOVA не подходит?

Потом другой вариант -- проверял на нормальность ВСЕ данные (за 1 раз все скопом), согласно Shapiro-Wilk W=0,93876, p=0,00195 (это, вроде, указывает на ненормальное распределение... и применить ANOVA неправомерно?).

Почему все сразу? Потому что здесь так написано:
плав: "для проведения теста надо знать распределение показателя в популяции, а не в выборке. Поскольку основное допущение дисперсионного анализа - что все группы пришли из одной популяции, то надо анализировать суммарное распределение. Дисперсионный анализ относительно устойчив к небольшим отклонениям от нормального распределения, поэтому если отклонения будут небольшими, можно пользоваться и обычным дисперсионным анализом." ( http://forum.disser.ru/index.php?showtopic=1449&hl=%ED%E0%E7%EE%E9%EB%E8%E2 )
Хотелось бы, правда, ссылочку на источники...

Однако, Levene Test of Homogeneity of Variances показал p > 0.05 (как я понимаю, дисперсии равны), и на основании того, что (хотя там про t критерий Стюдента): "Статистические учебники утверждают, что критерий ?менее устойчив при неравных дисперсиях?, чем при отклонениях от нормальности распределения (Петри А., Сэбин К., 2003, с. 55). То есть проверка равенства дисперсий при использовании критерия Стьюдента является наиболее важным условием его применения." (http://www.biometrica.tomsk.ru/format_4.html) + этот критерий является частным случаем ANOVA (С.Гланц, с. 81), то, выходит, можно применять ANOVA...?

И потом, когда нужно проверять выборки на предмет выбросов и экстремальных значений?

P.S.
Нашёл в Statistica Repeated Measures ANOVA

!!! Сколько там кнопок!!!!!!

Автор: Green 10.02.2010 - 22:59

Пропущенных данных мало.
Вперед, на Repeated Measures ANOVA

Автор: bubnilkin 14.02.2010 - 06:32

Спасибо за помощь !

Но вот ещё вопросик: в другом опыте (дизайн тот же) мы не число клеток считаем, а проценты клеток... В этом случае какой метод нужно использовать ?

Автор: Green 14.02.2010 - 17:38

Bubnilkin, рано благодарить.

К сожалению, если измерения были 1 раз на одного пациента на каждом факторе, то это не повторные измерения. Тогда это рандомизированный полноблочный план.
В общем, посмотрите
Монтгомери, Планирование эксперимента и анализ данных, 1980.
Пример 4.1, стр. 78.

Если это то, что делали Вы... то тогда будем говорить об этом.

Книга есть в Инете. Но в расчетах этого примера - ошибки в вычислениях. Не страшно, но имейте ввиду.

-------
По процентам позже, давайте все таки идентифицируем задачу.

Автор: bubnilkin 15.02.2010 - 10:08

Всё равно, спасибо за обсуждение !

Я посмотрел указанный пример. Я полностью не понял, но мне кажется, там говорится всё-таки о несвязанных группах, а у меня, как Вы верно определили, кровь каждого больного исследовалась один раз, но в разных условиях -- при действии четырёх лекарств и без них, т.е. связь между группами есть [С.Гланц, с.314, с. 308 ("Как мы уже говорили,..."), с.355 ("Каждый больной ровно один раз...", хотя там про непараметрический аналог); справка к Statistica].

Green, как Вы считаете? Другие тоже пусть высказываются по делу.

Да! Я ещё собираюсь, не только 4 лекарства с контролем сравнивать, но и между собой... Это как-нибудь влияет на выбор критерия? (думаю про критерий Даннета)

P.S.
на с.79 у Монтгомери приведена запись "F 0.05; 3; 9 = 3,86". Что такое "3" и "9"? Меж- и внутригрупповые степени свободы? И надо ли так в статьях указывать?

Автор: Green 15.02.2010 - 11:29

Я не просто так написала.

Я ранее делала Repeated Measures(RM) для таких случаев, как, например, у одного пациента берут один и тот же анализ раз в неделю на протяжении мес.

Мне было интересно, как применить RM - к Вашему случаю. Попробовала - не получилось. ( Не выдает статистик, пишет -----)
Тогда почитала еще раз внимательно help к Статистике, разобрала еще раз пример из Статистики... Потом пошла искать у Монтгомери аналог, чтобы разобраться.

У вас 12 образцов крови - так? ( У Монтгомери 4 образца материала)
У вас поделили кровь на 5 частей и воздействуют 4 реагентами ( пятый - нейтральный)
У него аналогично - кусок образца тыкают остриями.

>ещё собираюсь, не только 4 лекарства с контролем сравнивать, но и между собой
Как сделать анализ контрастов в Статистике - я расскажу.

Я бы очень хотела услышать nokh, как правильно вогнать такие данные в RM.
Потому что иначе ничего не будет.

И все таки - по каждому пациенту на каждый фактор - одно измерение?

Автор: bubnilkin 15.02.2010 - 12:05

Цитата(Green @ 15.02.2010 - 11:29)

на каждый фактор - одно измерение?

да

(а факторы = пациенты?)

прошу прощения, а кто "пишет -----" ?

я проверил нормальность (все результаты за 1 раз), в одном случае -- приближенно нормальное в другом -- нет. что делать?

(я, наверное, задаю слишком много вопросов

)

да, nokh, выскажитесь пожалуйста

Автор: nokh 18.02.2010 - 05:43

Цитата(bubnilkin @ 15.02.2010 - 14:05)

...да, nokh, выскажитесь пожалуйста

Я высказался в постах #2 и 4. Мало знать что выборки связанные, а признак - количественный - нужно понимать что с чем связано и как и какое можно предполагать распределение. Ещё раз: опишите ход эксперимента и признаки, чем детальнее тем лучше.

Автор: bubnilkin 18.02.2010 - 12:27

мы решили сравнить действие 4 лекарств между собой и по отношению к контролю

мы взяли кровь человека, разделили на 5 частей: первая -- контроль (без лекарства), вторая -- кровь+лекарство1, третья -- кровь+лекарство2, четвёртая -- кровь+лекарство3, кровь+лекарство4. итого 5 групп.

так мы повторили ещё с 11 людьми, итого 12 людей.

смотрели признак -- число клеток типа А, Б

итого у нас 2 объекта (клетки типов А, Б), для каждго из них есть 5 групп (контроль и 4 лекарства) и 12 человек для всех типов клеток.

клетки типа А
_______________ человек1 человек2... человек12
контроль ...
лекарство1 ...
лекарство2 ...
лекарство3
лекарство4

клетки типа Б
_______________ человек1 человек2... человек12
контроль ...
лекарство1 ...
лекарство2 ...
лекарство3
лекарство4

"нужно понимать что с чем связано..."
я думаю, 5 групп связаны между собой

"...и как"
я не понимаю... что это значит?

"какое можно предполагать распределение" (не знаю, где это можно посмотреть?)

если проверять нормальность по отдельности для каждой из 5 групп: то, например, для клеток типа А для контроля получилось нормальное, для лекарства2 тоже, для остальных нет; клеток типа Б -- по другому

если все вместе, то для клеток типа А-- нормальное, для клеток типа Б -- нет)

ещё я не понимаю, про выбросы -- их нужно/стоит ли выбрасывать и на каком этапе?
вот ещё, ANOVA показала различие с p=,04211. а попарные сравнения с поправкой Бонферрони -- ни одного различия
и каким тестом пользоваться Бонферонни или Ньюмена-Кейлса?

Автор: nokh 18.02.2010 - 23:50

Чтобы сэкономить время не отклоняясь на возможные варианты - выложите здесь свои данные, скажем по клеткам A. Лучше в Excel, в том виде как сами представили:
клетки типа А
_______________ человек1 человек2... человек12
контроль ...
лекарство1 ...
лекарство2 ...
лекарство3
лекарство4

Покручу. Пока не знаю что делать с пропусками и "переварят" ли их программы в дисперсионном комплексе. И не бегите вперёд, до Бонферрони и т.п. ещё очень далеко.
Напишите ещё:
(1) Что такое число клеток? В объёме пробы, в мазке?
(2) Каким софтом для анализа располагаете?

Автор: bubnilkin 19.02.2010 - 10:11

"что делать с пропусками"
(может, если есть пропуск для какого-то больного, то его выкинуть из анализа? и сколько можно так выкидывать, чтобы n достаточное сохранить?)

"Что такое число клеток? В объёме пробы, в мазке?"
...наверное в объёме, но точно не в мазке (для этого типа эксперимента)

"Каким софтом для анализа располагаете?"
Statistica, Excel, R (в R надо долго разбираться)

вспомнил! заключение после статанализа мы делаем для каждого типа клеток. вот только не пойму, если исследуем сначала общий тип клеток, а потом -- подтипы клеток... как быть в этом случае?

"не бегите"
...шеф напирает: "давай статью!" :|

Автор: Green 22.02.2010 - 20:09

nokh, у Игоря в Attestat написано

"При однофакторном дисперсионном анализе с повторными измерениями (repeated measurements ANOVA) предполагается, что результаты наблюдений одного и того же процесса для разных временных уровней представляют собой выборки из нормально распределенных генеральных совокупностей. Эти совокупности имеют свои средние и дисперсии, которые полагаются одинаковыми. Задачей анализа является проверка нулевой гипотезы о равенстве средних рассматриваемых совокупностей."

Ну, мне не верите, Монтгомери не верите, Статистике не верите... Игорю тоже?

Возьмите абстрактный пример и попробуйте его загнать с Статистике в RM-ANOVA.
А то, что они связаны... да, связаны. Только для такого примера....важно ли? В "ирисках" влияние ковариаты устранялось, т.е. один рассасывал медленнее, второй быстрее.
Теперь представьте, 1 рассасывает все ириски... медленно. Другой - тоже медленно. Это будет аналогичный эксперимент как дает bubnilkin. Вы найдете средние скорости рассасывания ириски, но никогда не узнаете, что кто-то рассасывает их намного быстрее. Вот такой эксперимент. Задача то- сравнить ириски по длительности расссывания! А не определить скорость рассасывания.
Конечно, задача bubnikina не кованализ, тут я согласна полностью.

Автор: bubnilkin 23.02.2010 - 08:56

так что же мне делать...?

Автор: Green 23.02.2010 - 09:17

Безусловно, оформить данные как написал nokh.
Я пока вот взяла пример Монтгомери. mg.rar ( 175,61 килобайт ) : 468

Но почему МГ так считает?
Провела типа эксперимента. Одни и те же данные. Два варианта в Statistica.
Величины одни и те же.
RM

main effect

Вопрос названия и соответственно, интерпретации результатов.
Так что RM.

Посмотрела еще Attestat.
опять же написано -
Результаты расчета совпадают с эффектом столбцов в двухфакторном дисперсионном анализе.

Автор: bubnilkin 23.02.2010 - 13:53

Green, Вы обещали "Как сделать анализ контрастов в Статистике..." я старался понять про 1 и -1, но что-то трудно...

а какие литературные источники (рус/англ) мне приводить для обоснования выбора этого стат.метода?

Автор: Игорь 24.02.2010 - 16:29

Цитата(Green @ 22.02.2010 - 21:09)

Если распределения не являются нормальными, при повторных измерениях можно применять непараметрический ранговый критерий Фридмана [Петрович с соавт., с. 130].

Автор: bubnilkin 25.02.2010 - 10:02

Цитата(Игорь @ 24.02.2010 - 17:29)

скажите, пожалуйста, а проверку на нормальность, делать для всех подгрупп сразу (1 значение критерия) или для каждой подгруппы отдельно (5 значений критерия)?

после Фридмана делать Вилкоксона или Манна-Уитни? и будет ли присутствовать эффект множественных сравнений в этом случае?

кто такой Петрович...?

Автор: Игорь 25.02.2010 - 11:26

Цитата(bubnilkin @ 25.02.2010 - 10:02)

скажите, пожалуйста, а проверку на нормальность, делать для всех подгрупп сразу (1 значение критерия) или для каждой подгруппы отдельно (5 значений критерия)?

Сразу для всех.

Цитата(bubnilkin @ 25.02.2010 - 10:02)

кто такой Петрович...?

Петрович М.Л., Давидович М.И. Статистическое оценивание и проверка гипотез на ЭВМ. - М.: Финансы и статистика, 1989.

Автор: bubnilkin 25.02.2010 - 14:04

спасибо !

а если я применяю RM ANOVA или Friedman ANOVA, то мне их 5 раз применять (т.е. для каждой подгруппы) или для всех один...?

и нужно ли проверять на выбросы, и опять-таки, для всех сразу или для каждой подгруппы, т.е. 5 раз?

Автор: Игорь 25.02.2010 - 19:47

Цитата(bubnilkin @ 25.02.2010 - 14:04)

а если я применяю RM ANOVA или Friedman ANOVA, то мне их 5 раз применять (т.е. для каждой подгруппы) или для всех один...?
и нужно ли проверять на выбросы, и опять-таки, для всех сразу или для каждой подгруппы, т.е. 5 раз?

Один.
И выбросы тоже. Только Фридман применяется для выборок равных численностей. Исключая выбросы, вы получите пропуски.
Самое лучшее описание критерия Фридмана - в книге Холлендера и Вулфа (встречалась в формате djvu).

Автор: bubnilkin 26.02.2010 - 14:46

Игорь, спасибо !

Вот еще появились вопросы...! Кто знает/кому не лень/кто хочет помочь, ответьте пожалуйста!

тесты для равенства дисперсий
на с.122 ОЮ Реброва пишет: "привести следующую информацию: - число объектов в каждой из групп; средние значения и СКО изучаемого признака в каждой из групп". Т.е. имеется ввиду, что тест Левена нужно выполнять для каждой группы...?! Тогда как предыдущий шаг (проверка на нормальность) нужно выполнять 1 раз. или тесты для равенства дисперсий тоже сразу для всех данных?

По поводу выбросов
кажется, в statistica реализованы 4 теста для их нахождения при нормальном распределении (Tukey, Grubbs, Normal) и 1 при ненормальном - (Percentile).
Какой тест выбирать для нормального распределения?
Percentile, как я понял, субективен - выбираем n процентов минимальных и максимальных значений выборки. Какой процент отсекать?
И когда эти выбросы выбрасывать? На каком этапе?

после RM ANOVA
каким методом пользоваться после RM ANOVA парным t-критерием с поправкой Бонферрони или теми, которые во вкладке Post-hoc? И нужно ли для последних считать поправку Бонферрон?

"Friedman ANOVA" = "ANOVA Chi Sqr." = "Chi Sqr." ?