Здравствуйте, участники форума!
Прошу помощи по применению критерия Краскела-Уоллиса в программе STATISTICA.
Мне необходимо доказать, что три группы пациентов отличаются по одному признаку.
В программе при обработке данных требуется отметить группирующий признак и анализируемые признаки.
Как разобраться в этих признаках и правильно отметить группы?
Заранее благодарен.
Группируюшщий признак - это качественный признак, по которому Вы ищите различия. Анализируемые - количественные признаки. Иными словами, если Вам надо найти различия в концентрации IgG у пациентов с разной степенью тяжести состояния (удовлетворительное, средней тяжести, тяжелое), то тяжесть состояния (переменная с тремя значениями, например 0,1,2) - группирующий признак, IgG - анализируемый. Если у Вас более 2х групп, то КУ дает ответ на вопрос о том, есть ли различия хотя бы у одной группы (причем сравниваются, обратите внимание, не средние, а медианы). Далее Вы должны использовать попарные сравнения для того, чтобы найти ответ на вопрос - каковы эти различия (отличаются уровни 0-1, 0-2, 1-2?). Поскольку Вы используете непараметрическую статистику, то Вам придется использовать критерий Мэнна-Уитни для попарных сравнений (три сравнения), а пограничное значение доверительной вероятности будет 0,017 (0,05/3, поскольку Вы делаете три сравнения - т.н. подход Бонферонни). Если парные различия будут менее 0,017, Вы признаете, что между медианами групп есть достоверные различия.
Если бы Вы воспользовались параметрическим дисперсионным анализом, Вам бы были доступны другие варианты сранения групп после выявления факта наличия различий между ними (т.н. post hoc тесты). В непараметрическом такой возможности нет, и Вы рискуете пропустить различия даже тогда. когда они существуют.
Обратите внимание на критерий Данна (Bonferroni-Dunn post hoc test). Его подробное описание см. в книге Холлендера и Вулфа. Примеры из области медицины см. у Гланца.
to ortoped74: ситуация здесь такая - 1) наиболее распространенная ошибка, считать, что по выборочному распределению Вы можете определить распределение в популяции (а именно оно важно для определения того, каким методом пользоваться). Иными словами, если у Вас в группах количество людей более 30 и у Вас нет оснований предполагать, что ошибка измерений не случайна, то лучше использовать обычный дисперсионный анализ. Он достаточно устойчив к небольшим отклонениям от нормального распределения и более мощный, чем непараметрика. 2) Непараметрика не спасает от определенных типов ненормального распределения, таких как смешанные распределения (смешанное распределение, когда у Вас две группы, которые превращены в одну, с одинаковыми средними и разными дисперсиями). По опыту, именно смешанные распределения наблюдаются чаще всего в биомедицинских данных. 3) Оценка результатов одинакова вне зависимости от того, пользуетесь ли Вы КУ или обычным дисперсионным анализом. Последовательность всегда одна и та же: 1) выполнить дисперсионный анализ и т.н. омнибусный тест чтобы выяснить, не пришли ли все средние (медианы) из одной популяции 2) Если все из одной популяции, анализ прекращается 3) Если не все из одной, выполняется группа post hoc тестов, выявляющая какие именно группы отличаюся. Для параметрического анализа эти тесты отработаны, для непараметрического - нет (хотя никто не мешает заменить значения и ранги и работать с ними в рамках обычного дисперсионного анализа - КУ - это не что иное, как дисперсионный анализ ранговых значений).
to Игорь: давайте не будем плодить рекламные ссылки из одного поста в другой. Если Вы можете ответить - ответьте (например, путем copy-paste из своей справочной системы). Просят ответ по существу. Хотите ссылками - пожалуйста, страницу или главу и библиографическое (краткое) описание, чтобы человек легко нашел. Кстати о хелпах к программам. Statistica имеет великолепную справочную систему и бесплатный учебник, с примерами в этой системе, описанием статистических методов и т.п., которая, кстати, доступна в режиме on-line и не требует никакой установки. Адрес сайта Статсофта знают, наверное, все в этом форуме
tо плав: Принята критика. Все ссылки удалил.
to ortoped74: Считаю, что для решения Вашей задачи можно применить критерий Данна. Его описание и пример применения содержится на с. 351 книги Гланца С. "Медико-биологическая статистика", изд-во "Практика", 1998. К книге прилагается программа BIOSTAT, с помощью которой данный тест можно посчитать.
to плав: Спасибо за поддержку. Самостоятельно разобраться в статистической обработке данных не очень-то легко, но жуть как интересно. Тогда какими тестами лучше пользоваться (из омнибусных и post hoc)? Достовернее, проще, правильнее?
to Игорь: ссылками тоже обязательно воспользуюсь. Часто одно и то же понятие в разных источниках освящается по разному и понимание его приходит лишь с 3-4 прочтения (особенно когда на словах или пальцах объяснить не кому).
Если речь идет об обычном диспернсионном анализе, то омнибусный тест - критерий F Фишера. Насчет post hoc тестов единодушия среди экспертов нет. Бонфероннии считается очень консервативным (т.е. легко пропустить различия, если они сущетсвуют), Шиффе - в принципе просто попарный t-тест. Создатели SAS, а за ними и статистики работающие в этой системе любят тест Данкана, однако большинство склоняются к использованию Ньюмена-Койлса и HSD Тьюки (HSD хорошо расшифровывается - "честно значимые различия"). В принципе, поскольку времени это занимает не много, лучше прогнать несколько тестов и, если они все дают одинаковй результат - значит он правильный.
М-м-м... Если распределение признака в популяции неизвестно, то как можно считать, что популяция настолько гомогенна, что взяв выборку вы не совершили ошибку отбора? Я понимаю, что это вопрос риторический, но если подходить к исследованию с нормальных научных позиций, то пока Вы не изучили распределение признака в группе здоровых лиц, дальше двигаться нельзя.
Теперь с небес на землю. Ваш подход является разумным, и, более того, в случае сравнения двух групп часто рекомендуют использовать сразу тест Мэнна-Уитни, ибо его мощность примерно равна мощности t-теста, а предположений о нормальности распределения он не требует (правда, это не спасет Вас от проблем со смешанными распределениями). Однако обсуждавшийся в этой ветке случай несколько иной - сравнивается несколько групп. И вот тут использование непараметрики приводит к проблеме отсутствия тестов, аналогичных post hoc тестам и, соответственно, резкой потере мощности (т.е. Вы не найде различий даже если они есть). Поэтому необходимо балансировать опасность от использования параметрики на распределении, отличающемся от нормального и потере мощности. Учитывая тот факт, что дисперсионный анализ в принципе устойчив к небольшим отклонениям от нормальности, я бы рекомендовал в ситуации, описанной выше использовать дисперсионный анализ с адекватными post hoc тестами.
У меня была аналогичная ситуация. Мне требовалось проверить статистическую значимость различий между четырех групп с ненормальным распределением. Сначала я использовал критерий Краскала-Уоллиса, а для попарного сравнения критерий Данна. Я прочитал о нем у Гланца, а для рассчета использовал программку, которая прилагается к его книге! Обошелся без параметрики.
А можно поинтересоваться, каким образом удалось доказать, что критерий Данна был именно тем, что был нужен в данном случае? Из того, что после подстановки цифр в формулу получились некоторые величины еще не следует, что они правильные... Вы сравнили мощность (в вычислительном эксперименте) для выборок Вашего размера? Или еще как? Не хочу придираться, но пример по типу "я воспользовался критерием ХХХ и у меня получился результат" не убедительный, критерии выбираются на основе теоретических расуждений или (лучше) вычислительных экспериментов. Так вот, повторюсь, большого выигрыша от использования непараметрики в дисперсионном анализе нет (это уже я проверял в вычилительном эксперименте - если кто не верит, возьмите, сгенерируйте популяцию в сотню тысяч объектов, затем берите оттуда случайные выборки и рассчитывайте достоверность различий между ними разными методами) и вообще увлечение непараметрикой это просто попытка прикрыть дефекты дизайна исследования (основной и убийственный вопрос для непараметрики - а почему распределение не нормальное? дело в том, что при случайной вариабельности ошибка должна подчиняться нормальному закону (или данные должны быть нормализуемыми - как я уже писал выше, непараметрика это часто нормализация путем замены значений на их ранговые номера). Если это не так, то, скорее всего, в данных присутствует неслучайный источник вариабельности, а, значит, вся простейшая статистическая обработка (которая предполагает только случайную вариабельность как источник различий) является сомнительной. И, кстати, а все ли, кто пользуется непараметрикой в таблицах анализа указывают медиану и межквартильное расстояние вместо средних и в диссертации пишут "медианные значения групп составляли..." или пишут все-таки "средние значения составляли..." смешивая французский с нижегородским?
1. Про всех, кто пользуется непараметрикой, сказать, разумеется, не могу, но лично я в тексте и таблицах при использовании непараметрики указываю именно медиану и межквартильный интервал, а на графики делаю в виде ящиков с усами (min и maх).
2. Про распределение. Проверка полученных выборок на нормальность в подавляющем большинстве случаев дает отрицательный результат. Возможно, ненормальность распределения в моем случае связана именно с небольшим количеством наблюдений (10-15) в группах. При этом в популяции распределение, может быть, и подчиняется нормальному закону, но проверить это нельзя, т.к. исследования стоят достаточно дорого и проверка займет много времени. Так вот, если подходить формально, получается, что у меня нет оснований использовать параметрику, т.к. распределение ненормальное (покрайней мере в выборках).
3. Про критерий Данна. Сначала я использовал критерий Краскала-Уоллиса для выявления статистически значимых различий четырех выборок. А критерий Данна использовал для того, чтобы определить, между какими именно группами имеются различия.
4. Про мощность. Мощность, или чувствительность, критерия я не сравнивал, т.к. не знаю других непараметрических критериев, кроме критерия Данна, для множественного сравнения групп с различным числом наблюдений. Если подскажите другие критерии, применимые в моем случае, и как сравнить их мощность (если я правильно понимаю, она же чувствительность) буду очень Вам признателен!
1. Good for you! А что на этот счет говорит научный руководитель? Если серьезно, по нашему опыту замена медиан на средние в докладах и тексте самая распространенная ошибка при использовании непараметрики
2. Проблема в том, что для критерия важно не распределение в выборке, а в популяции. Оригинально У.Госсет (Стьюдент) делал свой критерий для анализа выборок в 4 наблюдения (попробуйте проверить распределение 4 наблюдений). Поэтому оснований для замены параметрики на непараметрику также нет. Учитывая более низкую мощность непараметрики повышается вероятность ошибки второго рода. Но если, Вы сделали так, то сильного криминала нет, просто я хочу сказать, что Ваш пример не означает, что подобный подход является единственно правильным. Вообще-то если бы Вы повторили расчеты параметрическим дисперсионным анализом и получили те же результаты, то тогда можно было бы быть уверенным, что все хорошо, а вот если бы были расхождения - надо было бы думать. У непараметрики есть еще один серьезный дефект - Вы не можете оценить доверительные интервалы (вообще-то можете, но большинство программ этого не делают), а доверительные интервалы сейчас являются de facto стандартом представления данных.
3. Правильно, но тест Данна не что иное как тест Бонферрони для непараметрических сравнений (см. выше по поводу Бонферрони).
4. Есть разные варианты теста Данна, вместо Крускала-Уоллеса можно использовать Ван-дер-Ваардена, есть и другие варианты, однако самое главное, что следует из 2-3, при переходе от параметрики к непараметрике Вы теряете информацию. Непараметрика не использует всю информацию, которая есть в выборке. Для непараметрики сравнение А и Б с А=1,2,3 и Б=4,5,6 аналогична А=1,2,3 и Б=24,25,26, хотя, взгляд на цифры, я думаю, убедит Вас, что второй вариант все-таки значительнос отличается от первого... В принципе, каждый исследователь выбирает то, что он считает правильным, просто должен быть готов отстоять свой выбор и, фраза "использовали параметрический дисперисонный анализ, поскольку известно, что он достаточно устойчив к отклонениям от нормальности" лучше (на мой вкус), чем фраза "использовали критерий Данна, так как других не знаем, а непараметрикой пользовались, поскольку выборка была маленькая, а о генеральной совокупнсоти ничего не знаем". В последнем случае, злобный рецензент должен сказать - "пойдите, узнайте больше об объекте исследования и тогда возвращайтесь, ибо иначе ваши данные все равно никуда не годятся - 15 человек из генеральной совокупности неизвестной гетерогенности могут быть не репрезентативными и, соответственно, все результаты бессчмысленны". Предстваьте себе случайную выборку 10 детей в возрасте от 0 до 18 и распределение их роста и сравните две случайно выбранные группы по 10 детей по росту... Нет, тут и параметрика не поможет, я просто хочу сказать, что защита "у нас мало наблюдений" - это не защита. К этому вообще лучше внимания не привлекать, ибо от Вас никто не требует защищаться/публиковаться - Вы это делаете сами, когда считаете, что эксперимент завершен.
Прочитав Ваш ответ, я вспомнил, что многие солидные журналы, например Nature, Science и др., печатают статьи, где используют критерий Стьюдента при сравнении групп из 4-5 наблюдений и почти нет непараметрики! Нда...
Получается, что непараметрикой нужно пользоваться тогда, когда на большом количестве наблюдений доказано, что распределение действительно ненормальное, а в идеале, наверное, еще нужно объяснить, почему оно ненормальное. Так?
Конкретный пример. Есть две серии из 10 наблюдений (а в экспериментальной медицине редко ведь делают выборки большего объема!). Анализировался какой-нибудь мало известный показатель клеточной функции, большие выборки по этому показателю никто не делал (как, например, для роста, веса и проч.). Проверяю нормальность в группах и получаю, что распределение ненормальное (критерий Шапиро-Уилка, P=0.001) и, кроме того, дисперсии не одинаковые (а на сколько я понимаю, нормальности распределения и равенство дисперсий сравниваемых групп - это два необходимых условия для использования параметрики). И что? Все равно надо использую параметрический дисперисонный анализ, т.к. он "достаточно устойчив к отклонениям от нормальности" (обычно говорят "к небольшим отклонениям от нормальности")? или забраковать все исследования из-за нерепрезентативности выборок (а о какой репрезентативности можно говорить, если выборки из 4 наблюдений - см. выше)? или все же можно воспользоваться непараметрическими критериями, которые не нуждаются в предположениях о типе распределения? Пусть в случае нормальности распределения непараметрика несколько повышает ошибку второго рода, но, с другой стороны, она ведь защищает от случая, когда параметрикой действительно пользоваться нельзя!
Диалог 1:
- Вы сравниваете группы из 10 наблюдений. На каком основании использовали параметрику? Вы не имеете представления о характере распределения и не можете его проверить, к тому же дисперсии в сравниваемых группах не равны.
- Потому что параметрика устойчива к отклонению от нормальности.
Диалог 2:
- Вы сравниваете группы из 10 наблюдений и используете при этом непараметрику. Вы убедились в ненормальности распределения?
- Ввиду малого числа наблюдений [а 10 это больше, чем 4! см. выше], когда невозможно однозначно сказать о характере распределения, были использованы непараметрические критерии, не учитывающие характер распределения.
Какая защита Вам кажется более убедительной?
Еще я хотел спросить: я описал выборки с помощью медианы и межквартильного интервала, а затем оценил различия между ними, применив непараметрический критерий, например критерий Манна-Уитни, и в результате выявил, что различия статистически значимы. Например, медианное значение показателя в группе А составило 100 единиц, а в группе В - 200.
Можно ли при этом сказать, что медианное значение показателя в группе В в 2 раза превышало медианное значение показателя в группе А (или медианное значение в группе В на 100% превышало медианное значение в группе А), или такое сравнение допустимо только для выборочных средних при условии нормального распределения?
Если я использовал критерий Уилкоксона для парных сравнений, можно ли различия представить как разность медиан двух групп, или критерий Уилкоксона позволяет сказать, что есть различия между этими группами и все, а количественно выразить эти различия нельзя (как, например, при использовании парного критерия Стьюдента)?
По скольку указание доверительных интервалов является стандартом представления данных, как подсчитать доверительный интервал для медианных значений групп и, если такое в принципе возможно, доверительный интервал для изменения медианных значений?
В сети мне попался такой вариант описания: "показатели были снижены на 46% (вероятность 0,54, 95% доверительный интервал 0,29-0,98, р=0,045)". Корректна ли данная запись? Что означает "вероятность 0,54"? - это чувствительность критерия, вероятность обнаружить такие-то различия при заданном значении альфа, объеме выборке? Значит ли, что в этом примере вероятность нулевой гипотезы будет 1-0,54? Можно ли приведенную цитату понимать так: "Выявлены статистически значимое (при условии, что альфа 0,05, разумеется) уменьшение показателя на 46%. Вероятность обнаружить такое изменение составляла 54%. С 95% надежностью можно утверждать, что снижение происходит не менее, чем на 29% и не более чем на 98%". Я прав? Можно ли эту запись принять за образец описания результатов? Нужно ли в диссертации указывать доверительный интервал для выборочного среднего или достаточно привести доверительный интервал для разности средних?
Что-то диалог затянулся... Но все-таки повторюсь,
1) Утверждать, что в том случае, если распределение не нормальное можно пользоваться непараметрикой (понимая под этим раногвые критерии) ошибочно. В случае неравенства дисперсий речь чаще всего идет о выборке из смешанного распределения на котором "непараметрические" критерии врут так же, как и параметрические (спасение - использование винзоризированных или обрезанных средних с методами boostrapping, см Wilcox. Applying Contemporary Statistical Techniques). Соответственно, в Вашем случае непараметрика ни от чего не защищает.
2) Оба диалога кажутся неубедительными, поскольку за люым из них следует убийственный аргумент "А как Вы вообще могли считать показатели средней тендеции, если Вы ничего не знаете о своей популяции - вполне возможно, что у Вас популяция состоит из 10 разных групп, из кажой из которых Вы взяли по одному образцу и теперь считаете среднюю (медианную) температуру по больнице". 4 наблюдения могут быть репрезентативными в случае высокогомогенной популяции (лампочки, произведенные в одну смену), а 100 могут быть нерепрезентативными (выборка из популяции людей разного пола в возрасте от 0 до 100 лет). Что касается экспериментальной медицины - не согласен, там выборки часто бывают большими или популяция гомогенной (клеточные линии) - тогда и 4 наблюдения репрезентативны (для данной клеточной линии).
3) насчет вопросов - на самом деле все можно, и разность считать и отношения - только вот интерпретировать их так же как средние нельзя (просто нарисуйте сильно скошенное распределение, отметьте там медиану и другое, скошенное в противоположную сторону, а потом попробуйте проинтерпретировать результаты, что следует из того, что медиана на 100 единиц выше во втором случае? при этом 75% значений в группах перекрываются? моды близки? и т.п.) Большинство людей, описывая свои данные предполагают, что они имеют дело с симметричным распределением... Расчет доверительных интервалов для медиан дело, в принципе, не сложное. Надо найти таблицу биноминальных распределений (используется для критерия знаков) и определить те значения, которые соответствуют 2.5% и 97.5% всех случаев для данного числа испытаний. Это порядковые номера в отсортированном списке значений. Например, для 10 наблюдений пограничные значения составляют 2 и 9, соответственно нижняя границу ДИ - второе значение, верхняя - 9 (т.е. в последовательности 1 2 3 3 3 4 4 4 5 6) 95% ДИ для медианы составит 2-5. Расчет для разностей сложнее, особенно, если это не связанные совокупности. В качестве варианта можно воспользоваться boostrap-оценками. Тут придется писать программу в какой-нибудь из систем статистической обрабоки (пример в SAS, но для средних описан в Плавинский С., Биостатистика, стр. 220-223), для медиан надо просто заменить ключевое слово MEAN на MEDIAN (если версия SAS больше 8)), другие примеры можно найти у уже упоминавшегося Wilcox. Кстати, boostrap с t-критерием вообще лучшее решения для Вашей проблемы (по крайней мере наиболее современное), по крайней мере это показал Wilcox в своей работе (правда, может потребоваться работать с винзоризированными средними и надо достаточно хорошо знать программирование в какой-нибудь статистической системе, у Wilcox это S/R)
Большое Вам спасибо за развернутый комментарий и ответы на вопросы! Вы мне очень помогли! )
Раздобыл SAS, "Биостатистику" Плавинского С.Л. - пытаюсь разобраться в этой системе...
С уважением,
to плав:
Как Вы считаете, нужно ли (если да, то зачем?) в тексте диссертации и таблицах, помимо точного значения Р, указывать еще и вычисленное значение критерия, или P достаточно?
Каким образом можно рассчитать чувствительность (1-бета) для критерия Краскела-Уоллиса, Манна-Уитни (U) и Уилкоксона (W)? Дело в том, что я не получил стат. значимых различий и хотел бы проверить, какова при этом была чувствительность методов в моем случае.
Чем отличается критерий Стьюдента в аппроксимации Саттервайта от Стьюдента в аппроксимации Кокрена?
Как потребовать Стьюдента-Кокрена в SAS?
1) лучше - только точные значения р (значение статистики - избыточная информация в данном случае)
2) макро UnifyPow в SAS (описано в Биостатистике), возможности и пример http://www2.sas.com/proceedings/sugi22/STATS/PAPER287.PDF
либо программа Nquery версии 5. PROC POWER позволяет сделать анализ мощности ttest
можно также найти Noether, GE (1987). Sample size determination for some common nonparametric tests. JASA 82:645-647.
Либо компьютерной стимуляцией (с непараметрикой есть проблема - а какое было распределение? для каждого результаты будут немного разные. Ориентировочно МУ - 0,955 от t-теста). Судя по ранее обсуждавшемуся количеству наблюдений - чувствительность низкая
3) опция Cochrane в proc ttes:
PROC TTEST COCHRAN DATA=smoking;
CLASS west;
VAR kidney;
RUN;
Тест Кохрана-Кокса (Cohran-Cox) использует аппроксимацию t-значения (t=(w1*t1+w2*t2)/(w1+w2), где t1 и t2 - критические значения t-распределения при численности выборок n1 и n2, w1=s1^2/n1, w2=s2^2/n2
Тест Саттервайте (Satterthwaite) модифицирует количество степеней свободы: df=(w1+w2)^2/(w1^2/(n1-1)+w2^2/(n2-1))
Детали тут
http://v8doc.sas.com/sashtml/stat/chap67/sect16.htm
to плав:
Мне необходимо сравнить средние трех независимых групп. Распределение во всех группах нормальное, т.е. в принципе можно было бы воспользоваться параметрическим однофакторным дисперсионным анализом. Однако в книжке О.Ю. Реброва "Статистический анализ медицинских данных" написано, что обязательным условием применимости данного статистического метода является не только нормальное распределение в группах, но и равенство дисперсий всех сравниваемых групп (т.е. те же два условия, что и для критерия Стьюдента). В то же время в книжке С. Гланца о необходимости равенства дисперсий ничего не говорится - обязательно только нормальное распределение (о равенстве дисперсий речь идет только в главе, где описывается критерий Стьюдента).
Скажите, пожалуйста, кому верить? Обязательно ли должны быть равны дисперсии в группах для применения параметрического дисперсионного анализа?
И еще одно противоречие: у Реброва написано, что для применения парного критерия Стьюдента требуется нормальное распределение и равенство дисперсий сравниваемых групп, а у Гланца написано, что для применения парного критерия Стьюдента важно лишь нормальное распределение разностей пар. Я запутался...
При неравенстве дисперсий можно пользоваться t-тестом для случая неравных дисперсий (это же подробно обсуждалось выше!), хотя формулы уже иные, так что Реброва, в принципе, права, и Гланц, в принципе, прав
Дисперсионный анализ переносит небольшие отклонения от нормальности распределения и неравенство дисперсий, однако он с трудом переносит неравенство дисперсий при разной численности групп. Соответственно, необходимо проверить гипотезу о равенстве дисперсий (делается это обычно при помощи теста Левена (Leven), поддерживаемого SAS и SPSS (возможно и другими программами), хотя можно использовать и другие). Тесты этого типа "работают" только в случае диперсионного анализа с одним фактором (Ваш случай)
Если дисперсии не равны - необходимо использовать специальные варианты дисперсионного анализа - либо тест Уэлша (Welsh), либо методику взвешенны средних квадратов.
SAS позволяет реализовать все эти возможности, при этом процедура MIXED позволяет анализировать ситуацию неравных дисперсий без дополнительного программирования. Детальное описание подходов см. http://www.uoregon.edu/~robinh/glm10_homog_var.txt
Однако позволю себе еще раз привлеь внимание к опасности определения популяционных параметров (дисперсии) на основании выборки словами Дж.Бокса "Использование [этих тестов] равноценно попытке отправить из порта шлюпку, чтобы на ней посмотреть, достаточно ли спокоен океан для выхода круизного лайнера"
to плав:
Как Вы считаете, можно ли использовать для попарного сравнения трех групп между собой тест Ньюмена-Кейлса, если известно, что дисперсии в этих группах не равны?
Почему при вычислении P с помощью одного и того же критерия, но при использовании различных стат. пакетов, в частности Statistica 6.0 и SAS 9, получаются разные числа: например, при использовании критерия Левена в Statistica 6,0 P = 0,007, а в SAS 9 (при тех же самых исходных данных) - 0,092. Таких примеров много. Чему верить?
Нет, нельзя, post hoc тесты аналогичные Н-К требуют равных дисперсий. Если Вы убеждены, что в популяции дисперсии не равны, используйте методику, описанную в разделе 6 ссылки, которую я давал в предыдущем ответе. Код SAS
ODS OUTPUT DIFFS=dfs(drop=effect alpha);
ODS EXCLUDE diffs;
PROC MIXED DATA=new;
CLASS group grp; * кодировка grp=0 для переменной group=1 & 2;
* grp=1 для group=3;
MODEL y= group / solution ddfm=satterthwaite;
REPEATED / group=grp; * анализ модели с неравной дисперсией, коррекция по Саттервайте;
LSMEANS group / diff ADJUST=simulate(seed=92953) cl;
RUN;
Столбец adjp и будет содержать значения достоверности попарных различий
Теперь по поводу различий между Statistica и SAS. Различия такого размера в двух приличных статистических программах быть не могут. Либо сравнивается что-то не то, либо - что более вероятно, ошибка в данных. Поскольку ввод и управления данными в SAS нескольку сложнее, я бы начал проверять правильность ввода и кодирования данных в SAS. Теперь просьбы - если будут еще вопросы по соотношению SAS и Statistica - создать новую тему, эта уже стала очень большой и уходит от первоначального вопроса
to плав:
У меня возникли трудности при оформлении использованных методов стат. обработки.
Если групп две при нормальном распределении и равных дисперсиях - критерий Стьюдента.
Если групп две, распределение нормальное, но неравны дисперсии - критерий Стьюдента в аппроксимации Саттертвайта.
Если групп несколько, нормальное распределение и равные дисперсии - однофакторный дисперсионный анализ, далее тест Ньюмена-Кейлса для попарных сравнений.
Если групп несколько, нормальное распределение, но дисперсии не равны - однофакторный дисперсионный анализ в аппроксимации Уэлча. А как правильно по-русски назвать post hoc тесты, которые можно использовать в этой ситуации, о которых Вы говорили в предыдущем ответе? (По автору или ещё как-то?)
Извиняюсь за дилетантские вопросы.
Господа, хочу поблагодарить участников разговора.
Не предполагал, что мой вопрос о критерии Краскела-Уоллиса инициирует обсуждение возможностей и правил применения параметрических и непараметрических критериев.
Следя за разговором, выяснил параллельно и другие волнующие меня вопросы.
Подскажите, а Statistica от Статсофта считает критерий Данна? Критерий Краскела-Уоллиса нашёл и посчитал (у меня 8 версия), а Данна не могу найти. Не может ведь быть такого, чтоб не включили его, учитывая цену ПО. Может он как-то по другому называется?
И ещё хотел спросить, как правильно в статье сослаться на результаты расчёта Краскела-Уоллиса и Данна, нет ли у кого ссылочки на статью (желательно англоязычную) с их использованием?? Думаю что просто указать p явно мало...
Спасибо. Вот они извратились, а я ищу его... ищу! Сейчас воспользовался. Возник ещё 1 уточняющий вопрос. У меня 3 группы (1 контроль и 2 эксперимента). Краскела-Уоллиса критерий показал значимые различия. теперь с помощью критерия Данна надо попарно сравнивать или все 3 группы сразу? попробовал и так и так - разный результат получается
Пожалуйста,помогите рассудить спор: обследовано 2 группы пациенток по 40 человек. В каждой группе всем пациенткам 3 раза за беременность изучали параметры АД (непараметрика). Для выявления различий между уровнями АД в 20, 30 и 36 недель беременности необходимо применять тест М-У. А рецензент делает замечание о необходимости применения Н критерия Крускала Уоллиса для сравнения АД между группами согласно срокам беременности.Разве он прав?
Спасибо за ответ, в том то и дело, что сравнить надо между собой 2 группы по 3 обследуемым точкам. В отношении внутригрупповых сравнений - нужно применять анализ повторных измерений Фридмана. Причем тут тест Крускала-Уоллиса????
Накипело... Я написал статью, в которой показываю как использовать именно нелинейные главные компоненты, чтобы иметь возможность грамотно обчитать определённый тип данных. А рецензент мне говорит, что так считать нельзя, т.к. главные компоненты подразумевают линейность связей. Тоже приходится писать не то ответ, не то лекцию...
А применительно к вашим данным мне не нравится идея сравнивать попарно на каждом сроке. Вместо одного ответа о межгрупповых различиях в динамике АД во время беременности вы отвечаете трижды. Это, во-первых, увеличивает ошибку первого рода, а во-вторых снижает мощность исследования. Я бы считал здесь дисперсионным анализом с повторными измерениями - так получится проанализировать весь материал одновременно, что приведёт к уменьшению ошибки и росту мощности, а ответ о различии динамик проявится в виде значимости/незначимости взамодействия факторов Группа * Срок. Если распределение ненормальное можно преобразовать логарифмированием или Боксом-Коксом. Когда победите рецензента попробуйте на будущее такой вариант анализа.
Добрый день! Столкнулся с такой проблемой. При проведении сравнительного анализа трех независимых групп критерием Краскела-Уоллиса в STATISTICA по некоторым параметрам значения р были менее 0.05. Но при проведении попарного сравнения методом Данна в этом же модуле программы все значения р оказываются более 0.05. Возможно ли такое? Как тогда корректно описать такой результат?
Доброго времени.
Подскажите, пожалуйста:
1) вот критерием К-У выявил достоверность/недостоверность различий между тремя группами, далее там в программе статистика можно попарно сравнить группы между собой и выявить Н и р при парных уже сравнениях---как при этом трактовать результаты попарных сравнений внутри критерия К-У--? можно ли пользоваться такими попарными данными?-может это уже как критерий Манна-Уитни? или что это?
2) как лучше записывать результаты К-У---пример:"результаты между тремя группами были достоверно различимы (Н=....;df=...; р=0,014)"--или только (р=0,014)-?
3) иногда результаты К-У (сравнивая три группы) показывают уровень достоверности р=0,0000 (и всё--без какого-либо числа)----как данное трактовать и как записать в результат-пример:"различия были достоверны (р=0,0000)---корректна ли такая запись-? (или должно быть какое-то число, кроме 0 )
Уважаемый doc2012!
1. Попарные сравнения не внутри, а после К-У. Если нуль гипотеза отвергнута, то вас, наверное, интересует между какими именно группами имеется статистически значимое различие. Результаты попарных сравнений так и трактуются р1-2, р1-2 и р2-3 предоставляются в модуле множественные сравнения. Программы выдает вам 3 значения z и три значения р ( в виде симметричной матрицы). Как рассчитывается z и p подробно, с формулами и со ссылкой даны в хелпе программы. Так, что в М-У переходить не следует, коды в К-У вводятся для обозначения групп, которые требуется сравнить, ведь их может быть больше 3-х, например 5, я вы хотите сравнить только 3. А вот если их только две, пожалуйте в М-У.
2. То, что вы называете достоверность, таковой не является, подумайте сами, как воспринимается исследование, достоверность которого близка к нулю.
3. По поводу оформления, есть такая книга Ланга и Сесика ?Как описывать статистику в медицине?, раньше я пользовалась английской версией, точно есть в сети, но сейчас она издана на русском языке, перевод под редакцией В.П. Леонова .
4. Вы прицепили свои вопросы в ветке, где дискуссия закончилась рекомендациями аналогичными тем, которые вы получили в соей собственной ветке, где также было высказано обоснованное мнение в пользу параметрического дисперсионного анализа. В связи с этим у меня вопрос, вы 7 раз будете использовать К-У, в каждой временной точке?
Спасибо, DoctorStat! кавычки у меня не получаются и тире тоже в виде вопросительного знака, но у меня еще дружественная улыбка была, адресованая Леонову
Благодарю!
Форум Invision Power Board (http://www.invisionboard.com)
© Invision Power Services (http://www.invisionpower.com)