Версия для печати темы

Нажмите сюда для просмотра этой темы в обычном формате

Форум врачей-аспирантов _ Медицинская статистика _ Помогите провести сравнительный анализ, пожалуйста!

Автор: Luce 10.09.2008 - 20:56

У меня выборка по разным количественным признакам. Выборку каждого из признаков я проверяла на нормальность распределения по тесту Колмогорова-Смирнова. Часть данных у меня получилась параметрической, часть - нет. А мне необходимо сравнить эти признаки. Так какой тогда мне метод сравнения выбирать: параметрический или непараметрический? Ведь приходится сравнивать две выборки, одна из которых распределена нормально, а другая - нет.
Помогите, пожалуйста!

Автор: DoctorStat 11.09.2008 - 08:08

Т.к. один из признаков распределен не нормально, то следует использовать непараметрические критерии сравнения. Хотя мощность непараметрических критериев меньше параметрических (что плохо), зато они нечувствительны к закону распределения (что хорошо).

Автор: Luce 11.09.2008 - 13:36

Спасибо вам большое))
А как это можно обосновать в тексте, не подскажете?

Автор: DoctorStat 11.09.2008 - 14:27

Обоснование применимости непараметрических методов.
Тест Колмогорова-Смирнова показал, что выборка Х не подчиняется нормальному распределению, а выборка Y подчиняется. Т.к. выборка Х не нормальна, то при сравнении ее с выборкой Y мы не можем использовать параметрические методы, требующие нормального распределения обоих выборок, а должны использовать непараметрические критерии, которые не зависят от закона распределения случайной величины и не требуют нормальности распределения.

Автор: Luce 11.09.2008 - 15:30

Супер! Спасибо)
Скажите, а может мне кто-нибудь ответить на такой вопрос: считаются ли две выборки зависимыми, если данные разных лет одного и того же параметра сравниваются, но при этом это данные получены от разных людей, а не от одних и тех же? К примеру, сравнивают как изменился диалект какой-нибудь деревни. Есть данные 1950 и 2005 годов. Сравниваются записи, полученные от разных людей, но при этом ведь есть зависимость.

Автор: плав 11.09.2008 - 20:40

Цитата(Luce @ 11.09.2008 - 16:30) *
Супер! Спасибо)
Скажите, а может мне кто-нибудь ответить на такой вопрос: считаются ли две выборки зависимыми, если данные разных лет одного и того же параметра сравниваются, но при этом это данные получены от разных людей, а не от одних и тех же? К примеру, сравнивают как изменился диалект какой-нибудь деревни. Есть данные 1950 и 2005 годов. Сравниваются записи, полученные от разных людей, но при этом ведь есть зависимость.

1) Вы, как это обычно происходит, делаете ошибку, путая распределение в выборке с распределением в популяции. Все разговоры о нормальности/ненормальности относятся к популяции, а не к выборке, писать, "распределение в выборке" является ошибкой (на самом деле тестируется гипотеза о том что выборка пришла из популяции с нормальным распределением). Если же Вы настаиваете, что в одной популяции у Вас нормальное распределение, а в другой - нет, то сравнивать нечего, Вы уже сказали, что это разные популяции (более того, посыл, что мы "сравниваем выборки" не правилен, мы тестируем гипотезу о том, что обе выборки пришли из одной популяции). Отсюда совет (кроме просмотра назад форума, там это неоднократно обсуждалось) определитесь с нормальностью/ненормальностью на основании анализа литературы или крупных исследований в той же области и только в крайнем случае прибегайте к тестированию распределения, особенно если размер выборки небольшой (если большой - то тогда по выборке можно делать предположение о характере распределения в популяции).
2) То, что непараметрические критерии не зависят от закона распределения - не совсем так. В этих методах просто абсолютные значения заменяются на ранги , поэтому для ряда не нормальных распределений (с тяжелыми хвостами) непараметрические критерии являются не адекватными
3) В случае, если у Вас несколько деревень, то да, наблюдения являются зависимыми, в анализе это надо будет учитывать, если только одна деревня и разные люди - то нет.

Автор: Luce 11.09.2008 - 21:10

Cпасибо за советы и замечания!
У меня несколько вопросов:
1. Если же Вы настаиваете, что в одной популяции у Вас нормальное распределение, а в другой - нет, то сравнивать нечего
А если популяция одна, но в разные года?

2. Что такое "распределения с тяжелыми хвостами"?

3. В случае, если у Вас несколько деревень, то да, наблюдения являются зависимыми, в анализе это надо будет учитывать, если только одна деревня и разные люди - то нет
У меня "деревня" одна; затем эта же деревня "20 лет спустя". Люди уже другие, конечно. Но мне кажется что это все же зависимая выборка.
Но я никак не могу понять четкой грани между зависимой или независимой выборкой. Может, вы сможете подсказать какие-нибудь ссылки в интернете, где четко прописано что можно считать зависимой, а что - нет.
Заранее спасибо!

Автор: плав 11.09.2008 - 21:30

1) Нет, тут Вы должны понимать разницу между тем, что в статистике понимают под именем популяции - это совокупность объектов одного класса. Т.е. если у Вас разные года, то популяция - жители этого места во все годы и вопрос, на который Вы пытаетесь ответить, можно ли считать (на основании анализа выборки), что в городе (деревне) ничего не изменилось и это одна "популяция" (если хотите, генеральная совокупность) или же что-то поменялось и они теперь на себя же старых не похожи.
2) Распределение с тяжелыми хвостами - распределение, похожее на нормальное, однако в конце распределения находится большее количество наблюдений
3) Насчет зависимой выборки. Обычно вариабельность данных (причину, по которой наблюдения отличаются друг от друга) можно разделить на несколько групп - систематические факторы (изучаемые, внутрииндивидуальные колебания и межиндивидуальные колебания. В том случае, если мы можем отделить внутрииндивидуальные колебания от межиндивидуальных, говорят о зависимых переменных. Простейший вариант - один и тот же параметр измеряется у одного и того же человека. Расчитывая разность, мы устраняем междиндивиуальную вариабельность (например, у первого человека до/после 140/130, у второго 100/90, у третьего 170/160, если просто сравнить первые и вторые цифры - разброс очень большой, если взять разности - вариабельности вообще нет).
Соответственно, в том случае, когда деревня одна, то у всех людей показатель "индивидуальности" один и ничего устранить нельзя - это не зависимые переменные (простой тест - как Вы установите соответствие между человеком в 1950 и 2000? Если однозначного ответа нет, значит не зависимые)

Автор: Luce 11.09.2008 - 21:45

Не могу похвастать, что сразу же поняла всё что Вы написали))
Но, вроде, разобралась, спасибо! Получается, что я должна взять все данные за все года и проверить их на нормальность (если нет крупных исследований на данную тему). Тогда станет ясно, нормально ли распределение в данной популяции (=деревне).
Меня слегка сбивает с толку, видимо, что в статистике под понятием "популяция" имеется несколько иное в виду, чем в биологии (я биолог).
А еще сбивает с толку SPSS - мне легко провести сравнительный анализ, если я беру в расчет, что выборки зависимы. Если выборки независимы и мы, к примеру, используем тест Манна-Уитни, то тогда встает вопрос о том, что в моем случае является при сравнении "Test variable", а что - "rouping variable"/
Но это уже совсем другая история...

Автор: плав 11.09.2008 - 22:23

Цитата(Luce @ 11.09.2008 - 22:45) *
Не могу похвастать, что сразу же поняла всё что Вы написали))
Но, вроде, разобралась, спасибо! Получается, что я должна взять все данные за все года и проверить их на нормальность (если нет крупных исследований на данную тему). Тогда станет ясно, нормально ли распределение в данной популяции (=деревне).
Меня слегка сбивает с толку, видимо, что в статистике под понятием "популяция" имеется несколько иное в виду, чем в биологии (я биолог).
А еще сбивает с толку SPSS - мне легко провести сравнительный анализ, если я беру в расчет, что выборки зависимы. Если выборки независимы и мы, к примеру, используем тест Манна-Уитни, то тогда встает вопрос о том, что в моем случае является при сравнении "Test variable", а что - "rouping variable"/
Но это уже совсем другая история...

Насчет популяции, да, определения разные - повторюсь, можно использовать термин генеральная совокупность.
Test variable - это тот показатель, который Вы сравниваете, Grouping - тот который описывает группы (например, 1950 и 2000 года).

Автор: nokh 11.09.2008 - 22:52

Цитата(Luce @ 12.09.2008 - 00:45) *
...А еще сбивает с толку SPSS - мне легко провести сравнительный анализ, если я беру в расчет, что выборки зависимы. Если выборки независимы и мы, к примеру, используем тест Манна-Уитни, то тогда встает вопрос о том, что в моем случае является при сравнении "Test variable", а что - "rouping variable"/ Но это уже совсем другая история...

Для анализа независимых выборок у вас неправильно организованы данные в файле. Результаты теста нужно расположить не в разных, а в одном столбце, а во втором напротив каждого значения первого столбца проставить соответствующие метки: можно годы 1950 или 2000, можно просто 1 или 2. В отличие от Excel и некоторых редких программ так принято заносить данные в подавляющем большинстве стат. пакетов.

Автор: Luce 12.09.2008 - 00:45

Да, мне уже приходила эта мысль в голову. Но данные были уже сгруппированы в excel, и мне не хотелось делать дополнительной работы.
Но теперь все же придется, видимо)
Всем большое спасибо, вы мне очень помогли!

Форум Invision Power Board (http://www.invisionboard.com)
© Invision Power Services (http://www.invisionpower.com)