Помощь - Поиск - Пользователи - Календарь
Полная версия этой страницы: Помогите провести сравнительный анализ, пожалуйста!
Форум врачей-аспирантов > Разделы форума > Медицинская статистика
Luce
У меня выборка по разным количественным признакам. Выборку каждого из признаков я проверяла на нормальность распределения по тесту Колмогорова-Смирнова. Часть данных у меня получилась параметрической, часть - нет. А мне необходимо сравнить эти признаки. Так какой тогда мне метод сравнения выбирать: параметрический или непараметрический? Ведь приходится сравнивать две выборки, одна из которых распределена нормально, а другая - нет.
Помогите, пожалуйста!
DoctorStat
Т.к. один из признаков распределен не нормально, то следует использовать непараметрические критерии сравнения. Хотя мощность непараметрических критериев меньше параметрических (что плохо), зато они нечувствительны к закону распределения (что хорошо).
Luce
Спасибо вам большое))
А как это можно обосновать в тексте, не подскажете?
DoctorStat
Обоснование применимости непараметрических методов.
Тест Колмогорова-Смирнова показал, что выборка Х не подчиняется нормальному распределению, а выборка Y подчиняется. Т.к. выборка Х не нормальна, то при сравнении ее с выборкой Y мы не можем использовать параметрические методы, требующие нормального распределения обоих выборок, а должны использовать непараметрические критерии, которые не зависят от закона распределения случайной величины и не требуют нормальности распределения.
Luce
Супер! Спасибо)
Скажите, а может мне кто-нибудь ответить на такой вопрос: считаются ли две выборки зависимыми, если данные разных лет одного и того же параметра сравниваются, но при этом это данные получены от разных людей, а не от одних и тех же? К примеру, сравнивают как изменился диалект какой-нибудь деревни. Есть данные 1950 и 2005 годов. Сравниваются записи, полученные от разных людей, но при этом ведь есть зависимость.
плав
Цитата(Luce @ 11.09.2008 - 16:30) *
Супер! Спасибо)
Скажите, а может мне кто-нибудь ответить на такой вопрос: считаются ли две выборки зависимыми, если данные разных лет одного и того же параметра сравниваются, но при этом это данные получены от разных людей, а не от одних и тех же? К примеру, сравнивают как изменился диалект какой-нибудь деревни. Есть данные 1950 и 2005 годов. Сравниваются записи, полученные от разных людей, но при этом ведь есть зависимость.

1) Вы, как это обычно происходит, делаете ошибку, путая распределение в выборке с распределением в популяции. Все разговоры о нормальности/ненормальности относятся к популяции, а не к выборке, писать, "распределение в выборке" является ошибкой (на самом деле тестируется гипотеза о том что выборка пришла из популяции с нормальным распределением). Если же Вы настаиваете, что в одной популяции у Вас нормальное распределение, а в другой - нет, то сравнивать нечего, Вы уже сказали, что это разные популяции (более того, посыл, что мы "сравниваем выборки" не правилен, мы тестируем гипотезу о том, что обе выборки пришли из одной популяции). Отсюда совет (кроме просмотра назад форума, там это неоднократно обсуждалось) определитесь с нормальностью/ненормальностью на основании анализа литературы или крупных исследований в той же области и только в крайнем случае прибегайте к тестированию распределения, особенно если размер выборки небольшой (если большой - то тогда по выборке можно делать предположение о характере распределения в популяции).
2) То, что непараметрические критерии не зависят от закона распределения - не совсем так. В этих методах просто абсолютные значения заменяются на ранги , поэтому для ряда не нормальных распределений (с тяжелыми хвостами) непараметрические критерии являются не адекватными
3) В случае, если у Вас несколько деревень, то да, наблюдения являются зависимыми, в анализе это надо будет учитывать, если только одна деревня и разные люди - то нет.
Luce
Cпасибо за советы и замечания!
У меня несколько вопросов:
1. Если же Вы настаиваете, что в одной популяции у Вас нормальное распределение, а в другой - нет, то сравнивать нечего
А если популяция одна, но в разные года?

2. Что такое "распределения с тяжелыми хвостами"?

3. В случае, если у Вас несколько деревень, то да, наблюдения являются зависимыми, в анализе это надо будет учитывать, если только одна деревня и разные люди - то нет
У меня "деревня" одна; затем эта же деревня "20 лет спустя". Люди уже другие, конечно. Но мне кажется что это все же зависимая выборка.
Но я никак не могу понять четкой грани между зависимой или независимой выборкой. Может, вы сможете подсказать какие-нибудь ссылки в интернете, где четко прописано что можно считать зависимой, а что - нет.
Заранее спасибо!
плав
1) Нет, тут Вы должны понимать разницу между тем, что в статистике понимают под именем популяции - это совокупность объектов одного класса. Т.е. если у Вас разные года, то популяция - жители этого места во все годы и вопрос, на который Вы пытаетесь ответить, можно ли считать (на основании анализа выборки), что в городе (деревне) ничего не изменилось и это одна "популяция" (если хотите, генеральная совокупность) или же что-то поменялось и они теперь на себя же старых не похожи.
2) Распределение с тяжелыми хвостами - распределение, похожее на нормальное, однако в конце распределения находится большее количество наблюдений
3) Насчет зависимой выборки. Обычно вариабельность данных (причину, по которой наблюдения отличаются друг от друга) можно разделить на несколько групп - систематические факторы (изучаемые, внутрииндивидуальные колебания и межиндивидуальные колебания. В том случае, если мы можем отделить внутрииндивидуальные колебания от межиндивидуальных, говорят о зависимых переменных. Простейший вариант - один и тот же параметр измеряется у одного и того же человека. Расчитывая разность, мы устраняем междиндивиуальную вариабельность (например, у первого человека до/после 140/130, у второго 100/90, у третьего 170/160, если просто сравнить первые и вторые цифры - разброс очень большой, если взять разности - вариабельности вообще нет).
Соответственно, в том случае, когда деревня одна, то у всех людей показатель "индивидуальности" один и ничего устранить нельзя - это не зависимые переменные (простой тест - как Вы установите соответствие между человеком в 1950 и 2000? Если однозначного ответа нет, значит не зависимые)
Luce
Не могу похвастать, что сразу же поняла всё что Вы написали))
Но, вроде, разобралась, спасибо! Получается, что я должна взять все данные за все года и проверить их на нормальность (если нет крупных исследований на данную тему). Тогда станет ясно, нормально ли распределение в данной популяции (=деревне).
Меня слегка сбивает с толку, видимо, что в статистике под понятием "популяция" имеется несколько иное в виду, чем в биологии (я биолог).
А еще сбивает с толку SPSS - мне легко провести сравнительный анализ, если я беру в расчет, что выборки зависимы. Если выборки независимы и мы, к примеру, используем тест Манна-Уитни, то тогда встает вопрос о том, что в моем случае является при сравнении "Test variable", а что - "rouping variable"/
Но это уже совсем другая история...
плав
Цитата(Luce @ 11.09.2008 - 22:45) *
Не могу похвастать, что сразу же поняла всё что Вы написали))
Но, вроде, разобралась, спасибо! Получается, что я должна взять все данные за все года и проверить их на нормальность (если нет крупных исследований на данную тему). Тогда станет ясно, нормально ли распределение в данной популяции (=деревне).
Меня слегка сбивает с толку, видимо, что в статистике под понятием "популяция" имеется несколько иное в виду, чем в биологии (я биолог).
А еще сбивает с толку SPSS - мне легко провести сравнительный анализ, если я беру в расчет, что выборки зависимы. Если выборки независимы и мы, к примеру, используем тест Манна-Уитни, то тогда встает вопрос о том, что в моем случае является при сравнении "Test variable", а что - "rouping variable"/
Но это уже совсем другая история...

Насчет популяции, да, определения разные - повторюсь, можно использовать термин генеральная совокупность.
Test variable - это тот показатель, который Вы сравниваете, Grouping - тот который описывает группы (например, 1950 и 2000 года).
nokh
Цитата(Luce @ 12.09.2008 - 00:45) *
...А еще сбивает с толку SPSS - мне легко провести сравнительный анализ, если я беру в расчет, что выборки зависимы. Если выборки независимы и мы, к примеру, используем тест Манна-Уитни, то тогда встает вопрос о том, что в моем случае является при сравнении "Test variable", а что - "rouping variable"/ Но это уже совсем другая история...

Для анализа независимых выборок у вас неправильно организованы данные в файле. Результаты теста нужно расположить не в разных, а в одном столбце, а во втором напротив каждого значения первого столбца проставить соответствующие метки: можно годы 1950 или 2000, можно просто 1 или 2. В отличие от Excel и некоторых редких программ так принято заносить данные в подавляющем большинстве стат. пакетов.
Luce
Да, мне уже приходила эта мысль в голову. Но данные были уже сгруппированы в excel, и мне не хотелось делать дополнительной работы.
Но теперь все же придется, видимо)
Всем большое спасибо, вы мне очень помогли!
Для просмотра полной версии этой страницы, пожалуйста, пройдите по ссылке.
Форум IP.Board © 2001-2025 IPS, Inc.