Помогите провести сравнительный анализ, пожалуйста! |
Здравствуйте, гость ( Вход | Регистрация )
Помогите провести сравнительный анализ, пожалуйста! |
10.09.2008 - 20:56
Сообщение
#1
|
|
Группа: Пользователи Сообщений: 6 Регистрация: 10.09.2008 Пользователь №: 5271 |
У меня выборка по разным количественным признакам. Выборку каждого из признаков я проверяла на нормальность распределения по тесту Колмогорова-Смирнова. Часть данных у меня получилась параметрической, часть - нет. А мне необходимо сравнить эти признаки. Так какой тогда мне метод сравнения выбирать: параметрический или непараметрический? Ведь приходится сравнивать две выборки, одна из которых распределена нормально, а другая - нет.
Помогите, пожалуйста! |
|
11.09.2008 - 08:08
Сообщение
#2
|
|
Группа: Пользователи Сообщений: 377 Регистрация: 18.08.2008 Из: Москва Златоглавая Пользователь №: 5224 |
Т.к. один из признаков распределен не нормально, то следует использовать непараметрические критерии сравнения. Хотя мощность непараметрических критериев меньше параметрических (что плохо), зато они нечувствительны к закону распределения (что хорошо).
Просто включи мозги => http://doctorstat.narod.ru
|
|
11.09.2008 - 13:36
Сообщение
#3
|
|
Группа: Пользователи Сообщений: 6 Регистрация: 10.09.2008 Пользователь №: 5271 |
Спасибо вам большое))
А как это можно обосновать в тексте, не подскажете? |
|
11.09.2008 - 14:27
Сообщение
#4
|
|
Группа: Пользователи Сообщений: 377 Регистрация: 18.08.2008 Из: Москва Златоглавая Пользователь №: 5224 |
Обоснование применимости непараметрических методов.
Тест Колмогорова-Смирнова показал, что выборка Х не подчиняется нормальному распределению, а выборка Y подчиняется. Т.к. выборка Х не нормальна, то при сравнении ее с выборкой Y мы не можем использовать параметрические методы, требующие нормального распределения обоих выборок, а должны использовать непараметрические критерии, которые не зависят от закона распределения случайной величины и не требуют нормальности распределения. Просто включи мозги => http://doctorstat.narod.ru
|
|
11.09.2008 - 15:30
Сообщение
#5
|
|
Группа: Пользователи Сообщений: 6 Регистрация: 10.09.2008 Пользователь №: 5271 |
Супер! Спасибо)
Скажите, а может мне кто-нибудь ответить на такой вопрос: считаются ли две выборки зависимыми, если данные разных лет одного и того же параметра сравниваются, но при этом это данные получены от разных людей, а не от одних и тех же? К примеру, сравнивают как изменился диалект какой-нибудь деревни. Есть данные 1950 и 2005 годов. Сравниваются записи, полученные от разных людей, но при этом ведь есть зависимость. |
|
11.09.2008 - 20:40
Сообщение
#6
|
|
Группа: Пользователи Сообщений: 1013 Регистрация: 4.10.2006 Пользователь №: 1933 |
Супер! Спасибо) Скажите, а может мне кто-нибудь ответить на такой вопрос: считаются ли две выборки зависимыми, если данные разных лет одного и того же параметра сравниваются, но при этом это данные получены от разных людей, а не от одних и тех же? К примеру, сравнивают как изменился диалект какой-нибудь деревни. Есть данные 1950 и 2005 годов. Сравниваются записи, полученные от разных людей, но при этом ведь есть зависимость. 1) Вы, как это обычно происходит, делаете ошибку, путая распределение в выборке с распределением в популяции. Все разговоры о нормальности/ненормальности относятся к популяции, а не к выборке, писать, "распределение в выборке" является ошибкой (на самом деле тестируется гипотеза о том что выборка пришла из популяции с нормальным распределением). Если же Вы настаиваете, что в одной популяции у Вас нормальное распределение, а в другой - нет, то сравнивать нечего, Вы уже сказали, что это разные популяции (более того, посыл, что мы "сравниваем выборки" не правилен, мы тестируем гипотезу о том, что обе выборки пришли из одной популяции). Отсюда совет (кроме просмотра назад форума, там это неоднократно обсуждалось) определитесь с нормальностью/ненормальностью на основании анализа литературы или крупных исследований в той же области и только в крайнем случае прибегайте к тестированию распределения, особенно если размер выборки небольшой (если большой - то тогда по выборке можно делать предположение о характере распределения в популяции). 2) То, что непараметрические критерии не зависят от закона распределения - не совсем так. В этих методах просто абсолютные значения заменяются на ранги , поэтому для ряда не нормальных распределений (с тяжелыми хвостами) непараметрические критерии являются не адекватными 3) В случае, если у Вас несколько деревень, то да, наблюдения являются зависимыми, в анализе это надо будет учитывать, если только одна деревня и разные люди - то нет. |
|
11.09.2008 - 21:10
Сообщение
#7
|
|
Группа: Пользователи Сообщений: 6 Регистрация: 10.09.2008 Пользователь №: 5271 |
Cпасибо за советы и замечания!
У меня несколько вопросов: 1. Если же Вы настаиваете, что в одной популяции у Вас нормальное распределение, а в другой - нет, то сравнивать нечего А если популяция одна, но в разные года? 2. Что такое "распределения с тяжелыми хвостами"? 3. В случае, если у Вас несколько деревень, то да, наблюдения являются зависимыми, в анализе это надо будет учитывать, если только одна деревня и разные люди - то нет У меня "деревня" одна; затем эта же деревня "20 лет спустя". Люди уже другие, конечно. Но мне кажется что это все же зависимая выборка. Но я никак не могу понять четкой грани между зависимой или независимой выборкой. Может, вы сможете подсказать какие-нибудь ссылки в интернете, где четко прописано что можно считать зависимой, а что - нет. Заранее спасибо! |
|
11.09.2008 - 21:30
Сообщение
#8
|
|
Группа: Пользователи Сообщений: 1013 Регистрация: 4.10.2006 Пользователь №: 1933 |
1) Нет, тут Вы должны понимать разницу между тем, что в статистике понимают под именем популяции - это совокупность объектов одного класса. Т.е. если у Вас разные года, то популяция - жители этого места во все годы и вопрос, на который Вы пытаетесь ответить, можно ли считать (на основании анализа выборки), что в городе (деревне) ничего не изменилось и это одна "популяция" (если хотите, генеральная совокупность) или же что-то поменялось и они теперь на себя же старых не похожи.
2) Распределение с тяжелыми хвостами - распределение, похожее на нормальное, однако в конце распределения находится большее количество наблюдений 3) Насчет зависимой выборки. Обычно вариабельность данных (причину, по которой наблюдения отличаются друг от друга) можно разделить на несколько групп - систематические факторы (изучаемые, внутрииндивидуальные колебания и межиндивидуальные колебания. В том случае, если мы можем отделить внутрииндивидуальные колебания от межиндивидуальных, говорят о зависимых переменных. Простейший вариант - один и тот же параметр измеряется у одного и того же человека. Расчитывая разность, мы устраняем междиндивиуальную вариабельность (например, у первого человека до/после 140/130, у второго 100/90, у третьего 170/160, если просто сравнить первые и вторые цифры - разброс очень большой, если взять разности - вариабельности вообще нет). Соответственно, в том случае, когда деревня одна, то у всех людей показатель "индивидуальности" один и ничего устранить нельзя - это не зависимые переменные (простой тест - как Вы установите соответствие между человеком в 1950 и 2000? Если однозначного ответа нет, значит не зависимые) |
|
11.09.2008 - 21:45
Сообщение
#9
|
|
Группа: Пользователи Сообщений: 6 Регистрация: 10.09.2008 Пользователь №: 5271 |
Не могу похвастать, что сразу же поняла всё что Вы написали))
Но, вроде, разобралась, спасибо! Получается, что я должна взять все данные за все года и проверить их на нормальность (если нет крупных исследований на данную тему). Тогда станет ясно, нормально ли распределение в данной популяции (=деревне). Меня слегка сбивает с толку, видимо, что в статистике под понятием "популяция" имеется несколько иное в виду, чем в биологии (я биолог). А еще сбивает с толку SPSS - мне легко провести сравнительный анализ, если я беру в расчет, что выборки зависимы. Если выборки независимы и мы, к примеру, используем тест Манна-Уитни, то тогда встает вопрос о том, что в моем случае является при сравнении "Test variable", а что - "rouping variable"/ Но это уже совсем другая история... |
|
11.09.2008 - 22:23
Сообщение
#10
|
|
Группа: Пользователи Сообщений: 1013 Регистрация: 4.10.2006 Пользователь №: 1933 |
Не могу похвастать, что сразу же поняла всё что Вы написали)) Но, вроде, разобралась, спасибо! Получается, что я должна взять все данные за все года и проверить их на нормальность (если нет крупных исследований на данную тему). Тогда станет ясно, нормально ли распределение в данной популяции (=деревне). Меня слегка сбивает с толку, видимо, что в статистике под понятием "популяция" имеется несколько иное в виду, чем в биологии (я биолог). А еще сбивает с толку SPSS - мне легко провести сравнительный анализ, если я беру в расчет, что выборки зависимы. Если выборки независимы и мы, к примеру, используем тест Манна-Уитни, то тогда встает вопрос о том, что в моем случае является при сравнении "Test variable", а что - "rouping variable"/ Но это уже совсем другая история... Насчет популяции, да, определения разные - повторюсь, можно использовать термин генеральная совокупность. Test variable - это тот показатель, который Вы сравниваете, Grouping - тот который описывает группы (например, 1950 и 2000 года). |
|
11.09.2008 - 22:52
Сообщение
#11
|
|
Группа: Пользователи Сообщений: 1202 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704 |
...А еще сбивает с толку SPSS - мне легко провести сравнительный анализ, если я беру в расчет, что выборки зависимы. Если выборки независимы и мы, к примеру, используем тест Манна-Уитни, то тогда встает вопрос о том, что в моем случае является при сравнении "Test variable", а что - "rouping variable"/ Но это уже совсем другая история... Для анализа независимых выборок у вас неправильно организованы данные в файле. Результаты теста нужно расположить не в разных, а в одном столбце, а во втором напротив каждого значения первого столбца проставить соответствующие метки: можно годы 1950 или 2000, можно просто 1 или 2. В отличие от Excel и некоторых редких программ так принято заносить данные в подавляющем большинстве стат. пакетов. |
|
12.09.2008 - 00:45
Сообщение
#12
|
|
Группа: Пользователи Сообщений: 6 Регистрация: 10.09.2008 Пользователь №: 5271 |
Да, мне уже приходила эта мысль в голову. Но данные были уже сгруппированы в excel, и мне не хотелось делать дополнительной работы.
Но теперь все же придется, видимо) Всем большое спасибо, вы мне очень помогли! |
|