Форум врачей-аспирантов

Здравствуйте, гость ( Вход | Регистрация )

 
Добавить ответ в эту темуОткрыть тему
> Помогите провести сравнительный анализ, пожалуйста!
Luce
сообщение 10.09.2008 - 20:56
Сообщение #1


Дух форума
*

Группа: Пользователи
Сообщений: 6
Регистрация: 10.09.2008
Пользователь №: 5271



У меня выборка по разным количественным признакам. Выборку каждого из признаков я проверяла на нормальность распределения по тесту Колмогорова-Смирнова. Часть данных у меня получилась параметрической, часть - нет. А мне необходимо сравнить эти признаки. Так какой тогда мне метод сравнения выбирать: параметрический или непараметрический? Ведь приходится сравнивать две выборки, одна из которых распределена нормально, а другая - нет.
Помогите, пожалуйста!
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
DoctorStat
сообщение 11.09.2008 - 08:08
Сообщение #2


Дух форума
*

Группа: Пользователи
Сообщений: 361
Регистрация: 18.08.2008
Из: Москва Златоглавая
Пользователь №: 5224



Т.к. один из признаков распределен не нормально, то следует использовать непараметрические критерии сравнения. Хотя мощность непараметрических критериев меньше параметрических (что плохо), зато они нечувствительны к закону распределения (что хорошо).


Signature
Просто включи мозг => http://doctorstat.narod.ru
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Luce
сообщение 11.09.2008 - 13:36
Сообщение #3


Дух форума
*

Группа: Пользователи
Сообщений: 6
Регистрация: 10.09.2008
Пользователь №: 5271



Спасибо вам большое))
А как это можно обосновать в тексте, не подскажете?
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
DoctorStat
сообщение 11.09.2008 - 14:27
Сообщение #4


Дух форума
*

Группа: Пользователи
Сообщений: 361
Регистрация: 18.08.2008
Из: Москва Златоглавая
Пользователь №: 5224



Обоснование применимости непараметрических методов.
Тест Колмогорова-Смирнова показал, что выборка Х не подчиняется нормальному распределению, а выборка Y подчиняется. Т.к. выборка Х не нормальна, то при сравнении ее с выборкой Y мы не можем использовать параметрические методы, требующие нормального распределения обоих выборок, а должны использовать непараметрические критерии, которые не зависят от закона распределения случайной величины и не требуют нормальности распределения.


Signature
Просто включи мозг => http://doctorstat.narod.ru
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Luce
сообщение 11.09.2008 - 15:30
Сообщение #5


Дух форума
*

Группа: Пользователи
Сообщений: 6
Регистрация: 10.09.2008
Пользователь №: 5271



Супер! Спасибо)
Скажите, а может мне кто-нибудь ответить на такой вопрос: считаются ли две выборки зависимыми, если данные разных лет одного и того же параметра сравниваются, но при этом это данные получены от разных людей, а не от одних и тех же? К примеру, сравнивают как изменился диалект какой-нибудь деревни. Есть данные 1950 и 2005 годов. Сравниваются записи, полученные от разных людей, но при этом ведь есть зависимость.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
плав
сообщение 11.09.2008 - 20:40
Сообщение #6


Дух форума
*

Группа: Пользователи
Сообщений: 1013
Регистрация: 4.10.2006
Пользователь №: 1933



Цитата(Luce @ 11.09.2008 - 16:30) *
Супер! Спасибо)
Скажите, а может мне кто-нибудь ответить на такой вопрос: считаются ли две выборки зависимыми, если данные разных лет одного и того же параметра сравниваются, но при этом это данные получены от разных людей, а не от одних и тех же? К примеру, сравнивают как изменился диалект какой-нибудь деревни. Есть данные 1950 и 2005 годов. Сравниваются записи, полученные от разных людей, но при этом ведь есть зависимость.

1) Вы, как это обычно происходит, делаете ошибку, путая распределение в выборке с распределением в популяции. Все разговоры о нормальности/ненормальности относятся к популяции, а не к выборке, писать, "распределение в выборке" является ошибкой (на самом деле тестируется гипотеза о том что выборка пришла из популяции с нормальным распределением). Если же Вы настаиваете, что в одной популяции у Вас нормальное распределение, а в другой - нет, то сравнивать нечего, Вы уже сказали, что это разные популяции (более того, посыл, что мы "сравниваем выборки" не правилен, мы тестируем гипотезу о том, что обе выборки пришли из одной популяции). Отсюда совет (кроме просмотра назад форума, там это неоднократно обсуждалось) определитесь с нормальностью/ненормальностью на основании анализа литературы или крупных исследований в той же области и только в крайнем случае прибегайте к тестированию распределения, особенно если размер выборки небольшой (если большой - то тогда по выборке можно делать предположение о характере распределения в популяции).
2) То, что непараметрические критерии не зависят от закона распределения - не совсем так. В этих методах просто абсолютные значения заменяются на ранги , поэтому для ряда не нормальных распределений (с тяжелыми хвостами) непараметрические критерии являются не адекватными
3) В случае, если у Вас несколько деревень, то да, наблюдения являются зависимыми, в анализе это надо будет учитывать, если только одна деревня и разные люди - то нет.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Luce
сообщение 11.09.2008 - 21:10
Сообщение #7


Дух форума
*

Группа: Пользователи
Сообщений: 6
Регистрация: 10.09.2008
Пользователь №: 5271



Cпасибо за советы и замечания!
У меня несколько вопросов:
1. Если же Вы настаиваете, что в одной популяции у Вас нормальное распределение, а в другой - нет, то сравнивать нечего
А если популяция одна, но в разные года?

2. Что такое "распределения с тяжелыми хвостами"?

3. В случае, если у Вас несколько деревень, то да, наблюдения являются зависимыми, в анализе это надо будет учитывать, если только одна деревня и разные люди - то нет
У меня "деревня" одна; затем эта же деревня "20 лет спустя". Люди уже другие, конечно. Но мне кажется что это все же зависимая выборка.
Но я никак не могу понять четкой грани между зависимой или независимой выборкой. Может, вы сможете подсказать какие-нибудь ссылки в интернете, где четко прописано что можно считать зависимой, а что - нет.
Заранее спасибо!
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
плав
сообщение 11.09.2008 - 21:30
Сообщение #8


Дух форума
*

Группа: Пользователи
Сообщений: 1013
Регистрация: 4.10.2006
Пользователь №: 1933



1) Нет, тут Вы должны понимать разницу между тем, что в статистике понимают под именем популяции - это совокупность объектов одного класса. Т.е. если у Вас разные года, то популяция - жители этого места во все годы и вопрос, на который Вы пытаетесь ответить, можно ли считать (на основании анализа выборки), что в городе (деревне) ничего не изменилось и это одна "популяция" (если хотите, генеральная совокупность) или же что-то поменялось и они теперь на себя же старых не похожи.
2) Распределение с тяжелыми хвостами - распределение, похожее на нормальное, однако в конце распределения находится большее количество наблюдений
3) Насчет зависимой выборки. Обычно вариабельность данных (причину, по которой наблюдения отличаются друг от друга) можно разделить на несколько групп - систематические факторы (изучаемые, внутрииндивидуальные колебания и межиндивидуальные колебания. В том случае, если мы можем отделить внутрииндивидуальные колебания от межиндивидуальных, говорят о зависимых переменных. Простейший вариант - один и тот же параметр измеряется у одного и того же человека. Расчитывая разность, мы устраняем междиндивиуальную вариабельность (например, у первого человека до/после 140/130, у второго 100/90, у третьего 170/160, если просто сравнить первые и вторые цифры - разброс очень большой, если взять разности - вариабельности вообще нет).
Соответственно, в том случае, когда деревня одна, то у всех людей показатель "индивидуальности" один и ничего устранить нельзя - это не зависимые переменные (простой тест - как Вы установите соответствие между человеком в 1950 и 2000? Если однозначного ответа нет, значит не зависимые)
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Luce
сообщение 11.09.2008 - 21:45
Сообщение #9


Дух форума
*

Группа: Пользователи
Сообщений: 6
Регистрация: 10.09.2008
Пользователь №: 5271



Не могу похвастать, что сразу же поняла всё что Вы написали))
Но, вроде, разобралась, спасибо! Получается, что я должна взять все данные за все года и проверить их на нормальность (если нет крупных исследований на данную тему). Тогда станет ясно, нормально ли распределение в данной популяции (=деревне).
Меня слегка сбивает с толку, видимо, что в статистике под понятием "популяция" имеется несколько иное в виду, чем в биологии (я биолог).
А еще сбивает с толку SPSS - мне легко провести сравнительный анализ, если я беру в расчет, что выборки зависимы. Если выборки независимы и мы, к примеру, используем тест Манна-Уитни, то тогда встает вопрос о том, что в моем случае является при сравнении "Test variable", а что - "rouping variable"/
Но это уже совсем другая история...
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
плав
сообщение 11.09.2008 - 22:23
Сообщение #10


Дух форума
*

Группа: Пользователи
Сообщений: 1013
Регистрация: 4.10.2006
Пользователь №: 1933



Цитата(Luce @ 11.09.2008 - 22:45) *
Не могу похвастать, что сразу же поняла всё что Вы написали))
Но, вроде, разобралась, спасибо! Получается, что я должна взять все данные за все года и проверить их на нормальность (если нет крупных исследований на данную тему). Тогда станет ясно, нормально ли распределение в данной популяции (=деревне).
Меня слегка сбивает с толку, видимо, что в статистике под понятием "популяция" имеется несколько иное в виду, чем в биологии (я биолог).
А еще сбивает с толку SPSS - мне легко провести сравнительный анализ, если я беру в расчет, что выборки зависимы. Если выборки независимы и мы, к примеру, используем тест Манна-Уитни, то тогда встает вопрос о том, что в моем случае является при сравнении "Test variable", а что - "rouping variable"/
Но это уже совсем другая история...

Насчет популяции, да, определения разные - повторюсь, можно использовать термин генеральная совокупность.
Test variable - это тот показатель, который Вы сравниваете, Grouping - тот который описывает группы (например, 1950 и 2000 года).
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
nokh
сообщение 11.09.2008 - 22:52
Сообщение #11


Дух форума
*

Группа: Пользователи
Сообщений: 1071
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704



Цитата(Luce @ 12.09.2008 - 00:45) *
...А еще сбивает с толку SPSS - мне легко провести сравнительный анализ, если я беру в расчет, что выборки зависимы. Если выборки независимы и мы, к примеру, используем тест Манна-Уитни, то тогда встает вопрос о том, что в моем случае является при сравнении "Test variable", а что - "rouping variable"/ Но это уже совсем другая история...

Для анализа независимых выборок у вас неправильно организованы данные в файле. Результаты теста нужно расположить не в разных, а в одном столбце, а во втором напротив каждого значения первого столбца проставить соответствующие метки: можно годы 1950 или 2000, можно просто 1 или 2. В отличие от Excel и некоторых редких программ так принято заносить данные в подавляющем большинстве стат. пакетов.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Luce
сообщение 12.09.2008 - 00:45
Сообщение #12


Дух форума
*

Группа: Пользователи
Сообщений: 6
Регистрация: 10.09.2008
Пользователь №: 5271



Да, мне уже приходила эта мысль в голову. Но данные были уже сгруппированы в excel, и мне не хотелось делать дополнительной работы.
Но теперь все же придется, видимо)
Всем большое спасибо, вы мне очень помогли!
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 

Добавить ответ в эту темуОткрыть тему