Форум врачей-аспирантов

Здравствуйте, гость ( Вход | Регистрация )

 
Добавить ответ в эту темуОткрыть тему
> Ну очень разное количество наблюдений в группах, хелп, плиз!
fr2007
сообщение 6.03.2007 - 17:04
Сообщение #1





Группа: Пользователи
Сообщений: 6
Регистрация: 6.03.2007
Пользователь №: 3988



insane.gif Добрый день! Подскажите, пожалуйста, ответ на такой вопрос - имеем большую базу данных по больным (около 5000), а здоровых всего 105 человек. Ну, сделали описательную статистику, гистограммы построили (кстати, оказалось, что ни один из показателей не имеет нормального распределения), а как эти группы сравнивать между собой? А потом еще шеф поставил задачу разделить их на группы по одному из показателей, получается: 186-3980-190 больных и соответственно 4-86-15 человек. Т.е. надо в принципе было бы сравнить 186 и 4 человека, 3980 и 86, 190 и 15. Группу здоровых больше не можем сделать, вот беда какая! Спасибо заранее!
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Олег Кравец
сообщение 6.03.2007 - 18:03
Сообщение #2





Группа: Модераторы
Сообщений: 286
Регистрация: 1.02.2005
Из: Воронеж
Пользователь №: 93



Цитата(fr2007 @ 6.03.2007 - 17:04) [snapback]2618[/snapback]
insane.gif Добрый день! Подскажите, пожалуйста, ответ на такой вопрос - имеем большую базу данных по больным (около 5000), а здоровых всего 105 человек. Ну, сделали описательную статистику, гистограммы построили (кстати, оказалось, что ни один из показателей не имеет нормального распределения), а как эти группы сравнивать между собой? А потом еще шеф поставил задачу разделить их на группы по одному из показателей, получается: 186-3980-190 больных и соответственно 4-86-15 человек. Т.е. надо в принципе было бы сравнить 186 и 4 человека, 3980 и 86, 190 и 15. Группу здоровых больше не можем сделать, вот беда какая! Спасибо заранее!

Пусть специалисты поправят, если я ошибаюсь - но зачем делить группу здоровых? Они здоровы параметрически одинаково (так? если нет - все неверно, с этой группой тоже нужно возиться), а вот больные - больны по-разному. Думаю, что от использования полного объема группы здоровых во всех трех группах корректности не убавятся - ЕСЛИ группа здровых однородна по выделяемым показателям.


Signature
О.Я.Кравец, д.т.н., проф.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
fr2007
сообщение 6.03.2007 - 19:00
Сообщение #3





Группа: Пользователи
Сообщений: 6
Регистрация: 6.03.2007
Пользователь №: 3988



Спасибо большое за ответ! Я уже и сама до этого дошла - даже если у здоровых людей гипо- нормо- или гипер какого-то показателя по сравнению с нормой, это их индивидуальные особенности, не правда ли? У больных (я сделала дисперсионный анализ непараметрический) различия статистически значимы между группами гипо- норма- гипер. Отчасти, как я понимаю, из-за большого количества наблюдений, но я проанализировала ящики с усами и тд и невооруженным глазом видно, что есть различия у больных в зависимости от группы. Но вопрос остается открытым - сравнивать непараметрическими методами 105 человек с группами по 190, 186 и 3980? Это корректно?
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
плав
сообщение 9.03.2007 - 18:54
Сообщение #4





Группа: Пользователи
Сообщений: 1013
Регистрация: 4.10.2006
Пользователь №: 1933



Простой ответ - набрать дополнительно количество здоровых лиц. Объяснение "набрать больше здоровых не можем" не убедительно, поскольку, в отличие от больных, здоровых найти легче.
Деление здоровых необходимо для того, чтобы не сравнивать яблоки с апельсинами. Например, среди больных преобладают пациенты с гиперергической реакцией, а среди здоровых - с нормо. Однако этот показатель не влияет на заболевание. Тогда, если он коррелирует с одним из влияющих Вы можете это не обнаружить (говоря заумно вы тем самым повышаете дисперсию ошибки). Делением на подгруппы Вы повышаете мощность исследования (так что шеф прав). Однако деля небольшую группу на части Вы снижаете мощность исследования ввиду небольшого количества наблюдений. Поэтому или всех больных со всеми здоровыми, либо нормо-здоровых с нормо-больными, гипер с гипер и т.п. Идея о том, что у здоровых "это их индивидуальные особенности", а у больных связанные с болезнью показатели, мягко говоря шаткая.
Поскольку у Вас есть различия между группами больных, то это важный фактор (если он влияет на изучаемый исход). Поэтому я бы предложил игнорировать группу с 4 человеками, (возможно и 15) и проанализировать только 3980/86. Учтите только, что в результате 4хкратного различия в численности надо использовать не обычный дисперсионный анализ, а общую линейную модель (GLM).
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
fr2007
сообщение 9.03.2007 - 20:10
Сообщение #5





Группа: Пользователи
Сообщений: 6
Регистрация: 6.03.2007
Пользователь №: 3988



Спасибо Вам огромное за консультацию! Буду вникать в Общую линейную модель! Извините за назойливость, а вы не подскажете учебник, в котором она описана для "чайников"?
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
плав
сообщение 10.03.2007 - 17:34
Сообщение #6





Группа: Пользователи
Сообщений: 1013
Регистрация: 4.10.2006
Пользователь №: 1933



Скорее не учебник, а программа, которая ее поддерживает (идея примерно такая же, как у дисперсионного анализа, однако используется регрессия для корректировки различий в численности, надо использовать т.н. тип III анализ). GLM поддерживается SAS (там просто отдельная процедура), имеется она и в SPSS и в S-plus/R, и в Stata. Насчет алгоритмических особенностей Statistica - не знаю, похоже, что в модуле MANOVA именно то, что надо. Немного подробнее про анализ (с примерами в SAS) можно посмотреть здесь http://pubhealth.spb.ru/SASDIST/SAS1-3.htm. Если английский не проблема, смотрите http://web.uccs.edu/lbecker/SPSS/glm_uneqn.htm для SPSS или http://www.math.montana.edu/~jarrett/st412/lec15.pdf для примера на R.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
fr2007
сообщение 10.03.2007 - 22:49
Сообщение #7





Группа: Пользователи
Сообщений: 6
Регистрация: 6.03.2007
Пользователь №: 3988



Благодарю! Дай Вам Бог здоровья!
Сейчас в Statistica 6.0 есть модуль Advanced Liear/Nonlinear Models : General Linear Model, там можно выбрать тип III (oртогональный). Там столько всего! Но надо, наверное, на SPSS переходить - много примеров в И-нете, все подробно описано. По Statistica, кроме Боровикова, попалась мне недавно Реброва http://sci-lib.com/one_book.php?book_num=100934 - замечательная книжка, но, жаль, маленький объем, описаны только самые азы. А больше, кроме их сайта, так и нет ничего - все просто копируют куски. Или я ошибаюсь?
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Алексей
сообщение 11.03.2007 - 01:40
Сообщение #8





Группа: Пользователи
Сообщений: 5
Регистрация: 8.02.2007
Пользователь №: 3616



При использовании GLM уделите также внимание разделу Assumption, где может быть особенно вважен Test of Homogeneity of Variance. Ксати это также описано в статьях, ссылки на которые Вам предложил г-н плав.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
плав
сообщение 11.03.2007 - 11:36
Сообщение #9





Группа: Пользователи
Сообщений: 1013
Регистрация: 4.10.2006
Пользователь №: 1933



У Statistica обычно очень неплохая подсказка. Что же касается перехода с одной программы на другую - надо учитывать финансовые и временные аспекты: если уже знаете одну программу, которая делает то, что нужно - смысла учить новую не очень много (на один раз). Финансовые пока не столь важны, однако если РФ всерьез начнет бороться с пиратством надо будет выкладывать по тыще баксов за программу, сильно тоже не поменяешь, что в вузе есть, на том и считать (или пользоваться бесплатной R). Кстати слухи о желании требовать номер лицензии для программ, использовавшихся для обработки данных диссертации циркулируют достаточно упорно... Но да прошу прощения за оффтоп
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 

Добавить ответ в эту темуОткрыть тему