Версия для печати темы

Нажмите сюда для просмотра этой темы в обычном формате

Форум врачей-аспирантов _ Медицинская статистика _ Ну очень разное количество наблюдений в группах

Автор: fr2007 6.03.2007 - 17:04

Добрый день! Подскажите, пожалуйста, ответ на такой вопрос - имеем большую базу данных по больным (около 5000), а здоровых всего 105 человек. Ну, сделали описательную статистику, гистограммы построили (кстати, оказалось, что ни один из показателей не имеет нормального распределения), а как эти группы сравнивать между собой? А потом еще шеф поставил задачу разделить их на группы по одному из показателей, получается: 186-3980-190 больных и соответственно 4-86-15 человек. Т.е. надо в принципе было бы сравнить 186 и 4 человека, 3980 и 86, 190 и 15. Группу здоровых больше не можем сделать, вот беда какая! Спасибо заранее!

Автор: Олег Кравец 6.03.2007 - 18:03

Цитата(fr2007 @ 6.03.2007 - 17:04) [snapback]2618[/snapback]

Пусть специалисты поправят, если я ошибаюсь - но зачем делить группу здоровых? Они здоровы параметрически одинаково (так? если нет - все неверно, с этой группой тоже нужно возиться), а вот больные - больны по-разному. Думаю, что от использования полного объема группы здоровых во всех трех группах корректности не убавятся - ЕСЛИ группа здровых однородна по выделяемым показателям.

Автор: fr2007 6.03.2007 - 19:00

Спасибо большое за ответ! Я уже и сама до этого дошла - даже если у здоровых людей гипо- нормо- или гипер какого-то показателя по сравнению с нормой, это их индивидуальные особенности, не правда ли? У больных (я сделала дисперсионный анализ непараметрический) различия статистически значимы между группами гипо- норма- гипер. Отчасти, как я понимаю, из-за большого количества наблюдений, но я проанализировала ящики с усами и тд и невооруженным глазом видно, что есть различия у больных в зависимости от группы. Но вопрос остается открытым - сравнивать непараметрическими методами 105 человек с группами по 190, 186 и 3980? Это корректно?

Автор: плав 9.03.2007 - 18:54

Простой ответ - набрать дополнительно количество здоровых лиц. Объяснение "набрать больше здоровых не можем" не убедительно, поскольку, в отличие от больных, здоровых найти легче.
Деление здоровых необходимо для того, чтобы не сравнивать яблоки с апельсинами. Например, среди больных преобладают пациенты с гиперергической реакцией, а среди здоровых - с нормо. Однако этот показатель не влияет на заболевание. Тогда, если он коррелирует с одним из влияющих Вы можете это не обнаружить (говоря заумно вы тем самым повышаете дисперсию ошибки). Делением на подгруппы Вы повышаете мощность исследования (так что шеф прав). Однако деля небольшую группу на части Вы снижаете мощность исследования ввиду небольшого количества наблюдений. Поэтому или всех больных со всеми здоровыми, либо нормо-здоровых с нормо-больными, гипер с гипер и т.п. Идея о том, что у здоровых "это их индивидуальные особенности", а у больных связанные с болезнью показатели, мягко говоря шаткая.
Поскольку у Вас есть различия между группами больных, то это важный фактор (если он влияет на изучаемый исход). Поэтому я бы предложил игнорировать группу с 4 человеками, (возможно и 15) и проанализировать только 3980/86. Учтите только, что в результате 4хкратного различия в численности надо использовать не обычный дисперсионный анализ, а общую линейную модель (GLM).

Автор: fr2007 9.03.2007 - 20:10

Спасибо Вам огромное за консультацию! Буду вникать в Общую линейную модель! Извините за назойливость, а вы не подскажете учебник, в котором она описана для "чайников"?

Автор: плав 10.03.2007 - 17:34

Скорее не учебник, а программа, которая ее поддерживает (идея примерно такая же, как у дисперсионного анализа, однако используется регрессия для корректировки различий в численности, надо использовать т.н. тип III анализ). GLM поддерживается SAS (там просто отдельная процедура), имеется она и в SPSS и в S-plus/R, и в Stata. Насчет алгоритмических особенностей Statistica - не знаю, похоже, что в модуле MANOVA именно то, что надо. Немного подробнее про анализ (с примерами в SAS) можно посмотреть здесь http://pubhealth.spb.ru/SASDIST/SAS1-3.htm. Если английский не проблема, смотрите http://web.uccs.edu/lbecker/SPSS/glm_uneqn.htm для SPSS или http://www.math.montana.edu/~jarrett/st412/lec15.pdf для примера на R.

Автор: fr2007 10.03.2007 - 22:49

Благодарю! Дай Вам Бог здоровья!
Сейчас в Statistica 6.0 есть модуль Advanced Liear/Nonlinear Models : General Linear Model, там можно выбрать тип III (oртогональный). Там столько всего! Но надо, наверное, на SPSS переходить - много примеров в И-нете, все подробно описано. По Statistica, кроме Боровикова, попалась мне недавно Реброва http://sci-lib.com/one_book.php?book_num=100934 - замечательная книжка, но, жаль, маленький объем, описаны только самые азы. А больше, кроме их сайта, так и нет ничего - все просто копируют куски. Или я ошибаюсь?

Автор: Алексей 11.03.2007 - 01:40

При использовании GLM уделите также внимание разделу Assumption, где может быть особенно вважен Test of Homogeneity of Variance. Ксати это также описано в статьях, ссылки на которые Вам предложил г-н плав.

Автор: плав 11.03.2007 - 11:36

У Statistica обычно очень неплохая подсказка. Что же касается перехода с одной программы на другую - надо учитывать финансовые и временные аспекты: если уже знаете одну программу, которая делает то, что нужно - смысла учить новую не очень много (на один раз). Финансовые пока не столь важны, однако если РФ всерьез начнет бороться с пиратством надо будет выкладывать по тыще баксов за программу, сильно тоже не поменяешь, что в вузе есть, на том и считать (или пользоваться бесплатной R). Кстати слухи о желании требовать номер лицензии для программ, использовавшихся для обработки данных диссертации циркулируют достаточно упорно... Но да прошу прощения за оффтоп