Версия для печати темы

Нажмите сюда для просмотра этой темы в обычном формате

Форум врачей-аспирантов _ Медицинская статистика _ Пути достижения статистической сопоставимости групп больных

Автор: pavel_ 17.01.2007 - 18:55

Всем добрый день (вечер). Подскажите, как быть в конкретной ситуации: группа больных гипертонией была разделена на две подгруппы на основании определенного показателя, полученного при мониторировании АД. Статистический анализ показал различие по большинству основных клинико-демографических характеристик между подгруппами, т.е. подгруппы оказались несопоставимы. Далее я предпринял следующее действие: из известной статистической программы использовал функцию "Simple random sampling/Замер подмножества в случайном порядке", которая случайным образом отобрала 80% (задал произвольным образом) случаев основной группы больных, в результате чего две подгруппы из этой основной группы оказались теперь сопоставимы по клинико-демографическим характеристикам (точнее статистически значимые различия исчезли). Вопрос: Является ли корректным использование данной функции статистической программы. Как описать это в диссертации? Заранее всем спасибо.

Автор: плав 18.01.2007 - 16:06

Нет, данный подход не легитимен. Статистические различия исчезли просто потому, что упала мощность исследования (способность указывать на наличие различий тогда, когда они действительно существуют). Reductio ad absurdum - выберите случайным образом двух человек и различия никогда не будут достоверными. Функция простой случайной выборки (она так называется, не обращайте внимание на переводы в программах - с техническими переводчиками в фирмах, осущетсвляющих локализацию статистических программ плохо) используется только при планировании исследования (или при использовании методов разработки данных, но это уже другая история - там вы белите группу поплам, на одной половине разрабатываете модель, на другой - ее проверяете).
В Вашем случае ничего страшного в различиях по показателям между группами нет, просто надо использовать методы многомерной статистики. Вам необходимо сделать дисперсионный анализ (ANOVA или GLM, если численность в группах разная) включив в анализ те клинико-демографические показатели, которые оказались различными и переменную, указывающую на принадлежность к одной и другой группам. Зависимая переменная - Ваш показатель АД. Если в моделе переменная, указывающая на принадлежность к группе окажется значимой, значит она "работает" даже после (статистического) контроля влияния других клинико-демографических факторов. Если нет - значит различия между группами являлись следствием их несбалансированности по другим факторам.

Автор: pavel_ 18.01.2007 - 20:39

Цитата(плав @ 18.01.2007 - 16:06) [snapback]2529[/snapback]

В Вашем случае ничего страшного в различиях по показателям между группами нет, просто надо использовать методы многомерной статистики. Вам необходимо сделать дисперсионный анализ (ANOVA или GLM, если численность в группах разная) включив в анализ те клинико-демографические показатели, которые оказались различными и переменную, указывающую на принадлежность к одной и другой группам. Зависимая переменная - Ваш показатель АД. Если в моделе переменная, указывающая на принадлежность к группе окажется значимой, значит она "работает" даже после (статистического) контроля влияния других клинико-демографических факторов. Если нет - значит различия между группами являлись следствием их несбалансированности по другим факторам.

Спасибо, плав, за ответ. Я сделал так, как Вы описали. Фактор работает и не зависит от влияния других факторов. Но вот, что я не допонимаю все равно. Мне нужно доказать, что эти группы различаются по другим показателям (не АД), которые имеют ненормальное распределение, но как - группы ведь все равно несопоставимы по полу, возрасту, уровню АД.....
МЫСЛИ ВСЛУХ: И почему в аспирантуре не преподают медицинскую статистику - пока это, по-видимому, риторический вопрос.

Автор: плав 18.01.2007 - 22:41

Не совсем понятно. Если зависимая переменная меняется (Вам надо проанализировать другую переменную, не АД), то просто заменяете АД на нее и оставляете все факторы в модели (пол, возраст, уровень АД и т.п.). Несколько более неприятно то, что эти факторы распределены не нормально. Однако тут надо задать вопрос, откуда известно, что они распределены не нормально. Проблема в том, что многие авторы (в том числе подсказок к статистическим программам) предлагают определять нормальность на основе изучения распределения в выборке (т.е. у Ваших пациентов). Если о популяции ничего не известно, то это, конечно, возможный подход, однако высока вероятность того, что Вы будете считать распределение ненормальным, а выборка будет из нормального распределения. Если есть время можете сделать так (если нет, поверьте мне на слово), сгенерируйте в программе популяцию с нормальным распределением, а затем возьмите из нее выборки и посмотрите на внешний вид распределения в этих выборках, особенно, если численность будет человек 35-40. Большое количество будет выглядеть как ненормальное распределение.
Все статистические тесты базируются на предположении о форме распределения в ПОПУЛЯЦИИ, а не в выборке. Так что, во многих случаях страх перед ненормальностью распределения преувеличен (используйте дисперсионный анализ и живети спокойно).
Если Вы убеждены, что в популяции распределение ненормальное, то надо попробовать следующие подходы: (1) попытаться трансформировать переменные и сделать их распределение нормальным ((а)взять величины, обратные имеющимся (1/х); (б) прологарфмировать исходные величины; (в) извлечь из них квадратный корень). Если это не помогает, можно заменить значения на ранги (в программах есть соответствующая функция). Если распределение ненормальное и имеет т.н. "тяжелые хвосты", то вот тут, действительно есть проблема. При описании средних и дисперсии используются обрезанные или винзоризированные показатели, а для анализа - bootstrap (методы с интенсивным использованием ЭВМ). Однако, сказав все это, хочу Вас успокоить, крайне редко колебания ошибки 1 рода (то, что более известно как р) будут значительными (т.е. было 0,3, а стало 0,01). Обычно колебания в районе 0,01-0,03 (любой может это сам проверить в вычислительном эксперименте). Поэтому, если Вы ошиблись с определением характера распределения, то при использовании дисперсионного анализа сильно Вы не промахнетесь (если только не будете считать, что р=0,049 - есть доказательства гипотезы, а р=0,051 - нет).
МЫСЛИ ПРО СЕБЯ: Ну почему же не преподают аспирантам биостатистику, преподают и некоторых даже насильно загоняют Просто места знать надо

Автор: pavel_ 19.01.2007 - 19:59

Уважаемый плав, спасибо Вам за консультацию. Если у Вас будет возможность мне ответить на пару вопросов, я буду Вам очень признателен. Я следую Вашим рекомендациям, использую дисперсионный анализ ANOVA. Получается, что влияние факторов, которых мне надо подтвердить, статистически значимо, а другие факторы (то самое АД) незначимо. Но в целом вся построенная модель регрессионного анализа статистически незначима. Как быть в этой ситуации.
Второе. Учитывая ненормальное распределение признаков в выборке (в популяции никак знать не могу) может использовать нелинейный регрессионный анализ (логистическая регрессия), который устанавливает связь между бинарным и другими признаками, для которых, как я понимаю, распределение неважно.
И еще, простите - уже третий вопрос, можно ли мне все-таки для сравнения двух этих групп, которые несопоставимы по уровню АД (но по полу, возрасту и т.д. сопоставимы), использовать критерий Манна-Уитни (с ненормальным распределением), а для показателей, которые обнаружат статистически значимые отличия, дополнительно провести дисперсионный анализ, т.е. доказать, что на эти показатели АД влияние не оказывает. Заранее спасибо.

Автор: плав 23.01.2007 - 18:36

1. Любой дисперсионный анализ начинается с оценки модели в целом (в первом вопросе речь шла о дисперсионном, не регресионном анализе, наверное, Вы описались, или речь идет о двух моделях?). В принципе, если у Вас и качественные и количественные влияющие переменные (например, пол, возраст, АД, группа воздействия), то Вы используете множественный дисперсионный анализ с ковариантами (MANCOVA или GLM) - это смесь дисперсионного и линеного регресионного анализоа. Если суммарно модель недостоверно, это означает, что ни один фактор не связан с исходом и на этом анализ заканчивается. Обратите однако внимание на то, что у Вас могут влиять сочетания факторов (например, АД и фактор воздействия). Как указывать сочетания зависит от программы, в которой Вы работаете, обычно что-то вроде SBP treat trea*SBP (т.е. отдельно сист.АД, отедльно лечение, вместе сист. АД и лечение). Лишь в том случае, если суммарная модель достоверна, можно смотреть на влияние отдельных факторов (и если в этом случае влияние, например АД не значимо - это уже не важно).
2. Логистическая модель предполагает качественный (бинарный) зависимый признак. Соответственно, она решает абсолютно иную задачу в отличие от дисперсионного анализа, где зависимый признак - количественный. Иными словами, влияние лечение на АД - задача для дисперсионного анализа, влияние лечения на исход (умер-не умер) - для логистической. Кроме того, для независимых переменных распределение все-таки важно, поэтому просто считать, что с использованием логистической регрессии все легко нельзя.
3. Не совсем понял вопрос, поскольку чем поможет критерий Мэнна-Уитни (для сравнения двух групп) в случае, если существует третий, вмешивающися фактор? (АД). Если Вы их сравните по МУ, то эффект от различий в уровне АД никуда не уйдет. Единственный варинат, который я могу предложить, чтобы воспользоваться МУ, это вначале сделать регресионный анализ (зависимость исхода от АД). Затем сохранить "остатки" (residuals), после этого сделать сравнение этих самых остатков в двух группах. Регресионный анализ исключит влияние АД, соответственно группы будут (надеемся) сопоставимыми (кстати, описанный выше подход, это, что делает втихоря программа дисперсионного анализа с ковариантами).

Автор: pavel_ 24.01.2007 - 19:07

Спасибо, плав, за ответ. От дисперсионного анализа, а также от ковариационного (MANCOVA), решил отказаться полностью. Во-первых, две влияющие независимые переменные (качественная и количественная - обе характеризуют АД), оказались между собой статистически связаны, этого, как я понимаю, не допускает дисперсионный анализ. Во-вторых, условия нормального распределения (конечно, логарифмирование помогает) и равенства дисперсий выполнить, как оказалось, нелегко. В третьих, я не учел, наверное, самое главное - деление пациентов на стадии болезни. В этом случае все клинико-демографические показатели у выделенных подгрупп больных "внутри определенной стадии" оказались полностью сопоставимы и я с чистой совестью доказываю свои гипотезы с помощью Манна-Уитни. Кстати, использовал стадию болезни как независимую переменную в многофакторном анализе, но она тоже оказалась связанной с другими независимыми факторами (показателями АД), что вполне объяснимо.
Думаю, что так будет правильно. Тем не менее, благодаря Вам, стал немного разбираться в методах системного анализа и в будущем попробую их использовать. Спасибо.

Автор: плав 25.01.2007 - 21:45

На самом деле если две переменные связаны дург с другом, то дисперсионному и регресионному анализу это не мешает (собственно, именно для устранения этих связей многофакторные модели и задуманы).
Если группы оказались сбаланcированы, то, в принципе, можно и не делать многомерный анализ (но только в том случае, если они полностью сбалансированы, т.е. одинаковы не только средние, но и распределения независимых факторов внутри групп). Именно поэтому, если исследование исходно не было рандомизированным (РКИ), то принято все-таки выполнять многомерный анализ. Хотя, естественно, это уже право автора (на Совете вопрос о том, почему не сделали многомерный анализ кто-нибудь вряд ли задаст ).
На всякий случай (скорее для тех, кто еще будет читать эту ветку) повторюсь, что не надо абсолютизировать выбор теста в зависимости от проверки на нормальность. Не стоит считать, что использовав тест Мэнна-Уитни (или иной друго непараметрический тест) вместо t-теста будут получены принципиально иные результаты. Отнюдь. Все то же самое, что и при использовании t-теста, новой информации ни грамма (не говоря уж о том, что непараметрика порождает свои проблемы - самая очевидная, вы уже не сравниваете средние в группах, а медианы, т.е. в таблицах - формально - уже надо писать медиану и межквартильное растояние, а не знаменитые M+/-m).