Всем добрый день (вечер). Подскажите, как быть в конкретной ситуации: группа больных гипертонией была разделена на две подгруппы на основании определенного показателя, полученного при мониторировании АД. Статистический анализ показал различие по большинству основных клинико-демографических характеристик между подгруппами, т.е. подгруппы оказались несопоставимы. Далее я предпринял следующее действие: из известной статистической программы использовал функцию "Simple random sampling/Замер подмножества в случайном порядке", которая случайным образом отобрала 80% (задал произвольным образом) случаев основной группы больных, в результате чего две подгруппы из этой основной группы оказались теперь сопоставимы по клинико-демографическим характеристикам (точнее статистически значимые различия исчезли). Вопрос: Является ли корректным использование данной функции статистической программы. Как описать это в диссертации? Заранее всем спасибо.
Нет, данный подход не легитимен. Статистические различия исчезли просто потому, что упала мощность исследования (способность указывать на наличие различий тогда, когда они действительно существуют). Reductio ad absurdum - выберите случайным образом двух человек и различия никогда не будут достоверными. Функция простой случайной выборки (она так называется, не обращайте внимание на переводы в программах - с техническими переводчиками в фирмах, осущетсвляющих локализацию статистических программ плохо) используется только при планировании исследования (или при использовании методов разработки данных, но это уже другая история - там вы белите группу поплам, на одной половине разрабатываете модель, на другой - ее проверяете).
В Вашем случае ничего страшного в различиях по показателям между группами нет, просто надо использовать методы многомерной статистики. Вам необходимо сделать дисперсионный анализ (ANOVA или GLM, если численность в группах разная) включив в анализ те клинико-демографические показатели, которые оказались различными и переменную, указывающую на принадлежность к одной и другой группам. Зависимая переменная - Ваш показатель АД. Если в моделе переменная, указывающая на принадлежность к группе окажется значимой, значит она "работает" даже после (статистического) контроля влияния других клинико-демографических факторов. Если нет - значит различия между группами являлись следствием их несбалансированности по другим факторам.
Не совсем понятно. Если зависимая переменная меняется (Вам надо проанализировать другую переменную, не АД), то просто заменяете АД на нее и оставляете все факторы в модели (пол, возраст, уровень АД и т.п.). Несколько более неприятно то, что эти факторы распределены не нормально. Однако тут надо задать вопрос, откуда известно, что они распределены не нормально. Проблема в том, что многие авторы (в том числе подсказок к статистическим программам) предлагают определять нормальность на основе изучения распределения в выборке (т.е. у Ваших пациентов). Если о популяции ничего не известно, то это, конечно, возможный подход, однако высока вероятность того, что Вы будете считать распределение ненормальным, а выборка будет из нормального распределения. Если есть время можете сделать так (если нет, поверьте мне на слово), сгенерируйте в программе популяцию с нормальным распределением, а затем возьмите из нее выборки и посмотрите на внешний вид распределения в этих выборках, особенно, если численность будет человек 35-40. Большое количество будет выглядеть как ненормальное распределение.
Все статистические тесты базируются на предположении о форме распределения в ПОПУЛЯЦИИ, а не в выборке. Так что, во многих случаях страх перед ненормальностью распределения преувеличен (используйте дисперсионный анализ и живети спокойно).
Если Вы убеждены, что в популяции распределение ненормальное, то надо попробовать следующие подходы: (1) попытаться трансформировать переменные и сделать их распределение нормальным ((а)взять величины, обратные имеющимся (1/х); (б) прологарфмировать исходные величины; (в) извлечь из них квадратный корень). Если это не помогает, можно заменить значения на ранги (в программах есть соответствующая функция). Если распределение ненормальное и имеет т.н. "тяжелые хвосты", то вот тут, действительно есть проблема. При описании средних и дисперсии используются обрезанные или винзоризированные показатели, а для анализа - bootstrap (методы с интенсивным использованием ЭВМ). Однако, сказав все это, хочу Вас успокоить, крайне редко колебания ошибки 1 рода (то, что более известно как р) будут значительными (т.е. было 0,3, а стало 0,01). Обычно колебания в районе 0,01-0,03 (любой может это сам проверить в вычислительном эксперименте). Поэтому, если Вы ошиблись с определением характера распределения, то при использовании дисперсионного анализа сильно Вы не промахнетесь (если только не будете считать, что р=0,049 - есть доказательства гипотезы, а р=0,051 - нет).
МЫСЛИ ПРО СЕБЯ: Ну почему же не преподают аспирантам биостатистику, преподают и некоторых даже насильно загоняют Просто места знать надо
Уважаемый плав, спасибо Вам за консультацию. Если у Вас будет возможность мне ответить на пару вопросов, я буду Вам очень признателен. Я следую Вашим рекомендациям, использую дисперсионный анализ ANOVA. Получается, что влияние факторов, которых мне надо подтвердить, статистически значимо, а другие факторы (то самое АД) незначимо. Но в целом вся построенная модель регрессионного анализа статистически незначима. Как быть в этой ситуации.
Второе. Учитывая ненормальное распределение признаков в выборке (в популяции никак знать не могу) может использовать нелинейный регрессионный анализ (логистическая регрессия), который устанавливает связь между бинарным и другими признаками, для которых, как я понимаю, распределение неважно.
И еще, простите - уже третий вопрос, можно ли мне все-таки для сравнения двух этих групп, которые несопоставимы по уровню АД (но по полу, возрасту и т.д. сопоставимы), использовать критерий Манна-Уитни (с ненормальным распределением), а для показателей, которые обнаружат статистически значимые отличия, дополнительно провести дисперсионный анализ, т.е. доказать, что на эти показатели АД влияние не оказывает. Заранее спасибо.
1. Любой дисперсионный анализ начинается с оценки модели в целом (в первом вопросе речь шла о дисперсионном, не регресионном анализе, наверное, Вы описались, или речь идет о двух моделях?). В принципе, если у Вас и качественные и количественные влияющие переменные (например, пол, возраст, АД, группа воздействия), то Вы используете множественный дисперсионный анализ с ковариантами (MANCOVA или GLM) - это смесь дисперсионного и линеного регресионного анализоа. Если суммарно модель недостоверно, это означает, что ни один фактор не связан с исходом и на этом анализ заканчивается. Обратите однако внимание на то, что у Вас могут влиять сочетания факторов (например, АД и фактор воздействия). Как указывать сочетания зависит от программы, в которой Вы работаете, обычно что-то вроде SBP treat trea*SBP (т.е. отдельно сист.АД, отедльно лечение, вместе сист. АД и лечение). Лишь в том случае, если суммарная модель достоверна, можно смотреть на влияние отдельных факторов (и если в этом случае влияние, например АД не значимо - это уже не важно).
2. Логистическая модель предполагает качественный (бинарный) зависимый признак. Соответственно, она решает абсолютно иную задачу в отличие от дисперсионного анализа, где зависимый признак - количественный. Иными словами, влияние лечение на АД - задача для дисперсионного анализа, влияние лечения на исход (умер-не умер) - для логистической. Кроме того, для независимых переменных распределение все-таки важно, поэтому просто считать, что с использованием логистической регрессии все легко нельзя.
3. Не совсем понял вопрос, поскольку чем поможет критерий Мэнна-Уитни (для сравнения двух групп) в случае, если существует третий, вмешивающися фактор? (АД). Если Вы их сравните по МУ, то эффект от различий в уровне АД никуда не уйдет. Единственный варинат, который я могу предложить, чтобы воспользоваться МУ, это вначале сделать регресионный анализ (зависимость исхода от АД). Затем сохранить "остатки" (residuals), после этого сделать сравнение этих самых остатков в двух группах. Регресионный анализ исключит влияние АД, соответственно группы будут (надеемся) сопоставимыми (кстати, описанный выше подход, это, что делает втихоря программа дисперсионного анализа с ковариантами).
Спасибо, плав, за ответ. От дисперсионного анализа, а также от ковариационного (MANCOVA), решил отказаться полностью. Во-первых, две влияющие независимые переменные (качественная и количественная - обе характеризуют АД), оказались между собой статистически связаны, этого, как я понимаю, не допускает дисперсионный анализ. Во-вторых, условия нормального распределения (конечно, логарифмирование помогает) и равенства дисперсий выполнить, как оказалось, нелегко. В третьих, я не учел, наверное, самое главное - деление пациентов на стадии болезни. В этом случае все клинико-демографические показатели у выделенных подгрупп больных "внутри определенной стадии" оказались полностью сопоставимы и я с чистой совестью доказываю свои гипотезы с помощью Манна-Уитни. Кстати, использовал стадию болезни как независимую переменную в многофакторном анализе, но она тоже оказалась связанной с другими независимыми факторами (показателями АД), что вполне объяснимо.
Думаю, что так будет правильно. Тем не менее, благодаря Вам, стал немного разбираться в методах системного анализа и в будущем попробую их использовать. Спасибо.
На самом деле если две переменные связаны дург с другом, то дисперсионному и регресионному анализу это не мешает (собственно, именно для устранения этих связей многофакторные модели и задуманы).
Если группы оказались сбаланcированы, то, в принципе, можно и не делать многомерный анализ (но только в том случае, если они полностью сбалансированы, т.е. одинаковы не только средние, но и распределения независимых факторов внутри групп). Именно поэтому, если исследование исходно не было рандомизированным (РКИ), то принято все-таки выполнять многомерный анализ. Хотя, естественно, это уже право автора (на Совете вопрос о том, почему не сделали многомерный анализ кто-нибудь вряд ли задаст ).
На всякий случай (скорее для тех, кто еще будет читать эту ветку) повторюсь, что не надо абсолютизировать выбор теста в зависимости от проверки на нормальность. Не стоит считать, что использовав тест Мэнна-Уитни (или иной друго непараметрический тест) вместо t-теста будут получены принципиально иные результаты. Отнюдь. Все то же самое, что и при использовании t-теста, новой информации ни грамма (не говоря уж о том, что непараметрика порождает свои проблемы - самая очевидная, вы уже не сравниваете средние в группах, а медианы, т.е. в таблицах - формально - уже надо писать медиану и межквартильное растояние, а не знаменитые M+/-m).
Форум Invision Power Board (http://www.invisionboard.com)
© Invision Power Services (http://www.invisionpower.com)