Форум врачей-аспирантов

Здравствуйте, гость ( Вход | Регистрация )

> Критерии сравнения
anteich
сообщение 28.07.2007 - 15:00
Сообщение #1





Группа: Пользователи
Сообщений: 3
Регистрация: 28.07.2007
Пользователь №: 4241



Уважаемые коллеги! Требуется помощь в ответе на вопрос.

Вот такой пример: Две выборки из генеральной совокупности рассмотрены по какому-то определенному признаку. Согласно критерию согласия Пирсона, значения признака одной из выборок распределены нормально, а другой - ненормально. Требуется сравнить выборки при Ho: M(X)≠M(Y), при конкурирующей гипотезе H1:M(X)=M(Y). То есть выявить достоверные различия между значениями признака у двух различно распределенных выборок. Какой критерий нужно при этом использовать?

1. Как известно, параметрические критерии требуют нормального распределения. Если взять, к примеру, t-критерий Стьюдента, то его использование предопределяют два важных условия: нормальное распределение и равенство двух генеральных дисперсий. В случае, если дисперсии не равны, то можно использовать поправку к формуле - так называемую ошибку Беренса-Фишера.

2. Непараметрические методы, тоже вроде как бы не используются при подобных ситуациях. И вообще в литературе подобному вопросу по-моему мало внимания уделяется?

Да, и еще, если есть в программе Statistica решение моей проблемы - опишите, пожалуйста, подробные действия. Заранее спасибо.

С уважением,
anteich.

Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
 
Открыть тему
Ответов
плав
сообщение 2.08.2007 - 10:18
Сообщение #2





Группа: Пользователи
Сообщений: 1013
Регистрация: 4.10.2006
Пользователь №: 1933



Не совсем. Любой статистический анализ строится на предположении о распределении данных в популяции. Для того, чтобы реально оценить это распределение проводятся эпидемиологические исследования, которые позволяют оценить форму распределения показателя в популяции. Соответственно, любое исследование должно начинаться с того, что Вы проводите поиск в литературе исследований, в которых изучалось распределение изучаемого показателя. Если таких данных нет, то у Вас две возможности. Если выборка достаточно большая предположить, что распределение в выборке аналогично распределению в популяции (большая - понятие растяжимое, зависит от гетерогенности объектов - например, пациентов - но обычно речь идет о сотнях, а то и тысячах, наблюдений). тогда Вы проверяете распределение методами анализа распределений и подбираете метод статистического анализа исходя из типа распределения (кстати, хочу заметить, что статистическое тестирование предполагает проверку гипотезы (Но) о том. что выборки из одной популяции, поэтому идея о том, что в двух выборках может быть разное распределение уже сходу противоречит этой гипотезе).
Если у Вас наблюдений не очень много/выборка гетерогенна (пациенты в возрасте от 15 до 80, например), то Вы начинаете делать предположение о форме распределения исходя из общих знаний о предмете. Т.е. Вы можете предположить, что распределение нормально, можете, что оно не нормально и т.п. Типов ненормальных распределений очень много, ряд их является нормализуемыми (т.е. их можно превратить в нормальное распределение путем математических преобразований), тогда подбор соответствующего преобразования можно проводить методом Бокса-Кокса. Можно использовать непараметрические методы тестирования гипотез (но надо хорошо разобраться с их приемлимостью для того или иного распределения и типа гипотезы). Наконец, в последнее время много внимания уделяют смешанным распределениям (название происходит из того факта, что на самом деле распределение образовано в результате смешения нескольких субпопуляций с разными дисперсиями). На таких распределениях непараметрические критерии, распространенные в пакетах прикладных программ "работают" не очень хорошо (т.е. растет вероятность ошибки I типа и/или падает мощность). Поэтому для них рекомендуют использование методик bootstrap, зачастую для сравнения винзоризированных средних (или же используется bootstrap вариант t-теста). При некоторых навыках работы в приличных статистических программах с командным языком эти методики легко самому запрограммировать.
Поскольку медики часто имеют дело с гетерогенными популяциями вероятность смешанного распределения у них выше.
Правда, остается самый главный вопрос - а что Вы потеряете с точки зрения мощности при замене t-теста на что-нибудь непараметрическое или иное статстически продвинутое. Правильный ответ - не много, особенно если сравнивать с потерями от плохого дизайна исследования. например в результате малого количества наблюдений. Да, если у Вас будет р=0,052, используя другие методы анализа можно показать, что при правильных допущениях реальное значение р=0,049. Однако если посмотреть на цифры с позиции правильной оценки результатов исследования или воспользоваться байесовским подходом - результат практически аналогичен... (хотя первый вариант - "не значим", а второй - "значим"). Ну да это отдельная история...
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 

Сообщений в этой теме


Добавить ответ в эту темуОткрыть тему