Помощь - Поиск - Пользователи - Календарь
Полная версия этой страницы: Нужна помощь
Форум врачей-аспирантов > Разделы форума > Медицинская статистика
Magistrantka
Пожалуйста, помогите разобраться

В статистике не сильна, а надо выполнить статистический анализ 2 групп. Первая - атеросклеротики 49 человек, вторая - диабетики 52 человека. В каждой группе измеряли концентрацию ликопина в плазме (по 2 раза). Я химик, с какой стороны подступиться к анализу не представляю, посоветуйте, пожалуйста, что можно сделать с этими данными. Заранее огромное спасибо.
nokh
Цитата(Magistrantka @ 3.01.2009 - 22:11) *
... надо выполнить статистический анализ 2 групп. ...что можно сделать с этими данными.

С данными можно сделать много чего, но это зависит от цели исследования. Из вашего поста цель не ясна, т.к. просто "статистический анализ" это - не цель. Цели: характеристика выборки (описательная статистика), выборочные сравнения (по мерам положения, рассеяния и формы распределения), поиск связей между показателями, поиск зависимостей и др. Какова цель исследования? И опишитие подробнее как проводились эти 2 измерения: одного препарата просто 2 раза подряд, через какой-то интервал времени или как-то еще.
Magistrantka
Эксперимент заключался в следующем: из двух разных клиник были получены препараты крови пациетнов. Первая группа - атеросклеротики, вторая - диабетики. Цель - определить концентрацию ликопина и сравнить данные с результатами других подобных исследований, а так же установить, является ли низкая концентрация ликопина причиной заболевания. Концентрация определялась по 2 раза для каждой пробирки и вычислялось среднее значение. Вот, собственно, и все. Конкретных данных больных нет, только номер, диагноз (атеросклероз или диабет) и концентрация ликопина в плазме.
DrgLena
При таком дизайне вы не докажете причино следственной связи между снижением ликопина и возникновением заболевания. Даже если у вас есть его содержание у здоровых лиц, то вы просто можете сравнить с нормой средние значения ликопина при этих патологиях. Ликопин известен как БАД и, возможно, в случае если он снижен у этих больных, можно обосновать его назначение в комплексном лечении. Но это опять наши догадки про ваш дизайн исследования и опять те ж проблемы, сначала мы что- то измеряем, а затем думаем, зачем мы это делали.
nokh
Цитата(Magistrantka @ 4.01.2009 - 15:36) *
Эксперимент заключался в следующем: из двух разных клиник были получены препараты крови пациетнов. Первая группа - атеросклеротики, вторая - диабетики. Цель - определить концентрацию ликопина и сравнить данные с результатами других подобных исследований, а так же установить, является ли низкая концентрация ликопина причиной заболевания...

Ваше исследование нельзя назвать экспериментом, а причинно-следственные связи возможно установить только в строго контролируемых экспериментах. Поэтому, как уже отметила DrgLena, на вопрос о причине вы не ответите. При таком способе сбора материала который был у вас лучше всего подошло бы исследование случай-контроль. В нем из одной больницы доставлялись бы препараты крови людей и с заболеванием и без заболевания. В этом случае причинность можно было хотя бы предполагать (наличие усойчивых закономерностей связи признаков еще не означает их связи по типу причина-следствие). В вашем случае остается только вычислить для 2-х групп больных показатели описательной статистики: найти среднее, посмотреть характер распределения (для 50 наблюдений можно сделать 7-12 интервалов), если оно симметричное - рассчитать для среднего стандартную ошибку и доверительный интервал. А далее просто сопоставлять эти данные с литературными. Еще по этим данным можно углубиться в методичекую сторону и оценить какая доля в общей изменчивости показателя объясняется индивидуальными различиями между пациентами, а какая - ошибкой измерения. Это делается в путем расчета компонентов дисперсии по результатам дисперсионного анализа. Насколько имеет смысл сравнивать 2 группы с разными заболеваниями между собой - не знаю, т.к. не ориенируюсь в этой области.
плав
Цитата(Magistrantka @ 3.01.2009 - 20:11) *
Пожалуйста, помогите разобраться

В статистике не сильна, а надо выполнить статистический анализ 2 групп. Первая - атеросклеротики 49 человек, вторая - диабетики 52 человека. В каждой группе измеряли концентрацию ликопина в плазме (по 2 раза). Я химик, с какой стороны подступиться к анализу не представляю, посоветуйте, пожалуйста, что можно сделать с этими данными. Заранее огромное спасибо.

Лучше всего ничего не делать, т.к.
1) Пациенты с атеросклерозом. Это не заболевание (точнее, никто не обращается в клинику в связи с атеросклерозом), соответственно, какова была причина обращения - ишемическая болезнь сердца, перемежающаяся хромота, инсульт или что?
2) больные с сахарным диабетом. какого типа? Первого или второго?
3) Какие еще у них были факторы риска, в особенности курение?
4) Как они различались по полу?
5) Особенности питания?
Почему эти все вопросы. Поскольку то, что Вы измеряете поступает с пищей, то, соответственно, если не знать структуру питания, Вы измеряете не эффект заболевания, а разницу питания разных групп. Поскольку идея заключается в том, что ликопины обладают антиоксидантым действием, надо исключить другие прооксидантные воздействия (курение, как минимум). Далее, эстрогены являются слабыми антиоксидантами, но все же. В целом - если не измерены другие показатели и нет хотя бы описанных выше данных, смысла делать какие-бы то нибыло рассчеты нет, поскольку они ничего не означают (я уж не комментирую про роль ликопинов в заболевании - это просто ни в какие ворота не лезет, ИБС сопровождается выбросом большого количества свободных радикалов, поэтому концентрация антиоксидантов ДОЛЖНА быть ниже).
Прежде, чем что-то считать, надо разобраться в теме, в которой проводится исследование, тогда и планирование обработки будет легче. А так - если два измерения в одних условиях, возьмите среднюю двух измерений, а затем сделайте дисперсионный анализ после логарифмической трансформации исходных значений (как все питание-зависимые показатели они должны иметь распределение близкое к логнормальному) с независимыми переменными пол, возраст, группа, потребление томатов, курение (как минимум). Различий, скорее всего, не будет ввиду малочисленности групп.
Magistrantka
Цитата(nokh @ 5.01.2009 - 08:59) *
В вашем случае остается только вычислить для 2-х групп больных показатели описательной статистики: найти среднее, посмотреть характер распределения (для 50 наблюдений можно сделать 7-12 интервалов), если оно симметричное - рассчитать для среднего стандартную ошибку и доверительный интервал. А далее просто сопоставлять эти данные с литературными. Еще по этим данным можно углубиться в методичекую сторону и оценить какая доля в общей изменчивости показателя объясняется индивидуальными различиями между пациентами, а какая - ошибкой измерения. Это делается в путем расчета компонентов дисперсии по результатам дисперсионного анализа. Насколько имеет смысл сравнивать 2 группы с разными заболеваниями между собой - не знаю, т.к. не ориенируюсь в этой области.



Характер распределения, как и следовало ожидать, несимметричный... Имеет ли смысл применить непараметрические методы сравнения для имеющихся выборок? Если да,то какие?
nokh
Если вообще имеет смысл сравнивать группы по средним значениям (см. все предостережения выше) - то проще всего критерий Манна-Уитни. Это - один из наиболее мощных непараметрических тестов. Ограничение - распределения должны быть одинакового типа. Если распределения отличаются, то интереснее проанализировать не столько различия в средних, сколько различия в форме распределений. Это можно сделать разбив ряд значений на n интервалов и подсчитав количество наблюдений в них для обеих выборок. Далее свести данные в таблицу сопряженности 2 х n и проанализировать критерием G-квадрат или хи-квадрат.
DrgLena
Цитата(nokh @ 7.01.2009 - 00:40) *
Если вообще имеет смысл сравнивать группы по средним значениям (см. все предостережения выше) - то проще всего критерий Манна-Уитни. Это - один из наиболее мощных непараметрических тестов.

Разве критерий Манна-Уитни сравнивает группы по средним значениям? Это ранговый критерий, ранги и сравниваются.
nokh
Да, правильнее было сказать, что он сравнивает не средние, а центральную тенденцию, но не обязательно именно ранги. Вообще критерий Манна-Уитни проверяет гипотезу о равентстве функций распределения вероятностей. Эта гипотеза включает в качестве частных случаев равенство медиан и средних значений.
DrgLena
А как при этом правильно представлять результат сравнения? При использовании непараметрических критериев приводят обычно сумму рангов или средние ранги в группах, или медианы и квартили. Можно ли подробнее о возможности проверки средних значений М-У или ссылку.
DoctorStat
Сумма рангов как-то связана с медианами распределений. Должна существовать формула, по которой можно рассчитать доверительный интервал для разности медиан.
Magistrantka
Мои поиски этой формулы (ДИ для разности медиан) ни к чему не привели... Может знаете, где искать?
DoctorStat
Цитата(Magistrantka @ 7.01.2009 - 21:28) *
Мои поиски этой формулы (ДИ для разности медиан) ни к чему не привели... Может знаете, где искать?
Скачайте из интернета книгу: Холлендер М., Вулф Д.А. «Непараметрические методы статистики» изд-во «Финансы и статистика» 1983 г. Смотрите в этой книге главу 4.3 с названием «Свободный от распределения доверительный интервал, основанный на критерии ранговых сумм Уилконсона» (стр.96).
Ваши данные должны удовлетворять следующим допущениям:
1. распределения 2-х выборок: контроля и лечения одинаковы, но сдвинуты на константу (эффект лечения),
2. выборки независимы (в них сидят разные пациенты).
В главе 4.3 этой книги с помощью ранговых сумм показано, как вычислять доверительный интервал для параметра сдвига, задавая уровень значимости альфа. Параметр сдвига при данных допущениях будет равен как разности средних значений, так и разности медиан распределений.

nokh
>DoctorStat
Зачем уводить в дебри от нормального совета и советовать то, что сами никогда не делали? Доверительный интервал нужен для другого. Уже неоднократно на форуме обсуждалось, что сравнение выборок с помощью любых самых точных доверительных интервалов является плохой практикой, т.к. мощность такого теста будет мала и имеет смысл только там, где прямые тесты невозможны. Критерий Манна-Уитни является прямым стандартным тестом и есть во всех пособиях.

>DrgLena
Про работу критерия М-У я почти дословно процитировал фразу из Закс Л. Статистическое оценивание. М.: Статистика, 1976. 598 с. Там написано: "U-критерий Уилкоксона, Манна и Уитни проверяет нуль-гипотезу: две независимые выборки принадлежат одной и той же генеральной совокупности, их функции распределения вероятностей равны: F1(x)=F2(x). Эта гипотеза включает также равенство положений, в частности равенство значений медиан и равенство средних значений." О сравнении функций распределения есть фраза в википедии: http://en.wikipedia.org/wiki/Mann-Whitney_U . Какае параметры приводить рядом с результатми теста? - не думаю что это строго. Наверное любые меры положения, которые более уместны в контексте исследования. Я когда не знаю что за распределение - привожу средние и доверительный интервал для среднего, полученный бутстрэпом или минимум-максимум, а когда знаю, что распределение близко к логнормальному - медиану и квартили (к геометрическому среднему почему-то не привык). Но это уже - мнение, таких рекомендаций я не читал.
DrgLena
nokh, спасибо за ссылку!
DoctorStat
Цитата(nokh @ 8.01.2009 - 00:13) *
Зачем уводить в дебри от нормального совета и советовать то, что сами никогда не делали? Доверительный интервал нужен для другого.
Критерий Манна-Уитни может сказать только, что 2 выборки отличаются законом распределения. Врачу часто этого мало, ему нужно знать насколько они отличаются (разность средних или медиан, вызванных эффектом лечения). После того, как непараметрический, ранговый тест обнаружил отличия в выборках, нужно оценить доверительные интервалы для параметров распределения (среднего, медианы и т.д.). Интерпретацию непараметрических тестов сравнения выборок нужно делать также, как и для параметрических тестов: в терминах значимости р, разности средних (медиан) и доверительного интервала для разности средних (медиан).
DrgLena
Могу я написать по данным представленным на графике, что эффективности одной методики на 0,4 октавы выше, чем другой (р=0,0004 по критерию М-У). Зачем мне еще нужен ДИ к медиане, ведь и так графически приведены все данные и есть оценка р уровня.
Игорь
Цитата(DoctorStat @ 7.01.2009 - 12:58) *
Сумма рангов как-то связана с медианами распределений. Должна существовать формула, по которой можно рассчитать доверительный интервал для разности медиан.


Цитата(Magistrantka @ 7.01.2009 - 21:28) *
Мои поиски этой формулы (ДИ для разности медиан) ни к чему не привели... Может знаете, где искать?


Вот тут алгоритм представлен http://www.lexjansen.com/pharmasug/2000/Coders/cc01.pdf. Достаточно элементарный. В Excel Можно сделать расчет.

Вообще, для ДИ медианы и медианы Ходжеса-Лемана масса источников есть. Привел только один, наиболее компактный и просто изложенный источник. Обратите внимание - весь алгоритм занимает менее 20 строк.

По поводу ДИ для разности средних вот здесь есть формулы http://www.itl.nist.gov/div898/software/da...ar/diffmean.htm. Однако! Предупреждение! При расчете числа степеней свободы для t-распределения в знаменателе формулы 2 ошибки. На (n-1) нужно делить , а не умножать. Остальное все крайне просто.

Еще о разностях, чтобы не ошибиться. Разность средних - это среднее одной выборки минус среднее другой. Однако для медиан это не так очевидно. Разностью медиан является не медиана одной выборки минус медиана другой, а медиана выборки, составленной из попарных разностей всех элементов одной выборки и всех элементов другой.
DrgLena
Здорово, надеюсь, что все это будет в Вашей программе!
Однако, это все верно для анализа двух методов лечения, когда есть до и после в каждой группе, тогда есть попарные разницы. А вопрос был сравнить диабетиков с атеросклеротиками одномоментно, тут нет попарных разниц.
Для просмотра полной версии этой страницы, пожалуйста, пройдите по ссылке.
Форум IP.Board © 2001-2025 IPS, Inc.