Помощь - Поиск - Пользователи - Календарь
Полная версия этой страницы: Как проанализировать группы крыс?
Форум врачей-аспирантов > Разделы форума > Медицинская статистика
micin
Проблема такова: в исследовании участвовало 200 крыс, разделенные на 5 групп, т.е. по 40 крыс в каждой, при этом по 20 из каждой группы подвергались морфологическому исследованию, но там невозможно обрабатывать данные статистически, т.к. дается только описание процесса заживления. А вот оставшиеся 20 наблюдались клинически, при этом можно было оценить:

1) количество погибших в 1-е сутки
2) количество погибших после 24 ч,
3) количество крыс у которых заживление наступило на 14-е сут
4) количество крыс у которых заживление наступило на 21-е сут
5) количество нагноений.

но вот группа маловата по количеству, какие методы анализа лучше использовать.

заранее спасибо.
nokh
Каждый раз когда читаю про такие "исследования" поражаюсь аморальности людей. Замучали 200 зверьков, а ради чего? Ни спланировать толком опыт, ни организовать сбор данных в ходе эксперимента, ни обсчитать потом! Зачем вообще тогда заниматься наукой? Бежать нужно из такой лаборатории - ничему хорошему вас там не научат. Могут научить пыль в глаза пускать и потрясать регалиями - сталкивался с такими "учеными". По анализу - можно использовать критерий хи-квадрат для каждого признака в отдельности: в 5 строках - экспериментальные группы, в 2 столбцах - абсолютные частоты (в штуках) альтернативного признака (выжил-умер, есть нагноение- нет). Если по таблице сопряженности будут статистически значимые отличия от ожидаемых частот - далее можно разбираться за счет чего они образовались. Это можно сделать по стандартизированным остаткам, отклонениям Фримана-Тьюки (Freeman-Tukey deviation) или, приближенно, по 95%-ным доверительным интервалам для относительных частот (в % или долях единицы), которые нужно рассчитать отдельно (на форуме это недавно подробно обсуждалось). По количеству нагноений (если их у животных было по несколько штук) группы можно сравнить с помощью критерия Крускала-Уоллиса.
DrgLena
Да, я полностью поддерживаю оценку качества планирования, которую высказал nokh, более того, хочется напомнить, что существует этический комитет, который должен одобрить дизайн исследования, ведь речь идет об очень серьезных вещах. Не хотелось даже отвечать на вопрос, как статистически проанализировать результаты при таком планировании, хотя вопрос и не был сформулирован четко. Для чего же проводится эксперимент на 200 животных ?
Какие задачи можно было бы поставить в этом эксперименте. Их может быть несколько:
1. Оценить выживаемость в зависимости от воздействия (принадлежности к группе), т.е. сравнить кумулятивные функции выживания в 5 группах, или наоборот, вероятность гибели на каждый период наблюдения (например, час), а не только в одной исследовательской точке (1 сутки). Построить кривые К-М. Назовем это анализом токсичности.
2. Аналогичным образом отметить дни наступления заживления у каждого выжившего животного, и для сравнительного анализа использовать также множительные оценки (К-М), а не две точки 14 и 21 сутки. Назовем это анализом лечебного эффекта.
3. А дальше, еще сложнее, для чего делали морфологию? Без соответствующей формализации морфологических признаков, вы не сможете описать, чем отличались 5 групп по морфологии и связать токсический или лечебный эффект с морфологией.
4. Проранжировать 5 групп по двум откликам - токсичность и лечебный эффект и выбрать лучшие сочетания.


micin
по поводу спланировать и потом делать исследование это конечно правильно, но в моей ситуации была экспериментальная работа по влиянию экзогенного оксида азота на заживление огнестрельной раны и вначале вообще было непонятно будет ли от него польза или вред, поэтому не судите строго. а за советы большое спасибо
DrgLena
А 200 животных вам на этот вопрос ответили?
micin
да, у них раны заживали быстрее с оксидом азота и морфологически выявлены признаки, свидетельствующие о его положительном влиянии, только вот это общая картинка, в ней не

получается выделить признак для анализа и сравнения.
плав
Вообще-то если было даже общее описание процесса заживления его можно стандартизировать - не ахти как здорово делать это post factum, но лучше, чем из 200 крыс анализировать 20. Тем более, что тут не все так красиво, если читать внимательно: данные по умершим в течение 1-х суток есть только у 20 крыс. А тогда морфология делалсь у не умерших крыс, т.е. они прожили больше? Крысы с заживлением на 14-е сутки, а у те, у кого "морфологически" все хорошо не дожили до 14 суток? К сожалению, если эксперимент плохой, то статистику лучше и не использовать - GIGO.
micin
To плав: крыс было всего 200, а разделены они на 5 групп. т.е. по 40 в каждой, при этом 20 из группы выводились из эксперимента для дальнейшего морфологического изучения, а 20 других наблюдались клинически.

При этом в клинике наблюдались следующие параметры,
1)заживление раны на 14 сутки,
2)заживление раны на 21е сутки
3)заживление более 21 суток,
4)число нагноений
5) количество погибших до 24 ч
6) количество погибших после 24ч
плав
Цитата(micin @ 5.12.2008 - 21:57) *
To плав: крыс было всего 200, а разделены они на 5 групп. т.е. по 40 в каждой, при этом 20 из группы выводились из эксперимента для дальнейшего морфологического изучения, а 20 других наблюдались клинически.

При этом в клинике наблюдались следующие параметры,
1)заживление раны на 14 сутки,
2)заживление раны на 21е сутки
3)заживление более 21 суток,
4)число нагноений
5) количество погибших до 24 ч
6) количество погибших после 24ч

Выводились из эксперимента когда? Кроме того, если 20 оставались в исследовании, это дает 100 крыс, объем достаточный для анализа. Правда непонятно, почему анализировалось заживление раны на определенные сутки - видимо исследователи не слышали о методах анализа дожития (именно они тут дали бы наибольшую информацию). А так - практически классический анализ таблиц сопряженности (первая переменная - заживление раны (три уровня: до 14 суток, 14-21, 21 и более) и препараты (группы). Вторая таблица - нагноения против препараты, третья - погибшие (до 24 часов-после-вообще нет). Анализ таблиц - либо пуассонова регрессия, либо тест Кохрана-Мантеля-Ханзеля, либо ординальная логистическая регрессия.
DoctorStat
Таблицы сопряженности обычно анализируют с помощью критерия хи-квадрат или (если количество крыс невелико) точным критерием Фишера.
DrgLena
DoctorStat, а точный критерий Фишера может использоваться для таблиц более, чем 2х2? Здесь 5 групп сравнения. Вопрос в другом, зачем огнестрельное ранение нанесли еще 100 животным для изучения морфологии, если нет представления о том, как эти группы сравнить по морфологии.
DoctorStat
Цитата(DrgLena @ 6.12.2008 - 14:56) *
DoctorStat, а точный критерий Фишера может использоваться для таблиц более, чем 2х2?

Сам я не использовал статистический пакет R, но в книге Crawley M. «The R book» на стр.310 написано: «The fisher.test can be used with matrices much bigger than 2Х2» Эта фраза в вольном переводе на русский означает приблизительно следующее: «Точный критерий Фишера в программе R реализован для таблиц размерностью 2Х2 и больше.
плав
Цитата(DoctorStat @ 6.12.2008 - 10:49) *
Таблицы сопряженности обычно анализируют с помощью критерия хи-квадрат или (если количество крыс невелико) точным критерием Фишера.

Здорово, а то я бы никогда не догадался! Только вот загвоздка, тут переменная (срок заживления) ординальная, а критерий хи2 требует номинальных переменных. Я ведь не случайно написал "ординальная логистическая регрессия", а не номинальная. Настоятельно рекомендую прежде, чем править внимательно прочитать условия задачи и ответ, который пытаетесь "поправить".
Что касается теста Фишера, то были работы, которые демонстрировали использование его для таблиц большего размера:
Mehta, C.R. and Patel, N.R. 1983 "A Network Algorithm For Performing Fisher Exact Test In R X C Contingency-Tables." Journal of the American Statistical Association. 78:427-434.
Сам алгоритм описан тут http://portal.acm.org/citation.cfm?doid=6497.214326
Однако общая гипотеза не меняется, речь идет о неупорядоченных классах, иными словами в данном случае этот критерий также не подходит.
плав
Цитата(DoctorStat @ 6.12.2008 - 15:53) *
Сам я не использовал статистический пакет R, но в книге Crawley M. «The R book» на стр.310 написано: «The fisher.test can be used with matrices much bigger than 2Х2» Эта фраза в вольном переводе на русский означает приблизительно следующее: «Точный критерий Фишера в программе R реализован для таблиц размерностью 2Х2 и больше.

В R реализован тот же алгоритм Mehta & Patel, о котором я писал выше. Аналогичный подход использован в Stata (tab или tabi с опцией exact) и SAS (PROC FREQ с опцией FISHER), StatXact и, думаю, большом числе других программ.
nokh
>DoctorStat
>DrgLena
Если входы таблицы частот представлены не номинальными, а тремя и более упорядоченными категориями (как расположил данные плав), то пирсоновский хи-квадрат и отношение правдоподобия будут консервативны. Плав предложил методы учитывающие упорядоченность, все эти техники - регрессионные. Т.е. сравнивается не только отличие наблюдаемых частот от ожидаемых, но эти отклонения разбиваются на 2 части: объясняемую регрессией и отклонения от нее - за счет этого выигрыш по степеням свободы.
По поводу точного метода Фишера. Знаю, что будут несогласные, т.к. этот вопрос уже поднимался на форуме и все остались при своих мнениях. Sokal & Rohlf (Biometry) дают очень логичную классификацию, которой я придерживаюсь (Книги у меня сейчас нет - не могу посмотреть на кого они ссылаются). Все таблицы 2х2 подразделяются на 3 класса в зависимости от модели анализа.
Модель 1 - количество наблюдений не фиксировано ни по одному входу. Например, высокий и низкий уровень холестерина и частота сердечно-сосудистых заболеваний. Мы можем фиксировать общее количество наблюдений, но не контролируем краевые (marginal) частоты. Используется для анализа связи признаков. Рекомендуемый метод - отношение правдоподобия (G = G-квадрат).
Модель 2 - количество наблюдений фиксировано по одному входу. Например, опыт и контроль и частота клеток с хромосомными аберрациями. Сколько клеток считать мы контролируем сами. Используется для сравнения силы влияния (effect size) входа таблицы. Рекомендуемый метод - отношение правдоподобия.
Модель 3 - количество наблюдений фиксировано по обоим входам. Это очень редкий на практике случай, который может возникнуть, например, при изучении предпочтений. И именно для этой модели теоретически лучше - точный метод Фишера, т.к. там изменяют частоты внутри таблицы, удерживая краевые частоты фиксированными.
Пока не были реализованы точные = перестановочные (exact = permutation) методы анализа таблиц сопряженности, в случае малых ожидаемых не оставалось ничего другого как мудрить с изменением степеней свободы и критических значений хи- или G-квадрат критериев или использовать точный метод Фишера. В настоящее время в этих случаях можно и нужно считать точно. Т.е. для большинства практических задач метод Фишера устарел, т.к. имеет лучшую с теоретической точки зрения альтернативу. Другое дело, что в программах точные методы пока экзотика. Я искал 1-1,5 года назад альтернативу алгоритмам StatXact в среде R - не нашел (SAS и Stata не знаю). Но должно появится, может уже есть.
Для таблиц более чем 2х2 обобщения метода Фишера столь же теоретически ограничены и лучше использовать точные методы. Для больших таблиц сопряженности количество генерируемых для анализа их вариантов исчисляется астрономическими величинами и программа StatXact считает их до десятков минут или не считает вообще (Nonparametrics - Unordered RxC table - Likelihood ratio (или Pearson's chi-square - без разницы, точное значение P будет одинаковым). Для таких случаев в ней есть менее вычислительно ресурсоёмкий метод Монте-Карло.
плав
Цитата(nokh @ 6.12.2008 - 17:23) *
> Я искал 1-1,5 года назад альтернативу алгоритмам StatXact в среде R - не нашел (SAS и Stata не знаю). Но должно появится, может уже есть.
Для таблиц более чем 2х2 обобщения метода Фишера столь же теоретически ограничены и лучше использовать точные методы. Для больших таблиц сопряженности количество генерируемых для анализа их вариантов исчисляется астрономическими величинами и программа StatXact считает их до десятков минут или не считает вообще (Nonparametrics - Unordered RxC table - Likelihood ratio (или Pearson's chi-square - без разницы, точное значение P будет одинаковым). Для таких случаев в ней есть менее вычислительно ресурсоёмкий метод Монте-Карло.

Поскольку у меня StatXact нет, но по литературе он использует тот же самый алгоритм Mehta & Patel, то рассчитайте какой-нибудь пример таблицы сопряженности в StatXact, а я прогоню его в R и Stata (SAS) - по идее должно быть одно и то же.
nokh
Таблица 2х2, df=1

8..... 2
18.....16

Fisher's Exact Test
Hypergeometric Prob. of the table: 0.09633
Asymptotic: Statistic = 2.217, 1-Sided P-Value = 0.06824, 2-Sided P-Value = 0.1365
Exact 2-Sided: Statistic = 2.217, P-Value = 0.1607
Exact 1-Sided: Statistic = 8, P-Value = 0.1211

Pearson Chi-Square Statistic = 2.34
Chi-Square Statistic with Yates CC = 1.355
Asymptotic: Statistic = 2.34, 1-Sided P-Value = 0.06303, 2-Sided P-Value = 0.1261
Exact 2-Sided: Statistic = 2.34, P-Value = 0.1607
Exact 1-Sided: Statistic = 8, P-Value = 0.1211

Likelihood Ratio Test
Asymptotic: Statistic = 2.51, 1-Sided P-Value = 0.05657, 2-Sided P-Value = 0.1131
Exact 2-Sided: Statistic = 2.51, P-Value = 0.1607
Exact 1-Sided: Statistic = 8, P-Value = 0.1211

Таблица 3х3, df=4

8...... 2......0
18.....16.....16
14.....22.....32

Chi-Square Test For Independence
Asymptotic: Statistic = 16.69, 2-Sided P-Value = 0.00222
Exact: Statistic = 16.69, 2-Sided P-Value = 0.001765

Likelihood Ratio Test
Asymptotic: Statistic = 18.41, 2-Sided P-Value = 0.001028
Exact: Statistic = 18.41, 2-Sided P-Value = 0.001442

Fisher-Freeman-Halton Test (Exact)
Hypergeometric Prob. of the table: 1.007e-006
Asymptotic: Statistic = 15.72, 2-Sided P-Value = 0.003424
Exact: Statistic = 15.72, 2-Sided P-Value = 0.002201

Видно, что для таблиц 2х2 точные методы дают одинаковый результат. Но для таблицы 3х3 результаты почему-то уже разные. Почему так - интересно, но больше всего интересует возможность проведения Exact Likelihood Ratio Test в R.
плав
Цитата(nokh @ 6.12.2008 - 19:55) *
Likelihood Ratio Test
Asymptotic: Statistic = 18.41, 2-Sided P-Value = 0.001028
Exact: Statistic = 18.41, 2-Sided P-Value = 0.001442

Fisher-Freeman-Halton Test (Exact)
Hypergeometric Prob. of the table: 1.007e-006
Asymptotic: Statistic = 15.72, 2-Sided P-Value = 0.003424
Exact: Statistic = 15.72, 2-Sided P-Value = 0.002201

Видно, что для таблиц 2х2 точные методы дают одинаковый результат. Но для таблицы 3х3 результаты почему-то уже разные. Почему так - интересно, но больше всего интересует возможность проведения Exact Likelihood Ratio Test в R.

Проверил, с SAS все совпадает, в SAS алгоритм по Mehta (как упоминалось выше)
Что касается теста Фишера в R (тоже по Mehta):
> fisher.test(x)

Fisher's Exact Test for Count Data

data: x
p-value = 0.002201
alternative hypothesis: two.sided
Видно, что один в один с тем, что приведено выше - значит, насчет одного алгоритма я прав.
Тест хи2 точный является симуляционным
chisq.test(x,simulate.p.value=TRUE)

Pearson's Chi-squared test with simulated p-value (based on 2000 replicates)

data: x
X-squared = 16.6902, df = NA, p-value = 0.001999
Значение близко
Теперь что касается точного теста отношения правдоподобий: в R для этого нужен пакет exactLoglin
> mcexact(y~factor(a)+factor(b),data=f)
deviance Pearson
observed.stat 18.405973320 16.690196029
pvalue 0.001991408 0.002380795
mcse 0.105132046 0.117245205
Видно (как во всех логлинейных моделях) deviance и есть LR тест, Pearson - обычный хи2. Поскольку значения симуляционные они отличаются от тех, что приводит StatXact (и SAS), однако близки к результатам точного теста Фишера. Как рассчитать "точные" значения р-оценки по Mehta на основании этих тестов я пока не нашел, может быть, в каком-то пакете и реализованы.

Для просмотра полной версии этой страницы, пожалуйста, пройдите по ссылке.
Форум IP.Board © 2001-2025 IPS, Inc.