Форум врачей-аспирантов

Здравствуйте, гость ( Вход | Регистрация )

 
Добавить ответ в эту темуОткрыть тему
> трудности выбора метода))
Sham
сообщение 3.08.2010 - 23:23
Сообщение #1





Группа: Пользователи
Сообщений: 6
Регистрация: 3.08.2010
Пользователь №: 22651



привет))оч нужен совет)) Я тут все никак не могу решить - какими методами пользоваться, если сравниваемые данные не метрические и не качественные. Т.е. у меня есть некие средние (измеряется латентный период попыток, в секундах, максимум - 15 сек, дальше засчитывается как неудачная попытка), в которые потом вводятся поправки с помощью формулы (для учета удачные/неудачные попытки : к=неуд.попытки/общее кол-во попыток)- результирующая - это средняя *к
можно ли итог считать таким же метрическими данными и сравнивать например с помощью ANOVA?
или мож кто ссылку кинет, где про это почитать))
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
плав
сообщение 4.08.2010 - 09:37
Сообщение #2





Группа: Пользователи
Сообщений: 1013
Регистрация: 4.10.2006
Пользователь №: 1933



Цитата(Sham @ 4.08.2010 - 00:23) *
привет))оч нужен совет)) Я тут все никак не могу решить - какими методами пользоваться, если сравниваемые данные не метрические и не качественные. Т.е. у меня есть некие средние (измеряется латентный период попыток, в секундах, максимум - 15 сек, дальше засчитывается как неудачная попытка), в которые потом вводятся поправки с помощью формулы (для учета удачные/неудачные попытки : к=неуд.попытки/общее кол-во попыток)- результирующая - это средняя *к
можно ли итог считать таким же метрическими данными и сравнивать например с помощью ANOVA?
или мож кто ссылку кинет, где про это почитать))

Во-первых антонимом слова "метрический" является "имперский" (единицы измерения), а не "качественные". Поэтому первая рекомендация - взять любую книгу по статистике и разобраться, какие типы данных бывают. Тогда сразу станет легче вопросы задавать.
Во-вторых, у Вас временные данные с цензурированием, их и надо использовать - при помощи анализа выживаемости (failure time models). Использовать подход, который Вы предлагаете не правильно, поскольку Вы отбрасываете ошибку латентного периода (обнуляете). Если у Вас количество попыток несколько десятков, то тогда такая замена еще хоть немного, но обоснована. Если меньше десятка - нет (методика оценки идет из середины прошлого столетия, когда про смешанные модели было неизвестно - по крайней мере за пределами узкого круга).
В том случае, если у Вас много попыток и Вы очень хотите считаеть по формуле, то в любом случае без трансформации здесь дисперсионный анализ не подойдет, поскольку средняя рассчитывается на обрезанном интервале (кстати, с обоих концов). Соответственно, надо использовать непараметрические аналоги дисперсионного анализа.
Чтобы "про это почитать" начните со Стэнтона Гланца, когда разберетесь с нормальными моделями и обычным дисперсионным анализом, начинайте искать методы анализа переменных, ограниченных интервалом с (скорее всего) экспоненциальным распределением ошибок.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Sham
сообщение 4.08.2010 - 10:18
Сообщение #3





Группа: Пользователи
Сообщений: 6
Регистрация: 3.08.2010
Пользователь №: 22651



Спасибо большое, теперь понятно в каком направлении искать)) про типы данных,сорри, я не так выразилась - я не могла понять по какой шкале она измерена - номинативной, порядковой, интервальной, абсолютной. Но сейчас поняла, что это не тот вопрос)))
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
плав
сообщение 4.08.2010 - 11:00
Сообщение #4





Группа: Пользователи
Сообщений: 1013
Регистрация: 4.10.2006
Пользователь №: 1933



Цитата(Sham @ 4.08.2010 - 11:18) *
Спасибо большое, теперь понятно в каком направлении искать)) про типы данных,сорри, я не так выразилась - я не могла понять по какой шкале она измерена - номинативной, порядковой, интервальной, абсолютной. Но сейчас поняла, что это не тот вопрос)))

Если будете использовать формулу, придется считать шкалу ординальной (то, что Вы называете порядковой) и терять в мощности, хотя, в принципе, это - шкала отношений (видимо, то, что Вы называете абсолютной) - у времени есть абсолютный ноль, соответственно, можно рассчитывать отношения (не то, чтобы это сильно помогло в сравнении с интервальной шкалой, но тем не менее).
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Sham
сообщение 4.08.2010 - 12:03
Сообщение #5





Группа: Пользователи
Сообщений: 6
Регистрация: 3.08.2010
Пользователь №: 22651



раз уж появилась возможность еще спрошу))) являются ли корректными расчеты такого типа: допустим у нас есть 20 подопытных,причем среди них мы можем выделить группы: 10 - с характеристикой А, 10 - с В, с другой стороны в группе А - 5 с характеристикой С, 5 - с D, так же и в В. Можно ли сравнивать тот же латентный период группы, разделив сначала их как А/В(nA=10,nB=10), а потом искать различия между С/D (nC=10, nD=10)? или достоверность меняется при таких измерениях? меня в особенности интересуют непараметрические критерии (типа Манн-Уитни,тк на нормальность данные я не проверяла). или лучше использовать что-то другое, например, какой-то непараметрический аналог многофакторного anova?
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
плав
сообщение 4.08.2010 - 15:04
Сообщение #6





Группа: Пользователи
Сообщений: 1013
Регистрация: 4.10.2006
Пользователь №: 1933



Цитата(Sham @ 4.08.2010 - 13:03) *
раз уж появилась возможность еще спрошу))) являются ли корректными расчеты такого типа: допустим у нас есть 20 подопытных,причем среди них мы можем выделить группы: 10 - с характеристикой А, 10 - с В, с другой стороны в группе А - 5 с характеристикой С, 5 - с D, так же и в В. Можно ли сравнивать тот же латентный период группы, разделив сначала их как А/В(nA=10,nB=10), а потом искать различия между С/D (nC=10, nD=10)? или достоверность меняется при таких измерениях? меня в особенности интересуют непараметрические критерии (типа Манн-Уитни,тк на нормальность данные я не проверяла). или лучше использовать что-то другое, например, какой-то непараметрический аналог многофакторного anova?

Теоретически, как первый этап анализа, сравнивать отдельно по признаку А/В, потом по признаку C/D можно. Однако, они, скорее всего будут коррелированы, поэтому придется использовать многомерную модель. И вот тут - сюрприз, сюрприз - аналогов Мэнна-Уитни нет (Краскела-Уоллиса - однофакторный дисперсионный анализ. Конечно, есть многомерные робастные методы, но они мало где реализованы, много допущений и т.п.).
Я уже устал повторять - хотите использовать непараметрику (МУ) - вначале сделайте большой РКИ, где не надо будет переживать из-за дисбаланса факторов. Если факторов влияния несколько придется напрягаться и выяснять, какой тип распределения в Ваших данных (не обязательно нормальность - может быть распределение Вейбулла, Гомперца, exp и еще десяток других, каждое из которых позволяет использовать использовать параметрические методы) и создавать параметрическую модель.
Учитывая "обрезанность" Ваших данных, мне кажется, что единственной возможностью, если у Вас более одного влияющего фактора, является как упомянуто выше модель выживаемости (время до реакции), смешанного типа (если я правильно понял, у каждого испытуемого несколько попыток) с испытуемым как случайным фактором и фиксированными факторами АВ и CD.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Sham
сообщение 4.08.2010 - 17:36
Сообщение #7





Группа: Пользователи
Сообщений: 6
Регистрация: 3.08.2010
Пользователь №: 22651



Спасибо огромное))) Я биолог и в нашем курсе биоинформатики почему-то ничего про цензурированные данные и модели выживаемости не говорилось...Пойду, значит, читать rolleyes.gif
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
плав
сообщение 4.08.2010 - 20:58
Сообщение #8





Группа: Пользователи
Сообщений: 1013
Регистрация: 4.10.2006
Пользователь №: 1933



Цитата(Sham @ 4.08.2010 - 18:36) *
Спасибо огромное))) Я биолог и в нашем курсе биоинформатики почему-то ничего про цензурированные данные и модели выживаемости не говорилось...Пойду, значит, читать rolleyes.gif

Потому, что это курс (био) информатики, а не статистики smile.gif Если серьезно, их еще иногда называют моделями отказов (time failure, в промышленной литературе).
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
vra4-aspirant
сообщение 5.08.2010 - 07:14
Сообщение #9





Группа: Пользователи
Сообщений: 5
Регистрация: 22.07.2010
Пользователь №: 22619



Привет.Очен нужен совет.Подскажите пожалуйста чайнику каким методом нужно пользоваться.У меня 3 группы(ретроспективное исследование):одна основная-в ней 200 человек,две контрольные(контрольная 1-100 человек, контрольная 2- 370 человек).Как мне их сравнить между собой?Количество заболеваний более 10.Спасибо!
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
плав
сообщение 5.08.2010 - 12:48
Сообщение #10





Группа: Пользователи
Сообщений: 1013
Регистрация: 4.10.2006
Пользователь №: 1933



Цитата(vra4-aspirant @ 5.08.2010 - 08:14) *
Привет.Очен нужен совет.Подскажите пожалуйста чайнику каким методом нужно пользоваться.У меня 3 группы(ретроспективное исследование):одна основная-в ней 200 человек,две контрольные(контрольная 1-100 человек, контрольная 2- 370 человек).Как мне их сравнить между собой?Количество заболеваний более 10.Спасибо!

Так Вы же задавали этот вопрос в другой ветке. Вы задачу сформулируйте, что Вы хотите найти? Что группы по 10 заболеваниями не отличаются (отличаются) друг от друга? По каким конкретно заболеваниями отличаются группы? Ответ на то, каким методом надо пользоваться зависит от цели исследования, а не от имеющихся материалов.
Важны конкретные заболевания или их число? Заболевания сильно отличаются друг от друга по этиологии/патогенезу или нет? Ну и т.д.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
vra4-aspirant
сообщение 5.08.2010 - 20:19
Сообщение #11





Группа: Пользователи
Сообщений: 5
Регистрация: 22.07.2010
Пользователь №: 22619



Конкретно к сожалению о теме я ничего сказать не смогу.Есть группы+есть экстрегенитальные,гинекологические заболевания,течение беременности по триместрам,исходы беременности.Я вычислила проценты для каждой патологии,в каждой группе.Меня интересует как их сравнить между собой,ведь колическтво людей в группах разное?Что мне делать?Насколько достоверны полученные результаты?Есть ли конкретный метод применительно к данному случаю?Спасибо!
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
плав
сообщение 6.08.2010 - 17:28
Сообщение #12





Группа: Пользователи
Сообщений: 1013
Регистрация: 4.10.2006
Пользователь №: 1933



Цитата(vra4-aspirant @ 5.08.2010 - 21:19) *
Конкретно к сожалению о теме я ничего сказать не смогу.Есть группы+есть экстрегенитальные,гинекологические заболевания,течение беременности по триместрам,исходы беременности.Я вычислила проценты для каждой патологии,в каждой группе.Меня интересует как их сравнить между собой,ведь колическтво людей в группах разное?Что мне делать?Насколько достоверны полученные результаты?Есть ли конкретный метод применительно к данному случаю?Спасибо!

К какому данному случаю? Сравнить десять показателей в трех группах? Да, был описан еще в той ветке - обычное сравнение долей (Клоппера-Пирсона или Агрести-Коула - попарно с контролем), но с уровнем достоверности в 20 раз ниже номинального уровня в 0,05 (т.е. с 0,0025).
А вот если бы исследование было адекватно спланировано, то тогда бы модель могла бы выглядеть так - исходы беременности зависят от принадлежности к группе и вмешивающегося влияния экстрагенитальных и гинекологических заболеваний. Если вопрос сформулирован адекватно, то тогда метод - логистическая регрессия (с нормальным уровнем достоверности).
Но, если не сформулировать цель исследования, тогда используется подход 1, с высокой степень вероятности дающий ответ р>0,0025 для всех сравнений, что означает, что исследование не достаточно мощное для ответа на какие-бы то ни было вопросы.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Sham
сообщение 4.09.2010 - 21:19
Сообщение #13





Группа: Пользователи
Сообщений: 6
Регистрация: 3.08.2010
Пользователь №: 22651



я тут читаю потихоньку, но не все доходит) в общем вопрос - обычно в учебниках рассматриваются случаи (я, например, про дисперсионный анализ, но вопрос по всем методам), когда у нас есть 2 выборки по N испытуемых и каждому испытуемому соответствует значение зависимой переменной (тот же латентный период) и определена его принадлежность к одной из градаций какого-либо фактора (независимая переменная) - далее мы вычисляем средние, дисперсии и сравниваем. А если у меня у каждого испытуемого 25 попыток - вычислять среднее этих 25-ти попыток, а потом среднюю по выборке? получится какая-то средняя средних... wt.gif у меня в опытах у животного всегда много попыток, тк велика вероятность, что он отвлечется, случайно нажмет на педальку и тп. как это учитывать? то же про анализ выживаемости - я так поняла мне нужна модель выживаемости смешанного типа, для учета этих 25 попыток, но чет в Гланце ничего про это нет, а интернет заводит куда-то не туда... как это будет называться на англ. может в англоязычной лит-ре покопаться? и неужели, если эксперимент ограничен во времени, всегда необходимо использовать анализ выживаемости?
нельзя, допустим, проверить отличаются ли выборки по "решабельности" (ну, по тому, сколько животных не справилось с тестом в 1 выборке и сколько во второй) и если они не отличаются, уже сравнивать латентные периоды дисперсионным анализом без учета не справившихся с заданием животных? а еще в одной из работ с похожим экспериментом (там попытка длилась максимум 5 минут) авторы приписывали животному. не справившемуся с тестом все эти 300 секунд, правильно ли это, можно ли получить таким способом достоверные результаты?
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
плав
сообщение 4.09.2010 - 22:42
Сообщение #14





Группа: Пользователи
Сообщений: 1013
Регистрация: 4.10.2006
Пользователь №: 1933



Цитата(Sham @ 4.09.2010 - 22:19) *
я тут читаю потихоньку, но не все доходит) в общем вопрос - обычно в учебниках рассматриваются случаи (я, например, про дисперсионный анализ, но вопрос по всем методам), когда у нас есть 2 выборки по N испытуемых и каждому испытуемому соответствует значение зависимой переменной (тот же латентный период) и определена его принадлежность к одной из градаций какого-либо фактора (независимая переменная) - далее мы вычисляем средние, дисперсии и сравниваем. А если у меня у каждого испытуемого 25 попыток - вычислять среднее этих 25-ти попыток, а потом среднюю по выборке? получится какая-то средняя средних... wt.gif у меня в опытах у животного всегда много попыток, тк велика вероятность, что он отвлечется, случайно нажмет на педальку и тп. как это учитывать? то же про анализ выживаемости - я так поняла мне нужна модель выживаемости смешанного типа, для учета этих 25 попыток, но чет в Гланце ничего про это нет, а интернет заводит куда-то не туда... как это будет называться на англ. может в англоязычной лит-ре покопаться? и неужели, если эксперимент ограничен во времени, всегда необходимо использовать анализ выживаемости?
нельзя, допустим, проверить отличаются ли выборки по "решабельности" (ну, по тому, сколько животных не справилось с тестом в 1 выборке и сколько во второй) и если они не отличаются, уже сравнивать латентные периоды дисперсионным анализом без учета не справившихся с заданием животных? а еще в одной из работ с похожим экспериментом (там попытка длилась максимум 5 минут) авторы приписывали животному. не справившемуся с тестом все эти 300 секунд, правильно ли это, можно ли получить таким способом достоверные результаты?

Обычно в таких экспериментах не обращают внимания на то, что используется показатель времени (из-за сложности моделей выживаемости, хотя сейчас это преодолимо). Надо посмотреть вначале как распределены времена латентности. Если они не очень обрезаны (т.е. примерно колоколообразная картинка получается), то тогда можно попробовать апрроксимировать распределение времен латентности нормальным. Однако если "хвосты" будут большими так не получится.
Поскольку у Вас 25 измерений на одно животное, соответственно речь идет о смешанных моделях при которых номер животного выступает как случайный фактор. Модели выживаемости со смешанными факторами разработаны, но не очень распространены (обычно человек все-таки умирает только один раз), поэтому, возможно, при таком количестве повторов придется идти на "обычную" линейную модель с повторными измерениями (случайными факторами). Однако возникнет проблема этих 300 секунд. Если таких животных немного, то замена на 300 хоть и не хороша, но может и не привести к серьезным смещениям (правда, если нет подгруппы с латентным периодом 3000 секунд).
По большому счету лучше было бы тогда вообще "обрезать" данные - т.е. отбросить как наибольшие, так и наименьшие значения (trimmed/winsorized), т.е. если есть посkедовательность
1 2 20 50 200 290 >300 >300, ее заменяют на
20 20 20 50 200 290 290 290
однако в этом случае, допущение нормальности летит и поэтому оценки обычной модели оказываются смещенными и надо использовать bootstrap и затем смотреть на распределение значений статистик для коэффициентов.
К сожалению, это уровень, значительно превышающий уровень Гланца frown.gif , посему может быть проще будет попытаться использовать стратифицированный вариант модели Кокса или параметрической модели выживаемости.
На самом деле здесь надо как следует смотреть на исходные данные.


Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Sham
сообщение 4.09.2010 - 23:45
Сообщение #15





Группа: Пользователи
Сообщений: 6
Регистрация: 3.08.2010
Пользователь №: 22651



Мда...обработка данных оказалась намного сложнее, чем сам эксперимент))) Спасибо за ответ, пойду думать wt.gif
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 

Добавить ответ в эту темуОткрыть тему