Форум врачей-аспирантов

Здравствуйте, гость ( Вход | Регистрация )

 
Добавить ответ в эту темуОткрыть тему
> Сравнение зависимых выборок разного объема
LudmilaS
сообщение 3.05.2013 - 21:33
Сообщение #1





Группа: Пользователи
Сообщений: 8
Регистрация: 3.05.2013
Пользователь №: 24868



Здравствуйте, коллеги!
Хотелось бы уточнить, можно ли для показателей, полученных в одной и той же группе на разных этапах исследования, например, до лечения, через 1 месяц, через 6, 12 и 24 месяца произвести сравнение, если в последующие этапы были выпадения нескольких пациентов из исследования?
Например, исходно, через 1, 6, 12 месяцев в группе было 32 человека, а через 24 месяца явились 28. Распределение признаков неправильное, то есть все расчеты производились с представлением данных в виде медианы и интерквартильного интервала (непараметрич. статистика).
Правомочно ли здесь применять хи-квадрат Фридмана? Правильно ли я понимаю, что статистическая значимость с учетом 5 сравниваемых групп переменных согласно этапам исследования должна рассматриваться с поправкой Бонферрони как p < или = 0,01?
Стоит ли сравнивать показатели каждого этапа с любым другим методом Вилкоксона, чтобы показать, на каком этапе произошло более значимое улучшение? Опять же численность зависимых выборок будет разной.

Или хочешь, не хочешь, но обязательно нужно исключить тех, кто не дошел до конца наблюдения? Выборки тогда обеднеют уже на начальном представлении.

Вроде бы в чужих работах встречался такой вариант: если кто-то "выпадал", то для него брали результаты предыдущих этапов. Но это не совсем корректно, такой пациент не получил положенного по сроку лечение (из-за отмены лекарства).
Где-то видела, по-моему, когда в опросниках отсутствуют ответы так поступают тоже, берут для "выпавшего человека" средний показатель среди тех, чьи данные собраны. Не знаю, делают ли так с медианами?
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
p2004r
сообщение 4.05.2013 - 00:17
Сообщение #2





Группа: Пользователи
Сообщений: 1091
Регистрация: 26.08.2010
Пользователь №: 22699



Цитата(LudmilaS @ 3.05.2013 - 21:33) *
Здравствуйте, коллеги!
Хотелось бы уточнить, можно ли для показателей, полученных в одной и той же группе на разных этапах исследования, например, до лечения, через 1 месяц, через 6, 12 и 24 месяца произвести сравнение, если в последующие этапы были выпадения нескольких пациентов из исследования?
Например, исходно, через 1, 6, 12 месяцев в группе было 32 человека, а через 24 месяца явились 28. Распределение признаков неправильное, то есть все расчеты производились с представлением данных в виде медианы и интерквартильного интервала (непараметрич. статистика).
Правомочно ли здесь применять хи-квадрат Фридмана? Правильно ли я понимаю, что статистическая значимость с учетом 5 сравниваемых групп переменных согласно этапам исследования должна рассматриваться с поправкой Бонферрони как p < или = 0,01?
Стоит ли сравнивать показатели каждого этапа с любым другим методом Вилкоксона, чтобы показать, на каком этапе произошло более значимое улучшение? Опять же численность зависимых выборок будет разной.

Или хочешь, не хочешь, но обязательно нужно исключить тех, кто не дошел до конца наблюдения? Выборки тогда обеднеют уже на начальном представлении.

Вроде бы в чужих работах встречался такой вариант: если кто-то "выпадал", то для него брали результаты предыдущих этапов. Но это не совсем корректно, такой пациент не получил положенного по сроку лечение (из-за отмены лекарства).
Где-то видела, по-моему, когда в опросниках отсутствуют ответы так поступают тоже, берут для "выпавшего человека" средний показатель среди тех, чьи данные собраны. Не знаю, делают ли так с медианами?


1. Все происходит вокруг data imputation.

http://en.wikipedia.org/wiki/Imputation_(statistics)

Удаление этих двух случаев целиком потенциально может исказить результаты (если это некие экстремальные случаи), или понизить мощность теста (гипотеза останется недоказанной на приемлемом уровне значимости). Наиболее правдоподобные значение ввести позволяют многие методы (например randomForest содержит функцию, которая фактически просто пытается предсказать по значениям других случаев пропущенные значения).

2. Природа данных позволят говорить о случае censoring data (например зафиксировав последнее значение достигнутое измеряемым показателем). Например можно строить модели http://cran.r-project.org/web/packages/cen...tes/censReg.pdf Или подогнать распределение http://cran.r-project.org/web/packages/fit...plus/index.html Можно подогнать Mixed-Effects Models http://cran.r-project.org/web/packages/lmec/lmec.pdf


Signature
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
LudmilaS
сообщение 4.05.2013 - 10:38
Сообщение #3





Группа: Пользователи
Сообщений: 8
Регистрация: 3.05.2013
Пользователь №: 24868



Во-первых, приведены ссылки на работы на английском языке, во-вторых, с теоретическими выкладками и формулами. Пока нашла по иностранным видео в Youtube такую возможность в программе Statistica 6 .0 . В программе статистика сверху заголовок в ряду файл и т.д. слева направо в шапке... "ДАННЫЕ", нажимаем на него, а там выбираем "замена
отсутствующих данных". Там можно выбрать все ли пропущенные данные заменить или в конкретном столбике, и не должно быть ниже всех данных
в самой таблице данных пустых строк, иначе в них тоже вписываются эти значения.

Сообщение отредактировал LudmilaS - 4.05.2013 - 11:26
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
p2004r
сообщение 4.05.2013 - 13:33
Сообщение #4





Группа: Пользователи
Сообщений: 1091
Регистрация: 26.08.2010
Пользователь №: 22699



Цитата(LudmilaS @ 4.05.2013 - 10:38) *
Во-первых, приведены ссылки на работы на английском языке, во-вторых, с теоретическими выкладками и формулами. Пока нашла по иностранным видео в Youtube такую возможность в программе Statistica 6 .0 . В программе статистика сверху заголовок в ряду файл и т.д. слева направо в шапке... "ДАННЫЕ", нажимаем на него, а там выбираем "замена
отсутствующих данных". Там можно выбрать все ли пропущенные данные заменить или в конкретном столбике, и не должно быть ниже всех данных
в самой таблице данных пустых строк, иначе в них тоже вписываются эти значения.


какие "выкладки"? это прикладное программное обеспечение. вы лучше скажите что за показатель меряете в эксперименте (и что из себя эксперимент представляет).


Signature
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
LudmilaS
сообщение 5.05.2013 - 11:49
Сообщение #5





Группа: Пользователи
Сообщений: 8
Регистрация: 3.05.2013
Пользователь №: 24868



Это не эксперимент, а сравнительный анализ эффективности препаратов в трех группах, в двух из которых исследуемые лекарства применяются по отдельности, в третьей - в виде комбинации. Есть несколько точек исследования в течение 24 месяцев. И вот на каком-то из этапов - предпоследнем или последнем из-за вывода из исследования кого-то, число пациентов в группе уменьшается, например, на 2 человека. А сравнить нужно зависимые выборки (то есть в пределах одной группы) изменения между точками исследования, для чего и использую метод Фридмана. Только число данных то пошло на уменьшение.
Я не программист , чтобы быть способной использовать то, что выложено выше. Я только могу пользоваться уже имеющей программой Statostica 6.0, теми анализами, что в ней заложены.
Извините, тон не возмущенный у меня, я просто объясняю. Издержки письменного общения в интернете - недопонимание по написанным фразам.

Сообщение отредактировал LudmilaS - 5.05.2013 - 11:50
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
nokh
сообщение 5.05.2013 - 19:22
Сообщение #6





Группа: Пользователи
Сообщений: 1202
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704



Цитата(LudmilaS @ 5.05.2013 - 14:49) *
Это не эксперимент, а сравнительный анализ эффективности препаратов в трех группах, в двух из которых исследуемые лекарства применяются по отдельности, в третьей - в виде комбинации. Есть несколько точек исследования в течение 24 месяцев. И вот на каком-то из этапов - предпоследнем или последнем из-за вывода из исследования кого-то, число пациентов в группе уменьшается, например, на 2 человека. А сравнить нужно зависимые выборки (то есть в пределах одной группы) изменения между точками исследования, для чего и использую метод Фридмана. Только число данных то пошло на уменьшение.
Я не программист , чтобы быть способной использовать то, что выложено выше. Я только могу пользоваться уже имеющей программой Statostica 6.0, теми анализами, что в ней заложены.
Извините, тон не возмущенный у меня, я просто объясняю. Издержки письменного общения в интернете - недопонимание по написанным фразам.

28 человек на последнем этапе - неплохая по объёму выборка для дисперсионного анализа (ДА) с повторными измерениями. Конечно важны и изменчивость показателя, и его распределение, и величина эффекта межгрупповых различий. Но тем не менее. Если и в двух других группах подобные количества - потеря в мощности от выброса части материала будет мизерной и выпавшими людьми можно жертвовать. Но сначала об уже упомянутых выше подходах, что посоветовал вам p2004r.
(1) Множественная импутация - теоретически спорный вариант. Придумать, пусть даже на основе вполне адекватных стат. техник, несуществующие исходно данные и считать далее с ними - как-то не comme il faut. Хотя для сильно "дырявых" матриц данных это - вероятно, единственно возможный вариант хоть как-то обработать зависимые выборки. Рассмотрение пропусков как цензурированных наблюдений (censored data) типа "более чем" для задачи анализа повторных измерений - очень экзотично:). Но в любом случае, Statistica не содержит алгоритмов ни для импутации, ни для ДА с цензурированными данными.
(2) Смешанные модели (Mixed-Effects Models) - наиболее мощный и уместный подход, который позволит без экзотики обработать всё то, что есть: ничего не убирая и ничего не добавляя. В нужном вам варианте его в Statistica нет.
(3) Критерий Фридмана не является полноценным аналогом ДА с повторными измерениями. Во-первых, критерий Квейд мощнее, а во-вторых - нет хороших доступных алгоритмов для апостериорных сравнений групп. + насколько я понимаю, Фридман для статистики всегда ранжирует групповые средние, а не индивидуальные значения - идёт сильное огрубление данных.

Если завязываться на пакет Statistica, то у вас 2 реальных варианта.
(1) Слабый, но простой. Работать Фридманом, предварительно самостоятельно рассчитав групповые средние на временных точках. В этом случае абсолютно не важно сколько человек осталость к концу эксперимента: 32, 28 или 1. Главное чтобы в ячейке стояло число. Если повезёт и всё будет очевидным - на этом можно и ограничиться. Множественные сравнения нужно делать по Неменьи, которых в пакете также нет, поэтому в случае статистической значимости просто смотреть и интерпретировать средние ранги.
(2) ДА с повторными измерениями. Предварительно нужно убрать выпавших людей и подобрать преобразование данных, нормализующее ошибку.

Сообщение отредактировал nokh - 5.05.2013 - 19:37
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
p2004r
сообщение 6.05.2013 - 21:18
Сообщение #7





Группа: Пользователи
Сообщений: 1091
Регистрация: 26.08.2010
Пользователь №: 22699



Цитата(nokh @ 5.05.2013 - 19:22) *
Рассмотрение пропусков как цензурированных наблюдений (censored data) типа "более чем" для задачи анализа повторных измерений - очень экзотично:).


Все зависит от природы измеряемого показателя (к сожалению я так и не понял что мерялось) ... ну например рост измеряли smile.gif Кроме того как еще назвать иначе потерю пациента на последнем этапе исследования?


Signature
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
LudmilaS
сообщение 7.05.2013 - 19:49
Сообщение #8





Группа: Пользователи
Сообщений: 8
Регистрация: 3.05.2013
Пользователь №: 24868



Цитата(p2004r @ 6.05.2013 - 22:18) *
Все зависит от природы измеряемого показателя (к сожалению я так и не понял что мерялось) ... ну например рост измеряли smile.gif Кроме того как еще назвать иначе потерю пациента на последнем этапе исследования?

В наш век борьбы с антиплагиатом в интернете подробнее Вам не опишешь пациентов, а то совпадения найдутся. Речь идет о том, что не пришел пациент в контрольной точке исследования, значит "выпал" из него. И естественно, по нему нет тех клинических, лабораторных, анкетных по опросу данных, которые собирались и на этом этапе у всех, кто участвовал в исследовании. К примеру, нет его данных по продолжительности скованности, СОЭ и т.д., которые оценивались в динамике в течение всего срока наблюдения.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
september_e.yu@m...
сообщение 4.01.2017 - 16:44
Сообщение #9





Группа: Пользователи
Сообщений: 26
Регистрация: 2.10.2010
Пользователь №: 22792



Уважаемый автор сообщения, какой критерий Вы применили для сравнения зависимых выборок разного объема? Нужна Ваша помощь
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
DrgLena
сообщение 8.01.2017 - 10:51
Сообщение #10





Группа: Пользователи
Сообщений: 1325
Регистрация: 27.11.2007
Пользователь №: 4573



Цитата(september_e.yu@mail.ru @ 4.01.2017 - 17:44) *
Уважаемый автор сообщения, какой критерий Вы применили для сравнения зависимых выборок разного объема? Нужна Ваша помощь

зависимых выборок разного объема не бывают, хоть какой то учебник нужно открыть, или в сети поискать, если занимаетесь научными исследованиями.

https://ru.wikipedia.org/wiki/%D0%92%D1%8B%...%80%D0%BA%D0%B0

Если первые измерения сделаны у 100 больных, а через какое то время повторно явились только 30, то узнать как изменился показатель, например после лечения, можно только у этих 30. При этом данные должны быть организованы соответствующим образом,чтобы можно было учесть именно связанность наблюдений
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 

Добавить ответ в эту темуОткрыть тему