![]() |
Здравствуйте, гость ( Вход | Регистрация )
![]() |
![]()
Сообщение
#1
|
|
Группа: Пользователи Сообщений: 1218 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704 ![]() |
Повезло заполучить для анализа достаточно большую базу данных. Но наряду с радостями надёжности получаемых выводов столкнулся с рядом трудностей впервые.
1) Многие из моих любимых пакетов начиная с PAST оказывается не в состоянии обсчитать даже 1% всех наблюдений. Пришлось сильно двинуться в сторону R. 2) Собственно о чём тема. Некоторые пациенты присутствуют в базе многократно: где-то от 2 до 30 раз, при среднем около 2,5. Получается, что 35% базы - уникальные пациенты, а 65% это они же, сдававшие анализы ещё раз, два, 3 ... 30 раз. Взять только первые посещения и удалить 65% - непозволительная роскошь для любого размера базы. Усреднить данные в пределах пациента - тоже неправильно, т.к. от посещения к посещению есть какая-то динамика - вероятно, связанная с параллельным лечением. Ситуация осложняется тем, что набор показателей раз от раза тоже не очень жёсткий: скажем первый раз - простенький анализ на 3 показателя, а далее - более развёрнутый или наоборот. Мне нужно найти наиболее общие закономерности изменения показателей в зависимости от возраста, пола, сезона, беременности. Также поискать связи между показателями. Получается, что проще всего работать с данными, как с уникальными пациентами, не обращая внимания на частично зависимый характер выборок в разных категориях анализа. Т.е. сделать единицей наблюдения не пациента, а строку базы данных. Но это неправильно со статистической точки зрения, по крайней мере я затрудняюсь в таком случае очертить генеральную совокупность. Кто анализировал базы данных, поделитесь, пожалуйста, опытом: как вы выходили из этой ситуации с одними и теми же пациентами. Может у кого-то есть не опыт, но полезные замечания или идеи... |
|
![]() |
![]() |
![]() |
![]()
Сообщение
#2
|
|
Группа: Пользователи Сообщений: 127 Регистрация: 15.12.2015 Пользователь №: 27760 ![]() |
Мне нужно найти наиболее общие закономерности изменения показателей в зависимости от возраста, пола, сезона, беременности. Также поискать связи между показателями. Если акцентировать именно на закономерностях изменения показателей, то можно поступить следующим образом. Для каждого показателя у каждого пациента в зависимости от числа повторных измерений: 1) Для 2 измерений - рассчитать дельту и поделить на интервал времени между измерениями. 2) Для >2 измерений - построить простейшую линейную модель вида y=ax+b, где y - показатель, а x - время (0, 1 мес., 1.5 мес., 2 мес. и т.д.). Тогда коэффициент при иксе можно интерпретировать как прирост (с соответствующим знаком) показателя за единицу времени. В итоге перейдете к анализу этих самых приростов, то есть для каждого пациента и каждого показателя будет всего 1 значение (или 0 значений, если измерение было однократным). ![]() |
|
![]() |
![]() |
![]() ![]() |