Одни и те же пациенты в базе данных - Форум врачей-аспирантов

Здравствуйте, гость ( Вход | Регистрация )

Форум врачей-аспирантов » Разделы форума » Медицинская статистика

Одни и те же пациенты в базе данных

nokh Просмотр профиля	2.05.2016 - 12:06 Сообщение #1
Группа: Пользователи Сообщений: 1219 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704	Повезло заполучить для анализа достаточно большую базу данных. Но наряду с радостями надёжности получаемых выводов столкнулся с рядом трудностей впервые. 1) Многие из моих любимых пакетов начиная с PAST оказывается не в состоянии обсчитать даже 1% всех наблюдений. Пришлось сильно двинуться в сторону R. 2) Собственно о чём тема. Некоторые пациенты присутствуют в базе многократно: где-то от 2 до 30 раз, при среднем около 2,5. Получается, что 35% базы - уникальные пациенты, а 65% это они же, сдававшие анализы ещё раз, два, 3 ... 30 раз. Взять только первые посещения и удалить 65% - непозволительная роскошь для любого размера базы. Усреднить данные в пределах пациента - тоже неправильно, т.к. от посещения к посещению есть какая-то динамика - вероятно, связанная с параллельным лечением. Ситуация осложняется тем, что набор показателей раз от раза тоже не очень жёсткий: скажем первый раз - простенький анализ на 3 показателя, а далее - более развёрнутый или наоборот. Мне нужно найти наиболее общие закономерности изменения показателей в зависимости от возраста, пола, сезона, беременности. Также поискать связи между показателями. Получается, что проще всего работать с данными, как с уникальными пациентами, не обращая внимания на частично зависимый характер выборок в разных категориях анализа. Т.е. сделать единицей наблюдения не пациента, а строку базы данных. Но это неправильно со статистической точки зрения, по крайней мере я затрудняюсь в таком случае очертить генеральную совокупность. Кто анализировал базы данных, поделитесь, пожалуйста, опытом: как вы выходили из этой ситуации с одними и теми же пациентами. Может у кого-то есть не опыт, но полезные замечания или идеи...

Ответов

ogurtsov Просмотр профиля	2.05.2016 - 13:04 Сообщение #2
Группа: Пользователи Сообщений: 127 Регистрация: 15.12.2015 Пользователь №: 27760	Цитата(nokh @ 2.05.2016 - 12:06) где-то от 2 до 30 раз, при среднем около 2,5. Вот он, ключ к решению проблемы. Могу предположить, что почти все пациенты попадут в категорию сдававших анализы не больше 4 или 5 раз. Тогда нужно будет отбросить пару процентов всех остальных и работать с оставшимися. С другой стороны, такую же процедуру можно проделать с показателями. Те из них, которые измерялись в основном по одному разу, заведомо не нужны - по ним динамика отсутствует. В итоге останется таблица, где пропусков будет значительно меньше, и можно уже даже попробовать их каким-то образом восполнить. А вообще задача чем-то похожа на классическую задачу машинного обучения - построение рекомендательной системы для фильмов. Биостатистика и язык R

Сообщений в этой теме

nokh Одни и те же пациенты в базе данных 2.05.2016 - 12:06

ogurtsov Цитата(nokh @ 2.05.2016 - 12:06) где... 2.05.2016 - 13:04

ogurtsov Цитата(nokh @ 2.05.2016 - 12:06) Мне... 2.05.2016 - 13:11

p2004r Цитата(nokh @ 2.05.2016 - 12:06) Пов... 2.05.2016 - 13:15

DrgLena Программа может обработать 1% базы данных, на мой ... 3.05.2016 - 11:22

passant Получив в руки такое богатство - грех его не испол... 5.05.2016 - 10:36

DoctorStat Выше drgLena уже упоминала про запросы к базам дан... 10.05.2016 - 16:25

nokh Благодарю всех за мнения и советы! Работа сдел... 6.06.2016 - 15:01

« Предыдущая тема · Медицинская статистика · Следующая тема »

Режим отображения: Переключить на: Стандартный · Переключить на: Линейный · Древовидный

Подписка на тему · Сообщить другу · Версия для печати · Подписка на этот форум