![]() |
Здравствуйте, гость ( Вход | Регистрация )
![]() |
![]()
Сообщение
#1
|
|
Группа: Пользователи Сообщений: 1218 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704 ![]() |
Повезло заполучить для анализа достаточно большую базу данных. Но наряду с радостями надёжности получаемых выводов столкнулся с рядом трудностей впервые.
1) Многие из моих любимых пакетов начиная с PAST оказывается не в состоянии обсчитать даже 1% всех наблюдений. Пришлось сильно двинуться в сторону R. 2) Собственно о чём тема. Некоторые пациенты присутствуют в базе многократно: где-то от 2 до 30 раз, при среднем около 2,5. Получается, что 35% базы - уникальные пациенты, а 65% это они же, сдававшие анализы ещё раз, два, 3 ... 30 раз. Взять только первые посещения и удалить 65% - непозволительная роскошь для любого размера базы. Усреднить данные в пределах пациента - тоже неправильно, т.к. от посещения к посещению есть какая-то динамика - вероятно, связанная с параллельным лечением. Ситуация осложняется тем, что набор показателей раз от раза тоже не очень жёсткий: скажем первый раз - простенький анализ на 3 показателя, а далее - более развёрнутый или наоборот. Мне нужно найти наиболее общие закономерности изменения показателей в зависимости от возраста, пола, сезона, беременности. Также поискать связи между показателями. Получается, что проще всего работать с данными, как с уникальными пациентами, не обращая внимания на частично зависимый характер выборок в разных категориях анализа. Т.е. сделать единицей наблюдения не пациента, а строку базы данных. Но это неправильно со статистической точки зрения, по крайней мере я затрудняюсь в таком случае очертить генеральную совокупность. Кто анализировал базы данных, поделитесь, пожалуйста, опытом: как вы выходили из этой ситуации с одними и теми же пациентами. Может у кого-то есть не опыт, но полезные замечания или идеи... |
|
![]() |
![]() |
![]() |
![]()
Сообщение
#2
|
|
Группа: Пользователи Сообщений: 1325 Регистрация: 27.11.2007 Пользователь №: 4573 ![]() |
Программа может обработать 1% базы данных, на мой взгляд, это неверное представление.
Если это действительно база данных, то она определенным образом структурирована. Есть уникальный ключ к пациенту, даты и все остальное. Базы данных могут объединять результаты обследования пациентов в различных подразделениях медицинского центра. Например, оборудование к ОКТ позволяет создавать базу данных определенной структуры (пользователь может ее настроить, что именно ему нужно хранить). Эта база данных может быть объединена с другими базами данных, например иммунологии и биохимии, используя ID. Клиническая часть также заносится при каждом визите пациента. Все это хранится на сервере, к которому из статистической программы вы формируете запрос. Даже программа Statistica умеет это делать (URL запрос). Вам не нужно тащить в рабочий лист программы все, что у вас есть. ВЫ всегда в запросе можете указать условия отбора данных, например, интересует изменение толщины сетчатки в фовеолярной зоне в трех точках наблюдения: начало наблюдения, через 6 мес. и через год. При этом вы хотите сравнить эту динамику в зависимости от вида диабета и двух методов лечения, учитывая еще и влияние возраста. Понятно, что не всегда программисты знают точно, что вам нужны будут именно эти точки. Можно и руками проставить номер визита, например через 5-7 мес будет пол года. Такой подход возможен, если таки да есть база данных, спроектированная программистом совместно с исследователем. Но, как правило, экономят именно на программистах, а потому никаких баз данных нет, а есть электронная таблица, от забора до обеда с кучей пропусков, никак не структурированная. Аналитику нужно потратить много времени, чтобы создать руками нужные группирующие переменные, чтобы таблица приобрела признаки управления данными. Эта работа примерно как ?закат Солнца вручную?. Но, если задача четко сформулирована, можно: 1. Проанализировать только по результатам первого обследования зависимость показателей и между собой и в зависимости от диагноза, возраста? Брать сюда повторных больных не следует. 2. Проследить динамику изменения показателей в зависимости от конкретных факторов. Тут как раз, одни и те же пациенты и нужны ![]() Как правило, такие ?базы данных? и есть наша реальность. |
|
![]() |
![]() |
![]() ![]() |