![]() |
Здравствуйте, гость ( Вход | Регистрация )
![]() |
![]()
Сообщение
#1
|
|
Группа: Пользователи Сообщений: 1219 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704 ![]() |
Повезло заполучить для анализа достаточно большую базу данных. Но наряду с радостями надёжности получаемых выводов столкнулся с рядом трудностей впервые.
1) Многие из моих любимых пакетов начиная с PAST оказывается не в состоянии обсчитать даже 1% всех наблюдений. Пришлось сильно двинуться в сторону R. 2) Собственно о чём тема. Некоторые пациенты присутствуют в базе многократно: где-то от 2 до 30 раз, при среднем около 2,5. Получается, что 35% базы - уникальные пациенты, а 65% это они же, сдававшие анализы ещё раз, два, 3 ... 30 раз. Взять только первые посещения и удалить 65% - непозволительная роскошь для любого размера базы. Усреднить данные в пределах пациента - тоже неправильно, т.к. от посещения к посещению есть какая-то динамика - вероятно, связанная с параллельным лечением. Ситуация осложняется тем, что набор показателей раз от раза тоже не очень жёсткий: скажем первый раз - простенький анализ на 3 показателя, а далее - более развёрнутый или наоборот. Мне нужно найти наиболее общие закономерности изменения показателей в зависимости от возраста, пола, сезона, беременности. Также поискать связи между показателями. Получается, что проще всего работать с данными, как с уникальными пациентами, не обращая внимания на частично зависимый характер выборок в разных категориях анализа. Т.е. сделать единицей наблюдения не пациента, а строку базы данных. Но это неправильно со статистической точки зрения, по крайней мере я затрудняюсь в таком случае очертить генеральную совокупность. Кто анализировал базы данных, поделитесь, пожалуйста, опытом: как вы выходили из этой ситуации с одними и теми же пациентами. Может у кого-то есть не опыт, но полезные замечания или идеи... |
|
![]() |
![]() |
![]() |
![]()
Сообщение
#2
|
|
Группа: Пользователи Сообщений: 1219 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704 ![]() |
Благодарю всех за мнения и советы! Работа сделана и сдана. Хочу прокомментировать советы и саму работу.
Во-первых, прошу прощения за то, что ввёл в заблуждение неверной терминологией. Конечно, речь шла не о базе данных, а о выгруженном её фрагменте по специальному запросу. Кстати, говорят, этот запрос имел более 500 строк кода и писался в течение рабочей недели. Вряд ли с утра до вечера, но всё равно в моём понимании это много... Во-вторых, (>DrgLena) этот фрагмент для моих программ действительно оказался испытанием. У меня MS Office 2003, поскольку не приемлю вид меню из последних офисов + есть несколько аддонов, работающих только со старым Excel'ем. Но старый Excel не берёт более 65 тыс строк, а нужно было 114 тыс. Поэтому первичную обработку файла проводил в Calc. При этом и OpenOffice дома и LibreOffice на работе едва ворочались + LibreOffice Calc на команде "Найти - Заменить всё" постоянно пропускал значения, поэтому для одной колонки приходилось делать операцию раз по 15, чтобы убедиться, что на самом деле всё что нужно найдено и заменено. OpenOffice Calc для этого не использовал, но сомневаюсь, что у брата ситуация лучше. Про любимый мной (хотя отчасти и недоработанный) PAST при объёмах выборок в даже в 1,5-3 тыс значений можно забыть: результата не дождётесь. Приятно удивила Statisticа: пусть не очень шустро, но всё что в ней пробовал - сделала (описательная статистика, таблицы для качественных признаков, двухфакторный дисперсионный анализ, графики). Ещё больше удивила R: всё то же + многое другое + очень быстро. В-третьих, по поводу собственно повторных пациентов. Эту проблему несмотря на все ваши советы для себя окончательно так и не решил. Видимо, в зависимости от целей нужно и решать. Если цели - медицинские, то, действительно, важен первый результат, а последующие - в зависимости от лечения и т.п. Тогда, вероятно, действительно нужно было брать только первые посещения, остальное отбросить. Ну или "пересчитать всё во временные ряды" и как-то интерпретировать результаты, сохранив при этом рассудок:) Специфика наших данных была в том, что это данные независимой лаборатории: там не столько "пациенты", сколько "клиенты" и про них совсем ничего не известно, за исключением возраста, пола и недели беременности для беременных. А нужны были закономерности. Поэтому я рассудил так: моя генеральная совокупность включает не только впервые обратившихся за анализом, но и тех, кто обращался неоднократно. Человек, пришедший впервые, скорее всего (как следует из анализа) придёт как минимум ещё один раз, а некоторые будут далее таскаться регулярно. И те кто уже есть в базе неоднократно, тоже имеют вероятность сдать анализ ещё. Поэтому, объединил при подсчётах и средних, и корреляций, и зависимостей всех в одну кучу. Таким образом, не потерял ни одной цифры, работа сделана, все довольны... но осадочек сомнений о корректности такого объединения остался. |
|
![]() |
![]() |
![]() ![]() |