Полная версия этой страницы:
Ре-анализ базы данных
Столкнулся с необходимостью ре-анализа базы данных одного из своих исследований с помощью новых, разработанных мной, критериев эффективности. Уважаемые знатоки, подскажите, пожалуйста, какие методы и подходы нужно использовать. Правильно ли я понимаю, что понадобится post-hoc analysis? Если это так, то как он делается и возможно ли провести его в ППП Статистика?
Цитата(lakan @ 1.08.2009 - 18:06)

Столкнулся с необходимостью ре-анализа базы данных одного из своих исследований с помощью новых, разработанных мной, критериев эффективности. Уважаемые знатоки, подскажите, пожалуйста, какие методы и подходы нужно использовать. Правильно ли я понимаю, что понадобится post-hoc analysis? Если это так, то как он делается и возможно ли провести его в ППП Статистика?
Вы сообщили много информации, не имеющей никакого отношения к анализу данных: (1) данное исследование - ваше, (2) у вас есть и другие исследования, (3) вы разработали некие "критерии эффективности", (4) эти критерии являются новыми, (5) результаты исследования сведены в базу данных, (6) база данных анализируется повторно. Сообщите же что-нибудь о собственно данных: их типе (измерения, ранги или частоты), способе получения (независимые или зависимые выборки), объеме материала (сколько показателей и сколько человек) и целях анализа (описание данных, выборочные сравнения, поиск связей, поиск зависимостей, редукция данных с обобщением, оценка диагностической эффективности, дифференциальная диагностика и т.д.).
DrgLena
4.08.2009 - 13:07
Автор поста сообщил еще больше информации, а именно, что на форуме есть знатоки, есть такое сочетание слов post-hoc, а также ППП Статистика.
Цитата(lakan @ 1.08.2009 - 16:06)

Столкнулся с необходимостью ре-анализа базы данных одного из своих исследований с помощью новых, разработанных мной, критериев эффективности. Уважаемые знатоки, подскажите, пожалуйста, какие методы и подходы нужно использовать. Правильно ли я понимаю, что понадобится post-hoc analysis? Если это так, то как он делается и возможно ли провести его в ППП Статистика?
При анализе базы данных нужно знать, что сама база собой представляет. "Технически" база - совокупность таблиц, заполненных информацией. В простейшем случае речь идет об одной двумерной таблице, в столбцах которой расположен параметры (количественные, качественные или даже текстовые). По строкам расположены объекты (пациенты). Одна строка таблицы = одна запись. Таким образом, запись в базе может рассматриваться как
многомерная случайная переменная, причем каждое "измерение" (= числу параметров) может иметь свою шкалу измерения. Поэтому говорить о том, какими методами данные могут быть обработаны, можно лишь после того, как мы для начала получим информацию о структуре таблицы.
Методы обработки разнородных (в смешанных шкалах) данных недостаточно развиты. Более или менее проработаны лишь методы классификации для таких данных (в качестве связи используется расстояние Кемени, основанное на бинарных отношениях) - кластерный анализ, выработка согласованного мнения экспертов (медиана Кемени). Порекомендую известные монографии Б.Г. Литвака, работы А.Б. Петровского (Например,
http://raai.org/about/persons/petrovsky/pa...ovsky_2003.pdf). Еще вот тут
http://raai.org/library/library.shtml?link
DrgLena
8.08.2009 - 13:04
Можно только догадываться, что же хочет проанализировать повторно автор поста. Из своего опыта обращения к старым базам данных, могу предложить несколько причин.
1. Появились новые данные о выживаемости, или данные об отдаленных результатах наблюдения и возможна повторная оценка как факторов риска, так и оценка различий в эффективности различных методов воздействия. По этой причине также могут быть уточнены коэффициенты в моделях прогноза.
2. Согласно новым представлениям, понятие ?достигнут положительный результат? пересмотрено с учетом, например числа последующих рецидивов, т.е. изменяется число больных в группах.
3. Ранее представленные данные в виде процентов в сравниваемых группах нуждаются в более принятой сегодня форме представления. Например, разность долей с 95% ДИ или OR, RR, RRR или ЧБНЛ.
4. Ранее полученные различия средних значений количественных показателей в группах сравнения (больных и здоровых) сегодня могут быть проанализированы с точки зрения их возможности для диагностики двух состояний , используя анализ ROC кривых.
5. Ранее, сравнение эффективности было проведено без учета конфаундингов и автору очевиден сдвиг в оценке.
Постараюсь, рассказать...

Начну из далека...

Существуют международные критерии ремиссии при шизофрении по определенной многомерной шкале (PANSS), которые не учитывают разные формы данного заболевания по МКБ-10 и социальное функционирование по определенным шкалам (критерии основаны на мнение экспертов). В результате нескольких последовательных исследований были сформулированы новые критерии, которые все вышеперечисленное учитывают, а также временной критерий, т.е. это, по сути, многомерные критерии эффективности. Нужно проанализировать повторно базу данных одного из исследований, но уже с помощью, разработанных в рамках диссера, критериев ремиссии. Данные в базе будут уже, видимо, категориальные, номинальные, бинарные, т.е. - ремиссия/нет ремиссии согласно данным многомерным критериям, а также процент пациентов в ремиссии на каждом визите. Исследование было - фармакотерапевтическим, проспективным (1-годовым), сравнительным (т.е. на одном из участков психоневрологического диспансера назначался наиболее современный на данный момент препарат, а на другом участке пациенты получали рутинную антипсихотическую терапию). Таким образом, есть данные зависимые (т.е. динамика соответственно визитам в одной группе), есть данные независимые (т.е. различия между группами). В группах по 40 человек. Цель анализа: оценка эффективности терапии в группах соответственно разработанным критериям, сравнение новых и старых критериев эффективности (ремиссии). Однако это исследование не было изначально спланировано для оценки эффективности с помощью этих критериев, и по сути, размер выборки для них мал. Меня интересует есть ли какие-нибудь особенности при ре-анализе баз данных, ну там что-то рекомендуется применять, а что-то нет? Не будет ли это, вообще, некой бесполезной деятельностью? Как умел, объяснил
В принципе - понятно; данные сложные. Работа представляется разбитой на 2 самостоятельных этапа, согласно указанным Вами целям: (1) сравнение диагностической эффективности (ДЭ) новых и старых критериев, (2) сравнение эффективности терапии рутинными и современными средствами.
(1) По первой части. Надёжная оценка ДЭ метода требует "золотого стандарта" - метода, который считается безошибочным. Такой метод может быть трудоемким и/или дорогостоящим, но обычно он есть. В таких случаях оценка ДЭ сводится к сравнению обычных и новых методов диагностики на одних и тех же объектах, пациентах. В Вашем случае задача сильно осложнена тем, что "золотого стандарта" нет. Если бы вы предлагали более простые, быстрые, менее дорогостоящие критерии, то в качестве "золотого стандарта" могла бы выступить PANSS. Но раз вы предлагаете более точные критерии, то не понятно с чем сравнивать ДЭ этих двух критериев: PANSS и ваших. Получается, что не имея "золотого стандарта" вы должны беспристрастно скомбинировать его из того набора признаков, который у вас есть. Беспристрастность могут обеспечить классические многопеременные и многомерные методы анализа данных (множественная регрессия, главные компоненты, факторный анализ, кластерный анализ), которые помогут найти границу между больными и здоровыми. В целом, это - творческая работа, требующая времени и хорошего объема материала. В какой-то степени она уже была сделана Вами или вашими предшественниками в ходе разработки новых критериев диагностики. Думаю, что сейчас с выборкой в 80 человек вам этот путь целиком не пройти, а если цель - диссертация, то может в этом и смысла нет. Но вы можете подтвердить эффективность новых критериев выборочно и косвенно, т.е. показав наличие статистически значимых различий между уже расклассифицированными больными и здоровыми по наиболее важным в вашей системе диагностики показателям или их комплексам (для количественных показателей здесь может потребоваться дисперсионный анализ (АNOVA), и внутри него - post hoc analysis, хотя для такой цели лучше использовать логистическую регрессию). Также можете сравнить ДЭ PANSS с вашей системой, приняв за "золотой стандарт" вашу и обсудить различия в чувствительности и специфичности. Если ваша система оценки наступления ремиссии дает не только 2 категории (болен - здоров), но и различные промежуточные значения по какой-то шкале, то понадобиться ROC-анализ (обсуждался подробно на форуме).
(2) По второй части. Сравнение динамики выздоровления в двух группах нужно делать в ходе анализа Обобщенных линейных моделей (Generalized linear models). Факторами будут: 1) Группы (номинальный фиксированный фактор, 2 категории: стандартные и новые методы лечения), 2) Пациенты внутри групп (номинальный случайный фактор, необходимый для учёта зависимого характера наблюдений в продольном (longitudinal) исследовании), 3) Сроки лечения (количественный фиксированный фактор). Откликом будет наступление или ненаступление ремиссии (номинальный бинарный признак). Из известных мне пакетов такой анализ можно сделать в SPSS и R, но детально с его проведением помочь не смогу - пока нет такого опыта (но он, возможно, есть у других участников форума).
DrgLena
10.08.2009 - 23:52
Не совсем понятно, почему автор хочет сделать ре-анализ. Это новое исследование и в рамках этого исследования можно решить несколько задач, nokh подробно описал его дизайн. Можно показать также, что новая шкала оценки состояния более полно (объективно) отражает состояние больного, поскольку включает дополнительную информацию, выраженную также в баллах, которая не учитывалась в шкале PANSS. Доказать это можно если оценить ее с точки зрения оценки фазы предшествующей срыву ремиссии. Например, подъем более 80 баллов по новой шкале предшествует срыву ремиссии в 90% случаев. А по старой шкале нельзя было получить подобную оценку. Сам по себе анализ по общей шкале PANSS и ее субшкалам отражают состояние больного в традиционно анализируется в динамике. Например, в результате лечения произошло ослабление симптоматики по баллам PANSS на 30% в одной группе и на 50% в другой. По новой шкале у вас, очевидно, будут другие проценты, но понятным для читателей будет все же PANSS.
Интересно, как был проведен первый анализ, изучалась ли динамика средних значений этих бальных оценок (ANOVA для повторных измерений, но тогда случаи срыва ремиссии сильно повлияют на оценку средних баллов в сравниваемых группах) или интересовала оценка длительности сохранения ремиссии с использованием Survival Analysis , но это возможно только если у одного больного учитывается только один срыв ремиссии за наблюдаемых период. Или сравнивали общее число срывов ремиссии.
Сами по себе шкалы оценки состояния типа PANSS или MMSE или разработанные вами шкалы могут использоваться для оценки эффективности, но только как суррогатные исходы. Длительность без рецидивного течения более объективный критерий эффективности. Но в вашей области все очень сложно и все эти оценки основаны на субъективных шкалах.
Для просмотра полной версии этой страницы, пожалуйста,
пройдите по ссылке.