Помогите выбрать статистический метод

Помогите выбрать статистический метод, Множественные сравнения?

E_VA Просмотр профиля	18.10.2015 - 14:20 Сообщение #1
Группа: Пользователи Сообщений: 17 Регистрация: 18.10.2015 Пользователь №: 27589	Добрый день! Помогите, пожалуйста, определиться с выбором метода. Гипотеза: для больных старческого возраста применение данной операции также эффективно и безопасно, как для остальных. Имеется база из 100 пациентов. Ряд показателей: несколько опросников (до и после операции), оценка результата операции (по нескольким шкалам), наличие осложнение (несколько видов, измерены как "есть/нет"), оценка хода операции и восстановления после нее (длительность операции, длительность анестезии, длительность пребывания в стационаре?). Интересующая группа старческого возраста - 17 человек. Проверка данных на нормальность дала отрицательный результат. На первый взгляд хочется с помощью опросников до операции протестировать их исходную независимость от возраста. Затем посмотреть есть ли различие в остальных показателях в зависимости от возраста. Возникают вопросы по применяемым методам. Есть несколько соображений. 1. Смотреть зависимость: с помощью коэффициента корреляции (Спирмена, а для бинарных данных - бисериальный коэффициент корреляции). 2. Разбить выборку на 2 группы: до 75 лет и после. Затем сравнение с использованием Манна-Уитни. 3. Разбить выборку на 4 группы: 0-24; 25-49;50-74; 74 и более . Сделать сравнение по Краскеллу-Уоллису, а затем (если что-то было обнаружено), то применять критерий Данна. На фоне всех этих соображений гнетет вопрос о множественных сравнениях (так как кол-во показателей около 30). Есть ощущение, что данная проблема может обесценить предложенные подходы. Прошу помочь разобраться в данном вопросе и, при необходимости, порекомендовать куда "копать" дальше. Сообщение отредактировал E_VA - 18.10.2015 - 14:25

Ответов

p2004r Просмотр профиля	19.10.2015 - 08:39 Сообщение #2
Группа: Пользователи Сообщений: 1091 Регистрация: 26.08.2010 Пользователь №: 22699	удалено Сообщение отредактировал p2004r - 15.02.2017 - 12:00 http://r-statistics.livejournal.com/

E_VA Просмотр профиля	19.10.2015 - 09:36 Сообщение #3
Группа: Пользователи Сообщений: 17 Регистрация: 18.10.2015 Пользователь №: 27589	Цитата(p2004r @ 19.10.2015 - 11:39) гипотеза сформулирована неконкретно, без детализации "эффективно", "безопасно" применительно к проведенным измерениям. Если под безопасно (как у других возрастов) понимать: та же частота осложнений, что и у других возрастов, а под эффективно (как у других возрастов) - те же показатели опросников после операции. То будет корректно? Сообщение отредактировал E_VA - 19.10.2015 - 09:37

p2004r Просмотр профиля	19.10.2015 - 12:43 Сообщение #4
Группа: Пользователи Сообщений: 1091 Регистрация: 26.08.2010 Пользователь №: 22699	удалено Сообщение отредактировал p2004r - 15.02.2017 - 12:00 http://r-statistics.livejournal.com/

E_VA Просмотр профиля	19.10.2015 - 16:14 Сообщение #5
Группа: Пользователи Сообщений: 17 Регистрация: 18.10.2015 Пользователь №: 27589	Цитата(p2004r @ 19.10.2015 - 15:43) 1) Вот выкручиваться не надо , "точно также" имеет очень отдаленное отношение к "эффективности" и "безопасности". Имеет смысл отношение "также или лучше", где "лучше" придется определить для _каждой_ используемой шкалы (для частоты осложнений это легче всего). Тогда будет сформулировано корректно. 2) Можно сначала рассмотреть чем отличается "целевая группа" от всех остальных. И уже для агрегированных (например обычным LDA) отличий вывести критерий "эффективно", "безопасно". PS второе лучше поскольку показатели еще и коррелированы и можно "долго искать угол в круглом доме" (и даже найти этот "угол)" Извините, пожалуйста, если дальше пойдут глупые вопросы/утверждения. Очень стараюсь понять, но видно не хватает знаний и опыта. 1) Определение отношений также ?или лучше? для показателей: частота осложнений ? чем меньше в группе ? тем лучше, для шкал: 0- хорошо?. максимальное значение ? плохо (все шкалы упорядочены), аналогично для количественных данных ? всегда можно сказать что лучше. 2) Естественно, предварительно (сравнение групп непараметрическими методами) я просмотрела сравнение групп по показателям, где намечаются отличия. Они намечаются только в показателях, которые связаны с длительностью нахождения в стационаре, палате интенсивной терапии и т.п. (это логично, так как за пожилыми более ?внимательный? уход). По осложнениям и шкалам вроде как не намечаются. Понимаю, что применяла тут не совсем корректные методы, но это была прикидка. 3) Полностью согласна, что данные у меня коррелированы ? т.е. все опросники показывают выздоровление, вот только освещают его различные аспекты. Поэтому в силу множественных сравнений шанс найти ?угол в круглом доме? у меня есть. Собственно чего и опасаюсь. 4) Если, я верно поняла, то LDA (линейный дискриминантный анализ) предлагается использовать для того, чтобы найти те переменные, которые различают группы (пожилые и прочие). Насколько я знаю, там есть 2 существенных для моего случая ограничения: нормальность данных и количественные или порядковые данные. Т.е. для решения такой задачи его нельзя использовать. 5) По итогам обсуждения сделала для себя промежуточный вывод (предположение, как решать поставленную задачу) : 1 шаг - нужно показатели разбить на независимые (в какой-то степени, так как придется принимать решение о мере независимости) группы. По идее, при реализации шага 1 ? должны возникнуть группы по безопасности и группы по эффективности.; 2 шаг - из каждой группы выделить 1, 3 шаг - спокойно (так как уже нет зависимости и не опасны в этом контексте множественные сравнения) сравнивать по выделенному из каждой группы показателю. Верен ли этот подход? Или снова куда-то в сторону заносит?

p2004r Просмотр профиля	19.10.2015 - 22:28 Сообщение #6
Группа: Пользователи Сообщений: 1091 Регистрация: 26.08.2010 Пользователь №: 22699	Цитата(E_VA @ 19.10.2015 - 16:14) Извините, пожалуйста, если дальше пойдут глупые вопросы/утверждения. Очень стараюсь понять, но видно не хватает знаний и опыта. 1) Определение отношений также ?или лучше? для показателей: частота осложнений ? чем меньше в группе ? тем лучше, для шкал: 0- хорошо?. максимальное значение ? плохо (все шкалы упорядочены), аналогично для количественных данных ? всегда можно сказать что лучше. 2) Естественно, предварительно (сравнение групп непараметрическими методами) я просмотрела сравнение групп по показателям, где намечаются отличия. Они намечаются только в показателях, которые связаны с длительностью нахождения в стационаре, палате интенсивной терапии и т.п. (это логично, так как за пожилыми более ?внимательный? уход). По осложнениям и шкалам вроде как не намечаются. Понимаю, что применяла тут не совсем корректные методы, но это была прикидка. 3) Полностью согласна, что данные у меня коррелированы ? т.е. все опросники показывают выздоровление, вот только освещают его различные аспекты. Поэтому в силу множественных сравнений шанс найти ?угол в круглом доме? у меня есть. Собственно чего и опасаюсь. 4) Если, я верно поняла, то LDA (линейный дискриминантный анализ) предлагается использовать для того, чтобы найти те переменные, которые различают группы (пожилые и прочие). Насколько я знаю, там есть 2 существенных для моего случая ограничения: нормальность данных и количественные или порядковые данные. Т.е. для решения такой задачи его нельзя использовать. 5) По итогам обсуждения сделала для себя промежуточный вывод (предположение, как решать поставленную задачу) : 1 шаг - нужно показатели разбить на независимые (в какой-то степени, так как придется принимать решение о мере независимости) группы. По идее, при реализации шага 1 ? должны возникнуть группы по безопасности и группы по эффективности.; 2 шаг - из каждой группы выделить 1, 3 шаг - спокойно (так как уже нет зависимости и не опасны в этом контексте множественные сравнения) сравнивать по выделенному из каждой группы показателю. Верен ли этот подход? Или снова куда-то в сторону заносит? 1) Если "очень хорошо" не начинает означать плохо, то можно. Но придется для всех шкал это сформулировать явно, и наверняка пойдет взаимодействие шкал. 2) 3) Вместо того что бы смотреть глазами, лучше применить какой либо метод "редукции размерности" 4) Никакого отношения к нормальному распределению Linear Discriminant Analysis не имеет (того "выводильщика" который "вывел" его и PCA из всяких к.к. следует публично посадить на кол), это обыкновенная геометрия (только критерий выбора ортогональной системы координат немного не такой как в PCA). Любые переменные можно свести к набору (dummi) бинарных переменных. 5) Да как то так, только лучше (выбрав только влияющие значимо показатели) построить модель объясняющую разделение (обычно логистическая регрессия). И надо помнить, что может группы значимо (например по результатам кроссвалидации) и не разделяются. То есть сначала доказать что различие в принципе есть, а потом разобрать в чем оно собственно состоит и какая связь между всеми значимыми показателями. http://r-statistics.livejournal.com/

E_VA Просмотр профиля	27.10.2015 - 18:41 Сообщение #7
Группа: Пользователи Сообщений: 17 Регистрация: 18.10.2015 Пользователь №: 27589	Цитата(p2004r @ 20.10.2015 - 01:28) 5) Да как то так, только лучше (выбрав только влияющие значимо показатели) построить модель объясняющую разделение (обычно логистическая регрессия). И надо помнить, что может группы значимо (например по результатам кроссвалидации) и не разделяются. То есть сначала доказать что различие в принципе есть, а потом разобрать в чем оно собственно состоит и какая связь между всеми значимыми показателями. Огромное спасибо за проявленное внимание к моему вопросу и попытку помочь разобраться! Постаралась последовать рекомендациям. Получились следующие результаты (что с ними делать далее "ума не приложу"). 1) По показателям осложнений (все бинарные признаки) посмотрела таблицы сопряженности. Из 9 показателей выявила 5 зависимых пар (точный критерий Фишера). В качестве силы связи смотрела коэффициент Фи-квадрат (0.25 - 0.55). Рассматривались в том числе таблица сопряженности "возраст - осложнение" по всем осложнениям. Зависимости не обнаружено. По оценке результатов операции (опросники, шкалы оценки итогов) смотрела: коэффициент корреляции Спирмена. Шкалы, связанные с оценкой качества жизни, имеют корреляцию порядка 0,75-0,9. Шкалы оценки итогов: 0,69-0,71. Аналогично сравнивала возрастные группы по показателям (Манн-Уитни) - не различаются. Для перепроверки результатов для опросников провела факторный анализ : выделяет максимум 2 фактора, но можно оставить и 1. Были еще количественные показатели, характеризующие длительность пребывания пациента в больнице, длительность операции, итого 5 показателей. Все значимо коррелируют по Спирмену, но сильно зависима (0,81) только пара из них. Аналогично сравнивала возрастные группы по показателям (Манн-Уитни) - выявлено различие только по 1 показателю. 2) Использование LDA (с пошаговым включением) привело к тому, что для дискриминации использовано только 2 показателя из группы показателей, характеризующих длительность пребывания пациента в больнице. При этом 35% пациентов старческого возраста классифицировано неверно. 3) Тестовая попытка построить логистическую регрессию при использовании всех осложнений, типичного опросника, типичной оценки результатов и 4 показателей пребывания в больнице проваливается из-за вычислительной проблемы. (пакет SPSS) Может, конечно, я что-то не так делаю, но по идее, если нет связи между зависимыми переменными регрессии и классифицирующей, то сама регрессия и не должна строится. На самом деле ожидается, что от возраста не зависит безопасность и эффективность. Но именно доказать с использованием данных инструментов у меня не получается. Если мое сообщение уже тянет на полноценную личную консультацию, то буду благодарна ей на возмездной основе (прошу написать ЛС). Сообщение отредактировал E_VA - 28.10.2015 - 08:43

nokh Просмотр профиля	3.11.2015 - 22:17 Сообщение #8
Группа: Пользователи Сообщений: 1202 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704	Цитата(E_VA @ 27.10.2015 - 20:41) 3) Тестовая попытка построить логистическую регрессию при использовании всех осложнений, типичного опросника, типичной оценки результатов и 4 показателей пребывания в больнице проваливается из-за вычислительной проблемы. (пакет SPSS) Может, конечно, я что-то не так делаю, но по идее, если нет связи между зависимыми переменными регрессии и классифицирующей, то сама регрессия и не должна строится. На самом деле ожидается, что от возраста не зависит безопасность и эффективность. Но именно доказать с использованием данных инструментов у меня не получается. Если мое сообщение уже тянет на полноценную личную консультацию, то буду благодарна ей на возмездной основе (прошу написать ЛС). Скорее всего разбираться вам предстоит самостоятельно, т.к. в вашу задачу нужно вникать предметно. Техниками вы владеете, поэтому результат будет: если покрутите так и эдак, то картинка сложится, может только нужно дать вылежаться материалу пару-тройку недель, переключиться пока на другое. По поводу логистической регрессии - это капризная штука, когда число покзателей велико по сравнению с объёмом выборки. Моя практика говорит, что больше 5-7 покзателей даже пошаговой техникой часто "проваливаются". Помочь картинке сложится могут разведочные многомерные техники типа главных компонент. Посмотреть можно весь объём данных даже обычным PCA, хотя лучше - нелинейным (есть в SPSS): номинальные и порядковые признаки лучше обработаются. Но такие анализы требуют практики трактовки. Если в вашем окружении есть люди, имеющие такую практику - обязательно попробуйте!

E_VA Просмотр профиля	5.11.2015 - 12:45 Сообщение #9
Группа: Пользователи Сообщений: 17 Регистрация: 18.10.2015 Пользователь №: 27589	Цитата(nokh @ 4.11.2015 - 01:17) Скорее всего разбираться вам предстоит самостоятельно, т.к. в вашу задачу нужно вникать предметно. Техниками вы владеете, поэтому результат будет: если покрутите так и эдак, то картинка сложится, может только нужно дать вылежаться материалу пару-тройку недель, переключиться пока на другое. По поводу логистической регрессии - это капризная штука, когда число покзателей велико по сравнению с объёмом выборки. Моя практика говорит, что больше 5-7 покзателей даже пошаговой техникой часто "проваливаются". Помочь картинке сложится могут разведочные многомерные техники типа главных компонент. Посмотреть можно весь объём данных даже обычным PCA, хотя лучше - нелинейным (есть в SPSS): номинальные и порядковые признаки лучше обработаются. Но такие анализы требуют практики трактовки. Если в вашем окружении есть люди, имеющие такую практику - обязательно попробуйте! Был предложен еще один подход к данной задаче - метод классификации RandomForest (ОГРОМНОЕ спасибо p2004r). В итоге у меня получилась вот такая структура исследования: 1 этап: анализ с помощью корреляций, таблиц сопряженности, сравнения групп + графики. Вывод, что связи обнаружены только по 2 показателям (p около 0,03). 2 этап: с учетом проблемы множественных сравнений применен метод классификации RandomForest. Классификация проводилась по группам показателей: - исходные данные групп (цель - показать однородность), - безопасность (цель - попробовать найти факторы, которые помогли бы провести разделение), - эффективность (цель - попробовать найти факторы, которые помогли бы провести разделение). Итоги второго этапа: ни при одной классификации не достигнут 50% результат по определению группы старческого возраста. На основании проведенного анализа делается вывод, что безопасность и эффективность операционного вмешательства у больных старческого возраста, такая же, как и у других возрастов. Тут под безопасностью понимается только совокупность исследуемых осложнений. Использование метода классификации, а не логистической регрессии, мне больше понравилось, так как нет ограничений на вид распределения признаков, их дисперсий и т.д. Как я поняла, данный инструмент перебирает практически все возможные варианты классификаций, что уже можно считать основанием для отрицательного ответа. А отрицательный ответ по логистической регрессии может быть связан с неверным выбором функциональной зависимости, да и "кривыми ручками" при подборе параметров. Сообщение отредактировал E_VA - 5.11.2015 - 12:45

Сообщений в этой теме

E_VA Помогите выбрать статистический метод 18.10.2015 - 14:20

Игорь Если данные разнородные (разные шкалы), то все пер... 18.10.2015 - 18:30

E_VA Цитата(Игорь @ 18.10.2015 - 21:30) Е... 18.10.2015 - 18:59

p2004r удалено 19.10.2015 - 08:39

E_VA Цитата(p2004r @ 19.10.2015 - 11:39) ... 19.10.2015 - 09:36

p2004r удалено 19.10.2015 - 12:43

E_VA Цитата(p2004r @ 19.10.2015 - 15:43) ... 19.10.2015 - 16:14

p2004r Цитата(E_VA @ 19.10.2015 - 16:14) Из... 19.10.2015 - 22:28

E_VA Цитата(p2004r @ 20.10.2015 - 01:28) ... 27.10.2015 - 18:41

nokh Цитата(E_VA @ 27.10.2015 - 20:41) 3)... 3.11.2015 - 22:17

E_VA Цитата(nokh @ 4.11.2015 - 01:17) Ско... 5.11.2015 - 12:45

anserovtv E_VA Я бы пытался создать единую модель для оценки... 19.10.2015 - 20:24

anserovtv Решение задачи кажется мне странным. Random Fores... 10.11.2015 - 08:31

E_VA Цитата(anserovtv @ 10.11.2015 - 11:3... 10.11.2015 - 16:07

anserovtv Алгоритм Random Forest обычно дает близкую к 100% ... 11.11.2015 - 19:31

E_VA Цитата(anserovtv @ 11.11.2015 - 22:3... 11.11.2015 - 20:00

p2004r Цитата(E_VA @ 11.11.2015 - 20:00) Мо... 12.11.2015 - 09:15

p2004r Цитата(anserovtv @ 11.11.2015 - 19:3... 12.11.2015 - 09:20

anserovtv Должен ли будет алгоритм RandomForest показать усп... 11.11.2015 - 21:22

anserovtv Я и не имел в виду переобучение. А где деление на... 17.11.2015 - 08:33

p2004r Цитата(anserovtv @ 17.11.2015 - 08:3... 17.11.2015 - 22:14

E_VA Уважаемые Гуру форума! Очень рада, что вопросы... 17.11.2015 - 17:23

p2004r Цитата(E_VA @ 17.11.2015 - 17:23) Мо... 17.11.2015 - 22:33

E_VA Цитата(p2004r @ 18.11.2015 - 01:33) ... 18.11.2015 - 09:24

« Предыдущая тема · Медицинская статистика · Следующая тема »