Помогите выбрать статистический метод, Множественные сравнения? |
Здравствуйте, гость ( Вход | Регистрация )
Помогите выбрать статистический метод, Множественные сравнения? |
18.10.2015 - 14:20
Сообщение
#1
|
|
Группа: Пользователи Сообщений: 17 Регистрация: 18.10.2015 Пользователь №: 27589 |
Добрый день! Помогите, пожалуйста, определиться с выбором метода.
Гипотеза: для больных старческого возраста применение данной операции также эффективно и безопасно, как для остальных. Имеется база из 100 пациентов. Ряд показателей: несколько опросников (до и после операции), оценка результата операции (по нескольким шкалам), наличие осложнение (несколько видов, измерены как "есть/нет"), оценка хода операции и восстановления после нее (длительность операции, длительность анестезии, длительность пребывания в стационаре?). Интересующая группа старческого возраста - 17 человек. Проверка данных на нормальность дала отрицательный результат. На первый взгляд хочется с помощью опросников до операции протестировать их исходную независимость от возраста. Затем посмотреть есть ли различие в остальных показателях в зависимости от возраста. Возникают вопросы по применяемым методам. Есть несколько соображений. 1. Смотреть зависимость: с помощью коэффициента корреляции (Спирмена, а для бинарных данных - бисериальный коэффициент корреляции). 2. Разбить выборку на 2 группы: до 75 лет и после. Затем сравнение с использованием Манна-Уитни. 3. Разбить выборку на 4 группы: 0-24; 25-49;50-74; 74 и более . Сделать сравнение по Краскеллу-Уоллису, а затем (если что-то было обнаружено), то применять критерий Данна. На фоне всех этих соображений гнетет вопрос о множественных сравнениях (так как кол-во показателей около 30). Есть ощущение, что данная проблема может обесценить предложенные подходы. Прошу помочь разобраться в данном вопросе и, при необходимости, порекомендовать куда "копать" дальше. Сообщение отредактировал E_VA - 18.10.2015 - 14:25 |
|
19.10.2015 - 08:39
Сообщение
#2
|
|
Группа: Пользователи Сообщений: 1091 Регистрация: 26.08.2010 Пользователь №: 22699 |
удалено
Сообщение отредактировал p2004r - 15.02.2017 - 12:00 |
|
19.10.2015 - 09:36
Сообщение
#3
|
|
Группа: Пользователи Сообщений: 17 Регистрация: 18.10.2015 Пользователь №: 27589 |
гипотеза сформулирована неконкретно, без детализации "эффективно", "безопасно" применительно к проведенным измерениям. Если под безопасно (как у других возрастов) понимать: та же частота осложнений, что и у других возрастов, а под эффективно (как у других возрастов) - те же показатели опросников после операции. То будет корректно? Сообщение отредактировал E_VA - 19.10.2015 - 09:37 |
|
19.10.2015 - 12:43
Сообщение
#4
|
|
Группа: Пользователи Сообщений: 1091 Регистрация: 26.08.2010 Пользователь №: 22699 |
удалено
Сообщение отредактировал p2004r - 15.02.2017 - 12:00 |
|
19.10.2015 - 16:14
Сообщение
#5
|
|
Группа: Пользователи Сообщений: 17 Регистрация: 18.10.2015 Пользователь №: 27589 |
1) Вот выкручиваться не надо , "точно также" имеет очень отдаленное отношение к "эффективности" и "безопасности". Имеет смысл отношение "также или лучше", где "лучше" придется определить для _каждой_ используемой шкалы (для частоты осложнений это легче всего). Тогда будет сформулировано корректно. 2) Можно сначала рассмотреть чем отличается "целевая группа" от всех остальных. И уже для агрегированных (например обычным LDA) отличий вывести критерий "эффективно", "безопасно". PS второе лучше поскольку показатели еще и коррелированы и можно "долго искать угол в круглом доме" (и даже найти этот "угол)" Извините, пожалуйста, если дальше пойдут глупые вопросы/утверждения. Очень стараюсь понять, но видно не хватает знаний и опыта. 1) Определение отношений также ?или лучше? для показателей: частота осложнений ? чем меньше в группе ? тем лучше, для шкал: 0- хорошо?. максимальное значение ? плохо (все шкалы упорядочены), аналогично для количественных данных ? всегда можно сказать что лучше. 2) Естественно, предварительно (сравнение групп непараметрическими методами) я просмотрела сравнение групп по показателям, где намечаются отличия. Они намечаются только в показателях, которые связаны с длительностью нахождения в стационаре, палате интенсивной терапии и т.п. (это логично, так как за пожилыми более ?внимательный? уход). По осложнениям и шкалам вроде как не намечаются. Понимаю, что применяла тут не совсем корректные методы, но это была прикидка. 3) Полностью согласна, что данные у меня коррелированы ? т.е. все опросники показывают выздоровление, вот только освещают его различные аспекты. Поэтому в силу множественных сравнений шанс найти ?угол в круглом доме? у меня есть. Собственно чего и опасаюсь. 4) Если, я верно поняла, то LDA (линейный дискриминантный анализ) предлагается использовать для того, чтобы найти те переменные, которые различают группы (пожилые и прочие). Насколько я знаю, там есть 2 существенных для моего случая ограничения: нормальность данных и количественные или порядковые данные. Т.е. для решения такой задачи его нельзя использовать. 5) По итогам обсуждения сделала для себя промежуточный вывод (предположение, как решать поставленную задачу) : 1 шаг - нужно показатели разбить на независимые (в какой-то степени, так как придется принимать решение о мере независимости) группы. По идее, при реализации шага 1 ? должны возникнуть группы по безопасности и группы по эффективности.; 2 шаг - из каждой группы выделить 1, 3 шаг - спокойно (так как уже нет зависимости и не опасны в этом контексте множественные сравнения) сравнивать по выделенному из каждой группы показателю. Верен ли этот подход? Или снова куда-то в сторону заносит? |
|
19.10.2015 - 22:28
Сообщение
#6
|
|
Группа: Пользователи Сообщений: 1091 Регистрация: 26.08.2010 Пользователь №: 22699 |
Извините, пожалуйста, если дальше пойдут глупые вопросы/утверждения. Очень стараюсь понять, но видно не хватает знаний и опыта. 1) Определение отношений также ?или лучше? для показателей: частота осложнений ? чем меньше в группе ? тем лучше, для шкал: 0- хорошо?. максимальное значение ? плохо (все шкалы упорядочены), аналогично для количественных данных ? всегда можно сказать что лучше. 2) Естественно, предварительно (сравнение групп непараметрическими методами) я просмотрела сравнение групп по показателям, где намечаются отличия. Они намечаются только в показателях, которые связаны с длительностью нахождения в стационаре, палате интенсивной терапии и т.п. (это логично, так как за пожилыми более ?внимательный? уход). По осложнениям и шкалам вроде как не намечаются. Понимаю, что применяла тут не совсем корректные методы, но это была прикидка. 3) Полностью согласна, что данные у меня коррелированы ? т.е. все опросники показывают выздоровление, вот только освещают его различные аспекты. Поэтому в силу множественных сравнений шанс найти ?угол в круглом доме? у меня есть. Собственно чего и опасаюсь. 4) Если, я верно поняла, то LDA (линейный дискриминантный анализ) предлагается использовать для того, чтобы найти те переменные, которые различают группы (пожилые и прочие). Насколько я знаю, там есть 2 существенных для моего случая ограничения: нормальность данных и количественные или порядковые данные. Т.е. для решения такой задачи его нельзя использовать. 5) По итогам обсуждения сделала для себя промежуточный вывод (предположение, как решать поставленную задачу) : 1 шаг - нужно показатели разбить на независимые (в какой-то степени, так как придется принимать решение о мере независимости) группы. По идее, при реализации шага 1 ? должны возникнуть группы по безопасности и группы по эффективности.; 2 шаг - из каждой группы выделить 1, 3 шаг - спокойно (так как уже нет зависимости и не опасны в этом контексте множественные сравнения) сравнивать по выделенному из каждой группы показателю. Верен ли этот подход? Или снова куда-то в сторону заносит? 1) Если "очень хорошо" не начинает означать плохо, то можно. Но придется для всех шкал это сформулировать явно, и наверняка пойдет взаимодействие шкал. 2) 3) Вместо того что бы смотреть глазами, лучше применить какой либо метод "редукции размерности" 4) Никакого отношения к нормальному распределению Linear Discriminant Analysis не имеет (того "выводильщика" который "вывел" его и PCA из всяких к.к. следует публично посадить на кол), это обыкновенная геометрия (только критерий выбора ортогональной системы координат немного не такой как в PCA). Любые переменные можно свести к набору (dummi) бинарных переменных. 5) Да как то так, только лучше (выбрав только влияющие значимо показатели) построить модель объясняющую разделение (обычно логистическая регрессия). И надо помнить, что может группы значимо (например по результатам кроссвалидации) и не разделяются. То есть сначала доказать что различие в принципе есть, а потом разобрать в чем оно собственно состоит и какая связь между всеми значимыми показателями. |
|
27.10.2015 - 18:41
Сообщение
#7
|
|
Группа: Пользователи Сообщений: 17 Регистрация: 18.10.2015 Пользователь №: 27589 |
5) Да как то так, только лучше (выбрав только влияющие значимо показатели) построить модель объясняющую разделение (обычно логистическая регрессия). И надо помнить, что может группы значимо (например по результатам кроссвалидации) и не разделяются. То есть сначала доказать что различие в принципе есть, а потом разобрать в чем оно собственно состоит и какая связь между всеми значимыми показателями. Огромное спасибо за проявленное внимание к моему вопросу и попытку помочь разобраться! Постаралась последовать рекомендациям. Получились следующие результаты (что с ними делать далее "ума не приложу"). 1) По показателям осложнений (все бинарные признаки) посмотрела таблицы сопряженности. Из 9 показателей выявила 5 зависимых пар (точный критерий Фишера). В качестве силы связи смотрела коэффициент Фи-квадрат (0.25 - 0.55). Рассматривались в том числе таблица сопряженности "возраст - осложнение" по всем осложнениям. Зависимости не обнаружено. По оценке результатов операции (опросники, шкалы оценки итогов) смотрела: коэффициент корреляции Спирмена. Шкалы, связанные с оценкой качества жизни, имеют корреляцию порядка 0,75-0,9. Шкалы оценки итогов: 0,69-0,71. Аналогично сравнивала возрастные группы по показателям (Манн-Уитни) - не различаются. Для перепроверки результатов для опросников провела факторный анализ : выделяет максимум 2 фактора, но можно оставить и 1. Были еще количественные показатели, характеризующие длительность пребывания пациента в больнице, длительность операции, итого 5 показателей. Все значимо коррелируют по Спирмену, но сильно зависима (0,81) только пара из них. Аналогично сравнивала возрастные группы по показателям (Манн-Уитни) - выявлено различие только по 1 показателю. 2) Использование LDA (с пошаговым включением) привело к тому, что для дискриминации использовано только 2 показателя из группы показателей, характеризующих длительность пребывания пациента в больнице. При этом 35% пациентов старческого возраста классифицировано неверно. 3) Тестовая попытка построить логистическую регрессию при использовании всех осложнений, типичного опросника, типичной оценки результатов и 4 показателей пребывания в больнице проваливается из-за вычислительной проблемы. (пакет SPSS) Может, конечно, я что-то не так делаю, но по идее, если нет связи между зависимыми переменными регрессии и классифицирующей, то сама регрессия и не должна строится. На самом деле ожидается, что от возраста не зависит безопасность и эффективность. Но именно доказать с использованием данных инструментов у меня не получается. Если мое сообщение уже тянет на полноценную личную консультацию, то буду благодарна ей на возмездной основе (прошу написать ЛС). Сообщение отредактировал E_VA - 28.10.2015 - 08:43 |
|
3.11.2015 - 22:17
Сообщение
#8
|
|
Группа: Пользователи Сообщений: 1202 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704 |
3) Тестовая попытка построить логистическую регрессию при использовании всех осложнений, типичного опросника, типичной оценки результатов и 4 показателей пребывания в больнице проваливается из-за вычислительной проблемы. (пакет SPSS) Может, конечно, я что-то не так делаю, но по идее, если нет связи между зависимыми переменными регрессии и классифицирующей, то сама регрессия и не должна строится. На самом деле ожидается, что от возраста не зависит безопасность и эффективность. Но именно доказать с использованием данных инструментов у меня не получается. Если мое сообщение уже тянет на полноценную личную консультацию, то буду благодарна ей на возмездной основе (прошу написать ЛС). Скорее всего разбираться вам предстоит самостоятельно, т.к. в вашу задачу нужно вникать предметно. Техниками вы владеете, поэтому результат будет: если покрутите так и эдак, то картинка сложится, может только нужно дать вылежаться материалу пару-тройку недель, переключиться пока на другое. По поводу логистической регрессии - это капризная штука, когда число покзателей велико по сравнению с объёмом выборки. Моя практика говорит, что больше 5-7 покзателей даже пошаговой техникой часто "проваливаются". Помочь картинке сложится могут разведочные многомерные техники типа главных компонент. Посмотреть можно весь объём данных даже обычным PCA, хотя лучше - нелинейным (есть в SPSS): номинальные и порядковые признаки лучше обработаются. Но такие анализы требуют практики трактовки. Если в вашем окружении есть люди, имеющие такую практику - обязательно попробуйте! |
|
5.11.2015 - 12:45
Сообщение
#9
|
|
Группа: Пользователи Сообщений: 17 Регистрация: 18.10.2015 Пользователь №: 27589 |
Скорее всего разбираться вам предстоит самостоятельно, т.к. в вашу задачу нужно вникать предметно. Техниками вы владеете, поэтому результат будет: если покрутите так и эдак, то картинка сложится, может только нужно дать вылежаться материалу пару-тройку недель, переключиться пока на другое. По поводу логистической регрессии - это капризная штука, когда число покзателей велико по сравнению с объёмом выборки. Моя практика говорит, что больше 5-7 покзателей даже пошаговой техникой часто "проваливаются". Помочь картинке сложится могут разведочные многомерные техники типа главных компонент. Посмотреть можно весь объём данных даже обычным PCA, хотя лучше - нелинейным (есть в SPSS): номинальные и порядковые признаки лучше обработаются. Но такие анализы требуют практики трактовки. Если в вашем окружении есть люди, имеющие такую практику - обязательно попробуйте! Был предложен еще один подход к данной задаче - метод классификации RandomForest (ОГРОМНОЕ спасибо p2004r). В итоге у меня получилась вот такая структура исследования: 1 этап: анализ с помощью корреляций, таблиц сопряженности, сравнения групп + графики. Вывод, что связи обнаружены только по 2 показателям (p около 0,03). 2 этап: с учетом проблемы множественных сравнений применен метод классификации RandomForest. Классификация проводилась по группам показателей: - исходные данные групп (цель - показать однородность), - безопасность (цель - попробовать найти факторы, которые помогли бы провести разделение), - эффективность (цель - попробовать найти факторы, которые помогли бы провести разделение). Итоги второго этапа: ни при одной классификации не достигнут 50% результат по определению группы старческого возраста. На основании проведенного анализа делается вывод, что безопасность и эффективность операционного вмешательства у больных старческого возраста, такая же, как и у других возрастов. Тут под безопасностью понимается только совокупность исследуемых осложнений. Использование метода классификации, а не логистической регрессии, мне больше понравилось, так как нет ограничений на вид распределения признаков, их дисперсий и т.д. Как я поняла, данный инструмент перебирает практически все возможные варианты классификаций, что уже можно считать основанием для отрицательного ответа. А отрицательный ответ по логистической регрессии может быть связан с неверным выбором функциональной зависимости, да и "кривыми ручками" при подборе параметров. Сообщение отредактировал E_VA - 5.11.2015 - 12:45 |
|