Форум врачей-аспирантов

Здравствуйте, гость ( Вход | Регистрация )

> Помогите выбрать статистический метод, Множественные сравнения?
E_VA
сообщение 18.10.2015 - 14:20
Сообщение #1





Группа: Пользователи
Сообщений: 17
Регистрация: 18.10.2015
Пользователь №: 27589



Добрый день! Помогите, пожалуйста, определиться с выбором метода.

Гипотеза: для больных старческого возраста применение данной операции также эффективно и безопасно, как для остальных.
Имеется база из 100 пациентов. Ряд показателей: несколько опросников (до и после операции), оценка результата операции (по нескольким шкалам), наличие осложнение (несколько видов, измерены как "есть/нет"), оценка хода операции и восстановления после нее (длительность операции, длительность анестезии, длительность пребывания в стационаре?). Интересующая группа старческого возраста - 17 человек. Проверка данных на нормальность дала отрицательный результат.

На первый взгляд хочется с помощью опросников до операции протестировать их исходную независимость от возраста. Затем посмотреть есть ли различие в остальных показателях в зависимости от возраста. Возникают вопросы по применяемым методам. Есть несколько соображений.
1. Смотреть зависимость: с помощью коэффициента корреляции (Спирмена, а для бинарных данных - бисериальный коэффициент корреляции).
2. Разбить выборку на 2 группы: до 75 лет и после. Затем сравнение с использованием Манна-Уитни.
3. Разбить выборку на 4 группы: 0-24; 25-49;50-74; 74 и более . Сделать сравнение по Краскеллу-Уоллису, а затем (если что-то было обнаружено), то применять критерий Данна.

На фоне всех этих соображений гнетет вопрос о множественных сравнениях (так как кол-во показателей около 30). Есть ощущение, что данная проблема может обесценить предложенные подходы. Прошу помочь разобраться в данном вопросе и, при необходимости, порекомендовать куда "копать" дальше.

Сообщение отредактировал E_VA - 18.10.2015 - 14:25
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
 
Открыть тему
Ответов
p2004r
сообщение 19.10.2015 - 08:39
Сообщение #2





Группа: Пользователи
Сообщений: 1091
Регистрация: 26.08.2010
Пользователь №: 22699



удалено

Сообщение отредактировал p2004r - 15.02.2017 - 12:00


Signature
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
E_VA
сообщение 19.10.2015 - 09:36
Сообщение #3





Группа: Пользователи
Сообщений: 17
Регистрация: 18.10.2015
Пользователь №: 27589



Цитата(p2004r @ 19.10.2015 - 11:39) *
гипотеза сформулирована неконкретно, без детализации "эффективно", "безопасно" применительно к проведенным измерениям.


Если под безопасно (как у других возрастов) понимать: та же частота осложнений, что и у других возрастов, а под эффективно (как у других возрастов) - те же показатели опросников после операции. То будет корректно?

Сообщение отредактировал E_VA - 19.10.2015 - 09:37
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
p2004r
сообщение 19.10.2015 - 12:43
Сообщение #4





Группа: Пользователи
Сообщений: 1091
Регистрация: 26.08.2010
Пользователь №: 22699



удалено

Сообщение отредактировал p2004r - 15.02.2017 - 12:00


Signature
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
E_VA
сообщение 19.10.2015 - 16:14
Сообщение #5





Группа: Пользователи
Сообщений: 17
Регистрация: 18.10.2015
Пользователь №: 27589



Цитата(p2004r @ 19.10.2015 - 15:43) *
1) Вот выкручиваться не надо smile.gif, "точно также" имеет очень отдаленное отношение к "эффективности" и "безопасности". Имеет смысл отношение "также или лучше", где "лучше" придется определить для _каждой_ используемой шкалы (для частоты осложнений это легче всего). Тогда будет сформулировано корректно.

2) Можно сначала рассмотреть чем отличается "целевая группа" от всех остальных. И уже для агрегированных (например обычным LDA) отличий вывести критерий "эффективно", "безопасно".

PS второе лучше поскольку показатели еще и коррелированы и можно "долго искать угол в круглом доме" (и даже найти этот "угол)"


Извините, пожалуйста, если дальше пойдут глупые вопросы/утверждения. Очень стараюсь понять, но видно не хватает знаний и опыта.

1) Определение отношений также ?или лучше? для показателей: частота осложнений ? чем меньше в группе ? тем лучше, для шкал: 0- хорошо?. максимальное значение ? плохо (все шкалы упорядочены), аналогично для количественных данных ? всегда можно сказать что лучше.

2) Естественно, предварительно (сравнение групп непараметрическими методами) я просмотрела сравнение групп по показателям, где намечаются отличия. Они намечаются только в показателях, которые связаны с длительностью нахождения в стационаре, палате интенсивной терапии и т.п. (это логично, так как за пожилыми более ?внимательный? уход). По осложнениям и шкалам вроде как не намечаются. Понимаю, что применяла тут не совсем корректные методы, но это была прикидка.

3) Полностью согласна, что данные у меня коррелированы ? т.е. все опросники показывают выздоровление, вот только освещают его различные аспекты. Поэтому в силу множественных сравнений шанс найти ?угол в круглом доме? у меня есть. Собственно чего и опасаюсь.

4) Если, я верно поняла, то LDA (линейный дискриминантный анализ) предлагается использовать для того, чтобы найти те переменные, которые различают группы (пожилые и прочие). Насколько я знаю, там есть 2 существенных для моего случая ограничения: нормальность данных и количественные или порядковые данные. Т.е. для решения такой задачи его нельзя использовать.

5) По итогам обсуждения сделала для себя промежуточный вывод (предположение, как решать поставленную задачу) :
1 шаг - нужно показатели разбить на независимые (в какой-то степени, так как придется принимать решение о мере независимости) группы. По идее, при реализации шага 1 ? должны возникнуть группы по безопасности и группы по эффективности.;
2 шаг - из каждой группы выделить 1,
3 шаг - спокойно (так как уже нет зависимости и не опасны в этом контексте множественные сравнения) сравнивать по выделенному из каждой группы показателю.
Верен ли этот подход? Или снова куда-то в сторону заносит?
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
p2004r
сообщение 19.10.2015 - 22:28
Сообщение #6





Группа: Пользователи
Сообщений: 1091
Регистрация: 26.08.2010
Пользователь №: 22699



Цитата(E_VA @ 19.10.2015 - 16:14) *
Извините, пожалуйста, если дальше пойдут глупые вопросы/утверждения. Очень стараюсь понять, но видно не хватает знаний и опыта.

1) Определение отношений также ?или лучше? для показателей: частота осложнений ? чем меньше в группе ? тем лучше, для шкал: 0- хорошо?. максимальное значение ? плохо (все шкалы упорядочены), аналогично для количественных данных ? всегда можно сказать что лучше.

2) Естественно, предварительно (сравнение групп непараметрическими методами) я просмотрела сравнение групп по показателям, где намечаются отличия. Они намечаются только в показателях, которые связаны с длительностью нахождения в стационаре, палате интенсивной терапии и т.п. (это логично, так как за пожилыми более ?внимательный? уход). По осложнениям и шкалам вроде как не намечаются. Понимаю, что применяла тут не совсем корректные методы, но это была прикидка.

3) Полностью согласна, что данные у меня коррелированы ? т.е. все опросники показывают выздоровление, вот только освещают его различные аспекты. Поэтому в силу множественных сравнений шанс найти ?угол в круглом доме? у меня есть. Собственно чего и опасаюсь.

4) Если, я верно поняла, то LDA (линейный дискриминантный анализ) предлагается использовать для того, чтобы найти те переменные, которые различают группы (пожилые и прочие). Насколько я знаю, там есть 2 существенных для моего случая ограничения: нормальность данных и количественные или порядковые данные. Т.е. для решения такой задачи его нельзя использовать.

5) По итогам обсуждения сделала для себя промежуточный вывод (предположение, как решать поставленную задачу) :
1 шаг - нужно показатели разбить на независимые (в какой-то степени, так как придется принимать решение о мере независимости) группы. По идее, при реализации шага 1 ? должны возникнуть группы по безопасности и группы по эффективности.;
2 шаг - из каждой группы выделить 1,
3 шаг - спокойно (так как уже нет зависимости и не опасны в этом контексте множественные сравнения) сравнивать по выделенному из каждой группы показателю.
Верен ли этот подход? Или снова куда-то в сторону заносит?


1) Если "очень хорошо" не начинает означать плохо, то можно. Но придется для всех шкал это сформулировать явно, и наверняка пойдет взаимодействие шкал.

2) 3) Вместо того что бы смотреть глазами, лучше применить какой либо метод "редукции размерности"

4) Никакого отношения к нормальному распределению Linear Discriminant Analysis не имеет (того "выводильщика" который "вывел" его и PCA из всяких к.к. следует публично посадить на кол), это обыкновенная геометрия (только критерий выбора ортогональной системы координат немного не такой как в PCA). Любые переменные можно свести к набору (dummi) бинарных переменных.

5) Да как то так, только лучше (выбрав только влияющие значимо показатели) построить модель объясняющую разделение (обычно логистическая регрессия). И надо помнить, что может группы значимо (например по результатам кроссвалидации) и не разделяются. То есть сначала доказать что различие в принципе есть, а потом разобрать в чем оно собственно состоит и какая связь между всеми значимыми показателями.


Signature
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
E_VA
сообщение 27.10.2015 - 18:41
Сообщение #7





Группа: Пользователи
Сообщений: 17
Регистрация: 18.10.2015
Пользователь №: 27589



Цитата(p2004r @ 20.10.2015 - 01:28) *
5) Да как то так, только лучше (выбрав только влияющие значимо показатели) построить модель объясняющую разделение (обычно логистическая регрессия). И надо помнить, что может группы значимо (например по результатам кроссвалидации) и не разделяются. То есть сначала доказать что различие в принципе есть, а потом разобрать в чем оно собственно состоит и какая связь между всеми значимыми показателями.


Огромное спасибо за проявленное внимание к моему вопросу и попытку помочь разобраться!

Постаралась последовать рекомендациям. Получились следующие результаты (что с ними делать далее "ума не приложу").
1) По показателям осложнений (все бинарные признаки) посмотрела таблицы сопряженности. Из 9 показателей выявила 5 зависимых пар (точный критерий Фишера). В качестве силы связи смотрела коэффициент Фи-квадрат (0.25 - 0.55). Рассматривались в том числе таблица сопряженности "возраст - осложнение" по всем осложнениям. Зависимости не обнаружено.
По оценке результатов операции (опросники, шкалы оценки итогов) смотрела: коэффициент корреляции Спирмена. Шкалы, связанные с оценкой качества жизни, имеют корреляцию порядка 0,75-0,9. Шкалы оценки итогов: 0,69-0,71. Аналогично сравнивала возрастные группы по показателям (Манн-Уитни) - не различаются.
Для перепроверки результатов для опросников провела факторный анализ : выделяет максимум 2 фактора, но можно оставить и 1.
Были еще количественные показатели, характеризующие длительность пребывания пациента в больнице, длительность операции, итого 5 показателей. Все значимо коррелируют по Спирмену, но сильно зависима (0,81) только пара из них. Аналогично сравнивала возрастные группы по показателям (Манн-Уитни) - выявлено различие только по 1 показателю.

2) Использование LDA (с пошаговым включением) привело к тому, что для дискриминации использовано только 2 показателя из группы показателей, характеризующих длительность пребывания пациента в больнице. При этом 35% пациентов старческого возраста классифицировано неверно.

3) Тестовая попытка построить логистическую регрессию при использовании всех осложнений, типичного опросника, типичной оценки результатов и 4 показателей пребывания в больнице проваливается из-за вычислительной проблемы. (пакет SPSS)
Может, конечно, я что-то не так делаю, но по идее, если нет связи между зависимыми переменными регрессии и классифицирующей, то сама регрессия и не должна строится.

На самом деле ожидается, что от возраста не зависит безопасность и эффективность. Но именно доказать с использованием данных инструментов у меня не получается.
Если мое сообщение уже тянет на полноценную личную консультацию, то буду благодарна ей на возмездной основе (прошу написать ЛС).

Сообщение отредактировал E_VA - 28.10.2015 - 08:43
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
nokh
сообщение 3.11.2015 - 22:17
Сообщение #8





Группа: Пользователи
Сообщений: 1202
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704



Цитата(E_VA @ 27.10.2015 - 20:41) *
3) Тестовая попытка построить логистическую регрессию при использовании всех осложнений, типичного опросника, типичной оценки результатов и 4 показателей пребывания в больнице проваливается из-за вычислительной проблемы. (пакет SPSS)
Может, конечно, я что-то не так делаю, но по идее, если нет связи между зависимыми переменными регрессии и классифицирующей, то сама регрессия и не должна строится.

На самом деле ожидается, что от возраста не зависит безопасность и эффективность. Но именно доказать с использованием данных инструментов у меня не получается.
Если мое сообщение уже тянет на полноценную личную консультацию, то буду благодарна ей на возмездной основе (прошу написать ЛС).

Скорее всего разбираться вам предстоит самостоятельно, т.к. в вашу задачу нужно вникать предметно. Техниками вы владеете, поэтому результат будет: если покрутите так и эдак, то картинка сложится, может только нужно дать вылежаться материалу пару-тройку недель, переключиться пока на другое.
По поводу логистической регрессии - это капризная штука, когда число покзателей велико по сравнению с объёмом выборки. Моя практика говорит, что больше 5-7 покзателей даже пошаговой техникой часто "проваливаются".
Помочь картинке сложится могут разведочные многомерные техники типа главных компонент. Посмотреть можно весь объём данных даже обычным PCA, хотя лучше - нелинейным (есть в SPSS): номинальные и порядковые признаки лучше обработаются. Но такие анализы требуют практики трактовки. Если в вашем окружении есть люди, имеющие такую практику - обязательно попробуйте!
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
E_VA
сообщение 5.11.2015 - 12:45
Сообщение #9





Группа: Пользователи
Сообщений: 17
Регистрация: 18.10.2015
Пользователь №: 27589



Цитата(nokh @ 4.11.2015 - 01:17) *
Скорее всего разбираться вам предстоит самостоятельно, т.к. в вашу задачу нужно вникать предметно. Техниками вы владеете, поэтому результат будет: если покрутите так и эдак, то картинка сложится, может только нужно дать вылежаться материалу пару-тройку недель, переключиться пока на другое.
По поводу логистической регрессии - это капризная штука, когда число покзателей велико по сравнению с объёмом выборки. Моя практика говорит, что больше 5-7 покзателей даже пошаговой техникой часто "проваливаются".
Помочь картинке сложится могут разведочные многомерные техники типа главных компонент. Посмотреть можно весь объём данных даже обычным PCA, хотя лучше - нелинейным (есть в SPSS): номинальные и порядковые признаки лучше обработаются. Но такие анализы требуют практики трактовки. Если в вашем окружении есть люди, имеющие такую практику - обязательно попробуйте!


Был предложен еще один подход к данной задаче - метод классификации RandomForest (ОГРОМНОЕ спасибо p2004r).
В итоге у меня получилась вот такая структура исследования:
1 этап: анализ с помощью корреляций, таблиц сопряженности, сравнения групп + графики. Вывод, что связи обнаружены только по 2 показателям (p около 0,03).
2 этап: с учетом проблемы множественных сравнений применен метод классификации RandomForest. Классификация проводилась по группам показателей:
- исходные данные групп (цель - показать однородность),
- безопасность (цель - попробовать найти факторы, которые помогли бы провести разделение),
- эффективность (цель - попробовать найти факторы, которые помогли бы провести разделение).
Итоги второго этапа: ни при одной классификации не достигнут 50% результат по определению группы старческого возраста.

На основании проведенного анализа делается вывод, что безопасность и эффективность операционного вмешательства у больных старческого возраста, такая же, как и у других возрастов. Тут под безопасностью понимается только совокупность исследуемых осложнений.

Использование метода классификации, а не логистической регрессии, мне больше понравилось, так как нет ограничений на вид распределения признаков, их дисперсий и т.д. Как я поняла, данный инструмент перебирает практически все возможные варианты классификаций, что уже можно считать основанием для отрицательного ответа. А отрицательный ответ по логистической регрессии может быть связан с неверным выбором функциональной зависимости, да и "кривыми ручками" при подборе параметров.

Сообщение отредактировал E_VA - 5.11.2015 - 12:45
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 

Сообщений в этой теме
- E_VA   Помогите выбрать статистический метод   18.10.2015 - 14:20
- - Игорь   Если данные разнородные (разные шкалы), то все пер...   18.10.2015 - 18:30
|- - E_VA   Цитата(Игорь @ 18.10.2015 - 21:30) Е...   18.10.2015 - 18:59
- - p2004r   удалено   19.10.2015 - 08:39
|- - E_VA   Цитата(p2004r @ 19.10.2015 - 11:39) ...   19.10.2015 - 09:36
|- - p2004r   удалено   19.10.2015 - 12:43
|- - E_VA   Цитата(p2004r @ 19.10.2015 - 15:43) ...   19.10.2015 - 16:14
|- - p2004r   Цитата(E_VA @ 19.10.2015 - 16:14) Из...   19.10.2015 - 22:28
|- - E_VA   Цитата(p2004r @ 20.10.2015 - 01:28) ...   27.10.2015 - 18:41
|- - nokh   Цитата(E_VA @ 27.10.2015 - 20:41) 3)...   3.11.2015 - 22:17
|- - E_VA   Цитата(nokh @ 4.11.2015 - 01:17) Ско...   5.11.2015 - 12:45
- - anserovtv   E_VA Я бы пытался создать единую модель для оценки...   19.10.2015 - 20:24
- - anserovtv   Решение задачи кажется мне странным. Random Fores...   10.11.2015 - 08:31
|- - E_VA   Цитата(anserovtv @ 10.11.2015 - 11:3...   10.11.2015 - 16:07
- - anserovtv   Алгоритм Random Forest обычно дает близкую к 100% ...   11.11.2015 - 19:31
|- - E_VA   Цитата(anserovtv @ 11.11.2015 - 22:3...   11.11.2015 - 20:00
||- - p2004r   Цитата(E_VA @ 11.11.2015 - 20:00) Мо...   12.11.2015 - 09:15
|- - p2004r   Цитата(anserovtv @ 11.11.2015 - 19:3...   12.11.2015 - 09:20
- - anserovtv   Должен ли будет алгоритм RandomForest показать усп...   11.11.2015 - 21:22
- - anserovtv   Я и не имел в виду переобучение. А где деление на...   17.11.2015 - 08:33
|- - p2004r   Цитата(anserovtv @ 17.11.2015 - 08:3...   17.11.2015 - 22:14
- - E_VA   Уважаемые Гуру форума! Очень рада, что вопросы...   17.11.2015 - 17:23
- - p2004r   Цитата(E_VA @ 17.11.2015 - 17:23) Мо...   17.11.2015 - 22:33
- - E_VA   Цитата(p2004r @ 18.11.2015 - 01:33) ...   18.11.2015 - 09:24


Добавить ответ в эту темуОткрыть тему