Форум врачей-аспирантов

Здравствуйте, гость ( Вход | Регистрация )

> Помогите выбрать статистический метод, Множественные сравнения?
E_VA
сообщение 18.10.2015 - 14:20
Сообщение #1





Группа: Пользователи
Сообщений: 17
Регистрация: 18.10.2015
Пользователь №: 27589



Добрый день! Помогите, пожалуйста, определиться с выбором метода.

Гипотеза: для больных старческого возраста применение данной операции также эффективно и безопасно, как для остальных.
Имеется база из 100 пациентов. Ряд показателей: несколько опросников (до и после операции), оценка результата операции (по нескольким шкалам), наличие осложнение (несколько видов, измерены как "есть/нет"), оценка хода операции и восстановления после нее (длительность операции, длительность анестезии, длительность пребывания в стационаре?). Интересующая группа старческого возраста - 17 человек. Проверка данных на нормальность дала отрицательный результат.

На первый взгляд хочется с помощью опросников до операции протестировать их исходную независимость от возраста. Затем посмотреть есть ли различие в остальных показателях в зависимости от возраста. Возникают вопросы по применяемым методам. Есть несколько соображений.
1. Смотреть зависимость: с помощью коэффициента корреляции (Спирмена, а для бинарных данных - бисериальный коэффициент корреляции).
2. Разбить выборку на 2 группы: до 75 лет и после. Затем сравнение с использованием Манна-Уитни.
3. Разбить выборку на 4 группы: 0-24; 25-49;50-74; 74 и более . Сделать сравнение по Краскеллу-Уоллису, а затем (если что-то было обнаружено), то применять критерий Данна.

На фоне всех этих соображений гнетет вопрос о множественных сравнениях (так как кол-во показателей около 30). Есть ощущение, что данная проблема может обесценить предложенные подходы. Прошу помочь разобраться в данном вопросе и, при необходимости, порекомендовать куда "копать" дальше.

Сообщение отредактировал E_VA - 18.10.2015 - 14:25
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
 
Открыть тему
Ответов
anserovtv
сообщение 10.11.2015 - 08:31
Сообщение #2





Группа: Пользователи
Сообщений: 219
Регистрация: 4.06.2013
Из: Тверь
Пользователь №: 24927



Решение задачи кажется мне странным.
Random Forest обычно применяют в исследованиях с очень большим числом наблюдений.
Не может быть эффективность бинарной классификации менее 50 % - это может говорить о неверных настройках программ /площадь под ROC-кривой менее 0,5/.
Кроме случайного леса есть и другие методы классификации. Мне кажется , что в данном случае достаточно использовать простые деревья классификации .
Я бы попробовал применить и самоорганизующиеся карты Кохонена (если хватит данных) - в некоторой степени аналог Random Forest (также используется голосование) и др. методы.

При этом нельзя в качестве зависимой переменной использовать категории возраста, а нужно использовать категории осложнений и др. с одной из независимых переменных - возраст или его категории. Иначе получается, что определение возраста по этим данным - одна из задач исследования, но ведь данные собирались для совсем другой / чисто медицинской/ цели./ Данные изначально не являются информативными для определения возраста или его категории./
Полезно построить ROC- кривые / если категорий две / и их сравнить.
Также предварительно следует проверить качество данных на предмет дубликатов и противоречий.
В других методах следует обратить внимание на мощность - полагаю, что у Вас мало данных.

Сообщение отредактировал anserovtv - 10.11.2015 - 14:57
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
E_VA
сообщение 10.11.2015 - 16:07
Сообщение #3





Группа: Пользователи
Сообщений: 17
Регистрация: 18.10.2015
Пользователь №: 27589



Цитата(anserovtv @ 10.11.2015 - 11:31) *
Решение задачи кажется мне странным.
Random Forest обычно применяют в исследованиях с очень большим числом наблюдений.
Не может быть эффективность бинарной классификации менее 50 % - это может говорить о неверных настройках программ /площадь под ROC-кривой менее 0,5/.
Кроме случайного леса есть и другие методы классификации. Мне кажется , что в данном случае достаточно использовать простые деревья классификации .
Я бы попробовал применить и самоорганизующиеся карты Кохонена (если хватит данных) - в некоторой степени аналог Random Forest (также используется голосование) и др. методы.

При этом нельзя в качестве зависимой переменной использовать категории возраста, а нужно использовать категории осложнений и др. с одной из независимых переменных - возраст или его категории. Иначе получается, что определение возраста по этим данным - одна из задач исследования, но ведь данные собирались для совсем другой / чисто медицинской/ цели./ Данные изначально не являются информативными для определения возраста или его категории./
Полезно построить ROC- кривые / если категорий две / и их сравнить.


У меня выборка 114 случаев. Если рассматривать 2 группы: 17 - группа пожилых, 97 остальные. Под неверной классификацией я имела в виду, что верная классификация пожилых была менее, чем в 50% случаев: 7 из 17 были определены верно. Была идея, что может из 97 выбирать случайным образом 17 и сравнивать, чтобы объем выборок был одинаковым, но, показалось , что тут будет потеряна информация.
Скажу сразу, что строились и логистические регрессии, там также процент верной классификации не превышал по группе пожилых 50% (максимум 5 человек). Т.е. результаты данных подходов были близки.

С точки зрения корректности предлагаемого подхода. Конечно, прямая постановка - зависит ли успех/осложнение от возраста. В такой простой постановке (методами сравнения возрастных групп по разным признакам) получен ответ нет. Но осложнений много, способов оценки успеха тоже много. На мой взгляд, если на основании набора признаков можно "предсказать" возраст, то получается, что в этом наборе имеется информация о возрасте (как я себе это представляю - например, конкретный тип осложнения + конкретная оценка успеха более присущи пожилым). Безусловно, никаких выводов о причинно-следственной связи делаться не будет, а только вывод о том, что в наборе "предикторов" содержится (не содержится) информация о возрасте. Или тут я все-таки что-то серьезно недопонимаю?

Сообщение отредактировал E_VA - 10.11.2015 - 16:45
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 

Сообщений в этой теме
- E_VA   Помогите выбрать статистический метод   18.10.2015 - 14:20
- - Игорь   Если данные разнородные (разные шкалы), то все пер...   18.10.2015 - 18:30
|- - E_VA   Цитата(Игорь @ 18.10.2015 - 21:30) Е...   18.10.2015 - 18:59
- - p2004r   удалено   19.10.2015 - 08:39
|- - E_VA   Цитата(p2004r @ 19.10.2015 - 11:39) ...   19.10.2015 - 09:36
|- - p2004r   удалено   19.10.2015 - 12:43
|- - E_VA   Цитата(p2004r @ 19.10.2015 - 15:43) ...   19.10.2015 - 16:14
|- - p2004r   Цитата(E_VA @ 19.10.2015 - 16:14) Из...   19.10.2015 - 22:28
|- - E_VA   Цитата(p2004r @ 20.10.2015 - 01:28) ...   27.10.2015 - 18:41
|- - nokh   Цитата(E_VA @ 27.10.2015 - 20:41) 3)...   3.11.2015 - 22:17
|- - E_VA   Цитата(nokh @ 4.11.2015 - 01:17) Ско...   5.11.2015 - 12:45
- - anserovtv   E_VA Я бы пытался создать единую модель для оценки...   19.10.2015 - 20:24
- - anserovtv   Решение задачи кажется мне странным. Random Fores...   10.11.2015 - 08:31
|- - E_VA   Цитата(anserovtv @ 10.11.2015 - 11:3...   10.11.2015 - 16:07
- - anserovtv   Алгоритм Random Forest обычно дает близкую к 100% ...   11.11.2015 - 19:31
|- - E_VA   Цитата(anserovtv @ 11.11.2015 - 22:3...   11.11.2015 - 20:00
||- - p2004r   Цитата(E_VA @ 11.11.2015 - 20:00) Мо...   12.11.2015 - 09:15
|- - p2004r   Цитата(anserovtv @ 11.11.2015 - 19:3...   12.11.2015 - 09:20
- - anserovtv   Должен ли будет алгоритм RandomForest показать усп...   11.11.2015 - 21:22
- - anserovtv   Я и не имел в виду переобучение. А где деление на...   17.11.2015 - 08:33
|- - p2004r   Цитата(anserovtv @ 17.11.2015 - 08:3...   17.11.2015 - 22:14
- - E_VA   Уважаемые Гуру форума! Очень рада, что вопросы...   17.11.2015 - 17:23
- - p2004r   Цитата(E_VA @ 17.11.2015 - 17:23) Мо...   17.11.2015 - 22:33
- - E_VA   Цитата(p2004r @ 18.11.2015 - 01:33) ...   18.11.2015 - 09:24


Добавить ответ в эту темуОткрыть тему