Помогите выбрать статистический метод, Множественные сравнения? |
Здравствуйте, гость ( Вход | Регистрация )
Помогите выбрать статистический метод, Множественные сравнения? |
18.10.2015 - 14:20
Сообщение
#1
|
|
Группа: Пользователи Сообщений: 17 Регистрация: 18.10.2015 Пользователь №: 27589 |
Добрый день! Помогите, пожалуйста, определиться с выбором метода.
Гипотеза: для больных старческого возраста применение данной операции также эффективно и безопасно, как для остальных. Имеется база из 100 пациентов. Ряд показателей: несколько опросников (до и после операции), оценка результата операции (по нескольким шкалам), наличие осложнение (несколько видов, измерены как "есть/нет"), оценка хода операции и восстановления после нее (длительность операции, длительность анестезии, длительность пребывания в стационаре?). Интересующая группа старческого возраста - 17 человек. Проверка данных на нормальность дала отрицательный результат. На первый взгляд хочется с помощью опросников до операции протестировать их исходную независимость от возраста. Затем посмотреть есть ли различие в остальных показателях в зависимости от возраста. Возникают вопросы по применяемым методам. Есть несколько соображений. 1. Смотреть зависимость: с помощью коэффициента корреляции (Спирмена, а для бинарных данных - бисериальный коэффициент корреляции). 2. Разбить выборку на 2 группы: до 75 лет и после. Затем сравнение с использованием Манна-Уитни. 3. Разбить выборку на 4 группы: 0-24; 25-49;50-74; 74 и более . Сделать сравнение по Краскеллу-Уоллису, а затем (если что-то было обнаружено), то применять критерий Данна. На фоне всех этих соображений гнетет вопрос о множественных сравнениях (так как кол-во показателей около 30). Есть ощущение, что данная проблема может обесценить предложенные подходы. Прошу помочь разобраться в данном вопросе и, при необходимости, порекомендовать куда "копать" дальше. Сообщение отредактировал E_VA - 18.10.2015 - 14:25 |
|
10.11.2015 - 08:31
Сообщение
#2
|
|
Группа: Пользователи Сообщений: 219 Регистрация: 4.06.2013 Из: Тверь Пользователь №: 24927 |
Решение задачи кажется мне странным.
Random Forest обычно применяют в исследованиях с очень большим числом наблюдений. Не может быть эффективность бинарной классификации менее 50 % - это может говорить о неверных настройках программ /площадь под ROC-кривой менее 0,5/. Кроме случайного леса есть и другие методы классификации. Мне кажется , что в данном случае достаточно использовать простые деревья классификации . Я бы попробовал применить и самоорганизующиеся карты Кохонена (если хватит данных) - в некоторой степени аналог Random Forest (также используется голосование) и др. методы. При этом нельзя в качестве зависимой переменной использовать категории возраста, а нужно использовать категории осложнений и др. с одной из независимых переменных - возраст или его категории. Иначе получается, что определение возраста по этим данным - одна из задач исследования, но ведь данные собирались для совсем другой / чисто медицинской/ цели./ Данные изначально не являются информативными для определения возраста или его категории./ Полезно построить ROC- кривые / если категорий две / и их сравнить. Также предварительно следует проверить качество данных на предмет дубликатов и противоречий. В других методах следует обратить внимание на мощность - полагаю, что у Вас мало данных. Сообщение отредактировал anserovtv - 10.11.2015 - 14:57 |
|