Здравствуйте, гость ( Вход | Регистрация )
18.10.2015 - 14:20
Сообщение
#1
|
|
|
Группа: Пользователи Сообщений: 17 Регистрация: 18.10.2015 Пользователь №: 27589 |
Добрый день! Помогите, пожалуйста, определиться с выбором метода.
Гипотеза: для больных старческого возраста применение данной операции также эффективно и безопасно, как для остальных. Имеется база из 100 пациентов. Ряд показателей: несколько опросников (до и после операции), оценка результата операции (по нескольким шкалам), наличие осложнение (несколько видов, измерены как "есть/нет"), оценка хода операции и восстановления после нее (длительность операции, длительность анестезии, длительность пребывания в стационаре?). Интересующая группа старческого возраста - 17 человек. Проверка данных на нормальность дала отрицательный результат. На первый взгляд хочется с помощью опросников до операции протестировать их исходную независимость от возраста. Затем посмотреть есть ли различие в остальных показателях в зависимости от возраста. Возникают вопросы по применяемым методам. Есть несколько соображений. 1. Смотреть зависимость: с помощью коэффициента корреляции (Спирмена, а для бинарных данных - бисериальный коэффициент корреляции). 2. Разбить выборку на 2 группы: до 75 лет и после. Затем сравнение с использованием Манна-Уитни. 3. Разбить выборку на 4 группы: 0-24; 25-49;50-74; 74 и более . Сделать сравнение по Краскеллу-Уоллису, а затем (если что-то было обнаружено), то применять критерий Данна. На фоне всех этих соображений гнетет вопрос о множественных сравнениях (так как кол-во показателей около 30). Есть ощущение, что данная проблема может обесценить предложенные подходы. Прошу помочь разобраться в данном вопросе и, при необходимости, порекомендовать куда "копать" дальше. Сообщение отредактировал E_VA - 18.10.2015 - 14:25 |
|
|
![]() |
![]() |
![]() |
10.11.2015 - 08:31
Сообщение
#2
|
|
|
Группа: Пользователи Сообщений: 219 Регистрация: 4.06.2013 Из: Тверь Пользователь №: 24927 |
Решение задачи кажется мне странным.
Random Forest обычно применяют в исследованиях с очень большим числом наблюдений. Не может быть эффективность бинарной классификации менее 50 % - это может говорить о неверных настройках программ /площадь под ROC-кривой менее 0,5/. Кроме случайного леса есть и другие методы классификации. Мне кажется , что в данном случае достаточно использовать простые деревья классификации . Я бы попробовал применить и самоорганизующиеся карты Кохонена (если хватит данных) - в некоторой степени аналог Random Forest (также используется голосование) и др. методы. При этом нельзя в качестве зависимой переменной использовать категории возраста, а нужно использовать категории осложнений и др. с одной из независимых переменных - возраст или его категории. Иначе получается, что определение возраста по этим данным - одна из задач исследования, но ведь данные собирались для совсем другой / чисто медицинской/ цели./ Данные изначально не являются информативными для определения возраста или его категории./ Полезно построить ROC- кривые / если категорий две / и их сравнить. Также предварительно следует проверить качество данных на предмет дубликатов и противоречий. В других методах следует обратить внимание на мощность - полагаю, что у Вас мало данных. Сообщение отредактировал anserovtv - 10.11.2015 - 14:57 |
|
|
![]() |
![]() |
10.11.2015 - 16:07
Сообщение
#3
|
|
|
Группа: Пользователи Сообщений: 17 Регистрация: 18.10.2015 Пользователь №: 27589 |
Решение задачи кажется мне странным. Random Forest обычно применяют в исследованиях с очень большим числом наблюдений. Не может быть эффективность бинарной классификации менее 50 % - это может говорить о неверных настройках программ /площадь под ROC-кривой менее 0,5/. Кроме случайного леса есть и другие методы классификации. Мне кажется , что в данном случае достаточно использовать простые деревья классификации . Я бы попробовал применить и самоорганизующиеся карты Кохонена (если хватит данных) - в некоторой степени аналог Random Forest (также используется голосование) и др. методы. При этом нельзя в качестве зависимой переменной использовать категории возраста, а нужно использовать категории осложнений и др. с одной из независимых переменных - возраст или его категории. Иначе получается, что определение возраста по этим данным - одна из задач исследования, но ведь данные собирались для совсем другой / чисто медицинской/ цели./ Данные изначально не являются информативными для определения возраста или его категории./ Полезно построить ROC- кривые / если категорий две / и их сравнить. У меня выборка 114 случаев. Если рассматривать 2 группы: 17 - группа пожилых, 97 остальные. Под неверной классификацией я имела в виду, что верная классификация пожилых была менее, чем в 50% случаев: 7 из 17 были определены верно. Была идея, что может из 97 выбирать случайным образом 17 и сравнивать, чтобы объем выборок был одинаковым, но, показалось , что тут будет потеряна информация. Скажу сразу, что строились и логистические регрессии, там также процент верной классификации не превышал по группе пожилых 50% (максимум 5 человек). Т.е. результаты данных подходов были близки. С точки зрения корректности предлагаемого подхода. Конечно, прямая постановка - зависит ли успех/осложнение от возраста. В такой простой постановке (методами сравнения возрастных групп по разным признакам) получен ответ нет. Но осложнений много, способов оценки успеха тоже много. На мой взгляд, если на основании набора признаков можно "предсказать" возраст, то получается, что в этом наборе имеется информация о возрасте (как я себе это представляю - например, конкретный тип осложнения + конкретная оценка успеха более присущи пожилым). Безусловно, никаких выводов о причинно-следственной связи делаться не будет, а только вывод о том, что в наборе "предикторов" содержится (не содержится) информация о возрасте. Или тут я все-таки что-то серьезно недопонимаю? Сообщение отредактировал E_VA - 10.11.2015 - 16:45 |
|
|
![]() |
![]() |
E_VA Помогите выбрать статистический метод 18.10.2015 - 14:20
Игорь Если данные разнородные (разные шкалы), то все пер... 18.10.2015 - 18:30
E_VA Цитата(Игорь @ 18.10.2015 - 21:30) Е... 18.10.2015 - 18:59
p2004r удалено 19.10.2015 - 08:39
E_VA Цитата(p2004r @ 19.10.2015 - 11:39) ... 19.10.2015 - 09:36
p2004r удалено 19.10.2015 - 12:43
E_VA Цитата(p2004r @ 19.10.2015 - 15:43) ... 19.10.2015 - 16:14
p2004r Цитата(E_VA @ 19.10.2015 - 16:14) Из... 19.10.2015 - 22:28
E_VA Цитата(p2004r @ 20.10.2015 - 01:28) ... 27.10.2015 - 18:41
nokh Цитата(E_VA @ 27.10.2015 - 20:41) 3)... 3.11.2015 - 22:17
E_VA Цитата(nokh @ 4.11.2015 - 01:17) Ско... 5.11.2015 - 12:45
anserovtv E_VA
Я бы пытался создать единую модель для оценки... 19.10.2015 - 20:24
anserovtv Алгоритм Random Forest обычно дает близкую к 100% ... 11.11.2015 - 19:31
E_VA Цитата(anserovtv @ 11.11.2015 - 22:3... 11.11.2015 - 20:00

p2004r Цитата(E_VA @ 11.11.2015 - 20:00) Мо... 12.11.2015 - 09:15
p2004r Цитата(anserovtv @ 11.11.2015 - 19:3... 12.11.2015 - 09:20
anserovtv Должен ли будет алгоритм RandomForest показать усп... 11.11.2015 - 21:22
anserovtv Я и не имел в виду переобучение. А где деление на... 17.11.2015 - 08:33
p2004r Цитата(anserovtv @ 17.11.2015 - 08:3... 17.11.2015 - 22:14
E_VA Уважаемые Гуру форума!
Очень рада, что вопросы... 17.11.2015 - 17:23
p2004r Цитата(E_VA @ 17.11.2015 - 17:23) Мо... 17.11.2015 - 22:33
E_VA Цитата(p2004r @ 18.11.2015 - 01:33) ... 18.11.2015 - 09:24![]() ![]() |