Здравствуйте, гость ( Вход | Регистрация )
18.10.2015 - 14:20
Сообщение
#1
|
|
|
Группа: Пользователи Сообщений: 17 Регистрация: 18.10.2015 Пользователь №: 27589 |
Добрый день! Помогите, пожалуйста, определиться с выбором метода.
Гипотеза: для больных старческого возраста применение данной операции также эффективно и безопасно, как для остальных. Имеется база из 100 пациентов. Ряд показателей: несколько опросников (до и после операции), оценка результата операции (по нескольким шкалам), наличие осложнение (несколько видов, измерены как "есть/нет"), оценка хода операции и восстановления после нее (длительность операции, длительность анестезии, длительность пребывания в стационаре?). Интересующая группа старческого возраста - 17 человек. Проверка данных на нормальность дала отрицательный результат. На первый взгляд хочется с помощью опросников до операции протестировать их исходную независимость от возраста. Затем посмотреть есть ли различие в остальных показателях в зависимости от возраста. Возникают вопросы по применяемым методам. Есть несколько соображений. 1. Смотреть зависимость: с помощью коэффициента корреляции (Спирмена, а для бинарных данных - бисериальный коэффициент корреляции). 2. Разбить выборку на 2 группы: до 75 лет и после. Затем сравнение с использованием Манна-Уитни. 3. Разбить выборку на 4 группы: 0-24; 25-49;50-74; 74 и более . Сделать сравнение по Краскеллу-Уоллису, а затем (если что-то было обнаружено), то применять критерий Данна. На фоне всех этих соображений гнетет вопрос о множественных сравнениях (так как кол-во показателей около 30). Есть ощущение, что данная проблема может обесценить предложенные подходы. Прошу помочь разобраться в данном вопросе и, при необходимости, порекомендовать куда "копать" дальше. Сообщение отредактировал E_VA - 18.10.2015 - 14:25 |
|
|
![]() |
![]() |
![]() |
11.11.2015 - 19:31
Сообщение
#2
|
|
|
Группа: Пользователи Сообщений: 219 Регистрация: 4.06.2013 Из: Тверь Пользователь №: 24927 |
Алгоритм Random Forest обычно дает близкую к 100% эффективность (поэтому и используется как альтернатива более классическим методам классификации при всех его недостатках).
Низкая эффективность в Вашем случае лишний раз доказывает, что по этим данным нельзя получить нужные Вам выводы. Конечно, можно выполнять различные манипуляции с числовыми данными, но не все из них имеют практический смысл. . Сообщение отредактировал anserovtv - 11.11.2015 - 19:32 |
|
|
![]() |
![]() |
11.11.2015 - 20:00
Сообщение
#3
|
|
|
Группа: Пользователи Сообщений: 17 Регистрация: 18.10.2015 Пользователь №: 27589 |
Алгоритм Random Forest обычно дает близкую к 100% эффективность (поэтому и используется как альтернатива более классическим методам классификации при всех его недостатках). Низкая эффективность в Вашем случае лишний раз доказывает, что по этим данным нельзя получить нужные Вам выводы. Конечно, можно выполнять различные манипуляции с числовыми данными, но не все из них имеют практический смысл. . Можно небольшой вопрос на допонимание? Извиняюсь, если вопрос глупый, но все-таки пытаюсь разобраться. Немножко абстрагируемся. Допустим, есть достаточно большая выборка. И стоит вопрос: зависит ли исход операции в Сибири от температуры в Африке, курса африканской национальной валюты и т.п. Думаю, что ответ будет нет. Должен ли будет алгоритм RandomForest показать успешную классификацию? И какой метод доказательства отсутствия связи будет уместен? |
|
|
![]() |
![]() |
12.11.2015 - 09:15
Сообщение
#4
|
|
|
Группа: Пользователи Сообщений: 1091 Регистрация: 26.08.2010 Пользователь №: 22699 |
Можно небольшой вопрос на допонимание? Извиняюсь, если вопрос глупый, но все-таки пытаюсь разобраться. Немножко абстрагируемся. Допустим, есть достаточно большая выборка. И стоит вопрос: зависит ли исход операции в Сибири от температуры в Африке, курса африканской национальной валюты и т.п. Думаю, что ответ будет нет. Должен ли будет алгоритм RandomForest показать успешную классификацию? И какой метод доказательства отсутствия связи будет уместен? Там используется не сам randomForest в "чистом виде", а пакет Boruta реализующий отбор предикторов на основании тестов в чем то эквивалентных тестам рандомизации (и его разновидности, например randomForestSRC). Метрика важности переменной врожденное свойство randimForesta. Метод позволяет найти все значащие предикторы для выбранной задачи классификации(регрессии). Можно ставить задачу поиска оптимального разрешающего набора, но это уже существенно отличающаяся задача которая крайне тяготеет к переобучению. Сообщение отредактировал p2004r - 12.11.2015 - 09:17 ![]() |
|
|
![]() |
![]() |
E_VA Помогите выбрать статистический метод 18.10.2015 - 14:20
Игорь Если данные разнородные (разные шкалы), то все пер... 18.10.2015 - 18:30
E_VA Цитата(Игорь @ 18.10.2015 - 21:30) Е... 18.10.2015 - 18:59
p2004r удалено 19.10.2015 - 08:39
E_VA Цитата(p2004r @ 19.10.2015 - 11:39) ... 19.10.2015 - 09:36
p2004r удалено 19.10.2015 - 12:43
E_VA Цитата(p2004r @ 19.10.2015 - 15:43) ... 19.10.2015 - 16:14
p2004r Цитата(E_VA @ 19.10.2015 - 16:14) Из... 19.10.2015 - 22:28
E_VA Цитата(p2004r @ 20.10.2015 - 01:28) ... 27.10.2015 - 18:41
nokh Цитата(E_VA @ 27.10.2015 - 20:41) 3)... 3.11.2015 - 22:17
E_VA Цитата(nokh @ 4.11.2015 - 01:17) Ско... 5.11.2015 - 12:45
anserovtv E_VA
Я бы пытался создать единую модель для оценки... 19.10.2015 - 20:24
anserovtv Решение задачи кажется мне странным.
Random Fores... 10.11.2015 - 08:31
E_VA Цитата(anserovtv @ 10.11.2015 - 11:3... 10.11.2015 - 16:07
p2004r Цитата(anserovtv @ 11.11.2015 - 19:3... 12.11.2015 - 09:20
anserovtv Должен ли будет алгоритм RandomForest показать усп... 11.11.2015 - 21:22
anserovtv Я и не имел в виду переобучение. А где деление на... 17.11.2015 - 08:33
p2004r Цитата(anserovtv @ 17.11.2015 - 08:3... 17.11.2015 - 22:14
E_VA Уважаемые Гуру форума!
Очень рада, что вопросы... 17.11.2015 - 17:23
p2004r Цитата(E_VA @ 17.11.2015 - 17:23) Мо... 17.11.2015 - 22:33
E_VA Цитата(p2004r @ 18.11.2015 - 01:33) ... 18.11.2015 - 09:24![]() ![]() |