Версия для печати темы

Нажмите сюда для просмотра этой темы в обычном формате

Форум врачей-аспирантов _ Медицинская статистика _ Помогите выбрать статистический метод

Автор: E_VA 18.10.2015 - 14:20

Добрый день! Помогите, пожалуйста, определиться с выбором метода.

Гипотеза: для больных старческого возраста применение данной операции также эффективно и безопасно, как для остальных.
Имеется база из 100 пациентов. Ряд показателей: несколько опросников (до и после операции), оценка результата операции (по нескольким шкалам), наличие осложнение (несколько видов, измерены как "есть/нет"), оценка хода операции и восстановления после нее (длительность операции, длительность анестезии, длительность пребывания в стационаре?). Интересующая группа старческого возраста - 17 человек. Проверка данных на нормальность дала отрицательный результат.

На первый взгляд хочется с помощью опросников до операции протестировать их исходную независимость от возраста. Затем посмотреть есть ли различие в остальных показателях в зависимости от возраста. Возникают вопросы по применяемым методам. Есть несколько соображений.
1. Смотреть зависимость: с помощью коэффициента корреляции (Спирмена, а для бинарных данных - бисериальный коэффициент корреляции).
2. Разбить выборку на 2 группы: до 75 лет и после. Затем сравнение с использованием Манна-Уитни.
3. Разбить выборку на 4 группы: 0-24; 25-49;50-74; 74 и более . Сделать сравнение по Краскеллу-Уоллису, а затем (если что-то было обнаружено), то применять критерий Данна.

На фоне всех этих соображений гнетет вопрос о множественных сравнениях (так как кол-во показателей около 30). Есть ощущение, что данная проблема может обесценить предложенные подходы. Прошу помочь разобраться в данном вопросе и, при необходимости, порекомендовать куда "копать" дальше.

Автор: Игорь 18.10.2015 - 18:30

Если данные разнородные (разные шкалы), то все перечисленные критерии неприменимы.

Автор: E_VA 18.10.2015 - 18:59

Цитата(Игорь @ 18.10.2015 - 21:30) *
Если данные разнородные (разные шкалы), то все перечисленные критерии неприменимы.


Если я правильно понимаю ограничения по использованию инструментов, то
по предложению 1 я сравниваю количественный показатель возраст с количественным и порядковым с помощью корреляции Спирмена, а количественный с номинальным (да/нет) с помощью бисериального коэффициента корреляции;
по предложению 2 количественные и порядковые показатели для групп при помощи Мана-Уитни, номинальные (да/нет) - точный критерий Фишера;
по предложению 3 количественные и порядковые показатели для групп при помощи Краскелла-Уолиса, а затем Данна, номинальные (да/нет) - пока еще ищу в литературе, что можно использовать.

Была еще одна идея к предложению 1 по номинальным (да/нет) признакам - разбить выборку на 2 группы по признаку да/нет и сравнить в них возрасты с помощью Манна-Уитни. Т.е. наблюдается ли отличие по возрасту группы с осложнениями и группы без них.

Автор: p2004r 19.10.2015 - 08:39

удалено

Автор: E_VA 19.10.2015 - 09:36

Цитата(p2004r @ 19.10.2015 - 11:39) *
гипотеза сформулирована неконкретно, без детализации "эффективно", "безопасно" применительно к проведенным измерениям.


Если под безопасно (как у других возрастов) понимать: та же частота осложнений, что и у других возрастов, а под эффективно (как у других возрастов) - те же показатели опросников после операции. То будет корректно?

Автор: p2004r 19.10.2015 - 12:43

удалено

Автор: E_VA 19.10.2015 - 16:14

Цитата(p2004r @ 19.10.2015 - 15:43) *
1) Вот выкручиваться не надо smile.gif, "точно также" имеет очень отдаленное отношение к "эффективности" и "безопасности". Имеет смысл отношение "также или лучше", где "лучше" придется определить для _каждой_ используемой шкалы (для частоты осложнений это легче всего). Тогда будет сформулировано корректно.

2) Можно сначала рассмотреть чем отличается "целевая группа" от всех остальных. И уже для агрегированных (например обычным LDA) отличий вывести критерий "эффективно", "безопасно".

PS второе лучше поскольку показатели еще и коррелированы и можно "долго искать угол в круглом доме" (и даже найти этот "угол)"


Извините, пожалуйста, если дальше пойдут глупые вопросы/утверждения. Очень стараюсь понять, но видно не хватает знаний и опыта.

1) Определение отношений также ?или лучше? для показателей: частота осложнений ? чем меньше в группе ? тем лучше, для шкал: 0- хорошо?. максимальное значение ? плохо (все шкалы упорядочены), аналогично для количественных данных ? всегда можно сказать что лучше.

2) Естественно, предварительно (сравнение групп непараметрическими методами) я просмотрела сравнение групп по показателям, где намечаются отличия. Они намечаются только в показателях, которые связаны с длительностью нахождения в стационаре, палате интенсивной терапии и т.п. (это логично, так как за пожилыми более ?внимательный? уход). По осложнениям и шкалам вроде как не намечаются. Понимаю, что применяла тут не совсем корректные методы, но это была прикидка.

3) Полностью согласна, что данные у меня коррелированы ? т.е. все опросники показывают выздоровление, вот только освещают его различные аспекты. Поэтому в силу множественных сравнений шанс найти ?угол в круглом доме? у меня есть. Собственно чего и опасаюсь.

4) Если, я верно поняла, то LDA (линейный дискриминантный анализ) предлагается использовать для того, чтобы найти те переменные, которые различают группы (пожилые и прочие). Насколько я знаю, там есть 2 существенных для моего случая ограничения: нормальность данных и количественные или порядковые данные. Т.е. для решения такой задачи его нельзя использовать.

5) По итогам обсуждения сделала для себя промежуточный вывод (предположение, как решать поставленную задачу) :
1 шаг - нужно показатели разбить на независимые (в какой-то степени, так как придется принимать решение о мере независимости) группы. По идее, при реализации шага 1 ? должны возникнуть группы по безопасности и группы по эффективности.;
2 шаг - из каждой группы выделить 1,
3 шаг - спокойно (так как уже нет зависимости и не опасны в этом контексте множественные сравнения) сравнивать по выделенному из каждой группы показателю.
Верен ли этот подход? Или снова куда-то в сторону заносит?

Автор: anserovtv 19.10.2015 - 20:24

E_VA
Я бы пытался создать единую модель для оценки влияния дихотомической переменной (возраст) на другие переменные.
Это - очень сложная задача, но проблема множественности сравнений будет снята.
Примеры таких моделей (но в психологии) хорошо известны. В рамках этой модели можно бороться и с отклонениями от нормальности по каждой переменной.
Модель может содержать и структурную и измерительную составляющие. Можно выполнить предварительную генерацию модели и ее частей.
Более простое: по результатам опросников (и некоторым другим переменным) можно пытаться выполнить факторный анализ и вычислить факторные оценки.
После этого можно сравнивать категории возраста по факторным оценкам: часто картинка становится более отчетливой, т. е. если категории не отличались по переменным, то могут отличаться по факторным оценкам.
Полезно выполнить и анализ качества опросников (альфа Кронбаха), а возрастные категории сравнивать только по информативным вопросам.

Автор: p2004r 19.10.2015 - 22:28

Цитата(E_VA @ 19.10.2015 - 16:14) *
Извините, пожалуйста, если дальше пойдут глупые вопросы/утверждения. Очень стараюсь понять, но видно не хватает знаний и опыта.

1) Определение отношений также ?или лучше? для показателей: частота осложнений ? чем меньше в группе ? тем лучше, для шкал: 0- хорошо?. максимальное значение ? плохо (все шкалы упорядочены), аналогично для количественных данных ? всегда можно сказать что лучше.

2) Естественно, предварительно (сравнение групп непараметрическими методами) я просмотрела сравнение групп по показателям, где намечаются отличия. Они намечаются только в показателях, которые связаны с длительностью нахождения в стационаре, палате интенсивной терапии и т.п. (это логично, так как за пожилыми более ?внимательный? уход). По осложнениям и шкалам вроде как не намечаются. Понимаю, что применяла тут не совсем корректные методы, но это была прикидка.

3) Полностью согласна, что данные у меня коррелированы ? т.е. все опросники показывают выздоровление, вот только освещают его различные аспекты. Поэтому в силу множественных сравнений шанс найти ?угол в круглом доме? у меня есть. Собственно чего и опасаюсь.

4) Если, я верно поняла, то LDA (линейный дискриминантный анализ) предлагается использовать для того, чтобы найти те переменные, которые различают группы (пожилые и прочие). Насколько я знаю, там есть 2 существенных для моего случая ограничения: нормальность данных и количественные или порядковые данные. Т.е. для решения такой задачи его нельзя использовать.

5) По итогам обсуждения сделала для себя промежуточный вывод (предположение, как решать поставленную задачу) :
1 шаг - нужно показатели разбить на независимые (в какой-то степени, так как придется принимать решение о мере независимости) группы. По идее, при реализации шага 1 ? должны возникнуть группы по безопасности и группы по эффективности.;
2 шаг - из каждой группы выделить 1,
3 шаг - спокойно (так как уже нет зависимости и не опасны в этом контексте множественные сравнения) сравнивать по выделенному из каждой группы показателю.
Верен ли этот подход? Или снова куда-то в сторону заносит?


1) Если "очень хорошо" не начинает означать плохо, то можно. Но придется для всех шкал это сформулировать явно, и наверняка пойдет взаимодействие шкал.

2) 3) Вместо того что бы смотреть глазами, лучше применить какой либо метод "редукции размерности"

4) Никакого отношения к нормальному распределению Linear Discriminant Analysis не имеет (того "выводильщика" который "вывел" его и PCA из всяких к.к. следует публично посадить на кол), это обыкновенная геометрия (только критерий выбора ортогональной системы координат немного не такой как в PCA). Любые переменные можно свести к набору (dummi) бинарных переменных.

5) Да как то так, только лучше (выбрав только влияющие значимо показатели) построить модель объясняющую разделение (обычно логистическая регрессия). И надо помнить, что может группы значимо (например по результатам кроссвалидации) и не разделяются. То есть сначала доказать что различие в принципе есть, а потом разобрать в чем оно собственно состоит и какая связь между всеми значимыми показателями.

Автор: E_VA 27.10.2015 - 18:41

Цитата(p2004r @ 20.10.2015 - 01:28) *
5) Да как то так, только лучше (выбрав только влияющие значимо показатели) построить модель объясняющую разделение (обычно логистическая регрессия). И надо помнить, что может группы значимо (например по результатам кроссвалидации) и не разделяются. То есть сначала доказать что различие в принципе есть, а потом разобрать в чем оно собственно состоит и какая связь между всеми значимыми показателями.


Огромное спасибо за проявленное внимание к моему вопросу и попытку помочь разобраться!

Постаралась последовать рекомендациям. Получились следующие результаты (что с ними делать далее "ума не приложу").
1) По показателям осложнений (все бинарные признаки) посмотрела таблицы сопряженности. Из 9 показателей выявила 5 зависимых пар (точный критерий Фишера). В качестве силы связи смотрела коэффициент Фи-квадрат (0.25 - 0.55). Рассматривались в том числе таблица сопряженности "возраст - осложнение" по всем осложнениям. Зависимости не обнаружено.
По оценке результатов операции (опросники, шкалы оценки итогов) смотрела: коэффициент корреляции Спирмена. Шкалы, связанные с оценкой качества жизни, имеют корреляцию порядка 0,75-0,9. Шкалы оценки итогов: 0,69-0,71. Аналогично сравнивала возрастные группы по показателям (Манн-Уитни) - не различаются.
Для перепроверки результатов для опросников провела факторный анализ : выделяет максимум 2 фактора, но можно оставить и 1.
Были еще количественные показатели, характеризующие длительность пребывания пациента в больнице, длительность операции, итого 5 показателей. Все значимо коррелируют по Спирмену, но сильно зависима (0,81) только пара из них. Аналогично сравнивала возрастные группы по показателям (Манн-Уитни) - выявлено различие только по 1 показателю.

2) Использование LDA (с пошаговым включением) привело к тому, что для дискриминации использовано только 2 показателя из группы показателей, характеризующих длительность пребывания пациента в больнице. При этом 35% пациентов старческого возраста классифицировано неверно.

3) Тестовая попытка построить логистическую регрессию при использовании всех осложнений, типичного опросника, типичной оценки результатов и 4 показателей пребывания в больнице проваливается из-за вычислительной проблемы. (пакет SPSS)
Может, конечно, я что-то не так делаю, но по идее, если нет связи между зависимыми переменными регрессии и классифицирующей, то сама регрессия и не должна строится.

На самом деле ожидается, что от возраста не зависит безопасность и эффективность. Но именно доказать с использованием данных инструментов у меня не получается.
Если мое сообщение уже тянет на полноценную личную консультацию, то буду благодарна ей на возмездной основе (прошу написать ЛС).

Автор: nokh 3.11.2015 - 22:17

Цитата(E_VA @ 27.10.2015 - 20:41) *
3) Тестовая попытка построить логистическую регрессию при использовании всех осложнений, типичного опросника, типичной оценки результатов и 4 показателей пребывания в больнице проваливается из-за вычислительной проблемы. (пакет SPSS)
Может, конечно, я что-то не так делаю, но по идее, если нет связи между зависимыми переменными регрессии и классифицирующей, то сама регрессия и не должна строится.

На самом деле ожидается, что от возраста не зависит безопасность и эффективность. Но именно доказать с использованием данных инструментов у меня не получается.
Если мое сообщение уже тянет на полноценную личную консультацию, то буду благодарна ей на возмездной основе (прошу написать ЛС).

Скорее всего разбираться вам предстоит самостоятельно, т.к. в вашу задачу нужно вникать предметно. Техниками вы владеете, поэтому результат будет: если покрутите так и эдак, то картинка сложится, может только нужно дать вылежаться материалу пару-тройку недель, переключиться пока на другое.
По поводу логистической регрессии - это капризная штука, когда число покзателей велико по сравнению с объёмом выборки. Моя практика говорит, что больше 5-7 покзателей даже пошаговой техникой часто "проваливаются".
Помочь картинке сложится могут разведочные многомерные техники типа главных компонент. Посмотреть можно весь объём данных даже обычным PCA, хотя лучше - нелинейным (есть в SPSS): номинальные и порядковые признаки лучше обработаются. Но такие анализы требуют практики трактовки. Если в вашем окружении есть люди, имеющие такую практику - обязательно попробуйте!

Автор: E_VA 5.11.2015 - 12:45

Цитата(nokh @ 4.11.2015 - 01:17) *
Скорее всего разбираться вам предстоит самостоятельно, т.к. в вашу задачу нужно вникать предметно. Техниками вы владеете, поэтому результат будет: если покрутите так и эдак, то картинка сложится, может только нужно дать вылежаться материалу пару-тройку недель, переключиться пока на другое.
По поводу логистической регрессии - это капризная штука, когда число покзателей велико по сравнению с объёмом выборки. Моя практика говорит, что больше 5-7 покзателей даже пошаговой техникой часто "проваливаются".
Помочь картинке сложится могут разведочные многомерные техники типа главных компонент. Посмотреть можно весь объём данных даже обычным PCA, хотя лучше - нелинейным (есть в SPSS): номинальные и порядковые признаки лучше обработаются. Но такие анализы требуют практики трактовки. Если в вашем окружении есть люди, имеющие такую практику - обязательно попробуйте!


Был предложен еще один подход к данной задаче - метод классификации RandomForest (ОГРОМНОЕ спасибо p2004r).
В итоге у меня получилась вот такая структура исследования:
1 этап: анализ с помощью корреляций, таблиц сопряженности, сравнения групп + графики. Вывод, что связи обнаружены только по 2 показателям (p около 0,03).
2 этап: с учетом проблемы множественных сравнений применен метод классификации RandomForest. Классификация проводилась по группам показателей:
- исходные данные групп (цель - показать однородность),
- безопасность (цель - попробовать найти факторы, которые помогли бы провести разделение),
- эффективность (цель - попробовать найти факторы, которые помогли бы провести разделение).
Итоги второго этапа: ни при одной классификации не достигнут 50% результат по определению группы старческого возраста.

На основании проведенного анализа делается вывод, что безопасность и эффективность операционного вмешательства у больных старческого возраста, такая же, как и у других возрастов. Тут под безопасностью понимается только совокупность исследуемых осложнений.

Использование метода классификации, а не логистической регрессии, мне больше понравилось, так как нет ограничений на вид распределения признаков, их дисперсий и т.д. Как я поняла, данный инструмент перебирает практически все возможные варианты классификаций, что уже можно считать основанием для отрицательного ответа. А отрицательный ответ по логистической регрессии может быть связан с неверным выбором функциональной зависимости, да и "кривыми ручками" при подборе параметров.

Автор: anserovtv 10.11.2015 - 08:31

Решение задачи кажется мне странным.
Random Forest обычно применяют в исследованиях с очень большим числом наблюдений.
Не может быть эффективность бинарной классификации менее 50 % - это может говорить о неверных настройках программ /площадь под ROC-кривой менее 0,5/.
Кроме случайного леса есть и другие методы классификации. Мне кажется , что в данном случае достаточно использовать простые деревья классификации .
Я бы попробовал применить и самоорганизующиеся карты Кохонена (если хватит данных) - в некоторой степени аналог Random Forest (также используется голосование) и др. методы.

При этом нельзя в качестве зависимой переменной использовать категории возраста, а нужно использовать категории осложнений и др. с одной из независимых переменных - возраст или его категории. Иначе получается, что определение возраста по этим данным - одна из задач исследования, но ведь данные собирались для совсем другой / чисто медицинской/ цели./ Данные изначально не являются информативными для определения возраста или его категории./
Полезно построить ROC- кривые / если категорий две / и их сравнить.
Также предварительно следует проверить качество данных на предмет дубликатов и противоречий.
В других методах следует обратить внимание на мощность - полагаю, что у Вас мало данных.

Автор: E_VA 10.11.2015 - 16:07

Цитата(anserovtv @ 10.11.2015 - 11:31) *
Решение задачи кажется мне странным.
Random Forest обычно применяют в исследованиях с очень большим числом наблюдений.
Не может быть эффективность бинарной классификации менее 50 % - это может говорить о неверных настройках программ /площадь под ROC-кривой менее 0,5/.
Кроме случайного леса есть и другие методы классификации. Мне кажется , что в данном случае достаточно использовать простые деревья классификации .
Я бы попробовал применить и самоорганизующиеся карты Кохонена (если хватит данных) - в некоторой степени аналог Random Forest (также используется голосование) и др. методы.

При этом нельзя в качестве зависимой переменной использовать категории возраста, а нужно использовать категории осложнений и др. с одной из независимых переменных - возраст или его категории. Иначе получается, что определение возраста по этим данным - одна из задач исследования, но ведь данные собирались для совсем другой / чисто медицинской/ цели./ Данные изначально не являются информативными для определения возраста или его категории./
Полезно построить ROC- кривые / если категорий две / и их сравнить.


У меня выборка 114 случаев. Если рассматривать 2 группы: 17 - группа пожилых, 97 остальные. Под неверной классификацией я имела в виду, что верная классификация пожилых была менее, чем в 50% случаев: 7 из 17 были определены верно. Была идея, что может из 97 выбирать случайным образом 17 и сравнивать, чтобы объем выборок был одинаковым, но, показалось , что тут будет потеряна информация.
Скажу сразу, что строились и логистические регрессии, там также процент верной классификации не превышал по группе пожилых 50% (максимум 5 человек). Т.е. результаты данных подходов были близки.

С точки зрения корректности предлагаемого подхода. Конечно, прямая постановка - зависит ли успех/осложнение от возраста. В такой простой постановке (методами сравнения возрастных групп по разным признакам) получен ответ нет. Но осложнений много, способов оценки успеха тоже много. На мой взгляд, если на основании набора признаков можно "предсказать" возраст, то получается, что в этом наборе имеется информация о возрасте (как я себе это представляю - например, конкретный тип осложнения + конкретная оценка успеха более присущи пожилым). Безусловно, никаких выводов о причинно-следственной связи делаться не будет, а только вывод о том, что в наборе "предикторов" содержится (не содержится) информация о возрасте. Или тут я все-таки что-то серьезно недопонимаю?

Автор: anserovtv 11.11.2015 - 19:31

Алгоритм Random Forest обычно дает близкую к 100% эффективность (поэтому и используется как альтернатива более классическим методам классификации при всех его недостатках).
Низкая эффективность в Вашем случае лишний раз доказывает, что по этим данным нельзя получить нужные Вам выводы.
Конечно, можно выполнять различные манипуляции с числовыми данными, но не все из них имеют практический смысл.
.

Автор: E_VA 11.11.2015 - 20:00

Цитата(anserovtv @ 11.11.2015 - 22:31) *
Алгоритм Random Forest обычно дает близкую к 100% эффективность (поэтому и используется как альтернатива более классическим методам классификации при всех его недостатках).
Низкая эффективность в Вашем случае лишний раз доказывает, что по этим данным нельзя получить нужные Вам выводы.
Конечно, можно выполнять различные манипуляции с числовыми данными, но не все из них имеют практический смысл.
.


Можно небольшой вопрос на допонимание? Извиняюсь, если вопрос глупый, но все-таки пытаюсь разобраться.

Немножко абстрагируемся. Допустим, есть достаточно большая выборка. И стоит вопрос: зависит ли исход операции в Сибири от температуры в Африке, курса африканской национальной валюты и т.п. Думаю, что ответ будет нет.
Должен ли будет алгоритм RandomForest показать успешную классификацию? И какой метод доказательства отсутствия связи будет уместен?

Автор: anserovtv 11.11.2015 - 21:22

Должен ли будет алгоритм RandomForest показать успешную классификацию?
Не знаю, это будет зависеть и от того, какие другие переменные участвуют в модели.
Если качество классификации будет высоким, а переменные не являются значимыми . то связи с ними нет /косвенный результат.
Если качество классификации низкое, никакие выводы делать нельзя.

И какой метод доказательства отсутствия связи будет уместен?
Параметрические или непараметрические методы сравнения двух независимых выборок по каждой переменной - простой подход (при необходимости - с поправками).
Тест Хотеллинга /при выполнении условий/ , перестановочные тесты для двух групп, в том числе и многомерные.
Если переменных много и выявляются факторы, то эти же методы для факторных оценок (чуть сложнее).
Более сложные - дискриминантный анализ, логрегрессия. деревья классификации и др. /перечислялись в этой теме выше.
Если качество модели будет высоким, а переменные не являются значимыми, то связи с ними нет.
В других случаях никакие выводы делать нельзя.
Более универсальный и очень сложный метод - обобщенные уравнения оценки с бинарным откликом /нужно строить модель и проверять условия , есть в SPSS/.
Если разумно выявляются категории, можно использовать таблицы сопряженности и логлинейный анализ таблиц сопряженности (менее мощные методы).
Но я всегда прежде всего руководствуюсь здравым смыслом - связь может быть и ложной.
Я не против применения метода Random Forest в этом исследовании, но для совсем других целей. Удачи!

Автор: p2004r 12.11.2015 - 09:15

Цитата(E_VA @ 11.11.2015 - 20:00) *
Можно небольшой вопрос на допонимание? Извиняюсь, если вопрос глупый, но все-таки пытаюсь разобраться.

Немножко абстрагируемся. Допустим, есть достаточно большая выборка. И стоит вопрос: зависит ли исход операции в Сибири от температуры в Африке, курса африканской национальной валюты и т.п. Думаю, что ответ будет нет.
Должен ли будет алгоритм RandomForest показать успешную классификацию? И какой метод доказательства отсутствия связи будет уместен?


Там используется не сам randomForest в "чистом виде", а пакет Boruta реализующий отбор предикторов на основании тестов в чем то эквивалентных тестам рандомизации (и его разновидности, например randomForestSRC). Метрика важности переменной врожденное свойство randimForesta.

Метод позволяет найти все значащие предикторы для выбранной задачи классификации(регрессии). Можно ставить задачу поиска оптимального разрешающего набора, но это уже существенно отличающаяся задача которая крайне тяготеет к переобучению.

Автор: p2004r 12.11.2015 - 09:20

Цитата(anserovtv @ 11.11.2015 - 19:31) *
Алгоритм Random Forest обычно дает близкую к 100% эффективность (поэтому и используется как альтернатива более классическим методам классификации при всех его недостатках).
Низкая эффективность в Вашем случае лишний раз доказывает, что по этим данным нельзя получить нужные Вам выводы.
Конечно, можно выполнять различные манипуляции с числовыми данными, но не все из них имеют практический смысл.
.



Можно очень много болтать имея крайне низкий практический смысл. У меня вообще впечатление от вас остается как от однажды встреченного в 90е прапорщика который подался "на заработки" в "экстрасенсы излечивающие рак", и выучил справочник гистологический названий опухолей наизусть что бы поражать клиентуру трехэтажными названиями случаев которые он якобы вылечил.

Цитата
Алгоритм Random Forest обычно дает близкую к 100% эффективность (поэтому и используется как альтернатива более классическим методам классификации при всех его недостатках).


До такой некомпетентности можно дойти не только лишь всем (С) Случайный лес практически не подвержен проблеме переобучения. Я с ходу могу придумать только одну схему "бездумного нажимания кнопок" ведущую к такому "опыту", это подать в обученную модель те же данные на которых лес строился. Но это лежит за гранью разумного, поскольку сама процедура построения леса (во всех известных мне реализациях) сразу строит и не переобученное решение для обучающей выборки.

Автор: anserovtv 17.11.2015 - 08:33

Я и не имел в виду переобучение. А где деление на обучающую и тестирующие выборки\ скользящий контроль и др.
(если уж этот метод применять).
Ты сомневаешься в моей компетентности?
Могу выслать список статей в журналах ВАК, ДАН, AMS, номера грантов РФФИ и др.
Мне (глупому!) уже не раз прислали просьбы помочь "проконсультировавшиеся" у тебя. Вот и дама задает мне вопросы. И других скоро покажу.
Если вы оба уверены, несите этот бред (на мой взгляд) в журнал ВАК (пришлите ссылку, если опубликуют - пусть мне будет стыдно и посмотрю, а нет ли моих идей в окончательном опубликованном варианте), зачем показывать на форуме умное глупым (т. е. мне)?
Странно . что на этом форуме никто ничего не заметил (или не захотел) - сообщение висело неделю.
Дама и опубликовала решение на форуме, потому что сомневается в правильности.

Автор: E_VA 17.11.2015 - 17:23

Уважаемые Гуру форума!
Очень рада, что вопросы научного плана могут вызывать искренние эмоции. К сожалению, это встречается теперь крайне редко. Еще реже встречается желание помочь и научить. Я очень Вам всем благодарна. К своей задачке я подходила различными путями, используя Ваши рекомендации. "Показания" трех подходов сошлись практически полностью (включая логистическую регрессию).

Пока анализировала данные, делала проверки с применением перестановочных тестов (спасибо anserovtv). Любопытство привело к тому, что сделала один самостоятельно. Стала перепроверять на реализованных уже тестах в R (пакет coin), не сходится. Может быть я не поняла идею? Или "кривые ручки"? Буду благодарна, если ткнете в ошибку.

Моя реализация
> boots<-numeric(10000)
> for (i in 1:10000)
{
gr1i<-sample(delDUR,97)
gr2i<-sample(delDUR,17)
boots[i]<-wilcox.test(gr1i,gr2i)$stat
}
> hist(boots)
> quantile(boots, prob=c(0.025,0.975))

2.5% 97.5%
618.4875 1021.5000
> wilcox.test(delDUR~Bgr)
Wilcoxon rank sum test with continuity correction
data: delDUR by BGr
W = 1040, p-value = 0.07121
alternative hypothesis: true location shift is not equal to 0

Делаю вывод, что с уровнем стат. значимости p<0.025 показатель в группах различается.

Делаю проверку
> library(coin)
> wilcox_test(delDUR ~ BGr)


Asymptotic Wilcoxon-Mann-Whitney Test

data: delDUR by BGr (1, 2)
Z = 1.8083, p-value = 0.07055
alternative hypothesis: true mu is not equal to 0

По идее при критическом р=0,05 принимаю гипотезу о равенстве показателя в группах. Такой же результат дает и просто применение данного теста (см. выше).
В приложенном файле данные, используемые для анализа.


 Data.rar ( 228 байт ) : 214
 

Автор: p2004r 17.11.2015 - 22:14

Цитата(anserovtv @ 17.11.2015 - 08:33) *
Я и не имел в виду переобучение. А где деление на обучающую и тестирующие выборки\ скользящий контроль и др.
(если уж этот метод применять).
Ты сомневаешься в моей компетентности?
Могу выслать список статей в журналах ВАК, ДАН, AMS, номера грантов РФФИ и др.
Мне (глупому!) уже не раз прислали просьбы помочь "проконсультировавшиеся" у тебя. Вот и дама задает мне вопросы. И других скоро покажу.
Если вы оба уверены, несите этот бред (на мой взгляд) в журнал ВАК (пришлите ссылку, если опубликуют - пусть мне будет стыдно и посмотрю, а нет ли моих идей в окончательном опубликованном варианте), зачем показывать на форуме умное глупым (т. е. мне)?
Странно . что на этом форуме никто ничего не заметил (или не захотел) - сообщение висело неделю.
Дама и опубликовала решение на форуме, потому что сомневается в правильности.


1. Ну вот теперь уже про какую то "обучающую и тестирующую выборку" (причем у метода селекции предикторов который создает сотни таких обучающих и тестирующих выборок просто по своей природе). Можно конечно сделать "масло масляным" и еще поверх этого всего ансамбля случайных выборок устроить оценку кроссвалидацией.

На самом деле все делают не так, вот статьи (поищи там "украденные" у тебя "идеи") о примененных к конкретно обсуждаемому датасету методах селекции переменных:

Miron B. Kursa, Witold R. Rudnicki (2010). Feature Selection with
the Boruta Package. _Journal of Statistical Software, 36(11)_, p.
1-13. URL: <URL: http://www.jstatsoft.org/v36/i11/&gt;

Ishwaran H., Kogalur U.B., Gorodeski E.Z, Minn A.J. and Lauer M.S.
(2010). High-dimensional variable selection for survival data.
_J. Amer. Statist. Assoc._, 105:205-217.

Diaz-Uriarte, R. and Alvarez de Andres, S. (2005) Variable
selection from random forests: application to gene expression
data. Tech. report. <URL:
http://ligarto.org/rdiaz/Papers/rfVS/randomForestVarSel.html&gt;

Все методы выделяют одно и тоже небольшое подмножество (а те которые могут еще и оценивают можно ли считать достигнутым выбранный уровень практической достоверности).

2. Вот какое отношение все это что ты пишешь теперь "про обучающую, контролирующую выборки" имеет к исходному твоему сообщению о какой то "100% эффективности"?! Что ты там имел ввиду каждый раз понять невозможно от слова вообще. И это уже в десятый раз я наблюдаю, когда вместо ответа за свое предыдущее высказывание звучит новый ответ (причем такой же бесполезный как и предыдущий).

3. Ну давай, высылай список работ, так и быть проверю на ошибки. И заодно "список пострадавших проконсультировавшихся у меня" огласи, очень любопытно кому это я там "давал консультации" smile.gif.

PS А ВАК, как показал последний опыт анализа данных очередным аспирантом у меня, склонен утверждать такие диссертации досрочно smile.gif [это уж теперь я такую тонкую рекламу себе позволю smile.gif ]

Автор: p2004r 17.11.2015 - 22:33

Цитата(E_VA @ 17.11.2015 - 17:23) *
Моя реализация
> boots<-numeric(10000)
> for (i in 1:10000)
{
gr1i<-sample(delDUR,97)
gr2i<-sample(delDUR,17)
boots[i]<-wilcox.test(gr1i,gr2i)$stat
}
> hist(boots)
> quantile(boots, prob=c(0.025,0.975))

2.5% 97.5%
618.4875 1021.5000


Кто это вам Евгения так перестановочный тест делать подсказал?


Как то вот так надо писать перебор, поскольку перестановка заключается в именно однократном разрушении корреляции именно перестановкой, а не перевыборкой (причем частичной и два независимых раза) как получилось у вас.
Код
idx <- replicate(10000, sample(BGr))
sapply(1:10000, function(i) функция_считающая_статистику(delDUR, idx[,i]))


к данным применяем перемешанный фактор определяющий группы.

PS Не имеете ли вы возражений, если я нашу переписку про обработку данных перенесу сюда в ветку? Или вы сами выберете что можно? А то тут на почве непонимания и "возможной упущенной выгоды" какой то ажиотаж совершенно на пустом месте возникает, а образовательный компонент общения выхолащивается.

Автор: E_VA 18.11.2015 - 09:24

Цитата(p2004r @ 18.11.2015 - 01:33) *
Кто это вам Евгения так перестановочный тест делать подсказал?

Творчество сугубо мое, как поняла из "Рандомизация и бутстреп: статистический анализ в биологии и экологии с использованием R" раздел 2.2. (красивый пример с 6 цифрами) + раздел 2.3 с послесловием. Так как были сомнения в понимании, то попыталась реализовать и свериться. Так как результаты не совпали, то возникли и вопросы.
В контексте предложенного Вами подхода все получилось. Оценки совпали. Осталось осознать тонкую разницу, но имея работающие примеры это осуществить гораздо проще.

Цитата(p2004r @ 18.11.2015 - 01:33) *
PS Не имеете ли вы возражений, если я нашу переписку про обработку данных перенесу сюда в ветку? Или вы сами выберете что можно? А то тут на почве непонимания и "возможной упущенной выгоды" какой то ажиотаж совершенно на пустом месте возникает, а образовательный компонент общения выхолащивается.

Я категорически за "образовательный" компонент! Именно благодаря ему мне очень понравился данный форум. Все, что может представить интерес в этом плане, может быть перенесено в данное обсуждение.

Форум Invision Power Board (http://www.invisionboard.com)
© Invision Power Services (http://www.invisionpower.com)