Форум врачей-аспирантов

Здравствуйте, гость ( Вход | Регистрация )

2 страниц V  < 1 2  
Добавить ответ в эту темуОткрыть тему
> Помогите выбрать статистический метод, Множественные сравнения?
E_VA
сообщение 11.11.2015 - 20:00
Сообщение #16





Группа: Пользователи
Сообщений: 17
Регистрация: 18.10.2015
Пользователь №: 27589



Цитата(anserovtv @ 11.11.2015 - 22:31) *
Алгоритм Random Forest обычно дает близкую к 100% эффективность (поэтому и используется как альтернатива более классическим методам классификации при всех его недостатках).
Низкая эффективность в Вашем случае лишний раз доказывает, что по этим данным нельзя получить нужные Вам выводы.
Конечно, можно выполнять различные манипуляции с числовыми данными, но не все из них имеют практический смысл.
.


Можно небольшой вопрос на допонимание? Извиняюсь, если вопрос глупый, но все-таки пытаюсь разобраться.

Немножко абстрагируемся. Допустим, есть достаточно большая выборка. И стоит вопрос: зависит ли исход операции в Сибири от температуры в Африке, курса африканской национальной валюты и т.п. Думаю, что ответ будет нет.
Должен ли будет алгоритм RandomForest показать успешную классификацию? И какой метод доказательства отсутствия связи будет уместен?
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
anserovtv
сообщение 11.11.2015 - 21:22
Сообщение #17





Группа: Пользователи
Сообщений: 219
Регистрация: 4.06.2013
Из: Тверь
Пользователь №: 24927



Должен ли будет алгоритм RandomForest показать успешную классификацию?
Не знаю, это будет зависеть и от того, какие другие переменные участвуют в модели.
Если качество классификации будет высоким, а переменные не являются значимыми . то связи с ними нет /косвенный результат.
Если качество классификации низкое, никакие выводы делать нельзя.

И какой метод доказательства отсутствия связи будет уместен?
Параметрические или непараметрические методы сравнения двух независимых выборок по каждой переменной - простой подход (при необходимости - с поправками).
Тест Хотеллинга /при выполнении условий/ , перестановочные тесты для двух групп, в том числе и многомерные.
Если переменных много и выявляются факторы, то эти же методы для факторных оценок (чуть сложнее).
Более сложные - дискриминантный анализ, логрегрессия. деревья классификации и др. /перечислялись в этой теме выше.
Если качество модели будет высоким, а переменные не являются значимыми, то связи с ними нет.
В других случаях никакие выводы делать нельзя.
Более универсальный и очень сложный метод - обобщенные уравнения оценки с бинарным откликом /нужно строить модель и проверять условия , есть в SPSS/.
Если разумно выявляются категории, можно использовать таблицы сопряженности и логлинейный анализ таблиц сопряженности (менее мощные методы).
Но я всегда прежде всего руководствуюсь здравым смыслом - связь может быть и ложной.
Я не против применения метода Random Forest в этом исследовании, но для совсем других целей. Удачи!

Сообщение отредактировал anserovtv - 12.11.2015 - 07:20
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
p2004r
сообщение 12.11.2015 - 09:15
Сообщение #18





Группа: Пользователи
Сообщений: 1091
Регистрация: 26.08.2010
Пользователь №: 22699



Цитата(E_VA @ 11.11.2015 - 20:00) *
Можно небольшой вопрос на допонимание? Извиняюсь, если вопрос глупый, но все-таки пытаюсь разобраться.

Немножко абстрагируемся. Допустим, есть достаточно большая выборка. И стоит вопрос: зависит ли исход операции в Сибири от температуры в Африке, курса африканской национальной валюты и т.п. Думаю, что ответ будет нет.
Должен ли будет алгоритм RandomForest показать успешную классификацию? И какой метод доказательства отсутствия связи будет уместен?


Там используется не сам randomForest в "чистом виде", а пакет Boruta реализующий отбор предикторов на основании тестов в чем то эквивалентных тестам рандомизации (и его разновидности, например randomForestSRC). Метрика важности переменной врожденное свойство randimForesta.

Метод позволяет найти все значащие предикторы для выбранной задачи классификации(регрессии). Можно ставить задачу поиска оптимального разрешающего набора, но это уже существенно отличающаяся задача которая крайне тяготеет к переобучению.

Сообщение отредактировал p2004r - 12.11.2015 - 09:17


Signature
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
p2004r
сообщение 12.11.2015 - 09:20
Сообщение #19





Группа: Пользователи
Сообщений: 1091
Регистрация: 26.08.2010
Пользователь №: 22699



Цитата(anserovtv @ 11.11.2015 - 19:31) *
Алгоритм Random Forest обычно дает близкую к 100% эффективность (поэтому и используется как альтернатива более классическим методам классификации при всех его недостатках).
Низкая эффективность в Вашем случае лишний раз доказывает, что по этим данным нельзя получить нужные Вам выводы.
Конечно, можно выполнять различные манипуляции с числовыми данными, но не все из них имеют практический смысл.
.



Можно очень много болтать имея крайне низкий практический смысл. У меня вообще впечатление от вас остается как от однажды встреченного в 90е прапорщика который подался "на заработки" в "экстрасенсы излечивающие рак", и выучил справочник гистологический названий опухолей наизусть что бы поражать клиентуру трехэтажными названиями случаев которые он якобы вылечил.

Цитата
Алгоритм Random Forest обычно дает близкую к 100% эффективность (поэтому и используется как альтернатива более классическим методам классификации при всех его недостатках).


До такой некомпетентности можно дойти не только лишь всем (С) Случайный лес практически не подвержен проблеме переобучения. Я с ходу могу придумать только одну схему "бездумного нажимания кнопок" ведущую к такому "опыту", это подать в обученную модель те же данные на которых лес строился. Но это лежит за гранью разумного, поскольку сама процедура построения леса (во всех известных мне реализациях) сразу строит и не переобученное решение для обучающей выборки.

Сообщение отредактировал p2004r - 12.11.2015 - 12:27


Signature
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
anserovtv
сообщение 17.11.2015 - 08:33
Сообщение #20





Группа: Пользователи
Сообщений: 219
Регистрация: 4.06.2013
Из: Тверь
Пользователь №: 24927



Я и не имел в виду переобучение. А где деление на обучающую и тестирующие выборки\ скользящий контроль и др.
(если уж этот метод применять).
Ты сомневаешься в моей компетентности?
Могу выслать список статей в журналах ВАК, ДАН, AMS, номера грантов РФФИ и др.
Мне (глупому!) уже не раз прислали просьбы помочь "проконсультировавшиеся" у тебя. Вот и дама задает мне вопросы. И других скоро покажу.
Если вы оба уверены, несите этот бред (на мой взгляд) в журнал ВАК (пришлите ссылку, если опубликуют - пусть мне будет стыдно и посмотрю, а нет ли моих идей в окончательном опубликованном варианте), зачем показывать на форуме умное глупым (т. е. мне)?
Странно . что на этом форуме никто ничего не заметил (или не захотел) - сообщение висело неделю.
Дама и опубликовала решение на форуме, потому что сомневается в правильности.

Сообщение отредактировал anserovtv - 17.11.2015 - 08:53
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
E_VA
сообщение 17.11.2015 - 17:23
Сообщение #21





Группа: Пользователи
Сообщений: 17
Регистрация: 18.10.2015
Пользователь №: 27589



Уважаемые Гуру форума!
Очень рада, что вопросы научного плана могут вызывать искренние эмоции. К сожалению, это встречается теперь крайне редко. Еще реже встречается желание помочь и научить. Я очень Вам всем благодарна. К своей задачке я подходила различными путями, используя Ваши рекомендации. "Показания" трех подходов сошлись практически полностью (включая логистическую регрессию).

Пока анализировала данные, делала проверки с применением перестановочных тестов (спасибо anserovtv). Любопытство привело к тому, что сделала один самостоятельно. Стала перепроверять на реализованных уже тестах в R (пакет coin), не сходится. Может быть я не поняла идею? Или "кривые ручки"? Буду благодарна, если ткнете в ошибку.

Моя реализация
> boots<-numeric(10000)
> for (i in 1:10000)
{
gr1i<-sample(delDUR,97)
gr2i<-sample(delDUR,17)
boots[i]<-wilcox.test(gr1i,gr2i)$stat
}
> hist(boots)
> quantile(boots, prob=c(0.025,0.975))

2.5% 97.5%
618.4875 1021.5000
> wilcox.test(delDUR~Bgr)
Wilcoxon rank sum test with continuity correction
data: delDUR by BGr
W = 1040, p-value = 0.07121
alternative hypothesis: true location shift is not equal to 0

Делаю вывод, что с уровнем стат. значимости p<0.025 показатель в группах различается.

Делаю проверку
> library(coin)
> wilcox_test(delDUR ~ BGr)


Asymptotic Wilcoxon-Mann-Whitney Test

data: delDUR by BGr (1, 2)
Z = 1.8083, p-value = 0.07055
alternative hypothesis: true mu is not equal to 0

По идее при критическом р=0,05 принимаю гипотезу о равенстве показателя в группах. Такой же результат дает и просто применение данного теста (см. выше).
В приложенном файле данные, используемые для анализа.

Прикрепленные файлы
Прикрепленный файл  Data.rar ( 228 байт ) Кол-во скачиваний: 214
 
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
p2004r
сообщение 17.11.2015 - 22:14
Сообщение #22





Группа: Пользователи
Сообщений: 1091
Регистрация: 26.08.2010
Пользователь №: 22699



Цитата(anserovtv @ 17.11.2015 - 08:33) *
Я и не имел в виду переобучение. А где деление на обучающую и тестирующие выборки\ скользящий контроль и др.
(если уж этот метод применять).
Ты сомневаешься в моей компетентности?
Могу выслать список статей в журналах ВАК, ДАН, AMS, номера грантов РФФИ и др.
Мне (глупому!) уже не раз прислали просьбы помочь "проконсультировавшиеся" у тебя. Вот и дама задает мне вопросы. И других скоро покажу.
Если вы оба уверены, несите этот бред (на мой взгляд) в журнал ВАК (пришлите ссылку, если опубликуют - пусть мне будет стыдно и посмотрю, а нет ли моих идей в окончательном опубликованном варианте), зачем показывать на форуме умное глупым (т. е. мне)?
Странно . что на этом форуме никто ничего не заметил (или не захотел) - сообщение висело неделю.
Дама и опубликовала решение на форуме, потому что сомневается в правильности.


1. Ну вот теперь уже про какую то "обучающую и тестирующую выборку" (причем у метода селекции предикторов который создает сотни таких обучающих и тестирующих выборок просто по своей природе). Можно конечно сделать "масло масляным" и еще поверх этого всего ансамбля случайных выборок устроить оценку кроссвалидацией.

На самом деле все делают не так, вот статьи (поищи там "украденные" у тебя "идеи") о примененных к конкретно обсуждаемому датасету методах селекции переменных:

Miron B. Kursa, Witold R. Rudnicki (2010). Feature Selection with
the Boruta Package. _Journal of Statistical Software, 36(11)_, p.
1-13. URL: <URL: http://www.jstatsoft.org/v36/i11/>

Ishwaran H., Kogalur U.B., Gorodeski E.Z, Minn A.J. and Lauer M.S.
(2010). High-dimensional variable selection for survival data.
_J. Amer. Statist. Assoc._, 105:205-217.

Diaz-Uriarte, R. and Alvarez de Andres, S. (2005) Variable
selection from random forests: application to gene expression
data. Tech. report. <URL:
http://ligarto.org/rdiaz/Papers/rfVS/rando...VarSel.html>

Все методы выделяют одно и тоже небольшое подмножество (а те которые могут еще и оценивают можно ли считать достигнутым выбранный уровень практической достоверности).

2. Вот какое отношение все это что ты пишешь теперь "про обучающую, контролирующую выборки" имеет к исходному твоему сообщению о какой то "100% эффективности"?! Что ты там имел ввиду каждый раз понять невозможно от слова вообще. И это уже в десятый раз я наблюдаю, когда вместо ответа за свое предыдущее высказывание звучит новый ответ (причем такой же бесполезный как и предыдущий).

3. Ну давай, высылай список работ, так и быть проверю на ошибки. И заодно "список пострадавших проконсультировавшихся у меня" огласи, очень любопытно кому это я там "давал консультации" smile.gif.

PS А ВАК, как показал последний опыт анализа данных очередным аспирантом у меня, склонен утверждать такие диссертации досрочно smile.gif [это уж теперь я такую тонкую рекламу себе позволю smile.gif ]

Сообщение отредактировал p2004r - 17.11.2015 - 23:17


Signature
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
p2004r
сообщение 17.11.2015 - 22:33
Сообщение #23





Группа: Пользователи
Сообщений: 1091
Регистрация: 26.08.2010
Пользователь №: 22699



Цитата(E_VA @ 17.11.2015 - 17:23) *
Моя реализация
> boots<-numeric(10000)
> for (i in 1:10000)
{
gr1i<-sample(delDUR,97)
gr2i<-sample(delDUR,17)
boots[i]<-wilcox.test(gr1i,gr2i)$stat
}
> hist(boots)
> quantile(boots, prob=c(0.025,0.975))

2.5% 97.5%
618.4875 1021.5000


Кто это вам Евгения так перестановочный тест делать подсказал?


Как то вот так надо писать перебор, поскольку перестановка заключается в именно однократном разрушении корреляции именно перестановкой, а не перевыборкой (причем частичной и два независимых раза) как получилось у вас.
Код
idx <- replicate(10000, sample(BGr))
sapply(1:10000, function(i) функция_считающая_статистику(delDUR, idx[,i]))


к данным применяем перемешанный фактор определяющий группы.

PS Не имеете ли вы возражений, если я нашу переписку про обработку данных перенесу сюда в ветку? Или вы сами выберете что можно? А то тут на почве непонимания и "возможной упущенной выгоды" какой то ажиотаж совершенно на пустом месте возникает, а образовательный компонент общения выхолащивается.

Сообщение отредактировал p2004r - 17.11.2015 - 23:21


Signature
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
E_VA
сообщение 18.11.2015 - 09:24
Сообщение #24





Группа: Пользователи
Сообщений: 17
Регистрация: 18.10.2015
Пользователь №: 27589



Цитата(p2004r @ 18.11.2015 - 01:33) *
Кто это вам Евгения так перестановочный тест делать подсказал?

Творчество сугубо мое, как поняла из "Рандомизация и бутстреп: статистический анализ в биологии и экологии с использованием R" раздел 2.2. (красивый пример с 6 цифрами) + раздел 2.3 с послесловием. Так как были сомнения в понимании, то попыталась реализовать и свериться. Так как результаты не совпали, то возникли и вопросы.
В контексте предложенного Вами подхода все получилось. Оценки совпали. Осталось осознать тонкую разницу, но имея работающие примеры это осуществить гораздо проще.

Цитата(p2004r @ 18.11.2015 - 01:33) *
PS Не имеете ли вы возражений, если я нашу переписку про обработку данных перенесу сюда в ветку? Или вы сами выберете что можно? А то тут на почве непонимания и "возможной упущенной выгоды" какой то ажиотаж совершенно на пустом месте возникает, а образовательный компонент общения выхолащивается.

Я категорически за "образовательный" компонент! Именно благодаря ему мне очень понравился данный форум. Все, что может представить интерес в этом плане, может быть перенесено в данное обсуждение.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 

2 страниц V  < 1 2
Добавить ответ в эту темуОткрыть тему