Форум врачей-аспирантов

Здравствуйте, гость ( Вход | Регистрация )

 
Добавить ответ в эту темуОткрыть тему
> Выявление независимых предикторов, возможные статистические методы
mix3d
сообщение 15.02.2009 - 00:59
Сообщение #1





Группа: Пользователи
Сообщений: 32
Регистрация: 15.02.2009
Пользователь №: 5815



Уважаемые коллеги!

При анализе литературных источников неоднократно сталкиваешься с фразой типа "фактор является независимым предиктором...", при этом автооры используют разные статистические методы.

Если у кого-то есть опыт в этой сфере, поделитесь, пожалуйста, какие методы предпочтительнее использовать для выявления зависимости качественного от качественного, количественного от количественного, количественного от качественного и качественного от количественного?

Какие имеются ограничения для их использования, как их обойти?

Всем участникам заранее спасибо!
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
плав
сообщение 15.02.2009 - 10:33
Сообщение #2





Группа: Пользователи
Сообщений: 1013
Регистрация: 4.10.2006
Пользователь №: 1933



Цитата(mix3d @ 15.02.2009 - 00:59) *
Уважаемые коллеги!

При анализе литературных источников неоднократно сталкиваешься с фразой типа "фактор является независимым предиктором...", при этом автооры используют разные статистические методы.

Если у кого-то есть опыт в этой сфере, поделитесь, пожалуйста, какие методы предпочтительнее использовать для выявления зависимости качественного от качественного, количественного от количественного, количественного от качественного и качественного от количественного?

Какие имеются ограничения для их использования, как их обойти?

Всем участникам заранее спасибо!

Вообще-то стоит посмотреть ветки форума, там корректировка (adjustment) неоднократно обсуждалась.
Кратко методы зависят только от зависимой переменной.
1) Зависимая качественная - логистическая регрессия, иногда используется регрессия по Пуассону
2) Зависимая количественная - дисперсионный анализ с ковариантами (ANCOVA)
3) Зависимая - время до наступления события - модель пропорционального риска Кокса
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
DoctorStat
сообщение 15.02.2009 - 12:18
Сообщение #3





Группа: Пользователи
Сообщений: 377
Регистрация: 18.08.2008
Из: Москва Златоглавая
Пользователь №: 5224



Цитата(mix3d @ 15.02.2009 - 00:59) *
какие методы предпочтительнее использовать для выявления зависимости качественного от качественного, количественного от количественного, количественного от качественного и качественного от количественного?
Вы задаете слишком общие вопросы, на которые трудно ответить. Сузьте круг поиска, обрисуйте более конкретные проблемы.


Signature
Просто включи мозги => http://doctorstat.narod.ru
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
mix3d
сообщение 16.02.2009 - 18:09
Сообщение #4





Группа: Пользователи
Сообщений: 32
Регистрация: 15.02.2009
Пользователь №: 5815



Итак, я имею биноминальную зависимую переменную и зависимые переменные (непрерывные, дискретные, порядковые, номинальные). Выявить предикторное значение независимой переменной по отношению к зависимой - строим логистическую модель.

Скажите, я правильно понимаю, что для максимального правдоподобия как функции потерь, которая используется по умолчанию в модуле quick logit regression (Statistica 6.0), не требуется выполнение условий Гаусса-Маркова, т.е. нам принципиально не важен анализ остатков (нормальность распределения, сериальная корреляция, нулевое матожидание, постоянство дисперсии)?, а имеет значение только

1. значимость коэффициентов и свободного члена,
2. различие построенной модели по сравнению с моделью, в которой все независимые переменные кроме свободного члена приравниваются нулю,
3. оценка степени подгонки модели к данным - ее адекватность (индекс отношения правдоподобия - псевдо R2 или R2 McFadden).

В моей модели (зависимый - бинарный признак (развитие (1) либо отсутствие (0) клинического события, независимый - количественный непрерывный - значения лабораторного показателя (либо второй вариант - также биноминальный - нормальный (0) или повышенный (1) уровень того же показателя) - результаты получаются идентичные) первые два условия выполняются, последнее плохо - приближается к нулю.

Можно ли в таком случае говорить о независимой переменной как о предикторе? Если нет, то подтверждают первые 2 условия связь зависимой и независимой переменной?

Дисперсионный анализ: зависимая переменная - количественная, независимые - неважно? Получим ли мы предиктор, если дисперсионный анализ выявляет лишь различия дисперсий?

И последнее, попытался освоить книгу Халафяна "Современные статистические методы медицинских исследований". Он для одной и той задачи и набора признаков ( в частности больные ХСН: 6-минутный тест, одышка, слабость, ряд показателей ЭХОкардиографии ) использует и линейную, и логистическую регрессию, и дискриминантный анализ, и деревья классификации. Вопрос - что этим он хотел показать: бери любой метод, и тот из них, который дает более удобоваримые результаты, тот и бери в расчет?

При всем уважении к светилам статистики и при моей удаленности от конкретного знания, что, где, когда применить, мне, как и многим страждущим, нужен ответ.

Пожалуйста, поясните, в чем смысл этих методов, заключения какого рода можно формулировать на основании результатов их применения?!

Еще раз спасибо! Даже от одного ответа в голове начинает проясняться, может, так и до истины докопаюсь.

P.S. Прочитал ветку про adjustment - правильно ли я понял, что все, что требуется для проведения стандартизации по полу и возрасту - это включение этих переменных в модель?

Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
плав
сообщение 16.02.2009 - 18:36
Сообщение #5





Группа: Пользователи
Сообщений: 1013
Регистрация: 4.10.2006
Пользователь №: 1933



Цитата(mix3d @ 16.02.2009 - 18:09) *
Итак, я имею биноминальную зависимую переменную и зависимые переменные (непрерывные, дискретные, порядковые, номинальные). Выявить предикторное значение независимой переменной по отношению к зависимой - строим логистическую модель.

Скажите, я правильно понимаю, что для максимального правдоподобия как функции потерь, которая используется по умолчанию в модуле quick logit regression (Statistica 6.0), не требуется выполнение условий Гаусса-Маркова, т.е. нам принципиально не важен анализ остатков

Нет, не правильно, анализ остатков проводить надо, но анализ немного иной, чем в случае линейной регрессии

Цитата(mix3d @ 16.02.2009 - 18:09) *
Дисперсионный анализ: зависимая переменная - количественная, независимые - неважно? Получим ли мы предиктор, если дисперсионный анализ выявляет лишь различия дисперсий?

не совсем так, дисперсионный анализ это метод сравнения средних групп, а не сравнение дисперсий

Цитата(mix3d @ 16.02.2009 - 18:09) *
И последнее, попытался освоить книгу Халафяна "Современные статистические методы медицинских исследований". Он для одной и той задачи и набора признаков ( в частности больные ХСН: 6-минутный тест, одышка, слабость, ряд показателей ЭХОкардиографии ) использует и линейную, и логистическую регрессию, и дискриминантный анализ, и деревья классификации. Вопрос - что этим он хотел показать: бери любой метод, и тот из них, который дает более удобоваримые результаты, тот и бери в расчет?

нет, все зависит от зависимой переменной и свойств модели, а то, что пишут авторы - оставим на их совести

Цитата(mix3d @ 16.02.2009 - 18:09) *
P.S. Прочитал ветку про adjustment - правильно ли я понял, что все, что требуется для проведения стандартизации по полу и возрасту - это включение этих переменных в модель?

а вот это правильно
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
mix3d
сообщение 17.02.2009 - 21:34
Сообщение #6





Группа: Пользователи
Сообщений: 32
Регистрация: 15.02.2009
Пользователь №: 5815



Если можно, укажите, пожалуйста, принципиальные моменты анализа остатков в нелинейных моделях (в частности, логистической).
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
плав
сообщение 17.02.2009 - 22:05
Сообщение #7





Группа: Пользователи
Сообщений: 1013
Регистрация: 4.10.2006
Пользователь №: 1933



Цитата(mix3d @ 17.02.2009 - 21:34) *
Если можно, укажите, пожалуйста, принципиальные моменты анализа остатков в нелинейных моделях (в частности, логистической).

Необходимо построить графики зависимости пирсоновских остатков, изменений отклонения (deviance) и изменений регрессионного коэффициента от оценки логистической вероятности и затем проанализировать, какие значения являются слишком большими или малыми; В случае большого количества наблюдений пирсоновские остатки анализируются с допущением нормальности их распределения (как стьюдентизированные остатки в линейной регрессии), полезными являются графики плеча наблюдений (leverage), подробнее см. главу 5 у Хосмера и Лемешева.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
mix3d
сообщение 18.02.2009 - 21:07
Сообщение #8





Группа: Пользователи
Сообщений: 32
Регистрация: 15.02.2009
Пользователь №: 5815



Спасибо!

Правда, звучит для непрофессионального уха ужасно!

Если есть ссылка на e-book, поделитесь, пожалуйста, а если нет, то хотя бы - название и выходные данные.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
плав
сообщение 18.02.2009 - 22:19
Сообщение #9





Группа: Пользователи
Сообщений: 1013
Регистрация: 4.10.2006
Пользователь №: 1933



Цитата(mix3d @ 18.02.2009 - 21:07) *
Спасибо!

Правда, звучит для непрофессионального уха ужасно!

Если есть ссылка на e-book, поделитесь, пожалуйста, а если нет, то хотя бы - название и выходные данные.

У меня только бумажная версия
Hosmer D.W., Lemeshow S. Applied Logistic Regression. John Wiley & Sons, 2000

На самом деле тут лучше найти поблизости кого-то, кто умеет делать подобный анализ или почитать M. Friendly (у него кой-чего есть и в сети) и использовать его диагностические макросы (но они в SAS). У Хосмера и Лемешева все хорошо написано но поначалу немного тяжело.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
mix3d
сообщение 19.02.2009 - 22:53
Сообщение #10





Группа: Пользователи
Сообщений: 32
Регистрация: 15.02.2009
Пользователь №: 5815



Исходно я упростил задачу, создав группы, у которых имелись желудочковые нарушения ритма, и у которых их не было (это - зависимая переменная).

Однако, на самом деле - группа гетерогенна: желудочковые экстрасистолы более 1000, полиморфные, парные, групповые экстрасистолы, ускоренный желудочковый ритм, пароксизмальная тахикардия.

Можно ли в таком услачае учесть влияние независимой переменной на все указанные аритмии поотдельности, но в одной модели?
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
плав
сообщение 20.02.2009 - 01:28
Сообщение #11





Группа: Пользователи
Сообщений: 1013
Регистрация: 4.10.2006
Пользователь №: 1933



Цитата(mix3d @ 19.02.2009 - 22:53) *
Исходно я упростил задачу, создав группы, у которых имелись желудочковые нарушения ритма, и у которых их не было (это - зависимая переменная).

Однако, на самом деле - группа гетерогенна: желудочковые экстрасистолы более 1000, полиморфные, парные, групповые экстрасистолы, ускоренный желудочковый ритм, пароксизмальная тахикардия.

Можно ли в таком услачае учесть влияние независимой переменной на все указанные аритмии поотдельности, но в одной модели?


Номинальная логистическая регрессия, если хватит наблюдений или (если только качественные независимые) логлинейное моделирование.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
mix3d
сообщение 28.02.2009 - 20:54
Сообщение #12





Группа: Пользователи
Сообщений: 32
Регистрация: 15.02.2009
Пользователь №: 5815



Уважаемые модераторы!
Большое спасибо за ваш просвещенческий труд!

Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 

Добавить ответ в эту темуОткрыть тему