Помощь - Поиск - Пользователи - Календарь
Полная версия этой страницы: Выявление независимых предикторов
Форум врачей-аспирантов > Разделы форума > Медицинская статистика
mix3d
Уважаемые коллеги!

При анализе литературных источников неоднократно сталкиваешься с фразой типа "фактор является независимым предиктором...", при этом автооры используют разные статистические методы.

Если у кого-то есть опыт в этой сфере, поделитесь, пожалуйста, какие методы предпочтительнее использовать для выявления зависимости качественного от качественного, количественного от количественного, количественного от качественного и качественного от количественного?

Какие имеются ограничения для их использования, как их обойти?

Всем участникам заранее спасибо!
плав
Цитата(mix3d @ 15.02.2009 - 00:59) *
Уважаемые коллеги!

При анализе литературных источников неоднократно сталкиваешься с фразой типа "фактор является независимым предиктором...", при этом автооры используют разные статистические методы.

Если у кого-то есть опыт в этой сфере, поделитесь, пожалуйста, какие методы предпочтительнее использовать для выявления зависимости качественного от качественного, количественного от количественного, количественного от качественного и качественного от количественного?

Какие имеются ограничения для их использования, как их обойти?

Всем участникам заранее спасибо!

Вообще-то стоит посмотреть ветки форума, там корректировка (adjustment) неоднократно обсуждалась.
Кратко методы зависят только от зависимой переменной.
1) Зависимая качественная - логистическая регрессия, иногда используется регрессия по Пуассону
2) Зависимая количественная - дисперсионный анализ с ковариантами (ANCOVA)
3) Зависимая - время до наступления события - модель пропорционального риска Кокса
DoctorStat
Цитата(mix3d @ 15.02.2009 - 00:59) *
какие методы предпочтительнее использовать для выявления зависимости качественного от качественного, количественного от количественного, количественного от качественного и качественного от количественного?
Вы задаете слишком общие вопросы, на которые трудно ответить. Сузьте круг поиска, обрисуйте более конкретные проблемы.
mix3d
Итак, я имею биноминальную зависимую переменную и зависимые переменные (непрерывные, дискретные, порядковые, номинальные). Выявить предикторное значение независимой переменной по отношению к зависимой - строим логистическую модель.

Скажите, я правильно понимаю, что для максимального правдоподобия как функции потерь, которая используется по умолчанию в модуле quick logit regression (Statistica 6.0), не требуется выполнение условий Гаусса-Маркова, т.е. нам принципиально не важен анализ остатков (нормальность распределения, сериальная корреляция, нулевое матожидание, постоянство дисперсии)?, а имеет значение только

1. значимость коэффициентов и свободного члена,
2. различие построенной модели по сравнению с моделью, в которой все независимые переменные кроме свободного члена приравниваются нулю,
3. оценка степени подгонки модели к данным - ее адекватность (индекс отношения правдоподобия - псевдо R2 или R2 McFadden).

В моей модели (зависимый - бинарный признак (развитие (1) либо отсутствие (0) клинического события, независимый - количественный непрерывный - значения лабораторного показателя (либо второй вариант - также биноминальный - нормальный (0) или повышенный (1) уровень того же показателя) - результаты получаются идентичные) первые два условия выполняются, последнее плохо - приближается к нулю.

Можно ли в таком случае говорить о независимой переменной как о предикторе? Если нет, то подтверждают первые 2 условия связь зависимой и независимой переменной?

Дисперсионный анализ: зависимая переменная - количественная, независимые - неважно? Получим ли мы предиктор, если дисперсионный анализ выявляет лишь различия дисперсий?

И последнее, попытался освоить книгу Халафяна "Современные статистические методы медицинских исследований". Он для одной и той задачи и набора признаков ( в частности больные ХСН: 6-минутный тест, одышка, слабость, ряд показателей ЭХОкардиографии ) использует и линейную, и логистическую регрессию, и дискриминантный анализ, и деревья классификации. Вопрос - что этим он хотел показать: бери любой метод, и тот из них, который дает более удобоваримые результаты, тот и бери в расчет?

При всем уважении к светилам статистики и при моей удаленности от конкретного знания, что, где, когда применить, мне, как и многим страждущим, нужен ответ.

Пожалуйста, поясните, в чем смысл этих методов, заключения какого рода можно формулировать на основании результатов их применения?!

Еще раз спасибо! Даже от одного ответа в голове начинает проясняться, может, так и до истины докопаюсь.

P.S. Прочитал ветку про adjustment - правильно ли я понял, что все, что требуется для проведения стандартизации по полу и возрасту - это включение этих переменных в модель?

плав
Цитата(mix3d @ 16.02.2009 - 18:09) *
Итак, я имею биноминальную зависимую переменную и зависимые переменные (непрерывные, дискретные, порядковые, номинальные). Выявить предикторное значение независимой переменной по отношению к зависимой - строим логистическую модель.

Скажите, я правильно понимаю, что для максимального правдоподобия как функции потерь, которая используется по умолчанию в модуле quick logit regression (Statistica 6.0), не требуется выполнение условий Гаусса-Маркова, т.е. нам принципиально не важен анализ остатков

Нет, не правильно, анализ остатков проводить надо, но анализ немного иной, чем в случае линейной регрессии

Цитата(mix3d @ 16.02.2009 - 18:09) *
Дисперсионный анализ: зависимая переменная - количественная, независимые - неважно? Получим ли мы предиктор, если дисперсионный анализ выявляет лишь различия дисперсий?

не совсем так, дисперсионный анализ это метод сравнения средних групп, а не сравнение дисперсий

Цитата(mix3d @ 16.02.2009 - 18:09) *
И последнее, попытался освоить книгу Халафяна "Современные статистические методы медицинских исследований". Он для одной и той задачи и набора признаков ( в частности больные ХСН: 6-минутный тест, одышка, слабость, ряд показателей ЭХОкардиографии ) использует и линейную, и логистическую регрессию, и дискриминантный анализ, и деревья классификации. Вопрос - что этим он хотел показать: бери любой метод, и тот из них, который дает более удобоваримые результаты, тот и бери в расчет?

нет, все зависит от зависимой переменной и свойств модели, а то, что пишут авторы - оставим на их совести

Цитата(mix3d @ 16.02.2009 - 18:09) *
P.S. Прочитал ветку про adjustment - правильно ли я понял, что все, что требуется для проведения стандартизации по полу и возрасту - это включение этих переменных в модель?

а вот это правильно
mix3d
Если можно, укажите, пожалуйста, принципиальные моменты анализа остатков в нелинейных моделях (в частности, логистической).
плав
Цитата(mix3d @ 17.02.2009 - 21:34) *
Если можно, укажите, пожалуйста, принципиальные моменты анализа остатков в нелинейных моделях (в частности, логистической).

Необходимо построить графики зависимости пирсоновских остатков, изменений отклонения (deviance) и изменений регрессионного коэффициента от оценки логистической вероятности и затем проанализировать, какие значения являются слишком большими или малыми; В случае большого количества наблюдений пирсоновские остатки анализируются с допущением нормальности их распределения (как стьюдентизированные остатки в линейной регрессии), полезными являются графики плеча наблюдений (leverage), подробнее см. главу 5 у Хосмера и Лемешева.
mix3d
Спасибо!

Правда, звучит для непрофессионального уха ужасно!

Если есть ссылка на e-book, поделитесь, пожалуйста, а если нет, то хотя бы - название и выходные данные.
плав
Цитата(mix3d @ 18.02.2009 - 21:07) *
Спасибо!

Правда, звучит для непрофессионального уха ужасно!

Если есть ссылка на e-book, поделитесь, пожалуйста, а если нет, то хотя бы - название и выходные данные.

У меня только бумажная версия
Hosmer D.W., Lemeshow S. Applied Logistic Regression. John Wiley & Sons, 2000

На самом деле тут лучше найти поблизости кого-то, кто умеет делать подобный анализ или почитать M. Friendly (у него кой-чего есть и в сети) и использовать его диагностические макросы (но они в SAS). У Хосмера и Лемешева все хорошо написано но поначалу немного тяжело.
mix3d
Исходно я упростил задачу, создав группы, у которых имелись желудочковые нарушения ритма, и у которых их не было (это - зависимая переменная).

Однако, на самом деле - группа гетерогенна: желудочковые экстрасистолы более 1000, полиморфные, парные, групповые экстрасистолы, ускоренный желудочковый ритм, пароксизмальная тахикардия.

Можно ли в таком услачае учесть влияние независимой переменной на все указанные аритмии поотдельности, но в одной модели?
плав
Цитата(mix3d @ 19.02.2009 - 22:53) *
Исходно я упростил задачу, создав группы, у которых имелись желудочковые нарушения ритма, и у которых их не было (это - зависимая переменная).

Однако, на самом деле - группа гетерогенна: желудочковые экстрасистолы более 1000, полиморфные, парные, групповые экстрасистолы, ускоренный желудочковый ритм, пароксизмальная тахикардия.

Можно ли в таком услачае учесть влияние независимой переменной на все указанные аритмии поотдельности, но в одной модели?


Номинальная логистическая регрессия, если хватит наблюдений или (если только качественные независимые) логлинейное моделирование.
mix3d
Уважаемые модераторы!
Большое спасибо за ваш просвещенческий труд!

Для просмотра полной версии этой страницы, пожалуйста, пройдите по ссылке.
Форум IP.Board © 2001-2025 IPS, Inc.