Версия для печати темы

Нажмите сюда для просмотра этой темы в обычном формате

Форум врачей-аспирантов _ Медицинская статистика _ Статистический анализ данных - нужна помощь

Автор: AnnGl 16.02.2009 - 14:32

Здравствуйте, уважаемые участники форума! Помогоите, пожалуйста! Есть выборка - около 900 пациентов. Группирующая переменная - клинический исход (наступил, нет).
1)Проверка данных на нормальность распределения показала, что практически все количественные переменные (кроме возраста) распределены не нормально. Соответственно, сравнительный анализ проводился с использованием непараметрических методов и результаты представлены в виде Ме(25%;75%);(М) - для количественных переменных. Однако, в электронном учебнике StatSoft нашла следующее: " Непараметрические методы наиболее приемлемы, когда объем выборок мал. Если данных много (например, n > 100), то не имеет смысла использовать непараметрические статистики." Скажите пожалуйста, так ли это на самом деле? И надо ли в таком случае переделать эту часть анализа?
2) Сравнительный анализ выявил различия между группами по ряду показателей. Однако при более внимательном рассмотрении оказалось, что в о вторую группу вошли больные, у которых исход наступил раньше и больные, которые умерли в течение наблюдения (речь идет о госпитализациях). Таким образом, если вторую группу теперь разделить на три подгруппы, то видно, что в большинстве случаев разница между группами 1 и 2 обусловлена именно этими указанными двумя подгруппами. Как же в таком случае следует отображать результаты? Сравнение по 2 группам или все-таки уже по 4. И следует ли в этом случае использовать поправку Бонферрони?
3)Извините, пожалуйста, за неграмотность, но остается не очень понятным какие переменные анализировать в факторном анализе. Включаю в анализ те переменные, по которым получены различия между группами. Правильно ли я делаю или надо еще и другие факторы тоже? К примеру по полу больные вгруппах не различались, а по возрасту значимо отличались только умершие.
4) Если для определенной переменной много пропущенных данных (например, 60% - пропуски) надо ли такой фактор оценивать в однофакторном анализе? Понятно, что в многофакторном - лучше не надо. Это верно?
5) Как лучше анализировать количественные данные в логистичесой регрессии? Все-таки найти точку разделения и создать бинарные?
Очень надеюсь на Вашу помощь! Заранее спасибо.

Автор: плав 16.02.2009 - 15:36

Цитата(AnnGl @ 16.02.2009 - 14:32) *
Группирующая переменная - клинический исход (наступил, нет).
1)Проверка данных на нормальность распределения показала, что практически все количественные переменные (кроме возраста) распределены не нормально.
...
2)Однако при более внимательном рассмотрении оказалось, что в о вторую группу вошли больные, у которых исход наступил раньше и больные, которые умерли в течение наблюдения (речь идет о госпитализациях). Таким образом, если вторую группу теперь разделить на три подгруппы, то видно, что в большинстве случаев разница между группами 1 и 2 обусловлена именно этими указанными двумя подгруппами. Как же в таком случае следует отображать результаты? Сравнение по 2 группам или все-таки уже по 4. И следует ли в этом случае использовать поправку Бонферрони?
3)Извините, пожалуйста, за неграмотность, но остается не очень понятным какие переменные анализировать в факторном анализе.
4) Если для определенной переменной много пропущенных данных (например, 60% - пропуски) надо ли такой фактор оценивать в однофакторном анализе? Понятно, что в многофакторном - лучше не надо. Это верно?
5) Как лучше анализировать количественные данные в логистичесой регрессии? Все-таки найти точку разделения и создать бинарные?

1) Если переменные распределены не нормально, то лучше их трансформировать таким образом, чтобы распределение стало нормальным. Хотя, на самом деле, при большом числе наблюдений начинает работать центральная предельная теорема и негативное влияние отклонения от нормальности снижается. Я бы все-таки попробовал вначале трансформировать данные (логарифм, обратные величины) и затем бы проверил на нормальность
2) Надо учитывать как можно больше переменных, лучше в рамках многомерного анализа, т.е. Вы сравниваете группу 1 и группу 2, но затем описываете, что группа 2 гетерогенно и поэтому в суммарный анализ вносите показатели принадлежности к группе 1 и 2 и принодлежности к группам 2а и 2б
3) А зачем Вам факторный анализ? Факторный анализ выявляет общие факторы, действующие на несколько переменных, а у Вас анализ данных с зависимой переменной. Может быть, Вы имели в виду дисперсионный анализ (многофакторный), но это совсем другое и, кроме того, для бинарного клинического исхода ДА не подходит.
4) При большом количестве пропусков лучше переменную исключить, причем из всего анализа в целом (по данному показателю выборка может быть не репрезентативна). Если она нужна, надо думать о специализированных методах, типа множественной импутации.
5) В логистической регрессии количественные данные лучше анализировать без создания бинарных, она была разработана для количественных независимых переменных (а не для качественных).

Автор: DoctorStat 16.02.2009 - 15:53

Цитата(AnnGl @ 16.02.2009 - 14:32) *
1)Однако, в электронном учебнике StatSoft нашла следующее: " Непараметрические методы наиболее приемлемы, когда объем выборок мал. Если данных много (например, n > 100), то не имеет смысла использовать непараметрические статистики."
Это спорное утверждение. Первый путь решения проблемы - непараметрические методы следует использовать в случае, когда тесты показали, что распределение данных отлично от нормального. Второй путь решения - пытаться, как это предложил плав, с помощью различных преобразований из ненормальных данных получить нормально-распределенные, для анализа которых использовать хорошо разработанные статистические методы. Но найдете ли Вы такие преобразования?

Автор: плав 16.02.2009 - 18:21

Цитата(DoctorStat @ 16.02.2009 - 15:53) *
Первый путь решения проблемы - непараметрические методы следует использовать в случае, когда тесты показали, что распределение данных отлично от нормального. Второй путь решения - пытаться, как это предложил плав, с помощью различных преобразований из ненормальных данных получить нормально-распределенные, для анализа которых использовать хорошо разработанные статистические методы. Но найдете ли Вы такие преобразования?

К сожалению непараметрические многомерные модели разработаны недостаточно хорошо (восоенност их построение и интерпретация), поэтому в случае отказа от нормализации придется столкнуться с еще большими проблемами (на самом деле в Statistica эти методы просто не реализованы, в R есть, но начинающему они тяжелы). Пребразование же для нормализации можно искать методом Бокса-Кокса, он был описан ранее на этом форуме (но опять-таки, Statistica тут не помощник)

Автор: AnnGl 16.02.2009 - 19:21

Спасибо большое за ответы, но поскольку мои знания статистики весьма поверхностные, хотела бы задать еще несколько вопросов.
Насколько целесообразно трансформировать данные и можно ли это сделать с помощью Stata? Если трансформированные данные будут подчиняться нормальному распределению, тогда можно их представить в виде М(s) или в другом виде?

Цитата
2) Надо учитывать как можно больше переменных, лучше в рамках многомерного анализа, т.е. Вы сравниваете группу 1 и группу 2, но затем описываете, что группа 2 гетерогенно и поэтому в суммарный анализ вносите показатели принадлежности к группе 1 и 2 и принодлежности к группам 2а и 2б

В моем случае во второй группе будет три подгруппы.
Правильно ли я поняла, что сначала следует описать сравнение групп 1 и 2, а затем сравнительный анализ (только по показателям принадлежности) групп 1, 2а, 2б и 2в? И все-таки с применением поправки Бонферрони?
Цитата
3) А зачем Вам факторный анализ? Факторный анализ выявляет общие факторы, действующие на несколько переменных, а у Вас анализ данных с зависимой переменной. Может быть, Вы имели в виду дисперсионный анализ (многофакторный), но это совсем другое и, кроме того, для бинарного клинического исхода ДА не подходит.

Здесь я ,видимо, неправильные термины использовала. Одна из задач - выявить факторы, имеющие прогностическое значение в отношении исхода. Большинство анализируемых факторов - бинарные (да, нет), но есть и количественные.
Цитата
4) При большом количестве пропусков лучше переменную исключить, причем из всего анализа в целом (по данному показателю выборка может быть не репрезентативна). Если она нужна, надо думать о специализированных методах, типа множественной импутации.
Подскажите, пожалуйста, где можно ознакомится с данным методом?
Про факторы с большим количеством пропусков понятно. А в целом, по каким факторам проводить анализ: только по которым получены различия между группами или по всем, какие хотелось бы (следовало бы по логике) проверить?
Цитата
5) В логистической регрессии количественные данные лучше анализировать без создания бинарных, она была разработана для количественных независимых переменных (а не для качественных).

Тогда какой метод существует для качественных бинарных переменных?
Если переменная отклтка - бинарная, а независимые пременные - и бинарные и количественные - как определить зависимость?

Автор: плав 16.02.2009 - 20:36

Цитата(AnnGl @ 16.02.2009 - 19:21) *
Спасибо большое за ответы, но поскольку мои знания статистики весьма поверхностные, хотела бы задать еще несколько вопросов.
Насколько целесообразно трансформировать данные и можно ли это сделать с помощью Stata? Если трансформированные данные будут подчиняться нормальному распределению, тогда можно их представить в виде М(s) или в другом виде?

В моем случае во второй группе будет три подгруппы.
Правильно ли я поняла, что сначала следует описать сравнение групп 1 и 2, а затем сравнительный анализ (только по показателям принадлежности) групп 1, 2а, 2б и 2в? И все-таки с применением поправки Бонферрони?

Здесь я ,видимо, неправильные термины использовала. Одна из задач - выявить факторы, имеющие прогностическое значение в отношении исхода. Большинство анализируемых факторов - бинарные (да, нет), но есть и количественные.
Подскажите, пожалуйста, где можно ознакомится с данным методом?
Про факторы с большим количеством пропусков понятно. А в целом, по каким факторам проводить анализ: только по которым получены различия между группами или по всем, какие хотелось бы (следовало бы по логике) проверить?

Тогда какой метод существует для качественных бинарных переменных?
Если переменная отклтка - бинарная, а независимые пременные - и бинарные и количественные - как определить зависимость?

1) Да, Stata вполне подходит для этой цели, надо использовать функцию egen. Трансформированные переменные можно представить в виде M(s), но часто используют просто другие показатели (например, вместо среднего арифметического в случае логнормальности - средне геометрическое)
2) Если будете использовать могофакторнй анализ, поправку Бонферрони можно не использовать (если только у Вас н очень много переменных)
3) Задача выяления влияния прогностических факторов для бинарной зависимой переменнй решается обычно логистической регрессией
4) http://www.stat.psu.edu/~jls/mifaq.html или http://support.sas.com/rnd/app/da/new/dami.html; для Stata см. http://www.stata-journal.com/sjpdf.html?articlenum=st0067 и код http://ideas.repec.org/c/boc/bocode/s446602.html
5) Обычно модель строится с включением туда значимых факторов и клиниески начимы (например, если пол не значим, его все равно включают). Учтите только, что порог для включения факторов в модель считается не 0,05, а 0,1 или даже 0,25 (просто эти факторы затем, скорее всего кажутся в суммарной модели не значимыми на уровне 0,05).
6) см. 3)
7) см. 3) результатом логистической регрессии является уравнение, показывающее, во сколько раз меняются шансы исхода при изменении независимой переменной на одну единицу.

Автор: DoctorStat 16.02.2009 - 21:01

Цитата(AnnGl @ 16.02.2009 - 19:21) *
В моем случае во второй группе будет три подгруппы.
Правильно ли я поняла, что сначала следует описать сравнение групп 1 и 2, а затем сравнительный анализ (только по показателям принадлежности) групп 1, 2а, 2б и 2в? И все-таки с применением поправки Бонферрони?
У Вас есть четыре независимо от анализирумого фактора Х группы сравнений: 1, 2а, 2б и 2в. Вы хотите выявить отличия между группами по фактору Х, попарно сравнивая их между собой. Допустим, найдено отличие между группами 1 и 2а с величиной значимости p-value=0,01. Количество попарных сравнений (сочетаний) из 4-х групп по 2 равно =4!/(2!(4-2)!)=6. Следовательно, значимость отличий групп 1 и 2а (с поправкой Бонферони на множественность сравнений) равна=0,01*6=0,06. Значимость отличий ухудшилась, т.е. стала меньше.

Автор: плав 16.02.2009 - 22:31

Цитата(DoctorStat @ 16.02.2009 - 21:01) *
У Вас есть четыре независимо от анализирумого фактора Х группы сравнений: 1, 2а, 2б и 2в. Вы хотите выявить отличия между группами по фактору Х, попарно сравнивая их между собой. Допустим, найдено отличие между группами 1 и 2а с величиной значимости p-value=0,01. Количество попарных сравнений (сочетаний) из 4-х групп по 2 равно =4!/(2!(4-2)!)=6. Следовательно, значимость отличий групп 1 и 2а (с поправкой Бонферони на множественность сравнений) равна=0,01*6=0,06. Значимость отличий ухудшилась, т.е. стала меньше.

Не совсем так, значимость как была 0,01, так и осталась. Однако вероятность ошибочно принять нулевю гипотезу сли сравнивать только 1 и 2а 0,01, а если сделать шесть сравнений - 0,059 (там не умножение, там 1 - (1-0,01)^6 - вероятность не сделать ошибочного заключения в серии из шести испытаний). Иными словами просто непонятно как оценивать это 0,01, а не то, что значимость изменилась (более расчетный уровень при допущении попарных сравнений не соответвует номинальному уровню ошибки).
Однако и эти расчеты не совсем адекватны. Речь идет о качественном показателе (бинарном), соответственно, тестируется логистическая модель
f(Y)=a+b1*x+b2*x + \epsilon
Одна переменна - принадлежность группе 1 vs 2, вторая - группам 2. Соответственно, имеем только два коэффициента и подъем общей альфа-ошибки до 0,02
Если закодируем b2 двумя пременными, то поднимем до 0,03, но это все равно приемлимо.

Автор: AnnGl 16.02.2009 - 23:01

Цитата(DoctorStat @ 16.02.2009 - 21:01) *
У Вас есть четыре независимо от анализирумого фактора Х группы сравнений: 1, 2а, 2б и 2в. Вы хотите выявить отличия между группами по фактору Х, попарно сравнивая их между собой. Допустим, найдено отличие между группами 1 и 2а с величиной значимости p-value=0,01. Количество попарных сравнений (сочетаний) из 4-х групп по 2 равно =4!/(2!(4-2)!)=6. Следовательно, значимость отличий групп 1 и 2а (с поправкой Бонферони на множественность сравнений) равна=0,01*6=0,06. Значимость отличий ухудшилась, т.е. стала меньше.

Я тоже так считала, но мне казалось это не вполне справедливым...

Автор: AnnGl 16.02.2009 - 23:30

Цитата
Не совсем так, значимость как была 0,01, так и осталась. Однако вероятность ошибочно принять нулевю гипотезу сли сравнивать только 1 и 2а 0,01, а если сделать шесть сравнений - 0,059 (там не умножение, там 1 - (1-0,01)^6 - вероятность не сделать ошибочного заключения в серии из шести испытаний). Иными словами просто непонятно как оценивать это 0,01, а не то, что значимость изменилась (более расчетный уровень при допущении попарных сравнений не соответвует номинальному уровню ошибки).

Это обнадеживает, но в таком случае как все-таки интерпретировать полученные результаты сравнительного анализа? И как должна выглядеть таблица сравнения четырех групп (как указать какая группа от какой отличается)? У меня получается, что группа 2в по ряду показателей отличается от всех остальных. В то же время по многим показателям группы 2б и 2в значимо отличаются от 1, но незначимо от 2а. Группы 1 и 2а также имеют различия, но по гораздо меньшему количеству факторов; также как и группы 2б и 2в.
Цитата
Однако и эти расчеты не совсем адекватны. Речь идет о качественном показателе (бинарном), соответственно, тестируется логистическая модель
f(Y)=a+b1*x+b2*x + \epsilon
Одна переменна - принадлежность группе 1 vs 2, вторая - группам 2. Соответственно, имеем только два коэффициента и подъем общей альфа-ошибки до 0,02
Если закодируем b2 двумя пременными, то поднимем до 0,03, но это все равно приемлимо.

Тут я совсем запуталась. Пожалуйста, нельзя ли на примере.

Автор: плав 17.02.2009 - 00:39

Цитата(AnnGl @ 16.02.2009 - 23:30) *
Это обнадеживает, но в таком случае как все-таки интерпретировать полученные результаты сравнительного анализа? И как должна выглядеть таблица сравнения четырех групп (как указать какая группа от какой отличается)? У меня получается, что группа 2в по ряду показателей отличается от всех остальных. В то же время по многим показателям группы 2б и 2в значимо отличаются от 1, но незначимо от 2а. Группы 1 и 2а также имеют различия, но по гораздо меньшему количеству факторов; также как и группы 2б и 2в.

Тут я совсем запуталась. Пожалуйста, нельзя ли на примере.

1) А никак. Если Вы настаиваете на 6 сравнениях, то удержания уровня общей ошибки на уровне 0,05 надо просто перейти от уровня значимости 0,05 к уровню 0,008. Есл больше этой границы - считать различия не достоверными (При этом Вы раздуваете ошибку II типа - т.е. пропускаете существующий эффект - но это плата за неспособность сформулировать гипотезу).
2) Вы написали, что Вас интересует некий исход (Y), на которые влияет рад факторов. Эти факторы образуют группы. Одно деление Вас интересует (группы 1 и 2) и второе нет, но вносит гетерогенность в данные (т.е. группа 2 на самом деле состоит из групп 2a 2b 2c).
Простейший вариант закодировать данные так:
группа 1 2а 2b 2c
x1 0 1 0 0
x2 0 0 1 0
x3 0 0 0 1
т.е. сделать 3 новых переменных и затем использовать логистическую регрессию. По данной кодировке группа 1 будет считаться базовой ( ее коды 0 0 0)
Тогда влияние группы 2а в сравнении с 1 изучается при помощи коэффициента логистической регрессии, 2в - второго коэффициента и т.д. Если Вы захотите сравнивать 2а и 2в - это будет сложнее (в том смысле, что повышается риск ошибки I типа), но возможно (называется это контрасты).
Строго говоря, в эту модель можно затем добавить другие факторы и посмотреть, объясняют ли они действительно наблюдаемые различия.

Форум Invision Power Board (http://www.invisionboard.com)
© Invision Power Services (http://www.invisionpower.com)