Статистический анализ данных - нужна помощь

Статистический анализ данных - нужна помощь, сравнительный анализ, монофакторный и многофакторный анализ

AnnGl Просмотр профиля	16.02.2009 - 14:32 Сообщение #1
Группа: Пользователи Сообщений: 4 Регистрация: 16.02.2009 Пользователь №: 5819	Здравствуйте, уважаемые участники форума! Помогоите, пожалуйста! Есть выборка - около 900 пациентов. Группирующая переменная - клинический исход (наступил, нет). 1)Проверка данных на нормальность распределения показала, что практически все количественные переменные (кроме возраста) распределены не нормально. Соответственно, сравнительный анализ проводился с использованием непараметрических методов и результаты представлены в виде Ме(25%;75%);(М) - для количественных переменных. Однако, в электронном учебнике StatSoft нашла следующее: " Непараметрические методы наиболее приемлемы, когда объем выборок мал. Если данных много (например, n > 100), то не имеет смысла использовать непараметрические статистики." Скажите пожалуйста, так ли это на самом деле? И надо ли в таком случае переделать эту часть анализа? 2) Сравнительный анализ выявил различия между группами по ряду показателей. Однако при более внимательном рассмотрении оказалось, что в о вторую группу вошли больные, у которых исход наступил раньше и больные, которые умерли в течение наблюдения (речь идет о госпитализациях). Таким образом, если вторую группу теперь разделить на три подгруппы, то видно, что в большинстве случаев разница между группами 1 и 2 обусловлена именно этими указанными двумя подгруппами. Как же в таком случае следует отображать результаты? Сравнение по 2 группам или все-таки уже по 4. И следует ли в этом случае использовать поправку Бонферрони? 3)Извините, пожалуйста, за неграмотность, но остается не очень понятным какие переменные анализировать в факторном анализе. Включаю в анализ те переменные, по которым получены различия между группами. Правильно ли я делаю или надо еще и другие факторы тоже? К примеру по полу больные вгруппах не различались, а по возрасту значимо отличались только умершие. 4) Если для определенной переменной много пропущенных данных (например, 60% - пропуски) надо ли такой фактор оценивать в однофакторном анализе? Понятно, что в многофакторном - лучше не надо. Это верно? 5) Как лучше анализировать количественные данные в логистичесой регрессии? Все-таки найти точку разделения и создать бинарные? Очень надеюсь на Вашу помощь! Заранее спасибо.

Ответов

плав Просмотр профиля	16.02.2009 - 15:36 Сообщение #2
Группа: Пользователи Сообщений: 1013 Регистрация: 4.10.2006 Пользователь №: 1933	Цитата(AnnGl @ 16.02.2009 - 14:32) Группирующая переменная - клинический исход (наступил, нет). 1)Проверка данных на нормальность распределения показала, что практически все количественные переменные (кроме возраста) распределены не нормально. ... 2)Однако при более внимательном рассмотрении оказалось, что в о вторую группу вошли больные, у которых исход наступил раньше и больные, которые умерли в течение наблюдения (речь идет о госпитализациях). Таким образом, если вторую группу теперь разделить на три подгруппы, то видно, что в большинстве случаев разница между группами 1 и 2 обусловлена именно этими указанными двумя подгруппами. Как же в таком случае следует отображать результаты? Сравнение по 2 группам или все-таки уже по 4. И следует ли в этом случае использовать поправку Бонферрони? 3)Извините, пожалуйста, за неграмотность, но остается не очень понятным какие переменные анализировать в факторном анализе. 4) Если для определенной переменной много пропущенных данных (например, 60% - пропуски) надо ли такой фактор оценивать в однофакторном анализе? Понятно, что в многофакторном - лучше не надо. Это верно? 5) Как лучше анализировать количественные данные в логистичесой регрессии? Все-таки найти точку разделения и создать бинарные? 1) Если переменные распределены не нормально, то лучше их трансформировать таким образом, чтобы распределение стало нормальным. Хотя, на самом деле, при большом числе наблюдений начинает работать центральная предельная теорема и негативное влияние отклонения от нормальности снижается. Я бы все-таки попробовал вначале трансформировать данные (логарифм, обратные величины) и затем бы проверил на нормальность 2) Надо учитывать как можно больше переменных, лучше в рамках многомерного анализа, т.е. Вы сравниваете группу 1 и группу 2, но затем описываете, что группа 2 гетерогенно и поэтому в суммарный анализ вносите показатели принадлежности к группе 1 и 2 и принодлежности к группам 2а и 2б 3) А зачем Вам факторный анализ? Факторный анализ выявляет общие факторы, действующие на несколько переменных, а у Вас анализ данных с зависимой переменной. Может быть, Вы имели в виду дисперсионный анализ (многофакторный), но это совсем другое и, кроме того, для бинарного клинического исхода ДА не подходит. 4) При большом количестве пропусков лучше переменную исключить, причем из всего анализа в целом (по данному показателю выборка может быть не репрезентативна). Если она нужна, надо думать о специализированных методах, типа множественной импутации. 5) В логистической регрессии количественные данные лучше анализировать без создания бинарных, она была разработана для количественных независимых переменных (а не для качественных).

AnnGl Просмотр профиля	16.02.2009 - 19:21 Сообщение #3
Группа: Пользователи Сообщений: 4 Регистрация: 16.02.2009 Пользователь №: 5819	Спасибо большое за ответы, но поскольку мои знания статистики весьма поверхностные, хотела бы задать еще несколько вопросов. Насколько целесообразно трансформировать данные и можно ли это сделать с помощью Stata? Если трансформированные данные будут подчиняться нормальному распределению, тогда можно их представить в виде М(s) или в другом виде? Цитата 2) Надо учитывать как можно больше переменных, лучше в рамках многомерного анализа, т.е. Вы сравниваете группу 1 и группу 2, но затем описываете, что группа 2 гетерогенно и поэтому в суммарный анализ вносите показатели принадлежности к группе 1 и 2 и принодлежности к группам 2а и 2б В моем случае во второй группе будет три подгруппы. Правильно ли я поняла, что сначала следует описать сравнение групп 1 и 2, а затем сравнительный анализ (только по показателям принадлежности) групп 1, 2а, 2б и 2в? И все-таки с применением поправки Бонферрони? Цитата 3) А зачем Вам факторный анализ? Факторный анализ выявляет общие факторы, действующие на несколько переменных, а у Вас анализ данных с зависимой переменной. Может быть, Вы имели в виду дисперсионный анализ (многофакторный), но это совсем другое и, кроме того, для бинарного клинического исхода ДА не подходит. Здесь я ,видимо, неправильные термины использовала. Одна из задач - выявить факторы, имеющие прогностическое значение в отношении исхода. Большинство анализируемых факторов - бинарные (да, нет), но есть и количественные. Цитата 4) При большом количестве пропусков лучше переменную исключить, причем из всего анализа в целом (по данному показателю выборка может быть не репрезентативна). Если она нужна, надо думать о специализированных методах, типа множественной импутации. Подскажите, пожалуйста, где можно ознакомится с данным методом? Про факторы с большим количеством пропусков понятно. А в целом, по каким факторам проводить анализ: только по которым получены различия между группами или по всем, какие хотелось бы (следовало бы по логике) проверить? Цитата 5) В логистической регрессии количественные данные лучше анализировать без создания бинарных, она была разработана для количественных независимых переменных (а не для качественных). Тогда какой метод существует для качественных бинарных переменных? Если переменная отклтка - бинарная, а независимые пременные - и бинарные и количественные - как определить зависимость?

плав Просмотр профиля	16.02.2009 - 20:36 Сообщение #4
Группа: Пользователи Сообщений: 1013 Регистрация: 4.10.2006 Пользователь №: 1933	Цитата(AnnGl @ 16.02.2009 - 19:21) Спасибо большое за ответы, но поскольку мои знания статистики весьма поверхностные, хотела бы задать еще несколько вопросов. Насколько целесообразно трансформировать данные и можно ли это сделать с помощью Stata? Если трансформированные данные будут подчиняться нормальному распределению, тогда можно их представить в виде М(s) или в другом виде? В моем случае во второй группе будет три подгруппы. Правильно ли я поняла, что сначала следует описать сравнение групп 1 и 2, а затем сравнительный анализ (только по показателям принадлежности) групп 1, 2а, 2б и 2в? И все-таки с применением поправки Бонферрони? Здесь я ,видимо, неправильные термины использовала. Одна из задач - выявить факторы, имеющие прогностическое значение в отношении исхода. Большинство анализируемых факторов - бинарные (да, нет), но есть и количественные. Подскажите, пожалуйста, где можно ознакомится с данным методом? Про факторы с большим количеством пропусков понятно. А в целом, по каким факторам проводить анализ: только по которым получены различия между группами или по всем, какие хотелось бы (следовало бы по логике) проверить? Тогда какой метод существует для качественных бинарных переменных? Если переменная отклтка - бинарная, а независимые пременные - и бинарные и количественные - как определить зависимость? 1) Да, Stata вполне подходит для этой цели, надо использовать функцию egen. Трансформированные переменные можно представить в виде M(s), но часто используют просто другие показатели (например, вместо среднего арифметического в случае логнормальности - средне геометрическое) 2) Если будете использовать могофакторнй анализ, поправку Бонферрони можно не использовать (если только у Вас н очень много переменных) 3) Задача выяления влияния прогностических факторов для бинарной зависимой переменнй решается обычно логистической регрессией 4) http://www.stat.psu.edu/~jls/mifaq.html или http://support.sas.com/rnd/app/da/new/dami.html; для Stata см. http://www.stata-journal.com/sjpdf.html?articlenum=st0067 и код http://ideas.repec.org/c/boc/bocode/s446602.html 5) Обычно модель строится с включением туда значимых факторов и клиниески начимы (например, если пол не значим, его все равно включают). Учтите только, что порог для включения факторов в модель считается не 0,05, а 0,1 или даже 0,25 (просто эти факторы затем, скорее всего кажутся в суммарной модели не значимыми на уровне 0,05). 6) см. 3) 7) см. 3) результатом логистической регрессии является уравнение, показывающее, во сколько раз меняются шансы исхода при изменении независимой переменной на одну единицу.

Сообщений в этой теме

AnnGl Статистический анализ данных - нужна помощь 16.02.2009 - 14:32

плав Цитата(AnnGl @ 16.02.2009 - 14:32) Г... 16.02.2009 - 15:36

AnnGl Спасибо большое за ответы, но поскольку мои знания... 16.02.2009 - 19:21

плав Цитата(AnnGl @ 16.02.2009 - 19:21) С... 16.02.2009 - 20:36

DoctorStat Цитата(AnnGl @ 16.02.2009 - 19:21) В... 16.02.2009 - 21:01

плав Цитата(DoctorStat @ 16.02.2009 - 21... 16.02.2009 - 22:31

AnnGl ЦитатаНе совсем так, значимость как была 0,01, так... 16.02.2009 - 23:30

плав Цитата(AnnGl @ 16.02.2009 - 23:30) Э... 17.02.2009 - 00:39

AnnGl Цитата(DoctorStat @ 16.02.2009 - 21... 16.02.2009 - 23:01

DoctorStat Цитата(AnnGl @ 16.02.2009 - 14:32) 1... 16.02.2009 - 15:53

плав Цитата(DoctorStat @ 16.02.2009 - 15... 16.02.2009 - 18:21

« Предыдущая тема · Медицинская статистика · Следующая тема »