МНОГОфакторный анализ. Как сделать с Статистике? |
Здравствуйте, гость ( Вход | Регистрация )
МНОГОфакторный анализ. Как сделать с Статистике? |
21.12.2008 - 11:00
Сообщение
#1
|
|
Группа: Пользователи Сообщений: 35 Регистрация: 3.10.2008 Из: Москва Пользователь №: 5369 |
Уважаемые форумчане! Всем добрый день. С монофакторным анализом я вроде бы разобралась. Теперь нужно сделать многофакторный. Я постараюсь коротко изложить задачу, которая передо мной стоит и очень надеюсь на вашу помощь.
Есть следующие данные - построены в табличке примерно такой: №||Результат:1-есть,0-нет ||Признак А:1-есть признак,0 -нет признака ||Признак В:1- есть,0 -нет ||Признак С:1-есть, 0 - нет || и т.д. 1 | 1 | 0 | 0 | 0 | 2 | 1 | 0 | 0 | 1 | 3 | 0 | 1 | 0 | 0 | 4 | 1 | 0 | 0 | 1 | 5 | 0 | 1 | 1 | 0 | 6 | 0 | 1 | 0 | 0 | 7 | 1 | 0 | 1 | 0 | и т.д. Я ввожу эти данные в программу Статистика. А вот что делать дальше - это уже сложнее. На выходе мне нужно получить примерно следующий результат: Для комбинациии признаков АВ Относительный риск =...., ДИ = ...., Р= ....., Для комбинации признаков АВС Относительный риск =...., ДИ = ...., Р= ....., Для комбинации признаков АС Относительный риск =...., ДИ = ...., Р= ....., и т.д. по разным комбинациям. Подскажите пожалуйса, на какие кнопки последовательно жать и в получившихся данных где искать ответы на мои вопросы. Там же в резульатах всегда много цифр и не всегда понятно, что есть что. Очень надеюсь на вашу помощь. Сообщение отредактировал Solo... - 21.12.2008 - 11:03 |
|
21.12.2008 - 12:20
Сообщение
#2
|
|
Группа: Пользователи Сообщений: 1013 Регистрация: 4.10.2006 Пользователь №: 1933 |
Уважаемые форумчане! Всем добрый день. С монофакторным анализом я вроде бы разобралась. Теперь нужно сделать многофакторный. Я постараюсь коротко изложить задачу, которая передо мной стоит и очень надеюсь на вашу помощь. Есть следующие данные - построены в табличке примерно такой: Очень надеюсь на вашу помощь. Я же Вам прислал данные и того и другого анализа! Там все было... А дисперсионный анализ (MANOVA) для бинарной зависимой переменной (который, Вы, похоже, стараетесь сделать) не подойдет. |
|
21.12.2008 - 12:42
Сообщение
#3
|
|
Группа: Пользователи Сообщений: 35 Регистрация: 3.10.2008 Из: Москва Пользователь №: 5369 |
Сейчас еще раз вникну в Ваши записи.
|
|
21.12.2008 - 13:31
Сообщение
#4
|
|
Группа: Пользователи Сообщений: 35 Регистрация: 3.10.2008 Из: Москва Пользователь №: 5369 |
Я все вниматеьно прочитала. Ну, я, видимо, совсем ничего не смыслю. Нет, я не увидела там никаких комбинаций признаков и ответа на поставленный мной вопрос в этой теме я не нашла. Еще я там в таблице - той, которую вам посылала - многое поменяла. Признаки у меня все теперь четко закодированы - есть или нет признак. И все. Например, признаки, в которых приводилось значение (6,7 и др.) - я упростила, ввела пограничную величину признака (полученную в ходе РОК-анализа) и определила - если у больного величина признака больше такой то цифры, то я кодирую "1- признак есть", а если у больного величина признака меньше это же цифры, то я кодирую "0- признака нет". Вот у меня и получилась такая табличка, как я привела в этой теме. Я надеялась, что это упростит мне задачу.
Все таки я надеюсь, что это как то можно посчитать самой. Ведь другие это же как то считают...... |
|
21.12.2008 - 19:39
Сообщение
#5
|
|
Группа: Пользователи Сообщений: 1013 Регистрация: 4.10.2006 Пользователь №: 1933 |
Я все вниматеьно прочитала. Ну, я, видимо, совсем ничего не смыслю. Нет, я не увидела там никаких комбинаций признаков и ответа на поставленный мной вопрос в этой теме я не нашла. Еще я там в таблице - той, которую вам посылала - многое поменяла. Признаки у меня все теперь четко закодированы - есть или нет признак. И все. Например, признаки, в которых приводилось значение (6,7 и др.) - я упростила, ввела пограничную величину признака (полученную в ходе РОК-анализа) и определила - если у больного величина признака больше такой то цифры, то я кодирую "1- признак есть", а если у больного величина признака меньше это же цифры, то я кодирую "0- признака нет". Вот у меня и получилась такая табличка, как я привела в этой теме. Я надеялась, что это упростит мне задачу. Все таки я надеюсь, что это как то можно посчитать самой. Ведь другие это же как то считают...... А Вы считаете логистическую регрессию? |
|
21.12.2008 - 20:52
Сообщение
#6
|
|
Группа: Пользователи Сообщений: 1325 Регистрация: 27.11.2007 Пользователь №: 4573 |
Solo "Ну, я, видимо, совсем ничего не смыслю....."
Видимо, да... Другие, прежде, чем считать, читают книжки, документацию к программе, а также научные статьи по специальности в достойных журналах, гда описаны подобные задачи. А вы хотите, чтобы вам прсто сказали, на какие кнопки нажимать, и все. Но в компьютере нет кнопочки, которая готовую диссертацию выдает. Вы попробуйте сделать хоть что то самостоятельно, тогда подсказки на форуме, особенно плава, т.к он профессионально умеен объяснить, будут оценены вами. Ваша задачка подробно обсуждалась на форуме, неоднократно, почитайте хоть что нибудь по логистической регрессии. Сообщение отредактировал DrgLena - 21.12.2008 - 20:53 |
|
22.12.2008 - 22:05
Сообщение
#7
|
|
Группа: Пользователи Сообщений: 35 Регистрация: 3.10.2008 Из: Москва Пользователь №: 5369 |
Solo "Ну, я, видимо, совсем ничего не смыслю....." Видимо, да... Другие, прежде, чем считать, читают книжки, документацию к программе, а также научные статьи по специальности в достойных журналах, гда описаны подобные задачи. А вы хотите, чтобы вам прсто сказали, на какие кнопки нажимать, и все. Но в компьютере нет кнопочки, которая готовую диссертацию выдает. Вы попробуйте сделать хоть что то самостоятельно, тогда подсказки на форуме, особенно плава, т.к он профессионально умеен объяснить, будут оценены вами. Ваша задачка подробно обсуждалась на форуме, неоднократно, почитайте хоть что нибудь по логистической регрессии. Не переживайте за меня. я диссертацию давным давно защитила. И , смею вас заверить, со статьями я тоже знакома многими. Книжки я тоже читала по статистике, но там не пишут про решение моих задач, а если и пишут - то на не совсем понятном для меня языке. Про то, чего стоят подсказки Плава , я - в курсе. И оценила их по достоинству. Просто для меня это все еще сложно. В книгах, доступных мне , в главах про логистическую регрессию описаны огромные математические формулы, которые тоже не просто понять и даже подставить в ексель их сложно. Так что не стоит так уж строго судить. Если вы не можете ничем помочь, это понятно - сложно объяснять тому, кто мало знаком со статистикой. Но такого рода советы тоже, на мой взгляд, лишние... Кому они нужны? |
|
22.12.2008 - 22:06
Сообщение
#8
|
|
Группа: Пользователи Сообщений: 35 Регистрация: 3.10.2008 Из: Москва Пользователь №: 5369 |
|
|
23.12.2008 - 01:55
Сообщение
#9
|
|
Группа: Пользователи Сообщений: 1325 Регистрация: 27.11.2007 Пользователь №: 4573 |
Если вы не можете ничем помочь, это понятно - сложно объяснять тому, кто мало знаком со статистикой. Но такого рода советы тоже, на мой взгляд, лишние... Кому они нужны? Постараюсь помочь, если приведенные данные реальные. Но в этом случае нужно начать не с логистической регрессии, а с более простого взгляда на данные. По вашим данным, между результатом и признаками существует следующая корреляционная связь (рагновая, по Спирмену) 1 2 3 4 результат -1.00000 -1.00000 -0.091287 0.547723 Т.е. если имеется 1 и 2 признак (1), то результат отсутствует (0). Т.о. в таблице 2х2 у вас в двух ячейках «0». Можно посчитать OR или RR только, если добавить 0,5 к каждому значению в четырехпольной таблице. Тогда OR=0.016, можете и RR =0.14 также руками посчитать. Признак 3 не влияет на результат, мы его пропустим. Четвертый влияет на результат, постройте таблицу 2х2 и посчитайте OR аналогично, добавляя 0.5 в каждую ячейку OR=7.0, но 95% Ди 0.2-219.0. Если вы при таких данных хотите оценить одновременно результат влияния нескольких таких признаков, используя логистическую регрессию, которая теоретически была бы очень хороша, но оценки у вас будут весьма сомнительны из за того, что предикторы very redundant. Очевидно, это вам программа и выдает. Вот, как смогла, .... А про плохо обусловленную матрицу пусть Плав расскажет. Сообщение отредактировал DrgLena - 23.12.2008 - 02:08 |
|
23.12.2008 - 11:09
Сообщение
#10
|
|
Группа: Пользователи Сообщений: 35 Регистрация: 3.10.2008 Из: Москва Пользователь №: 5369 |
Постараюсь помочь, если приведенные данные реальные. ... Если вы при таких данных хотите оценить одновременно результат влияния нескольких таких признаков, используя логистическую регрессию, которая теоретически была бы очень хороша, но оценки у вас будут весьма сомнительны из за того, что предикторы very redundant. Очевидно, это вам программа и выдает. Вот, как смогла, .... А про плохо обусловленную матрицу пусть Плав расскажет. DrgLena, спасибо за участие. Все таки я пыталась это сделать с помощью логистической регрессии. Сначала я сделала унивариантный анализ - это мне подробо рассказал Плав. Он мне очень помог. Я это все сделала, хоть и не сразу дошло. Далее я хотела с помощью этого же метода провести многофакторный анализ. С ним мне тоже помогал Плав. Но в тех данных , которые у меня есть, там многие "ячейки" пропущены. Т.е. например, какой то признак есть не у каждого больного (ну, в силу разных причин не удалось провести всем больным это исследование). И по этому не все получается. При проведении этого многофактороного анализа (так я называю метод лог.регресссии для нескольких признаков одновременно), машина не все считает - при какой то комбинации признаков выдает результат, при какой то - нет. Кстати, ведь слово redundant обозначает "лишний". В общем, не очень это понятно, т.к. ведь признаков - не хватает, а они "лишними " называются. Или машина не выдает р. В связи с этим, у меня есть 2 теоретических вопроса: 1. Можно ли провести кластерный анализ в недостающих ячейках? Правильно ли я понимаю, что кластерный анализ позволяет восполнить пустые ячейки - те, в которых данных о признаке нет? А после этого уже снова провести унивариантный и многофакторный анализ с помощью логистической регрессии? Будет ли это правомерно? 2. Можно ли в работе привести данные только унивариантного анализа без многофакторного? Или это на столько взаимосвязано, что один без другого - будет нелепо? Просто очень часто в статьях эти 2 анализа идут рядом. Да, они оба несут каждый свою информацию, но все таки если есть данные только по унивариантному, можно ли размещать только его? |
|
23.12.2008 - 11:47
Сообщение
#11
|
|
Группа: Пользователи Сообщений: 1325 Регистрация: 27.11.2007 Пользователь №: 4573 |
DrgLena, спасибо за участие. Но в тех данных , которые у меня есть, там многие "ячейки" пропущены. Т.е. например, какой то признак есть не у каждого больного (ну, в силу разных причин не удалось провести всем больным это исследование). В тех данных, которые вы привели, нет пропущенных значений. И "0" и "1" означают значение признака, а если исследование не проводилось, тогда будет пропущенное. На первый вопрос ответ - нет! У кластерного анализа другие задачи. На второй вопрос ответ - да! Можно в работе привести результат одновариантного анализа. Действительно ли у вас только 7 наблюдений? Тогда, для каждого признака (предиктора) постройте четырехпольные таблицы, по ним посчитайте OR и 95%ДИ. Результат расчета руками и при использовании одновариантной логистической регрессии exp (b) совпадет. Но при условии, что в ячейках четырехпольной таблицы не будет нулей. Redundant означает не недостаток ваших данных, у вас как раз все значения в вашем примере есть, а избыточность данных в том смысле, что все значения фактора - в одной категории результата. Четырехпольная таблица по первым двум признакам: a b c d =0 4 3 0. Это ясно? Или коэффициент корреляции r=-1.0. Сообщение отредактировал DrgLena - 23.12.2008 - 11:50 |
|
23.12.2008 - 12:54
Сообщение
#12
|
|
Группа: Пользователи Сообщений: 35 Регистрация: 3.10.2008 Из: Москва Пользователь №: 5369 |
На первый вопрос ответ - нет! У кластерного анализа другие задачи. На второй вопрос ответ - да! Можно в работе привести результат одновариантного анализа. Действительно ли у вас только 7 наблюдений? Нет-нет, у меня вовсе не 7 наблюдений. Это я просто привела пример той таблицы с данными, которые у меня есть. Я там даже написала "т.д." - я думала, что станет от этого ясно, что эти данные - просто как пример. На самом деле у меня 78 пациентов. У одних есть хороший результат лечения, у других - его нет. И есть ряд признаков (около 12), от которых мы предполагаем зависимость результатов. В клинике все почти ясно - зависимость вырисовывается. А вот статистически надо это оформить. По унивариантному анализу - все хорошо вышло, все почти совпадает с клиническим данными, расхождений нет. А вот с многофакторынм я зависла. Дело в том, что есть признаки, которые нам удалось проверить не у каждого больного . И если унивариантный анализ нам дает результат, то когда я начинаю во второе окошко Var вводить несколько признаков (а не один, как при попарной лог.регрессии для унивар.анализа), то машина не выдает ничего или через раз выдает. Я думаю, что это из за того, что нет данных во всех ячейках, черт бы их побрал. Еще вот что. Если рассмотреть группу из 78 человек, у которых то там то сям отсутствуют какие то признаки , то получились некоторые результаты. Если рассмотреть группу примерно из 30 человек , у которых есть ВСЕ данные по всем признакам - то РЕЗУЛЬТАТЫ СОВПАДАЮТ с теми, что получены у 78 - практически полностью . Казалось бы, можно взять и написать про 30 человек, но это - очень мало. И выглядит не солидно. Заболевание , про которое мы пишем, редкое и эта работа включает наблюдения за больными в течение 9 лет (в смысле столько было больных за эти годы). По этому каждый больной - на вес золота, и кого то выкидывать - не очень хочется. Вот я по этому спросила про кластерный анализ. Жалко, что его нельзя. Что же делать ? |
|
23.12.2008 - 13:10
Сообщение
#13
|
|
Группа: Пользователи Сообщений: 35 Регистрация: 3.10.2008 Из: Москва Пользователь №: 5369 |
Redundant означает не недостаток ваших данных, у вас как раз все значения в вашем примере есть, а избыточность данных в том смысле, что все значения фактора - в одной категории результата. Правильно ли я понимаю, что если написано Redundant , то выходит, что он не считает р, т.к. ясно, что признак влияет очень и очень? Ну, раз у всех, у кого признак есть - результат одинаковый. Т.е. я могу смело писать, что для этого признака р меньше 0,001? А иногда машина пишет "matrix ill conditioned, cannot compute standard errors" - это что значит? |
|
23.12.2008 - 13:57
Сообщение
#14
|
|
Группа: Пользователи Сообщений: 377 Регистрация: 18.08.2008 Из: Москва Златоглавая Пользователь №: 5224 |
Я думаю, что это из за того, что нет данных во всех ячейках, черт бы их побрал. Обычная логистическая регрессия в SPSS и Statistica не работает с пропущенными данными. Нужно искать более продвинутые методы.Просто включи мозги => http://doctorstat.narod.ru
|
|
23.12.2008 - 14:15
Сообщение
#15
|
|
Группа: Пользователи Сообщений: 35 Регистрация: 3.10.2008 Из: Москва Пользователь №: 5369 |
Обычная логистическая регрессия в SPSS и Statistica не работает с пропущенными данными. Нужно искать более продвинутые методы. Как это не работает? Если попарно считать - т.е. в одно окошко Var - вносить результат, а в другое окошко Var - вносить один признак, то все считает. |
|