Форум врачей-аспирантов

Здравствуйте, гость ( Вход | Регистрация )

3 страниц V   1 2 3 >  
Добавить ответ в эту темуОткрыть тему
> МНОГОфакторный анализ. Как сделать с Статистике?
Solo...
сообщение 21.12.2008 - 11:00
Сообщение #1





Группа: Пользователи
Сообщений: 35
Регистрация: 3.10.2008
Из: Москва
Пользователь №: 5369



Уважаемые форумчане! Всем добрый день. С монофакторным анализом я вроде бы разобралась. Теперь нужно сделать многофакторный. Я постараюсь коротко изложить задачу, которая передо мной стоит и очень надеюсь на вашу помощь.
Есть следующие данные - построены в табличке примерно такой:

№||Результат:1-есть,0-нет ||Признак А:1-есть признак,0 -нет признака ||Признак В:1- есть,0 -нет ||Признак С:1-есть, 0 - нет || и т.д.
1 | 1 | 0 | 0 | 0 |
2 | 1 | 0 | 0 | 1 |
3 | 0 | 1 | 0 | 0 |
4 | 1 | 0 | 0 | 1 |
5 | 0 | 1 | 1 | 0 |
6 | 0 | 1 | 0 | 0 |
7 | 1 | 0 | 1 | 0 | и т.д.


Я ввожу эти данные в программу Статистика. А вот что делать дальше - это уже сложнее.
На выходе мне нужно получить примерно следующий результат:

Для комбинациии признаков АВ Относительный риск =...., ДИ = ...., Р= .....,
Для комбинации признаков АВС Относительный риск =...., ДИ = ...., Р= .....,
Для комбинации признаков АС Относительный риск =...., ДИ = ...., Р= ....., и т.д. по разным комбинациям.


Подскажите пожалуйса, на какие кнопки последовательно жать и в получившихся данных где искать ответы на мои вопросы. Там же в резульатах всегда много цифр и не всегда понятно, что есть что.

Очень надеюсь на вашу помощь.

Сообщение отредактировал Solo... - 21.12.2008 - 11:03
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
плав
сообщение 21.12.2008 - 12:20
Сообщение #2





Группа: Пользователи
Сообщений: 1013
Регистрация: 4.10.2006
Пользователь №: 1933



Цитата(Solo... @ 21.12.2008 - 11:00) *
Уважаемые форумчане! Всем добрый день. С монофакторным анализом я вроде бы разобралась. Теперь нужно сделать многофакторный. Я постараюсь коротко изложить задачу, которая передо мной стоит и очень надеюсь на вашу помощь.
Есть следующие данные - построены в табличке примерно такой:


Очень надеюсь на вашу помощь.

Я же Вам прислал данные и того и другого анализа! Там все было... А дисперсионный анализ (MANOVA) для бинарной зависимой переменной (который, Вы, похоже, стараетесь сделать) не подойдет.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Solo...
сообщение 21.12.2008 - 12:42
Сообщение #3





Группа: Пользователи
Сообщений: 35
Регистрация: 3.10.2008
Из: Москва
Пользователь №: 5369



Сейчас еще раз вникну в Ваши записи.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Solo...
сообщение 21.12.2008 - 13:31
Сообщение #4





Группа: Пользователи
Сообщений: 35
Регистрация: 3.10.2008
Из: Москва
Пользователь №: 5369



Я все вниматеьно прочитала. Ну, я, видимо, совсем ничего не смыслю. Нет, я не увидела там никаких комбинаций признаков и ответа на поставленный мной вопрос в этой теме я не нашла. Еще я там в таблице - той, которую вам посылала - многое поменяла. Признаки у меня все теперь четко закодированы - есть или нет признак. И все. Например, признаки, в которых приводилось значение (6,7 и др.) - я упростила, ввела пограничную величину признака (полученную в ходе РОК-анализа) и определила - если у больного величина признака больше такой то цифры, то я кодирую "1- признак есть", а если у больного величина признака меньше это же цифры, то я кодирую "0- признака нет". Вот у меня и получилась такая табличка, как я привела в этой теме. Я надеялась, что это упростит мне задачу.

Все таки я надеюсь, что это как то можно посчитать самой. Ведь другие это же как то считают......
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
плав
сообщение 21.12.2008 - 19:39
Сообщение #5





Группа: Пользователи
Сообщений: 1013
Регистрация: 4.10.2006
Пользователь №: 1933



Цитата(Solo... @ 21.12.2008 - 13:31) *
Я все вниматеьно прочитала. Ну, я, видимо, совсем ничего не смыслю. Нет, я не увидела там никаких комбинаций признаков и ответа на поставленный мной вопрос в этой теме я не нашла. Еще я там в таблице - той, которую вам посылала - многое поменяла. Признаки у меня все теперь четко закодированы - есть или нет признак. И все. Например, признаки, в которых приводилось значение (6,7 и др.) - я упростила, ввела пограничную величину признака (полученную в ходе РОК-анализа) и определила - если у больного величина признака больше такой то цифры, то я кодирую "1- признак есть", а если у больного величина признака меньше это же цифры, то я кодирую "0- признака нет". Вот у меня и получилась такая табличка, как я привела в этой теме. Я надеялась, что это упростит мне задачу.

Все таки я надеюсь, что это как то можно посчитать самой. Ведь другие это же как то считают......

А Вы считаете логистическую регрессию?
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
DrgLena
сообщение 21.12.2008 - 20:52
Сообщение #6





Группа: Пользователи
Сообщений: 1325
Регистрация: 27.11.2007
Пользователь №: 4573



Solo "Ну, я, видимо, совсем ничего не смыслю....."
Видимо, да...
Другие, прежде, чем считать, читают книжки, документацию к программе, а также научные статьи по специальности в достойных журналах, гда описаны подобные задачи. А вы хотите, чтобы вам прсто сказали, на какие кнопки нажимать, и все. Но в компьютере нет кнопочки, которая готовую диссертацию выдает. Вы попробуйте сделать хоть что то самостоятельно, тогда подсказки на форуме, особенно плава, т.к он профессионально умеен объяснить, будут оценены вами. Ваша задачка подробно обсуждалась на форуме, неоднократно, почитайте хоть что нибудь по логистической регрессии.

Сообщение отредактировал DrgLena - 21.12.2008 - 20:53
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Solo...
сообщение 22.12.2008 - 22:05
Сообщение #7





Группа: Пользователи
Сообщений: 35
Регистрация: 3.10.2008
Из: Москва
Пользователь №: 5369



Цитата(DrgLena @ 21.12.2008 - 20:52) *
Solo "Ну, я, видимо, совсем ничего не смыслю....."
Видимо, да...
Другие, прежде, чем считать, читают книжки, документацию к программе, а также научные статьи по специальности в достойных журналах, гда описаны подобные задачи. А вы хотите, чтобы вам прсто сказали, на какие кнопки нажимать, и все. Но в компьютере нет кнопочки, которая готовую диссертацию выдает. Вы попробуйте сделать хоть что то самостоятельно, тогда подсказки на форуме, особенно плава, т.к он профессионально умеен объяснить, будут оценены вами. Ваша задачка подробно обсуждалась на форуме, неоднократно, почитайте хоть что нибудь по логистической регрессии.



Не переживайте за меня. я диссертацию давным давно защитила. И , смею вас заверить, со статьями я тоже знакома многими. Книжки я тоже читала по статистике, но там не пишут про решение моих задач, а если и пишут - то на не совсем понятном для меня языке. Про то, чего стоят подсказки Плава , я - в курсе. И оценила их по достоинству. Просто для меня это все еще сложно. В книгах, доступных мне , в главах про логистическую регрессию описаны огромные математические формулы, которые тоже не просто понять и даже подставить в ексель их сложно.
Так что не стоит так уж строго судить. Если вы не можете ничем помочь, это понятно - сложно объяснять тому, кто мало знаком со статистикой. Но такого рода советы тоже, на мой взгляд, лишние... Кому они нужны?
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Solo...
сообщение 22.12.2008 - 22:06
Сообщение #8





Группа: Пользователи
Сообщений: 35
Регистрация: 3.10.2008
Из: Москва
Пользователь №: 5369



Цитата(плав @ 21.12.2008 - 19:39) *
А Вы считаете логистическую регрессию?



Да.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
DrgLena
сообщение 23.12.2008 - 01:55
Сообщение #9





Группа: Пользователи
Сообщений: 1325
Регистрация: 27.11.2007
Пользователь №: 4573



Цитата(Solo... @ 22.12.2008 - 22:05) *
Если вы не можете ничем помочь, это понятно - сложно объяснять тому, кто мало знаком со статистикой. Но такого рода советы тоже, на мой взгляд, лишние... Кому они нужны?

Постараюсь помочь, если приведенные данные реальные. Но в этом случае нужно начать не с логистической регрессии, а с более простого взгляда на данные. По вашим данным, между результатом и признаками существует следующая корреляционная связь (рагновая, по Спирмену)
1 2 3 4
результат -1.00000 -1.00000 -0.091287 0.547723

Т.е. если имеется 1 и 2 признак (1), то результат отсутствует (0). Т.о. в таблице 2х2 у вас в двух ячейках «0». Можно посчитать OR или RR только, если добавить 0,5 к каждому значению в четырехпольной таблице. Тогда OR=0.016, можете и RR =0.14 также руками посчитать. Признак 3 не влияет на результат, мы его пропустим. Четвертый влияет на результат, постройте таблицу 2х2 и посчитайте OR аналогично, добавляя 0.5 в каждую ячейку OR=7.0, но 95% Ди 0.2-219.0.
Если вы при таких данных хотите оценить одновременно результат влияния нескольких таких признаков, используя логистическую регрессию, которая теоретически была бы очень хороша, но оценки у вас будут весьма сомнительны из за того, что предикторы very redundant. Очевидно, это вам программа и выдает. Вот, как смогла, .... А про плохо обусловленную матрицу пусть Плав расскажет.

Сообщение отредактировал DrgLena - 23.12.2008 - 02:08
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Solo...
сообщение 23.12.2008 - 11:09
Сообщение #10





Группа: Пользователи
Сообщений: 35
Регистрация: 3.10.2008
Из: Москва
Пользователь №: 5369



Цитата(DrgLena @ 23.12.2008 - 01:55) *
Постараюсь помочь, если приведенные данные реальные. ...
Если вы при таких данных хотите оценить одновременно результат влияния нескольких таких признаков, используя логистическую регрессию, которая теоретически была бы очень хороша, но оценки у вас будут весьма сомнительны из за того, что предикторы very redundant. Очевидно, это вам программа и выдает. Вот, как смогла, .... А про плохо обусловленную матрицу пусть Плав расскажет.



DrgLena, спасибо за участие.
Все таки я пыталась это сделать с помощью логистической регрессии. Сначала я сделала унивариантный анализ - это мне подробо рассказал Плав. Он мне очень помог. Я это все сделала, хоть и не сразу дошло.
Далее я хотела с помощью этого же метода провести многофакторный анализ. С ним мне тоже помогал Плав. Но в тех данных , которые у меня есть, там многие "ячейки" пропущены. Т.е. например, какой то признак есть не у каждого больного (ну, в силу разных причин не удалось провести всем больным это исследование). И по этому не все получается. При проведении этого многофактороного анализа (так я называю метод лог.регресссии для нескольких признаков одновременно), машина не все считает - при какой то комбинации признаков выдает результат, при какой то - нет. Кстати, ведь слово redundant обозначает "лишний". В общем, не очень это понятно, т.к. ведь признаков - не хватает, а они "лишними " называются. Или машина не выдает р.

В связи с этим, у меня есть 2 теоретических вопроса:

1. Можно ли провести кластерный анализ в недостающих ячейках? Правильно ли я понимаю, что кластерный анализ позволяет восполнить пустые ячейки - те, в которых данных о признаке нет? А после этого уже снова провести унивариантный и многофакторный анализ с помощью логистической регрессии? Будет ли это правомерно?

2. Можно ли в работе привести данные только унивариантного анализа без многофакторного? Или это на столько взаимосвязано, что один без другого - будет нелепо? Просто очень часто в статьях эти 2 анализа идут рядом. Да, они оба несут каждый свою информацию, но все таки если есть данные только по унивариантному, можно ли размещать только его?
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
DrgLena
сообщение 23.12.2008 - 11:47
Сообщение #11





Группа: Пользователи
Сообщений: 1325
Регистрация: 27.11.2007
Пользователь №: 4573



Цитата(Solo... @ 23.12.2008 - 11:09) *
DrgLena, спасибо за участие.
Но в тех данных , которые у меня есть, там многие "ячейки" пропущены. Т.е. например, какой то признак есть не у каждого больного (ну, в силу разных причин не удалось провести всем больным это исследование).


В тех данных, которые вы привели, нет пропущенных значений. И "0" и "1" означают значение признака, а если исследование не проводилось, тогда будет пропущенное.

На первый вопрос ответ - нет! У кластерного анализа другие задачи.
На второй вопрос ответ - да! Можно в работе привести результат одновариантного анализа.
Действительно ли у вас только 7 наблюдений?
Тогда, для каждого признака (предиктора) постройте четырехпольные таблицы, по ним посчитайте OR и 95%ДИ. Результат расчета руками и при использовании одновариантной логистической регрессии exp (b) совпадет. Но при условии, что в ячейках четырехпольной таблицы не будет нулей. Redundant означает не недостаток ваших данных, у вас как раз все значения в вашем примере есть, а избыточность данных в том смысле, что все значения фактора - в одной категории результата. Четырехпольная таблица по первым двум признакам: a b c d =0 4 3 0. Это ясно? Или коэффициент корреляции r=-1.0.

Сообщение отредактировал DrgLena - 23.12.2008 - 11:50
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Solo...
сообщение 23.12.2008 - 12:54
Сообщение #12





Группа: Пользователи
Сообщений: 35
Регистрация: 3.10.2008
Из: Москва
Пользователь №: 5369



Цитата(DrgLena @ 23.12.2008 - 11:47) *
На первый вопрос ответ - нет! У кластерного анализа другие задачи.
На второй вопрос ответ - да! Можно в работе привести результат одновариантного анализа.
Действительно ли у вас только 7 наблюдений?


Нет-нет, у меня вовсе не 7 наблюдений. Это я просто привела пример той таблицы с данными, которые у меня есть. Я там даже написала "т.д." - я думала, что станет от этого ясно, что эти данные - просто как пример.

На самом деле у меня 78 пациентов. У одних есть хороший результат лечения, у других - его нет. И есть ряд признаков (около 12), от которых мы предполагаем зависимость результатов. В клинике все почти ясно - зависимость вырисовывается. А вот статистически надо это оформить. По унивариантному анализу - все хорошо вышло, все почти совпадает с клиническим данными, расхождений нет. А вот с многофакторынм я зависла. Дело в том, что есть признаки, которые нам удалось проверить не у каждого больного . И если унивариантный анализ нам дает результат, то когда я начинаю во второе окошко Var вводить несколько признаков (а не один, как при попарной лог.регрессии для унивар.анализа), то машина не выдает ничего или через раз выдает. Я думаю, что это из за того, что нет данных во всех ячейках, черт бы их побрал.

Еще вот что. Если рассмотреть группу из 78 человек, у которых то там то сям отсутствуют какие то признаки , то получились некоторые результаты. Если рассмотреть группу примерно из 30 человек , у которых есть ВСЕ данные по всем признакам - то РЕЗУЛЬТАТЫ СОВПАДАЮТ с теми, что получены у 78 - практически полностью .
Казалось бы, можно взять и написать про 30 человек, но это - очень мало. И выглядит не солидно. Заболевание , про которое мы пишем, редкое и эта работа включает наблюдения за больными в течение 9 лет (в смысле столько было больных за эти годы). По этому каждый больной - на вес золота, и кого то выкидывать - не очень хочется.

Вот я по этому спросила про кластерный анализ. Жалко, что его нельзя. Что же делать ?
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Solo...
сообщение 23.12.2008 - 13:10
Сообщение #13





Группа: Пользователи
Сообщений: 35
Регистрация: 3.10.2008
Из: Москва
Пользователь №: 5369



Цитата(DrgLena @ 23.12.2008 - 11:47) *
Redundant означает не недостаток ваших данных, у вас как раз все значения в вашем примере есть, а избыточность данных в том смысле, что все значения фактора - в одной категории результата.


Правильно ли я понимаю, что если написано Redundant , то выходит, что он не считает р, т.к. ясно, что признак влияет очень и очень? Ну, раз у всех, у кого признак есть - результат одинаковый. Т.е. я могу смело писать, что для этого признака р меньше 0,001?

А иногда машина пишет "matrix ill conditioned, cannot compute standard errors" - это что значит?
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
DoctorStat
сообщение 23.12.2008 - 13:57
Сообщение #14





Группа: Пользователи
Сообщений: 377
Регистрация: 18.08.2008
Из: Москва Златоглавая
Пользователь №: 5224



Цитата(Solo... @ 23.12.2008 - 12:54) *
Я думаю, что это из за того, что нет данных во всех ячейках, черт бы их побрал.
Обычная логистическая регрессия в SPSS и Statistica не работает с пропущенными данными. Нужно искать более продвинутые методы.


Signature
Просто включи мозги => http://doctorstat.narod.ru
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Solo...
сообщение 23.12.2008 - 14:15
Сообщение #15





Группа: Пользователи
Сообщений: 35
Регистрация: 3.10.2008
Из: Москва
Пользователь №: 5369



Цитата(DoctorStat @ 23.12.2008 - 13:57) *
Обычная логистическая регрессия в SPSS и Statistica не работает с пропущенными данными. Нужно искать более продвинутые методы.


Как это не работает? Если попарно считать - т.е. в одно окошко Var - вносить результат, а в другое окошко Var - вносить один признак, то все считает.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 

3 страниц V   1 2 3 >
Добавить ответ в эту темуОткрыть тему