Помощь - Поиск - Пользователи - Календарь
Полная версия этой страницы: spss17
Форум врачей-аспирантов > Разделы форума > Медицинская статистика
_alena_
всем привет! ребята подскажите пожалуйста что мне почитать / посмотреть по логит и пробит регрессии, а также дискриминантному анализу??? что как вводить понятно. не понятно что за таблицы выводятся и как ими оперировать... кое что читала но пока не хватает... спасибо!
nokh
Цитата(_alena_ @ 22.01.2012 - 23:11) *
всем привет! ребята подскажите пожалуйста что мне почитать / посмотреть по логит и пробит регрессии, а также дискриминантному анализу??? что как вводить понятно. не понятно что за таблицы выводятся и как ими оперировать... кое что читала но пока не хватает... спасибо!

По дискриминантному анализу отличное введение в метод есть в книге "Факторный, дискриминантный и кластерный анализ" - наберите в поиске, она давно есть в сети. По пробит-анализу нужно смотреть относительно старые книги, т.к. сейчас он практически полностью вытеснился логистической регрессией и остался только в токсикологии и радиобиологии - где рассчитывают LC50 и LD50, ну или другие точки на зависимостях типа "доза-эффект". Проще погуглить - там есть примеры. Ссылки на кое-какие книги, в т.ч. с описанием логистической регрессии можно найти на форуме сообщества SPSS: http://ru-spss.livejournal.com/ . Там же можно задать другие вопросы по данному пакету, в т.ч. авторам учебных пособий. А вообще, пожалуй лучшее на мой взгляд пособие по методам, имеющимся в SPSS для исследователя-практика лежит здесь и не имеет аналогов на русском: http://faculty.chass.ncsu.edu/garson/PA765/statnote.htm
_alena_
спасибо!
возможно кто то может подсказать.... есть база с данными о больных (анамнез,предоперационные, операционные, и после операционные параметры). хочу узнать какие данные мне из этой всей базы лучше всего брать для анализа... например вляние их на исход или осложнение. если я правильно понимаю для начала их нужно проверить на корреляцию?? что если у меня из скажем 100 переменных имеют сильную связь только до 10... правильно ли я использую методы по Спирмену и Кендала, если у меня большинство переменных номинальные и порядковые. можно ли их применять одновременно? и если есть колличественные переменные то отдельно для них по Пирсону расчитывать корреляцию???
p2004r
Цитата(_alena_ @ 1.02.2012 - 09:35) *
возможно кто то может подсказать.... есть база с данными о больных (анамнез,предоперационные, операционные, и после операционные параметры). хочу узнать какие данные мне из этой всей базы лучше всего брать для анализа... например вляние их на исход или осложнение. если я правильно понимаю для начала их нужно проверить на корреляцию?? что если у меня из скажем 100 переменных имеют сильную связь только до 10... правильно ли я использую методы по Спирмену и Кендала, если у меня большинство переменных номинальные и порядковые. можно ли их применять одновременно? и если есть колличественные переменные то отдельно для них по Пирсону расчитывать корреляцию???


Сначала можно посмотреть на такие различные данные например с помощью многомерного шкалирования. Посмотреть как целевые исход или осложнения не включенные в анализ распределяются в редуцированном пространстве. Если что то интересное заметить получится то можно пытаться строить модели.
_alena_
я не могу разобраться со шкалированием weep.gif в книге ничего не нахожу
для начала мне нужно выбрать ряд переменных для которых потом применять лог.регресию... вы советуете мне начать со шкалирования многомерного?(proxscal или alscal)? или я вообще не туда лезу?
я в alscal выбрала ряд переменных и задала инд.матрицу для исхода к примеру.выбрала вычислить расстояния по данным...а что мне выводит не понимаю...
p2004r
Цитата(_alena_ @ 4.02.2012 - 17:03) *
я не могу разобраться со шкалированием weep.gif в книге ничего не нахожу
для начала мне нужно выбрать ряд переменных для которых потом применять лог.регресию... вы советуете мне начать со шкалирования многомерного?(proxscal или alscal)? или я вообще не туда лезу?
я в alscal выбрала ряд переменных и задала инд.матрицу для исхода к примеру.выбрала вычислить расстояния по данным...а что мне выводит не понимаю...


В результате шкалирования Вы получите например 2 или больше (надо смотреть на график дисперсии приходящейся на последовательно выделяемые шкалы) искусственных переменных отображающих большую часть ковариации своих данных. Постройте картинку по этим двум переменным а размером или цветом точек на этом графике закодируйте например исходы. Если Вы глазами видите что есть некая закономерность и/или возможность выделить или разделить различные исходы то можно выбрать соответствующую модель (смотря из чего образовались шкалы по которым идет разделение исходов) для той же логрегресии.

Можно конечно вслепую действовать, начав с полной модели перебирать переменные ориентируясь на AIK, но это как то очень уж механистично. smile.gif

PS то что вижу по гуглу (ну и логика подсказывает smile.gif, пишут что надо сохранить результат MDS и потом строить графики.
_alena_
Цитата(p2004r @ 4.02.2012 - 16:37) *
В результате шкалирования Вы получите например 2 или больше (надо смотреть на график дисперсии приходящейся на последовательно выделяемые шкалы) искусственных переменных отображающих большую часть ковариации своих данных. Постройте картинку по этим двум переменным а размером или цветом точек на этом графике закодируйте например исходы. Если Вы глазами видите что есть некая закономерность и/или возможность выделить или разделить различные исходы то можно выбрать соответствующую модель (смотря из чего образовались шкалы по которым идет разделение исходов) для той же логрегресии.

Можно конечно вслепую действовать, начав с полной модели перебирать переменные ориентируясь на AIK, но это как то очень уж механистично. smile.gif

PS то что вижу по гуглу (ну и логика подсказывает smile.gif, пишут что надо сохранить результат MDS и потом строить графики.

вы уж меня простите.... я только начала изучать SPSS. вопросов больше чем ответов. как бы да понятно что построив графики я смогу какие то переменные взять для моделей лог регрессии и дискриминантного анализа. но я как то не поняла вообще что вы написали... если можно более детально по пунктам или пример какой то примитивный... а то у меня получились значения расскиданные по квадрантам. а что с ними делать и как их интерпретировать - ума не хватает...
_alena_
Цитата(p2004r @ 4.02.2012 - 16:37) *
PS то что вижу по гуглу (ну и логика подсказывает smile.gif, пишут что надо сохранить результат MDS и потом строить графики.

и это к чему было сказано? что то я вообще запуталась(((
_alena_
и еще несколько примитивных вопросов. чтобы уже я наконец покончила себя терзать сомнениями правильно сделала или нет. - можно ли кодировать следующим образом: перенес вмешательство на сердце - нет/да как 0/1?? а то мне сказали что в спсс нельзя ноликами кодировать. в продолжение этого вопроса - если ответ да/нет то переменная задается как порядковая или как номинальная??? мне сказали что как порядковая типа нет хуже чем да поэтому...
p2004r
Цитата(_alena_ @ 4.02.2012 - 19:35) *
и еще несколько примитивных вопросов. чтобы уже я наконец покончила себя терзать сомнениями правильно сделала или нет. - можно ли кодировать следующим образом: перенес вмешательство на сердце - нет/да как 0/1?? а то мне сказали что в спсс нельзя ноликами кодировать. в продолжение этого вопроса - если ответ да/нет то переменная задается как порядковая или как номинальная??? мне сказали что как порядковая типа нет хуже чем да поэтому...


если признак есть то 1 если признака нет 0

если на самом деле признаков несколько, а они закодированы в одной переменной то вполне правильно их будет разнести по таким вот элементарным 0-1 переменным.

Номинальная - это шкала наименований. У Вас есть группа объектов имеющих некое общее свойство. По этому свойству все что можно сделать дать название. Эквивалентна ей комбинация шкал порядковых вырожденных в 0-1. На каждое наименование свойства номинальной шкалы своя шкала 0-1.
p2004r
Цитата(_alena_ @ 4.02.2012 - 19:15) *
и это к чему было сказано? что то я вообще запуталась(((


1)ну допустим у Вас 100 случаев (по каждому есть куча параметров, причем параметры которые мы хотим предсказывать не включены в эту кучу)

2) результат шкалирования таблица из 100 случаев только теперь в ней вместо 100 осталось совсем немного параметров (два три , точно количество можно определить в ходе шкалирования)

3) строим график по например первым двум параметрам полученным в ходе шкалирования. в графике размер точек-случаев (или цвет) берем из параметра который хотим предсказать.

4) внимательно смотрим на этот график. Ищем глазами есть ли группировка естественная или зависимость какая в цвете размере точек случаев от их размещения.

как то так.
p2004r
Цитата(_alena_ @ 4.02.2012 - 19:13) *
вы уж меня простите.... я только начала изучать SPSS. вопросов больше чем ответов. как бы да понятно что построив графики я смогу какие то переменные взять для моделей лог регрессии и дискриминантного анализа. но я как то не поняла вообще что вы написали... если можно более детально по пунктам или пример какой то примитивный... а то у меня получились значения расскиданные по квадрантам. а что с ними делать и как их интерпретировать - ума не хватает...


мда.... ну тогда пихайте все параметры в лог регрессию и считайте AIK. Это будет "полная модель". Исключайте переменные по одной и смотрите модель у которой будет минимум AIK. Повторяйте для неё исключение переменных с расчетом AIK. И так до момента пока не дойдете до минимума AIK. Это модель с наилучшим прогностическим потенциалом.

Можно заранее выделить случайным образом пару десятков случаев для контрольной группы. На ней проверить насколько предсказания модели устойчивы.

PS а в какое пространство минимальное упаковались данные после шкалирования?
_alena_
Цитата(p2004r @ 5.02.2012 - 10:33) *
ну тогда пихайте все параметры в лог регрессию и считайте AIK.

что такое AIK??? я поначалу так и делала. все параметры что болеем менее по моему мнению могли мне подойти запихивала в логрегрессию и методом условного исключения мне оставляло набор каких то переменных. мне подсказали что прежде чем это делать стоит провести корреляцию и посмотреть связь с зависимой переменной. теперь после такого возник вопрос - не должны ли после лог регрессии остаться те переменные что и при корелляции имеют сильную связь? правильно ли будет если те переменные что получились при корреляции засунуть в лог регрессию и делать из них модель?

вот вы дальше говорили о исключении переменных, тоесть мне сделать как я делала (построить модель с помощью условного исключения, запихнув туда все переменные), а потом убирать по одной любой абсолютно переменной и смотреть какие переменные остануться? или как???
простите что задаю столь глупые вопросы!
относительно шкалирования - высылаю файлик может вы сможете его прокомментировать, а то я вообще там ниче не понимаю...
p2004r
Цитата(_alena_ @ 5.02.2012 - 20:43) *
относительно шкалирования - высылаю файлик может вы сможете его прокомментировать, а то я вообще там ниче не понимаю...


Вы наверное забыли прикрепить файл.
p2004r
Цитата(_alena_ @ 5.02.2012 - 20:43) *
что такое AIK??? я поначалу так и делала. все параметры что болеем менее по моему мнению могли мне подойти запихивала в логрегрессию и методом условного исключения мне оставляло набор каких то переменных. мне подсказали что прежде чем это делать стоит провести корреляцию и посмотреть связь с зависимой переменной. теперь после такого возник вопрос - не должны ли после лог регрессии остаться те переменные что и при корелляции имеют сильную связь? правильно ли будет если те переменные что получились при корреляции засунуть в лог регрессию и делать из них модель?

вот вы дальше говорили о исключении переменных, тоесть мне сделать как я делала (построить модель с помощью условного исключения, запихнув туда все переменные), а потом убирать по одной любой абсолютно переменной и смотреть какие переменные остануться? или как???
простите что задаю столь глупые вопросы!
относительно шкалирования - высылаю файлик может вы сможете его прокомментировать, а то я вообще там ниче не понимаю...


1) это я начал писать по русски и потом "перевел" smile.gif конечно AIC http://ru.wikipedia.org/wiki/%D0%98%D0%BD%...%B8%D0%BA%D0%B5

2) связи с зависимой переменной лучше всего смотреть в пространстве построенном с помощью шкалирования.

3) с исключением какая логика --- Вы строите ряд моделей и смотрите у которой меньше AIC, набор переменных в модели можно или полным перебором строить или смотреть на оценки параметров входящих в уже построенную модель (те у которых p ниже всего можно исключать).

Если параметров очень много можно действовать обратным способом включая переменные в модель. Начать с ряда моделей в каждой из которых одна переменная. Потом отобрав те параметры которые лучше всего объясняют данные объединить их в одну модель. К ней добавить по одной оставшиеся невключенными показатели. Ну и все время следить за AIC как только он перестанет падать значит оптимальная модель построена.

Итоговую модель надо исследовать на эффективность (например ROC)
_alena_
файлик
_alena_
Цитата(p2004r @ 5.02.2012 - 20:15) *
Если параметров очень много можно действовать обратным способом включая переменные в модель. Начать с ряда моделей в каждой из которых одна переменная. Потом отобрав те параметры которые лучше всего объясняют данные объединить их в одну модель. К ней добавить по одной оставшиеся невключенными показатели. Ну и все время следить за AIC как только он перестанет падать значит оптимальная модель построена.


параметров много. тоесть мне брать к примеру первый из интересующих меня параметр, скажем влияние поступления (первично/повторно) на исход (выжил умер) и смотреть значение р при лог регрессии, дискриминантном анализе при корреляции??? или о каких моделях идет речь?
если так то мне тогда так сделать по всем переменным по одному а потом в конце что наиболее подойдет запихнуть в лог регрессию и пусть она из того еще исключит часть переменных?
_alena_
а про АIC я все равно не поняла((( даже почитав... в книгах читала что важным является или р или хи-квадрат frown.gif и R2
p2004r
Цитата(_alena_ @ 5.02.2012 - 21:22) *
файлик


Вы построили пространство из 2х шкал по расстояниям между 99 переменным. фактически оно в таблице на 39й странице.

Что бы посмотреть нет ли связи с целевыми переменными, лучше построить пространство по расстояниям между наблюдениями. И посмотреть куда попадают те 10 случаев исхода. Если они образуют компактную группу (даже в перемешк с другими случаями), то можно надеяться что может быть построена модель для вероятности исходов.

Если анализировать все таки в пространстве переменных то надо туда же добавить и ishod. Те кто рядом с ней окажутся ведут себя так же.

Конечно 10 случаев откровенно маловато.

Может сами данные присоедините виде таблицы или csv? можно было бы посмотреть их подробнее. А то из ворда выковыривать результаты трудновато.
p2004r
Цитата(_alena_ @ 5.02.2012 - 21:57) *
параметров много. тоесть мне брать к примеру первый из интересующих меня параметр, скажем влияние поступления (первично/повторно) на исход (выжил умер) и смотреть значение р при лог регрессии, дискриминантном анализе при корреляции??? или о каких моделях идет речь?
если так то мне тогда так сделать по всем переменным по одному а потом в конце что наиболее подойдет запихнуть в лог регрессию и пусть она из того еще исключит часть переменных?


Да 99 это многовато smile.gif Модель может быть любой, это не влияет на процедуру её оценки.

Ну значит на первом шаге строите 99 моделей (каждая по одной переменной) лог регрессии с целевой переменной исход. Отбираете те из них у которых меньший AIC. Объединяете их пошагово (сначала те переменные которые дали модели с наименьшим AIC) в одну модель, при каждом добавлении смотрите на получившийся AIC. Как только AIC перестал уменьшаться модель получена.
p2004r
Цитата(_alena_ @ 5.02.2012 - 21:59) *
а про АIC я все равно не поняла((( даже почитав... в книгах читала что важным является или р или хи-квадрат frown.gif и R2


мало того что бы модель идеально подходила к данным, важно чтобы она что то могла предсказать. если у Вас 10 точек и полином высокой степени который проходит через все 10 точек то прогностическая сила равно 0 с вероятность 99,9%.

критерий Акаике учитывает и точность подгонки модели и ее сложность. В случае полинома он смог бы помочь выбрать оптимальную степень полинома для этих 10 экспериментальных точек. чтобы для 11й точки предсказание было наилучшим.
_alena_
Цитата(p2004r @ 5.02.2012 - 21:33) *
Ну значит на первом шаге строите 99 моделей (каждая по одной переменной) лог регрессии с целевой переменной исход.


тоесть если я правильно вас поняла - запускаю лог регресию и по одной переменной перебираю все подряд методом принудительного включения??? а как непосредственно в логрегрессии мне определять AIC? его нужно вручную считать или потом в двухэтапном кластерном анализе???

Цитата(p2004r @ 5.02.2012 - 21:33) *
Отбираете те из них у которых меньший AIC. Объединяете их пошагово (сначала те переменные которые дали модели с наименьшим AIC) в одну модель, при каждом добавлении смотрите на получившийся AIC.

имеется в виду уже например методом исключения загнать все оставшиеся и посмотреть или снова по несколько подбирать???
p2004r
Цитата(_alena_ @ 6.02.2012 - 09:17) *
а как непосредственно в логрегрессии мне определять AIC? его нужно вручную считать или потом в двухэтапном кластерном анализе???


вот что люди говорят

http://spssx-discussion.1045642.n5.nabble....-td3209580.html

http://www.talkstats.com/showthread.php/13...stic-Regression

PS мда, в R все процедуры как то сами считают. вот что значит "люди для людей делали" smile.gif
p2004r
Цитата(_alena_ @ 6.02.2012 - 09:17) *
тоесть если я правильно вас поняла - запускаю лог регресию и по одной переменной перебираю все подряд методом принудительного включения???


имеется в виду уже например методом исключения загнать все оставшиеся и посмотреть или снова по несколько подбирать???


1) да

2) да, оставшиеся загонять постепенно усложняя модель, посматривая на AIC
Для просмотра полной версии этой страницы, пожалуйста, пройдите по ссылке.
Форум IP.Board © 2001-2025 IPS, Inc.