Сравниваем две группы пациентов по итогам оценки с помощью порядковой шкалы (0 - признак не выражен, 1 - минимально выражен, 2 - сильно выражен), имеющей более 40 переменных. Применённый критерий Краскела-Уоллиса показывает значимость различий по каждой из сорока переменных. ROC-анализ показывает, что классификатор хороший. Но такая методика слишком большая и нужно оставить не более десяти самых сильных переменных, которые к тому же позволят наилучшим образом предсказать наступление события (бинарная классификация).
Подскажите пожалуйста как в настоящее время принято решать такую задачу? Логистическая регрессия?
ogurtsov
26.12.2015 - 19:15
Начните с логистической регрессии с регуляризацией, а именно с лассо-регрессии. Так подберете модель, в которой будет ровно 10 предикторов.
Или, еще проще: stepwise selection с последовательным включением предикторов. Но нужно помнить, что это "жадный" алгоритм.
Вообще отбор предикторов и выбор наилучшей модели с точки зрения производительности на тестовых данных - это две разные задачи.
Пробою осваивать логистическую регрессию в SPSS. Методика (количественная переменная) которую использовал самостоятельно до регрессии показала хорошую дискриминативную способность (AUC=0,72, диагностическая точность в лучшей точке 0,74). Хочу улучшить. Добавил туда три фактора: два дихотомических (кодировка: 0 - нет вредности, 1 - вредность есть) и одну порядковую (0-нет вреднсти, 1 - небольшая вредность, 2 - большая вредность). Выходит, чем больше цифра в любой из использованных переменных тем больше вероятность события. Регрессия показала, что процент корректных увеличился до 82%. Вместе с тем коэффициенты (В) у константы и двух дихотомических переменных отрицательные (?). Далее всё вставил в уравнение регрессии и получил вероятности события. Получив расчетное значение вероятности для каждого объекта, использовал её как переменную для построения ROC. Так вот, ROC стала гораздо хуже, даже хуже чем результаты методики без дополнительных переменных (AUC=0,60). Подскажите пожалуйста, где допущена ошибка?
ogurtsov
13.02.2016 - 17:48
Цитата(малой @ 13.02.2016 - 17:29)

Пробою осваивать логистическую регрессию в SPSS. Методика (количественная переменная) которую использовал самостоятельно до регрессии показала хорошую дискриминативную способность (AUC=0,72, диагностическая точность в лучшей точке 0,74). Хочу улучшить. Добавил туда три фактора: два дихотомических (кодировка: 0 - нет вредности, 1 - вредность есть) и одну порядковую (0-нет вреднсти, 1 - небольшая вредность, 2 - большая вредность). Выходит, чем больше цифра в любой из использованных переменных тем больше вероятность события. Регрессия показала, что процент корректных увеличился до 82%. Вместе с тем коэффициенты (В) у константы и двух дихотомических переменных отрицательные (?). Далее всё вставил в уравнение регрессии и получил вероятности события. Получив расчетное значение вероятности для каждого объекта, использовал её как переменную для построения ROC. Так вот, ROC стала гораздо хуже, даже хуже чем результаты методики без дополнительных переменных (AUC=0,60). Подскажите пожалуйста, где допущена ошибка?
Вы бы запостили какие-то данные (можно фейковые, но соответствующие реальным по структуре и по типу восстанавливаемой зависимости), тогда можно будет понять, в чем проблема.
ogurtsov
13.02.2016 - 18:16
Цитата(малой @ 13.02.2016 - 18:12)

В каком лучше формате?
В .csv или .txt, где строки - наблюдения, столбцы - переменные, первая строка - названия переменных. Разделитель - точка с запятой или табуляция.
Хотя можно и просто в икселевском файле .xlsx
ogurtsov
13.02.2016 - 21:27
На скорую руку сделал в R сравнение двух моделей: с одним предиктором (методика) и со всеми сразу.
Все закономерно, AUC увеличивается при добавлении предикторов, т.е. качество классификатора растет. Сделано без кросс-валидации и тестовой выборки, просто для проверки. Если в SPSS получается иначе, значит, что-то не так делаете.
з.ы. Лучше под спойлер данные убрать
Код
[spoiler]Этот текст будет замаскирован[/spoiler]
ogurtsov
13.02.2016 - 21:29
Нечаянный дубль сообщения.
Спасибо. Буду искать ошибку
Думаю у меня где-то ошибка в формуле. Начал пересчитывать примеры на этом сайте, так получается и там не сходится -
http://www.datuapstrade.lv/rus/spss/section_16/4/
Цитата(малой @ 14.02.2016 - 21:07)

Думаю у меня где-то ошибка в формуле. Начал пересчитывать примеры на этом сайте, так получается и там не сходится -
http://www.datuapstrade.lv/rus/spss/section_16/4/В этом примере все сходится. Аж противно.
P.S. Вы, это.. того... поаккуратнее, что-ли. А то у разработчиков СПСС скакнет давление.
)) Не. Пересчитайте не то, что в таблицах а то, что уже в формуле для расчета вероятностей для каждого события.
Цитата(малой @ 14.02.2016 - 22:52)

)) Не. Пересчитайте не то, что в таблицах а то, что уже в формуле для расчета вероятностей для каждого события.
Ох, Малой, Малой... Намучаюсь я тут с вами.
1) 1/(1+exp(-1.018))=.735
2) 1/(1+exp(-1.126))=.755
3) 1/(1+exp(-2.032))=.884
По моим понятиям - все путем. Вот только на вашем втором рисунке уважаемые авторы, комментирующие результаты расчетов, вместо 2,032 (-14,645+,201*72+2,205*1=2,032) в формуле написали 1,018. Ну не без этого.
)))) exp=2,72?
P.S. Уж извините, пожалуйста, что достаю))
Цитата(малой @ 26.12.2015 - 18:55)

Сравниваем две группы пациентов по итогам оценки с помощью порядковой шкалы (0 - признак не выражен, 1 - минимально выражен, 2 - сильно выражен), имеющей более 40 переменных. Применённый критерий Краскела-Уоллиса показывает значимость различий по каждой из сорока переменных. ROC-анализ показывает, что классификатор хороший. Но такая методика слишком большая и нужно оставить не более десяти самых сильных переменных, которые к тому же позволят наилучшим образом предсказать наступление события (бинарная классификация).
Подскажите пожалуйста как в настоящее время принято решать такую задачу? Логистическая регрессия?
Слушайте, я тут что-то ничего не пойму. Вы измеряете у пациента некий признак, имеющий 3 градации. Здесь нет никакого бинарного отклика. Стандартный метод работы с такой красотой -
модели упорядоченного выбораИ зачем применять Краскела с Уоллисом для двух групп пациентов?
И как это горемычные Краскел с Уоллисом показывают значимость различий по
каждой (каждой, Карл!)) из 40 переменных? 40 достигаемых уровней значимости?
Цитата
)))) exp=2,72?
P.S. Уж извините, пожалуйста, что достаю))
Действительно, достал)
А шо такое есть exp=2,72? Вольный перевод шумеро-аккадской клинописи?
У меня exp(-2.032)=.131073 ergo 1/1,131073=,884.
ogurtsov
15.02.2016 - 07:10
Отклик здесь бинарный: наступление события, и две группы пациентов - это оно же. Шкала имеет кучу вопросов, по каждому три градации - варианты ответов, это все предикторы. Я так расшифровал
Цитата(ogurtsov @ 15.02.2016 - 07:10)

Отклик здесь бинарный: наступление события, и две группы пациентов - это оно же. Шкала имеет кучу вопросов, по каждому три градации - варианты ответов, это все предикторы. Я так расшифровал

Всё верно
p2004r
15.02.2016 - 11:35
Цитата(малой @ 26.12.2015 - 18:55)

Сравниваем две группы пациентов по итогам оценки с помощью порядковой шкалы (0 - признак не выражен, 1 - минимально выражен, 2 - сильно выражен), имеющей более 40 переменных. Применённый критерий Краскела-Уоллиса показывает значимость различий по каждой из сорока переменных. ROC-анализ показывает, что классификатор хороший. Но такая методика слишком большая и нужно оставить не более десяти самых сильных переменных, которые к тому же позволят наилучшим образом предсказать наступление события (бинарная классификация).
Подскажите пожалуйста как в настоящее время принято решать такую задачу? Логистическая регрессия?
Для этого используют специальные процедуры отбора информативных переменных, например основанные на бутстрепе см.
https://m2.icm.edu.pl/boruta/ .
Все эти велосипеды до добра не доведут.
PS последняя 5я версия очень быстрая и хорошо исполняется многопоточно.
Цитата(малой @ 15.02.2016 - 07:57)

Всё верно
Т.е. два набора из 0 и 1 вы сравниваете Краскелом - Уоллисом? И так 40 раз?
DrgLena
15.02.2016 - 14:02
Замечание для изучающий логистическую регрессию. Действительно, в качестве предикторов могут использоваться и количественные и бинарные и ранговые переменные. В случае последних нужно найти коэффициенты в количестве n-1 , где n число градаций. Т.о. для предиктора, принимающего значения 0, 1 и 2 не может быть использован один коэффициент, как для количественной переменной
Цитата(100$ @ 15.02.2016 - 12:21)

Т.е. два набора из 0 и 1 вы сравниваете Краскелом - Уоллисом? И так 40 раз?
Два набора, каждый из 0, 1 и 2 по каждой переменной и того 40 операций. Из них 17 оказались значимых, которые потом взял в матрицу для ФА.
Цитата(DrgLena @ 15.02.2016 - 14:02)

Замечание для изучающий логистическую регрессию. Действительно, в качестве предикторов могут использоваться и количественные и бинарные и ранговые переменные. В случае последних нужно найти коэффициенты в количестве n-1 , где n число градаций. Т.о. для предиктора, принимающего значения 0, 1 и 2 не может быть использован один коэффициент, как для количественной переменной
В SPSS это заложено. Или я ошибаюсь ?
ogurtsov
15.02.2016 - 20:53
Цитата(малой @ 15.02.2016 - 19:06)

В SPSS это заложено. Или я ошибаюсь ?
"Это" заложено в самом понятии линейной модели. Она выражается как свободный член и n-1 коэффициентов, если в качестве предиктора выступает фактор с n уровнями. Т.е. переменная отклика представляется в виде взвешенной суммы предикторов, где веса - это те самые коэффициенты. А "взвешивать" в случае категориальных предикторов можно только саму принадлежность наблюдения к той или иной группе (=уровню фактора). Поэтому используются dummy variables, они же фиктивные переменные, со значениями 0 или 1.
Цитата(малой @ 26.12.2015 - 18:55)

Применённый критерий Краскела-Уоллиса показывает значимость различий по каждой из сорока переменных.
Цитата
Два набора, каждый из 0, 1 и 2 по каждой переменной и того 40 операций. Из них 17 оказались значимых, которые потом взял в матрицу для ФА.
Что-то вы путаетесь в показаниях...
DrgLena
15.02.2016 - 23:57
Цитата(малой @ 15.02.2016 - 20:06)

В SPSS это заложено. Или я ошибаюсь ?
Ошибаетесь, если работаете с ранговой переменной, как с количественной. Сделайте правильный выбор типа переменной в программе и оцените "вес" каждой градации. В оценке вероятности в некоторых переменных будут важны градации "0", а в каких то "2", вы же получили коэффициеты с разными знаками. Перед проведением логистической регрессии полезно посмотреть таблицы сопряженности 2х3 после чего часть ранговых переменных могут быть редуцированы до бинарных без потери информации и с ними будет легче работать, кроме того полезно посмотреть и корреляцию предикторов между собой.
DrgLena
16.02.2016 - 00:02
Цитата(малой @ 15.02.2016 - 20:05)

Два набора, каждый из 0, 1 и 2 по каждой переменной и того 40 операций. Из них 17 оказались значимых, которые потом взял в матрицу для ФА.
Матрица для ФА это что? Вы изучаете какой анализ?
Цитата(100$ @ 15.02.2016 - 23:19)

Что-то вы путаетесь в показаниях...
Там всё трохи сложнее. Там три группы сначала было. Между ними все 40 переменных различались. Потом осталось две. Поэтому так.
Цитата(DrgLena @ 16.02.2016 - 00:02)

Матрица для ФА это что? Вы изучаете какой анализ?
Факторный анализ. Потом вношу что получилось в регрессию.
Скажите плиз а когда ранговые переменные (0,1,2), формируют уже методику где семь ранговых пунктов и соответственно баллов в ней от 0 до 14. Эта полученная новая переменная перестает быть ранговой и становится количественной?
p2004r
16.02.2016 - 10:06
Цитата(малой @ 16.02.2016 - 08:07)

Факторный анализ. Потом вношу что получилось в регрессию.
Скажите плиз а когда ранговые переменные (0,1,2), формируют уже методику где семь ранговых пунктов и соответственно баллов в ней от 0 до 14. Эта полученная новая переменная перестает быть ранговой и становится количественной?
ну вот есть результат prcomp(data), что и куда из него вы дальше заносите?
Давайте тогда обрисую актуальную картину на теперешний момент. Есть методика оценивающая риск суицида. Она состоит из 20 пунктов (чем больше балл, тем больше риск суицида), каждый пункт ранговый: 0,1,2 (выраженность признака). Раньше было 2 методики по 20 пунктов но одну из них из-за разногласий с авторами пришлось убрать.
Оставшуюся методику мы её пробуем на отечественной группе лиц с определенным диагнозом для оценки риска повторного суицида. Набрали три группы человек: группа с повторными суицидами, группа с однократными суицидами и группа без суицидов вообще.
Взяли Краскела - Уоллиса и просмотрели, что по суммарному баллу все группы различаются. Самостоятельная значимость (есть различия) определяется только у семи пунктов.
Альфа всей методики и одной подшкалы "достаточная", других подшкал "плохая". Далее мы провели ФА всей методики (20 пунктов). Все самостоятельно значимые пункты объединяет в один фактор и альфа в нем "хорошая". Выделяется ещё факторы, их можно интерпретировать, но в них альфа "плохая". Дисперсия у всех получается плохая (у первого фактора 25%). Тогда подбором начали исключать переменные и оказалось, что при исключении всех переменных не обладающих собственной значимостью (Краскела - Уоллиса) методика преобразовалась в двухфакторную с хорошими альфами, хорошей дисперсией и интерпретацией.
Далее мы третью группу без попыток суицида совсем оставляем, так как оцениваем риск повторности. Остается группа с повторными суицидами и с одиночными. И теперь у нас две методики. Изначальная (20 пунктов) и её двухфакторная модификация (7 пунктов).
Проводим ROC-анализ, который говорит, что обе методики хороши в прогнозе повторности суицида (AUC более 0,7), у факторной модификации он почти 0,8.
Далее мы пытаемся улучшить прогностичность уже полученной факторной модификации и добавляем в её две качественные и одну порядковую переменную посредствам регрессии. SPSS хвалит такое решение и выдает улучшенный прогноз и данные для формулы. Далее вставляем все данные и в формулу и получаем для каждого человека прогноз.
Но когда вставляем выходные данные из полученных формул в ROC, то получается, что AUC стал хуже чем был (0,6).
Вот такой вот велосипед )))
Цитата(малой @ 16.02.2016 - 14:30)

Давайте тогда обрисую актуальную картину на теперешний момент. Есть методика оценивающая риск суицида. Она состоит из 20 пунктов (чем больше балл, тем больше риск суицида), каждый пункт ранговый: 0,1,2 (выраженность признака). Раньше было 2 методики по 20 пунктов но одну из них из-за разногласий с авторами пришлось убрать.
Оставшуюся методику мы её пробуем на отечественной группе лиц с определенным диагнозом для оценки риска повторного суицида. Набрали три группы человек: группа с повторными суицидами, группа с однократными суицидами и группа без суицидов вообще.
Взяли Краскела - Уоллиса и просмотрели, что по суммарному баллу все группы различаются. Самостоятельная значимость (есть различия) определяется только у семи пунктов.
Альфа всей методики и одной подшкалы "достаточная", других подшкал "плохая". Далее мы провели ФА всей методики (20 пунктов). Все самостоятельно значимые пункты объединяет в один фактор и альфа в нем "хорошая". Выделяется ещё факторы, их можно интерпретировать, но в них альфа "плохая". Дисперсия у всех получается плохая (у первого фактора 25%). Тогда подбором начали исключать переменные и оказалось, что при исключении всех переменных не обладающих собственной значимостью (Краскела - Уоллиса) методика преобразовалась в двухфакторную с хорошими альфами, хорошей дисперсией и интерпретацией.
Далее мы третью группу без попыток суицида совсем оставляем, так как оцениваем риск повторности. Остается группа с повторными суицидами и с одиночными. И теперь у нас две методики. Изначальная (20 пунктов) и её двухфакторная модификация (7 пунктов).
Проводим ROC-анализ, который говорит, что обе методики хороши в прогнозе повторности суицида (AUC более 0,7), у факторной модификации он почти 0,8.
Далее мы пытаемся улучшить прогностичность уже полученной факторной модификации и добавляем в её две качественные и одну порядковую переменную посредствам регрессии. SPSS хвалит такое решение и выдает улучшенный прогноз и данные для формулы. Далее вставляем все данные и в формулу и получаем для каждого человека прогноз.
Но когда вставляем выходные данные из полученных формул в ROC, то получается, что AUC стал хуже чем был (0,6).
Вот такой вот велосипед )))
Может быть, вам лучше повозиться с моделью пропорциональных рисков Кокса?
p2004r
16.02.2016 - 22:53
Цитата(малой @ 16.02.2016 - 14:30)

Давайте тогда обрисую актуальную картину на теперешний момент. Есть методика оценивающая риск суицида. Она состоит из 20 пунктов (чем больше балл, тем больше риск суицида), каждый пункт ранговый: 0,1,2 (выраженность признака). Раньше было 2 методики по 20 пунктов но одну из них из-за разногласий с авторами пришлось убрать.
Оставшуюся методику мы её пробуем на отечественной группе лиц с определенным диагнозом для оценки риска повторного суицида. Набрали три группы человек: группа с повторными суицидами, группа с однократными суицидами и группа без суицидов вообще.
Взяли Краскела - Уоллиса и просмотрели, что по суммарному баллу все группы различаются. Самостоятельная значимость (есть различия) определяется только у семи пунктов.
Альфа всей методики и одной подшкалы "достаточная", других подшкал "плохая". Далее мы провели ФА всей методики (20 пунктов). Все самостоятельно значимые пункты объединяет в один фактор и альфа в нем "хорошая". Выделяется ещё факторы, их можно интерпретировать, но в них альфа "плохая". Дисперсия у всех получается плохая (у первого фактора 25%). Тогда подбором начали исключать переменные и оказалось, что при исключении всех переменных не обладающих собственной значимостью (Краскела - Уоллиса) методика преобразовалась в двухфакторную с хорошими альфами, хорошей дисперсией и интерпретацией.
Далее мы третью группу без попыток суицида совсем оставляем, так как оцениваем риск повторности. Остается группа с повторными суицидами и с одиночными. И теперь у нас две методики. Изначальная (20 пунктов) и её двухфакторная модификация (7 пунктов).
Проводим ROC-анализ, который говорит, что обе методики хороши в прогнозе повторности суицида (AUC более 0,7), у факторной модификации он почти 0,8.
Далее мы пытаемся улучшить прогностичность уже полученной факторной модификации и добавляем в её две качественные и одну порядковую переменную посредствам регрессии. SPSS хвалит такое решение и выдает улучшенный прогноз и данные для формулы. Далее вставляем все данные и в формулу и получаем для каждого человека прогноз.
Но когда вставляем выходные данные из полученных формул в ROC, то получается, что AUC стал хуже чем был (0,6).
Вот такой вот велосипед )))
1. Помимо AUC есть Йоудена критерий, который учитывает по крайней мере частоту исходов в популяции реальную (например неравный размер групп), так что "не AUC едимым" (вполне можно придумать такую форму ROC которая будет иметь меньшую площадь и лучший результат для конкретного решения

.
2. Просто все закидываем в Boruta и получаем набор доказанных бутстрепом значимых для решения показателей. Уже их взаимодействие можно рассматривать PCA и всякими методами восстанавливающими причинно-следственные связи. Иначе слишком много ручной работы и негарантированный результат.
Как можно игнорировать специальные методы отбора переменных в пользу велосипеда?
Может хоть немного меня оправдает то, что все переменные взяты из узконаправленных специализированных методик, которые прошли многократные стат. проверки. Дайте пожалуйста ссылочки на Boruta и модель Кокса "для чайников".
Цитата(малой @ 16.02.2016 - 23:15)

Может хоть немного меня оправдает то, что все переменные взяты из узконаправленных специализированных методик, которые прошли многократные стат. проверки. Дайте пожалуйста ссылочки на Boruta и модель Кокса "для чайников".
Регрессия Кокса
DrgLena
17.02.2016 - 12:02
Из робко сформулированной цели все же ясно, что данные собраны не для ответа на вопрос о времени наступления повторной попытки, т.е. нет времени начала наблюдения и даты попытки, что необходимо для регрессии Кокса. Необходимо просто проанализировать стандартные психиатрические шкалы в определенной когорте больных, чтобы предложить диагностическое правило для лиц с высокой вероятностью повторного суицида. Стандартные шкалы имеют конкретный набор вопросов и 2 или 3 варианта ответов, может быть и больше. Как правило, оценка проводится тупо по сумме набранных по всем элементам шкалы баллов. Так, например, в России проверялась шкала HCL32 и оптимальной точкой разделения для двух состояний БАРII и РДР (малой поймет) также,как и в других европейских странах отределена сумма по 32 вопросам >14, (испотльзован ROCанализ). Адаптация другой шкалы для других психиатрических задач в наших условиях заключалась в том, что часть вопросов для наших подростков были не актуальны, редко были положительные ответы например на вопрос часто ли вы водите машину в пьяном виде, поскольку наши подростки не имеют прав, но отсутствие отца в семье явился весьма значимым фактором риска у подростков имеющий попытки. Адаптация шкалы может заключаться в том, что часть вопросов могут быть заменены другими, а также в том, что может быть проведено "взвешивание" каждого элемента шкалы и предложить использовать сумму после взвешивания.
p2004r
17.02.2016 - 12:40
Цитата(малой @ 16.02.2016 - 23:15)

Может хоть немного меня оправдает то, что все переменные взяты из узконаправленных специализированных методик, которые прошли многократные стат. проверки. Дайте пожалуйста ссылочки на Boruta и модель Кокса "для чайников".
Уже несколько раз приводил:
https://m2.icm.edu.pl/boruta/Свежая 5я версия многопоточна и очень быстра.
Оказывается, что spss сама считает и вероятности после логистической регрессии))
Вероятности вставил в ROC и модель ожидаемо улучшилась. Но когда решил вручную посчитать вероятность для одного из пациентов, то не выходит чего-то. Может кто-нить подскажет, что не так.
Набор переменных для конкретного пациента:
методика, дихотомX (0,1), дихотомY (0,1), порядковая (0,1,2)
15, 0, 1, 2
Если все переменные вбивать как количественные, то spss выдает коэффициенты :
В (методика) = 0,274
В (дихотомХ)= 0,926
В (дихотомY)= 1,104
В (порядковая) = 0,830
В (константа) = - 3,837
получается следующее уравнение:
Z =0,274*15+0,926*0+1,104*1+0,830*2-3,837= 3,037
exp(-3.037)=0,048 ergo 1/1,048=0,953
SPSS тоже так посчитала вероятность = 0,953. Всё сошлось.
Теперь с этим же набором данных вводим последних три переменных как нужно, то есть категориальными и получаем коэффициенты:
В (методика) = -0,286
В (1) (дихотомХ)= 0,871
В (1) (дихотомY)= 1,191
В (1) (порядковая) = 1,921
В (2) (порядковая) = 1,642
В (константа) = - 0,077
Z = -0,286*15+0*0+1,191*1+1,642*2-0,077= -0,585
exp(0.585)=1.791 ergo 1/2,791=0,358
А вот SPSS посчитала, что должна вероятность быть 0,97044. И это правильно. Скажите пожалуйста, что я сделал не так в ручном подсчете?
Цитата(малой @ 20.02.2016 - 22:38)

Теперь с этим же набором данных вводим последних три переменных как нужно, то есть категориальными и получаем коэффициенты:
В (методика) = -0,286
В (1) (дихотомХ)= 0,871
В (1) (дихотомY)= 1,191
В (1) (порядковая) = 1,921
В (2) (порядковая) = 1,642
В (константа) = - 0,077
Z = -0,286*15+0*0+1,191*1+1,642*2-0,077= -0,585 Двойка!
exp(0.585)=1.791 ergo 1/2,791=0,358
А вот SPSS посчитала, что должна вероятность быть 0,97044. И это правильно. Скажите пожалуйста, что я сделал не так в ручном подсчете?
Завтра в школу с родителями
Уже 100 раз пересчитал, и с родителями тоже))
Не получается цифра как в spss. Подскажите уже плиз двоечнику ))
Дайте списать ))
Цитата(малой @ 21.02.2016 - 06:58)

Уже 100 раз пересчитал, и с родителями тоже))
Не получается цифра как в spss. Подскажите уже плиз двоечнику ))
Дайте списать ))
Так а где коэффициенты ,871*??? + 1,921*???
Даже в приведенном выражении -,585 никак не получается. Получается ,108.
ogurtsov
21.02.2016 - 13:38
Цитата(100$ @ 21.02.2016 - 14:13)

Так а где коэффициенты ,871*??? + 1,921*???
Даже в приведенном выражении -,585 никак не получается. Получается ,108.
Если значения факторов равны нулю для этого пациента, то коэффициенты и не нужны.
Если же они не равны нулю, а просто пропущены в расчетах, то получается уже что-то похожее на результат из SPSS, но все равно не совпадает.
Цитата(ogurtsov @ 21.02.2016 - 13:38)

Если значения факторов равны нулю для этого пациента, то коэффициенты и не нужны.
Если же они не равны нулю, а просто пропущены в расчетах, то получается уже что-то похожее на результат из SPSS, но все равно не совпадает.
Для дихотомической переменной ДихотомХ с коэффициентом ,871 это может быть так, а вот для порядковой с коэф-том 1,921 - уж извините.
И вообще, если уж выкладываешь расчет на всеобщее оборзение, то будь добр, запиши его secundum artem. Собственно, об этом и пост был.
Там где коэффициент 0,871 значение переменной 0, а где коэффициент 1,921 то значение переменной 2 и поэтому используется коэффициент 1,642.
ogurtsov
21.02.2016 - 14:16
Цитата(малой @ 21.02.2016 - 15:13)

Там где коэффициент 0,871 значение переменной 0, а где коэффициент 1,921 то значение переменной 2 и поэтому используется коэффициент 1,642.
Значит, продолжим гадать на кофейной гуще.
Категориальная с тремя уровнями фактора - это две дихотомические. Дихотомические - это 0 или 1. 2 там быть не может, т.е. коэффициенты всегда множатся или на 1, или на 0.
Набор переменных для пациента:
методика значение - 15, дихотомX (измеряется 0,1) у неё значение 0, дихотомY (измеряется 0,1) у неё значение 1, порядковая ( измеряется 0,1,2) её значение 2.
Теперь коэффициенты:
В (методика) = -0,286
В (1) (дихотомХ)= 0,871
В (1) (дихотомY)= 1,191
В (1) (порядковая) = 1,921
В (2) (порядковая) = 1,642
В (константа) = - 0,077
Цитата(100$ @ 21.02.2016 - 13:55)

Для дихотомической переменной ДихотомХ с коэффициентом ,871 это может быть так, а вот для порядковой с коэф-том 1,921 - уж извините.
И вообще, если уж выкладываешь расчет на всеобщее оборзение, то будь добр, запиши его secundum artem. Собственно, об этом и пост был.
Да, там очень крутая переменная - судимости ))
Что значит Secundum Artem?
DrgLena
21.02.2016 - 17:34
А можно первичные данные предоставить по этим переменным, а то я вижу только решение огурцова. Как то все не ясно. Если включается крутая переменная то коэффициент к ней должен быть меньше единицы, а OR соответственно больше единицы. Если, конечно, верно кодируется целевая переменная, болезни или повторной попытки нет "0", есть "1" и соответственно рассчитывается веротяность "1". Давно ручками ничего не считали. Просьба к изучающему логистическую регрессию малому, предоставить таблицу сопряженности бинарного отклика и ранговой переменной "судимость". В этом случае будет легче объяснить как вам сможет помочь SPSS с логистической регрессией.
Спасибо. Напишите пожалуйста свою почту