Форум врачей-аспирантов > оптимальные условия - установление количественного интервала для независиммых переменных

Помощь - Поиск - Пользователи - Календарь

Полная версия этой страницы: оптимальные условия - установление количественного интервала для независиммых переменных

Форум врачей-аспирантов > Разделы форума > Медицинская статистика

gerata

8.09.2010 - 22:48

Здравствуйте,

хотелось бы обратиться за помощью к профессионалам.
Для исследования применяется бимодальная логистическая регрессия.
Зависимая переменная - приверженность либо уход клиента, 3 группы приверженности клиентов, независимых переменных 7: шесть принимают значение от 0 до 2, а одна переменная от 0 до 16; выборка из более 23 тыс. наблюдений. Независимые переменные - мероприятия, в которых участвует клиент.

Задача:1) определить влияние каждого мероприятия на верность/неверность клиента внутри каждой группы, т.е. структуру связей, 2) составить оптимальный набор мероприятий, которые позволят "сохранить" клиента, а также обеспечивать его переход в более выгодную группу.

Анализ усложнен несбалансированностью верных/неверных внутри каждой группы. 2 подхода было использовано: 1) коррекция коэффициентов с учетом привалентности "положительных", 2) оценка модели по ROC кривой без пересчета коэффициентов.

Для каждой группы были найдены odds-ratio для значимых независимых переменных. Значимых мероприятий не более 2-3 из 7-ми.

Вдобавок есть стоимость участия клиента в каждом мероприятии.

Посоветуйте, пожалуйста, какой метод использовать, чтобы составить оптимальный набор мероприятий для каждой группы "верности" клиентов, таким образом, зафиксировать бюджет на следующий год.

Деревья решений не дали результата.

Большое спасибо за внимание.

DrgLena

9.09.2010 - 11:54

А каков характер переменных, что такое мероприятия? Это их количество (0-2) или - не дали шарик (0), дали зеленый (1), дали красный (2). Или - не дали конфетку (0), дали немного (1), дали много (2).

gerata

9.09.2010 - 12:11

Cпасибо за интерес. Вы правы. Независимые переменные - количество каждого мероприятия.
Спасибо заранее.

DrgLena

9.09.2010 - 21:28

Прежде чем советовать другие методы, нужно все же разобраться с логистической регрессией.

Не понятно, что дала логистическая регрессия и как она проводилась. У вас так много данных, что не нужно их все использовать для создания модели, на оставшейся части можно проверять модель.

У вас задача найти интервал значений переменных достаточный для того чтобы вероятность остаться верным клиентом вас устраивала. Так посчитайте эту вероятность при различных значениях предикторов. Логистическая регрессия дает вам такую возможность. Отсортируйте полученные значения вероятности и посмотрите, какие сочетания значений переменных дают необходимые значения. Например, проведение одного мероприятий максимально значимого типа в сочетании с 2-мя менее значимым и с еще 2-мя менее значимым обеспечивают вероятность верности 0,85, а проведение дополнительно 10 занятий последнего типа повышает вероятность до 0,95. А если ничего не проводить, то вероятность верности составит 0,20.
Но рассматривайте свои переменные не как количественные, а как категориальные и используйте контрасты. Statistica для этого не годится, там нужно делать бинарные переменные из категориальных, например 0 и альтернатива 1+2 или 0+1 и 2.

gerata

9.09.2010 - 23:16

Спасибо за ответ.
Да, действительно, выборка большая. Часть данных использовалась для обучения, а другая - для тестирования. В таблице сопряженности отсутствуют истинно позитивные и ложно позитивные, даже при попытке улучшить модель методом cross-validation и bootstrap. Альтернатива - ROC кривая и auc.

При построении модели независиммые переменные были continuous:

1) 0 1 0 0 0 1 12 ушел
.........................
п) 0 1 0 1 0 0 15 верный

Хотелось бы уточнить способ перекодировки переменных. После трансформации они должны принять вид:
2 1 ушел
6 1 ушел
7 12 ушел
2 1 верный
4 1 верный
7 15 верный?

или иксы выразить dummy variable?
Посоветуйте, пожалуйста, программу. У меня в арсенали MedCalc (скачано, следуя советам участников этого форума) и Minitab.

Может, у Вас есть ссылка на статью, где применен подобный метод?
Так хочется дойти до сути.

DrgLena

10.09.2010 - 00:20

Цитата(gerata @ 9.09.2010 - 23:16)

Так хочется дойти до сути.

Начните с названия метода, бинарная, не бимодальная.
Не ясно кого вы называете истинно и ложно положительными, которых нет у вас в таблице. Сколько у вас совпадений "верных " расчетных и наблюдаемых, и "ушедших" расчетных и наблюдаемых? У вас же есть значимые факторы.

DrgLena

10.09.2010 - 09:58

Для начала вы можете сделать все мероприятия бинарными и посмотреть влияют ли они вообще, а потом решать вопрос с оптимальным количеством их проведения. Для этого MedCalc подойдет. А работа с категориальными переменными есть в SPSS.

kamilla

12.09.2010 - 10:11

Помогите, пожалуйста, а то у меня уже истерика. Скачала Biostat, по-моему, 2008. С помощью анализа соряженности 2х2 хочу узнать результат ДВУСТОРОННЕГО критерия Фишера, а мне в строке точного критерия Фишеравыдается значние только одностороннего критерия, который не знаю как интерпретировать. Как получить результат двустороннего критерия Фишера. Заранее благодарю.

Игорь

12.09.2010 - 10:32

Цитата(kamilla @ 12.09.2010 - 10:11)

Немного не по теме. Если модератор перенесет данный и предыдущий пост, это было бы желательно.

Теперь по сути вопроса. Сначала - не "одностороннего критерия", а значимость односторонней гипотезы.

Если кратко, сперва рассмотрим гипотезы. Пусть имеются некоторые параметры A и B двух совокупностей. Нулевая гипотеза всегда A = B. Альтернативные гипотезы бывают:
1. Односторонняя: A < B. Ее достигаемый уровень значимости PU. Нулевая гипотеза отклоняется, если (1-PU) < Альфа.
2. Односторонняя: A > B. Ее достигаемый уровень значимости PL. Нулевая гипотеза отклоняется, если PL < Альфа.
3. Двусторонняя: A не равно B. Ее достигаемый уровень значимости P2. Нулевая гипотеза отклоняется, если P2 < Альфа.

Здесь уровень значимости Альфа задается из стандартной линейки 0,1...0,01...0,05...0,001

Всегда P2=PU+PL.

Если распределение статистики критерия симметричное, то PU=PL и достигаемый уровень значимости двусторонней гипотезы P2=PU+PL=2*PU=2*PL.

Для точного метода Фишера распределение статистики критерия несимметричное, поэтому, как и в предыдущем случае P2=PU+PL и все. Чтобы вычислить двустороннее значение, необходимо знать оба односторонних. Если Ваша программа этого делать не умеет (а это не умеют делать многие программы), нужно просто взять программу, которая это умеет.

kamilla

12.09.2010 - 13:26

Игорь, простите, но я ничего не поняла из вашего сообщения. Приведу пример.

Из 18 VEGF+ опухолей - 11 случаев с эффектом, 7 - без эффекта
Из 4 VEGF- опухолей - 4 случая с эффектом, 0 - без эффекта

Хочу узнать достоверно ли это различие в группах.

Игорь

12.09.2010 - 14:09

Цитата(kamilla @ 12.09.2010 - 13:26)

Хочу узнать достоверно ли это различие в группах.

P одностороннее 0,1866
P двустороннее 0,2632
Недостоверно

kamilla

12.09.2010 - 14:41

возможно мне получить такие же данные с помощью Biostat 2009. Если да, то подскажите, пожалуйста, как? при анализе сопряженности 2х2 могу получить только p одностороннее

Игорь

12.09.2010 - 16:00

Цитата(kamilla @ 12.09.2010 - 14:41)

возможно мне получить такие же данные с помощью Biostat 2009...

Видимо, никак.

DrgLena

12.09.2010 - 16:16

А в AtteStat в каком модуле точный тест Фишера?

плав

12.09.2010 - 16:17

Цитата(kamilla @ 12.09.2010 - 11:11)

Помогите, пожалуйста, а то у меня уже истерика.

Игорь прав, лучше создавать отдельную ветку, а не писать в ту, что сейчас является первой. Это первое.
Второе - ввиду гигантского количества различных программ, которые делают вид, что помогают обрабатывать данные вопросы в форуме типа "Как это сделать в ХХХстат" обычно игнорируются - с такими вопросами надо обращаться к разработчикам. На форуме обычно идут ответы по поводу использования более-менее известных профессиональных или полупрофессиональных систем (SPSS, Statistica, R, SAS, Stata, S-plus), либо специально разработанных для лиц, которым тяжело пользоваться профессиональными системами (AtteStat). В последнем случае помогает и то, что разработчик также присутствует на форуме.
Хочу заметить, что моя фраза "игнорируются" не должна трактоваться как запрет на задание таких вопросов - может быть, кто-то из форумчан на него и ответит, но лучше, просмотрев форум разобраться в том, какие системы здесь более популярны.

P.S. Чтобы мое сообщение не выглядело как оффтоп, приведу ответ на вопрос с точки зрения SAS
Код:
data new;
input VEGF eff count;
cards;
1 1 11
1 0 7
0 1 4
0 0 0
;
proc freq;
weight count;
tables VEGF*eff/fisher;
RUN;

Результат:
Двусторонняя вероятность 0,2632

И на R:
> fisher.test(matrix(c(11,7,4,0),byrow=TRUE,nrow=2))

Fisher's Exact Test for Count Data

data: matrix(c(11, 7, 4, 0), byrow = TRUE, nrow = 2)
p-value = 0.2632
alternative hypothesis: true odds ratio is not equal to 1
95 percent confidence interval:
0.000000 3.189217
sample estimates:
odds ratio
0

Игорь

13.09.2010 - 18:47

Цитата(DrgLena @ 12.09.2010 - 16:16)

А в AtteStat в каком модуле точный тест Фишера?

В одноименном - "Точные критерии". Там еще критерий Барнарда есть. Интересно с познавательной точки зрения.

DrgLena

13.09.2010 - 22:01

Спасибо, это был наводящий вопрос, для Kamilla, вряд ли ей помогут коды на SAS или R

sayrus

15.09.2010 - 06:15

Весьма просто Фишера (и много другое) можно посчитать на http://faculty.vassar.edu/lowry/odds2x2.html
Проверял результаты расчета по SPSS - совпадает.

Для просмотра полной версии этой страницы, пожалуйста, пройдите по ссылке.