Здравствуйте, гость ( Вход | Регистрация )
8.09.2010 - 22:48
Сообщение
#1
|
|
|
Группа: Пользователи Сообщений: 3 Регистрация: 8.09.2010 Пользователь №: 22728 |
Здравствуйте,
хотелось бы обратиться за помощью к профессионалам. Для исследования применяется бимодальная логистическая регрессия. Зависимая переменная - приверженность либо уход клиента, 3 группы приверженности клиентов, независимых переменных 7: шесть принимают значение от 0 до 2, а одна переменная от 0 до 16; выборка из более 23 тыс. наблюдений. Независимые переменные - мероприятия, в которых участвует клиент. Задача:1) определить влияние каждого мероприятия на верность/неверность клиента внутри каждой группы, т.е. структуру связей, 2) составить оптимальный набор мероприятий, которые позволят "сохранить" клиента, а также обеспечивать его переход в более выгодную группу. Анализ усложнен несбалансированностью верных/неверных внутри каждой группы. 2 подхода было использовано: 1) коррекция коэффициентов с учетом привалентности "положительных", 2) оценка модели по ROC кривой без пересчета коэффициентов. Для каждой группы были найдены odds-ratio для значимых независимых переменных. Значимых мероприятий не более 2-3 из 7-ми. Вдобавок есть стоимость участия клиента в каждом мероприятии. Посоветуйте, пожалуйста, какой метод использовать, чтобы составить оптимальный набор мероприятий для каждой группы "верности" клиентов, таким образом, зафиксировать бюджет на следующий год. Деревья решений не дали результата. Большое спасибо за внимание. |
|
|
![]() |
![]() |
![]() |
9.09.2010 - 11:54
Сообщение
#2
|
|
|
Группа: Пользователи Сообщений: 1325 Регистрация: 27.11.2007 Пользователь №: 4573 |
А каков характер переменных, что такое мероприятия? Это их количество (0-2) или - не дали шарик (0), дали зеленый (1), дали красный (2). Или - не дали конфетку (0), дали немного (1), дали много (2).
|
|
|
![]() |
![]() |
9.09.2010 - 12:11
Сообщение
#3
|
|
|
Группа: Пользователи Сообщений: 3 Регистрация: 8.09.2010 Пользователь №: 22728 |
Cпасибо за интерес. Вы правы. Независимые переменные - количество каждого мероприятия.
Спасибо заранее. Сообщение отредактировал gerata - 9.09.2010 - 21:02 |
|
|
![]() |
![]() |
9.09.2010 - 21:28
Сообщение
#4
|
|
|
Группа: Пользователи Сообщений: 1325 Регистрация: 27.11.2007 Пользователь №: 4573 |
Прежде чем советовать другие методы, нужно все же разобраться с логистической регрессией.
Не понятно, что дала логистическая регрессия и как она проводилась. У вас так много данных, что не нужно их все использовать для создания модели, на оставшейся части можно проверять модель. У вас задача найти интервал значений переменных достаточный для того чтобы вероятность остаться верным клиентом вас устраивала. Так посчитайте эту вероятность при различных значениях предикторов. Логистическая регрессия дает вам такую возможность. Отсортируйте полученные значения вероятности и посмотрите, какие сочетания значений переменных дают необходимые значения. Например, проведение одного мероприятий максимально значимого типа в сочетании с 2-мя менее значимым и с еще 2-мя менее значимым обеспечивают вероятность верности 0,85, а проведение дополнительно 10 занятий последнего типа повышает вероятность до 0,95. А если ничего не проводить, то вероятность верности составит 0,20. Но рассматривайте свои переменные не как количественные, а как категориальные и используйте контрасты. Statistica для этого не годится, там нужно делать бинарные переменные из категориальных, например 0 и альтернатива 1+2 или 0+1 и 2. |
|
|
![]() |
![]() |
9.09.2010 - 23:16
Сообщение
#5
|
|
|
Группа: Пользователи Сообщений: 3 Регистрация: 8.09.2010 Пользователь №: 22728 |
Спасибо за ответ.
Да, действительно, выборка большая. Часть данных использовалась для обучения, а другая - для тестирования. В таблице сопряженности отсутствуют истинно позитивные и ложно позитивные, даже при попытке улучшить модель методом cross-validation и bootstrap. Альтернатива - ROC кривая и auc. При построении модели независиммые переменные были continuous: 1) 0 1 0 0 0 1 12 ушел ......................... п) 0 1 0 1 0 0 15 верный Хотелось бы уточнить способ перекодировки переменных. После трансформации они должны принять вид: 2 1 ушел 6 1 ушел 7 12 ушел 2 1 верный 4 1 верный 7 15 верный? или иксы выразить dummy variable? Посоветуйте, пожалуйста, программу. У меня в арсенали MedCalc (скачано, следуя советам участников этого форума) и Minitab. Может, у Вас есть ссылка на статью, где применен подобный метод? Так хочется дойти до сути. |
|
|
![]() |
![]() |
10.09.2010 - 00:20
Сообщение
#6
|
|
|
Группа: Пользователи Сообщений: 1325 Регистрация: 27.11.2007 Пользователь №: 4573 |
Так хочется дойти до сути. Начните с названия метода, бинарная, не бимодальная. Не ясно кого вы называете истинно и ложно положительными, которых нет у вас в таблице. Сколько у вас совпадений "верных " расчетных и наблюдаемых, и "ушедших" расчетных и наблюдаемых? У вас же есть значимые факторы. |
|
|
![]() |
![]() |
10.09.2010 - 09:58
Сообщение
#7
|
|
|
Группа: Пользователи Сообщений: 1325 Регистрация: 27.11.2007 Пользователь №: 4573 |
Для начала вы можете сделать все мероприятия бинарными и посмотреть влияют ли они вообще, а потом решать вопрос с оптимальным количеством их проведения. Для этого MedCalc подойдет. А работа с категориальными переменными есть в SPSS.
|
|
|
![]() |
![]() |
12.09.2010 - 10:11
Сообщение
#8
|
|
|
Группа: Пользователи Сообщений: 3 Регистрация: 12.09.2010 Пользователь №: 22731 |
Помогите, пожалуйста, а то у меня уже истерика. Скачала Biostat, по-моему, 2008. С помощью анализа соряженности 2х2 хочу узнать результат ДВУСТОРОННЕГО критерия Фишера, а мне в строке точного критерия Фишеравыдается значние только одностороннего критерия, который не знаю как интерпретировать. Как получить результат двустороннего критерия Фишера. Заранее благодарю.
|
|
|
![]() |
![]() |
12.09.2010 - 10:32
Сообщение
#9
|
|
![]() Группа: Пользователи Сообщений: 1162 Регистрация: 10.04.2007 Пользователь №: 4040 |
Помогите, пожалуйста, а то у меня уже истерика. Скачала Biostat, по-моему, 2008. С помощью анализа соряженности 2х2 хочу узнать результат ДВУСТОРОННЕГО критерия Фишера, а мне в строке точного критерия Фишеравыдается значние только одностороннего критерия, который не знаю как интерпретировать. Как получить результат двустороннего критерия Фишера. Заранее благодарю. Немного не по теме. Если модератор перенесет данный и предыдущий пост, это было бы желательно. Теперь по сути вопроса. Сначала - не "одностороннего критерия", а значимость односторонней гипотезы. Если кратко, сперва рассмотрим гипотезы. Пусть имеются некоторые параметры A и B двух совокупностей. Нулевая гипотеза всегда A = B. Альтернативные гипотезы бывают: 1. Односторонняя: A < B. Ее достигаемый уровень значимости PU. Нулевая гипотеза отклоняется, если (1-PU) < Альфа. 2. Односторонняя: A > B. Ее достигаемый уровень значимости PL. Нулевая гипотеза отклоняется, если PL < Альфа. 3. Двусторонняя: A не равно B. Ее достигаемый уровень значимости P2. Нулевая гипотеза отклоняется, если P2 < Альфа. Здесь уровень значимости Альфа задается из стандартной линейки 0,1...0,01...0,05...0,001 Всегда P2=PU+PL. Если распределение статистики критерия симметричное, то PU=PL и достигаемый уровень значимости двусторонней гипотезы P2=PU+PL=2*PU=2*PL. Для точного метода Фишера распределение статистики критерия несимметричное, поэтому, как и в предыдущем случае P2=PU+PL и все. Чтобы вычислить двустороннее значение, необходимо знать оба односторонних. Если Ваша программа этого делать не умеет (а это не умеют делать многие программы), нужно просто взять программу, которая это умеет. Сообщение отредактировал Игорь - 12.09.2010 - 16:58 ![]() Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!
|
|
|
![]() |
![]() |
12.09.2010 - 13:26
Сообщение
#10
|
|
|
Группа: Пользователи Сообщений: 3 Регистрация: 12.09.2010 Пользователь №: 22731 |
Игорь, простите, но я ничего не поняла из вашего сообщения. Приведу пример.
Из 18 VEGF+ опухолей - 11 случаев с эффектом, 7 - без эффекта Из 4 VEGF- опухолей - 4 случая с эффектом, 0 - без эффекта Хочу узнать достоверно ли это различие в группах. |
|
|
![]() |
![]() |
12.09.2010 - 14:09
Сообщение
#11
|
|
![]() Группа: Пользователи Сообщений: 1162 Регистрация: 10.04.2007 Пользователь №: 4040 |
Хочу узнать достоверно ли это различие в группах. P одностороннее 0,1866 P двустороннее 0,2632 Недостоверно Сообщение отредактировал Игорь - 13.09.2010 - 18:46 ![]() Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!
|
|
|
![]() |
![]() |
12.09.2010 - 14:41
Сообщение
#12
|
|
|
Группа: Пользователи Сообщений: 3 Регистрация: 12.09.2010 Пользователь №: 22731 |
возможно мне получить такие же данные с помощью Biostat 2009. Если да, то подскажите, пожалуйста, как? при анализе сопряженности 2х2 могу получить только p одностороннее
|
|
|
![]() |
![]() |
12.09.2010 - 16:00
Сообщение
#13
|
|
![]() Группа: Пользователи Сообщений: 1162 Регистрация: 10.04.2007 Пользователь №: 4040 |
возможно мне получить такие же данные с помощью Biostat 2009... Видимо, никак. ![]() Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!
|
|
|
![]() |
![]() |
12.09.2010 - 16:16
Сообщение
#14
|
|
|
Группа: Пользователи Сообщений: 1325 Регистрация: 27.11.2007 Пользователь №: 4573 |
А в AtteStat в каком модуле точный тест Фишера?
|
|
|
![]() |
![]() |
12.09.2010 - 16:17
Сообщение
#15
|
|
|
Группа: Пользователи Сообщений: 1013 Регистрация: 4.10.2006 Пользователь №: 1933 |
Помогите, пожалуйста, а то у меня уже истерика. Игорь прав, лучше создавать отдельную ветку, а не писать в ту, что сейчас является первой. Это первое. Второе - ввиду гигантского количества различных программ, которые делают вид, что помогают обрабатывать данные вопросы в форуме типа "Как это сделать в ХХХстат" обычно игнорируются - с такими вопросами надо обращаться к разработчикам. На форуме обычно идут ответы по поводу использования более-менее известных профессиональных или полупрофессиональных систем (SPSS, Statistica, R, SAS, Stata, S-plus), либо специально разработанных для лиц, которым тяжело пользоваться профессиональными системами (AtteStat). В последнем случае помогает и то, что разработчик также присутствует на форуме. Хочу заметить, что моя фраза "игнорируются" не должна трактоваться как запрет на задание таких вопросов - может быть, кто-то из форумчан на него и ответит, но лучше, просмотрев форум разобраться в том, какие системы здесь более популярны. P.S. Чтобы мое сообщение не выглядело как оффтоп, приведу ответ на вопрос с точки зрения SAS Код: data new; input VEGF eff count; cards; 1 1 11 1 0 7 0 1 4 0 0 0 ; proc freq; weight count; tables VEGF*eff/fisher; RUN; Результат: Двусторонняя вероятность 0,2632 И на R: > fisher.test(matrix(c(11,7,4,0),byrow=TRUE,nrow=2)) Fisher's Exact Test for Count Data data: matrix(c(11, 7, 4, 0), byrow = TRUE, nrow = 2) p-value = 0.2632 alternative hypothesis: true odds ratio is not equal to 1 95 percent confidence interval: 0.000000 3.189217 sample estimates: odds ratio 0 |
|
|
![]() |
![]() |
![]() ![]() |