Версия для печати темы

Нажмите сюда для просмотра этой темы в обычном формате

Форум врачей-аспирантов _ Медицинская статистика _ Как правильно провести регрессию

Автор: alina.K 8.06.2018 - 14:18

Подскажите, мне пожалуйста, моя задача больше из экономики ,но мне все равно нужна помощь.
имеются данные по покупкам.
Количество покупок -зависимая переменная, независимая это была ли стимуляция(акции, скидки, смс реклама). 1-была, 0 - не была. (нужно оценить эффект стимуляции)
пример такого набора

Код
покупки    стимуляции
13,58453126    0
15,94705844    0
16,53769023    0
17,12832203    0
18,01426972    0
18,01426972    0
18,30958561    0
18,60490151    1
18,90021741    1
19,19553331    1
19,7861651    1
20,67211279    1
22,73932407    1
24,21590355    1


в данном наборе 14 наблюдений, 7 с нулем и 7 с единицей.

вопрос заключается в следующем
бывают магазины, где была всего одна стимуляция или 2

ну на этом же наборе,пример
покупки стимуляции
13,58453126 0
15,94705844 0
16,53769023 0
17,12832203 0
18,01426972 0
18,01426972 0
18,30958561 0
18,60490151 0
18,90021741 0
19,19553331 0
19,7861651 0
20,67211279 0
22,73932407 0
24,21590355 1

Имею ли я право на таком наборе данных проводить регрессию, или если в связи с тем что в предикторе 13 нулей и 1 единица этого делать нельзя, т.е. магазины с таким распределением в предикторе удалять из анализа?
второй вопрос какое минимальное соотношение единиц и нулей должно быть в предикторе чтобы можно проводить регрессию?
например минимум три единицы и 7 нулей к примеру

Можно ли как-то балансировать выборку ,если дела совсем плохи, например две единицы и 5 нулей?




Автор: passant 8.06.2018 - 22:14

Ой какая каша....
Ну давайте разбираться, что же вы написали и как это перевести (понять).
1. Количество покупок. ОК. Что такое количество покупок, например, 18 и еще восемь знаков в дроби после запятой? Ну не могу я себе даже три с половиной покупки представить, а тут 18,01426972 покупок.
2. Вы хотите найти зависимость количественных данных от номинальных? Т.е. построить РЕГРЕССИЮ, в которой два возможные значения независимой переменной и бесконечное множество значений зависимой? Ну картинку-то хоть нарисуйте, посмотрите, что получиться.
3. ОК. Предположим, построили. Регрессионная модель строиться для того, что-бы потом, задав не встречавшееся в обучающей выборке значение независимой переменной найти значение зависимой. А какое у вас может быть "не встречавшееся" значение вашей независимой переменной? Может стоит разобраться, надо-ли вам регрессия, или все-таки задача стоит иначе?
4. Предположу, что на самом деле вы решаете задачу определения корреляции между значением "стимуляции" и "количество покупок". Ну так для этого своя группа методов существует. Между прочим, в вашем маркетинге, откуда скорее всего взята задача, есть т.н. A/B тестирование. Посмотрите внимательно, может узнаете свою задачу?
5. Про одну-две стимуляции вообще ничего не понял. Написано одно, пример - совсем другое. В каком магазине была одна стимуляция? в каком - две? И где это видно?
6. Да, по несбалансированным данным (например - 1 значение "1" и полтора десятков нулей) ни один из полученных результатов статистически значимым (осмысленным) не будет.
7. А вообще-то по вашему первому примеру никакого исследования проводить не надо, и так видно, что стимуляция ведет к росту продаж. Ну можете еще, если очень хочется "ящик с усами" нарисовать :-)

Форум Invision Power Board (http://www.invisionboard.com)
© Invision Power Services (http://www.invisionpower.com)