Форум врачей-аспирантов

Здравствуйте, гость ( Вход | Регистрация )

 
Добавить ответ в эту темуОткрыть тему
> Как правильно провести регрессию
alina.K
сообщение 8.06.2018 - 14:18
Сообщение #1


Дух форума
*

Группа: Пользователи
Сообщений: 7
Регистрация: 3.02.2018
Пользователь №: 30923



Подскажите, мне пожалуйста, моя задача больше из экономики ,но мне все равно нужна помощь.
имеются данные по покупкам.
Количество покупок -зависимая переменная, независимая это была ли стимуляция(акции, скидки, смс реклама). 1-была, 0 - не была. (нужно оценить эффект стимуляции)
пример такого набора

Код
покупки    стимуляции
13,58453126    0
15,94705844    0
16,53769023    0
17,12832203    0
18,01426972    0
18,01426972    0
18,30958561    0
18,60490151    1
18,90021741    1
19,19553331    1
19,7861651    1
20,67211279    1
22,73932407    1
24,21590355    1


в данном наборе 14 наблюдений, 7 с нулем и 7 с единицей.

вопрос заключается в следующем
бывают магазины, где была всего одна стимуляция или 2

ну на этом же наборе,пример
покупки стимуляции
13,58453126 0
15,94705844 0
16,53769023 0
17,12832203 0
18,01426972 0
18,01426972 0
18,30958561 0
18,60490151 0
18,90021741 0
19,19553331 0
19,7861651 0
20,67211279 0
22,73932407 0
24,21590355 1

Имею ли я право на таком наборе данных проводить регрессию, или если в связи с тем что в предикторе 13 нулей и 1 единица этого делать нельзя, т.е. магазины с таким распределением в предикторе удалять из анализа?
второй вопрос какое минимальное соотношение единиц и нулей должно быть в предикторе чтобы можно проводить регрессию?
например минимум три единицы и 7 нулей к примеру

Можно ли как-то балансировать выборку ,если дела совсем плохи, например две единицы и 5 нулей?



Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
passant
сообщение 8.06.2018 - 22:14
Сообщение #2


Дух форума
*

Группа: Пользователи
Сообщений: 118
Регистрация: 27.04.2016
Пользователь №: 28223



Ой какая каша....
Ну давайте разбираться, что же вы написали и как это перевести (понять).
1. Количество покупок. ОК. Что такое количество покупок, например, 18 и еще восемь знаков в дроби после запятой? Ну не могу я себе даже три с половиной покупки представить, а тут 18,01426972 покупок.
2. Вы хотите найти зависимость количественных данных от номинальных? Т.е. построить РЕГРЕССИЮ, в которой два возможные значения независимой переменной и бесконечное множество значений зависимой? Ну картинку-то хоть нарисуйте, посмотрите, что получиться.
3. ОК. Предположим, построили. Регрессионная модель строиться для того, что-бы потом, задав не встречавшееся в обучающей выборке значение независимой переменной найти значение зависимой. А какое у вас может быть "не встречавшееся" значение вашей независимой переменной? Может стоит разобраться, надо-ли вам регрессия, или все-таки задача стоит иначе?
4. Предположу, что на самом деле вы решаете задачу определения корреляции между значением "стимуляции" и "количество покупок". Ну так для этого своя группа методов существует. Между прочим, в вашем маркетинге, откуда скорее всего взята задача, есть т.н. A/B тестирование. Посмотрите внимательно, может узнаете свою задачу?
5. Про одну-две стимуляции вообще ничего не понял. Написано одно, пример - совсем другое. В каком магазине была одна стимуляция? в каком - две? И где это видно?
6. Да, по несбалансированным данным (например - 1 значение "1" и полтора десятков нулей) ни один из полученных результатов статистически значимым (осмысленным) не будет.
7. А вообще-то по вашему первому примеру никакого исследования проводить не надо, и так видно, что стимуляция ведет к росту продаж. Ну можете еще, если очень хочется "ящик с усами" нарисовать :-)


Сообщение отредактировал passant - 9.06.2018 - 00:22
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 

Добавить ответ в эту темуОткрыть тему