Как правильно провести регрессию |
Здравствуйте, гость ( Вход | Регистрация )
Как правильно провести регрессию |
8.06.2018 - 14:18
Сообщение
#1
|
|
Группа: Пользователи Сообщений: 12 Регистрация: 3.02.2018 Пользователь №: 30923 |
Подскажите, мне пожалуйста, моя задача больше из экономики ,но мне все равно нужна помощь.
имеются данные по покупкам. Количество покупок -зависимая переменная, независимая это была ли стимуляция(акции, скидки, смс реклама). 1-была, 0 - не была. (нужно оценить эффект стимуляции) пример такого набора Код покупки стимуляции 13,58453126 0 15,94705844 0 16,53769023 0 17,12832203 0 18,01426972 0 18,01426972 0 18,30958561 0 18,60490151 1 18,90021741 1 19,19553331 1 19,7861651 1 20,67211279 1 22,73932407 1 24,21590355 1 в данном наборе 14 наблюдений, 7 с нулем и 7 с единицей. вопрос заключается в следующем бывают магазины, где была всего одна стимуляция или 2 ну на этом же наборе,пример покупки стимуляции 13,58453126 0 15,94705844 0 16,53769023 0 17,12832203 0 18,01426972 0 18,01426972 0 18,30958561 0 18,60490151 0 18,90021741 0 19,19553331 0 19,7861651 0 20,67211279 0 22,73932407 0 24,21590355 1 Имею ли я право на таком наборе данных проводить регрессию, или если в связи с тем что в предикторе 13 нулей и 1 единица этого делать нельзя, т.е. магазины с таким распределением в предикторе удалять из анализа? второй вопрос какое минимальное соотношение единиц и нулей должно быть в предикторе чтобы можно проводить регрессию? например минимум три единицы и 7 нулей к примеру Можно ли как-то балансировать выборку ,если дела совсем плохи, например две единицы и 5 нулей? |
|
8.06.2018 - 22:14
Сообщение
#2
|
|
Группа: Пользователи Сообщений: 231 Регистрация: 27.04.2016 Пользователь №: 28223 |
Ой какая каша....
Ну давайте разбираться, что же вы написали и как это перевести (понять). 1. Количество покупок. ОК. Что такое количество покупок, например, 18 и еще восемь знаков в дроби после запятой? Ну не могу я себе даже три с половиной покупки представить, а тут 18,01426972 покупок. 2. Вы хотите найти зависимость количественных данных от номинальных? Т.е. построить РЕГРЕССИЮ, в которой два возможные значения независимой переменной и бесконечное множество значений зависимой? Ну картинку-то хоть нарисуйте, посмотрите, что получиться. 3. ОК. Предположим, построили. Регрессионная модель строиться для того, что-бы потом, задав не встречавшееся в обучающей выборке значение независимой переменной найти значение зависимой. А какое у вас может быть "не встречавшееся" значение вашей независимой переменной? Может стоит разобраться, надо-ли вам регрессия, или все-таки задача стоит иначе? 4. Предположу, что на самом деле вы решаете задачу определения корреляции между значением "стимуляции" и "количество покупок". Ну так для этого своя группа методов существует. Между прочим, в вашем маркетинге, откуда скорее всего взята задача, есть т.н. A/B тестирование. Посмотрите внимательно, может узнаете свою задачу? 5. Про одну-две стимуляции вообще ничего не понял. Написано одно, пример - совсем другое. В каком магазине была одна стимуляция? в каком - две? И где это видно? 6. Да, по несбалансированным данным (например - 1 значение "1" и полтора десятков нулей) ни один из полученных результатов статистически значимым (осмысленным) не будет. 7. А вообще-то по вашему первому примеру никакого исследования проводить не надо, и так видно, что стимуляция ведет к росту продаж. Ну можете еще, если очень хочется "ящик с усами" нарисовать :-) Сообщение отредактировал passant - 9.06.2018 - 00:22 |
|