![]() |
Здравствуйте, гость ( Вход | Регистрация )
![]() |
![]()
Сообщение
#1
|
|
Группа: Пользователи Сообщений: 6 Регистрация: 20.02.2012 Пользователь №: 23503 ![]() |
Доброго времени суток, уважаемые форумчане!
Позвольте задать вопрос, ответа на который не смог найти на форуме: Задача: Есть данные количества посещений веб-сервиса студентами по времени суток (т.е. по каждому часу суток количество посещений для каждого студента персонально). Есть результаты опроса этих студентов на предмет их предпочитаемого суточного ритма (т.е. сумма баллов в диапазоне от 0 до 25, отражающая континуум от "полного жаворонка" (0) до "полной совы" (25)) Нужно оценить корреляцию суточного ритма (точнее степени предпочтения "вечернести") по данным анкеты и суточного ритма посещений сайта. Вопрос: как же обработать данные о количестве посещений по часам? Мне пришло в голову только, что данные посещений по часам можно пересчитать с учетом часа и вычислить некую среднюю т.е. если 9ч утра - 5 посещений 10 - 7 11 - 8 и пр. то считаем так: ((9*5)+(10*7)+(11*8) и далее) / (5+7+8 и далее) получается некое значение ("средний час"??), корреляцию которого с данными опросника можно оценить. естественно, более корректно будет ввести дополнительную поправку, что сутки с точки зрения учебы начинаются не в 00.00, а с 6 утра (когда по общей статистике начинается нарастание количества посещений) и при перемножении умножать не на конкретный час (9,10,11 и далее), а на час отсчитанный от 6 утра (соответственно вместо 9,10,11 - 3,4,5). но в целом насколько корректен такой подход, мне не очень понятно. может быть есть еще какие-то варианты более корректной обработки подобных данных? тем более, что если посмотреть распределение посещений в целом, то там ясно прослеживаются два суточных пика - утром и вечером. В середине дня - снижение количества. Сообщение отредактировал ivan_m - 12.10.2013 - 16:20 |
|
![]() |
![]() |
![]() |
![]()
Сообщение
#2
|
|
Группа: Пользователи Сообщений: 6 Регистрация: 20.02.2012 Пользователь №: 23503 ![]() |
Да, извините, я неправильно выразился - имелось в виду, что получается "средний час" всех посещений для конкретного человека (т.е. он средний в смысле суток, а не в смысле выборки студентов), а корреляцию оценивать в выборке между этим показателем и показателем предпочтения утро-вечер по анкете.
Результат по циркадным предпочтениям (утро-вечер) не имеет отношения к конкретному временному интервалу, он просто больше или меньше, поэтому "в одинаковом временном интервале" его с интенсивностью никак не сравнить. Да, в данных мы имеем количество посещений по часам для каждого конкретного человека (интенсивность), которое мы посчитали за 5 месяцев, но само количество нам не очень интересно, т.к. разные люди пользуются данным сервисом по-разному интенсивно (т.е. у одного 1 посещений за сутки, у другого - 100) и это совершенно другой вопрос. Здесь нам важно именно суточная динамика (т.е. по часам). В приложенном файле график с общим количеством посещений для всех. Тем способом, который я описал выше, получается некий средний "средний час" (т.е. средний в выборке среди средних часов для индивидуума) для всей выборки около 19 часов, что, исходя из данного графика, похоже на правду. Соответственно, те, кто чаще посещают в более раннее время имеют это значение меньшим, а те, кто в более позднее - большим. Есть некая корреляция и с данными анкеты. Но вопрос был в том, что достаточно ли оценить такую среднюю тенденцию, или у учетом двух пиков посещений, целесообразно оценить ее как-то иначе? Сообщение отредактировал ivan_m - 13.10.2013 - 07:21 |
|
![]() |
![]() |
![]() ![]() |