Доброго времени суток, уважаемые форумчане!
Позвольте задать вопрос, ответа на который не смог найти на форуме:
Задача:
Есть данные количества посещений веб-сервиса студентами по времени суток (т.е. по каждому часу суток количество посещений для каждого студента персонально).
Есть результаты опроса этих студентов на предмет их предпочитаемого суточного ритма (т.е. сумма баллов в диапазоне от 0 до 25, отражающая континуум от "полного жаворонка" (0) до "полной совы" (25))
Нужно оценить корреляцию суточного ритма (точнее степени предпочтения "вечернести") по данным анкеты и суточного ритма посещений сайта.
Вопрос: как же обработать данные о количестве посещений по часам?
Мне пришло в голову только, что данные посещений по часам можно пересчитать с учетом часа и вычислить некую среднюю
т.е. если
9ч утра - 5 посещений
10 - 7
11 - 8
и пр.
то считаем так: ((9*5)+(10*7)+(11*8) и далее) / (5+7+8 и далее)
получается некое значение ("средний час"??), корреляцию которого с данными опросника можно оценить.
естественно, более корректно будет ввести дополнительную поправку, что сутки с точки зрения учебы начинаются не в 00.00, а с 6 утра (когда по общей статистике начинается нарастание количества посещений) и при перемножении умножать не на конкретный час (9,10,11 и далее), а на час отсчитанный от 6 утра (соответственно вместо 9,10,11 - 3,4,5).
но в целом насколько корректен такой подход, мне не очень понятно.
может быть есть еще какие-то варианты более корректной обработки подобных данных?
тем более, что если посмотреть распределение посещений в целом, то там ясно прослеживаются два суточных пика - утром и вечером. В середине дня - снижение количества.