Форум врачей-аспирантов > Обработка данных по циркадным ритмам

ivan_m

12.10.2013 - 09:11

Доброго времени суток, уважаемые форумчане!
Позвольте задать вопрос, ответа на который не смог найти на форуме:
Задача:
Есть данные количества посещений веб-сервиса студентами по времени суток (т.е. по каждому часу суток количество посещений для каждого студента персонально).
Есть результаты опроса этих студентов на предмет их предпочитаемого суточного ритма (т.е. сумма баллов в диапазоне от 0 до 25, отражающая континуум от "полного жаворонка" (0) до "полной совы" (25))
Нужно оценить корреляцию суточного ритма (точнее степени предпочтения "вечернести") по данным анкеты и суточного ритма посещений сайта.
Вопрос: как же обработать данные о количестве посещений по часам?
Мне пришло в голову только, что данные посещений по часам можно пересчитать с учетом часа и вычислить некую среднюю
т.е. если
9ч утра - 5 посещений
10 - 7
11 - 8
и пр.
то считаем так: ((9*5)+(10*7)+(11*8) и далее) / (5+7+8 и далее)
получается некое значение ("средний час"??), корреляцию которого с данными опросника можно оценить.
естественно, более корректно будет ввести дополнительную поправку, что сутки с точки зрения учебы начинаются не в 00.00, а с 6 утра (когда по общей статистике начинается нарастание количества посещений) и при перемножении умножать не на конкретный час (9,10,11 и далее), а на час отсчитанный от 6 утра (соответственно вместо 9,10,11 - 3,4,5).
но в целом насколько корректен такой подход, мне не очень понятно.
может быть есть еще какие-то варианты более корректной обработки подобных данных?
тем более, что если посмотреть распределение посещений в целом, то там ясно прослеживаются два суточных пика - утром и вечером. В середине дня - снижение количества.

100$

12.10.2013 - 21:07

Цитата

получается некое значение ("средний час"??), корреляцию которого с данными опросника можно оценить.

Вы некорректно рассуждаете: любая средняя-это просто число. Оно не может коррелировать с набором величин (вектором) или с другим числом. Т.е. если вы вычислили среднюю хронологическую по посещениям и среднюю хронологическую по данным опросника, то ни о какой корреляции речи быть не может (два числа можно сравнить разве что на больше-меньше).

Если наблюдения проводятся ежечасно, то количество посещений в час-это интенсивность посещений. Вычислите эту интенсивность по данным анкетирования и коррелируйте два набора этих величин на одинаковом временном интервале.

Можно поступить чуть сложнее: отмоделировать посещаемость (реальную и анкетную) Пуассоновской регрессией и закоррелировать остатки двух регрессий. Разумеется, ранговыми к-тами корреляции Спирмена или Кендалла.

ivan_m

13.10.2013 - 07:17

Да, извините, я неправильно выразился - имелось в виду, что получается "средний час" всех посещений для конкретного человека (т.е. он средний в смысле суток, а не в смысле выборки студентов), а корреляцию оценивать в выборке между этим показателем и показателем предпочтения утро-вечер по анкете.
Результат по циркадным предпочтениям (утро-вечер) не имеет отношения к конкретному временному интервалу, он просто больше или меньше, поэтому "в одинаковом временном интервале" его с интенсивностью никак не сравнить.
Да, в данных мы имеем количество посещений по часам для каждого конкретного человека (интенсивность), которое мы посчитали за 5 месяцев, но само количество нам не очень интересно, т.к. разные люди пользуются данным сервисом по-разному интенсивно (т.е. у одного 1 посещений за сутки, у другого - 100) и это совершенно другой вопрос. Здесь нам важно именно суточная динамика (т.е. по часам).
В приложенном файле график с общим количеством посещений для всех. Тем способом, который я описал выше, получается некий средний "средний час" (т.е. средний в выборке среди средних часов для индивидуума) для всей выборки около 19 часов, что, исходя из данного графика, похоже на правду. Соответственно, те, кто чаще посещают в более раннее время имеют это значение меньшим, а те, кто в более позднее - большим. Есть некая корреляция и с данными анкеты.
Но вопрос был в том, что достаточно ли оценить такую среднюю тенденцию, или у учетом двух пиков посещений, целесообразно оценить ее как-то иначе?

nokh

13.10.2013 - 09:54

Цитата(ivan_m @ 13.10.2013 - 10:17)

...Но вопрос был в том, что достаточно ли оценить такую среднюю тенденцию, или у учетом двух пиков посещений, целесообразно оценить ее как-то иначе?

Если данных очень много, то и на средних за сутки связь можно будет поймать. Но только как-то это очень грубо и совсем не изящно, к тому же при таких полноценных данных. Но это вы и сами понимаете, раз спрашиваете. Т.е. думаю, что нужно искать другие пути.
Как вариант: можно провести кластерный анализ испытуемых по схожести суточных профилей активности. На основании его результатов разбить всех на группы со сходными профилями; заодно и проверить сколько же их: 2 (совы и жаворонки), 3 (совы, жаворонки, голуби) или больше. Ваши данные позволяют ответить на этот вопрос самостоятельно, не опираясь ни на чьи домыслы и искусстенные классификации.
Далее, если нужна-таки мера корреляции, провести однофакторный дисперсионный анализ (ДА) со шкалой анкеты в качестве зависимой переменной и меткой принадлежности к кластеру активности в качестве независимой. По результатам этого ДА рассчитать компоненты дисперсии и внутриклассовый коэффициент корреляции (Intraclass correlation coefficient) - в случае однофакторного ДА это очень просто. Внутриклассовый коэффициент корреляции покажет насколько сильна связь между индивидами внутри кластера относительно различий, обнаруженных между кластерами.

100$

13.10.2013 - 12:06

Цитата(ivan_m @ 13.10.2013 - 07:17)

Да, извините, я неправильно выразился - имелось в виду, что получается "средний час" всех посещений для конкретного человека (т.е. он средний в смысле суток, а не в смысле выборки студентов), а корреляцию оценивать в выборке между этим показателем и показателем предпочтения утро-вечер по анкете.
Результат по циркадным предпочтениям (утро-вечер) не имеет отношения к конкретному временному интервалу, он просто больше или меньше, поэтому "в одинаковом временном интервале" его с интенсивностью никак не сравнить.
Да, в данных мы имеем количество посещений по часам для каждого конкретного человека (интенсивность), которое мы посчитали за 5 месяцев, но само количество нам не очень интересно, т.к. разные люди пользуются данным сервисом по-разному интенсивно (т.е. у одного 1 посещений за сутки, у другого - 100) и это совершенно другой вопрос. Здесь нам важно именно суточная динамика (т.е. по часам).
В приложенном файле график с общим количеством посещений для всех. Тем способом, который я описал выше, получается некий средний "средний час" (т.е. средний в выборке среди средних часов для индивидуума) для всей выборки около 19 часов, что, исходя из данного графика, похоже на правду. Соответственно, те, кто чаще посещают в более раннее время имеют это значение меньшим, а те, кто в более позднее - большим. Есть некая корреляция и с данными анкеты.
Но вопрос был в том, что достаточно ли оценить такую среднюю тенденцию, или у учетом двух пиков посещений, целесообразно оценить ее как-то иначе?

Я вам так скажу: если вы по ходу исследования изобрели неологизм, который необходимо заключить в кавычки (какой-то "средний час"), значит вы занимаетесь полной (удалено самоцензурой). Это очень хороший индикатор для самопроверки. Посещения необходимо взвешивать по времени, но не время усреднять по посещениям.
В вашем случае для процесса, развертывающегося во времени, можно просто построить периодограмму, пики которой как раз укажут на часы наибольшей интенсивности.
Если картинка двухпиковая, можно отмоделировать процесс (реальный и анкетный) на основе ряда Фурье , остатки закоррелировать.

p2004r

13.10.2013 - 21:55

У Вас временной ряд у каждого студента. Есть два подхода:

1) Навязываете "внешний" календарь. То есть 24 часа + 7 дневка + месяц (получки всякие коррелируют) + год (если данные достаточно длинные, то дни рождения и прочие праздники проявятся + времена года (или явно празники + времена года + сесии-каникулы)). В принципе добавив фактор "студент" можно применить lmer глобально ко всему датасету. Ваш фактор "совости" добавить в модель и доказать что она улучшилась от этой информации.

2) Выявляете имеющийся собственный ритм ряда разлагая его на составляющие тем или иным методом из весьма обширного арсенала. После этого составляющие разных студентов (раз ?имеется? общая ось времени) просто смотреть эксплораторными методами в поисках закономерностей. Есть методы кластеризации временных рядов без разложения на составляющие. Можно строить модели марковских цепочек со скрытыми состояниями. Методов очень много.