Выбор статистической модели и программы для анализа данных |
Здравствуйте, гость ( Вход | Регистрация )
Выбор статистической модели и программы для анализа данных |
7.04.2017 - 08:13
Сообщение
#1
|
|
Группа: Пользователи Сообщений: 4 Регистрация: 7.04.2017 Пользователь №: 29636 |
Доброго времени суток!
В данный момент я занимаюсь обработкой экспериментальных данных и столкнулась с проблемой - не знаю какой статистический метод выбрать (статистика будет читаться в университете через год, а обработать нужно бы уже сейчас), поэтому и прошу помощи, может кто-то знает как обрабатывать такие данные. Есть 2 группы мышей, по 8 в каждой. Одну из групп поят водой с добавкой. Нужно проверить действует ли она или нет. Измеряемые параметры - активность. Измерения проводятся раз в минуту на протяжении почти 7 дней. Данные были просуммированы по 4, 3, 6 и 12 часов, а потом вычислена относительная активность, т.к. поминутные значения не имеют физического смысла. В итоге мы имеет 2 временных ряда и нужно определить есть ли между ними достоверное отличие. Я пробовала критерий Стьюдента, но то ли я не разобралась в нем, то ли наличие зависимости от времени он не учитывает, а это важно (например, добавка влияет только на дневную активность). Надеюсь, кто-нибудь сможет мне помочь. |
|
7.04.2017 - 09:01
Сообщение
#2
|
|
Группа: Пользователи Сообщений: 1091 Регистрация: 26.08.2010 Пользователь №: 22699 |
Доброго времени суток! В данный момент я занимаюсь обработкой экспериментальных данных и столкнулась с проблемой - не знаю какой статистический метод выбрать (статистика будет читаться в университете через год, а обработать нужно бы уже сейчас), поэтому и прошу помощи, может кто-то знает как обрабатывать такие данные. Есть 2 группы мышей, по 8 в каждой. Одну из групп поят водой с добавкой. Нужно проверить действует ли она или нет. Измеряемые параметры - активность. Измерения проводятся раз в минуту на протяжении почти 7 дней. Данные были просуммированы по 4, 3, 6 и 12 часов, а потом вычислена относительная активность, т.к. поминутные значения не имеют физического смысла. В итоге мы имеет 2 временных ряда и нужно определить есть ли между ними достоверное отличие. Я пробовала критерий Стьюдента, но то ли я не разобралась в нем, то ли наличие зависимости от времени он не учитывает, а это важно (например, добавка влияет только на дневную активность). Надеюсь, кто-нибудь сможет мне помочь. При таком плане эксперимента у Вас имеется две группы временных рядов (в каждой 8 индивидуальных траекторий). Такой вид сравнения кривых называется "функциональным анализом данных" (fda). https://www.r-project.org/conferences/useR-...ions/ramsay.pdf https://www.r-project.org/conferences/useR-...ides/Ritz_1.pdf Софт https://cran.r-project.org/web/packages/fda/index.html https://cran.r-project.org/web/packages/fda...gnetteKnitr.pdf https://cran.r-project.org/web/packages/fts...nettes/ftsa.pdf https://cran.r-project.org/web/packages/fts...s/ftsa_test.pdf |
|
15.04.2017 - 17:47
Сообщение
#3
|
|
Группа: Пользователи Сообщений: 4 Регистрация: 7.04.2017 Пользователь №: 29636 |
Спасибо огромное!
А могу ли я сравнить такие ряды в spss? В нем я уже немного работала, а вот указанные ссылки предполагают Матлаб и R(не знаю что это) на сколько я поняла, а с ними я не знакома |
|
15.04.2017 - 19:26
Сообщение
#4
|
|
Группа: Пользователи Сообщений: 1202 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704 |
А могу ли я сравнить такие ряды в spss? В нем я уже немного работала, а вот указанные ссылки предполагают Матлаб и R(не знаю что это) на сколько я поняла, а с ними я не знакома Сравнить с сможете. Правда не этими методами, а более классическими, которые используют обычно когда ряд короткий. В рамках традиционных подходов такую задачу можно решить дисперсионным анализом повторных измерений. Материалов в сети по этому много и конкретно в SPSS этот блок достаточно развитый: со всяким коррекциями с случае нарушения сферичности и т.п. - про это почитаете. Минус в том, что временные точки в таком анализе будут фигурировать как номинальные категории, т.е. алгоритм "не будет знать", какие это временные точки, он будет рассматривать их просто как многочисленные зависимые выборки на каких-то сроках. Т.о. 2 ряда вы сравните и в ходе апостериорных сравнений должны смочь (не помню точно SPSS) сравнить ряды в разных точках, т.е. разобраться где именно они расходятся неслучайно. Для студенческой работы это достаточно сложно и, возможно, даже когда вам будут читать статистику про это могут не рассказать - зависит об объёма курса и конкретного "чтеца". С другой стороны, насколько я понял в вашем ряду, если брать по максимуму, 42 точки (24 часа / 4 часа = 6 точек в сутках * 7 дней = 42). Конечно, такой ряд неплохо бы обработать специфическими методами. В случае зависимостей неизвестной и/или сложной нелинейной формы можно использовать какие-нибудь сглаживающие функции, интерполяторы. Например, можно использовать обобщённую аддитивную модель (GAM). Они очень выгодно смотрятся с 95%-ными доверительными границами (см. рис). Там, где зоны доверительных границ не пересекаются - различия значимы. Минусы этого подхода в том, что в отличие от функционального анализа, не будет учтена информация об индивидуальных траекториях, ну и опять-таки это - R. Может кто ещё поделится опытом. Сообщение отредактировал nokh - 15.04.2017 - 19:28 |
|
20.04.2017 - 15:48
Сообщение
#5
|
|
Группа: Пользователи Сообщений: 4 Регистрация: 7.04.2017 Пользователь №: 29636 |
Сравнить с сможете. Правда не этими методами, а более классическими, которые используют обычно когда ряд короткий. В рамках традиционных подходов такую задачу можно решить дисперсионным анализом повторных измерений. Материалов в сети по этому много и конкретно в SPSS этот блок достаточно развитый: со всяким коррекциями с случае нарушения сферичности и т.п. - про это почитаете. Минус в том, что временные точки в таком анализе будут фигурировать как номинальные категории, т.е. алгоритм "не будет знать", какие это временные точки, он будет рассматривать их просто как многочисленные зависимые выборки на каких-то сроках. Т.о. 2 ряда вы сравните и в ходе апостериорных сравнений должны смочь (не помню точно SPSS) сравнить ряды в разных точках, т.е. разобраться где именно они расходятся неслучайно. Для студенческой работы это достаточно сложно и, возможно, даже когда вам будут читать статистику про это могут не рассказать - зависит об объёма курса и конкретного "чтеца". С другой стороны, насколько я понял в вашем ряду, если брать по максимуму, 42 точки (24 часа / 4 часа = 6 точек в сутках * 7 дней = 42). Конечно, такой ряд неплохо бы обработать специфическими методами. В случае зависимостей неизвестной и/или сложной нелинейной формы можно использовать какие-нибудь сглаживающие функции, интерполяторы. Например, можно использовать обобщённую аддитивную модель (GAM). Они очень выгодно смотрятся с 95%-ными доверительными границами (см. рис). Там, где зоны доверительных границ не пересекаются - различия значимы. Минусы этого подхода в том, что в отличие от функционального анализа, не будет учтена информация об индивидуальных траекториях, ну и опять-таки это - R. Может кто ещё поделится опытом. Спасибо за совет! Точек там больше - измерения шли почти неделю. Придется осваивать R, эх. Про сглаживание - отдельное спасибо, может и получиться. |
|
21.04.2017 - 15:26
Сообщение
#6
|
|
Группа: Пользователи Сообщений: 1091 Регистрация: 26.08.2010 Пользователь №: 22699 |
Спасибо за совет! Точек там больше - измерения шли почти неделю. Придется осваивать R, эх. Про сглаживание - отдельное спасибо, может и получиться. Если данные "не секретные", то выкладывайте их в архиве к сообщению и их можно публично прямо здесь проанализировать. Если "секретные", то можно за "мзду малую" "тайно" обработать |
|
26.04.2017 - 01:05
Сообщение
#7
|
|
Группа: Пользователи Сообщений: 1202 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704 |
Если данные "не секретные", то выкладывайте их в архиве к сообщению и их можно публично прямо здесь проанализировать. Присоединяюсь. Данные можно выложить в обезличенном виде, просто X и Y. Прошёл ровно год как вы помогли мне справиться с GAM-регрессией в R, сейчас сам могу помочь, по крайней мере на студенческом уровне:)) Кстати, стали попадаться статьи, где наряду с кодом на R дают и код на Julia, alexwin1961 пишет, что влюбляется в Джулию. Конкурент растёт? Сообщение отредактировал nokh - 26.04.2017 - 01:08 |
|
26.04.2017 - 12:05
Сообщение
#8
|
|
Группа: Пользователи Сообщений: 1091 Регистрация: 26.08.2010 Пользователь №: 22699 |
Присоединяюсь. Данные можно выложить в обезличенном виде, просто X и Y. Прошёл ровно год как вы помогли мне справиться с GAM-регрессией в R, сейчас сам могу помочь, по крайней мере на студенческом уровне:)) Кстати, стали попадаться статьи, где наряду с кодом на R дают и код на Julia, alexwin1961 пишет, что влюбляется в Джулию. Конкурент растёт? Воистину ни одно принесенное добро не останется безнаказанным |
|
26.04.2017 - 21:12
Сообщение
#9
|
|
Группа: Пользователи Сообщений: 127 Регистрация: 15.12.2015 Пользователь №: 27760 |
Кстати, стали попадаться статьи, где наряду с кодом на R дают и код на Julia, alexwin1961 пишет, что влюбляется в Джулию. Конкурент растёт? Этот кактус кушать пока рано. Хотя если есть много свободного времени, то можно и попробовать. |
|
26.04.2017 - 22:24
Сообщение
#10
|
|
Группа: Пользователи Сообщений: 231 Регистрация: 27.04.2016 Пользователь №: 28223 |
Этот кактус кушать пока рано. Хотя если есть много свободного времени, то можно и попробовать. Вопрос по ходу - Вы перестали "углубляться" в язык с мая прошлого года, или просто не выкладываете наработки в github? (Про то, что "пока рано" - согласен, вон в последнем обзоре https://www.tiobe.com/tiobe-index/ прекрасная Юлия не попала даже в первую полусотню). Сообщение отредактировал passant - 27.04.2017 - 12:10 |
|
27.04.2017 - 18:52
Сообщение
#11
|
|
Группа: Пользователи Сообщений: 127 Регистрация: 15.12.2015 Пользователь №: 27760 |
Вопрос по ходу - Вы перестали "углубляться" в язык с мая прошлого года, или просто не выкладываете наработки в github? (Про то, что "пока рано" - согласен, вон в последнем обзоре https://www.tiobe.com/tiobe-index/ прекрасная Юлия не попала даже в первую полусотню). Перестал углубляться: почитывал книжку https://closescreen.gitbooks.io/julia-lang-ru/content/, но сам ничего не делал. Из модного и нужного в Джулии можно использовать xgboost и mxnet, но отказываться от R/Python, чтобы делать то же самое и быть при этом "не таким как все", смысла не вижу. Из интересного видел https://github.com/denizyuret/Knet.jl, но нету времени ковыряться. |
|
28.04.2017 - 11:32
Сообщение
#12
|
|
Группа: Пользователи Сообщений: 1091 Регистрация: 26.08.2010 Пользователь №: 22699 |
Перестал углубляться: почитывал книжку https://closescreen.gitbooks.io/julia-lang-ru/content/, но сам ничего не делал. Из модного и нужного в Джулии можно использовать xgboost и mxnet, но отказываться от R/Python, чтобы делать то же самое и быть при этом "не таким как все", смысла не вижу. Из интересного видел https://github.com/denizyuret/Knet.jl, но нету времени ковыряться. Это увы целая волна таких попыток... взять известный проект и максимально "эффективно" его переписать "на С++". Последняя жертва цельно тянутая с keras товарищами китайцами mxnet. Типа мы добавили "немного волшебных пузырьков " и вот вам низкое потребление памяти и кластеры с балансингом нагрузки "из коробки". И это вместо того чтобы написать еще одно ядро для keras. Устал я их пинать что бы в R пакете хоть что то стало доступно из мультиинпута. Но это увы только фрагментация и потеря развития. Может иногда "зрелый проект" и надо переписать с нуля, но не вот такими смешными силами естественно. Сообщение отредактировал p2004r - 28.04.2017 - 11:40 |
|