Выбор статистической модели и программы для анализа данных

Выбор статистической модели и программы для анализа данных

Asfa Просмотр профиля	7.04.2017 - 08:13 Сообщение #1
Группа: Пользователи Сообщений: 4 Регистрация: 7.04.2017 Пользователь №: 29636	Доброго времени суток! В данный момент я занимаюсь обработкой экспериментальных данных и столкнулась с проблемой - не знаю какой статистический метод выбрать (статистика будет читаться в университете через год, а обработать нужно бы уже сейчас), поэтому и прошу помощи, может кто-то знает как обрабатывать такие данные. Есть 2 группы мышей, по 8 в каждой. Одну из групп поят водой с добавкой. Нужно проверить действует ли она или нет. Измеряемые параметры - активность. Измерения проводятся раз в минуту на протяжении почти 7 дней. Данные были просуммированы по 4, 3, 6 и 12 часов, а потом вычислена относительная активность, т.к. поминутные значения не имеют физического смысла. В итоге мы имеет 2 временных ряда и нужно определить есть ли между ними достоверное отличие. Я пробовала критерий Стьюдента, но то ли я не разобралась в нем, то ли наличие зависимости от времени он не учитывает, а это важно (например, добавка влияет только на дневную активность). Надеюсь, кто-нибудь сможет мне помочь.

p2004r Просмотр профиля	7.04.2017 - 09:01 Сообщение #2
Группа: Пользователи Сообщений: 1091 Регистрация: 26.08.2010 Пользователь №: 22699	Цитата(Asfa @ 7.04.2017 - 08:13) Доброго времени суток! В данный момент я занимаюсь обработкой экспериментальных данных и столкнулась с проблемой - не знаю какой статистический метод выбрать (статистика будет читаться в университете через год, а обработать нужно бы уже сейчас), поэтому и прошу помощи, может кто-то знает как обрабатывать такие данные. Есть 2 группы мышей, по 8 в каждой. Одну из групп поят водой с добавкой. Нужно проверить действует ли она или нет. Измеряемые параметры - активность. Измерения проводятся раз в минуту на протяжении почти 7 дней. Данные были просуммированы по 4, 3, 6 и 12 часов, а потом вычислена относительная активность, т.к. поминутные значения не имеют физического смысла. В итоге мы имеет 2 временных ряда и нужно определить есть ли между ними достоверное отличие. Я пробовала критерий Стьюдента, но то ли я не разобралась в нем, то ли наличие зависимости от времени он не учитывает, а это важно (например, добавка влияет только на дневную активность). Надеюсь, кто-нибудь сможет мне помочь. При таком плане эксперимента у Вас имеется две группы временных рядов (в каждой 8 индивидуальных траекторий). Такой вид сравнения кривых называется "функциональным анализом данных" (fda). https://www.r-project.org/conferences/useR-...ions/ramsay.pdf https://www.r-project.org/conferences/useR-...ides/Ritz_1.pdf Софт https://cran.r-project.org/web/packages/fda/index.html https://cran.r-project.org/web/packages/fda...gnetteKnitr.pdf https://cran.r-project.org/web/packages/fts...nettes/ftsa.pdf https://cran.r-project.org/web/packages/fts...s/ftsa_test.pdf http://r-statistics.livejournal.com/

Asfa Просмотр профиля	15.04.2017 - 17:47 Сообщение #3
Группа: Пользователи Сообщений: 4 Регистрация: 7.04.2017 Пользователь №: 29636	Спасибо огромное! А могу ли я сравнить такие ряды в spss? В нем я уже немного работала, а вот указанные ссылки предполагают Матлаб и R(не знаю что это) на сколько я поняла, а с ними я не знакома

nokh

15.04.2017 - 19:26

Сообщение #4

Группа: Пользователи
Сообщений: 1202
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704

Цитата(Asfa @ 15.04.2017 - 19:47)

А могу ли я сравнить такие ряды в spss? В нем я уже немного работала, а вот указанные ссылки предполагают Матлаб и R(не знаю что это) на сколько я поняла, а с ними я не знакома

Сравнить с сможете. Правда не этими методами, а более классическими, которые используют обычно когда ряд короткий. В рамках традиционных подходов такую задачу можно решить дисперсионным анализом повторных измерений. Материалов в сети по этому много и конкретно в SPSS этот блок достаточно развитый: со всяким коррекциями с случае нарушения сферичности и т.п. - про это почитаете. Минус в том, что временные точки в таком анализе будут фигурировать как номинальные категории, т.е. алгоритм "не будет знать", какие это временные точки, он будет рассматривать их просто как многочисленные зависимые выборки на каких-то сроках. Т.о. 2 ряда вы сравните и в ходе апостериорных сравнений должны смочь (не помню точно SPSS) сравнить ряды в разных точках, т.е. разобраться где именно они расходятся неслучайно. Для студенческой работы это достаточно сложно и, возможно, даже когда вам будут читать статистику про это могут не рассказать - зависит об объёма курса и конкретного "чтеца".

С другой стороны, насколько я понял в вашем ряду, если брать по максимуму, 42 точки (24 часа / 4 часа = 6 точек в сутках * 7 дней = 42). Конечно, такой ряд неплохо бы обработать специфическими методами. В случае зависимостей неизвестной и/или сложной нелинейной формы можно использовать какие-нибудь сглаживающие функции, интерполяторы. Например, можно использовать обобщённую аддитивную модель (GAM). Они очень выгодно смотрятся с 95%-ными доверительными границами (см. рис). Там, где зоны доверительных границ не пересекаются - различия значимы. Минусы этого подхода в том, что в отличие от функционального анализа, не будет учтена информация об индивидуальных траекториях, ну и опять-таки это - R.

Может кто ещё поделится опытом.

Сообщение отредактировал nokh - 15.04.2017 - 19:28

Эскизы прикрепленных изображений

Ответить с цитированием данного сообщения

Asfa Просмотр профиля	20.04.2017 - 15:48 Сообщение #5
Группа: Пользователи Сообщений: 4 Регистрация: 7.04.2017 Пользователь №: 29636	Цитата(nokh @ 15.04.2017 - 19:26) Сравнить с сможете. Правда не этими методами, а более классическими, которые используют обычно когда ряд короткий. В рамках традиционных подходов такую задачу можно решить дисперсионным анализом повторных измерений. Материалов в сети по этому много и конкретно в SPSS этот блок достаточно развитый: со всяким коррекциями с случае нарушения сферичности и т.п. - про это почитаете. Минус в том, что временные точки в таком анализе будут фигурировать как номинальные категории, т.е. алгоритм "не будет знать", какие это временные точки, он будет рассматривать их просто как многочисленные зависимые выборки на каких-то сроках. Т.о. 2 ряда вы сравните и в ходе апостериорных сравнений должны смочь (не помню точно SPSS) сравнить ряды в разных точках, т.е. разобраться где именно они расходятся неслучайно. Для студенческой работы это достаточно сложно и, возможно, даже когда вам будут читать статистику про это могут не рассказать - зависит об объёма курса и конкретного "чтеца". С другой стороны, насколько я понял в вашем ряду, если брать по максимуму, 42 точки (24 часа / 4 часа = 6 точек в сутках * 7 дней = 42). Конечно, такой ряд неплохо бы обработать специфическими методами. В случае зависимостей неизвестной и/или сложной нелинейной формы можно использовать какие-нибудь сглаживающие функции, интерполяторы. Например, можно использовать обобщённую аддитивную модель (GAM). Они очень выгодно смотрятся с 95%-ными доверительными границами (см. рис). Там, где зоны доверительных границ не пересекаются - различия значимы. Минусы этого подхода в том, что в отличие от функционального анализа, не будет учтена информация об индивидуальных траекториях, ну и опять-таки это - R. Может кто ещё поделится опытом. Спасибо за совет! Точек там больше - измерения шли почти неделю. Придется осваивать R, эх. Про сглаживание - отдельное спасибо, может и получиться.

p2004r Просмотр профиля	21.04.2017 - 15:26 Сообщение #6
Группа: Пользователи Сообщений: 1091 Регистрация: 26.08.2010 Пользователь №: 22699	Цитата(Asfa @ 20.04.2017 - 15:48) Спасибо за совет! Точек там больше - измерения шли почти неделю. Придется осваивать R, эх. Про сглаживание - отдельное спасибо, может и получиться. Если данные "не секретные", то выкладывайте их в архиве к сообщению и их можно публично прямо здесь проанализировать. Если "секретные", то можно за "мзду малую" "тайно" обработать http://r-statistics.livejournal.com/

nokh Просмотр профиля	26.04.2017 - 01:05 Сообщение #7
Группа: Пользователи Сообщений: 1202 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704	Цитата(p2004r @ 21.04.2017 - 17:26) Если данные "не секретные", то выкладывайте их в архиве к сообщению и их можно публично прямо здесь проанализировать. Присоединяюсь. Данные можно выложить в обезличенном виде, просто X и Y. Прошёл ровно год как вы помогли мне справиться с GAM-регрессией в R, сейчас сам могу помочь, по крайней мере на студенческом уровне:)) Кстати, стали попадаться статьи, где наряду с кодом на R дают и код на Julia, alexwin1961 пишет, что влюбляется в Джулию. Конкурент растёт? Сообщение отредактировал nokh - 26.04.2017 - 01:08

p2004r Просмотр профиля	26.04.2017 - 12:05 Сообщение #8
Группа: Пользователи Сообщений: 1091 Регистрация: 26.08.2010 Пользователь №: 22699	Цитата(nokh @ 26.04.2017 - 01:05) Присоединяюсь. Данные можно выложить в обезличенном виде, просто X и Y. Прошёл ровно год как вы помогли мне справиться с GAM-регрессией в R, сейчас сам могу помочь, по крайней мере на студенческом уровне:)) Кстати, стали попадаться статьи, где наряду с кодом на R дают и код на Julia, alexwin1961 пишет, что влюбляется в Джулию. Конкурент растёт? Воистину ни одно принесенное добро не останется безнаказанным http://r-statistics.livejournal.com/

ogurtsov Просмотр профиля	26.04.2017 - 21:12 Сообщение #9
Группа: Пользователи Сообщений: 127 Регистрация: 15.12.2015 Пользователь №: 27760	Цитата(nokh @ 26.04.2017 - 02:05) Кстати, стали попадаться статьи, где наряду с кодом на R дают и код на Julia, alexwin1961 пишет, что влюбляется в Джулию. Конкурент растёт? Этот кактус кушать пока рано. Хотя если есть много свободного времени, то можно и попробовать. Биостатистика и язык R

passant Просмотр профиля	26.04.2017 - 22:24 Сообщение #10
Группа: Пользователи Сообщений: 231 Регистрация: 27.04.2016 Пользователь №: 28223	Цитата(ogurtsov @ 26.04.2017 - 20:12) Этот кактус кушать пока рано. Хотя если есть много свободного времени, то можно и попробовать. Вопрос по ходу - Вы перестали "углубляться" в язык с мая прошлого года, или просто не выкладываете наработки в github? (Про то, что "пока рано" - согласен, вон в последнем обзоре https://www.tiobe.com/tiobe-index/ прекрасная Юлия не попала даже в первую полусотню). Сообщение отредактировал passant - 27.04.2017 - 12:10

ogurtsov Просмотр профиля	27.04.2017 - 18:52 Сообщение #11
Группа: Пользователи Сообщений: 127 Регистрация: 15.12.2015 Пользователь №: 27760	Цитата(passant @ 26.04.2017 - 22:24) Вопрос по ходу - Вы перестали "углубляться" в язык с мая прошлого года, или просто не выкладываете наработки в github? (Про то, что "пока рано" - согласен, вон в последнем обзоре https://www.tiobe.com/tiobe-index/ прекрасная Юлия не попала даже в первую полусотню). Перестал углубляться: почитывал книжку https://closescreen.gitbooks.io/julia-lang-ru/content/, но сам ничего не делал. Из модного и нужного в Джулии можно использовать xgboost и mxnet, но отказываться от R/Python, чтобы делать то же самое и быть при этом "не таким как все", смысла не вижу. Из интересного видел https://github.com/denizyuret/Knet.jl, но нету времени ковыряться. Биостатистика и язык R

p2004r Просмотр профиля	28.04.2017 - 11:32 Сообщение #12
Группа: Пользователи Сообщений: 1091 Регистрация: 26.08.2010 Пользователь №: 22699	Цитата(ogurtsov @ 27.04.2017 - 18:52) Перестал углубляться: почитывал книжку https://closescreen.gitbooks.io/julia-lang-ru/content/, но сам ничего не делал. Из модного и нужного в Джулии можно использовать xgboost и mxnet, но отказываться от R/Python, чтобы делать то же самое и быть при этом "не таким как все", смысла не вижу. Из интересного видел https://github.com/denizyuret/Knet.jl, но нету времени ковыряться. Это увы целая волна таких попыток... взять известный проект и максимально "эффективно" его переписать "на С++". Последняя жертва цельно тянутая с keras товарищами китайцами mxnet. Типа мы добавили "немного волшебных пузырьков " и вот вам низкое потребление памяти и кластеры с балансингом нагрузки "из коробки". И это вместо того чтобы написать еще одно ядро для keras. Устал я их пинать что бы в R пакете хоть что то стало доступно из мультиинпута. Но это увы только фрагментация и потеря развития. Может иногда "зрелый проект" и надо переписать с нуля, но не вот такими смешными силами естественно. Сообщение отредактировал p2004r - 28.04.2017 - 11:40 http://r-statistics.livejournal.com/

« Предыдущая тема · Медицинская статистика · Следующая тема »