Форум врачей-аспирантов

Здравствуйте, гость ( Вход | Регистрация )

 
Добавить ответ в эту темуОткрыть тему
> Сравнение связанных выборок с missing values
Cules2013
сообщение 5.07.2019 - 09:54
Сообщение #1





Группа: Пользователи
Сообщений: 27
Регистрация: 5.02.2018
Пользователь №: 30938



Добрый день!
Я в первый раз провёл эксперимент по новой для меня схеме, поэтому несколько затрудняюсь, как теперь правильно обработать данные. У меня 3 группы крыс по 15 шт в каждой. Эксперимент длится 21 день, и на 3, 10 и 21-й дни я забиваю по 5 животных на биохимию мозга. Таким образом у меня получается, что 5 крыс у меня прошли весь эксперимент, а 5 только 3 дня, и ещё 5 только 10 дней. По факту у меня получается, что на 10-й и 21-й день у меня часть данных от тех же животных, что на 3-й и 10-й дни, а часть -нет, т.е. у меня выходит смешанная выборка - она и не связанная, и не несвязанная одновременно, 50/50 + кол-во чисел уменьшается с уменьшением кол-ва животных, т.е у меня ещё и missing values присутствуют. Как вообще такое считать статистически?
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
ogurtsov
сообщение 5.07.2019 - 10:48
Сообщение #2





Группа: Пользователи
Сообщений: 127
Регистрация: 15.12.2015
Пользователь №: 27760



Цитата(Cules2013 @ 5.07.2019 - 09:54) *
Добрый день!
Я в первый раз провёл эксперимент по новой для меня схеме, поэтому несколько затрудняюсь, как теперь правильно обработать данные. У меня 3 группы крыс по 15 шт в каждой. Эксперимент длится 21 день, и на 3, 10 и 21-й дни я забиваю по 5 животных на биохимию мозга. Таким образом у меня получается, что 5 крыс у меня прошли весь эксперимент, а 5 только 3 дня, и ещё 5 только 10 дней. По факту у меня получается, что на 10-й и 21-й день у меня часть данных от тех же животных, что на 3-й и 10-й дни, а часть -нет, т.е. у меня выходит смешанная выборка - она и не связанная, и не несвязанная одновременно, 50/50 + кол-во чисел уменьшается с уменьшением кол-ва животных, т.е у меня ещё и missing values присутствуют. Как вообще такое считать статистически?

Сформулируйте цели исследования. Не существует никакого способа взять кучу цифр, "посчитать статистически" и получить на выходе что-то осмысленное.
Выборки, кстати, несвязанные, поскольку каждое животное гуманно умерщвлялось всего один раз.

Сообщение отредактировал ogurtsov - 5.07.2019 - 11:01


Signature
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Cules2013
сообщение 5.07.2019 - 11:13
Сообщение #3





Группа: Пользователи
Сообщений: 27
Регистрация: 5.02.2018
Пользователь №: 30938



Цитата(ogurtsov @ 5.07.2019 - 10:48) *
Сформулируйте цели исследования. Не существует никакого способа взять кучу цифр, "посчитать статистически" и получить на выходе что-то осмысленное.
Выборки, кстати, несвязанные, поскольку каждое животное гуманно умерщвлялось всего один раз.

Может я нечётко объяснил. Попробую ещё раз. Я имел ввиду попарные сравнения "до-после" в пределах одной группы. Ясное дело, что межгрупповые отличия пойдут как несвязанные выборки. Итак, у меня есть 15 крыс, я у них зафиксировал допустим что уровень предпочтения сахарозы, чтобы оценить их уровень депрессивности. Это у нас фоновая запись. Затем, на 3-й день стресс-воздействия, перед забоем, я повторил эксперимент. Здесь проблем нет, кол-во животных одинаковое, и получаются типичные связанные выборки. Но на 10-й день у меня уже 10 крыс, т.к. после 3-го дня я забил 5 шт. Так вот, сравнивая результаты 3 дня допустим с 10-м, я сравниваю 15 чисел с 10 числами (-5 крыс забой), и получается, что 10 крыс = 10 чисел, у меня идут как связанные выборки, но 5 чисел из 3-го дня - их не с чем сравнивать, ведь на 10-й день этих крыс уже нет, они мертвы. Вот и получается какой-то суррогат - одни данные имеют пару для сравнения, другие нет. И если я беру АNOVA или Данна и ставлю сравнения связанных выборок, то он мне разумно заявляет, что нельзя посчитать статистику на связанных выборках с отсутствующими значениями.
Ну а цель исследования проста - проверить, вызывает ли моё стресс-воздействие депрессию у крыс или нет. Поэтому и беру тест на сахарозу и биохимию мозга. Ну а внутригрупповые сравнения должны показать, изменяется ли картина со временем, или нет.
Про связь "гуманное умерщвление" и "несвязанные выборки" вообще не въехал. При чём тут это?

Сообщение отредактировал Cules2013 - 5.07.2019 - 11:14
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
ogurtsov
сообщение 5.07.2019 - 11:36
Сообщение #4





Группа: Пользователи
Сообщений: 127
Регистрация: 15.12.2015
Пользователь №: 27760



Цитата(Cules2013 @ 5.07.2019 - 11:13) *
Про связь "гуманное умерщвление" и "несвязанные выборки" вообще не въехал. При чём тут это?


Было написано
Цитата
я забиваю по 5 животных на биохимию мозга

Из чего как бы следует, что изучаются показатели биохимии, а не что-то еще, что можно измерить многократно. Для биохимии базового уровня нет (в день 0 никого не забивали), затем в 3 и последующие дни имеем по 5 убитых животных в каждой группе. Все выборки по 5 животных абсолютно независимы что при сравнении внутри группы, что при сравнении между группами.


Signature
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Cules2013
сообщение 5.07.2019 - 12:08
Сообщение #5





Группа: Пользователи
Сообщений: 27
Регистрация: 5.02.2018
Пользователь №: 30938



мы с вами будто на разных языках общаемся. давайте, ещё раз попробуем с начала.
у меня есть 15 крыс в одной группе. я снял фоновый уровень предпочтения сахарозы = 15 чисел. на 3-й день эксперимента я снова снял уровень предпочтения сахарозы = 15 чисел, после чего убил 5 животных. затем на 10-й день эксперимента я снял сахарозу - 10 чисел, т.к. у меня уже 10 крыс, потом забой. на 21-й день - 5 крыс, 5 чисел, затем забой и конец эксперимента, 0 крыс).
Я вижу 3 способа, как можно сгруппировать данные для анализа:
1. Я возьму числа тех 5 крыс, которые прошли все 21 день эксперимента. Будет чётко связанные выборки "до-после".
2 Я возьму числа тех 5 крыс, которые были убиты, в каждый из 3, 10, 21 дней. Тогда у меня будут 3 выборки несвязанные. Правда возникает вопрос, какие данные брать из фоновой записи для сравнения, где ещё никого не убивали. В итоге, какие бы числа мы не взяли, у нас будут совпадения с какими-то крысами на какие-то дни.
3. Я просто сравню 15-15-10-5 шт чисел между собой на фон-3-10-21 день. Отсюда и вопрос - там же часть данных будет иметь пару (связанны), а часть нет, т.к. эти животные будут убиты до этого. Тут ещё в чём вопрос - 5 чисел для статистики - это весьма хилая выборка. Может для биохимии мозга и допустимо, но для тетса на сахарозу - маловато будет. Просто первые 2 варианта означают, что часть данных я просто проигнорирую, а это непозволительная роскошь, да и вообще-то так никто не делает, коль это не выбросы или ошибочные данные.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
ogurtsov
сообщение 5.07.2019 - 12:31
Сообщение #6





Группа: Пользователи
Сообщений: 127
Регистрация: 15.12.2015
Пользователь №: 27760



Ну а животных-то зачем убивать? У вас цель состояла в анализе предпочтения сахарозы (о чем вначале сказано не было), это не требует забоя крыс.
В данном случае попытка угнаться за 2 зайцами привела именно к тому, к чему обычно приводит. Для анализа уровня предпочтения сахарозы в динамике данных тупо нет, кроме 5 крыс, убитых последними.


Signature
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
100$
сообщение 5.07.2019 - 13:53
Сообщение #7





Группа: Пользователи
Сообщений: 902
Регистрация: 23.08.2010
Пользователь №: 22694



Цитата
Ну а животных-то зачем убивать?


Чтобы снять у них биохимию мозга. Живой-то особи в башку не зелезешь...

Цитата
У вас цель состояла в анализе предпочтения сахарозы


Как по мне - так ничего подобного. Есть стрессогенный фактор, есть время. Об уровне воздействия стрессогенного фактора с течением времени судят по косвенному показателю - степени предпочтения сахарозы. После чего пытаются понять:как биохимия мозга зависит от глубины воздействия стресса. Усреднение уровня сахарозы будет происходить сначала по 15 объектам выборки, затем - по 10 и т.д. (ковариата). А собственно биохимия (дисперсионный комплекс в данном случае) будет представлена тремя независимыми выборками по 5 убиенных крыс. Погибших во имя науки.

Сообщение отредактировал 100$ - 5.07.2019 - 13:59
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
ogurtsov
сообщение 5.07.2019 - 14:15
Сообщение #8





Группа: Пользователи
Сообщений: 127
Регистрация: 15.12.2015
Пользователь №: 27760



Цитата(100$ @ 5.07.2019 - 13:53) *
Чтобы снять у них биохимию мозга. Живой-то особи в башку не зелезешь...



Как по мне - так ничего подобного. Есть стрессогенный фактор, есть время. Об уровне воздействия стрессогенного фактора с течением времени судят по косвенному показателю - степени предпочтения сахарозы. После чего пытаются понять:как биохимия мозга зависит от глубины воздействия стресса. Усреднение уровня сахарозы будет происходить сначала по 15 объектам выборки, затем - по 10 и т.д. (ковариата). А собственно биохимия (дисперсионный комплекс в данном случае) будет представлена тремя независимыми выборками по 5 убиенных крыс. Погибших во имя науки.

Для биохимии нету нулевой точки, то есть "как биохимия мозга зависит от глубины воздействия стресса" мы не узнаем в ходе данного эксперимента.


Signature
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
100$
сообщение 5.07.2019 - 16:26
Сообщение #9





Группа: Пользователи
Сообщений: 902
Регистрация: 23.08.2010
Пользователь №: 22694



Цитата(ogurtsov @ 5.07.2019 - 14:15) *
Для биохимии нету нулевой точки, то есть "как биохимия мозга зависит от глубины воздействия стресса" мы не узнаем в ходе данного эксперимента.


Не надо плодить сущности. Есть понятие физиологической нормы. "Нулевой точкой" является вектор интересующих исследователя показателей биохимии, соответствующий физиологической норме (т.е. полученных от животных, не подвергавшихся никакому стрессовому воздействию). Применительно к обсуждаемому дизайну можно допустить, что показатели физиологической нормы известны и автору темы, и его коллегам со времен царя Гороха. Он же не Робинзон Крузо, варящийся в собственном соку на необитаемом острове.

Только эта норма в данном случае и не нужна.Как не нужна здесь и контрольная группа. Мы просто берем и начинаем угнетать психику стрессовым воздействием. И три набора показателей биохимии мозга, полученных на разных уровнях непрерывного по природе фактора "степень предпочтения сахарозы", выступающего в качестве ковариаты, - экспериментальный факт. Вот вас и просят протестировать гипотезу о случайности наблюдаемых различий.

Сообщение отредактировал 100$ - 5.07.2019 - 16:46
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
ogurtsov
сообщение 6.07.2019 - 10:28
Сообщение #10





Группа: Пользователи
Сообщений: 127
Регистрация: 15.12.2015
Пользователь №: 27760



Цитата(100$ @ 5.07.2019 - 16:26) *
Не надо плодить сущности. Есть понятие физиологической нормы.

Не обижайтесь, но у вас второе предложение противоречит первому.
А "норма" у крысы, как и у человека, представляет собой диапазон значений, а не одно число.
Первый попавшийся пример: https://en.wikivet.net/Rat_Biochemistry - уровень холестерина от 40 до 130 является "нормальным". Поэтому в доклиническом исследовании трудно вообразить адекватный эксперимент без контрольной группы (обычно контролей еще и несколько) и/или измерения начальных значений изучаемых параметров.
Если копнуть еще глубже, то показатели биохимии имеют свойство серьезно меняться в зависимости от времени года и от диеты (крыса - животное деликатное, хуже только кролик). Плюс гендерные различия. Плюс линейные крысы разных линий тоже различаются (снова первый попавшийся пример - https://cyberleninka.ru/article/n/lineynye-...i-u-krys-na-in).


Signature
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
100$
сообщение 6.07.2019 - 16:25
Сообщение #11





Группа: Пользователи
Сообщений: 902
Регистрация: 23.08.2010
Пользователь №: 22694



Цитата
Не обижайтесь, но у вас второе предложение противоречит первому.


Да какие уж тут обиды ). Но вы окажете мне большую услугу, если воспримете норму не как придуманную мной наспех сущность (ее ввели в оборот сильно задолго до меня), а как способ восстановления пропущенных значений во временном ряду.

Цитата
А "норма" у крысы, как и у человека, представляет собой диапазон значений, а не одно число.
Первый попавшийся пример... - уровень холестерина от 40 до 130 является "нормальным".


Чистая правда. Которая кроме сказанного означает, что любое число из этого диапазона является решением задачи. Н-р, всем известная структурная средняя по имени "медиана" при нечетном объеме выборки представляет собой интервал, являющийся решением, каждая точка которого, в свою очередь, тоже является решением.



Цитата
Поэтому в доклиническом исследовании трудно вообразить адекватный эксперимент без контрольной группы (обычно контролей еще и несколько) и/или измерения начальных значений изучаемых параметров.
Если копнуть еще глубже, то показатели биохимии имеют свойство серьезно меняться в зависимости от времени года и от диеты (крыса - животное деликатное, хуже только кролик). Плюс гендерные различия. Плюс линейные крысы разных линий тоже различаются


Это всё - статистически усредняемые параметры. И все они известны, и в конечном итоге формируют некий информационный фон, теоретический костыль, без которого любой экспериментатор будет попусту крыс переводить на компост.

Сообщение отредактировал 100$ - 6.07.2019 - 16:25
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
nokh
сообщение 9.07.2019 - 05:42
Сообщение #12





Группа: Пользователи
Сообщений: 1202
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704



Цитата(Cules2013 @ 5.07.2019 - 13:13) *
Может я нечётко объяснил. Попробую ещё раз. Я имел ввиду попарные сравнения "до-после" в пределах одной группы. Ясное дело, что межгрупповые отличия пойдут как несвязанные выборки. Итак, у меня есть 15 крыс, я у них зафиксировал допустим что уровень предпочтения сахарозы, чтобы оценить их уровень депрессивности. Это у нас фоновая запись. Затем, на 3-й день стресс-воздействия, перед забоем, я повторил эксперимент. Здесь проблем нет, кол-во животных одинаковое, и получаются типичные связанные выборки. Но на 10-й день у меня уже 10 крыс, т.к. после 3-го дня я забил 5 шт. Так вот, сравнивая результаты 3 дня допустим с 10-м, я сравниваю 15 чисел с 10 числами (-5 крыс забой), и получается, что 10 крыс = 10 чисел, у меня идут как связанные выборки, но 5 чисел из 3-го дня - их не с чем сравнивать, ведь на 10-й день этих крыс уже нет, они мертвы. Вот и получается какой-то суррогат - одни данные имеют пару для сравнения, другие нет. И если я беру АNOVA или Данна и ставлю сравнения связанных выборок, то он мне разумно заявляет, что нельзя посчитать статистику на связанных выборках с отсутствующими значениями.
Ну а цель исследования проста - проверить, вызывает ли моё стресс-воздействие депрессию у крыс или нет. Поэтому и беру тест на сахарозу и биохимию мозга. Ну а внутригрупповые сравнения должны показать, изменяется ли картина со временем, или нет.
Про связь "гуманное умерщвление" и "несвязанные выборки" вообще не въехал. При чём тут это?

В части доказательства эффекта можно пойти двумя путями: простым и более сложным, но показатели, задействованные в первом способе могут быть полезны и во втором.

1) Через величину эффекта с доверительными интервалами (ДИ). Считаете для каждой из трёх пятёрок "До-После" разность (После-До) с 95% ДИ. Если ДИ не включает ноль, значит можно интерпретировать величину эффекта как статистически значимо отличающуюся от нуля на уровне значимости альфа=0,05. Провести сравнение трёх групп по величине эффекта можно в простом ANOVA, исключив данные "До". Группы очень маленькие, поэтому лучше использовать параметрику, чем ранговые методы; возможно потребуются предварительные преобразования данных типа логарифмирования или Бокса - Кокса.

2) Смешанная модель ANOVA через общие линейные модели. Факторов два: (1) Индивид (случайный) - всех пронумеровать и использовать эти метки в анализа в качестве градаций фактора. (2) Время (фиксированный) - 4 точки: 1 до и 3 после. Если вы измеряли показатели у каждого животного однократно, то главные эффекты будут тестироваться (делиться на соответствующий средний квадрат) относительно взаимодействия факторов "Индивид х Время", а само это взаимодействия протестировать будет нельзя. Для таких маленьких экспериментов желательно проводить измерения дважды. Тогда из указанного взаимодействия, представляющего собой сумму эффектов взаимодействия и ошибку измерения можно будет выразить и вычесть последнюю. Таким образом величина взаимодействия немного уменьшится, что сделает возможным обнаруживать более слабые эффекты главных факторов, включая интересующий вас фактор "Время". Также могут потребоваться преобразования, а апостериорные сравнения в рамках модели - любыми из из приглянувшихся методов. Этот подход можно использовать для доказательства наличия эффекта, ну а для оценки величины эффекта все равно придётся считать разности с 95% ДИ как в первом подходе, только здесь они будут выполнять роль сродни описательной статистики, сами ДИ не интерпретируются, не сравниваются ни с нолём, ни между собой.

3) Для визуализации эффекта изменения показателя при стрессе можно использовать что-то типа локальных регрессий или полиномиального сглаживания. Мне понравились обобщённые аддитивные модели GAM, которые адаптивны по форме к данным + позволяют строить 95%-ные доверительные границы для регрессии. По поводу возможности использования частично зависимых выборок не знаю, нужно читать про GAM-регрессию больше, но может требования независимости и не будет: просто проводим линию через некие средние значения.

Сообщение отредактировал nokh - 9.07.2019 - 05:44
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Cules2013
сообщение 9.07.2019 - 17:48
Сообщение #13





Группа: Пользователи
Сообщений: 27
Регистрация: 5.02.2018
Пользователь №: 30938



Цитата(nokh @ 9.07.2019 - 05:42) *
В части доказательства эффекта можно пойти двумя путями: простым и более сложным, но показатели, задействованные в первом способе могут быть полезны и во втором.

1) Через величину эффекта с доверительными интервалами (ДИ). Считаете для каждой из трёх пятёрок "До-После" разность (После-До) с 95% ДИ

А если разница "после-до" отрицательная? Нужно брать по модулю для расчёта ДИ?
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
nokh
сообщение 10.07.2019 - 07:53
Сообщение #14





Группа: Пользователи
Сообщений: 1202
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704



Цитата(Cules2013 @ 9.07.2019 - 19:48) *
А если разница "после-до" отрицательная? Нужно брать по модулю для расчёта ДИ?

Я просто почему-то решил, что показатель увеличивается:) Если показатель в большинстве случаев уменьшается - берите разность (До-После). Но только для всех одинаково, т.е. если вдруг где-то будут положительные разности, а где-то отрицательные - так и нужно обрабатывать. Например если одна разность 4, а вторая (-2), то значит в среднем показатель изменился на (4+(-2))/2=1.
В любом случае по модулю брать нельзя, но можно для удобства интерпретации умножить ВЕСЬ набор данных на (-1).

Сообщение отредактировал nokh - 10.07.2019 - 07:54
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 

Добавить ответ в эту темуОткрыть тему