Форум врачей-аспирантов

Здравствуйте, гость ( Вход | Регистрация )

3 страниц V   1 2 3 >  
Добавить ответ в эту темуОткрыть тему
> Дисперсионный анализ для отслеживания ошибок в результатах PGD
Алексей Лк
сообщение 26.06.2018 - 09:33
Сообщение #1


Дух форума
*

Группа: Пользователи
Сообщений: 14
Регистрация: 25.06.2018
Пользователь №: 31577



Всем доброго утра! Я клинический эмбриолог, и в нашей клинике мы так же работаем с генетическим анализом эмбрионов. Сущность этого анализа заключается в том что мы отщепляем часть клеток эмбриона, кладем биоптат в буфер и отправляем на генетический анализ в сотрудничающую с нами генетическую фирму. Большая часть биоптата успешно проходит анализ, но некоторая часть всегда нечитабельна (ошибки при транспортировке). Биоптат который не прошел анализ идем за индексом FA (потеря сигнала).

У меня вопрос - недавно мы сменили курьера, который использует другие условия доставки материала, и у меня ощущение что число эмбрионов с FA резко выросло. Я имею точные данные о числе отправленых эмбрионов по месяцам и точные данные о числе FA. Дата смены курьера у меня так же имеется так что группы можно разделить по времени.

Как вы считаете, уважаемые участники форума, мог бы я использовать дисперсионный анализ (с неравномерной численностью групп) в качестве способа выявить различия между тем, сколько FA было у одной транспортной компании, и сколько у другой?

Условия
1) Нулевая гипотеза - раличия по FA между разными курьерами не существенны
2) анализируется только один фактор - число FA
3) анализ двух групп (старый курьер и новый курьер) за равный интервал времени но с разным числом пациентов (неравномерная численность групп)

Для применения дисперсионного анализа необходимо 4 условия
1) совокупность нормально распределена (скорее всего это так, но надо проверить по среднему, медиане и 25 и 75 процентилям)
2) каждая выборка случайно извлечена из исследуемой совокупности (выполнено)
3) каждая выборка независима от остальных выборок (выполнена)
4) дисперсии всех выборок равны или отличаются не сильно (надо рассчитать) - вопрос насколько допустимы различия между дисперсиями?

Какие подводные камни, можно или нет применять дисперсионный анализ - в общем жду мнений, спасибо!
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
passant
сообщение 26.06.2018 - 10:20
Сообщение #2


Дух форума
*

Группа: Пользователи
Сообщений: 118
Регистрация: 27.04.2016
Пользователь №: 28223



Цитата(Алексей Лк @ 26.06.2018 - 09:33) *
в общем жду мнений, спасибо!

По моему мнению - это классическая задача, в классической постановке. Если бы данные были бы доступными - взял бы в качестве примера для студентов применения метода к реальным задачам.
Особых "подводных камней" - особенно если у вас достаточное количество накопленных данных - не вижу. Обычная схема дисп. анализа, изложенная в учебниках.
Если дисперсии окажутся сильно различны - то существуют методы и на этот случай (начиная от критерия Крамера - Уэлча, до критерия Уилкоксона-Манна-Уитни, критерия Смирнова, и пр).

Вот если возникнут непонятности или вопросы - задавайте, будем думать.

Удачи!

Сообщение отредактировал passant - 26.06.2018 - 10:33
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Алексей Лк
сообщение 26.06.2018 - 10:29
Сообщение #3


Дух форума
*

Группа: Пользователи
Сообщений: 14
Регистрация: 25.06.2018
Пользователь №: 31577



Ясно спасибо! Я то же думаю что условия подходят, просто хотел мнения со стороны)
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
100$
сообщение 26.06.2018 - 10:40
Сообщение #4


Дух форума
*

Группа: Пользователи
Сообщений: 649
Регистрация: 23.08.2010
Пользователь №: 22694



Но это же задача для первоклассника: первый курьер доставил за все время 1000 проб, из низ 100 оказались бракованными. Имеем долю брака р1=100/1000 = .1
Второй - 500, брак 200, р2= .4. Ну, а сравнить две доли - задача для статистика тривиальная.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Алексей Лк
сообщение 26.06.2018 - 10:46
Сообщение #5


Дух форума
*

Группа: Пользователи
Сообщений: 14
Регистрация: 25.06.2018
Пользователь №: 31577



Верно, задача для первоклассника - только я эмбриолог а не профессиональный математик-статистик, поэтому я могу и не видеть некоторых подводных камней, поэтому я здесь и написал. Сейчас начну собирать данные, это не быстрая задача, мне нужно убедиться что распределение нормальное, и высчитать дисперсии для двух выборок, и понять насколько сильно эти дисперсии отличаются между собой. Если данные которые указывали бы - при каком различии в дисперсиях дисперсионный анализ не применим? Потому что сейчас все строится только на предположении что дисперсии различаются не сильно и распределение нормальное.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
100$
сообщение 26.06.2018 - 10:57
Сообщение #6


Дух форума
*

Группа: Пользователи
Сообщений: 649
Регистрация: 23.08.2010
Пользователь №: 22694



Цитата(Алексей Лк @ 26.06.2018 - 10:46) *
Верно, задача для первоклассника - только я эмбриолог а не профессиональный математик-статистик, поэтому я могу и не видеть некоторых подводных камней, поэтому я здесь и написал. Сейчас начну собирать данные, это не быстрая задача, мне нужно убедиться что распределение нормальное, и высчитать дисперсии для двух выборок, и понять насколько сильно эти дисперсии отличаются между собой. Если данные которые указывали бы - при каком различии в дисперсиях дисперсионный анализ не применим? Потому что сейчас все строится только на предположении что дисперсии различаются не сильно и распределение нормальное.


Нет-нет-нет, ни в коем случае. Здесь вообще не нужны никакие нормальности, дисперсии и прочие атрибуты тяжкой работы мысли. Просто рассчитайте величину
z=|p1-p2|/корень{p1*(1-p1)/n1 +p2*(1-p2)/n2} и сравните этот модуль с 97,5%-ной квантилью стандартного нормального распределения (1,96).
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
p2004r
сообщение 26.06.2018 - 12:05
Сообщение #7


Дух форума
*

Группа: Пользователи
Сообщений: 1032
Регистрация: 26.08.2010
Пользователь №: 22699




Это временной ряд, про стационарность которого мы ничего не знаем. Поэтому весь этот энтузиазм в треде мне не понятен. Надо видеть данные.


Signature
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
passant
сообщение 26.06.2018 - 12:31
Сообщение #8


Дух форума
*

Группа: Пользователи
Сообщений: 118
Регистрация: 27.04.2016
Пользователь №: 28223



Цитата(p2004r @ 26.06.2018 - 12:05) *
Это временной ряд, про стационарность которого мы ничего не знаем. Поэтому весь этот энтузиазм в треде мне не понятен. Надо видеть данные.

При всем уважении, а какую трудность в анализе Вы заметили?
Временной ряд? Возможно рассматривать и с этой позиции. Но! Нам точно известна change point. Да, можно проанализировать ряд "до", посмотреть, есть-ли тренд и/или сезонность, потом - если есть - сделать предсказание и сравнить с рядом "после". В общем-то то-же классическая задача. Если же тренда вообще нет - то задача вообще становиться тривиальной.
Впрочем, допускаю, что я что-то сугубо "медицинское" упустил. Буду рад за уточнения.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Алексей Лк
сообщение 26.06.2018 - 13:48
Сообщение #9


Дух форума
*

Группа: Пользователи
Сообщений: 14
Регистрация: 25.06.2018
Пользователь №: 31577



Цитата(100$ @ 26.06.2018 - 10:57) *
Нет-нет-нет, ни в коем случае. Здесь вообще не нужны никакие нормальности, дисперсии и прочие атрибуты тяжкой работы мысли. Просто рассчитайте величину
z=|p1-p2|/корень{p1*(1-p1)/n1 +p2*(1-p2)/n2} и сравните этот модуль с 97,5%-ной квантилью стандартного нормального распределения (1,96).


Я бы не сказал что дисперсию сложно рассчитать, это ведь программа делает, мне только цифры вбить по сути, а высчитать F критерий имея значения средних, стандартные отклонения и число членов в выборке вообще не проблема. Скажем так просто дисперсионный анализ при соблюдении всех условий помогает достоверно выявить различия между выборками, и я немного в нем разбираюсь. Мне бы не хотелось пользоваться статистическими методами в которых я не разбираюсь. К тому же дисперсионный анализ для меня в этом случае еще и необходим по той причине что бы выявить различия по месяцам в пределах одной выборки, вдруг там то же есть отклонения которых я еще не вижу.


Данных пока не будет, там большой объем и мне вычленять их придется пару недель точно. А что это за формула которая приведена выше? Это из какого разлела статистики? Это не t-критерий ли случаем? Если да то это то же подходит, просто t-критерий если не ошибаюсь является частным случаем дисперсионного анализа

Сообщение отредактировал Алексей Лк - 26.06.2018 - 13:58
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Алексей Лк
сообщение 26.06.2018 - 13:52
Сообщение #10


Дух форума
*

Группа: Пользователи
Сообщений: 14
Регистрация: 25.06.2018
Пользователь №: 31577



Цитата(p2004r @ 26.06.2018 - 12:05) *
Это временной ряд, про стационарность которого мы ничего не знаем. Поэтому весь этот энтузиазм в треде мне не понятен. Надо видеть данные.


А можно подробнее, что вы имеете ввиду? Вам нужны данные по средему, медиане, 25 и 75 процентилям, стандартному отклонению? Или что то еще?

Сообщение отредактировал Алексей Лк - 26.06.2018 - 13:56
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Алексей Лк
сообщение 26.06.2018 - 14:42
Сообщение #11


Дух форума
*

Группа: Пользователи
Сообщений: 14
Регистрация: 25.06.2018
Пользователь №: 31577



Вот еще тонкий момент - у меня в двух группах выходит совершенно разное число эмбрионов и пациентов, FA как лучше считать - на каждого пациента свой, или например на группу эмбрионов (типа на 10 эмбрионов такой выходит FA, на 10 следующих - другой) - ? Извините если вопрос покажется глупым)
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
passant
сообщение 26.06.2018 - 14:44
Сообщение #12


Дух форума
*

Группа: Пользователи
Сообщений: 118
Регистрация: 27.04.2016
Пользователь №: 28223



Цитата(Алексей Лк @ 26.06.2018 - 13:52) *
А можно подробнее, что вы имеете ввиду? Вам нужны данные по средему, медиане, 25 и 75 процентилям, стандартному отклонению? Или что то еще?
Стационарность временного ряда - отдельная тема. Стандарт : Тест Дики-Фуллера. Кроме того, могут использоваться и другие методы, включая упомянутые метод WMW и Смирнова, но с использованием т.е. "скользящих окон", на основе регриссионой модели, теста Филипса-Перона, анализ автокоррелограммы (он за одно и сезонность может показать), тест тест Сиджела - Тьюки, сериальный критерий стационарности и пр.

Сообщение отредактировал passant - 26.06.2018 - 14:52
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
100$
сообщение 26.06.2018 - 14:56
Сообщение #13


Дух форума
*

Группа: Пользователи
Сообщений: 649
Регистрация: 23.08.2010
Пользователь №: 22694



Цитата
Я бы не сказал что дисперсию сложно рассчитать, это ведь программа делает, мне только цифры вбить по сути, а высчитать F критерий имея значения средних, стандартные отклонения и число членов в выборке вообще не проблема.

Это из серии "Капитан Очевидность разъясняет".

Цитата
Скажем так просто дисперсионный анализ при соблюдении всех условий помогает достоверно выявить различия между выборками

То же самое можно сказать про любой состоятельный критерий в статистике. И ДА в этом случае - всего лишь один из.

Цитата
...и я немного в нем разбираюсь.

Пока незаметно.

Цитата
Мне бы не хотелось пользоваться статистическими методами в которых я не разбираюсь

В статистике принято пользоваться методами, которые обусловлены вероятностно-статистической моделью порождения данных. Мало ли, в чем вы не разбираетесь. Иначе получается как у того анекдотического студента, выучившего тему про блох, и все вопросы экзаменатора сводившего к блохам.

Цитата
К тому же дисперсионный анализ для меня в этом случае еще и необходим по той причине что бы выявить различия по месяцам в пределах одной выборки, вдруг там то же есть отклонения которых я еще не вижу.

Для этого вам потребуются масса пост-хок сравнений, которые затем надо будет "доводить до ума" процедурами FDR, что само по себе - задача не для новичка.


Цитата
А что это за формула которая приведена выше?

Проверка однородности двух биномиальных выборок.

Я исхожу из следующей вероятностно- статистической модели: ваши данные представляют собой результат прямого подсчета (столько-то образцов отправлено, из них столько-то загублено), т.е. данные измерены в абсолютной шкале. Здесь не надо изобретать новое слово в бухгалтерии и расписывать всю эту красоту по месяцам, по декадам, по дням недели и по времени суток в пределах одного дня: достаточно рассмотреть данные нарастающим итогом, благо они допускают суммирование по времени. Далее предполагаем, что один перевозчик/курьер возит образцы с вероятностью сохранности р1 (и, соответственно, с вероятностью брака q1=1-p1), второй - с вероятностью р2 (q2). Дальнейшее вы видели.

Сообщение отредактировал 100$ - 26.06.2018 - 15:01
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Алексей Лк
сообщение 26.06.2018 - 15:19
Сообщение #14


Дух форума
*

Группа: Пользователи
Сообщений: 14
Регистрация: 25.06.2018
Пользователь №: 31577



Цитата(passant @ 26.06.2018 - 14:44) *
Стационарность временного ряда - отдельная тема. Стандарт : Тест Дики-Фуллера. Кроме того, могут использоваться и другие методы, включая упомянутые метод WMW и Смирнова, но с использованием т.е. "скользящих окон", на основе регриссионой модели, теста Филипса-Перона, анализ автокоррелограммы (он за одно и сезонность может показать), тест тест Сиджела - Тьюки, сериальный критерий стационарности и пр.


Спасибо. Но это явно не к моей теме. В конце концов время для меня важно только в двух точках - дата смены курьера и равные временные отрезки в которых находится интересующая меня совокупность.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Алексей Лк
сообщение 26.06.2018 - 15:26
Сообщение #15


Дух форума
*

Группа: Пользователи
Сообщений: 14
Регистрация: 25.06.2018
Пользователь №: 31577



Цитата(100$ @ 26.06.2018 - 14:56) *
Это из серии "Капитан Очевидность разъясняет".


Вы не могли бы ответить на простой вопрос как правильно рассчитать FA - на пациента или на выбранную статичную когорту из эмбрионов? Я разбираюсть только в том что написано в учебнике Гланца - больше мне не надо. Там ясно и понятно написано про дисперсионный анализ - глубже не надо, пусть дебрями занимаются математики-статисты. Вы можете сказать почему в моем случае не стоит использовать ДА - по пунктам. Если нет - то я буду делать только то в чем я разбираюсь гарантированно (в рамках книги Гланца) - потому что мне за это отвечать. Какие вам нужны данные?

Сообщение отредактировал Алексей Лк - 26.06.2018 - 15:27
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 

3 страниц V   1 2 3 >
Добавить ответ в эту темуОткрыть тему