Помощь - Поиск - Пользователи - Календарь
Полная версия этой страницы: Дисперсионный анализ для отслеживания ошибок в результатах PGD
Форум врачей-аспирантов > Разделы форума > Медицинская статистика
Алексей Лк
Всем доброго утра! Я клинический эмбриолог, и в нашей клинике мы так же работаем с генетическим анализом эмбрионов. Сущность этого анализа заключается в том что мы отщепляем часть клеток эмбриона, кладем биоптат в буфер и отправляем на генетический анализ в сотрудничающую с нами генетическую фирму. Большая часть биоптата успешно проходит анализ, но некоторая часть всегда нечитабельна (ошибки при транспортировке). Биоптат который не прошел анализ идем за индексом FA (потеря сигнала).

У меня вопрос - недавно мы сменили курьера, который использует другие условия доставки материала, и у меня ощущение что число эмбрионов с FA резко выросло. Я имею точные данные о числе отправленых эмбрионов по месяцам и точные данные о числе FA. Дата смены курьера у меня так же имеется так что группы можно разделить по времени.

Как вы считаете, уважаемые участники форума, мог бы я использовать дисперсионный анализ (с неравномерной численностью групп) в качестве способа выявить различия между тем, сколько FA было у одной транспортной компании, и сколько у другой?

Условия
1) Нулевая гипотеза - раличия по FA между разными курьерами не существенны
2) анализируется только один фактор - число FA
3) анализ двух групп (старый курьер и новый курьер) за равный интервал времени но с разным числом пациентов (неравномерная численность групп)

Для применения дисперсионного анализа необходимо 4 условия
1) совокупность нормально распределена (скорее всего это так, но надо проверить по среднему, медиане и 25 и 75 процентилям)
2) каждая выборка случайно извлечена из исследуемой совокупности (выполнено)
3) каждая выборка независима от остальных выборок (выполнена)
4) дисперсии всех выборок равны или отличаются не сильно (надо рассчитать) - вопрос насколько допустимы различия между дисперсиями?

Какие подводные камни, можно или нет применять дисперсионный анализ - в общем жду мнений, спасибо!
passant
Цитата(Алексей Лк @ 26.06.2018 - 09:33) *
в общем жду мнений, спасибо!

По моему мнению - это классическая задача, в классической постановке. Если бы данные были бы доступными - взял бы в качестве примера для студентов применения метода к реальным задачам.
Особых "подводных камней" - особенно если у вас достаточное количество накопленных данных - не вижу. Обычная схема дисп. анализа, изложенная в учебниках.
Если дисперсии окажутся сильно различны - то существуют методы и на этот случай (начиная от критерия Крамера - Уэлча, до критерия Уилкоксона-Манна-Уитни, критерия Смирнова, и пр).

Вот если возникнут непонятности или вопросы - задавайте, будем думать.

Удачи!
Алексей Лк
Ясно спасибо! Я то же думаю что условия подходят, просто хотел мнения со стороны)
100$
Но это же задача для первоклассника: первый курьер доставил за все время 1000 проб, из низ 100 оказались бракованными. Имеем долю брака р1=100/1000 = .1
Второй - 500, брак 200, р2= .4. Ну, а сравнить две доли - задача для статистика тривиальная.
Алексей Лк
Верно, задача для первоклассника - только я эмбриолог а не профессиональный математик-статистик, поэтому я могу и не видеть некоторых подводных камней, поэтому я здесь и написал. Сейчас начну собирать данные, это не быстрая задача, мне нужно убедиться что распределение нормальное, и высчитать дисперсии для двух выборок, и понять насколько сильно эти дисперсии отличаются между собой. Если данные которые указывали бы - при каком различии в дисперсиях дисперсионный анализ не применим? Потому что сейчас все строится только на предположении что дисперсии различаются не сильно и распределение нормальное.
100$
Цитата(Алексей Лк @ 26.06.2018 - 10:46) *
Верно, задача для первоклассника - только я эмбриолог а не профессиональный математик-статистик, поэтому я могу и не видеть некоторых подводных камней, поэтому я здесь и написал. Сейчас начну собирать данные, это не быстрая задача, мне нужно убедиться что распределение нормальное, и высчитать дисперсии для двух выборок, и понять насколько сильно эти дисперсии отличаются между собой. Если данные которые указывали бы - при каком различии в дисперсиях дисперсионный анализ не применим? Потому что сейчас все строится только на предположении что дисперсии различаются не сильно и распределение нормальное.


Нет-нет-нет, ни в коем случае. Здесь вообще не нужны никакие нормальности, дисперсии и прочие атрибуты тяжкой работы мысли. Просто рассчитайте величину
z=|p1-p2|/корень{p1*(1-p1)/n1 +p2*(1-p2)/n2} и сравните этот модуль с 97,5%-ной квантилью стандартного нормального распределения (1,96).
p2004r

Это временной ряд, про стационарность которого мы ничего не знаем. Поэтому весь этот энтузиазм в треде мне не понятен. Надо видеть данные.
passant
Цитата(p2004r @ 26.06.2018 - 12:05) *
Это временной ряд, про стационарность которого мы ничего не знаем. Поэтому весь этот энтузиазм в треде мне не понятен. Надо видеть данные.

При всем уважении, а какую трудность в анализе Вы заметили?
Временной ряд? Возможно рассматривать и с этой позиции. Но! Нам точно известна change point. Да, можно проанализировать ряд "до", посмотреть, есть-ли тренд и/или сезонность, потом - если есть - сделать предсказание и сравнить с рядом "после". В общем-то то-же классическая задача. Если же тренда вообще нет - то задача вообще становиться тривиальной.
Впрочем, допускаю, что я что-то сугубо "медицинское" упустил. Буду рад за уточнения.
Алексей Лк
Цитата(100$ @ 26.06.2018 - 10:57) *
Нет-нет-нет, ни в коем случае. Здесь вообще не нужны никакие нормальности, дисперсии и прочие атрибуты тяжкой работы мысли. Просто рассчитайте величину
z=|p1-p2|/корень{p1*(1-p1)/n1 +p2*(1-p2)/n2} и сравните этот модуль с 97,5%-ной квантилью стандартного нормального распределения (1,96).


Я бы не сказал что дисперсию сложно рассчитать, это ведь программа делает, мне только цифры вбить по сути, а высчитать F критерий имея значения средних, стандартные отклонения и число членов в выборке вообще не проблема. Скажем так просто дисперсионный анализ при соблюдении всех условий помогает достоверно выявить различия между выборками, и я немного в нем разбираюсь. Мне бы не хотелось пользоваться статистическими методами в которых я не разбираюсь. К тому же дисперсионный анализ для меня в этом случае еще и необходим по той причине что бы выявить различия по месяцам в пределах одной выборки, вдруг там то же есть отклонения которых я еще не вижу.


Данных пока не будет, там большой объем и мне вычленять их придется пару недель точно. А что это за формула которая приведена выше? Это из какого разлела статистики? Это не t-критерий ли случаем? Если да то это то же подходит, просто t-критерий если не ошибаюсь является частным случаем дисперсионного анализа
Алексей Лк
Цитата(p2004r @ 26.06.2018 - 12:05) *
Это временной ряд, про стационарность которого мы ничего не знаем. Поэтому весь этот энтузиазм в треде мне не понятен. Надо видеть данные.


А можно подробнее, что вы имеете ввиду? Вам нужны данные по средему, медиане, 25 и 75 процентилям, стандартному отклонению? Или что то еще?
Алексей Лк
Вот еще тонкий момент - у меня в двух группах выходит совершенно разное число эмбрионов и пациентов, FA как лучше считать - на каждого пациента свой, или например на группу эмбрионов (типа на 10 эмбрионов такой выходит FA, на 10 следующих - другой) - ? Извините если вопрос покажется глупым)
passant
Цитата(Алексей Лк @ 26.06.2018 - 13:52) *
А можно подробнее, что вы имеете ввиду? Вам нужны данные по средему, медиане, 25 и 75 процентилям, стандартному отклонению? Или что то еще?
Стационарность временного ряда - отдельная тема. Стандарт : Тест Дики-Фуллера. Кроме того, могут использоваться и другие методы, включая упомянутые метод WMW и Смирнова, но с использованием т.е. "скользящих окон", на основе регриссионой модели, теста Филипса-Перона, анализ автокоррелограммы (он за одно и сезонность может показать), тест тест Сиджела - Тьюки, сериальный критерий стационарности и пр.
100$
Цитата
Я бы не сказал что дисперсию сложно рассчитать, это ведь программа делает, мне только цифры вбить по сути, а высчитать F критерий имея значения средних, стандартные отклонения и число членов в выборке вообще не проблема.

Это из серии "Капитан Очевидность разъясняет".

Цитата
Скажем так просто дисперсионный анализ при соблюдении всех условий помогает достоверно выявить различия между выборками

То же самое можно сказать про любой состоятельный критерий в статистике. И ДА в этом случае - всего лишь один из.

Цитата
...и я немного в нем разбираюсь.

Пока незаметно.

Цитата
Мне бы не хотелось пользоваться статистическими методами в которых я не разбираюсь

В статистике принято пользоваться методами, которые обусловлены вероятностно-статистической моделью порождения данных. Мало ли, в чем вы не разбираетесь. Иначе получается как у того анекдотического студента, выучившего тему про блох, и все вопросы экзаменатора сводившего к блохам.

Цитата
К тому же дисперсионный анализ для меня в этом случае еще и необходим по той причине что бы выявить различия по месяцам в пределах одной выборки, вдруг там то же есть отклонения которых я еще не вижу.

Для этого вам потребуются масса пост-хок сравнений, которые затем надо будет "доводить до ума" процедурами FDR, что само по себе - задача не для новичка.


Цитата
А что это за формула которая приведена выше?

Проверка однородности двух биномиальных выборок.

Я исхожу из следующей вероятностно- статистической модели: ваши данные представляют собой результат прямого подсчета (столько-то образцов отправлено, из них столько-то загублено), т.е. данные измерены в абсолютной шкале. Здесь не надо изобретать новое слово в бухгалтерии и расписывать всю эту красоту по месяцам, по декадам, по дням недели и по времени суток в пределах одного дня: достаточно рассмотреть данные нарастающим итогом, благо они допускают суммирование по времени. Далее предполагаем, что один перевозчик/курьер возит образцы с вероятностью сохранности р1 (и, соответственно, с вероятностью брака q1=1-p1), второй - с вероятностью р2 (q2). Дальнейшее вы видели.
Алексей Лк
Цитата(passant @ 26.06.2018 - 14:44) *
Стационарность временного ряда - отдельная тема. Стандарт : Тест Дики-Фуллера. Кроме того, могут использоваться и другие методы, включая упомянутые метод WMW и Смирнова, но с использованием т.е. "скользящих окон", на основе регриссионой модели, теста Филипса-Перона, анализ автокоррелограммы (он за одно и сезонность может показать), тест тест Сиджела - Тьюки, сериальный критерий стационарности и пр.


Спасибо. Но это явно не к моей теме. В конце концов время для меня важно только в двух точках - дата смены курьера и равные временные отрезки в которых находится интересующая меня совокупность.
Алексей Лк
Цитата(100$ @ 26.06.2018 - 14:56) *
Это из серии "Капитан Очевидность разъясняет".


Вы не могли бы ответить на простой вопрос как правильно рассчитать FA - на пациента или на выбранную статичную когорту из эмбрионов? Я разбираюсть только в том что написано в учебнике Гланца - больше мне не надо. Там ясно и понятно написано про дисперсионный анализ - глубже не надо, пусть дебрями занимаются математики-статисты. Вы можете сказать почему в моем случае не стоит использовать ДА - по пунктам. Если нет - то я буду делать только то в чем я разбираюсь гарантированно (в рамках книги Гланца) - потому что мне за это отвечать. Какие вам нужны данные?
passant
Цитата(Алексей Лк @ 26.06.2018 - 15:19) *
Спасибо. Но это явно не к моей теме. В конце концов время для меня важно только в двух точках - дата смены курьера и равные временные отрезки в которых находится интересующая меня совокупность.

Я тоже так считаю, поэтому в персом ответе исходил из этого. Но коллеги упомянули, что возможно присутствует тенденция. Ну, например, ввиду усложнения уличного трафика время доставки объективно возрасло и как следствие - количество потерянных образцов увеличилось. Или, сезонность - летом потери объективно больше, чем зимой (например). Вот, на всякий случай и дал "наводку", что делать при таких вариантах анализа. Если-же можно обойтись без такого усложнения, то см. мой первый пост.
Алексей Лк
В общем полагаю что FA надо все таки считать на когорту со статичным числом эмбрионов, например на 10. И брать группы в которых например будет не меньше 200 эмбрионов (n=20)
passant
Цитата(Алексей Лк @ 26.06.2018 - 15:35) *
В общем полагаю что FA надо все таки считать на когорту со статичным числом эмбрионов, например на 10. И брать группы в которых например будет не меньше 200 эмбрионов (n=20)

Теперь для меня, как не лекаря, все стало сложно и непонятно :-)
Давайте так. Если у вас одни и те-же пациенты, до и после смены курьера, причем вы точно знаете, сколько образцов каждого пациента испортилось у одного курьера и у другого - это один случай.
Если же пациенты разные, или просто такой статистики вы не ведете - то я бы не стал усложнять. Считал бы среднее (или медиану, если данные не нормальные) по всей совокупности и сравнивал бы их "до и после". Количество случаев - роли не играет. Метод - в зависимости от "нормальности" данных и однородности дисперсий. Я их упомянул, но вполне можно (ученые врачи к ним привыкли ) ограничится теми, что приведены у Гланца или Ребровой.
Вы задавали вопрос о том, как понять однородна-ли дисперсия? Проверяем критерием Фишера, который и отвечает нам на вопрос, можно-ли считать дисперсию равной. "Да"-"Нет". Все.
Алексей Лк
Цитата(passant @ 26.06.2018 - 15:51) *
Теперь для меня, как не лекаря, все стало сложно и непонятно :-)
Давайте так. Если у вас одни и те-же пациенты, до и после смены курьера, причем вы точно знаете, сколько образцов каждого пациента испортилось у одного курьера и у другого - это один случай.
Если же пациенты разные, или просто такой статистики вы не ведете - то я бы не стал усложнять. Считал бы среднее (или медиану, если данные не нормальные) по всей совокупности и сравнивал бы их "до и после". Количество случаев - роли не играет. Метод - в зависимости от "нормальности" данных и однородности дисперсий. Я их упомянул, но вполне можно (ученые врачи к ним привыкли ) ограничится теми, что приведены у Гланца или Ребровой.
Вы задавали вопрос о том, как понять однородна-ли дисперсия? Проверяем критерием Фишера, который и отвечает нам на вопрос, можно-ли считать дисперсию равной. "Да"-"Нет". Все.


Поясню какие у меня исходные данные. В день биопсируется несколько пациенток с разным числом эмбрионов, у кого то два - у кого то десять. Раз в неделю эта группа из эмбрионов от разных пациенток отправляется на анализ. Потом к нам приходит результат - и мы узнаем что у пациентки с двумя эмбрионами все ок, а у пациентки с 10 эмбрионами один эмбрион с FA. Число эмбрионов с FA у каждой пациентки совершенно точно независит от общего числа эмбрионов у нее. Поэтому мне надо принять какой то стандарт - что я считаю FA на любые 10 эмбрионов любых пациенток подряд по списку. Например если у меня за 3 недели было пробиопсированно 16 пациенток с общим числом эмбрионов 230, то у меня выходит 23 группы (точнее не группы а число единиц в выборке n=23), в каждой из которых будет свой FA, по этим 23 единицам-членам выборки я потом высчитаю среднее FA и стандартное отклонение. У меня правильная логика?

Пациенты разные и до и после смены курьера. FA независит от пациента и его числа эмбрионов, это случайная величина. Бывает что два эмбриона пробиопсировали и у двух нет сигнала (FA)
p2004r
Цитата(passant @ 26.06.2018 - 12:31) *
При всем уважении, а какую трудность в анализе Вы заметили?
Временной ряд? Возможно рассматривать и с этой позиции. Но! Нам точно известна change point. Да, можно проанализировать ряд "до", посмотреть, есть-ли тренд и/или сезонность, потом - если есть - сделать предсказание и сравнить с рядом "после". В общем-то то-же классическая задача. Если же тренда вообще нет - то задача вообще становиться тривиальной.
Впрочем, допускаю, что я что-то сугубо "медицинское" упустил. Буду рад за уточнения.


При всем уважении, ну как поможет знание "change point" на монотонно возрастающем (или убывающем) тренде?

Ну а остальные метания в правильном направлении. smile.gif
p2004r
Цитата(Алексей Лк @ 26.06.2018 - 13:52) *
А можно подробнее, что вы имеете ввиду? Вам нужны данные по средему, медиане, 25 и 75 процентилям, стандартному отклонению? Или что то еще?


Нужен ряд событий с датами когда они произошли (можно агрегированный по датам). Без этого эти рассуждения будут вечными (тут уже совсем не давно например обсуждали случай ДА с числом групп равным числу случаев smile.gif ).
Алексей Лк
Цитата(p2004r @ 26.06.2018 - 19:13) *
Нужен ряд событий с датами когда они произошли (можно агрегированный по датам). Без этого эти рассуждения будут вечными (тут уже совсем не давно например обсуждали случай ДА с числом групп равным числу случаев smile.gif ).


Я уже писал выше что даты не важны, там две точки - дата смены курьера и равные временные интервалы по обе стороны от этой даты, вмещающие в себя обе выборки. У вас есть мысли как правильно считать FA?
DrgLena
Цитата(Алексей Лк @ 26.06.2018 - 09:33) *
Как вы считаете, уважаемые участники форума, мог бы я использовать дисперсионный анализ (с неравномерной численностью групп) в качестве способа выявить различия между тем, сколько FA было у одной транспортной компании, и сколько у другой?

Нет, не можете. У вас есть только FA(False Analysis) и TA (True Analysis) и считать между ними среднее и дисперсию все равно что искать среднее между М и Ж smile.gif
100$ дал ответ, как проанализировать различия. Если не поняли, читайте Гланца про зеленых и розовых марсиан, стр. примерно 130, сравнение долей.
passant
Цитата(p2004r @ 26.06.2018 - 19:08) *
При всем уважении, ну как поможет знание "change point" на монотонно возрастающем (или убывающем) тренде?


Если "change point" неизвестна, даже на монотонном тренде - то вот вам две абслоютно реальные задачи
- найти точку, в которой тренд меняет скорость возрастания/убывания
- найти точку в котором меняется дисперсия и/или другие характеристики ряда (например - автокорреляция).
Обе задачи абсолютно реальны, например, в технической диагностике, в задачах компьютерной безопасности, в экономике. Я уверен, что и в медицине можно кучу ситуаций свести к этим.
Если - как у ТС - "change point" известна, то задаче действительно сильно упрощается. Не надо обнаруживать точку (которая то-ли есть, то-ли ее нет), а надо просто выяснить, остались-ли характеристики ряда на интервале "до" и на интервале "после" неизменными или же изменились. Следующее - и последнее- упрощение: вообще убрать время из рассмотрения, что судя по всему удовлетворяет ТС.


Я вот тут о другом подумал - а не может количество "бракованных" образцов зависеть от других факторов, например - как от индивидуальных особенностей конкретных пациентов, так и от опыта лаборанта, берущего образец и пр. (Сорри, если вопросы с точки зрения медицины ламмерские, но теоретические такие факторы могут иметь место).
Алексей Лк
Цитата(DrgLena @ 26.06.2018 - 19:42) *
Нет, не можете. У вас есть только FA(False Analysis) и TA (True Analysis) и считать между ними среднее и дисперсию все равно что искать среднее между М и Ж smile.gif
100$ дал ответ, как проанализировать различия. Если не поняли, читайте Гланца про зеленых и розовых марсиан, стр. примерно 130, сравнение долей.


Спасибо, это по всей видимости 5-я глава - анализ качественных признаков, ее я еще не читал, так что будет повод ознакомится).

PS. Беглый осмотр этой главы говорит мне что по всей видимости это именно то что нужно....
Алексей Лк
Цитата(passant @ 26.06.2018 - 19:48) *
Я вот тут о другом подумал - а не может количество "бракованных" образцов зависеть от других факторов, например - как от индивидуальных особенностей конкретных пациентов, так и от опыта лаборанта, берущего образец и пр. (Сорри, если вопросы с точки зрения медицины ламмерские, но теоретические такие факторы могут иметь место).


Теоретически могут, но вклад таких ошибок обычно минорен, они как раз входят в те значения FA что были до смены курьера, этот процент FA не менялся долгие годы. Резкий скачек был зафиксирован только недавно, и только после смены курьера.
100$
Цитата(Алексей Лк @ 26.06.2018 - 19:53) *
Спасибо, это по всей видимости 5-я глава - анализ качественных признаков, ее я еще не читал, так что будет повод ознакомится).

PS. Беглый осмотр этой главы говорит мне что по всей видимости это именно то что нужно....


Ну, наконец-то лед тронулся, господа присяжные заседатели. А то я уж подумал, что вам на этом форуме доплачивают за упрямство.
Алексей Лк
Цитата(100$ @ 26.06.2018 - 21:10) *
Ну, наконец-то лед тронулся, господа присяжные заседатели. А то я уж подумал, что вам на этом форуме доплачивают за упрямство.


Хороший пример - как одной точной фразой почему нельзя использовать ДА и прямой наводкой на нужное название метода (и даже страницу понятного учебника) тема была сразу выведена в нужное русло без лишних слов. Респект DrgLena. А упорстово полезно всегда). Хотя вашу информацию я то же учту)
100$
А что, господа, чай, устали глаза?
А вон, налево, святые образа-
Извольте перекреститься,
Да по домам расходиться. (с) П.А. Федотов

И учтите, что наиболее раскаленные места в аду предназначены для тех, кто не различает -ться/-тся.
p2004r
Цитата(Алексей Лк @ 26.06.2018 - 19:18) *
Я уже писал выше что даты не важны, там две точки - дата смены курьера и равные временные интервалы по обе стороны от этой даты, вмещающие в себя обе выборки. У вас есть мысли как правильно считать FA?


Продолжайте считать.
p2004r
Цитата(passant @ 26.06.2018 - 19:48) *
Если "change point" неизвестна, даже на монотонном тренде - то вот вам две абслоютно реальные задачи
- найти точку, в которой тренд меняет скорость возрастания/убывания
- найти точку в котором меняется дисперсия и/или другие характеристики ряда (например - автокорреляция).
Обе задачи абсолютно реальны, например, в технической диагностике, в задачах компьютерной безопасности, в экономике. Я уверен, что и в медицине можно кучу ситуаций свести к этим.
Если - как у ТС - "change point" известна, то задаче действительно сильно упрощается. Не надо обнаруживать точку (которая то-ли есть, то-ли ее нет), а надо просто выяснить, остались-ли характеристики ряда на интервале "до" и на интервале "после" неизменными или же изменились. Следующее - и последнее- упрощение: вообще убрать время из рассмотрения, что судя по всему удовлетворяет ТС.


Я вот тут о другом подумал - а не может количество "бракованных" образцов зависеть от других факторов, например - как от индивидуальных особенностей конкретных пациентов, так и от опыта лаборанта, берущего образец и пр. (Сорри, если вопросы с точки зрения медицины ламмерские, но теоретические такие факторы могут иметь место).


И делать все это с помощью дисперсионного анализа? Это временной ряд и придумано просто куча методов нахождения когда эти самые ченчпойн наступают, никакие велосипеды тут не нужны. А любые упрощения надо обосновывать, в медицине и так "наудовлетворялись" в области статистики в отечественных публикациях до предела.

Пусть данные топикстартер покажет, все остальное это пустые предположения на ничем не ограниченном множестве возможных ситуаций.
Для просмотра полной версии этой страницы, пожалуйста, пройдите по ссылке.
Форум IP.Board © 2001-2025 IPS, Inc.