Форум врачей-аспирантов

Здравствуйте, гость ( Вход | Регистрация )

45 страниц V   1 2 3 > » 

nokh
Отправлено: 6.05.2020 - 21:48


Дух форума
*

Группа: Пользователи
Сообщений: 1128
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(100$ @ 4.05.2020 - 17:50) *
...
Robotnik,
в вашем случае не нужно:
...

Согласен с 100$ во всём.
Если для статьи или хорошего доклада я бы указал ещё на такой гистограмме 95% ДИ для частот инцидентов с 1, 2, 3 и т.д. повреждениями.
То, что никакое распределение не подходит - логично, т.к. здесь - смесь нескольких распределений. Это хорошо видно по гистограмме с наложением плотности распределений - их как минимум 3: возможно от 1 до 7, 7-15 и свыше 15. С этой информацией дальше тоже можно работать, например попытаться разделить смесь этих распределений (см. приложенный рисунок) и поискать в доступной информации об инцидентах критерии (факторы), которые могут определять наблюдаемую гетерогенность. Ну для примера предположим различные орудия; т.е. если бы я взялся за топор, то даже в состоянии аффекта вряд ли рубанул врага 15 раз, но вот если гвоздём... может и 43 не предел... Думаю, что вы как спец в этом разберётесь в причинах.

PS. Учитывая особенности вашего окружения, лучше всё-таки иметь и среднее с ДИ, и медиану с квартилями. А то спросит полковник "сколько в среднем?" а вы ему про частоты...
Эскизы прикрепленных изображений
Прикрепленное изображение
 
  Форум: Медицинская статистика · Просмотр сообщения: #25730 · Ответов: 14 · Просмотров: 737

nokh
Отправлено: 6.05.2020 - 20:54


Дух форума
*

Группа: Пользователи
Сообщений: 1128
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(EkaterinaN @ 29.04.2020 - 15:58) *
Добрый день. Подскажите, пожалуйста, по статистическим методам. У меня есть группа больных (n=229) с терминальной стадией заболевания, которые прошли успешное лечение по устранению причины этого заболевания (избавились от вируса). После этого, я наблюдаю больных каждые 3-6 месяцев с целью выявления неблагоприятных исходов. Мне необходимо определить какие параметры (факторы) до лечения позволят спрогнозировать развитие неблагоприятного исхода, несмотря на успешную противовирусную терапию. Какой метод точнее: логистическая регрессия или анализ пропорциональных рисков Кокса (последний чаще встречается в работах с аналогичным дизайном исследования)?

Логистическая регрессия не подходит, т.к. имется не однократный срез, а продольное (longitudinal) исследование, где выборки одних и тех же пациентов на разных сроках являются зависимыми по отношению друг к другу.
Регрессия Кокса тоже не подходит, т.к. исследование продольное + полное, тогда как этот анализ используется для массивов с цензурированными наблюдениями, когда пациенты выбывают из исследования на разных сроках.
Вам нужна обобщённая линейная модель (Generalized Linear Model) с биномиальным откликом, в которой нужно правильно задать between-within subjects эффекты. Это самая общая и одновременно сложная модель. Мне такую строить не доводилось, но материалы в сети есть. Если выложите сюда свои данные (чтобы не волноваться, можно в общем виде, типа "фактор 1", "фактор 2" и т.п.), то может быть форумчане помогут вам подогнать такую модель в R, SPSS или Statistica.
  Форум: Медицинская статистика · Просмотр сообщения: #25729 · Ответов: 6 · Просмотров: 1204

nokh
Отправлено: 3.05.2020 - 08:25


Дух форума
*

Группа: Пользователи
Сообщений: 1128
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Прежде чем что-то считать полезно посмотреть распределение признака на гистограмме. В вашем случае - обязательно, т.к. объём выборки хороший. Я это к тому, что причин отклонения от нормальности может быть масса.

Ну например, распределение может быть скошенным асимметричным (часто положительная асимметрия). Тогда медиана и квартили пойдут, но вот среднее и ДИ уже нет или только после преобразований и с бутстрепом желательно. Хотя я вообще не вижу практической пользы от интервальной оценки медианы кроме как для сведения данных в каком-нибудь мета-анализе, межквартильный размах полезнее.

Или выборка может быть представлена смесью распределений, тогда и медиана ни о чём толком не скажет, т.к. она вообще может попасть в щель между распределениями. Тогда нужно выявлять источники гетерогенности и разделять сметсь распределений, с каждой подвыборкой потом работать отдельно. Короче, начните с графиков.
  Форум: Медицинская статистика · Просмотр сообщения: #25702 · Ответов: 14 · Просмотров: 737

nokh
Отправлено: 26.04.2020 - 06:53


Дух форума
*

Группа: Пользователи
Сообщений: 1128
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(EkaterinaN @ 25.04.2020 - 01:37) *
Добрый вечер, применим ли ROC-анализ для определения прогностической ценности порядковых или качественных переменных в диагностике какого-либо исхода? Или только для количественных данных?

Для порядковых - да, для качественных - только дихотомических (альтернативных, бинарных). Но в последнем случае при построении площади будет использоваться только одна точка над диагональю (или на диагонали), т.к. имеется только одна пара значений чувствительности и специфичности. Поэтому самостоятельной ценности такая штука не представляет, её имеет смысл использовать только для сопоставления диагностической эффективности разных показателей в разных шкалах (количественных, порядковых, качественных дихотомических), чтобы выразить их в одинаковых единицах - площадью под ROC-кривой.
  Форум: Медицинская статистика · Просмотр сообщения: #25661 · Ответов: 57 · Просмотров: 119281

nokh
Отправлено: 4.04.2020 - 06:33


Дух форума
*

Группа: Пользователи
Сообщений: 1128
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


По объединени р-значений. Я качал когда-то пару-тройку книг по мета-анализу (МА), но их просмотр по диагонали не оставил глубокого впечатления. Помню, что видел там формулу из Сокала и Рольфа на стр. 794 и далее. В этом pdf это стр. 806 и пример на стр. 807: http://yadi.sk/d/CMndWKYvQu6b2

Одного из наших магистрантов пару лет назад работодатель отправлял на учёбу в Москву, где им прочли хороший курс по МА с практикой. Из того, чем он бегло поделился, я понял, что главным был корректный отбор публикаций в исследование, когда из нескольких сотен осталось пара десятков. Я не владею МА, но, вероятно, тема хорошо разработана и спецы в этом есть и в РФ. Но известный косяк всех МА - публикационное смещение (publication bias), которое в принципе неустранимо никакой статистикой.

Ясно, что наряду оценкой статистической значимости эффекта нужно ещё сводить воедино и величину эффекта (effect size). При этом одни авторы дают медианы с квартилями, другие средние с ДИ или стандартными отклонениями, ст. ошибкми... Попадалась работа как наиболее статистически обоснованно конверитировать эти показатели друг в друга для сведения. Если интересно - поищу.
  Форум: Медицинская статистика · Просмотр сообщения: #25557 · Ответов: 17 · Просмотров: 1300

nokh
Отправлено: 4.04.2020 - 06:05


Дух форума
*

Группа: Пользователи
Сообщений: 1128
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(drug535 @ 4.04.2020 - 03:30) *
Изучалась динамика значений показателя уверенности в себе у испытуемых экспериментальной группы в процессе проведения тренинговых занятий. При этом по результатам первичной (входящей) диагностики Х эмп.=9.72, а на этапе повторного (контрольного) обследования Х эмп.=2.82. Можно ли использовать для решения задачи t-критерий Стьюдента для независимых выборок?
Как можно обосновать свой ответ?

1) Если есть основания считать распределение показателя "уверенность в себе" в популяции нормально распределённым, то Стьюдента использовать можно, иначе непараметрику и лучше ресэмплинг. По тем учебникам статистики для психологов, которые видел, у меня сложилось впечателение, что авторы сильно грешат неправомочным использованием параметрики.
2) Если в тренинге и контроле были одни и те же испытуемые (из вопроса это не вполне понятно) нужно использовать критерии для зависимых выборок. Они есть и параметрические, и непараметрические. Анализ зависимых выборок на примере разобран в Лабораторной работе 7 этого практикума: https://yadi.sk/d/g50i73pt3J6pAa
3) Если для каждого испыпуемого был ряд измерений, например (1) до тренинга, (2) на этапе тренинга (3) контроль в конце, то парные Стьюдент, Уилкоксон и др. тесты для двух групп также некорректны (ну или на крайний случай - нужны поправки на множественность сравнений типа Бонферрони, Холма и т.п.) Здесь желательно анализировать всю панель одновремнно методами анализа повторных измерений.
  Форум: Медицинская статистика · Просмотр сообщения: #25556 · Ответов: 2 · Просмотров: 437

nokh
Отправлено: 4.04.2020 - 05:53


Дух форума
*

Группа: Пользователи
Сообщений: 1128
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Не нуда запастил, сорри... Стёр.
  Форум: Медицинская статистика · Просмотр сообщения: #25555 · Ответов: 6 · Просмотров: 563

nokh
Отправлено: 4.04.2020 - 05:52


Дух форума
*

Группа: Пользователи
Сообщений: 1128
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Благодарю за мнения и код! Попробую всё-таки ещё свой вариант, интересно будет сравнить с результатом р2004r.
По поводу Сайсон - Глаза ничего не читал, но мне решительно не понравился ноль в качестве нижней границы. Получается так: по набору в 73 объекта частота почти 9,5%, а нижняя граница ноль. Причём не 0.0001, что и так нереалистично мало, а вообще 0.00000000. Т.е. по-сути, метод говорит, что несмотря на то, что в выборке у меня оказалось почти 10%, если я продолжу процесс извлечения выборок, то в 95% выборок не обнуружу ни одного объёта такой категории. Не верю. Поэтому более склонен довериться моделированию. Последнее для меня очень затратно по времени написания кодов, но может за самоизоляцию и получится (как ни странно, сейчас времени вообще нет: в НИИ дана команда сидеть дома и писать статьи на год вперёд))), а в универе народ у кого занятий много вообще вешается с этой дистанционкой...)
  Форум: Медицинская статистика · Просмотр сообщения: #25554 · Ответов: 6 · Просмотров: 563

nokh
Отправлено: 2.04.2020 - 09:24


Дух форума
*

Группа: Пользователи
Сообщений: 1128
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Раньше считал (вероятно не совсем корректно) ДИ для долей всегда методами для биномиального распределения. Т.е., например, в ряду абсолютных частот 4-х категорий {13, 35, 18, 7} с суммой n=73 доля первой категории f=13/73*100%=17,8%. Для неё находил 95% ДИ методом Клоппера - Пирсона или в полседнее время методом Джеффриса (байесовский априорный интервал): [10,4; 27,7].
Сейчас решил посчитать ДИ для полиномиального распределения, думал, что раз информации больше, то они Уже будут. Ничего подобного. R-пакет DescTool считает одновременные ДИ для полиномиалного распределения функцией MultinomCI.
library(DescTools)
x<-c(13,35,18,7)
MultinomCI(x)
est lwr.ci upr.ci
[1,] 0.17808219 0.06849315 0.3006248
[2,] 0.47945205 0.36986301 0.6019947
[3,] 0.24657534 0.13698630 0.3691180
[4,] 0.09589041 0.00000000 0.2184330
По умолчанию считает ДИ методом Сайсона - Глаза по SAS-овскому алгоритму. Всё хуже, чем даже биномиальный Клоппер - Писон, который ругают за консервативность. Видно, что для 7 (9,6%) нижняя граница вообще ноль. Более адекватные результаты даёт только метод Уилсона:
> MultinomCI(x, method="wilson")
est lwr.ci upr.ci
[1,] 0.17808219 0.10713373 0.2812173
[2,] 0.47945205 0.36877454 0.5921840
[3,] 0.24657534 0.16204465 0.3564445
[4,] 0.09589041 0.04722895 0.1849564

Воросы:
1) Каким способом считаете вы?
2) Хочу попробовать сделать бутстреп. Думаю так: многократно пробублировать набор 4 типов в соотношении 13 : 35 : 18 : 7 и извлекать из него с возвратом случайные выборки размером n=73; для каждогго типа потом рассчитать ДИ методом процентилей. Корректно так будет организовать?
  Форум: Медицинская статистика · Просмотр сообщения: #25544 · Ответов: 6 · Просмотров: 563

nokh
Отправлено: 10.01.2020 - 10:50


Дух форума
*

Группа: Пользователи
Сообщений: 1128
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(100$ @ 7.01.2020 - 15:05) *
Указанную главу в монографии прочел и вижу решение этой задачи немного иначе.

За поправку спасибо.
Что касается многомерного подхода, то он, наряду с другими, имеет право на существование. Возможно, он лучше. Возможно ещё лучше брать из него главные компоненты или главные координаты. Но этим нужно специально заниматься, считать, сравнивать с результатами классического подхода и т.д. Я же пытался действовать в рамках используемой большинством практиков схемы, но поскольку сразу же обнаружил в ней минусы, то пришлось не ограничиться внедрением ресемплинга, а влезть поглубже. А о статистическом уровне массовых работ по КА можно судить по статьям отсюда: http://adaptometry.narod.ru/Index.htm
Не хватило времени и сил поработать со второй составляющей корреляционной адаптометрии - дисперсией, которая вроде рассчитывается именно как многомерная дисперсия (могу ошибаться).
А в чём считали многомерного Спирмена? Попытался в Нmisc под R, но у меня пакет встал с предупреждениями об ошибках и пока не считает вообще ничего...

P.S. А вообще методика КА оказалась интересной. Я уже в 3 областях попробовал и везде "работает". У меня даже появилась своя идея объяснения эффекта в плюс к тем 7, что есть на сайте. Не такая крутая, конечно, но зато статистическая (и может быть самая правильная ;) ). Но это тоже нужно специально проверять, долго возиться с данными, причём чужими...
  Форум: Медицинская статистика · Просмотр сообщения: #25113 · Ответов: 25 · Просмотров: 20376

nokh
Отправлено: 10.01.2020 - 09:56


Дух форума
*

Группа: Пользователи
Сообщений: 1128
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(Игорь @ 10.01.2020 - 10:20) *
... Но человек написал "помогите понять". А начинается понимание с четкого определения понятий и заканчивая нюансами. Свое мнение я изложил в работе, где логистическая регрессия практически полностью описана на 1 странице, включая ссылки на авторитеные источники, и добавить более нечего.

А вот с этим не согласен уже я)). Чёткие определения понятий следует искать в хорошей литературе, а не на форумах. И если бы топикстартер попросил дать ему определение логита, то я бы промолчал. Поэтому в моём посте определений нет, а формулы не могут считаться таковыми, поскольку взяты из контекста ответа на другой вопрос. Но топикстартер попросил другого, а именно: как получается конкретное числовое значение, полученное в конкретной программе. В принципе, если чуть копнуть литературу, то этот вопрос Felix77 мог закрыть самостоятельно. Но я посмотрел тот блог, увидел ошибку и более 300 лайков статьи и не захотел, чтобы и наш форумчанин стал жертвой плохого совета. Оставить комментарий на том ресурсе из аккаунта Гугл не получилось, а специально регистрироваться не стал. К тому же указание на ошибку автора уже есть в комменте, правда очень неуверенное. Поэтому показал расчёт вероятности P на нашем форуме здесь.
В своё время осваивал ЛР по литературе и помощи к программам. Хорошая помощь у пакета MedCalc, где есть такие-же формулы как в моём ответе: https://www.medcalc.org/manual/logistic_regression.php
  Форум: Медицинская статистика · Просмотр сообщения: #25111 · Ответов: 9 · Просмотров: 1686

nokh
Отправлено: 2.01.2020 - 19:54


Дух форума
*

Группа: Пользователи
Сообщений: 1128
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(Felix77 @ 2.01.2020 - 10:23) *
Доброго времени суток!
help.gif понять в примере по логистической регрессии в R, как получается коэффициент вероятности 0.854 при GRE-790, GPA-3.8, rank-1. Я так понимаю это можно сделать из коэф. 'estimate'

https://towardsdatascience.com/simply-expla...-r-b919acb1d6b3

У автора цитируемого блога в расчётах есть ошибка.
Спорно. Категориальные факторы однозначно следует вводить для номинальных предикторов, но не порядковых. Тогда все эти as.factor не нужны. Хотя так делают, если есть основания считать, что ранги не могут быть интерпретированы в линейной шкале. Покажу на имеющемся этом примере.

Логит=Свободный член + Фактор1*Коэффициент1 + Фактор2*Коэффициент2 + ...
Логит=-3,989979+790*0,002264+3,8*0,804038=0,8539254
Именно это значение выдаётся в качестве прогноза по predict(logit,x)=0.85426 (это без ошибок округления при моём ручном расчёте выше).

Ошибка. Но это не Р, а именно Логит при значениях факторов (gre=790,gpa=3.8,rank=as.factor(1)) для подогнанной модели
Р=1/(1+е^(-Логит)), где е - основание натурального логарифма. Соответственно конец нужно исправить на:

> predicted.logit<-predict(logit,x)
> predicted.logit
1
0.85426
> p=1/(1+exp(-predicted.logit))
> p
1
0.70146

Соответственно, вероятность Р=0,70146
(а если не рассматривать порядковые данные как номинальные, то P=0,6803324)
  Форум: Медицинская статистика · Просмотр сообщения: #25074 · Ответов: 9 · Просмотров: 1686

nokh
Отправлено: 9.12.2019 - 00:30


Дух форума
*

Группа: Пользователи
Сообщений: 1128
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(md416 @ 9.12.2019 - 00:32) *
Подскажите пожалуйста, где можно почитать про выбор оптимальной точки отсечения?
Когда мне на пальцах объясняли эту тему, у меня отложилось, что точка отсечения - это где Sp=Se,то есть их пересечение. Но оказалось, что есть ещё десяток методов... в.т.ч критерий Юдена.
Есть ли какой-то критерий для сравнения данных данных подходов?

С Юденом как раз всё просто, прочитать немного можно здесь со стр. 201 и далее: https://yadi.sk/d/g50i73pt3J6pAa
Сложнее обоснованно отклоняться в сторону увеличения Ч или Сп. Там преимущественно нужно считать экономические показатели. Например,если заболевание редкое (низкий преваленс), а Сп не 100%-ная, то можно просто разориться на проведённых впустую обследованиях здоровых... Но может кто-нибудь на форуме и имеет опыт подобных расчётов.
  Форум: Медицинская статистика · Просмотр сообщения: #24864 · Ответов: 57 · Просмотров: 119281

nokh
Отправлено: 8.12.2019 - 00:15


Дух форума
*

Группа: Пользователи
Сообщений: 1128
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Полностью неверное использование занятых терминов!
1) То что вы делаете не является факторным анализом. Прочитайте любую статью/ посмотрите ролик про ФА, чтобы в этом убедиться и не использовать термин в ином контексте.
2) Термины "однофакторный" и "многофакторный" применяются для обозначения экспериментальных схем и моделей дисперсионного анализа (Analysis of variance = ANOVA). Аналогично: см что-нибудь по Anova.
3) То что вы делаете называется бинарной и множественной логистической регрессией. Свободный член (intercept, constant) обязательно нужен.
  Форум: Медицинская статистика · Просмотр сообщения: #24859 · Ответов: 6 · Просмотров: 1204

nokh
Отправлено: 31.10.2019 - 08:17


Дух форума
*

Группа: Пользователи
Сообщений: 1128
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Сообщение #19 подкорректировал, материалы к сообщению прикрепил.
  Форум: Медицинская статистика · Просмотр сообщения: #24719 · Ответов: 25 · Просмотров: 20376

nokh
Отправлено: 28.09.2019 - 00:49


Дух форума
*

Группа: Пользователи
Сообщений: 1128
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Предлагаю обсудить различия между двумя последними группами. Данные оказались интересными с точки зрения анализа: они действительно сильно дискретны, заметно различаются средними, но при этом имеют одинаковую медиану. Критерий знаков (не учитывает нулевые разности) показывает высоко статистически значимые различия. Критерий Уилкоксона для разностей пар - тоже (см. скриншот). Но вот я провёл оценку значимости непосредственно средней разности в парах методом Монте-Карло и у меня получилось р=0,125 (одностороннее), что разительно отличается от результатов классики непараметрики. Если народ подтянется в эту ветку форума - могу показать как считал. Также моделирование наглядно показало, что высокая дискретность данных приводит к дискретности распределения разностей, а далее - и к дискретности р-значений. Поскольку я совсем не математик, то оценить степень (не)тривиальности такого эмпирического заключения не могу pardon.gif ))

А что получилось у вас? Ну и самое главное: отличаются ли минимальные подавляющие концентрации этих двух наборов антибиотиков?
Эскизы прикрепленных изображений
Прикрепленное изображение
 
  Форум: Медицинская статистика · Просмотр сообщения: #24593 · Ответов: 6 · Просмотров: 1755

nokh
Отправлено: 24.09.2019 - 21:55


Дух форума
*

Группа: Пользователи
Сообщений: 1128
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Хотел сделать Монте-Карло в R, но оказалось, что выборки-то зависимые! Значит нужны парные критерии или аналоги нужного варианта ДА. Из ресэмплинга здесь просится бустреп для разностей пар с построением доверительных интервалов разности. Это можно сделать средствами PAST. Про то как реализовать здесь Монте-Карло подумаю ещё, т.к. моя заготовка для независимых выборок сюда не пойдёт: нужно менять местами пары внутри отдельных строк...
  Форум: Медицинская статистика · Просмотр сообщения: #24585 · Ответов: 6 · Просмотров: 1755

nokh
Отправлено: 23.09.2019 - 19:24


Дух форума
*

Группа: Пользователи
Сообщений: 1128
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Согласен с passant.
Есть ремарки по У-М-В и К-У.
1) Эти тесты не на равенство медиан (как маломощный медианный критерий), а на равенство функций распределений.
2) В классической литературе указывается оговорка, что они применимы в случае распределений сходного типа. Однако оба теста являются частными случаями ридит-анализа, который разрабатывался совсем из других теоретических предпосылок и не предполагает сходства распределений.

Также можно организовать сравнение средних техникой Монте-Карло напрямую, безо всяких статкритериев. Я голосую за такой вариант.
  Форум: Медицинская статистика · Просмотр сообщения: #24580 · Ответов: 6 · Просмотров: 1755

nokh
Отправлено: 17.09.2019 - 21:57


Дух форума
*

Группа: Пользователи
Сообщений: 1128
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(Camel1000 @ 17.09.2019 - 18:41) *
Всем добрый день!
Прошу помощи в анализе следующей ситуации.
Имеется несколько клинических групп больных (чувствительны\устойчивы к препаратам, несколько групп по степени ожирения и т.п.). У каждой группы из Н больных для каждого больного имеются данные по большому числу параметров (экспрессия нескольких сотен элементов). Как лучше проанализировать, есть ли разница в значении этих параметров при сравнении групп и если есть, какие конкретно элементы связаны с этими различиями?
Спасибо заранее!

Задача не столько из области биостатистики, сколько биоинформатики, где такие исследования уже рутина. Алгоритм в общих чертах такой.

1) Препроцессинг. Обычно такие данные получают в ходе исследований на микрочипах (microarray). При этом результаты оценки флуоресценции на разных чипах могут заметно отличаться в результате небиологических причин. Поэтому сначала проводят так называемую нормализацию результатов измерений для устранения этой технической изменчивости. Способов много, один из лучших - квантильная нормализация, но всё время появляется что-то новее и лучше. Далее данные преобразуют, чаще всего используют логарифмирование по основанию 2. Наконец, если для некоторых образцов имелись результаты нескольких измерений - их усредняют (среднее или медиана).

2) Отбор показателей (генов) для дифференциальной диагностики. Здесь используются разные фильтры из статистических и графических методов. Например, можно провести однофакторный дисперсионный анализ по каждому гену и рассчитать р-значение, а далее отсортировать гены в порядке увеличения р-значения. Тогда в топе окажутся лучшие кандидаты (с меньшим р). Для двух дифференцируемых групп применяют вулканные графики, где помимо р-значения отражены и различия в групповых средних. В результате получают список генов, причём он может быть как полным (например, несколько сотен генов, по которым обнаружены статистически значимые межгрупповые различия, обычно с учётом поправок на множественность сравнений), так и произвольно обрезанным исследователем (например, первые 100 или 200 генов) - встречал и так, и так.

3) Многомерный анализ данных списка пункта (2) для визуализации и/или интерпретации различий. Используют анализ главных компонент, дискриминантный анализ, метод опорных векторов, кластерный анализ с построением тепловых карт и т.д. Проводят интерпретацию обнаруженных генетических паттернов (если получается) и разрабатывают схемы дифференциальной диагностики на основе полученных сведений.

Существуют особенности обработки данных одноканальных и двухканальных микрочипов. Существует много свободного и коммерческого софта для анализа. Читайте современные статьи, чтобы ориентироваться в софте и деталях анализа, т.к. данные в книгах быстро устаревают. Я осваивал подобный анализ на пакетах для среды R. Только у нас флуоресценция изменялась не в зависимости от экспрессии, а в зависимости от силы иммуноферментного связывания (метод иммуносигнатуры). Статью прикрепил, может будет полезна, т.к. все этапы расписаны достаточно подробно.
Прикрепленные файлы
 
  Форум: Медицинская статистика · Просмотр сообщения: #24522 · Ответов: 3 · Просмотров: 1461

nokh
Отправлено: 1.09.2019 - 17:36


Дух форума
*

Группа: Пользователи
Сообщений: 1128
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Анонос моего раздела по КА в коллективной монографии. Обсуждаются следующие вопросы:

1) Какую брать корреляцию: Пирсона или Спирмена
2) Какую использовать меру: вес корреляционного графа (ВКГ) или среднюю абсолютную корреляцию (САК)
3) Какие корреляции брать в расчёт: все или только превышающие некий порог (часто берут 0,5 по абсолютному значению).
4) Как рассчитать 95% ДИ для ВКГ с использованием техник бутстрепа и складного ножа
5) Как проверить многопеременные данные на выбросы для ВКГ
6) Как сравнить выборки по ВКГ с помощью:
- расчёта 95% ДИ,
- рандомизационной техники Монте-Карло,
- дисперсионного анализа на псевдозначениях техники складного ножа.

Монография и приложение к ней с кодами R для расчётов прикреплены под этим сообщением.
Также их можно скачать с яндекс-диска по ссылке:
https://yadi.sk/d/uj1Mg4OUBMp4SA
(яндекс-диск некоторыми браузерами открывается некорректно, пробуйте несколько если что...)
Прикрепленные файлы
Прикрепленный файл  Метаорганизм_Стресс_и_адаптация_2019.pdf ( 11,91 мегабайт ) Кол-во скачиваний: 399
Прикрепленный файл  Приложение_Корреляционная_адаптометрия_в_R.doc ( 87 килобайт ) Кол-во скачиваний: 38
 
  Форум: Медицинская статистика · Просмотр сообщения: #24400 · Ответов: 25 · Просмотров: 20376

nokh
Отправлено: 13.07.2019 - 06:51


Дух форума
*

Группа: Пользователи
Сообщений: 1128
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Вот скажите, в чем наша цель: 1) найти статистически значимые различия или 2) приблизиться к пониманию устройства мира? Поскольку не для студента/аспиранта, а для учёного очевидно, что (2), многим можно пожертвовать лишь бы не сделать лжеоткрытия. То, что мы не обнаружим пока чего-то, что реально есть в устройстве мира (ошибка второго рода) не так страшно: жили же как-то до этого, не обнаружили мы - обнаружат наши последователи или потомки. А вот если мы обнаружим что-то чего на самом деле нет (ошибка первого рода) и будем действовать далее под влиянием этого заблуждения, то можем наломать дров... Именно поэтому при планировании исследований ошибка второго рода допускается и закладывается в несколько раз большей, чем первой. Поэтому когда в двух группах различия по Стьюденту есть, а в нескольких - нет, нужно в первую очередь радоваться тому, что вам удалось собрать материал не по маленькому кусочку реальности, а иметь более полную картину, иначе бы вы наломали дров. А то что какие-то различия стали незначимыми - да и хрен с ними... Ну и про множественность сравнений: если не выдрать две выборки из материала и забыть про остальные, то ведь нужно делать достаточно консервативные поправки на множественность сравнений, после которых значимость часто теряется.

В случае нормального распределения половинка 95% ДИ (положительная или отрицательная по отношению к среднему, не важно) вычисляется как стандартная ошибка, умноженная на критическое значение распределения Стьюдента. Поскольку для бесконечно большой выборки при альфа=0,05 это значение равно 1,96, то в реальных выборках оно больше двух. Т.е. интервал по усам ст. ошибки всегда как минимум в два раза уже, чем 95% ДИ. По поводу "пользы" ст. ошибки для описания данных - см. в руководствах Ланга в соседней теме. А на вопрос "Почему тогда в статьях почти все всегда дают ошибку среднего, а не ДИ" ответ: потому что бараны, т.е.: 1) невежественны и 2) упёрты/консервативны.
  Форум: Медицинская статистика · Просмотр сообщения: #24200 · Ответов: 2 · Просмотров: 2069

nokh
Отправлено: 10.07.2019 - 08:39


Дух форума
*

Группа: Пользователи
Сообщений: 1128
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(Cules2013 @ 10.07.2019 - 03:29) *
1. Вычитал, что если данные не соответствую ни нормальному распределению остатков, ни равенству дисперсий (стандартных отклонений), то лучше их преобразовать каким-то методом, т.к. большая разница в дисперсия также проблема и для непараметрических критериев. Могу ли я просто вручную сделать это преобразование: например, 1/х, ln (x) или x^n и просто выбрать наиболее подходящее, проверяя итоговые данные по Шапиро-Уилку? Я вот методом тыка вручную нашёл, что возведение данных в 6 степень наиболее оптимально для получения нормального распределения.

6. Я уже касался когда-то этого вопроса, но так и не получил того ответа, который ожидал. Как просто и адекватно визуализировать данные, если я их преобразовал, допустим, возведением в степень? Графически суть особо не меняется, но там уже другие количественные значения. Могу ли я график оставить по нативным данным, а звёздочки различий между ними поставить уже по преобразованным данным? Или лучше тогда "нормализовать" как-то данные, допустим, перевести их в проценты?

Пока времени почти нет; отвечу только на эти вопросы.
1) Идеально, если нужное преобразование получается из теоретического анализа явления. Например, зная что размер листовой пластинки имеет генетически обусловленную форму и не может варьировать свободно и по дине и по ширине, глупо ждать нормального распределения площади листа. Если и длина листа, и ширина варьируют по нормальному закону, площадь будет изменяться пропорционально произведению длины и ширины. Маленький листик 3х3 имеет площадь 9, крупнее 4х4=16, крупный 5х5=25. Т.е. несмотря на то, что и длина и ширина увеличивались в этом ряду на единицу, разности площадей 9 и 16 - 7, а 16 и 25 - 9. Т.е. В распределении площадей появляется положительная асимметрия и в силу этого площадь как таковая является априори ненормально распределённой. Но если работать с квадратными корнями из площадей, которые распределены нормально, смещения оценок, привносимых асимметрией распределения не будет и дисперсия станет независимой от среднего. Аналогично выводится логарифмическое преобразование для показателей связанных со временем (скорость, численность, и т.п.). Раньше и подбирали вручную (не совсем, делались расчёты и строились графики, есть у Хальда "Математическая статистика"). Сейчас делают или как обычно принято в вашей области или используют адаптивное к данным преобразование Бокса - Кокса. 1/х, ln (x) или x^n - частные случаи преобразования Бокса- Кокса.

6) Если "по-студенчески" то можно по нативным со звёздочками. Если более серьёзно, то нужно рассчитать по преобразованным средние с 95% ДИ, а на графике пересчитать (ретрансформировать) их в нативную шкалу. Т.е. для примера выше квадратные корни из площадей возвести в квадрат. ДИ на графике получатся в этом случае немного асимметричными - как и само исходное распределение. В некоторых случаях удобнее оставить данные на графиках в шкале преобразования, например - логарифмической (большинство пакетов позволяют изменить тип шкалы на логарифмический).
  Форум: Медицинская статистика · Просмотр сообщения: #24176 · Ответов: 1 · Просмотров: 1336

nokh
Отправлено: 10.07.2019 - 07:53


Дух форума
*

Группа: Пользователи
Сообщений: 1128
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(Cules2013 @ 9.07.2019 - 19:48) *
А если разница "после-до" отрицательная? Нужно брать по модулю для расчёта ДИ?

Я просто почему-то решил, что показатель увеличивается:) Если показатель в большинстве случаев уменьшается - берите разность (До-После). Но только для всех одинаково, т.е. если вдруг где-то будут положительные разности, а где-то отрицательные - так и нужно обрабатывать. Например если одна разность 4, а вторая (-2), то значит в среднем показатель изменился на (4+(-2))/2=1.
В любом случае по модулю брать нельзя, но можно для удобства интерпретации умножить ВЕСЬ набор данных на (-1).
  Форум: Медицинская статистика · Просмотр сообщения: #24175 · Ответов: 13 · Просмотров: 2472

nokh
Отправлено: 9.07.2019 - 05:42


Дух форума
*

Группа: Пользователи
Сообщений: 1128
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(Cules2013 @ 5.07.2019 - 13:13) *
Может я нечётко объяснил. Попробую ещё раз. Я имел ввиду попарные сравнения "до-после" в пределах одной группы. Ясное дело, что межгрупповые отличия пойдут как несвязанные выборки. Итак, у меня есть 15 крыс, я у них зафиксировал допустим что уровень предпочтения сахарозы, чтобы оценить их уровень депрессивности. Это у нас фоновая запись. Затем, на 3-й день стресс-воздействия, перед забоем, я повторил эксперимент. Здесь проблем нет, кол-во животных одинаковое, и получаются типичные связанные выборки. Но на 10-й день у меня уже 10 крыс, т.к. после 3-го дня я забил 5 шт. Так вот, сравнивая результаты 3 дня допустим с 10-м, я сравниваю 15 чисел с 10 числами (-5 крыс забой), и получается, что 10 крыс = 10 чисел, у меня идут как связанные выборки, но 5 чисел из 3-го дня - их не с чем сравнивать, ведь на 10-й день этих крыс уже нет, они мертвы. Вот и получается какой-то суррогат - одни данные имеют пару для сравнения, другие нет. И если я беру АNOVA или Данна и ставлю сравнения связанных выборок, то он мне разумно заявляет, что нельзя посчитать статистику на связанных выборках с отсутствующими значениями.
Ну а цель исследования проста - проверить, вызывает ли моё стресс-воздействие депрессию у крыс или нет. Поэтому и беру тест на сахарозу и биохимию мозга. Ну а внутригрупповые сравнения должны показать, изменяется ли картина со временем, или нет.
Про связь "гуманное умерщвление" и "несвязанные выборки" вообще не въехал. При чём тут это?

В части доказательства эффекта можно пойти двумя путями: простым и более сложным, но показатели, задействованные в первом способе могут быть полезны и во втором.

1) Через величину эффекта с доверительными интервалами (ДИ). Считаете для каждой из трёх пятёрок "До-После" разность (После-До) с 95% ДИ. Если ДИ не включает ноль, значит можно интерпретировать величину эффекта как статистически значимо отличающуюся от нуля на уровне значимости альфа=0,05. Провести сравнение трёх групп по величине эффекта можно в простом ANOVA, исключив данные "До". Группы очень маленькие, поэтому лучше использовать параметрику, чем ранговые методы; возможно потребуются предварительные преобразования данных типа логарифмирования или Бокса - Кокса.

2) Смешанная модель ANOVA через общие линейные модели. Факторов два: (1) Индивид (случайный) - всех пронумеровать и использовать эти метки в анализа в качестве градаций фактора. (2) Время (фиксированный) - 4 точки: 1 до и 3 после. Если вы измеряли показатели у каждого животного однократно, то главные эффекты будут тестироваться (делиться на соответствующий средний квадрат) относительно взаимодействия факторов "Индивид х Время", а само это взаимодействия протестировать будет нельзя. Для таких маленьких экспериментов желательно проводить измерения дважды. Тогда из указанного взаимодействия, представляющего собой сумму эффектов взаимодействия и ошибку измерения можно будет выразить и вычесть последнюю. Таким образом величина взаимодействия немного уменьшится, что сделает возможным обнаруживать более слабые эффекты главных факторов, включая интересующий вас фактор "Время". Также могут потребоваться преобразования, а апостериорные сравнения в рамках модели - любыми из из приглянувшихся методов. Этот подход можно использовать для доказательства наличия эффекта, ну а для оценки величины эффекта все равно придётся считать разности с 95% ДИ как в первом подходе, только здесь они будут выполнять роль сродни описательной статистики, сами ДИ не интерпретируются, не сравниваются ни с нолём, ни между собой.

3) Для визуализации эффекта изменения показателя при стрессе можно использовать что-то типа локальных регрессий или полиномиального сглаживания. Мне понравились обобщённые аддитивные модели GAM, которые адаптивны по форме к данным + позволяют строить 95%-ные доверительные границы для регрессии. По поводу возможности использования частично зависимых выборок не знаю, нужно читать про GAM-регрессию больше, но может требования независимости и не будет: просто проводим линию через некие средние значения.
  Форум: Медицинская статистика · Просмотр сообщения: #24168 · Ответов: 13 · Просмотров: 2472

nokh
Отправлено: 3.07.2019 - 21:26


Дух форума
*

Группа: Пользователи
Сообщений: 1128
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(ogurtsov @ 3.07.2019 - 15:23) *
Ничего, кроме p-значения, названия критерия и используемого уровня значимости, для интерпретации результатов не нужно. Никакие степени свободы и значения статистик не могут повысить доверие или что-то гарантировать, поскольку их все можно как написать "от фонаря" (только степени свободы подогнать под размер выборки), так и тщательно сфальсифицировать. Гарантии дает только оформление исследования как воспроизводимого, то есть с предоставлением всех данных, SAP-а и скрипта для всех этапов анализа и генерации отчета.

Если у вас есть ссылки на соответствующие рекомендации, поделитесь ими, пожалуйста, с топикстартером. Мне по этой теме дискутировать не интересно. Остаюсь при своём мнении pardon.gif .
  Форум: Медицинская статистика · Просмотр сообщения: #24147 · Ответов: 5 · Просмотров: 1936

45 страниц V   1 2 3 > » 

Открытая тема (есть новые ответы)  Открытая тема (есть новые ответы)
Открытая тема (нет новых ответов)  Открытая тема (нет новых ответов)
Горячая тема (есть новые ответы)  Горячая тема (есть новые ответы)
Горячая тема (нет новых ответов)  Горячая тема (нет новых ответов)
Опрос (есть новые голоса)  Опрос (есть новые голоса)
Опрос (нет новых голосов)  Опрос (нет новых голосов)
Закрытая тема  Закрытая тема
Тема перемещена  Тема перемещена