Форум врачей-аспирантов

Здравствуйте, гость ( Вход | Регистрация )

45 страниц V   1 2 3 > » 

nokh
Отправлено: 31.10.2019 - 08:17


Дух форума
*

Группа: Пользователи
Сообщений: 1114
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Сообщение #19 подкорректировал, материалы к сообщению прикрепил.
  Форум: Медицинская статистика · Просмотр сообщения: #24719 · Ответов: 22 · Просмотров: 15605

nokh
Отправлено: 28.09.2019 - 00:49


Дух форума
*

Группа: Пользователи
Сообщений: 1114
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Предлагаю обсудить различия между двумя последними группами. Данные оказались интересными с точки зрения анализа: они действительно сильно дискретны, заметно различаются средними, но при этом имеют одинаковую медиану. Критерий знаков (не учитывает нулевые разности) показывает высоко статистически значимые различия. Критерий Уилкоксона для разностей пар - тоже (см. скриншот). Но вот я провёл оценку значимости непосредственно средней разности в парах методом Монте-Карло и у меня получилось р=0,125 (одностороннее), что разительно отличается от результатов классики непараметрики. Если народ подтянется в эту ветку форума - могу показать как считал. Также моделирование наглядно показало, что высокая дискретность данных приводит к дискретности распределения разностей, а далее - и к дискретности р-значений. Поскольку я совсем не математик, то оценить степень (не)тривиальности такого эмпирического заключения не могу pardon.gif ))

А что получилось у вас? Ну и самое главное: отличаются ли минимальные подавляющие концентрации этих двух наборов антибиотиков?
Эскизы прикрепленных изображений
Прикрепленное изображение
 
  Форум: Медицинская статистика · Просмотр сообщения: #24593 · Ответов: 6 · Просмотров: 509

nokh
Отправлено: 24.09.2019 - 21:55


Дух форума
*

Группа: Пользователи
Сообщений: 1114
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Хотел сделать Монте-Карло в R, но оказалось, что выборки-то зависимые! Значит нужны парные критерии или аналоги нужного варианта ДА. Из ресэмплинга здесь просится бустреп для разностей пар с построением доверительных интервалов разности. Это можно сделать средствами PAST. Про то как реализовать здесь Монте-Карло подумаю ещё, т.к. моя заготовка для независимых выборок сюда не пойдёт: нужно менять местами пары внутри отдельных строк...
  Форум: Медицинская статистика · Просмотр сообщения: #24585 · Ответов: 6 · Просмотров: 509

nokh
Отправлено: 23.09.2019 - 19:24


Дух форума
*

Группа: Пользователи
Сообщений: 1114
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Согласен с passant.
Есть ремарки по У-М-В и К-У.
1) Эти тесты не на равенство медиан (как маломощный медианный критерий), а на равенство функций распределений.
2) В классической литературе указывается оговорка, что они применимы в случае распределений сходного типа. Однако оба теста являются частными случаями ридит-анализа, который разрабатывался совсем из других теоретических предпосылок и не предполагает сходства распределений.

Также можно организовать сравнение средних техникой Монте-Карло напрямую, безо всяких статкритериев. Я голосую за такой вариант.
  Форум: Медицинская статистика · Просмотр сообщения: #24580 · Ответов: 6 · Просмотров: 509

nokh
Отправлено: 17.09.2019 - 21:57


Дух форума
*

Группа: Пользователи
Сообщений: 1114
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(Camel1000 @ 17.09.2019 - 18:41) *
Всем добрый день!
Прошу помощи в анализе следующей ситуации.
Имеется несколько клинических групп больных (чувствительны\устойчивы к препаратам, несколько групп по степени ожирения и т.п.). У каждой группы из Н больных для каждого больного имеются данные по большому числу параметров (экспрессия нескольких сотен элементов). Как лучше проанализировать, есть ли разница в значении этих параметров при сравнении групп и если есть, какие конкретно элементы связаны с этими различиями?
Спасибо заранее!

Задача не столько из области биостатистики, сколько биоинформатики, где такие исследования уже рутина. Алгоритм в общих чертах такой.

1) Препроцессинг. Обычно такие данные получают в ходе исследований на микрочипах (microarray). При этом результаты оценки флуоресценции на разных чипах могут заметно отличаться в результате небиологических причин. Поэтому сначала проводят так называемую нормализацию результатов измерений для устранения этой технической изменчивости. Способов много, один из лучших - квантильная нормализация, но всё время появляется что-то новее и лучше. Далее данные преобразуют, чаще всего используют логарифмирование по основанию 2. Наконец, если для некоторых образцов имелись результаты нескольких измерений - их усредняют (среднее или медиана).

2) Отбор показателей (генов) для дифференциальной диагностики. Здесь используются разные фильтры из статистических и графических методов. Например, можно провести однофакторный дисперсионный анализ по каждому гену и рассчитать р-значение, а далее отсортировать гены в порядке увеличения р-значения. Тогда в топе окажутся лучшие кандидаты (с меньшим р). Для двух дифференцируемых групп применяют вулканные графики, где помимо р-значения отражены и различия в групповых средних. В результате получают список генов, причём он может быть как полным (например, несколько сотен генов, по которым обнаружены статистически значимые межгрупповые различия, обычно с учётом поправок на множественность сравнений), так и произвольно обрезанным исследователем (например, первые 100 или 200 генов) - встречал и так, и так.

3) Многомерный анализ данных списка пункта (2) для визуализации и/или интерпретации различий. Используют анализ главных компонент, дискриминантный анализ, метод опорных векторов, кластерный анализ с построением тепловых карт и т.д. Проводят интерпретацию обнаруженных генетических паттернов (если получается) и разрабатывают схемы дифференциальной диагностики на основе полученных сведений.

Существуют особенности обработки данных одноканальных и двухканальных микрочипов. Существует много свободного и коммерческого софта для анализа. Читайте современные статьи, чтобы ориентироваться в софте и деталях анализа, т.к. данные в книгах быстро устаревают. Я осваивал подобный анализ на пакетах для среды R. Только у нас флуоресценция изменялась не в зависимости от экспрессии, а в зависимости от силы иммуноферментного связывания (метод иммуносигнатуры). Статью прикрепил, может будет полезна, т.к. все этапы расписаны достаточно подробно.
Прикрепленные файлы
 
  Форум: Медицинская статистика · Просмотр сообщения: #24522 · Ответов: 3 · Просмотров: 368

nokh
Отправлено: 1.09.2019 - 17:36


Дух форума
*

Группа: Пользователи
Сообщений: 1114
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Анонос моего раздела по КА в коллективной монографии. Обсуждаются следующие вопросы:

1) Какую брать корреляцию: Пирсона или Спирмена
2) Какую использовать меру: вес корреляционного графа (ВКГ) или среднюю абсолютную корреляцию (САК)
3) Какие корреляции брать в расчёт: все или только превышающие некий порог (часто берут 0,5 по абсолютному значению).
4) Как рассчитать 95% ДИ для ВКГ с использованием техник бутстрепа и складного ножа
5) Как проверить многопеременные данные на выбросы для ВКГ
6) Как сравнить выборки по ВКГ с помощью:
- расчёта 95% ДИ,
- рандомизационной техники Монте-Карло,
- дисперсионного анализа на псевдозначениях техники складного ножа.

Монография и приложение к ней с кодами R для расчётов прикреплены под этим сообщением.
Также их можно скачать с яндекс-диска по ссылке:
https://yadi.sk/d/uj1Mg4OUBMp4SA
(яндекс-диск некоторыми браузерами открывается некорректно, пробуйте несколько если что...)
Прикрепленные файлы
Прикрепленный файл  Метаорганизм_Стресс_и_адаптация_2019.pdf ( 11,91 мегабайт ) Кол-во скачиваний: 4
Прикрепленный файл  Приложение_Корреляционная_адаптометрия_в_R.doc ( 87 килобайт ) Кол-во скачиваний: 4
 
  Форум: Медицинская статистика · Просмотр сообщения: #24400 · Ответов: 22 · Просмотров: 15605

nokh
Отправлено: 13.07.2019 - 06:51


Дух форума
*

Группа: Пользователи
Сообщений: 1114
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Вот скажите, в чем наша цель: 1) найти статистически значимые различия или 2) приблизиться к пониманию устройства мира? Поскольку не для студента/аспиранта, а для учёного очевидно, что (2), многим можно пожертвовать лишь бы не сделать лжеоткрытия. То, что мы не обнаружим пока чего-то, что реально есть в устройстве мира (ошибка второго рода) не так страшно: жили же как-то до этого, не обнаружили мы - обнаружат наши последователи или потомки. А вот если мы обнаружим что-то чего на самом деле нет (ошибка первого рода) и будем действовать далее под влиянием этого заблуждения, то можем наломать дров... Именно поэтому при планировании исследований ошибка второго рода допускается и закладывается в несколько раз большей, чем первой. Поэтому когда в двух группах различия по Стьюденту есть, а в нескольких - нет, нужно в первую очередь радоваться тому, что вам удалось собрать материал не по маленькому кусочку реальности, а иметь более полную картину, иначе бы вы наломали дров. А то что какие-то различия стали незначимыми - да и хрен с ними... Ну и про множественность сравнений: если не выдрать две выборки из материала и забыть про остальные, то ведь нужно делать достаточно консервативные поправки на множественность сравнений, после которых значимость часто теряется.

В случае нормального распределения половинка 95% ДИ (положительная или отрицательная по отношению к среднему, не важно) вычисляется как стандартная ошибка, умноженная на критическое значение распределения Стьюдента. Поскольку для бесконечно большой выборки при альфа=0,05 это значение равно 1,96, то в реальных выборках оно больше двух. Т.е. интервал по усам ст. ошибки всегда как минимум в два раза уже, чем 95% ДИ. По поводу "пользы" ст. ошибки для описания данных - см. в руководствах Ланга в соседней теме. А на вопрос "Почему тогда в статьях почти все всегда дают ошибку среднего, а не ДИ" ответ: потому что бараны, т.е.: 1) невежественны и 2) упёрты/консервативны.
  Форум: Медицинская статистика · Просмотр сообщения: #24200 · Ответов: 2 · Просмотров: 1075

nokh
Отправлено: 10.07.2019 - 08:39


Дух форума
*

Группа: Пользователи
Сообщений: 1114
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(Cules2013 @ 10.07.2019 - 03:29) *
1. Вычитал, что если данные не соответствую ни нормальному распределению остатков, ни равенству дисперсий (стандартных отклонений), то лучше их преобразовать каким-то методом, т.к. большая разница в дисперсия также проблема и для непараметрических критериев. Могу ли я просто вручную сделать это преобразование: например, 1/х, ln (x) или x^n и просто выбрать наиболее подходящее, проверяя итоговые данные по Шапиро-Уилку? Я вот методом тыка вручную нашёл, что возведение данных в 6 степень наиболее оптимально для получения нормального распределения.

6. Я уже касался когда-то этого вопроса, но так и не получил того ответа, который ожидал. Как просто и адекватно визуализировать данные, если я их преобразовал, допустим, возведением в степень? Графически суть особо не меняется, но там уже другие количественные значения. Могу ли я график оставить по нативным данным, а звёздочки различий между ними поставить уже по преобразованным данным? Или лучше тогда "нормализовать" как-то данные, допустим, перевести их в проценты?

Пока времени почти нет; отвечу только на эти вопросы.
1) Идеально, если нужное преобразование получается из теоретического анализа явления. Например, зная что размер листовой пластинки имеет генетически обусловленную форму и не может варьировать свободно и по дине и по ширине, глупо ждать нормального распределения площади листа. Если и длина листа, и ширина варьируют по нормальному закону, площадь будет изменяться пропорционально произведению длины и ширины. Маленький листик 3х3 имеет площадь 9, крупнее 4х4=16, крупный 5х5=25. Т.е. несмотря на то, что и длина и ширина увеличивались в этом ряду на единицу, разности площадей 9 и 16 - 7, а 16 и 25 - 9. Т.е. В распределении площадей появляется положительная асимметрия и в силу этого площадь как таковая является априори ненормально распределённой. Но если работать с квадратными корнями из площадей, которые распределены нормально, смещения оценок, привносимых асимметрией распределения не будет и дисперсия станет независимой от среднего. Аналогично выводится логарифмическое преобразование для показателей связанных со временем (скорость, численность, и т.п.). Раньше и подбирали вручную (не совсем, делались расчёты и строились графики, есть у Хальда "Математическая статистика"). Сейчас делают или как обычно принято в вашей области или используют адаптивное к данным преобразование Бокса - Кокса. 1/х, ln (x) или x^n - частные случаи преобразования Бокса- Кокса.

6) Если "по-студенчески" то можно по нативным со звёздочками. Если более серьёзно, то нужно рассчитать по преобразованным средние с 95% ДИ, а на графике пересчитать (ретрансформировать) их в нативную шкалу. Т.е. для примера выше квадратные корни из площадей возвести в квадрат. ДИ на графике получатся в этом случае немного асимметричными - как и само исходное распределение. В некоторых случаях удобнее оставить данные на графиках в шкале преобразования, например - логарифмической (большинство пакетов позволяют изменить тип шкалы на логарифмический).
  Форум: Медицинская статистика · Просмотр сообщения: #24176 · Ответов: 1 · Просмотров: 576

nokh
Отправлено: 10.07.2019 - 07:53


Дух форума
*

Группа: Пользователи
Сообщений: 1114
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(Cules2013 @ 9.07.2019 - 19:48) *
А если разница "после-до" отрицательная? Нужно брать по модулю для расчёта ДИ?

Я просто почему-то решил, что показатель увеличивается:) Если показатель в большинстве случаев уменьшается - берите разность (До-После). Но только для всех одинаково, т.е. если вдруг где-то будут положительные разности, а где-то отрицательные - так и нужно обрабатывать. Например если одна разность 4, а вторая (-2), то значит в среднем показатель изменился на (4+(-2))/2=1.
В любом случае по модулю брать нельзя, но можно для удобства интерпретации умножить ВЕСЬ набор данных на (-1).
  Форум: Медицинская статистика · Просмотр сообщения: #24175 · Ответов: 13 · Просмотров: 1321

nokh
Отправлено: 9.07.2019 - 05:42


Дух форума
*

Группа: Пользователи
Сообщений: 1114
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(Cules2013 @ 5.07.2019 - 13:13) *
Может я нечётко объяснил. Попробую ещё раз. Я имел ввиду попарные сравнения "до-после" в пределах одной группы. Ясное дело, что межгрупповые отличия пойдут как несвязанные выборки. Итак, у меня есть 15 крыс, я у них зафиксировал допустим что уровень предпочтения сахарозы, чтобы оценить их уровень депрессивности. Это у нас фоновая запись. Затем, на 3-й день стресс-воздействия, перед забоем, я повторил эксперимент. Здесь проблем нет, кол-во животных одинаковое, и получаются типичные связанные выборки. Но на 10-й день у меня уже 10 крыс, т.к. после 3-го дня я забил 5 шт. Так вот, сравнивая результаты 3 дня допустим с 10-м, я сравниваю 15 чисел с 10 числами (-5 крыс забой), и получается, что 10 крыс = 10 чисел, у меня идут как связанные выборки, но 5 чисел из 3-го дня - их не с чем сравнивать, ведь на 10-й день этих крыс уже нет, они мертвы. Вот и получается какой-то суррогат - одни данные имеют пару для сравнения, другие нет. И если я беру АNOVA или Данна и ставлю сравнения связанных выборок, то он мне разумно заявляет, что нельзя посчитать статистику на связанных выборках с отсутствующими значениями.
Ну а цель исследования проста - проверить, вызывает ли моё стресс-воздействие депрессию у крыс или нет. Поэтому и беру тест на сахарозу и биохимию мозга. Ну а внутригрупповые сравнения должны показать, изменяется ли картина со временем, или нет.
Про связь "гуманное умерщвление" и "несвязанные выборки" вообще не въехал. При чём тут это?

В части доказательства эффекта можно пойти двумя путями: простым и более сложным, но показатели, задействованные в первом способе могут быть полезны и во втором.

1) Через величину эффекта с доверительными интервалами (ДИ). Считаете для каждой из трёх пятёрок "До-После" разность (После-До) с 95% ДИ. Если ДИ не включает ноль, значит можно интерпретировать величину эффекта как статистически значимо отличающуюся от нуля на уровне значимости альфа=0,05. Провести сравнение трёх групп по величине эффекта можно в простом ANOVA, исключив данные "До". Группы очень маленькие, поэтому лучше использовать параметрику, чем ранговые методы; возможно потребуются предварительные преобразования данных типа логарифмирования или Бокса - Кокса.

2) Смешанная модель ANOVA через общие линейные модели. Факторов два: (1) Индивид (случайный) - всех пронумеровать и использовать эти метки в анализа в качестве градаций фактора. (2) Время (фиксированный) - 4 точки: 1 до и 3 после. Если вы измеряли показатели у каждого животного однократно, то главные эффекты будут тестироваться (делиться на соответствующий средний квадрат) относительно взаимодействия факторов "Индивид х Время", а само это взаимодействия протестировать будет нельзя. Для таких маленьких экспериментов желательно проводить измерения дважды. Тогда из указанного взаимодействия, представляющего собой сумму эффектов взаимодействия и ошибку измерения можно будет выразить и вычесть последнюю. Таким образом величина взаимодействия немного уменьшится, что сделает возможным обнаруживать более слабые эффекты главных факторов, включая интересующий вас фактор "Время". Также могут потребоваться преобразования, а апостериорные сравнения в рамках модели - любыми из из приглянувшихся методов. Этот подход можно использовать для доказательства наличия эффекта, ну а для оценки величины эффекта все равно придётся считать разности с 95% ДИ как в первом подходе, только здесь они будут выполнять роль сродни описательной статистики, сами ДИ не интерпретируются, не сравниваются ни с нолём, ни между собой.

3) Для визуализации эффекта изменения показателя при стрессе можно использовать что-то типа локальных регрессий или полиномиального сглаживания. Мне понравились обобщённые аддитивные модели GAM, которые адаптивны по форме к данным + позволяют строить 95%-ные доверительные границы для регрессии. По поводу возможности использования частично зависимых выборок не знаю, нужно читать про GAM-регрессию больше, но может требования независимости и не будет: просто проводим линию через некие средние значения.
  Форум: Медицинская статистика · Просмотр сообщения: #24168 · Ответов: 13 · Просмотров: 1321

nokh
Отправлено: 3.07.2019 - 21:26


Дух форума
*

Группа: Пользователи
Сообщений: 1114
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(ogurtsov @ 3.07.2019 - 15:23) *
Ничего, кроме p-значения, названия критерия и используемого уровня значимости, для интерпретации результатов не нужно. Никакие степени свободы и значения статистик не могут повысить доверие или что-то гарантировать, поскольку их все можно как написать "от фонаря" (только степени свободы подогнать под размер выборки), так и тщательно сфальсифицировать. Гарантии дает только оформление исследования как воспроизводимого, то есть с предоставлением всех данных, SAP-а и скрипта для всех этапов анализа и генерации отчета.

Если у вас есть ссылки на соответствующие рекомендации, поделитесь ими, пожалуйста, с топикстартером. Мне по этой теме дискутировать не интересно. Остаюсь при своём мнении pardon.gif .
  Форум: Медицинская статистика · Просмотр сообщения: #24147 · Ответов: 5 · Просмотров: 1006

nokh
Отправлено: 1.07.2019 - 07:58


Дух форума
*

Группа: Пользователи
Сообщений: 1114
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(Anna_V @ 30.06.2019 - 10:08) *
Добрый день! Подскажите, пожалуйста, если можно с ссылками на литературу, при описании результатов в статье/диссертации требуется приводить значение самого критерия, или можно указывать только значение P?

Меня учили, что в результатах, опирающихся на статистический критерий нужно приводить все три меры: 1) значение статистики критерия, 2) степени свободы или объёмы выборок (в зависимости от критерия), 3) Р-значение. Если не привести все три меры, то статистическая выкладка перестаёт служить таковой или вообще теряет свой подтверждающий тезу смысл и может указывать на безграмотность исследователя. Например, в зависимости от числа степеней свободы критерий хи-квадрат=5,05 может иметь совершенно различные значения Р, а если человек просто напишет, что Р=0,014, то где дополнительные гарантии, что он не ошибся в расчётах или что вообще что-то считал. А если автор пишет, что просто P<0,05, то этот человек вызывает подозрения вдвойне, т.к. такая форма указывает на то, что и статей по своей тематике он не читает (по крайней мере хороших).

Примеры можно найти в учебниках по биостатистике Сокала и Рольфа, Зара, а также в разделах описания результатов в кн. Ланг, Сесик (2011) - Как описывать статистику в медицине, она есть в сети. Также посмотрите штук 12 лучших статей по своей тематике, имеющих доказательства, основанные на статистике (не обзоров). Штуки 3-4 из них будут содержать все 3 показателя. Хотя в последнее время их число сокращается, т.к. сейчас более часто используют точные рандомизационные (перестановочные, permutation) критерии или рандомизационные критерии Монте-Карло, в которых Р-значение вычисляется напрямую, без опоры на известные статистические распределения.

Но бывают случаи, когда проверок очень много и приведение всех трёх мер сильно загромождает работу, делая её похожей на черновик со статистическими выкладками. Лично я в таких случаях могу ограничиться приведением только Р-значения в таблицах, но при обсуждении каких-то из них в тексте даю полную выкладку, чтобы люди видели, что я знаю как нужно, но объём статьи не позволяет.

Прикрепил хорошие рекомендации Ланга и Альтмана. Про 3 меры есть, например при описании результатов дисперсионного анализа (ANOVA).
Прикрепленные файлы
Прикрепленный файл  Lang__Altman_Basic_Statistical_Reporting.PDF ( 380,07 килобайт ) Кол-во скачиваний: 25
 
  Форум: Медицинская статистика · Просмотр сообщения: #24140 · Ответов: 5 · Просмотров: 1006

nokh
Отправлено: 5.06.2019 - 05:09


Дух форума
*

Группа: Пользователи
Сообщений: 1114
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(Anna_V @ 4.06.2019 - 13:02) *
Добрый день. Подскажите, пожалуйста, надо ли делать поправку на множественные сравнения (например Холма-Бонферрони) при проведении апостериорных тестов (например для тестов Данна после Крускала-Уоллиса). Если можно, со ссылками на литературу. Спасибо!

Апостериорные тесты различаются по способности удерживать ошибку семейства (омнибуса) гипотез (FWER) на заданном уровне Р. Одни справляются с этим хорошо, другие - плохо и следовательно нуждаются в поправках. Конкретно для критерия Данна, как сейчас узнал, поправки используют; их применяют пакеты Statа, Graphpad Prism, Dunn.test для R (https://cran.r-project.org/web/packages/dunn.test/dunn.test.pdf). Но уж если использовать поправки лучше после критерия Коновера-Имана (Conover-Iman test), а без поправок - критерий Стила - Двасса (Steel-Dwass test), который вроде лучше контролирует FWER.
Дополнительно смотрите статьи и страницы форумов в результатах поисковиков для "Dunn's test FWER"и т.п.
  Форум: Медицинская статистика · Просмотр сообщения: #24006 · Ответов: 1 · Просмотров: 878

nokh
Отправлено: 21.05.2019 - 12:57


Дух форума
*

Группа: Пользователи
Сообщений: 1114
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(100$ @ 21.05.2019 - 13:33) *
А зачем? Индекс Жаккара идейно представляет собой просто долю объектов с одновременной совстречаемостью признаков в выборке, из которой предварительно исключены объекты с их (признаков) одновременным отсутствием. Почему бы просто не рассчитать ДИ для доли: Клоппера - Пирсона, Уилсона, Агрести - Коула, арксинуса, ... вот недавно открыл для себя ДИ по Жангу - Ли?

Просто интересно.

Уже настроился с бутстрепом для Жаккара разбираться (т.к. с первого раза по аналогии с прописями не вышло), поэтому просто не догадался про ДИ для частот. Про Жанга - Ли ещё не слышал, использую в последнее время байесовский априорный интервал Джеффриса. Есть в онлайновом калькуляторе EpiTools (http://epitools.ausvet.com.au/content.php?page=CIProportion , здесь же ссылка на статью с формулами), также добавил его в экселевский калькулятор плава (Доверительный интервал для долей.xls в папке Программы к Практикуму: https://yadi.sk/d/g50i73pt3J6pAa).
  Форум: Медицинская статистика · Просмотр сообщения: #23976 · Ответов: 13 · Просмотров: 2073

nokh
Отправлено: 21.05.2019 - 12:43


Дух форума
*

Группа: Пользователи
Сообщений: 1114
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(DrgLena @ 21.05.2019 - 12:16) *
Да, интересно, но не ясно какая задача решается. Есть 400 проб (больных) и у каждого больного только два типа инфецирования? Или вы наборы инфекций у двух больных сравниваете. Т.е. просьба подробней про поставновку задачи. PAST считает много подобных индексов, в том числе и jaccard, с вашим тестовым примером сходится (0,714), но у меня старая версия, р нет.
И, большое спасибо за готовое решение в R.

У каждого больного 2 и более микроорганизмов (МО), т.к. для анализа совстречаемости данные по монокультурам предварительно удаляли. Здесь решается задача именно поиска микробных ассоциаций, поскольку совместная встречаемость организмов может иметь поддающиеся интерпретации и проверке причины. Например, это может быть сходство источников поступления МО в рану, сходство по источникам питания МО, результатом лечения, когда например в результате антибиотикотерапии сначала выбывают какие-то МО, а затем собственная микрофлора сменяется на резистентные штаммы госпитальной и т.д. Т.е. всё это - микробная экология.

Я прикрепил пару наших статей по этой тематике, а также исходные данные для статьи 2013 года - можете потренироваться. Жаккар будет таким же, Рауп-Крик - близким (т.к. Монте-Карло генерируются разные наборы всякий раз), многомерный анализ - таким же в версии PAST 2.17, но несколько отличным хотя и близким в версии 3.19 (может и выше). Для статьи 2013 я использовал готовую таблицу значений Р того же автора, что сейчас формулу рассматривали (есть в списке литературы и в сети). Но таблица до N=100 (к тому же вроде там не совсем наше N), и для большой выборки её не хватило.

PS Для индексов и главных координат в PAST таблицу нужно транспонировать: Edit - Rearrange - Transpose
Прикрепленные файлы
Прикрепленный файл  Андреева__Нохрин_2013___Оценка_степени_экологической_общности_микроорганизмов.pdf ( 363,56 килобайт ) Кол-во скачиваний: 26
Прикрепленный файл  Андреева_и_др._Использование_статистических_методов_2019к.pdf ( 1,19 мегабайт ) Кол-во скачиваний: 27
Прикрепленный файл  Ассоциации_2012.xls ( 21 килобайт ) Кол-во скачиваний: 25
 
  Форум: Медицинская статистика · Просмотр сообщения: #23975 · Ответов: 13 · Просмотров: 2073

nokh
Отправлено: 20.05.2019 - 22:06


Дух форума
*

Группа: Пользователи
Сообщений: 1114
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(100$ @ 20.05.2019 - 18:51) *
Тогда ловите. С нашего стола вашему столу ).

Файл с поддержкой макросов в формате .xlsm. Открывать Экселем не старше 2007-го. Если настройки безопасности заблокируют макросы, то надо через центр управления безопасностью разрешить их выполнение.
Пользоваться очень просто: либо в затененном месте с пометкой "Исходная таблица сопряженности" заносите свои данные, либо для произвольной предварительно сделанной таблицы сопряженности выделяете на любом листе в рабочей книге строку о двух столбцах, вносите туда функцию "Jaccard" следующим образом: "=Jaccard()" (без кавычек) и указываете в качестве ее аргумента таблицу сопряженности 2х2. (Синтаксис можно увидеть, встав на ячейку Е10). Затем нажимаете комбинацию клавиш "Ctrl+Shift+Enter". Функция вернет массив, первым значением в котором будет индекс Жаккара, а вторым - p-value. И вся любовь.

Огромное спасибо! Теперь мои студентки смогут сами посчитать значимость в Excel yahoo.gif
Вставил вашу формулу в R:

Jaccard <- function (x, y)
{
C11 <- sum(x == 1 & y == 1)
A10 <- sum(x == 1 & y == 0)
B01 <- sum(x == 0 & y == 1)
N<-(C11+A10+B01)
mysum<-0
for(x in 0:(C11-1))
{
mysum<-mysum+choose(N,x)*(2^(N-x))
}
return(list(Jaccard.index=(C11/N),
"p.value"=(1-mysum/(3^N))))
}

#Пример
> a<-c(1,1,1,1,1,0,1)
> b<-c(1,1,1,1,1,1,0)
> Jaccard(a,b)
$`Jaccard.index`
[1] 0.7142857

$p.value
[1] 0.04526749

#Удвоим таблицу
> a<-c(1,1,1,1,1,0,1,1,1,1,1,1,0,1)
> b<-c(1,1,1,1,1,1,0,1,1,1,1,1,1,0)
> Jaccard(a,b)
$`Jaccard.index`
[1] 0.7142857

$p.value
[1] 0.004039541

В этом подходе всё логично: чем больше выборка, тем меньше р-значение.

Задача решена, тему можно считать закрытой.
С 95% ДИ для Жаккара и бутстреп-оценками р по ДИ повожусь когда будет больше времени.
  Форум: Медицинская статистика · Просмотр сообщения: #23971 · Ответов: 13 · Просмотров: 2073

nokh
Отправлено: 19.05.2019 - 22:09


Дух форума
*

Группа: Пользователи
Сообщений: 1114
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(100$ @ 19.05.2019 - 16:12) *
Если что, могу написать вам на VBA формулу для расчета и Жаккара и p-value к нему. Так сказать, мой подарок челябинским братьям по разуму.

Будем рады такому подарку!
Цитата(100$ @ 19.05.2019 - 16:12) *
P.S. А пакет jaccard у меня не загрузился. Начал требовать наличия на компе компиляторов C/C++.
P.P.S. А как работает этот пакет - вообще не понял, ибо не нашел в описании не только рабочих формул или вменяемых описаний алгоритмов, но даже ссылок на соответствующие источники.

У меня тоже были проблемы, не помню точно что писали. Но точно не ставился требуемый пакет qvalue, т.к. он оказался не в основном репозитории, а в Bioconductor:
https://www.bioconductor.org/packages/relea...tml/qvalue.html
После его установки и обновления кучи пакетов jaccard встал. А то, что к нему сопровождение отвратительное - это да...
  Форум: Медицинская статистика · Просмотр сообщения: #23967 · Ответов: 13 · Просмотров: 2073

nokh
Отправлено: 19.05.2019 - 05:55


Дух форума
*

Группа: Пользователи
Сообщений: 1114
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Благодарю откликнувшихся!

1) <p2004r. Индекс Жаккара неэквивалентен достигнутому Р - в этом вся тонкость ситуации. Эквивалентом р является индекс Раупа-Крика: он тасует методом Монте-Карло строки второго столбца и строит распределение J для нулевой гипотезы отсутствия ассоциации с отсечением площади Р для наблюдаемого исходного значения. Индекс Раупа-Крика=1-РМонте-Карло. Поскольку ноли из ячейки D тоже участвуют в перестановках, этот индекс кардинально отличаются от J (хотя этот результат - безусловно оценка значимости ассоциации). В принципе, то что делает пакет jaccard ещё круче, т.к. в варианте exact он реализует все возможные перестановки. Тогда (1-Рexact) будет являться точной версией индекса Раупа-Крика. То, как работает exact я показал в Help и мне это не понравилось (в контексте интерпретации такого P в качестве Р для индекса Жаккара).
Бутстреп будет играться со строками выборки целиком (а не со значениями одного столбца) и т.о. полученные бутстреп-реплики J вероятно не будут подвержены влиянию ячейки D. По точке нижней границе доверительного интервала такого бутстрепированного индекса Жаккара ещё не включающего ноль можно вычислить Р. Это - хорошая идея, попробую на своих примерчиках и данных.

2) <100$. Получается, что формула рабочая, это я её неправильно читаю(( Буду разбираться и пытаться программировать, хотя скорее всего здесь у меня из R получится BASIC.

3) А что вы думаете по поводу такого подхода: удалить из набора данных строки двойных нулей (ячейка D) и считать Монте-Карло или exact только оставшиеся ячейки?

  Форум: Медицинская статистика · Просмотр сообщения: #23965 · Ответов: 13 · Просмотров: 2073

nokh
Отправлено: 17.05.2019 - 00:17


Дух форума
*

Группа: Пользователи
Сообщений: 1114
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Провели анализ микробных ассоциаций в ожоговых ранах, выборка хорошая - более 400 проб. При оценке значимости ассоциаций с помощью индекса Жаккара в R-пакете jaccard выявилась такая штука: относительно большие индексы могли оказаться незначимыми (J=0.32; Р=0,504), а почти нулевые - значимыми (J=0.06; P=0.049). Если интересно - могу выложить данные, хотя я понял почему так происходит и сделал простой маленький пример. Стал искать другие пути, но не получается справиться самостоятельно. Буду очень признателен за помощь. Описание проблемы и вопросы в прикреплённом файле Help. Второй файл - статья, на которую есть надежда. Может ещё какие варианты подскажите...
Прикрепленные файлы
Прикрепленный файл  Real_The_probabilistic_basis_of_Jaccard_s_index_1996.pdf ( 638,93 килобайт ) Кол-во скачиваний: 46
Прикрепленный файл  Help.pdf ( 203,41 килобайт ) Кол-во скачиваний: 42
 
  Форум: Медицинская статистика · Просмотр сообщения: #23956 · Ответов: 13 · Просмотров: 2073

nokh
Отправлено: 14.05.2019 - 15:55


Дух форума
*

Группа: Пользователи
Сообщений: 1114
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(p2004r @ 13.05.2019 - 00:10) *
1) Если "читали и учили", то странные вопросы задаете. Но впрочем с удовольствием обсужу восстановление матриц описывающих динамическую систему со знающим человеком. smile.gif
"30 дней" это как? Сколько "замеров в день"? Если 1 и 1 пациент, то можно забыть о затее.

Когда 3 работы, а круг интересов ещё шире, то всегда что-то недочитаешь unknw.gif . И только углубившись в какую-то тему начинаешь понимать как много недочитано...
По поводу данных: с ними всё нормально. Это пациенты из реанимации гнойной хирургии крупной больницы, т.е. места, куда свозят самых тяжёлых пациентов со всех отделений и где летальность ещё несколько лет назад доходила до 30%. Их состояние мониторится по ряду показателей ежедневно, по ряду - как-то периодически, но их хватает, чтобы считать шкалы Ranson, Apache II, SOFA и др. не по разу. Т.е. матрица данных получается именно такая: для каждого пациента несколько показателей ежедневно и на протяжении всего срока пребывания в реанимации или до смерти. Один человек - одна матрица. Думаю потенциал анализа подобных данных для медицины большой, но меня сейчас интересуют другие вещи. Т.е. вопрос о восстановлении матриц не стоит. Я возможно даже интерпретировать компоненты не буду, т.к. не уверен, что справлюсь с интерпретацией, а брать соавторов в эту работу не хочу. Получится - выложу сюда готовую статью с кодом R.
  Форум: Медицинская статистика · Просмотр сообщения: #23950 · Ответов: 6 · Просмотров: 1325

nokh
Отправлено: 12.05.2019 - 15:39


Дух форума
*

Группа: Пользователи
Сообщений: 1114
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Благодарю! Про Time-Wise PCA тоже погуглю. А сама задумка не из области диагностики, а более теоретическая, типа: болезнь, здоровье, гомеостаз, аллостаз и всё такое...
  Форум: Медицинская статистика · Просмотр сообщения: #23948 · Ответов: 6 · Просмотров: 1325

nokh
Отправлено: 12.05.2019 - 11:09


Дух форума
*

Группа: Пользователи
Сообщений: 1114
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Большое спасибо, читал и подобное (и даже сам учил студентов:)). Но вот задумал интересную штуку и закрались сомнения, т.к. нужно чтобы было максимально корректно...
  Форум: Медицинская статистика · Просмотр сообщения: #23946 · Ответов: 6 · Просмотров: 1325

nokh
Отправлено: 11.05.2019 - 22:05


Дух форума
*

Группа: Пользователи
Сообщений: 1114
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Насколько корректно применять анализ главных компонент к временным рядам? Полазил по зарубежным форумам и увидел разные мнения. То, что так считают и есть много публикаций - факт, однако PCA основан на корреляциях, для которых требование независимости наблюдений в выборке нарушена. Хочу применить к медицинским данным: динамика изменения 5-7 показателей (температура, ЧСС, АД и др.) у отельного пациента в течение 30 дней после операции.
  Форум: Медицинская статистика · Просмотр сообщения: #23944 · Ответов: 6 · Просмотров: 1325

nokh
Отправлено: 6.05.2019 - 22:39


Дух форума
*

Группа: Пользователи
Сообщений: 1114
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Такое попалось: http://thinktostart.com/analyze-face-emotions-r/
  Форум: Медицинская статистика · Просмотр сообщения: #23928 · Ответов: 1 · Просмотров: 878

nokh
Отправлено: 26.03.2019 - 22:19


Дух форума
*

Группа: Пользователи
Сообщений: 1114
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(p2004r @ 26.03.2019 - 23:02) *
На графике синими линиями изображен the confidence intervals, default to 50, 90 and 95 percent.

Мне понравилась оптическая иллюзия: если смотреть на облако точек и мелко качать или трясти головой, то синие контуры ДИ начинают плавать над неподвижными точками. Завораживает однако)) Под сайко особенно хорошо: https://www.youtube.com/watch?v=PcNSmRrKQP0
Это ggtern?
  Форум: Медицинская статистика · Просмотр сообщения: #23848 · Ответов: 9 · Просмотров: 2064

45 страниц V   1 2 3 > » 

Открытая тема (есть новые ответы)  Открытая тема (есть новые ответы)
Открытая тема (нет новых ответов)  Открытая тема (нет новых ответов)
Горячая тема (есть новые ответы)  Горячая тема (есть новые ответы)
Горячая тема (нет новых ответов)  Горячая тема (нет новых ответов)
Опрос (есть новые голоса)  Опрос (есть новые голоса)
Опрос (нет новых голосов)  Опрос (нет новых голосов)
Закрытая тема  Закрытая тема
Тема перемещена  Тема перемещена