Форум врачей-аспирантов

Здравствуйте, гость ( Вход | Регистрация )

44 страниц V   1 2 3 > » 

nokh
Отправлено: 21.05.2019 - 12:57


Дух форума
*

Группа: Пользователи
Сообщений: 1101
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(100$ @ 21.05.2019 - 13:33) *
А зачем? Индекс Жаккара идейно представляет собой просто долю объектов с одновременной совстречаемостью признаков в выборке, из которой предварительно исключены объекты с их (признаков) одновременным отсутствием. Почему бы просто не рассчитать ДИ для доли: Клоппера - Пирсона, Уилсона, Агрести - Коула, арксинуса, ... вот недавно открыл для себя ДИ по Жангу - Ли?

Просто интересно.

Уже настроился с бутстрепом для Жаккара разбираться (т.к. с первого раза по аналогии с прописями не вышло), поэтому просто не догадался про ДИ для частот. Про Жанга - Ли ещё не слышал, использую в последнее время байесовский априорный интервал Джеффриса. Есть в онлайновом калькуляторе EpiTools (http://epitools.ausvet.com.au/content.php?page=CIProportion , здесь же ссылка на статью с формулами), также добавил его в экселевский калькулятор плава (Доверительный интервал для долей.xls в папке Программы к Практикуму: https://yadi.sk/d/g50i73pt3J6pAa).
  Форум: Медицинская статистика · Просмотр сообщения: #23976 · Ответов: 13 · Просмотров: 368

nokh
Отправлено: 21.05.2019 - 12:43


Дух форума
*

Группа: Пользователи
Сообщений: 1101
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(DrgLena @ 21.05.2019 - 12:16) *
Да, интересно, но не ясно какая задача решается. Есть 400 проб (больных) и у каждого больного только два типа инфецирования? Или вы наборы инфекций у двух больных сравниваете. Т.е. просьба подробней про поставновку задачи. PAST считает много подобных индексов, в том числе и jaccard, с вашим тестовым примером сходится (0,714), но у меня старая версия, р нет.
И, большое спасибо за готовое решение в R.

У каждого больного 2 и более микроорганизмов (МО), т.к. для анализа совстречаемости данные по монокультурам предварительно удаляли. Здесь решается задача именно поиска микробных ассоциаций, поскольку совместная встречаемость организмов может иметь поддающиеся интерпретации и проверке причины. Например, это может быть сходство источников поступления МО в рану, сходство по источникам питания МО, результатом лечения, когда например в результате антибиотикотерапии сначала выбывают какие-то МО, а затем собственная микрофлора сменяется на резистентные штаммы госпитальной и т.д. Т.е. всё это - микробная экология.

Я прикрепил пару наших статей по этой тематике, а также исходные данные для статьи 2013 года - можете потренироваться. Жаккар будет таким же, Рауп-Крик - близким (т.к. Монте-Карло генерируются разные наборы всякий раз), многомерный анализ - таким же в версии PAST 2.17, но несколько отличным хотя и близким в версии 3.19 (может и выше). Для статьи 2013 я использовал готовую таблицу значений Р того же автора, что сейчас формулу рассматривали (есть в списке литературы и в сети). Но таблица до N=100 (к тому же вроде там не совсем наше N), и для большой выборки её не хватило.

PS Для индексов и главных координат в PAST таблицу нужно транспонировать: Edit - Rearrange - Transpose
Прикрепленные файлы
Прикрепленный файл  Андреева__Нохрин_2013___Оценка_степени_экологической_общности_микроорганизмов.pdf ( 363,56 килобайт ) Кол-во скачиваний: 5
Прикрепленный файл  Андреева_и_др._Использование_статистических_методов_2019к.pdf ( 1,19 мегабайт ) Кол-во скачиваний: 4
Прикрепленный файл  Ассоциации_2012.xls ( 21 килобайт ) Кол-во скачиваний: 2
 
  Форум: Медицинская статистика · Просмотр сообщения: #23975 · Ответов: 13 · Просмотров: 368

nokh
Отправлено: 20.05.2019 - 22:06


Дух форума
*

Группа: Пользователи
Сообщений: 1101
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(100$ @ 20.05.2019 - 18:51) *
Тогда ловите. С нашего стола вашему столу ).

Файл с поддержкой макросов в формате .xlsm. Открывать Экселем не старше 2007-го. Если настройки безопасности заблокируют макросы, то надо через центр управления безопасностью разрешить их выполнение.
Пользоваться очень просто: либо в затененном месте с пометкой "Исходная таблица сопряженности" заносите свои данные, либо для произвольной предварительно сделанной таблицы сопряженности выделяете на любом листе в рабочей книге строку о двух столбцах, вносите туда функцию "Jaccard" следующим образом: "=Jaccard()" (без кавычек) и указываете в качестве ее аргумента таблицу сопряженности 2х2. (Синтаксис можно увидеть, встав на ячейку Е10). Затем нажимаете комбинацию клавиш "Ctrl+Shift+Enter". Функция вернет массив, первым значением в котором будет индекс Жаккара, а вторым - p-value. И вся любовь.

Огромное спасибо! Теперь мои студентки смогут сами посчитать значимость в Excel yahoo.gif
Вставил вашу формулу в R:

Jaccard <- function (x, y)
{
C11 <- sum(x == 1 & y == 1)
A10 <- sum(x == 1 & y == 0)
B01 <- sum(x == 0 & y == 1)
N<-(C11+A10+B01)
mysum<-0
for(x in 0:(C11-1))
{
mysum<-mysum+choose(N,x)*(2^(N-x))
}
return(list(Jaccard.index=(C11/N),
"p.value"=(1-mysum/(3^N))))
}

#Пример
> a<-c(1,1,1,1,1,0,1)
> b<-c(1,1,1,1,1,1,0)
> Jaccard(a,b)
$`Jaccard.index`
[1] 0.7142857

$p.value
[1] 0.04526749

#Удвоим таблицу
> a<-c(1,1,1,1,1,0,1,1,1,1,1,1,0,1)
> b<-c(1,1,1,1,1,1,0,1,1,1,1,1,1,0)
> Jaccard(a,b)
$`Jaccard.index`
[1] 0.7142857

$p.value
[1] 0.004039541

В этом подходе всё логично: чем больше выборка, тем меньше р-значение.

Задача решена, тему можно считать закрытой.
С 95% ДИ для Жаккара и бутстреп-оценками р по ДИ повожусь когда будет больше времени.
  Форум: Медицинская статистика · Просмотр сообщения: #23971 · Ответов: 13 · Просмотров: 368

nokh
Отправлено: 19.05.2019 - 22:09


Дух форума
*

Группа: Пользователи
Сообщений: 1101
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(100$ @ 19.05.2019 - 16:12) *
Если что, могу написать вам на VBA формулу для расчета и Жаккара и p-value к нему. Так сказать, мой подарок челябинским братьям по разуму.

Будем рады такому подарку!
Цитата(100$ @ 19.05.2019 - 16:12) *
P.S. А пакет jaccard у меня не загрузился. Начал требовать наличия на компе компиляторов C/C++.
P.P.S. А как работает этот пакет - вообще не понял, ибо не нашел в описании не только рабочих формул или вменяемых описаний алгоритмов, но даже ссылок на соответствующие источники.

У меня тоже были проблемы, не помню точно что писали. Но точно не ставился требуемый пакет qvalue, т.к. он оказался не в основном репозитории, а в Bioconductor:
https://www.bioconductor.org/packages/relea...tml/qvalue.html
После его установки и обновления кучи пакетов jaccard встал. А то, что к нему сопровождение отвратительное - это да...
  Форум: Медицинская статистика · Просмотр сообщения: #23967 · Ответов: 13 · Просмотров: 368

nokh
Отправлено: 19.05.2019 - 05:55


Дух форума
*

Группа: Пользователи
Сообщений: 1101
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Благодарю откликнувшихся!

1) <p2004r. Индекс Жаккара неэквивалентен достигнутому Р - в этом вся тонкость ситуации. Эквивалентом р является индекс Раупа-Крика: он тасует методом Монте-Карло строки второго столбца и строит распределение J для нулевой гипотезы отсутствия ассоциации с отсечением площади Р для наблюдаемого исходного значения. Индекс Раупа-Крика=1-РМонте-Карло. Поскольку ноли из ячейки D тоже участвуют в перестановках, этот индекс кардинально отличаются от J (хотя этот результат - безусловно оценка значимости ассоциации). В принципе, то что делает пакет jaccard ещё круче, т.к. в варианте exact он реализует все возможные перестановки. Тогда (1-Рexact) будет являться точной версией индекса Раупа-Крика. То, как работает exact я показал в Help и мне это не понравилось (в контексте интерпретации такого P в качестве Р для индекса Жаккара).
Бутстреп будет играться со строками выборки целиком (а не со значениями одного столбца) и т.о. полученные бутстреп-реплики J вероятно не будут подвержены влиянию ячейки D. По точке нижней границе доверительного интервала такого бутстрепированного индекса Жаккара ещё не включающего ноль можно вычислить Р. Это - хорошая идея, попробую на своих примерчиках и данных.

2) <100$. Получается, что формула рабочая, это я её неправильно читаю(( Буду разбираться и пытаться программировать, хотя скорее всего здесь у меня из R получится BASIC.

3) А что вы думаете по поводу такого подхода: удалить из набора данных строки двойных нулей (ячейка D) и считать Монте-Карло или exact только оставшиеся ячейки?

  Форум: Медицинская статистика · Просмотр сообщения: #23965 · Ответов: 13 · Просмотров: 368

nokh
Отправлено: 17.05.2019 - 00:17


Дух форума
*

Группа: Пользователи
Сообщений: 1101
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Провели анализ микробных ассоциаций в ожоговых ранах, выборка хорошая - более 400 проб. При оценке значимости ассоциаций с помощью индекса Жаккара в R-пакете jaccard выявилась такая штука: относительно большие индексы могли оказаться незначимыми (J=0.32; Р=0,504), а почти нулевые - значимыми (J=0.06; P=0.049). Если интересно - могу выложить данные, хотя я понял почему так происходит и сделал простой маленький пример. Стал искать другие пути, но не получается справиться самостоятельно. Буду очень признателен за помощь. Описание проблемы и вопросы в прикреплённом файле Help. Второй файл - статья, на которую есть надежда. Может ещё какие варианты подскажите...
Прикрепленные файлы
Прикрепленный файл  Real_The_probabilistic_basis_of_Jaccard_s_index_1996.pdf ( 638,93 килобайт ) Кол-во скачиваний: 26
Прикрепленный файл  Help.pdf ( 203,41 килобайт ) Кол-во скачиваний: 20
 
  Форум: Медицинская статистика · Просмотр сообщения: #23956 · Ответов: 13 · Просмотров: 368

nokh
Отправлено: 14.05.2019 - 15:55


Дух форума
*

Группа: Пользователи
Сообщений: 1101
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(p2004r @ 13.05.2019 - 00:10) *
1) Если "читали и учили", то странные вопросы задаете. Но впрочем с удовольствием обсужу восстановление матриц описывающих динамическую систему со знающим человеком. smile.gif
"30 дней" это как? Сколько "замеров в день"? Если 1 и 1 пациент, то можно забыть о затее.

Когда 3 работы, а круг интересов ещё шире, то всегда что-то недочитаешь unknw.gif . И только углубившись в какую-то тему начинаешь понимать как много недочитано...
По поводу данных: с ними всё нормально. Это пациенты из реанимации гнойной хирургии крупной больницы, т.е. места, куда свозят самых тяжёлых пациентов со всех отделений и где летальность ещё несколько лет назад доходила до 30%. Их состояние мониторится по ряду показателей ежедневно, по ряду - как-то периодически, но их хватает, чтобы считать шкалы Ranson, Apache II, SOFA и др. не по разу. Т.е. матрица данных получается именно такая: для каждого пациента несколько показателей ежедневно и на протяжении всего срока пребывания в реанимации или до смерти. Один человек - одна матрица. Думаю потенциал анализа подобных данных для медицины большой, но меня сейчас интересуют другие вещи. Т.е. вопрос о восстановлении матриц не стоит. Я возможно даже интерпретировать компоненты не буду, т.к. не уверен, что справлюсь с интерпретацией, а брать соавторов в эту работу не хочу. Получится - выложу сюда готовую статью с кодом R.
  Форум: Медицинская статистика · Просмотр сообщения: #23950 · Ответов: 6 · Просмотров: 328

nokh
Отправлено: 12.05.2019 - 15:39


Дух форума
*

Группа: Пользователи
Сообщений: 1101
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Благодарю! Про Time-Wise PCA тоже погуглю. А сама задумка не из области диагностики, а более теоретическая, типа: болезнь, здоровье, гомеостаз, аллостаз и всё такое...
  Форум: Медицинская статистика · Просмотр сообщения: #23948 · Ответов: 6 · Просмотров: 328

nokh
Отправлено: 12.05.2019 - 11:09


Дух форума
*

Группа: Пользователи
Сообщений: 1101
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Большое спасибо, читал и подобное (и даже сам учил студентов:)). Но вот задумал интересную штуку и закрались сомнения, т.к. нужно чтобы было максимально корректно...
  Форум: Медицинская статистика · Просмотр сообщения: #23946 · Ответов: 6 · Просмотров: 328

nokh
Отправлено: 11.05.2019 - 22:05


Дух форума
*

Группа: Пользователи
Сообщений: 1101
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Насколько корректно применять анализ главных компонент к временным рядам? Полазил по зарубежным форумам и увидел разные мнения. То, что так считают и есть много публикаций - факт, однако PCA основан на корреляциях, для которых требование независимости наблюдений в выборке нарушена. Хочу применить к медицинским данным: динамика изменения 5-7 показателей (температура, ЧСС, АД и др.) у отельного пациента в течение 30 дней после операции.
  Форум: Медицинская статистика · Просмотр сообщения: #23944 · Ответов: 6 · Просмотров: 328

nokh
Отправлено: 6.05.2019 - 22:39


Дух форума
*

Группа: Пользователи
Сообщений: 1101
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Такое попалось: http://thinktostart.com/analyze-face-emotions-r/
  Форум: Медицинская статистика · Просмотр сообщения: #23928 · Ответов: 1 · Просмотров: 243

nokh
Отправлено: 26.03.2019 - 22:19


Дух форума
*

Группа: Пользователи
Сообщений: 1101
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(p2004r @ 26.03.2019 - 23:02) *
На графике синими линиями изображен the confidence intervals, default to 50, 90 and 95 percent.

Мне понравилась оптическая иллюзия: если смотреть на облако точек и мелко качать или трясти головой, то синие контуры ДИ начинают плавать над неподвижными точками. Завораживает однако)) Под сайко особенно хорошо: https://www.youtube.com/watch?v=PcNSmRrKQP0
Это ggtern?
  Форум: Медицинская статистика · Просмотр сообщения: #23848 · Ответов: 9 · Просмотров: 963

nokh
Отправлено: 26.03.2019 - 15:00


Дух форума
*

Группа: Пользователи
Сообщений: 1101
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(aknothing @ 26.03.2019 - 12:10) *
...Имеется группа больных общим числом например 100 человек (то бишь 100%). Вся эта группа делится на 3 патологии исследуемого заболевания: 1-я - 25 человек 2-я - 30 и 3-я - соответственно 100 - (25+30) = 45 Все это выражено в процентном соотношении по группам: 25%, 30% и 45%. Так вот в чем вопрос, руководитель человека, которого я консультирую требует сравнить эти процентные соотношения, а так же указать в виде р достоверность этих различий.

Всё зависит от того как собирались данные и для какой нулевой гипотезы нужны р-значения. Вариантов вижу два.

1) Если группа делится на 3 патологии искусственно, то "особая специфика" в том, что руководитель - неадекват, аспиранту - не повезло, вам - опыт в копилку и отстраниться.

2) Но будем исходить из более правдоподобного и радостного варианта: данные собраны таким образом, что каждая из 3 патологий имела равные шансы попасть в выборку. В этом случае частоты патологий являются выборочными оценками вероятностей представленности этих патологий в генеральной совокупности, т.е. распространённости (преваленса) патологий в популяции. В этом случае всё что можно сравнить и обнаружить - это неодинаковую распространённость патологий. Другое дело: сколько в этом логики и медицины. Но, допустим, с медицинской точки зрения действительно важно доказать, что патологии представлены неравномерно. Тогда нулевая гипотеза: равномерная распространённость патологий. Т.е. для 100 случаев - 100/3=33,3(3) для каждой. Можно сравнить наблюдаемые частоты с этими ожидаемыми частотами критериями типа хи-квадрат.

Поскольку гипотеза одна, то и проверок - одна. Но в случае обнаружения статистически значимой неоднородности можно дополнительно рассчитать р-значение для каждой ячейки, чтобы обнаружить те, которые неслучайно вложились в статистику критерия и обеспечили (преимущественно) статистическую значимость различий. Для этого для каждой ячейки нужно рассчитать либо (а) согласованные стандартизованные остатки (остатки Хабермана, statdardized adjusted residuals), либо (б) отклонения Фримана - Тьюки (Freeman-Tukey deviation). Считать придётся вручную по формулам.

Для описательной статистики помимо абсолютных и относительных частот желательно привести 95%-ные доверительные интервалы. В случае если речь идёт именно о композиции ( в сумме - 100%), то их вроде можно рассчитать точнее, чем традиционными методами типа Клоппера - Пирсона (вроде бы в сопровождении MedCalc видел, но это не точно); может меня поправят/дополнят...
  Форум: Медицинская статистика · Просмотр сообщения: #23844 · Ответов: 9 · Просмотров: 963

nokh
Отправлено: 26.03.2019 - 09:46


Дух форума
*

Группа: Пользователи
Сообщений: 1101
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(зоо @ 25.03.2019 - 20:55) *
...Есть Document Term Matrix и Term Document Matrix...
Есть ли принципиальное различие? Есть ли разница что использовать, если есть? то когда какую матрицу нужно использовать.

Я не спец в этом, но думаю принципы универсальные. Это зависит от варианта многомерного метода, которыми данные собираются обрабатывать. Есть методы:
(1) основанные на вычислении собственных чисел (eugenvalue-based methods). Это типа анализа главных компонент (с вариантами), анализа соответствий.
(2) основанные на расстояниях (distance-based methods). Это типа анализа главных координат, многомерного шкалирования.
Деление достаточно условное и скорее историческое, т.к. (1) можно выразить через (2) и наоборот. Также могут быть тонкие настройки в самих методах. Например, в анализе соответствий матрица обрабатывается симметрично для строк и столбцов, но встречал программы с опциями акцента на строках или колонках.
Также в корпусной лингвистике есть свои любимые техники и программы. Думаю, проще всего поискать ролики на ютубе и посмотреть что подают на вход и далее по аналогии.
  Форум: Медицинская статистика · Просмотр сообщения: #23842 · Ответов: 1 · Просмотров: 377

nokh
Отправлено: 26.03.2019 - 09:27


Дух форума
*

Группа: Пользователи
Сообщений: 1101
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(тот кото ый @ 24.03.2019 - 21:02) *
Спасибо огромное!

Подскажите еще пожалуйста, значит выглядеть это должно примерно так? -
...

"Выглядеть это должно примерно так", как описано в пособии, ссылку на которую я дал. Как вы собрались заниматься наукой, если не можете принять помощь из 4 пунктов?
  Форум: Медицинская статистика · Просмотр сообщения: #23841 · Ответов: 4 · Просмотров: 582

nokh
Отправлено: 24.03.2019 - 18:29


Дух форума
*

Группа: Пользователи
Сообщений: 1101
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Н-критерий Краскелла - Уоллиса имеет асимптотическое распределение хи-квадрат. Т.е. число степеней свободы для него Df=число групп - 1., т.е. в вашем случае 3-1=2.
Для критерия Манна - Уитни нет числа степеней свободы, поэтому приводят просто объёмы выборок.
Использовать Манна- Уитни для попарных сравнений без поправки на множественность сравнений (типа Бонферрони) некорректно. Лучше использовать специальные апостериорные критерии (Данна или Стила - Двасса)
Оформить можно как в этом практикуме: https://yadi.sk/d/g50i73pt3J6pAa
Прикрепленные изображения
Прикрепленное изображение
 
  Форум: Медицинская статистика · Просмотр сообщения: #23836 · Ответов: 4 · Просмотров: 582

nokh
Отправлено: 6.03.2019 - 09:44


Дух форума
*

Группа: Пользователи
Сообщений: 1101
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(Nerbi @ 6.03.2019 - 11:06) *
... Подскажите, как в этом случае рассчитать объем выборки и мощность исследования еще на этапе планирования.

Чем сложнее исследование, тем сложнее его заранее обсчитать. Выберите несколько основных показателей и проведите прикидку объёмов выборок по ним для задачи сравнения двух групп. Если объёмов хватит для сравнения двух выборок, то тем более хватит для их сравнения в динамике.
Прочитайте лабораторное занятие No 18 в этом практикуме: https://yadi.sk/d/g50i73pt3J6pAa
  Форум: Медицинская статистика · Просмотр сообщения: #23784 · Ответов: 1 · Просмотров: 492

nokh
Отправлено: 5.03.2019 - 23:08


Дух форума
*

Группа: Пользователи
Сообщений: 1101
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Я бы тоже начал с разности "до-после", или учётом увеличения значений после нагрузки, для положительного знака (после-до). Для каждой из двух разностей можно построить гистограмму и плотность распределения, чтобы оценить однородность выборки. Ну а для описанной 100$ диаграммы рассеяния можно построить оценить двумерную плотность распределения (пример см. здесь: http://molbiol.ru/forums/index.php?showtop...51#entry1526151 ) В принципе, кластерный анализ можно применить и для этих двух разностей.
  Форум: Медицинская статистика · Просмотр сообщения: #23782 · Ответов: 7 · Просмотров: 1455

nokh
Отправлено: 21.02.2019 - 20:37


Дух форума
*

Группа: Пользователи
Сообщений: 1101
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(metalmary @ 21.02.2019 - 21:29) *
Народ, help.gif плиз! Есть данные в абсолютных числах, нужно среднее арифметическое перевести в процент от начального значения (контроля, принятого за 100 процентов). Как пересчитать стандартную ошибку среднего относительно процентов? Например. среднее значение составило 4.57+-1.25, это составило 125,1 %+-... процентов от контроля. Видела такое в некоторых зарубежных статьях. Как это пересчитать.?

По большому счёту это - глупости. Не следует их множить. Лучше рассчитайте вместо ст. ошибки 95% доверительный интервал (ДИ) для среднего. И если уж так сильно хочется, то границы ДИ легко пересчитываются в % как и само среднее.
  Форум: Медицинская статистика · Просмотр сообщения: #23752 · Ответов: 4 · Просмотров: 879

nokh
Отправлено: 19.02.2019 - 08:06


Дух форума
*

Группа: Пользователи
Сообщений: 1101
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(Med_Elena @ 17.02.2019 - 11:43) *
Не рекомендую приводить подобные описания. Поскольку в них нет никакой конкретики. В частности не приводится корректное описание типа корреляционного анализа.
А этот анализ бывает разный, и не все их применения всегда корректны. Ну а если в базе данных есть группы наблюдений, то в этом случае продуктивно сравнивать
эти группы разными многомерными методами. Например, разными алгоритмами дискриминантного анализа, или разными алгоритмами логистической регрессии.
И тогда станет ясно, какие именно признаки доминируют в различии как между собой в этих группах, так и по интенсивности связи между собой. Естественно что
сделать такие анализы могут не все медики, поскольку это методы очень сложные, но зато очень продуктивные.

Странная рекомендация. Если бы вы ознакомились с содержанием ветки по ссылке выше, то узнали бы, что парадокс объединений неразрешим в принципе. Даже с помощью многомерных техник. Даже если их применяют не медики, а (био)статистики. Кстати, логистическая регрессия, как и прочие варианты множественной регрессии с одним откликом, не относятся к многомерным методам.
  Форум: Медицинская статистика · Просмотр сообщения: #23745 · Ответов: 4 · Просмотров: 1082

nokh
Отправлено: 7.02.2019 - 19:36


Дух форума
*

Группа: Пользователи
Сообщений: 1101
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(comisora @ 7.02.2019 - 15:37) *
...Спросили - как можно "объективно" сравнить наборы услуг.
Я подумал, что это из области MCA/PCA/MDS, но не уверен (смущает большое количество разношёрстных условий и предложений)...

Не совсем понятна цель сравнения. Оценить уровень общего сходства наборов или выйти на самые-самые особенности? В любом случае у меня опыта в таком почти нет. В голову приходит прокрустов анализ, который позволяет сравнить многомерные матрицы данных. Его можно применять как исходным данным, так и к редуцированным в ходе MCA/PCA/MDS. В сочетании с рандомизационной процедурой можно оценить статистическую значимость различия двух матриц данных, а также её элементов.
  Форум: Медицинская статистика · Просмотр сообщения: #23724 · Ответов: 7 · Просмотров: 1274

nokh
Отправлено: 1.02.2019 - 13:48


Дух форума
*

Группа: Пользователи
Сообщений: 1101
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(Choledochus @ 1.02.2019 - 15:07) *
... Вот так можно (?):
"Последнее может интерпретироваться как ложное снижение корреляции вследствие неоднородности данных, вызванной принадлежностью опрошенных к разным категориям индивидуумов или как нелинейная корреляционная связь".

Полагаю, что можно. Звучит тоже нормально: лаконично, для меня - понятно. Когда мы анализируем связи в большой неоднородной группе, то можем сделать выводы с точностью до наоборот. Это - парадокс Симпсона, см. рисунок в этой теме: http://forum.disser.ru/index.php?showtopic=1998
  Форум: Медицинская статистика · Просмотр сообщения: #23716 · Ответов: 4 · Просмотров: 1082

nokh
Отправлено: 29.01.2019 - 19:49


Дух форума
*

Группа: Пользователи
Сообщений: 1101
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(DJAp @ 29.01.2019 - 19:50) *
К сожалению, я неправильно выразился. Моя ошибка. Имелось в виду, получали 6 разных эффектов, которые не были связаны друг с другом.
В таком случае, приведенные выше методы будут актуальны?

Тогда только 1)
  Форум: Медицинская статистика · Просмотр сообщения: #23709 · Ответов: 6 · Просмотров: 982

nokh
Отправлено: 29.01.2019 - 01:08


Дух форума
*

Группа: Пользователи
Сообщений: 1101
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(fattymouse @ 29.01.2019 - 01:03) *
Что такое OR и CI?

OR - Odds ratio - Отношение шансов
CI - Confidence interval - Доверительный интервал (ДИ). В данном случае 95%-ный ДИ для отношения шансов.
  Форум: Медицинская статистика · Просмотр сообщения: #23701 · Ответов: 2 · Просмотров: 539

nokh
Отправлено: 29.01.2019 - 01:05


Дух форума
*

Группа: Пользователи
Сообщений: 1101
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(DJAp @ 28.01.2019 - 02:48) *
Есть пример, пациенты принимали два разных лекарства и получали эффект, который оценивался от 0 до 5.
Таким образом, нужно сравнить, есть ли в этих двух группах (лекарствах) достоверные отличия по частоте явления. То есть, эффект 0 был у 39 пациентов, эффект 1 у 3 пациентов и так далее (таблица ниже).
Как я понял, что если сравнивать количество пациентов есть эффект/нет эффекта, можно использовать критерии Фишера/хи2 в четырехпольных таблицах, например в ПО Statistica.
А в случае когда нужно сравнить несколько вариантов? Есть ли какое то решение этой проблемы?
преп1 преп2
0 39 28
1 3 1
2 3 5
3 6 8
4 0 3
5 3 4

1) Как уже сказали, таблица сопряжённости может быть не только 2 x 2 но и r x c, и даже быть не двумерной, а многомерной. Её можно обсчитать хи-квадратом Пирсона, отношением правдоподобия (G-критерий), критерием Фримана -Тьюки и т.д. Но все критерии, опирающиеся на статистическое распределение хи-квадрат имеют проблему допустимого минимального ожидаемого, т.е. имеются требования к насыщенности ячеек таблицы данными. Ваша таблица слабонасыщенная (есть даже нули), а значит использовать классические критерии некорректно. Нужно использовать точные рандомизационные критерии (exact permutation) или хотя бы рандомизацию Монте-Карло.
2) В вашем случае даже при таком корректном обсчёте мощность сравнения будет недостаточной, т.к. при простом анализе таблиц сопряжённости упорядоченность категорий игнорируется. Т.е. вы просто обнаружите (а для ваших данных - не обнаружите) различие распределения пациентов по категориям. Чтобы учесть упорядоченность ("получали эффект, который оценивался от 0 до 5") нужно использовать другие методы. Например, анализ на тренд методом Кохрана - Армитаж, есть другие малоизвестные методы на нелинейный тренд.
3) Также можно развернуть таблицу сопряжённости в длинный формат и сравнить выборки критерием Манна - Уитни. Т.е. для первого препарата набить 39 нулей, 3 единицы, 3 двойки, 6 троек и т.д. Аналогично для второго и сравнить. Таким способом обсчитывает таблицы с упорядоченными категориями один из самых продвинутых пакетов StatXact. Критерий Манна -Уитни будет искать именно сдвиг.
4) Рекомендации 1-3 даны только для независимых выборок. Если препараты оценивались на одних и тех же пациентах - нужны другие методы.


  Форум: Медицинская статистика · Просмотр сообщения: #23700 · Ответов: 6 · Просмотров: 982

44 страниц V   1 2 3 > » 

Открытая тема (есть новые ответы)  Открытая тема (есть новые ответы)
Открытая тема (нет новых ответов)  Открытая тема (нет новых ответов)
Горячая тема (есть новые ответы)  Горячая тема (есть новые ответы)
Горячая тема (нет новых ответов)  Горячая тема (нет новых ответов)
Опрос (есть новые голоса)  Опрос (есть новые голоса)
Опрос (нет новых голосов)  Опрос (нет новых голосов)
Закрытая тема  Закрытая тема
Тема перемещена  Тема перемещена