Форум врачей-аспирантов

Здравствуйте, гость ( Вход | Регистрация )

43 страниц V   1 2 3 > » 

p2004r
Отправлено: 7.05.2020 - 23:33


Дух форума
*

Группа: Пользователи
Сообщений: 1080
Регистрация: 26.08.2010
Пользователь №: 22699


Цитата(comisora @ 30.04.2020 - 16:08) *
Вопрос: можно ли каким-то образом связать оценки экспертов с рейтинговыми данными? Сочинить смешанную модель с бета-распределением не хватает навыка. Смотрел single-case analysis и arima - остро не хватает данных.



медитируйте над результатом smile.gif

ps

похоже 19ый скоррелировал с "агенствами" smile.gif))
Эскизы прикрепленных изображений
Прикрепленное изображение
 
  Форум: Медицинская статистика · Просмотр сообщения: #25733 · Ответов: 2 · Просмотров: 450

p2004r
Отправлено: 7.05.2020 - 23:15


Дух форума
*

Группа: Пользователи
Сообщений: 1080
Регистрация: 26.08.2010
Пользователь №: 22699


так как тут помочь? связи никакой в данных нет кроме годов общих smile.gif

две вот эти таблицы по сути

каноническую корреляцию по трем строкам (года) с пропущенными значениями в довесок посчитать разве что? smile.gif)))

Код
> acast(expert, type ~ year, value.var="rate", median)
       2015      2017      2019
a 0.7500000 0.1578947 0.7894737
d 0.6930000 0.7500000 0.7720000
n 0.8750000 0.9583333 0.9583333
r 0.9761905 0.9761905 0.9761905


> acast(expert, expert ~ year ~ type, value.var="neg")
, , a

             2015       2017       2019
exp_1  -1.5177168 -1.2039728 -0.5773154
exp_10         NA -1.4663371 -0.5653138
exp_11         NA -2.0149030 -2.0794415
exp_12 -1.3862944  1.3862944 -2.4423470
exp_13  0.2744368 -0.4054651 -0.6931472
exp_14 -2.0149030 -1.6094379 -2.3025851
exp_15 -1.3247816 -2.0946317 -1.4136933
exp_16 -2.5649494 -2.5649494 -2.3025851
exp_17         NA -1.0986123 -1.3862944
exp_18 -0.9162907 -2.1400662 -2.5520460
exp_19  0.0000000 -1.6094379 -0.6931472
exp_2  -0.9162907 -2.3025851 -2.5649494
exp_20 -0.9985288 -0.1541507  0.4054651
exp_21 -0.6190392  0.0000000  0.5596158
exp_22 -1.7047481 -2.5649494 -1.3862944
exp_23 -1.9459101 -2.9444390 -3.4339872
exp_3          NA         NA -4.5432948
exp_4  -1.5968591 -3.2958369 -1.5892352
exp_5  -2.2553322 -2.2512918  1.2237754
exp_6  -2.3025851 -2.6390573 -1.6094379
exp_7          NA -1.9459101 -3.6109179
exp_8  -0.9162907 -1.6094379  0.0000000
exp_9          NA -0.5108256 -1.9459101

, , d

             2015       2017       2019
exp_1  -1.5177168 -1.2039728 -0.5773154
exp_10         NA -1.4663371 -0.5653138
exp_11         NA -2.0149030 -2.0794415
exp_12 -1.3862944  1.3862944 -2.4423470
exp_13  0.2744368 -0.4054651 -0.6931472
exp_14 -2.0149030 -1.6094379 -2.3025851
exp_15 -1.3247816 -2.0946317 -1.4136933
exp_16 -2.5649494 -2.5649494 -2.3025851
exp_17         NA -1.0986123 -1.3862944
exp_18 -0.9162907 -2.1400662 -2.5520460
exp_19  0.0000000 -1.6094379 -0.6931472
exp_2  -0.9162907 -2.3025851 -2.5649494
exp_20 -0.9985288 -0.1541507  0.4054651
exp_21 -0.6190392  0.0000000  0.5596158
exp_22 -1.7047481 -2.5649494 -1.3862944
exp_23 -1.9459101 -2.9444390 -3.4339872
exp_3          NA         NA -4.5432948
exp_4  -1.5968591 -3.2958369 -1.5892352
exp_5  -2.2553322 -2.2512918  1.2237754
exp_6  -2.3025851 -2.6390573 -1.6094379
exp_7          NA -1.9459101 -3.6109179
exp_8  -0.9162907 -1.6094379  0.0000000
exp_9          NA -0.5108256 -1.9459101

, , n

             2015       2017       2019
exp_1  -1.5177168 -1.2039728 -0.5773154
exp_10         NA -1.4663371 -0.5653138
exp_11         NA -2.0149030 -2.0794415
exp_12 -1.3862944  1.3862944 -2.4423470
exp_13  0.2744368 -0.4054651 -0.6931472
exp_14 -2.0149030 -1.6094379 -2.3025851
exp_15 -1.3247816 -2.0946317 -1.4136933
exp_16 -2.5649494 -2.5649494 -2.3025851
exp_17         NA -1.0986123 -1.3862944
exp_18 -0.9162907 -2.1400662 -2.5520460
exp_19  0.0000000 -1.6094379 -0.6931472
exp_2  -0.9162907 -2.3025851 -2.5649494
exp_20 -0.9985288 -0.1541507  0.4054651
exp_21 -0.6190392  0.0000000  0.5596158
exp_22 -1.7047481 -2.5649494 -1.3862944
exp_23 -1.9459101 -2.9444390 -3.4339872
exp_3          NA         NA -4.5432948
exp_4  -1.5968591 -3.2958369 -1.5892352
exp_5  -2.2553322 -2.2512918  1.2237754
exp_6  -2.3025851 -2.6390573 -1.6094379
exp_7          NA -1.9459101 -3.6109179
exp_8  -0.9162907 -1.6094379  0.0000000
exp_9          NA -0.5108256 -1.9459101

, , r

             2015       2017       2019
exp_1  -1.5177168 -1.2039728 -0.5773154
exp_10         NA -1.4663371 -0.5653138
exp_11         NA -2.0149030 -2.0794415
exp_12 -1.3862944  1.3862944 -2.4423470
exp_13  0.2744368 -0.4054651 -0.6931472
exp_14 -2.0149030 -1.6094379 -2.3025851
exp_15 -1.3247816 -2.0946317 -1.4136933
exp_16 -2.5649494 -2.5649494 -2.3025851
exp_17         NA -1.0986123 -1.3862944
exp_18 -0.9162907 -2.1400662 -2.5520460
exp_19  0.0000000 -1.6094379 -0.6931472
exp_2  -0.9162907 -2.3025851 -2.5649494
exp_20 -0.9985288 -0.1541507  0.4054651
exp_21 -0.6190392  0.0000000  0.5596158
exp_22 -1.7047481 -2.5649494 -1.3862944
exp_23 -1.9459101 -2.9444390 -3.4339872
exp_3          NA         NA -4.5432948
exp_4  -1.5968591 -3.2958369 -1.5892352
exp_5  -2.2553322 -2.2512918  1.2237754
exp_6  -2.3025851 -2.6390573 -1.6094379
exp_7          NA -1.9459101 -3.6109179
exp_8  -0.9162907 -1.6094379  0.0000000
exp_9          NA -0.5108256 -1.9459101
  Форум: Медицинская статистика · Просмотр сообщения: #25732 · Ответов: 2 · Просмотров: 450

p2004r
Отправлено: 6.05.2020 - 10:58


Дух форума
*

Группа: Пользователи
Сообщений: 1080
Регистрация: 26.08.2010
Пользователь №: 22699


Цитата(Robotnik @ 4.05.2020 - 15:11) *
"9"? Что за "9"? Я нигде не упоминал его. Да и нет никакого "сакрального" числа. Вы о чём?



Вы _просто_ ответить способны? 9 значимо выбивается из "великого полиноминольного математического распределения"ТМ. Имеет ли значение "9 повреждений" для (например) "оценки тыжести преступления"?
  Форум: Медицинская статистика · Просмотр сообщения: #25727 · Ответов: 14 · Просмотров: 737

p2004r
Отправлено: 4.05.2020 - 14:52


Дух форума
*

Группа: Пользователи
Сообщений: 1080
Регистрация: 26.08.2010
Пользователь №: 22699


Цитата(Robotnik @ 3.05.2020 - 19:08) *
А что за случай с 43 повреждениями?
Ну вот такой случай. Это не ошибка, я сам все наблюдения анализировал и перепроверял потом. Но я так понимаю, что это статистический выброс, поэтому он не влияет на общую картину.

Благодарю всех за ответы! Буду думать и, если что, спрошу ещё.

Только можно ещё сразу сейчас кое-что прояснить для себя:
1). Я построил гистограмму и распределение было сильно смещено влево: наиболее часто встречались наблюдения, где повреждение было одно или два (n = 69 и n = 68, соответственно). При этом я имею медиану, равную 4 и её 95%-ый интервал от трёх до четырёх. Объясните мне, глупому, разве здесь нет противоречия? Согласно медиане и её интервалу в генеральной совокупности встречаются преимущественно случаи, в которых повреждения варьируют от 3 до 4, а если посмотреть на гистограмму, то больше наблюдений, где повреждений от одного до двух максимум.
2). Как интерпретировать межквартильный размах? Вот у меня он равен 5 (Q3-Q1 или 7 - 2 = 5). Это что значит? Эту меру разброса можно как-то переносить на генеральную совокупность? И почему вы писали, что размах предпочтительнее в моём случае?



а "9" это какое то "сакральное" число в практике судебной?
  Форум: Медицинская статистика · Просмотр сообщения: #25713 · Ответов: 14 · Просмотров: 737

p2004r
Отправлено: 3.05.2020 - 13:22


Дух форума
*

Группа: Пользователи
Сообщений: 1080
Регистрация: 26.08.2010
Пользователь №: 22699


Рисуйте зависимость вероятности для измерения оказаться меньше заданного значения от величины этого значения с доверительным интервалом 95% (по идее это полностью описывает распределение выборочное и пределы оценки для распределения генсовокупности). В полулогарифмических лучше выглядит для вашей выборки вот так.

PS

Можно в виде кучи боксплотов изобразить (для каждого числа повреждений отдельный ящик на общем графике), но очень уж плотный получается тогда график.
Эскизы прикрепленных изображений
Прикрепленное изображение
Прикрепленное изображение
 
  Форум: Медицинская статистика · Просмотр сообщения: #25704 · Ответов: 14 · Просмотров: 737

p2004r
Отправлено: 4.04.2020 - 08:37


Дух форума
*

Группа: Пользователи
Сообщений: 1080
Регистрация: 26.08.2010
Пользователь №: 22699


Цитата(passant @ 4.04.2020 - 00:08) *
Уважаемые коллеги-медики.


Итак, формальная постановка задачи. Необходимо подтвердить H0 гипотезу отсутствия различий между двумя наборами данных. ебе "многомерная проверка гипотез".



Это невозможная постановка задачи. Нулевую гипотезу можно только отвергнуть, при произвольно выбранных трех параметров (и вычисленном четвертом) из четырех 1-2)ошибках первого-второго родов, 3)размере эффекта, 4) размер группы.

Ну вот для каждого из исследований в выборке метаанализа проводите этот расчет-перерасчет и "приводите к обозримому одновременно виду".

Например размер выборки уже "прибит гвоздями" и константа в пострассмотрении, значит "по этой оси ставим точку", остальные три переменных "живут в пространстве размерности минус один", значит они будут в виде "плоскости проходящей через точку размера выборки". Ну и остальные исследования так же "перегоняем".

Размер эффекта по сути эквивалентен этакому "одностороннему доверительному интервалу", по его оси (её направление в построенном пространстве можно и восстановить) его и откладываем "от нуля". Картину перекрывающихся "интервалов эффектов" от исследований "глубокомысленно изучаем" и делаем выводы.

"Математически" в этой задаче (работе с результатами исследования "как целого") думаю ничего больше нет. А сами техники можно посмотреть в https://cran.r-project.org/web/views/MetaAnalysis.html


Вот например метапакет визуализации результатов
https://cran.r-project.org/web/packages/met...es/metaviz.html
  Форум: Медицинская статистика · Просмотр сообщения: #25559 · Ответов: 17 · Просмотров: 1300

p2004r
Отправлено: 4.04.2020 - 08:15


Дух форума
*

Группа: Пользователи
Сообщений: 1080
Регистрация: 26.08.2010
Пользователь №: 22699


Цитата(nokh @ 4.04.2020 - 05:52) *
Благодарю за мнения и код! Попробую всё-таки ещё свой вариант, интересно будет сравнить с результатом р2004r.
По поводу Сайсон - Глаза ничего не читал, но мне решительно не понравился ноль в качестве нижней границы. Получается так: по набору в 73 объекта частота почти 9,5%, а нижняя граница ноль. Причём не 0.0001, что и так нереалистично мало, а вообще 0.00000000. Т.е. по-сути, метод говорит, что несмотря на то, что в выборке у меня оказалось почти 10%, если я продолжу процесс извлечения выборок, то в 95% выборок не обнуружу ни одного объёта такой категории. Не верю. Поэтому более склонен довериться моделированию. Последнее для меня очень затратно по времени написания кодов, но может за самоизоляцию и получится (как ни странно, сейчас времени вообще нет: в НИИ дана команда сидеть дома и писать статьи на год вперёд))), а в универе народ у кого занятий много вообще вешается с этой дистанционкой...)


Возьмите готовые доверительные интервалы отсюда https://cran.r-project.org/web/packages/Ternary/index.html
  Форум: Медицинская статистика · Просмотр сообщения: #25558 · Ответов: 6 · Просмотров: 563

p2004r
Отправлено: 2.04.2020 - 09:49


Дух форума
*

Группа: Пользователи
Сообщений: 1080
Регистрация: 26.08.2010
Пользователь №: 22699


Цитата(nokh @ 2.04.2020 - 09:24) *
Раньше считал (вероятно не совсем корректно) ДИ для долей всегда методами для биномиального распределения. Т.е., например, в ряду абсолютных частот 4-х категорий {13, 35, 18, 7} с суммой n=73 доля первой категории f=13/73*100%=17,8%. Для неё находил 95% ДИ методом Клоппера - Пирсона или в полседнее время методом Джеффриса (байесовский априорный интервал): [10,4; 27,7].
Сейчас решил посчитать ДИ для полиномиального распределения, думал, что раз информации больше, то они Уже будут. Ничего подобного. R-пакет DescTool считает одновременные ДИ для полиномиалного распределения функцией MultinomCI.
library(DescTools)
x<-c(13,35,18,7)
MultinomCI(x)
est lwr.ci upr.ci
[1,] 0.17808219 0.06849315 0.3006248
[2,] 0.47945205 0.36986301 0.6019947
[3,] 0.24657534 0.13698630 0.3691180
[4,] 0.09589041 0.00000000 0.2184330
По умолчанию считает ДИ методом Сайсона - Глаза по SAS-овскому алгоритму. Всё хуже, чем даже биномиальный Клоппер - Писон, который ругают за консервативность. Видно, что для 7 (9,6%) нижняя граница вообще ноль. Более адекватные результаты даёт только метод Уилсона:
> MultinomCI(x, method="wilson")
est lwr.ci upr.ci
[1,] 0.17808219 0.10713373 0.2812173
[2,] 0.47945205 0.36877454 0.5921840
[3,] 0.24657534 0.16204465 0.3564445
[4,] 0.09589041 0.04722895 0.1849564

Воросы:
1) Каким способом считаете вы?
2) Хочу попробовать сделать бутстреп. Думаю так: многократно пробублировать набор 4 типов в соотношении 13 : 35 : 18 : 7 и извлекать из него с возвратом случайные выборки размером n=73; для каждогго типа потом рассчитать ДИ методом процентилей. Корректно так будет организовать?


Для долей надо "восстановить" выборку в виде объектов с признаками замеренными.

После этого или 1) перемешиваем признаки (рандомизация) и получаем "доверительный интервал для 0-гипотезы".

Или 2) извлекаем "с возвращением" перевыборки и считаем в каждой нужные нам доли, следим за "сходимостью процентилей долей в накопленной выборке", как только достигнутая точность нас устраивает прекращаем.

Код
> d <- c(rep(1, 13), rep(2, 35), rep(3, 18), rep(4, 7))
> table(d)
d
1  2  3  4
13 35 18  7
> length(d)
[1] 73
> dd <- replicate(100000, table(sample(factor(d), replace=T)))
> str(dd)
int [1:4, 1:100000] 12 36 15 10 12 37 16 8 17 40 ...
- attr(*, "dimnames")=List of 2
  ..$ :8322456 [1:4] "1" "2" "3" "4"
  ..$ : NULL
> sapply(1:nrow(dd), function(i) quantile(dd[i,], probs=c(0.025,0.5,0.975)))
      [,1] [,2] [,3] [,4]
2.5%     7   27   11    3
50%     13   35   18    7
97.5%   20   43   25   12



PS

ну и конечно нарисовать все эти доверительные интервалы можно только в виде тернарных графиков (придется перегруппирование небольшое делать, что бы размерности хватило, хотя можно в виде 3д пирамиды в данном конкретном примере).
  Форум: Медицинская статистика · Просмотр сообщения: #25545 · Ответов: 6 · Просмотров: 563

p2004r
Отправлено: 4.03.2020 - 23:22


Дух форума
*

Группа: Пользователи
Сообщений: 1080
Регистрация: 26.08.2010
Пользователь №: 22699


Цитата(p2004r @ 27.02.2020 - 14:31) *
https://invisioncommunity.com/forums/topic/...-elasticsearch/

Как бы снабдить каждую открытую тему блоком верстки (например в самый низ страницы вынесенном), где автоматом показаны топ-10 самых релевантных остальных тем из истории форума в которых обсуждается та же самая тема, что и поднятая в данной открытой теме?

PS

ну и проиндексировать в Elasticsearch всю историю форума естественно под это дело smile.gif



Версия 4.3+ поддерживает нормальный поиск.

https://invisioncommunity.com/news/product-...ovements-r1062/

Elasticsearch
In Invision Community 4.3 we are adding native support for Elasticsearch, a third party search engine which offers a number of benefits over searching your MySQL database:

Elasticsearch, being designed and indexing data in a way optimised for search rather than data storage, is generally able to match and sort by relevancy with better accuracy than MySQL.
Elasticsearch is generally faster. One user performing a search doesn't slow down other users trying to read and make posts at the same time (when searching MySQL, the data has to be "locked" from changes when the search is being performed). It scales very well with very large datasets, and runs very easily on multiple servers.
Elasticsearch understands language. If for example, you search for "community", it will also return results which contain the word "communities", understanding that these are the same. Supported languages are Arabic, Armenian, Basque, Brazilian, Bulgarian, Catalan, Chinese, Czech, Danish, Dutch, English, Dinnish, Drench, Galician, German, Greek, Hindi, Hungarian, Indonesian, Irish, Italian, Japanese, Korean, Latvian, Lithuanian, Norwegian, Persian, Portuguese, Romanian, Russian, Sorani, Spanish, Swedish, Turkish, Thai.
Elasticsearch supports custom functions on the scoring algorithm. In our initial implementation this has allowed us to add settings to allow you to control the time decay (allowing newer results to show higher) and author boost (allowing content posted by the user to optionally show higher in results).
Unlike with MySQL, there is no minimum query length and a very small list of stop words.


  Форум: Разное · Просмотр сообщения: #25405 · Ответов: 2 · Просмотров: 767

p2004r
Отправлено: 27.02.2020 - 14:31


Дух форума
*

Группа: Пользователи
Сообщений: 1080
Регистрация: 26.08.2010
Пользователь №: 22699


https://invisioncommunity.com/forums/topic/...-elasticsearch/

Как бы снабдить каждую открытую тему блоком верстки (например в самый низ страницы вынесенном), где автоматом показаны топ-10 самых релевантных остальных тем из истории форума в которых обсуждается та же самая тема, что и поднятая в данной открытой теме?

PS

ну и проиндексировать в Elasticsearch всю историю форума естественно под это дело smile.gif

Вот как то в духе этого руководства https://qbox.io/blog/practical-guide-elasti...oring-relevancy
  Форум: Разное · Просмотр сообщения: #25390 · Ответов: 2 · Просмотров: 767

p2004r
Отправлено: 23.02.2020 - 13:03


Дух форума
*

Группа: Пользователи
Сообщений: 1080
Регистрация: 26.08.2010
Пользователь №: 22699


Цитата(Felix77 @ 23.02.2020 - 11:36) *
Коэффициенты корреляций между предикторами слабые - 0.14-0.36. И с чего вдруг мультиколлинеарность больше чем допустимо.
Не понимаю!



Код
> car::vif(modkim)
         Анемия Объем.контраста         возраст
       5.584514        5.157870        1.400406


Generally, VIF for an X variable should be less than 4 in order to be accepted as not causing multi-collinearity. The cutoff is kept as low as 2, if you want to be strict about your X variables.


ЗЫ

Код
> glm(КИН ~ Объем.контраста + возраст , kinm, family=binomial(link="logit"))

Call:  glm(formula = КИН ~ Объем.контраста + возраст,
    family = binomial(link = "logit"), data = kinm)

Coefficients:
    (Intercept)  Объем.контраста          возраст  
      -16.17699          4.67647          0.07174  

Degrees of Freedom: 300 Total (i.e. Null);  298 Residual
Null Deviance:        220.4
Residual Deviance: 60.04     AIC: 66.04
> car::vif(glm(КИН ~ Объем.контраста + возраст , kinm, family=binomial(link="logit")))
Объем.контраста         возраст
       1.014424        1.014424
  Форум: Медицинская статистика · Просмотр сообщения: #25373 · Ответов: 8 · Просмотров: 863

p2004r
Отправлено: 23.02.2020 - 10:39


Дух форума
*

Группа: Пользователи
Сообщений: 1080
Регистрация: 26.08.2010
Пользователь №: 22699


Цитата(Felix77 @ 23.02.2020 - 09:34) *
Доброго времени суток!
Модель вроде бы адекватная (зависимая переменная - КИН), 3 предиктора - объем контраста, возраст, анемия (есть или нет). Но вот отношения шансов получаются какие-то очень высокие.
Intercept) Анемия1 возраст Объем.контраста
4.991232e-15 4.267894e+03 1.167138e+00 2.609896e+03



1. У вас разделены данные по КИН без всяких моделей и сомнений. "Просто глазами" разделяемы.

2. Предикторы мультиколлинеарны более чем допустимо, значит значения коэффициентов модели содержательно интерпретировать нельзя. Но судя по п.1 сильно не уменьшиться.

Цитата(Felix77 @ 23.02.2020 - 10:15) *
А что не так то?



Ага
  Форум: Медицинская статистика · Просмотр сообщения: #25371 · Ответов: 8 · Просмотров: 863

p2004r
Отправлено: 23.02.2020 - 10:09


Дух форума
*

Группа: Пользователи
Сообщений: 1080
Регистрация: 26.08.2010
Пользователь №: 22699


Цитата(Felix77 @ 23.02.2020 - 09:37) *
[attachment=1880:Регрессия.xlsx]
Данные здесь


Внимательнее данные готовьте, тут шутников и так хоть ртом ешь.
  Форум: Медицинская статистика · Просмотр сообщения: #25368 · Ответов: 8 · Просмотров: 863

p2004r
Отправлено: 23.01.2020 - 17:09


Дух форума
*

Группа: Пользователи
Сообщений: 1080
Регистрация: 26.08.2010
Пользователь №: 22699


Зайдите на https://cran.r-project.org/view=Cluster и почитайте подраздел Model-Based Clustering.
  Форум: Медицинская статистика · Просмотр сообщения: #25177 · Ответов: 13 · Просмотров: 1224

p2004r
Отправлено: 9.12.2019 - 18:49


Дух форума
*

Группа: Пользователи
Сообщений: 1080
Регистрация: 26.08.2010
Пользователь №: 22699


Цитата(md416 @ 8.12.2019 - 22:32) *
Подскажите пожалуйста, где можно почитать про выбор оптимальной точки отсечения?
Когда мне на пальцах объясняли эту тему, у меня отложилось, что точка отсечения - это где Sp=Se,то есть их пересечение. Но оказалось, что есть ещё десяток методов... в.т.ч критерий Юдена.
Есть ли какой-то критерий для сравнения данных данных подходов?


Если известна ожидаемая частота детектируемых методом случаев и соотношение цены ошибок первого и второго рода, то решение просто получается по формуле Youden в модификации Perkins и Schisterman. В том числе и предельные случаи: "детектировать все подряд" и "ни на что не реагировать, дешевле будет".
  Форум: Медицинская статистика · Просмотр сообщения: #24872 · Ответов: 57 · Просмотров: 119281

p2004r
Отправлено: 26.11.2019 - 09:53


Дух форума
*

Группа: Пользователи
Сообщений: 1080
Регистрация: 26.08.2010
Пользователь №: 22699


Тут принципиальный вопрос.

1) Или мы проверяем факт, что средние двух выборок отличаются друг от друга на 200 мл и более (настраивая условия теста p-value "он может заметить и не пропустить только 200 и более" и говоря тест прошел, значит ОК)

2) Или мы говорим "в доверительный интервал при средней выборки с кровопотерей не попадает фиксированная граница кровопотери 200 мл". При этом придумывая что матожидание в экспериментальной выборке равно 200+"конкретная дельта".

Во втором случае можно и 50 человек смоделировать и 150. Все зависит как близко мы ожидаем среднее значение в эксперименте к границе при данной сигме. Для случая "среднее равно или больше заданной границы" мы ничего корректно ответить не можем из самой постановки, размер группы будет "уходить в бесконечность".

Думаю p-value тест именно такую постановку и призван разрешать, а в конкретном случае надо просто понизить ошибки первого и второго рода (то есть фактически повысить качество исследования) задав размеры групп достаточные для подтверждения гипотезы о распределении данных.

PS

Если распределение окажется не приводимом к нормальному, то останется возможность посчитать распределение средних в группах бутсрепом и сравнить с границей 200 мл перцентили этих распределений.
  Форум: Медицинская статистика · Просмотр сообщения: #24824 · Ответов: 8 · Просмотров: 3090

p2004r
Отправлено: 20.11.2019 - 13:29


Дух форума
*

Группа: Пользователи
Сообщений: 1080
Регистрация: 26.08.2010
Пользователь №: 22699


Код
> quantile(replicate(100000, mean(rnorm(3, mean = 400, sd = 50)) - mean(rnorm(3, mean = 400+200, sd = 50))), probs=c(0.025,0.5,0.975))
     2.5%       50%     97.5%
-279.7164 -199.9725 -120.1604
> quantile(replicate(100000, mean(rnorm(3, mean = 400, sd = 50)) - mean(rnorm(3, mean = 400+200, sd = 50))), probs=c(0.025,0.5,0.975))
     2.5%       50%     97.5%
-279.9967 -200.1365 -120.2151
> quantile(replicate(100000, mean(rnorm(2, mean = 400, sd = 50)) - mean(rnorm(2, mean = 400+200, sd = 50))), probs=c(0.025,0.5,0.975))
     2.5%       50%     97.5%
-297.6608 -199.9111 -102.1518
> quantile(replicate(100000, mean(rnorm(2, mean = 400, sd = 50)) - mean(rnorm(2, mean = 400+200, sd = 50))), probs=c(0.025,0.5,0.975))
     2.5%       50%     97.5%
-298.6200 -200.1311 -101.9544


Код
> table(replicate(1000000, mean(rnorm(3, mean = 400, sd = 50)) - mean(rnorm(3, mean = 400+200, sd = 50)))>0 )

  FALSE
1000000
> table(replicate(1000000, mean(rnorm(3, mean = 400, sd = 50)) - mean(rnorm(3, mean = 400+200, sd = 50)))>0 )

  FALSE
1000000
> table(replicate(1000000, mean(rnorm(3, mean = 400, sd = 50)) - mean(rnorm(3, mean = 400+200, sd = 50)))>0 )

FALSE   TRUE
999999      1
> table(replicate(1000000, mean(rnorm(2, mean = 400, sd = 50)) - mean(rnorm(2, mean = 400+200, sd = 50)))>0 )

FALSE   TRUE
999975     25
> table(replicate(1000000, mean(rnorm(2, mean = 400, sd = 50)) - mean(rnorm(2, mean = 400+200, sd = 50)))>0 )

FALSE   TRUE
999961     39
> table(replicate(1000000, mean(rnorm(2, mean = 400, sd = 50)) - mean(rnorm(2, mean = 400+200, sd = 50)))>0 )

FALSE   TRUE
999981     19
> table(replicate(10000000, mean(rnorm(3, mean = 400, sd = 50)) - mean(rnorm(3, mean = 400+200, sd = 50)))>0 )

  FALSE    TRUE
9999994       6


четыре сигмы, это четыре сигмы (лучше только пять smile.gif )
  Форум: Медицинская статистика · Просмотр сообщения: #24813 · Ответов: 8 · Просмотров: 3090

p2004r
Отправлено: 15.11.2019 - 21:22


Дух форума
*

Группа: Пользователи
Сообщений: 1080
Регистрация: 26.08.2010
Пользователь №: 22699


Цитата(nzbr @ 15.11.2019 - 14:53) *
Для выявления различия кровопотери в 200 мл на 5% уровне значимости с 80% мощностью, принимая стандартное отклонение равным 50 мл, потребуется 3 человек в группу вмешательства и контроля.


sd (как и доказательство что у нас вообще стьюдент в качестве распределения) надо получить, в виде доверительного интервала на выборке, из той же генсовокупности на которой будет основной эксперимент. Берем верхнюю границу, и по ней считаем, тогда действительно можно различить (как наименьший) выбранный размер эффекта с заданными ошибками первого и второго рода. Даже на таких малых группах.

Наверное надо брать большой контроль и на нем доказывать наличие предполагаемого распределения и вычислять доверительный интервал для sd. А эксперимент может быть хоть одиночное значение, но которое выйдет за 3-4 сигмы доверительного интервала для контроля.

Клинически значимая величина это обычно то, что без сомнения "глазом видно", поэтому и дает оценку что трех случаев достаточно. Вообще 200 мл кровопотеря на фоне 500 мл дающих вполне возможно коллапс гемодинамики, это очень много для эффекта, который надо искать по срабатыванию настроенного p-value теста.
  Форум: Медицинская статистика · Просмотр сообщения: #24798 · Ответов: 8 · Просмотров: 3090

p2004r
Отправлено: 15.11.2019 - 02:02


Дух форума
*

Группа: Пользователи
Сообщений: 1080
Регистрация: 26.08.2010
Пользователь №: 22699


Цитата(nzbr @ 14.11.2019 - 16:44) *
Здравствуйте!

При расчете размера выборки возникли сложности.

Мы считаем, что клинически значимая разница в кровопотере составляет 200 мл (получается delta = 200 ?)
Стандартное отклонение составляет 40.

Формула R:

power.t.test(delta = 200,
sd = 50,
sig.level = 0.05,
power = .90)

Результат:

Two-sample t test power calculation

n = 2.726721
delta = 200
sd = 50
sig.level = 0.05
power = 0.9
alternative = two.sided

Выходит, что в каждой группе может быть по 3 человека? Ведь в таком случае будет страдать репрезентативность. Прошу помочь разобраться.


Размер эффекта больше единицы, скажите спасибо что нафиг не послала как другие калькуляторы с такими запросами. Доверительный интервал фактически 4-е сигмы.

PS

А с репрезентативностью всё будет хорошо, что бы получить оценку гарантирующую sd в генсовокупности минимум заявленной величины, группы будут достаточно большие.
  Форум: Медицинская статистика · Просмотр сообщения: #24794 · Ответов: 8 · Просмотров: 3090

p2004r
Отправлено: 8.09.2019 - 19:17


Дух форума
*

Группа: Пользователи
Сообщений: 1080
Регистрация: 26.08.2010
Пользователь №: 22699


Цитата(p2004r @ 3.09.2019 - 21:22) *
А неплохо ("естественные группировки" он за корреляции не признает, что вполне даже логично и хорошо для разборок с ложными к.к.)


А вообще сосет sad.gif

> HellCor::HellCor(c(rnorm(100, mean=1), rnorm(100, mean=50)), c(rnorm(100, mean=1), rnorm(100, mean=50)) )
$Hcor
[1] 0.8612872

$pvalue
[1] NA


Вот это корреляцией не называется, это "ложный к.к. вызванный естественной группировкой в данных"
Эскизы прикрепленных изображений
Прикрепленное изображение
 
  Форум: Медицинская статистика · Просмотр сообщения: #24497 · Ответов: 25 · Просмотров: 20376

p2004r
Отправлено: 3.09.2019 - 21:22


Дух форума
*

Группа: Пользователи
Сообщений: 1080
Регистрация: 26.08.2010
Пользователь №: 22699


Цитата(ogurtsov @ 2.09.2019 - 19:12) *


А неплохо ("естественные группировки" он за корреляции не признает, что вполне даже логично и хорошо для разборок с ложными к.к.)


Эскизы прикрепленных изображений
Прикрепленное изображение
 
  Форум: Медицинская статистика · Просмотр сообщения: #24421 · Ответов: 25 · Просмотров: 20376

p2004r
Отправлено: 17.05.2019 - 12:07


Дух форума
*

Группа: Пользователи
Сообщений: 1080
Регистрация: 26.08.2010
Пользователь №: 22699


Цитата(nokh @ 17.05.2019 - 00:17) *
Провели анализ микробных ассоциаций в ожоговых ранах, выборка хорошая - более 400 проб. При оценке значимости ассоциаций с помощью индекса Жаккара в R-пакете jaccard выявилась такая штука: относительно большие индексы могли оказаться незначимыми (J=0.32; Р=0,504), а почти нулевые - значимыми (J=0.06; P=0.049). Если интересно - могу выложить данные, хотя я понял почему так происходит и сделал простой маленький пример. Стал искать другие пути, но не получается справиться самостоятельно. Буду очень признателен за помощь. Описание проблемы и вопросы в прикреплённом файле Help. Второй файл - статья, на которую есть надежда. Может ещё какие варианты подскажите...


Единственно разумный подход это (как и написано в обзоре литературы статьи) рандомизационный тест (или он + бутстреп доверительный интервал на сами частоты, что тоже там есть). Причина -- прямой подсчет частот не дает оценки мощности исследования и размера эффекта, что делает весь этот индекс практически эквивалентным "достигнутому p".

Это все о практически полезных конструктивных результатах которые можно извлечь из этой ситуации. (Ну а статью с "индексом своего имени" конечно не запрещено написать никому smile.gif ).
  Форум: Медицинская статистика · Просмотр сообщения: #23959 · Ответов: 13 · Просмотров: 3103

p2004r
Отправлено: 12.05.2019 - 22:10


Дух форума
*

Группа: Пользователи
Сообщений: 1080
Регистрация: 26.08.2010
Пользователь №: 22699


Цитата(nokh @ 12.05.2019 - 11:09) *
Большое спасибо, читал и подобное (и даже сам учил студентов:)). Но вот задумал интересную штуку и закрались сомнения, т.к. нужно чтобы было максимально корректно...


1) Если "читали и учили", то странные вопросы задаете. Но впрочем с удовольствием обсужу восстановление матриц описывающих динамическую систему со знающим человеком. smile.gif

"30 дней" это как? Сколько "замеров в день"? Если 1 и 1 пациент, то можно забыть о затее.

2) Что касается pdf с извращениями "здесь мы средние извлекаем и нормируем, а здесь как есть оставляем и все очень быстро в реалтайме делаем", то это увы "не о чём"ТМ. Скользящее среднее получается естественным образом из первых членов разложения матрицы Генкеля построенной по временному ряду (эти я баловался еще в 90е smile.gif, а оказывается "прозой говорил"(С) ). Не удивлюсь если одно через другое выразить можно.

Ну а варианты разложений PCA для тензоров "естественным образом" позволяют обрабатывать многомерные временные ряды.
  Форум: Медицинская статистика · Просмотр сообщения: #23949 · Ответов: 6 · Просмотров: 2102

p2004r
Отправлено: 12.05.2019 - 07:45


Дух форума
*

Группа: Пользователи
Сообщений: 1080
Регистрация: 26.08.2010
Пользователь №: 22699


Цитата(nokh @ 11.05.2019 - 22:05) *
Насколько корректно применять анализ главных компонент к временным рядам? Полазил по зарубежным форумам и увидел разные мнения. То, что так считают и есть много публикаций - факт, однако PCA основан на корреляциях, для которых требование независимости наблюдений в выборке нарушена. Хочу применить к медицинским данным: динамика изменения 5-7 показателей (температура, ЧСС, АД и др.) у отельного пациента в течение 30 дней после операции.



1) Математики десятилетиями раскладывают на собственные значения ( https://ru.wikipedia.org/wiki/%D0%A1%D0%BE%...%82%D0%BE%D1%80 и https://ru.wikipedia.org/wiki/%D0%A1%D0%B8%...%BD%D0%B8%D0%B5 ) матрицу имени Hankel ( https://ru.wikipedia.org/wiki/%D0%93%D0%B0%...%B8%D1%86%D0%B0 и https://en.wikipedia.org/wiki/Hankel_matrix).

Цитирую: "Hankel matrices are formed when, given a sequence of output data, a realization of an underlying state-space or hidden Markov model is desired. The singular value decomposition of the Hankel matrix provides a means of computing the A, B, and C matrices which define the state-space realization. The Hankel matrix formed from the signal has been found useful for decomposition of non-stationary signals and time-frequency representation."(С)

Ну и пример такой оценки в pdf.

2) PCA не основан на к.к., не читайте мурзилки где написана эта глупость. PCA это один из методов _тождественного_ _линейного_ преобразования системы координат в которых помещена конечная выборка. Почитайте хотя бы википедию:

"Метод главных компонент применим всегда. Распространённое утверждение о том, что он применим только к нормально распределённым данным (или для распределений, близких к нормальным) неверно: в исходной формулировке Пирсона ставится задача об аппроксимации конечного множества данных и отсутствует даже гипотеза о их статистическом порождении, не говоря уж о распределении."(С)




Прикрепленные файлы
Прикрепленный файл  TP3045.pdf ( 391,56 килобайт ) Кол-во скачиваний: 54
 
  Форум: Медицинская статистика · Просмотр сообщения: #23945 · Ответов: 6 · Просмотров: 2102

p2004r
Отправлено: 27.03.2019 - 09:18


Дух форума
*

Группа: Пользователи
Сообщений: 1080
Регистрация: 26.08.2010
Пользователь №: 22699


Цитата(nokh @ 26.03.2019 - 22:19) *
Это ggtern?


Да, это сырой бутстреп в ggtern.

PS чистая картинка вот так выглядит
Эскизы прикрепленных изображений
Прикрепленное изображение
 
  Форум: Медицинская статистика · Просмотр сообщения: #23850 · Ответов: 9 · Просмотров: 2621

43 страниц V   1 2 3 > » 

Открытая тема (есть новые ответы)  Открытая тема (есть новые ответы)
Открытая тема (нет новых ответов)  Открытая тема (нет новых ответов)
Горячая тема (есть новые ответы)  Горячая тема (есть новые ответы)
Горячая тема (нет новых ответов)  Горячая тема (нет новых ответов)
Опрос (есть новые голоса)  Опрос (есть новые голоса)
Опрос (нет новых голосов)  Опрос (нет новых голосов)
Закрытая тема  Закрытая тема
Тема перемещена  Тема перемещена