Форум врачей-аспирантов

Здравствуйте, гость ( Вход | Регистрация )

42 страниц V   1 2 3 > » 

p2004r
Отправлено: 1.12.2018 - 15:26


Дух форума
*

Группа: Пользователи
Сообщений: 1044
Регистрация: 26.08.2010
Пользователь №: 22699


Цитата(kont @ 1.12.2018 - 14:08) *
Подскажите, вот провел я множественную регрессию. Смотрю остатки. У меня возник, а какие остатки приемлемые, а какие нет.
Например исходное значение 24, предсказано 23, остаток=1. Нормально ли это? Т.е. вопрос какое максимальное расхождение считается допустимо, чтобы сказать, это модель крута?(с учетом того, что остаток в ноль, не такое частое явление, увы)


Крутизна модели определятся минимумом информационного критерия (одного из). Он собственно и помогает принять решение на какой "крутизне" модели разумно остановиться.

https://ru.wikipedia.org/wiki/%D0%98%D0%BD%...%B8%D0%BA%D0%B5
  Форум: Медицинская статистика · Просмотр сообщения: #23557 · Ответов: 3 · Просмотров: 238

p2004r
Отправлено: 30.11.2018 - 10:59


Дух форума
*

Группа: Пользователи
Сообщений: 1044
Регистрация: 26.08.2010
Пользователь №: 22699


Цитата(paravoz @ 30.11.2018 - 03:06) *
Хорошо, заведу такую традицию - раз в 5 лет ходить в на форум с вопросом о доверительных интервалах для смертности. smile.gif Лет через 70-80 может быть опубликую статью о динамике мнений относительного данного вопроса!


Кандидат искренне засмеялся. Но засмеялся один и почувствовал неловкость.
  Форум: Медицинская статистика · Просмотр сообщения: #23553 · Ответов: 24 · Просмотров: 1114

p2004r
Отправлено: 29.11.2018 - 18:34


Дух форума
*

Группа: Пользователи
Сообщений: 1044
Регистрация: 26.08.2010
Пользователь №: 22699


Цитата(paravoz @ 29.11.2018 - 15:18) *
Ок. Коллеги, сдаюсь!!! Раз уж медико-статистическая элита считает, что ДИ можно и нужно считать и только я единственный кто считает иначе, то буду считать. smile.gif smile.gif smile.gif
Спасибо всем за терпение, комментарии и глубокий мыслительный процесс!



не отчаивайтесь, может через пять дет очередной заход даст больше жира
  Форум: Медицинская статистика · Просмотр сообщения: #23546 · Ответов: 24 · Просмотров: 1114

p2004r
Отправлено: 28.11.2018 - 10:12


Дух форума
*

Группа: Пользователи
Сообщений: 1044
Регистрация: 26.08.2010
Пользователь №: 22699


Цитата(paravoz @ 28.11.2018 - 09:19) *
Да, этот вопрос я уже поднимал 5 лет назад, но к какой-то внятной общей позиции тогда, насколько я помню, мы не пришли.
Посмотрел в Гугле confidence interval for prevalence, но во всех найденных материалах либо напрямую указывается на выборочные исследования, либо о том в каком (сплошном или выборочном) исследовании рассчитывается ДИ для prevalence не указано.
Несколько убеждает приведение ДИ для заболеваемости ВОЗ, но дело в том, что ВОЗ по разным странам использует лишь выборочные данные. В большинстве стран мира не ведется такого стат.учета как в России. Поэтому для оценки смертности, заболеваемости и т.д. ВОЗ использует выборочные исследования, в которых ДИ вполне оправдан. Не разбирался, что за данные (выборочные или по данным сплошного наблюдения) приведены по Вашим ссылкам, но даже готов предположить, что там приведены данные по результатам сплошного наблюдения и вполне правомочно рассчитаны ДИ.

Коллеги, с расчетами ДИ для роста или возраста всего населения (то есть вроде как генеральной совокупности) все понятно. Хотя не понятно, что этот интервал показывает. Упростим задачу. Есть два дома. В одном доме проживает 10 человек и в другом доме проживает 10 человек. Стоит задача определить в каком из этих домов люди в среднем старше. Не знаю зачем это может быть необходимо, но допустим это необходимо управляющей компании зачем-то. Предположим, что распределение возрастов подчиняется закону нормального распределения. Посчитав средний возраст в 1 доме, получили 35,2 года, во 2 доме - 54,8 года. Даже посчитали стандартное отклонение. В первом доме 8,3 года, во втором - пусть тоже 8,3. Как мне кажется, задача решена. Даже без учета стандартного отклонения и дальнейшего расчета критерия Стьюдента, можно сказать, что во втором доме жители в среднем старше, чем в первом.

Предположим, что я задачу решил неправильно. И каким-нибудь методом (бутстрепом или простым расчетным путем через ошибку среднего) посчитаем доверительные интервалы, которые показывают вероятный интервал среднего возраста в какой-то совокупности. Вот непонятно в какой. В районе? Так управляющей компании не надо знать средний возраст в районе. Ей надо знать в этих конкретных двух домах. Может этой совокупностью является другие моменты времени, в которые не проводилось исследование возраста? То есть интервалы среднего возраста, который может оказаться завтра или послезавтра? Но это тоже не интересует управляющую компанию. Грубо говоря выводы и действия, которые управляющая компания совершает на основании среднего возраста, необходимо совершить сегодня, а не завтра или послезавтра. Завтра или послезавтра УК снова проведет по данным прописанного в домах населения это небольшое исследование. Я вот к чему. В данном очень упрощенном примере зачем этот самый ДИ, на какую совокупность экстраполируется средний возраст и зачем он вообще в данном случае для принятия решения управляющей компанией?

Вернусь к смертности. Если бы мы имели какое-то распределение смертности, например за 10 лет или за 1 год, но по разным регионам, то можно было бы посчитать ДИ опять же бутстрепом или расчетным путем. Но мы имеем данные только за 1 год по одному региону. Например, умерло 1000 человек, среднегодовая численность за этот год составила 100000 человек. Посчитали смертность получилось 1000 на 100000 населения. Считаем ДИ. Например, получили ДИ равное 100. Бутстрепом же мы его посчитать не можем? Из чего извлекать подвыборки, если мы имеем только два числа 1000 умерших и 100000 населения? Не можем мы генерировать случайные числа от 0 до 1000? Если можем, то почему до 1000, а не до 2000 или 10000? Хорошо. Посчитали ДИ расчетным путем по формулам, которые приводятся в различных руководствах. Получается интервал от 900 до 1100 на 100000 населения.

Самый главный вопрос ради которого я так много написал вот в чем. Что показывает данный интервал?
Он показывает вероятные значения смертности в предыдущие или в последующие периоды в этом же регионе? Предыдущие мы знаем и так, а последующие нам пока не нужны.
Или вероятные значения смертности в изучаемый период в других регионах? Это думаю в принципе невозможно.
Или вероятные значения смертности в изучаемый период в более крупном территориальном образовании - в федеральном округе? Это тоже думаю не возможно, так как один регион не является репрезентативной выборкой для федерального округа.
Или вероятные значения смертности в течение года в изучаемом регионе? Но это тоже невозможно, так как методика расчета ДИ, учитывающая только значения числа умерших (1000) и среднегодовой численности населения (100000) не может учитывать внутригодовые колебания. То есть какие бы небыли внутригодовые колебания умирающих в каждый отдельный день ДИ всегда будет одним и тем же, так как при расчете учитываются только число умерших и численность населения. Соответственно такой ДИ не может отражать внутригодовые колебания.
У меня закончились варианты того, что может отражать ДИ для смертности. Давайте этот список продолжим, может в нем появится истина. smile.gif smile.gif smile.gif



Доверительный интервал (или восстановленное полное распределение, а не 3 точки взятые из него) показывает оценку показателя в генсовокупности из которой эта выборка взята. Если некая другая выборка в него не впишется, то она взята из другой генсовокупности. Существует ли "генсовокупность" как таковая (ну и всякие "актуальные бесконечности" из которых она состоит более чем полностью)? Ну вот процентов 30 физиков считает что это объективная реальность лежащая в основе устройства окружающего нас мира.

---8<--

В свою родную деревню приезжает на отдых кандидат наук Константин Иванович Журавлёв с женой и дочерью. Вечером местные жители собираются возле дома Глеба Капустина, славящегося умением сре́зать любого интеллектуала-горожанина. Узнав о прибытии Журавлёва, Глеб обещает землякам, что будет держать марку. Вскоре большая группа селян во главе с Капустиным отправляется к Константину Ивановичу в гости. Тот встречает визитёров приветливо, усаживает за стол, но быстро начинает понимать, что душевной беседы не получится. Разговор берёт на себя Глеб. Он постоянно озадачивает хозяина внезапными вопросами о первичности духа и материи, о понятии ?невесомость? применительно к философии, о проблеме шаманизма на северных территориях. Журавлёв теряется под напором бросаемых в его адрес реплик ? диалог с Глебом кажется ему абсурдным, но мужики, наблюдающие за ?спектаклем?, явно одобряют поведение Капустина. Тот, психологически подавив оппонента, объясняет суть устроенного им представления фразой: ?Люблю по носу щёлкнуть ? не задирайся выше ватерлинии! Скромней, дорогие товарищи??

---8<--

PS простите, но всяких "остроумцев" с некой метафизической "фигой в кармане" в интернете столько что они просто не отличимы друг от друга и это откровенно раздражает (правда большинство свою "фигу из кармана" почему то интуитивно стремаются доставать на публике smile.gif )
  Форум: Медицинская статистика · Просмотр сообщения: #23541 · Ответов: 24 · Просмотров: 1114

p2004r
Отправлено: 27.11.2018 - 17:29


Дух форума
*

Группа: Пользователи
Сообщений: 1044
Регистрация: 26.08.2010
Пользователь №: 22699


Цитата(paravoz @ 27.11.2018 - 14:58) *
Интересная позиция, даже вполне понятная. Я пока пытаюсь дальше поразмышлять на предмет того, может ли среднегодовая численность населения рассматриваться с той позиции, которую Вы описываете.

Даже если предположить, что такие умозаключения верны, то как быть например с таким коэффициентом. Уж простите, но это первое что пришло в голову. Коэффициент младенческой смертности = число детей, умерших в течение года на 1 году жизни / число родившихся живыми в данном году * 1000. В данном случае и числитель и знаменатель точные абсолютные величины, которые определяются на конец года. Получается ли, что для данного показателя нельзя считать ДИ.

И второе. Если действительно можно для заболеваемости рассчитать ДИ, то что это за интервал? Ну то есть вероятное значение заболеваемости в какой совокупности он показывает? По логике вещей в генеральной. Но что, в данном случае, будет являться генеральной совокупностью?
Я к чему. Пусть с математической точки зрения ДИ для заболеваемости использовать можно. Допустим (хоть я пока не совсем с этим согласен smile.gif ). Но какой в этом ДИ "физический смысл". Если у выборки из населения города посчитать средний рост и для него построить ДИ, то можно сказать, что ДИ это вероятный интервал среднего роста всего населения города. А в данном случае что будет являться этой самой генеральной совокупностью?

PS. Вами действительно высказана интересная позиция, но, правда, пока не могу понять как ее принять. smile.gif smile.gif



Да и сам процесс "заболеет-не заболеет", "поставят-не поставят диагноз" это реализация случайного процесса. То что мы его застали именно в таком состоянии очень даже подлежит оценке. Оценить мы можем только из соображений что процесс мог быть реализован бесконечным числом способов, но каждый раз риску подвергалась выборка известного нам размера с неизвестным нам уровнем заболевания (то что "ситуация принципиально не повторяется" вообще довольно спорно, повторюсь что интерпретация в виде мультиверса вполне себе имеет место).

Просто и быстро получаем бутстрепом оценку этого параметра. Если вообще 0 случаев чего то, то получаем "оценки сверху" на получение таких случаев в будущем исходя из разумной ошибки выбранной (в том числе например вообще считаем сложную гипотезу с учетом _всей_ истории наблюдения за популяцией (с учетом "черных лебедей" -- (эпи|пан)демий,)).
  Форум: Медицинская статистика · Просмотр сообщения: #23537 · Ответов: 24 · Просмотров: 1114

p2004r
Отправлено: 27.11.2018 - 17:13


Дух форума
*

Группа: Пользователи
Сообщений: 1044
Регистрация: 26.08.2010
Пользователь №: 22699


Цитата(paravoz @ 27.11.2018 - 03:17) *
В том то и дело, что несколько раз извлечь выборку (даже не знаю можно ли ее назвать выборкой) нельзя. Если число умерших в 2017 году составило 18 000 человек, то их умерло 18 000. Хоть как извлекай и хоть сколько раз, все равно число умерших составит 18 000 человек и всегда это будут одни и те же лица.


Так уже со следующим "родившимся-умершим" (и уж наверняка на следующий отчетный период) мы получаем новую выборку и встает вопрос -- "она получена из другой генсовокупности или нет?"
  Форум: Медицинская статистика · Просмотр сообщения: #23536 · Ответов: 24 · Просмотров: 1114

p2004r
Отправлено: 26.11.2018 - 10:01


Дух форума
*

Группа: Пользователи
Сообщений: 1044
Регистрация: 26.08.2010
Пользователь №: 22699


Цитата(paravoz @ 26.11.2018 - 04:37) *
Уважаемые коллеги!

Уже неоднократно сталкиваюсь с тем, что в статьях, посвященных изучению каких-либо эпидемиологических показателей (заболеваемость, смертность и т.д.), помимо самих показателей приведены какие-то значения после знаков плюс/минус. Например, смертность населения составила 20,2?0,8 на 1000 населения.
Зачастую из статьи не понятно, что это за значение, но в некоторых указывается, что это либо стандартная ошибка, либо доверительный интервал.
Честно говоря всегда считал, что:
1. Доверительный интервал - интервал, который показывает диапазон наиболее вероятных значений показателя в генеральной совокупности.
2. Если рассчитывается показатель смертности, например по региону, то этот показатель учитывает всю генеральную совокупность.

Смертность - число умерших/среднегодовая численность населения. Если считать всех умерших выборкой, то тогда что же будет генеральной совокупностью?!
В общем мне всегда казалось, что при расчете популяционных эпидемиологических показателей доверительный интервал рассчитывать не нужно. Не то чтобы не нужно, а даже некорректно. Обычно я на такие интервалы особого внимания не обращал, но сегодня рецензент на мою статью сделал замечание и предложил мне представить к показателям еще и доверительный интервал.

Подскажите, действительно ли необходимо/корректно рассчитывать доверительные интервалы в таких ситуациях? Если нет, то подскажите как грамотно обосновать рецензенту это или на какую литературу сослаться? Сам я нигде прямого запрета на это не нашел. Заранее всем спасибо!



Если можно извлечь выборку несколько раз, то генеральная совокупность таки есть. А число интервалов отчетных в прошлое и будущее как бы простирается бесконечно (или если ближе теория мультиверса, то генсовокупность исходов всегда бесконечная получается). smile.gif
  Форум: Медицинская статистика · Просмотр сообщения: #23525 · Ответов: 24 · Просмотров: 1114

p2004r
Отправлено: 22.10.2018 - 18:47


Дух форума
*

Группа: Пользователи
Сообщений: 1044
Регистрация: 26.08.2010
Пользователь №: 22699


Цитата(nikita_zab @ 16.10.2018 - 17:38) *
Добрый день!

Прошу напомнить термин, которым называют применение всевозможных статистических методов к одним и тем же данным в попытке найти значимую разницу или закономерности.

И второй вопрос из области философии. Имеет ли смысл применять несколько методов для оценки "здесь что-то есть". И если применяется сразу несколько методов как быть, если некоторые из них показывают "р меньше 5 сотых", а другие нет?


Вообще использовать для анализа "просто собранных" данных в ходе того что называется "наблюдение" вот эти все "проверки гипотез" "первым делом" (и иные методы матстатистики) крайне плохая идея. Если эксперимента по сути не было (с соответствующим планированием цели), то следует вначале обращаться к эксплораторному (разведочному) анализу. Он происходит в виде простого преобразования данных (обычно проекции в пространство меньшей размерности) без каких либо ограничений со стороны матстатистики.

Если "разглядывание данных" с помощью методов разведочного анализа дало какие то гипотезы о "картине мира" в области изучаемого явления, то пишете модель описывающую ваши идеи в явном виде и проводите конфирматорный анализ (естественно делая эту операцию однократно).
  Форум: Медицинская статистика · Просмотр сообщения: #23468 · Ответов: 6 · Просмотров: 1118

p2004r
Отправлено: 1.09.2018 - 16:06


Дух форума
*

Группа: Пользователи
Сообщений: 1044
Регистрация: 26.08.2010
Пользователь №: 22699


http://libgen.io/search.php?req=%D0%A1%D1%...&column=def

  Форум: Медицинская статистика · Просмотр сообщения: #23315 · Ответов: 5 · Просмотров: 1401

p2004r
Отправлено: 31.08.2018 - 22:48


Дух форума
*

Группа: Пользователи
Сообщений: 1044
Регистрация: 26.08.2010
Пользователь №: 22699


Цитата(Елена Гогуа @ 29.08.2018 - 12:51) *
1.Дизайн исследования предполагает оценку взаимосвязи породы и типов воспаления, породы и локализаций, породы и типов воспаления в разных локализациях.
Мне не очень понятно, что значит "самому придумывать уровни факторов" и почему конструкция искусственная. Именно эти переменные (точнее, их взаимосвязь с породой) интересуют исследователей.
С клинической точки зрения неверно комбинацию бактерии+грибы оценивать как простую сумму. Каждый из этих 3 типов воспаления (бактериальное, грибковое, комбинированное) - самостоятельный параметр. По крайней мере, дизайном исследования именно это подразумевается. То есть это примерно то же самое, как обозначить, например, наличие хеликобактера в желудке и гастрита за единицы, а язву желудка - как сумму двух единиц (пример корявый, да).

2.Так породы на дамми и разложены, нет? Принадлежность к интересуемой породе - 1, все остальные - 0.


1. Не надо путать клиническую и математическую постановку. Все вот эти лишние столбики в суммарной статистике поражения благоглупости.

Есть два независимых бинарных фактора -- "наличие грибка" и "наличие бактерий" без избыточности все описывающие, и никаких "грибок + бактерия" и "ничего нет" добавлятть не нужно. Что то такое дописывать в данные это и называется "самому придумывать уровни". Никаких степеней свободы в описание выборки эти взаимозависимые переменные не добавляют, а значит ни о каких "самостоятельных параметрах" фантазировать просто нет оснований. Ну не может например одновременно быть "наличие грибка" и "грибок+бактерия" в придуманной вами кодировке, а значит нет никакого "самостоятельного параметра" "грибок + бактерия".

Перекодировать все эти введенные area_i_X во вменяемый вид (бинарные area_i_yearn и area_i_yeast) я простите не нанимался (это не интересная чисто техническая работа). Для общей статистики без локализации поражения данные трансформировал и озвучил результат в предыдущем посте.

2. Породы в таблице во втором столбце исходно как breed_i закодированы. Это никак не тянет на 0-1.
  Форум: Медицинская статистика · Просмотр сообщения: #23313 · Ответов: 36 · Просмотров: 6982

p2004r
Отправлено: 27.08.2018 - 22:30


Дух форума
*

Группа: Пользователи
Сообщений: 1044
Регистрация: 26.08.2010
Пользователь №: 22699


1) Неправильно это придумывать самому уровни факторов и потом такую искусственную конструкцию распердоливать еще на дамми переменные. По зонам тоже не нужное такое кодирование (Все это игрища пустые, простое svd показывает реальная размерность такого датасета намного меньше.)

Есть два показателя "бинарных", условно _грибок_ и _бактерия_ (в обоих "нули", вот и ситуация когда "нет", в обоих единица, значит ситуация "оба").

2) Ну а породы наоборот надо на дамми разложить, раз связь именно с ними надо показать.

Эрго:

Получается наличие прострой структуры размерностью 4 по данным с зонами поражений. Но что то лениво мне еще и все зоны описывать в нормальную кодировку (грибок+бактерия в зоне).

Если смотреть только по обобщенным данным, то увы мощности данных не хватает что бы доказать наличие простой структуры. Но корреляционную картину можно сколько угодно интерпретировать smile.gif

Склонны к грибам породы 2 и 6. К бактериям склонна порода 1. Несклонна к бактериям порода 4. Склонность к бактериям или грибам независимы друг от друга для всех пород (ну можно что то ловить у 5й пытаться, она вроде как "ко всему умеренно не склонна").
  Форум: Медицинская статистика · Просмотр сообщения: #23303 · Ответов: 36 · Просмотров: 6982

p2004r
Отправлено: 26.08.2018 - 10:47


Дух форума
*

Группа: Пользователи
Сообщений: 1044
Регистрация: 26.08.2010
Пользователь №: 22699


Цитата(Felix77 @ 26.08.2018 - 10:17) *
Нужно исследовать тромбоциты у пациентов с определенным заболеванием. Тромбоциты исследуются в т.н. трепанобиоптате (кусочек кости, взятый у пациента). Таковых кусочков всего 29 (каждый от отдельного пациента). Тромбоциты окрашиваются, оценка окрашивания по шкале: нет окраски, слабая окраска, умеренная окраска, выраженная окраска. Известно, что в одном трепанобиоптате может обнаруживаться от 4 до 200 тромбоцитов. Нас интересуют только свойства окрашивания тромбоцитов.
help.gif пожалуйста понять как правильно сформировать выборку из тромбоцитов?


I=29 выборок в каждой n_i тромбоцитов по каждому 4 градации окраски (ordered factor).

По окраске строим распределение с доверительными интервалами. Если для всех 29 выборок проверять нуль-гипотезу о том что они все из одной генсовокупности извлечены, то складываем в мешок и извлекаем много раз для каждого пациента псевдовыборку размером в n_i , по извлеченной совокупности псевдовыборок считаем доверительные интервалы для вариантов окраски и рисуем эти интервалы на фоне фактических частот окраски у пациента. Для группы в целом можно учесть поправкой на множественное сравнение сколько пациентов вывалилось за границы заданного интервала доверительного и принять решение.

Можно смесь распределений пытаться разделять если нуль-гипотеза о том что все пациенты из одной генсовокупности не пройдет. Как то так.

PS также разрушать перемешиванием связь между градациями окраски в мешке перед извлечением псевдовыборок. Пойдет за доказательство, что некое распределение окраски есть и оно отлично от случайного выбора.
  Форум: Медицинская статистика · Просмотр сообщения: #23301 · Ответов: 1 · Просмотров: 632

p2004r
Отправлено: 26.06.2018 - 22:51


Дух форума
*

Группа: Пользователи
Сообщений: 1044
Регистрация: 26.08.2010
Пользователь №: 22699


Цитата(passant @ 26.06.2018 - 19:48) *
Если "change point" неизвестна, даже на монотонном тренде - то вот вам две абслоютно реальные задачи
- найти точку, в которой тренд меняет скорость возрастания/убывания
- найти точку в котором меняется дисперсия и/или другие характеристики ряда (например - автокорреляция).
Обе задачи абсолютно реальны, например, в технической диагностике, в задачах компьютерной безопасности, в экономике. Я уверен, что и в медицине можно кучу ситуаций свести к этим.
Если - как у ТС - "change point" известна, то задаче действительно сильно упрощается. Не надо обнаруживать точку (которая то-ли есть, то-ли ее нет), а надо просто выяснить, остались-ли характеристики ряда на интервале "до" и на интервале "после" неизменными или же изменились. Следующее - и последнее- упрощение: вообще убрать время из рассмотрения, что судя по всему удовлетворяет ТС.


Я вот тут о другом подумал - а не может количество "бракованных" образцов зависеть от других факторов, например - как от индивидуальных особенностей конкретных пациентов, так и от опыта лаборанта, берущего образец и пр. (Сорри, если вопросы с точки зрения медицины ламмерские, но теоретические такие факторы могут иметь место).


И делать все это с помощью дисперсионного анализа? Это временной ряд и придумано просто куча методов нахождения когда эти самые ченчпойн наступают, никакие велосипеды тут не нужны. А любые упрощения надо обосновывать, в медицине и так "наудовлетворялись" в области статистики в отечественных публикациях до предела.

Пусть данные топикстартер покажет, все остальное это пустые предположения на ничем не ограниченном множестве возможных ситуаций.
  Форум: Медицинская статистика · Просмотр сообщения: #23121 · Ответов: 30 · Просмотров: 3763

p2004r
Отправлено: 26.06.2018 - 22:45


Дух форума
*

Группа: Пользователи
Сообщений: 1044
Регистрация: 26.08.2010
Пользователь №: 22699


Цитата(Алексей Лк @ 26.06.2018 - 19:18) *
Я уже писал выше что даты не важны, там две точки - дата смены курьера и равные временные интервалы по обе стороны от этой даты, вмещающие в себя обе выборки. У вас есть мысли как правильно считать FA?


Продолжайте считать.
  Форум: Медицинская статистика · Просмотр сообщения: #23120 · Ответов: 30 · Просмотров: 3763

p2004r
Отправлено: 26.06.2018 - 19:13


Дух форума
*

Группа: Пользователи
Сообщений: 1044
Регистрация: 26.08.2010
Пользователь №: 22699


Цитата(Алексей Лк @ 26.06.2018 - 13:52) *
А можно подробнее, что вы имеете ввиду? Вам нужны данные по средему, медиане, 25 и 75 процентилям, стандартному отклонению? Или что то еще?


Нужен ряд событий с датами когда они произошли (можно агрегированный по датам). Без этого эти рассуждения будут вечными (тут уже совсем не давно например обсуждали случай ДА с числом групп равным числу случаев smile.gif ).
  Форум: Медицинская статистика · Просмотр сообщения: #23111 · Ответов: 30 · Просмотров: 3763

p2004r
Отправлено: 26.06.2018 - 19:08


Дух форума
*

Группа: Пользователи
Сообщений: 1044
Регистрация: 26.08.2010
Пользователь №: 22699


Цитата(passant @ 26.06.2018 - 12:31) *
При всем уважении, а какую трудность в анализе Вы заметили?
Временной ряд? Возможно рассматривать и с этой позиции. Но! Нам точно известна change point. Да, можно проанализировать ряд "до", посмотреть, есть-ли тренд и/или сезонность, потом - если есть - сделать предсказание и сравнить с рядом "после". В общем-то то-же классическая задача. Если же тренда вообще нет - то задача вообще становиться тривиальной.
Впрочем, допускаю, что я что-то сугубо "медицинское" упустил. Буду рад за уточнения.


При всем уважении, ну как поможет знание "change point" на монотонно возрастающем (или убывающем) тренде?

Ну а остальные метания в правильном направлении. smile.gif
  Форум: Медицинская статистика · Просмотр сообщения: #23110 · Ответов: 30 · Просмотров: 3763

p2004r
Отправлено: 26.06.2018 - 12:05


Дух форума
*

Группа: Пользователи
Сообщений: 1044
Регистрация: 26.08.2010
Пользователь №: 22699



Это временной ряд, про стационарность которого мы ничего не знаем. Поэтому весь этот энтузиазм в треде мне не понятен. Надо видеть данные.
  Форум: Медицинская статистика · Просмотр сообщения: #23097 · Ответов: 30 · Просмотров: 3763

p2004r
Отправлено: 19.06.2018 - 12:52


Дух форума
*

Группа: Пользователи
Сообщений: 1044
Регистрация: 26.08.2010
Пользователь №: 22699


"Кочережек"(С)"Наблюденные"(С)


А данные где?
  Форум: Медицинская статистика · Просмотр сообщения: #23081 · Ответов: 5 · Просмотров: 1673

p2004r
Отправлено: 13.06.2018 - 19:44


Дух форума
*

Группа: Пользователи
Сообщений: 1044
Регистрация: 26.08.2010
Пользователь №: 22699


Цитата(100$ @ 13.06.2018 - 16:02) *
А у randomForest'a SRC (я даже и не знал о таком, вот уж "век живи ..., а дураком помрешь") есть какие-то очевидные/неочевидные преимущества перед "просто" randomForest?


Просто {randomForest} это референтная реализация оригинального метода автора прямо по его статье. Например SRC не ограничен в числе уровней факторов в модели.
  Форум: Медицинская статистика · Просмотр сообщения: #23065 · Ответов: 6 · Просмотров: 1543

p2004r
Отправлено: 13.06.2018 - 15:34


Дух форума
*

Группа: Пользователи
Сообщений: 1044
Регистрация: 26.08.2010
Пользователь №: 22699


Цитата(100$ @ 13.06.2018 - 14:03) *
А вот интересно, почему при выращивании леса узлы расщепляются по Gini, а при селекции переменных используется Minimal Depth? И почему при таком раскладе метод не смог выдать относительную важность предикторов (vimp=NA)? До такой степени плохой датасет?

А чем обусловлен выбор PCA3 vs. PCA5? В первых двух ГК все совсем плохо?


Да просто не включил, в принципе результаты одинаковые всегда по обоим критериям (а время расчета существенно отличается, но тут размер позволяет считать все). Тут модель слишком слаба, скорее даже ничтожна.

Код
> res.pca.rfsrc
                         Sample size: 118
           Frequency of class labels: 102, 16
                     Number of trees: 5000
           Forest terminal node size: 1
       Average no. of terminal nodes: 8.3986
No. of variables tried at each split: 3
              Total no. of variables: 5
                            Analysis: RF-C
                              Family: class
                      Splitting rule: gini
              Normalized Brier score: 85.2
                          Error rate: 0.32, 0.27, 0.62

Confusion matrix:

          predicted
  observed  0  1 class.error
         0 74 28      0.2745
         1 10  6      0.6250

    Overall error rate: 32.2%
> randomForestSRC::var.select(res.pca.rfsrc, nrep = 40)
minimal depth variable selection ...


-----------------------------------------------------------
family             : class
var. selection     : Minimal Depth
conservativeness   : medium
x-weighting used?  : TRUE
dimension          : 5
sample size        : 118
ntree              : 5000
nsplit             : 0
mtry               : 3
nodesize           : 1
refitted forest    : FALSE
model size         : 2
depth threshold    : 2.0305
PE (true OOB)      : 0.322 0.2745 0.625


Top variables:
    depth vimp
PC5 1.476   NA
PC3 1.833   NA


Ну и сама модель (чистого vimp отбора нет в randomForestSRC, только случайный поиск)

Код
> res.rfsrc <- rfsrc(КИН~.,
+                    data=na.omit(df.cin[,-1]),
+                    case.wt = randomForestSRC:::make.wt(na.omit(df.cin)$КИН),
+                    sampsize = randomForestSRC:::make.size(na.omit(df.cin)$КИН),
+                    ntree = 5000,
+                    importance=TRUE)
> res.rfsrc
                         Sample size: 116
           Frequency of class labels: 100, 16
                     Number of trees: 5000
           Forest terminal node size: 1
       Average no. of terminal nodes: 8.6186
No. of variables tried at each split: 3
              Total no. of variables: 9
                            Analysis: RF-C
                              Family: class
                      Splitting rule: gini
              Normalized Brier score: 80.85
                          Error rate: 0.28, 0.23, 0.56

Confusion matrix:

          predicted
  observed  0  1 class.error
         0 77 23      0.2300
         1  9  7      0.5625

    Overall error rate: 27.59%
> randomForestSRC::var.select(res.rfsrc, nrep = 40)
minimal depth variable selection ...


-----------------------------------------------------------
family             : class
var. selection     : Minimal Depth
conservativeness   : medium
x-weighting used?  : TRUE
dimension          : 9
sample size        : 116
ntree              : 5000
nsplit             : 0
mtry               : 3
nodesize           : 1
refitted forest    : FALSE
model size         : 5
depth threshold    : 2.969
PE (true OOB)      : 0.2759 0.23 0.5625


Top variables:
          depth vimp.all vimp.0 vimp.1
возраст   2.651    0.007  0.016  0.033
тропонин  2.790    0.001  0.006  0.012
КФК2      2.856    0.002  0.008 -0.001
креатинин 2.912    0.002  0.009 -0.001
калий     2.927    0.003  0.008  0.008
-----------------------------------------------------------
> randomForestSRC::var.select(res.rfsrc, nrep = 40, method = "vh.vimp")
---------------------  Iteration: 1   ---------------------
     selecting variables using Variable Hunting (VIMP) ...
     PE: 0.087      dim: 2
---------------------  Iteration: 2   ---------------------
     selecting variables using Variable Hunting (VIMP) ...
     PE: 0.1304      dim: 1
---------------------  Iteration: 3   ---------------------
     selecting variables using Variable Hunting (VIMP) ...
     PE: 0.2609      dim: 1
---------------------  Iteration: 4   ---------------------
     selecting variables using Variable Hunting (VIMP) ...
     PE: 0.1304      dim: 2
---------------------  Iteration: 5   ---------------------
     selecting variables using Variable Hunting (VIMP) ...
     PE: 0.1739      dim: 2
---------------------  Iteration: 6   ---------------------
     selecting variables using Variable Hunting (VIMP) ...
     PE: 0.3333      dim: 2
---------------------  Iteration: 7   ---------------------
     selecting variables using Variable Hunting (VIMP) ...
     PE: 0.1667      dim: 1
---------------------  Iteration: 8   ---------------------
     selecting variables using Variable Hunting (VIMP) ...
     PE: 0.2083      dim: 2
---------------------  Iteration: 9   ---------------------
     selecting variables using Variable Hunting (VIMP) ...
     PE: 0.2609      dim: 1
---------------------  Iteration: 10   ---------------------
     selecting variables using Variable Hunting (VIMP) ...
     PE: 0.1304      dim: 2
---------------------  Iteration: 11   ---------------------
     selecting variables using Variable Hunting (VIMP) ...
     PE: 0.1739      dim: 2
---------------------  Iteration: 12   ---------------------
     selecting variables using Variable Hunting (VIMP) ...
     PE: 0.1739      dim: 2
---------------------  Iteration: 13   ---------------------
     selecting variables using Variable Hunting (VIMP) ...
     PE: 0.0833      dim: 1
---------------------  Iteration: 14   ---------------------
     selecting variables using Variable Hunting (VIMP) ...
     PE: 0.1304      dim: 1
---------------------  Iteration: 15   ---------------------
     selecting variables using Variable Hunting (VIMP) ...
     PE: 0.2174      dim: 2
---------------------  Iteration: 16   ---------------------
     selecting variables using Variable Hunting (VIMP) ...
     PE: 0.2174      dim: 2
---------------------  Iteration: 17   ---------------------
     selecting variables using Variable Hunting (VIMP) ...
     PE: 0.2174      dim: 2
---------------------  Iteration: 18   ---------------------
     selecting variables using Variable Hunting (VIMP) ...
     PE: 0.1304      dim: 1
---------------------  Iteration: 19   ---------------------
     selecting variables using Variable Hunting (VIMP) ...
     PE: 0.1304      dim: 2
---------------------  Iteration: 20   ---------------------
     selecting variables using Variable Hunting (VIMP) ...
     PE: 0.1739      dim: 2
---------------------  Iteration: 21   ---------------------
     selecting variables using Variable Hunting (VIMP) ...
     PE: 0.2174      dim: 2
---------------------  Iteration: 22   ---------------------
     selecting variables using Variable Hunting (VIMP) ...
     PE: 0.375      dim: 1
---------------------  Iteration: 23   ---------------------
     selecting variables using Variable Hunting (VIMP) ...
     PE: 0.1739      dim: 2
---------------------  Iteration: 24   ---------------------
     selecting variables using Variable Hunting (VIMP) ...
     PE: 0.1304      dim: 2
---------------------  Iteration: 25   ---------------------
     selecting variables using Variable Hunting (VIMP) ...
     PE: 0.0435      dim: 2
---------------------  Iteration: 26   ---------------------
     selecting variables using Variable Hunting (VIMP) ...
     PE: 0.3043      dim: 2
---------------------  Iteration: 27   ---------------------
     selecting variables using Variable Hunting (VIMP) ...
     PE: 0.1304      dim: 2
---------------------  Iteration: 28   ---------------------
     selecting variables using Variable Hunting (VIMP) ...
     PE: 0.1304      dim: 2
---------------------  Iteration: 29   ---------------------
     selecting variables using Variable Hunting (VIMP) ...
     PE: 0.1739      dim: 2
---------------------  Iteration: 30   ---------------------
     selecting variables using Variable Hunting (VIMP) ...
     PE: 0.087      dim: 2
---------------------  Iteration: 31   ---------------------
     selecting variables using Variable Hunting (VIMP) ...
     PE: 0.2083      dim: 2
---------------------  Iteration: 32   ---------------------
     selecting variables using Variable Hunting (VIMP) ...
     PE: 0.1739      dim: 2
---------------------  Iteration: 33   ---------------------
     selecting variables using Variable Hunting (VIMP) ...
     PE: 0.1739      dim: 2
---------------------  Iteration: 34   ---------------------
     selecting variables using Variable Hunting (VIMP) ...
     PE: 0.1304      dim: 2
---------------------  Iteration: 35   ---------------------
     selecting variables using Variable Hunting (VIMP) ...
     PE: 0.1667      dim: 2
---------------------  Iteration: 36   ---------------------
     selecting variables using Variable Hunting (VIMP) ...
     PE: 0.25      dim: 1
---------------------  Iteration: 37   ---------------------
     selecting variables using Variable Hunting (VIMP) ...
     PE: 0.1304      dim: 1
---------------------  Iteration: 38   ---------------------
     selecting variables using Variable Hunting (VIMP) ...
     PE: 0.2174      dim: 2
---------------------  Iteration: 39   ---------------------
     selecting variables using Variable Hunting (VIMP) ...
     PE: 0.1304      dim: 2
---------------------  Iteration: 40   ---------------------
     selecting variables using Variable Hunting (VIMP) ...
     PE: 0.1739      dim: 2
fitting forests to final selected variables ...


-----------------------------------------------------------
family             : class
var. selection     : Variable Hunting (VIMP)
conservativeness   : medium
dimension          : 9
sample size        : 116
K-fold             : 5
no. reps           : 40
nstep              : 1
ntree              : 500
nsplit             : 10
mvars              : 2
nodesize           : 2
refitted forest    : TRUE
model size         : 1.75 +/- 0.4385
PE (K-fold)        : 0.1763 +/- 0.0677


Top variables:
         rel.freq
калий        27.5
тропонин     25.0
-----------------------------------------------------------
>


Но собственно качество модели об этом и говорит

Код
> roc(na.omit(df.cin[,-1])$КИН, predict(res.rfsrc)$predicted.oob[,2])

Call:
roc.default(response = na.omit(df.cin[, -1])$КИН, predictor = predict(res.rfsrc)$predicted.oob[,     2])

Data: predict(res.rfsrc)$predicted.oob[, 2] in 100 controls (na.omit(df.cin[, -1])$КИН 0) < 16 cases (na.omit(df.cin[, -1])$КИН 1).
Area under the curve: 0.5419


Эскизы прикрепленных изображений
Прикрепленное изображение
 
  Форум: Медицинская статистика · Просмотр сообщения: #23062 · Ответов: 6 · Просмотров: 1543

p2004r
Отправлено: 13.06.2018 - 12:43


Дух форума
*

Группа: Пользователи
Сообщений: 1044
Регистрация: 26.08.2010
Пользователь №: 22699


Цитата(Felix77 @ 12.06.2018 - 08:32) *
help.gif пожалуйста, можно ли из имеющихся данных создать модель для прогнозирования. В прилагаемой таблице представлены переменные пациентов, у которых в последствии развилась контраст индуцированная нефропатия (КИН), соответственно зависимая переменная - КИН (0-не развилась КИН, 1 - развилась). Пытался использовать логистическую регрессию, которая не показала значимого влияния предикторов. Пытался применить Random Forest, в R ничего не получилось. Может проблема в большом количестве пропущенных данных


Код
df.cin <- data.table::fread("./CIN.csv", dec=",")

str(df.cin)

df.cin$КИН <- as.factor(df.cin$КИН)
df.cin$пол <- as.factor(df.cin$пол)
df.cin$поч_функц <- as.factor(df.cin$поч_функц)

library(mice)

md.pattern(df.cin)

library(randomForestSRC)

?rfsrc



res.rfsrc <- rfsrc(КИН~.,
                   data=na.omit(df.cin[,-1]),
                   case.wt = randomForestSRC:::make.wt(na.omit(df.cin)$КИН),
                   sampsize = randomForestSRC:::make.size(na.omit(df.cin)$КИН),
                   ntree = 5000)

res.rfsrc <- rfsrc(КИН~.,
                   data=df.cin[,-1],
                   case.wt = randomForestSRC:::make.wt(df.cin$КИН),
                   sampsize = randomForestSRC:::make.size(df.cin$КИН),
                   na.action = "na.impute")


res.rfsrc <- rfsrc(КИН~., data=df.cin[,-1], na.action = "na.impute")


res.rfsrc

randomForestSRC::var.select(res.rfsrc, nrep = 40)


> res.rfsrc
                         Sample size: 116
           Frequency of class labels: 100, 16
                     Number of trees: 5000
           Forest terminal node size: 1
       Average no. of terminal nodes: 8.6332
No. of variables tried at each split: 3
              Total no. of variables: 9
                            Analysis: RF-C
                              Family: class
                      Splitting rule: gini
              Normalized Brier score: 80.79
                          Error rate: 0.27, 0.22, 0.56

Confusion matrix:

          predicted
  observed  0  1 class.error
         0 78 22      0.2200
         1  9  7      0.5625

    Overall error rate: 26.72%
> randomForestSRC::var.select(res.rfsrc, nrep = 40)
minimal depth variable selection ...


-----------------------------------------------------------
family             : class
var. selection     : Minimal Depth
conservativeness   : medium
x-weighting used?  : TRUE
dimension          : 9
sample size        : 116
ntree              : 5000
nsplit             : 0
mtry               : 3
nodesize           : 1
refitted forest    : FALSE
model size         : 5
depth threshold    : 2.9802
PE (true OOB)      : 0.2672 0.22 0.5625


Top variables:
          depth vimp
возраст   2.633   NA
тропонин  2.783   NA
КФК2      2.944   NA
калий     2.950   NA
креатинин 2.976   NA
-----------------------------------------------------------
>


Вполне себе выделяет...

Правда что то разумное сказать почему выделяет как то не очень получается... ну возрас большой, калий большой, малый креатинин ??? Но какое то решающее правило не выводиться, да и случайный лес меняет показания постоянно...

Код
data.cin.pca <- data.frame(КИН=na.omit(df.cin[,-c(1,4,6,8,10)])[,c("КИН")],
                           prcomp(na.omit(df.cin[,-c(1,3,4,6,8,10)]), center = T, scale. = T)$x)


data.cin.pca$КИН <- as.factor(data.cin.pca$КИН)

res.pca.rfsrc <- rfsrc(КИН~.,
                       data=data.cin.pca,
                       case.wt = randomForestSRC:::make.wt(data.cin.pca$КИН),
                       sampsize = randomForestSRC:::make.size(data.cin.pca$КИН),
                       ntree = 5000)

res.pca.rfsrc
randomForestSRC::var.select(res.pca.rfsrc, nrep = 40)

res.pca <- prcomp(na.omit(df.cin[,-c(1,3,4,6,8,10)]), center = T, scale. = T)

biplot(res.pca, choices = c(5,3))


pairs(data.cin.pca[,c(6,4)], col = c("black", "red")[data.cin.pca$КИН])

Эскизы прикрепленных изображений
Прикрепленное изображение
Прикрепленное изображение
 
  Форум: Медицинская статистика · Просмотр сообщения: #23059 · Ответов: 6 · Просмотров: 1543

p2004r
Отправлено: 23.05.2018 - 10:33


Дух форума
*

Группа: Пользователи
Сообщений: 1044
Регистрация: 26.08.2010
Пользователь №: 22699


Собственно вот подробный мануал в котором есть рачет размера наблюдаемого эффекта и доверительного интервалаПрикрепленный файл  analiz_nominalnyh_dannyh_nezavisimye_nablyudeniya.pdf ( 1,45 мегабайт ) Кол-во скачиваний: 119
.
  Форум: Медицинская статистика · Просмотр сообщения: #23028 · Ответов: 36 · Просмотров: 6982

p2004r
Отправлено: 2.05.2018 - 11:53


Дух форума
*

Группа: Пользователи
Сообщений: 1044
Регистрация: 26.08.2010
Пользователь №: 22699


Ну вот, день взятия Бастилии впустую прошел.
Эскизы прикрепленных изображений
Прикрепленное изображение
 
  Форум: Медицинская статистика · Просмотр сообщения: #22939 · Ответов: 1 · Просмотров: 899

p2004r
Отправлено: 28.02.2018 - 21:11


Дух форума
*

Группа: Пользователи
Сообщений: 1044
Регистрация: 26.08.2010
Пользователь №: 22699


Посмотрите сами в https://cran.r-project.org/web/views/Finance.html
  Форум: Медицинская статистика · Просмотр сообщения: #22706 · Ответов: 2 · Просмотров: 1034

p2004r
Отправлено: 23.02.2018 - 21:18


Дух форума
*

Группа: Пользователи
Сообщений: 1044
Регистрация: 26.08.2010
Пользователь №: 22699



Сейчас есть техники кластеризации когда результат появляется как ансамбль множества кластеризаций library(clue).
  Форум: Медицинская статистика · Просмотр сообщения: #22669 · Ответов: 9 · Просмотров: 1808

42 страниц V   1 2 3 > » 

Открытая тема (есть новые ответы)  Открытая тема (есть новые ответы)
Открытая тема (нет новых ответов)  Открытая тема (нет новых ответов)
Горячая тема (есть новые ответы)  Горячая тема (есть новые ответы)
Горячая тема (нет новых ответов)  Горячая тема (нет новых ответов)
Опрос (есть новые голоса)  Опрос (есть новые голоса)
Опрос (нет новых голосов)  Опрос (нет новых голосов)
Закрытая тема  Закрытая тема
Тема перемещена  Тема перемещена