Форум врачей-аспирантов

Здравствуйте, гость ( Вход | Регистрация )

46 страниц V   1 2 3 > » 

nokh
Отправлено: 17.04.2021 - 21:28





Группа: Пользователи
Сообщений: 1157
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Бросил эксперименты, т.к. похоже это особенность отдельных конкретных комбинаций железа и софта. Я использовал старый комп с двухядерным процессором Intel и интегрированной графикой. Докупил с рук старой памяти DDR до 2 Гб. Получилась нормальная рабочая система для Windows 7, но под Linux'ами её возможности получились ограниченными, включая описанную проблему и проблемы с рабочими столами KDE и Cinnamon, в которых на более современном компе RStudio работала корректно.

Из других статпакетов пробовал ставить free пакеты KyPlot и PAST. KyPlot удалось поставить во всех случаях (вариантов 6 опробовано) - либо из Wine напрямую, либо из Wine через PlayOnLinux; работала корректно, как из под винды.
Наоборот, PAST не запустилась как надо ни разу. Во всех случаях получал просто сообщение об ошибке или ничего не происходило. Запустилась только из под Wine в составе Ред ОС Муром, но с сообщениями об ошибках и неполноценным интерфейсом (нет сетки spreadsheet, окна выбора опций подглючивают - нужно успеть кликнуть где нужно, иначе окно закрывается или в области клика появляется другая опция).

Для себя сделал вывод, что если прижмёт, смогу почти нормально работать в Linux, но:
1) у сертифицированных отечественных ОС проблемы с репозиториями, ни в одной из 3 опробованных даже R запустить не смог (+4 даже установить не смог, + 5 установилась но отказалась запускаться, + 6 запустилась, но едва ворочалась - не до тестов). Из несертифицированных отечественных понравилась runtu.

2) для нормальной работы и комп должен быть нормальным. Рассказы о нетребовательности ряда дистрибутивов линукс к системным ресурсам - правда, но если на старом компе запускать не только браузер, офис и медиаплеер - могут повылазить проблемы. Скоростью на старом железе понравилась Debian 10 Xfce (по ощущениям быстрее lubuntu (Xfce, LXQt), xubuntu ) и Q4OS, но не Linux Lite, который совсем не Lite, и уж точно не отечественная Calculate, которая вообще едва шевелилась.

3) Для запуска привычных программ для работы возможностей Wine может не хватить (как минимум - PAST, векторный редактор ТрХ, пара бесплатных гидрохимических пакетов...), придётся всё равно держать винду на виртуальной машине.
  Форум: Медицинская статистика · Просмотр сообщения: #26754 · Ответов: 2 · Просмотров: 903

nokh
Отправлено: 11.04.2021 - 06:55





Группа: Пользователи
Сообщений: 1157
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Пока выяснил, что это не crash report, а предложение отправлять сообщения о таковых:))
В остальном пока всё плохо. Это как-то связано с работой разных версий Qt. На github.com есть ветки с аналогичной проблемой белого экрана и проблемой чёрных прямоугольников вместо меню. Пока тыкаюсь...
  Форум: Медицинская статистика · Просмотр сообщения: #26733 · Ответов: 2 · Просмотров: 903

nokh
Отправлено: 8.04.2021 - 09:12





Группа: Пользователи
Сообщений: 1157
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Внимательнее посмотрел, документы, ответ есть в Приказе Минобрнауки: https://vak.minobrnauki.gov.ru/uploader/loa...3002&f=7892
Получается, что переходный период уже идёт. Видимо, тему можно закрыть...
  Форум: Обучение в аспирантуре · Просмотр сообщения: #26726 · Ответов: 1 · Просмотров: 879

nokh
Отправлено: 7.04.2021 - 22:01





Группа: Пользователи
Сообщений: 1157
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Ходят разговоры, что в июне 2022 г. все диссертационные советы закроют, т.к. будут менять шифры специальностей. У кого диссертации почти готовы торопятся сейчас защититься быстрее, поскольку никто не знает что будет после смены шифров.

А может быть кто-то всё-таки знает? , может есть какая-то инсайдерская информация о том будет ли какой-нибудь переходный период?
  Форум: Обучение в аспирантуре · Просмотр сообщения: #26725 · Ответов: 1 · Просмотров: 879

nokh
Отправлено: 7.04.2021 - 21:34





Группа: Пользователи
Сообщений: 1157
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


У жены на работе в больнице всем поставили компьютеры с РедOC Муром - импортозамещение:). Ездил переносил ей инфу с ноута, папки всякие понаделал, ярлыки программ на рабочий стол вывел... Ну и что-то увлёкся, поставил дома на старый комп сначала РедOC, а потом и другие Линуксы потестил.

Один из тестов пока провалили все - не удаётся нормально запустить Rstudio. Пробовал на лёгких версиях Ubuntu (Lubutu, Xubuntu, отечественная runtu), на Mint и на чистом Debian 10. Рабочий стол везде Xfce, т.к. ни на LXQt, ни на Mate (пробовал разные оболочки в разных линуксах) RStudio вообще экрана не выдала. В трёх случаях запустилась, но с предложением отправить crash report. Картина везде идентичная, поэтому надеюсь, что какими-то настройками исправить можно. После сообщения об ошибке остаётся чёрный экран со стрелкой курсора. На П и Л кнопки мыши откликается, а если покликать в верхней части - появляются пункты меню, но самого меню не видно (см. скриншот). Но если в менюшках что-то выбрать - что-то происходит судя по отклику жёсткого диска, но результат не виден, т.к. чёрный фон всё забивает.

Пробовал поменять настройки эмулятора терминала с (белый на чёрном) на (чёрный на белом). Получилось, и терминал самой R эти настройки унаследовал. Но в Rstudio так всё чёрное и осталось. От версии R не зависит (пробовал и 4.0 и 3.6, а Debian аж только 3.5 пока достойной считает), сама R нормально работает.

Может кто из под линукса работает знает в чём может быть дело?
Эскизы прикрепленных изображений
Прикрепленное изображение
 
  Форум: Медицинская статистика · Просмотр сообщения: #26724 · Ответов: 2 · Просмотров: 903

nokh
Отправлено: 7.04.2021 - 21:26





Группа: Пользователи
Сообщений: 1157
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


У жены на работе в больнице всем поставили компьютеры с РедOC Муром - импортозамещение:). Ездил переносил ей инфу с ноута, папки всякие понаделал, ярлыки программ на рабочий стол вывел... Ну и что-то увлёкся, поставил дома на старый комп сначала РедOC, а потом и другие Линуксы потестил.

Один из тестов пока провалили все - не удаётся нормально запустить Rstudio. Пробовал на лёгких версиях Ubuntu (Lubutu, Xubuntu, отечественная runtu), на Mint и на чистом Debian 10. Рабочий стол везде Xfce, т.к. ни на LXQt, ни на Mate (пробовал разные оболочки в разных линуксах) RStudio вообще экрана не выдала. В трёх случаях запустилась, но с предложением отправить crash report. Картина везде идентичная, поэтому надеюсь, что какими-то настройками исправить можно. После сообщения об ошибке остаётся чёрный экран со стрелкой курсора. На П и Л кнопки мыши откликается, а если покликать в верхней части - появляются меню (см. скриншот). Но если в нём что-то выбрать - результат не виден, т.к. чёрный фон всё забивает.

Пробовал поменять настройки эмулятора терминала с (белый на чёрном) на (чёрный на белом). Получилось, и терминал самой R эти настройки унаследовал. Но в Rstudio так всё чёрное и осталось. От версии R не зависит (пробовал и 4.0 и 3.6, а Debian аж только 3.5 пока достойной считает), сама R нормально работает.

Может кто из под линукса работает, знает в чём может быть дело?
Эскизы прикрепленных изображений
Прикрепленное изображение
 
  Форум: Разное · Просмотр сообщения: #26723 · Ответов: 33 · Просмотров: 44125

nokh
Отправлено: 5.04.2021 - 22:15





Группа: Пользователи
Сообщений: 1157
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(Sadalmelika @ 5.04.2021 - 14:44) *
ДАААА, Вы абсолютно правильно понимаете, что это будет нелегко.... Я правильно понимаю, что для Вашего метода мне надо ввести дополнительный столбик переменной и в ручную закодировать возраст под эти группы? Таким образом из счетной величины возраст перейдет в категориальную и тогда можно будет использовать двухфакторный дисперсионный анализ? Мне кажется у меня полная путаница в голове, но буду стараться распутаться и все же разобраться что к чему... Спасибище огромнейшее за ответ!!)

Да, именно так: перекодировать из количественной в качественную категориальную. Двухфакторный дисперсионный анализ с взаимодействием описан везде, во всех учебниках и в хелпах ко всем пакетам. В работу желательно давать таблицу результатов и график взаимодействивия факторов (независимо от его значимости). Сделаете, можете прикрепить сюда результат, если будут сложности с интерпретацией /оформлением...
  Форум: Медицинская статистика · Просмотр сообщения: #26708 · Ответов: 6 · Просмотров: 1192

nokh
Отправлено: 16.03.2021 - 22:59





Группа: Пользователи
Сообщений: 1157
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(Sadalmelika @ 3.03.2021 - 16:48) *
Добрый день, уважаемые эксперты.
Я прошу помощи в обработке моего материала и использовании дисперсионного анализа.
Дано: есть 2 группы пациентов с АГ (684 человека) и без АГ (556 человек) (то есть фактор 1 - наличие АГ, который определяет принадлежность к группе, и я так понимаю он ранговый), при проведении непараметрического сравнения койко-дней (то есть фактор 2, и он количественный) в двух независимых группах выявлена достоверная разница. Но оказалось, что эти две группы не сопоставимы по возрасту (то есть фактор 3, который количественный), возраст в этих группах также достоверно различается.
Вопрос: как понять разница в койко-днях у пациентов с АГ и без АГ обусловлена наличием этой патологии либо разным возрастом пациентов в этих группах? То есть влияет ли фактор 3 на разницу переменной 2 в двух группах, определяющихся фактором 1? Я так понимаю, что необходимо проведение ANOVA, только какого? Факториального? Где зависимая - наличие АГ, а категориальные это возраст и койко-дни? И как интерпретировать тогда полученные результаты в таблице? Или я неправильно понимаю, что надо в данном случае использовать дисперсионный анализ?
Заранее прошу прощения может быть за немного корявый язык, я пока только пытаюсь разобраться в статистических методах, я ни разу не математик.
Буду очень благодарна любой помощи, совету!

Как уже указал comisora, нужен дисперсионный анализ - ANOVA.

Полагаю, что вам сейчас будет сложно провести полноценный ковариационный анализ (можно считать обобщением дисперсионного и регрессионного анализов). В нём нужно было бы сначала оценить равенство зависимостей от возраста в группах, и если оно одинаковое (нет значимых различий), то рассчитать общую зависимость, скорректировать данные на неё и уже только потом сравнить скорректированные на возраст группы. В случае различий зависимости от возраста в группах такую штуку не провести, поэтому я крайне скептически отношусь к программным модулям, где количественный показатель можно запросто задать в качестве ковариаты.

Учитывая, что данных у вас много, проще использовать не сам возраст, а его коды. Их можно задать с интервалом в 5 или 10 лет. Т.е., например, всех пациентов младше 20 лет отнести к возрастной категории 1, 20-30 лет - к категории 2, 30-40 лет - к 3 и т.д. Затем провести классический двухфакторный дисперсионный анализ (Two-way ANOVA) с взаимодействием факторов "Группа х Возраст".

В результате такого анализа сможете ответить сразу на 3 вопроса:
1) Фактор Группы. Различаются ли группы по койко-дням (т.к. возраст включён в анализ, его эффект при ответе на этот вопрос будет снят)
2) Фактор Возраст. Различаются ли пациенты разных возрастных групп по койко-дням.
3) Взаимодействие факторов Группа х Возраст. Если значимо, значит эти факторы нужно рассматривать совместно, в разных группах возрастная динамика разная.

По поводу счётного характера показателя "койко-день" тоже согласен. Для счётных признаков можно использовать преобразования, но попробуйте сначала с исходными данными.

  Форум: Медицинская статистика · Просмотр сообщения: #26653 · Ответов: 6 · Просмотров: 1192

nokh
Отправлено: 11.03.2021 - 17:40





Группа: Пользователи
Сообщений: 1157
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(Anna_V @ 11.03.2021 - 18:14) *
Вы не подскажете, где можно скачать PAST? При переустановки системы потерялся, а по той ссылке, где качала обычно, уже нет его.

PAST: https://www.nhm.uio.no/english/research/infrastructure/past/
KyPlot: https://www.kyenslab.com/en-us/about-kyplot-6/ (сетап японский, при установке нужно не пугаться спецсимволов, соглашаться по умолчанию, после установки - обычный англлоязычный пакет)

PS В оба пакета добавляют потихоньку модули работы с картами
  Форум: Медицинская статистика · Просмотр сообщения: #26642 · Ответов: 3 · Просмотров: 1040

nokh
Отправлено: 19.02.2021 - 20:35





Группа: Пользователи
Сообщений: 1157
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(Centaurea @ 18.02.2021 - 18:17) *
Есть выборка - примерно 30 человек.
От каждого было получено 2 типа ткани: кровь и буккальный эпителий. Был определён уровень мутантного аллеля (гетероплазмии митохондриального генома) по 5 мутациям в каждом типе ткани. Данный уровень выражен в процентах.Необходимо сравнить является ли уровень гетероплазмии в крови таким же как и в буккальном эпителии.

А нужно при учитывать аллели (5 шт) или всё в кучу: просто в одной ткани столько-то всего мутантных, в другой - столько-то? Ведь возможна ситуация, когда общий уровень будет одинаковым, но с крови за счёт одних аллелей, а в б. эпителии - за счёт других.
Если всё в кучу, то это просто сравнение двух зависимых выборок непараметрикой, скажем парным критерием Уилкоксона (Wilcoxon signed-rank test), т.к. проценты распределены ненормально. Описано на стр. 112 практикума: https://yadi.sk/d/g50i73pt3J6pAa
Если нужно учитывать аллели - сложнее. Можно вариантом дисперсионного анализа с преобразованными частотами (фи-преобразование = преобразование арксинуса или аналогичные угловые преобразования, переводящие ненормально распределённые проценты от 0 до 100% в приблизительно нормально распределённые углы от 0 до пи). Учесть зависимый характер выборок можно введением случайного фактора Пациент. Получится обычная перекрёстная схема трёхфакторного ANOVA с факторами:
1) Пациент, случайный, число градаций = числу пациентов
2) Ткань, фиксированный, 2 градации
3) Аллель, фиксированный, 5 градаций.
В этой схеме возможны все взаимодействия, но нужно правильно задать в пакетах случайный характер фактора Пациент.
  Форум: Медицинская статистика · Просмотр сообщения: #26574 · Ответов: 7 · Просмотров: 1045

nokh
Отправлено: 11.02.2021 - 19:24





Группа: Пользователи
Сообщений: 1157
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(metalmary @ 10.02.2021 - 14:24) *
В программе STATISTICA при анализе данных с помощью критерия Краскела-Уоллиса есть опция Сравнения средних рангов для все групп, который при расчете выдает Z-значения для множественных сравнений и уровень значимости p для каждой группы. Подходит ли этот метод для сравнений нескольких групп между собой? Или лучше воспользоваться тестом Манна-Уитни для сравнения каждой группы с другими (например, все группы сравнить с контролем)? Размер выборок очень маленький (n=6)

1. Почитайте помощь к пакету, чтобы знать, какой критерий используется в нём для непараметрических апостериорных сравнений.
2. Для попарных сравнений и для сравнения с контрольной группой используют разные критерии, иначе при сравнении с контролем будет потеря в мощности. Есть ранговый аналог критерия Данетта - критерий Стила (Steel test).
3. Критерий Манна - Уитни использовать нельзя: он для сравнения двух групп и не удержит ошибку семейства гипотез (FWER) на заданном уровне значимости без поправок. А поправки при таких объёмах выборок смерти подобны.
4. Пакет Statistica мало того, что не умеет Стила, так ещё и считает значимость путём аппроксимации непараметрической статистики стандартным нормальным распределением. Подозреваю, что для n=6 это вообще некорректно. Лучше пакеты PAST, где есть рандомизационные процедуры Монте-Карло и точные рандомизационные подходы (Exact permutation) или KyPlot, где есть и Стил и Стил - Двасс - аналог Тьюки (это если без R, где есть всё).
  Форум: Медицинская статистика · Просмотр сообщения: #26514 · Ответов: 3 · Просмотров: 1040

nokh
Отправлено: 2.02.2021 - 17:51





Группа: Пользователи
Сообщений: 1157
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


В инструкции написано, что бутстреп входит в робастный метод.
  Форум: Медицинская статистика · Просмотр сообщения: #26508 · Ответов: 1 · Просмотров: 1747

nokh
Отправлено: 19.01.2021 - 21:57





Группа: Пользователи
Сообщений: 1157
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(passant @ 17.01.2021 - 01:22) *
Спасибо большое. Это уже - направление.
Единственная проблема, что мои задачи надо решать в режиме он-лайн, причем скорость поступления данных весьма высокая - в некоторых вариантах "тики" могут представлять собой секунды, а время накопления выборки - минуту. Поэтому получится-ли применить МК-подход или нет - пока не знаю. Но буду разбираться. Еще раз спасибо.

Ну может тогда на основе статанализа какого-то количества рядов и/или их частей попытаться наработать какие-то свои "быстрые" критерии или решающие правила. Типа того, что если станд. отклонение больше 33%, то распределение скорее всего ненормальное: станд. отклонение быстрее и проще отслеживать, чем проводить раз за разом статпроверку на нормальность. Аналогично, завязать что вам нужно, скажем на скользящее среднее и принимать решения на основе анализа этого показателя. Менее надёжно, но гораздо быстрее. Если у вас идут подобные и более-менее однородные данные, то велика вероятность того, что такие эмпирические правила будут с большой долей вероятности работать и на других данных.
  Форум: Медицинская статистика · Просмотр сообщения: #26345 · Ответов: 12 · Просмотров: 2106

nokh
Отправлено: 16.01.2021 - 22:26





Группа: Пользователи
Сообщений: 1157
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(passant @ 16.01.2021 - 18:32) *
Что то наш форум как-то подозрительно затаился. Неужели это все? Или просто реакция на COVID?
... Буду благодарен на любую информационную "наводку" или хотя-бы указания направления, куда "рыть" дальше.

И всех, кто еще заглядывает на этот форум - с прошедшими праздникам! Пусть всякие Ковиды не портят вам настроения!

Присоединяюсь к поздравлениям passant! Отболели, продышались, настроение норм.

По поводу вопроса есть ответ: Монте-Карло. С автокорреляциями работать не приходится, поэтому для меня проще на примере коэффициента регрессии. Этапы будут такими:
1) Для каждой из выборок 1 и 2 объёмов n1 и n2 рассчитываются коэффициенты а1 и а2 и их разность d=а1-a2.
2) Значения обеих выборок объединяются и из этого набора случайные n1 наблюдений назначаются в выборку 1, а оставшиеся n2 наблюдений - в выборку 2.
3) Для каждой из таких сгенерированных случайным перемешиванием выборок рассчитываются коэффициенты а_Монте-Карло1 и a_Монте-Карло2 и их разность d_Монте-Карло1
4) Этапы 2 и 3 повторяются N раз (обычно 10 тыс. или 100 тыс. раз) с получением соответствующего числа N разностей d_Монте-Карло. Распределение этого d_Монте-Карло будет соответствовать нулевой гипотезе отсутствия различий между выборками, т.к. они генерировались из наблюдений именно одной (объединённой) выборки, а их разбиение на 1 и 2 было случайным.
5) Подсчитывается число k - число наблюдений d_Монте-Карло, оказавшихся равными или более экстремальными по отношению к разности d, полученной на этапе 1. И наконец рассчитывается р-значение (одностороннее) как
р=k/N или по скорректированной формуле р=(k+1)/(N+1), которая исключает возможность р=0. Видел в литературе, что для получения двусторонней оценки это значение умножается на 2, но для меня это не есть очевидная процедура, я полагаю что при таком способе проверки нужно использовать односторонний тест.
Данный подход с техникой Монте-Карло именно "прямой". В отличие от бутстрепа он не генерирует выборок из тех данных, которых в природе нет, т.к. случайным образом назначает в выборки именно реально имеющиеся данные. Также не привлекаются никакие сторонние предположения о распределении данных. Процедура реализуется одинаково независимо от того "лёгкие" или "тяжёлые" функции от данных сравниваются.

Я опробовал этот подход для сравнения таких "тяжёлых" функций как сумма абсолютных значений всех парных корреляций в наборе признаков (так называемый вес корреляционного графа). Только на этапе 5 вычислял р не напрямую (что-то с кодом тогда не получилось сразу, а нужно было срочно сдавать монографию), а как площадь под кривой распределения d_Монте-Карло, отсекаемую значением d.
Описано со стр. 191 книжки, есть код на R в приложении 3.6. и в вордовском документе для удобства копипаста на Яндекс-диске: https://yadi.sk/d/uj1Mg4OUBMp4SA
Вместо функции wg нужно подставлять свою функцию от данных.
  Форум: Медицинская статистика · Просмотр сообщения: #26326 · Ответов: 12 · Просмотров: 2106

nokh
Отправлено: 10.12.2020 - 17:06





Группа: Пользователи
Сообщений: 1157
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(sergivani @ 8.12.2020 - 18:41) *
Спасибо! Да, простите, это был действительно дисперсионный анализ.
В результате мультиноминальной логистической регрессии получается уравнение, но для работы врачей ЛПУ по нему считать неудобно.
Актуальна ли еще байесовская модель прогноза с последовательным анализом Вальда с расчетом прогностических коэффициентов по выявленным НФ?

Про актуальность такой не знаю, нужно вбивать на английском в поиск и смотреть современные западные журналы. Про "удобно-неудобно" не согласен, есть слово "нужно", ну или "хочу". Как-то делали работу с зав. Отделения гнойной хирургии Областной больницы. Это то место в больнице, где пациенты умирают. Тогда смертность достигала около 20-30%, несмотря на хорошее реанимационное отделение и ежесуточный и чаще контроль состояния по куче показателей. Так там успевали обсчитать эти показатели в чём-то типа экселя и отслеживать в динамике 3 шкалы тяжести. Потом, когда перешли на Протокол, стало меньше дерготни и выживаемость увеличилась, но тем не менее... Любую логистическую регрессию очень просто закодировать в экселе, чтобы считать риски. Другое дело, что как показывает практика, эти шкалы работают не оптимальным образом. Диагностическая эффективность выше у методов, работающих не с функциями от данных (типа логитов, пробитов и др.), а с данными непосредственно. В одномерном случае это деление на основе ROC-анализа, в многомерном - деревья решений и алгоритмы последовательного покрытия из машинного обучения, режущие массивы реальных цифр с выработкой древовидных классификаторов и решающих правил типа "if-then". Про рекомендованную ogurtsov'ым технику не читал, но скорее всего это из этой же серии. Кстати все эти штуки очень удобны для практики.
  Форум: Медицинская статистика · Просмотр сообщения: #26219 · Ответов: 4 · Просмотров: 5086

nokh
Отправлено: 13.11.2020 - 10:38





Группа: Пользователи
Сообщений: 1157
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Из классических способов можно таблицы сопряжённости. Сводить в таблицы 2х2: НФ vs ГК, заболевание есть vs нет. По таблицам считать относительный риск (или отношения шансов если потом нужно сравнивать с результатами логистической регрессии). Конечно, по 18 нозологиям качественно не получится, но может парочка хорошо "выстрелит". Для нозологий с установленными значимыми различиями между НФ и ГК копаться дальше, а там уже как покатит. Для оценок эффекта интенсивности и времени НФ остаётся уже меньше материала (только 300). Здесь просится множественная логистическая регрессия, дисперсионный анализ (если ДА это он) в таком дизайне сейчас архаичен.
  Форум: Медицинская статистика · Просмотр сообщения: #26168 · Ответов: 4 · Просмотров: 5086

nokh
Отправлено: 13.10.2020 - 11:56





Группа: Пользователи
Сообщений: 1157
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Ищете оригиналы, так ищите на английском. Сразу вышел на расчётный сайт: https://www.brianmac.co.uk/poms.htm + ещё много инфы по краткой (35 пунктов) и сокращённой (40) вариантам...
  Форум: Медицинская статистика · Просмотр сообщения: #26097 · Ответов: 2 · Просмотров: 1640

nokh
Отправлено: 10.07.2020 - 08:10





Группа: Пользователи
Сообщений: 1157
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(100$ @ 9.07.2020 - 23:50) *
Nokh, а это пакет {homals}, да? А то я уже что-то забывать стал...

Да, это {homals} и пришедший ему на смену {Gifi}. Оба проигрывают по удобству гибких настроек методу CATPCA из пакета SPSS. Я уже забыл что у меня не срасталось в пакетах для R, но раздражение помню)) Меня метод в SPSS вообще отлично устраивает, но только пакет коммерческий.
  Форум: Медицинская статистика · Просмотр сообщения: #25927 · Ответов: 25 · Просмотров: 141894

nokh
Отправлено: 9.07.2020 - 21:11





Группа: Пользователи
Сообщений: 1157
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(smeilz @ 7.07.2020 - 18:18) *
Добрый день.
Есть очень большая выборка для бинарной классификации. Нужно предсказать 2 класса(0/1)
Есть огромная куча предикторов(независимых переменных), все они категориальные, и известно, что выборка содержит в себе несколько сегментов, в которых поведение предсказываемых классов будет существенно отличаться. Количество сегментов неизвестно.
Как грамотно найти эти сегменты и поделить выборку для дальнейшего предсказания?

Ваша задача из разряда таких, которые требуют творческого подхода, т.е. одной технологии нет. Я согласен с ogurtsov, что раз внутри выборки есть какие-то сегменты, то логично начать с их поиска, т.е. кластеризации. Поскольку на выделение кластеров влияет набор показателей, то лучше сначала сократить пространство переменных, предварительно исключив метку класса (0/1) и искать кластеры уже в нём. Для качественных признаков наиболее распространённый способ редукции данных с обобщением - анализ соответствий (Correspondence Analysis), хотя мне он не особо нравится: даёт для некоторых показателей и объектов сильные выбросы или типа того, когда на ординационной диаграмме пара-тройка показателей по краям, а все остальные кучей в центре; причём те, что по краям часто показатели с небольшой долей редких категорий. Больше нравятся результаты оптимального шкалирования - нелинейного анализа главных компонент, обрабатывающих одновременно количественные, порядковые и номинальные признаки. Результаты интерпретируются аналогично PCA; можно посмотреть что за компоненты выделяются, постараться интерпретировать их, а уже в пространстве этих компонент можно поискать кластеры. Нет никакой гарантии, что эти кластеры и обусловливают различный характер поведения главного признака, но это тем не менее будут некие естественные группировки, что уже хорошо: с них можно начать.
Далее нужно отмоделировать классы в каждом кластере. Раз предикторов много, то лучше использовать Случайный лес деревьев классификации (Random forest). Далее сопоставить оптимальные наборы предикторов в кластерах, возможно какие-то кластеры окажутся в этом отношении сходными - их объединять и осмысливать, опираясь на предыдущий этап.

В принципе деревья классификации можно попробовать и к исходному набору предикторов и классов: вдруг оно окажется хорошо структурированным с небольшим количеством ветвлений, тогда задача будет решена вообще сразу. Я бы действовал примерно так, хотя по ходу возможны варианты.

Если задача заключается не в том, чтобы разобраться, а в том, чтобы просто точно предсказывать, то может лучше обучить этому нейронную сеть? С сегментами внутри выборки она справится сама. Поскольку я всё время разбираюсь, опыта построения и оптимизации таких сетей не имею.
  Форум: Медицинская статистика · Просмотр сообщения: #25921 · Ответов: 25 · Просмотров: 141894

nokh
Отправлено: 4.07.2020 - 21:38





Группа: Пользователи
Сообщений: 1157
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(potap_O @ 2.07.2020 - 08:51) *
Мой родственник д.м.н., а не математик. И как эксперт ВАК он и рецензирует диссертации. А обратилась я на этот форум потому, что на нём и есть специалисты по статистике. Однако похоже, что они и не понимают, что COVID-19 очень опасная болезнь. И со временем эта болезнь может дойти до многих участников этого форума. Почему же они и не рекомендуют мне производить продуктивные методы анализа моей базы данных?

Если хотите учиться - начинайте самостоятельно. Вот здесь выложен мой лабораторный практикум: https://yadi.sk/d/g50i73pt3J6pAa
Там на стр. 19 и далее даны советы по поводу того как получать помощь. Если кратко, то вам нужно было написать что конкретно из методов не получается освоить у вас, а не то насколько крут ваш родственник и что он советует. Советует - вперёд! Что вы попытались посчитать из того, что вам посоветовали? Кстати в практикуме есть и доверительные интервалы, и риски с шансами, и чувствительность со специфичностью, и многомерные методы. Но всё это нужно осваивать.
А если нет желания учиться статистике (это не всем интересно) и нет планов заниматься наукой, но есть желание поделиться результатами, которые вы считаете важными и нужными обществу - найдите кого-то в ближайшем окружении, кто в состоянии статистически доработать статью до приемлемого уровня за соавторство. Тема горячая, шансы на быструю публикацию велики, заинтересованные люди найдутся...
  Форум: Медицинская статистика · Просмотр сообщения: #25905 · Ответов: 16 · Просмотров: 144479

nokh
Отправлено: 30.06.2020 - 22:27





Группа: Пользователи
Сообщений: 1157
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(potap_O @ 27.06.2020 - 23:37) *
angel.gif Здравствуйте! Заканчиваю диссертацию по пациентам с COVID-19. Показала почти всю диссертацию своему дяде, эксперту ВАК. На что он оценил мои результаты статистики отрицательно. В частности, он сказал, что в самых надёжных диссертациях для таблиц сопряжённости проводят проверку надёжности результатов, вычисляют чувствительность и специфичность, и индекс Каппа. И для них вычисляют доверительные интервалы. А также используют и многомерные методы анализа. Подскажите, как можно сделать такие результаты.

Ответ очевиден: обратитесь к своему родственнику, зачем чужих людей напрягать...
  Форум: Медицинская статистика · Просмотр сообщения: #25876 · Ответов: 16 · Просмотров: 144479

nokh
Отправлено: 30.06.2020 - 22:24





Группа: Пользователи
Сообщений: 1157
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(alenass @ 27.06.2020 - 14:21) *
Здравствуйте!
Я- начинающий пользователь медицинской статистики. У меня возник простой вопрос, но самостоятельно разобраться не удается.
Есть группа из 40 больных. На первом визите признак был у всех пациентов (100%, это был критерий включения в исследование). На втором визите, на фоне лечения, он выявлялся у 20 больных (50%). На третьем визите - у 7 (17,5%).
Нужно доказать, что доли больных с признаком изменились статистически значимо.
Если использовать критерий Мак-Немара и сравнить первый и третий визиты, то, во-первых, появляется нулевая ячейка (так как изначально признак был у всех), и, во-вторых, теряется информация о промежуточном визите.
Как здесь можно применить Мак-Немар? Есть ли варианты получше?
Буду очень благодарна за совет!

По-хорошему здесь нужно использовать обобщённую линейную модель с биномиальным откликом. У меня пока не было времени/необходимости с этим разобраться. В принципе Макнемар (по правилам русского языка фамильная приставка Мак пишется слитно, без дефиса, как Макдоналдс) проще и его можно использовать для попарных сравнений визитов. Первый со вторым, первый с третьи, второй с третьим. При анализе можно ввести поправку на множественность сравнений типа Бонферрони. То, что "появляется нулевая ячейка" хорошо, значит есть какая-то динамика, никаких проблем с анализом здесь нет, данные не теряются, просто происходит перераспределение пациентов в 4 полях таблицы "До-после", "Есть признак-нет признака". Макнемар и его точный вариант (Exact binomial test) как раз и считают такие таблицы.
  Форум: Медицинская статистика · Просмотр сообщения: #25875 · Ответов: 4 · Просмотров: 3002

nokh
Отправлено: 30.06.2020 - 22:13





Группа: Пользователи
Сообщений: 1157
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(p2004r @ 26.06.2020 - 22:32) *
А где вот эти "овалы", что на картинке "по отдельности"?

По отдельности нет, только кучкой (если я правильно вас понял). В этом большое преимущество: всё кучкой и обрабатывается автоматически (модуль в ImageJ - Analyze - Analyze Particles)
  Форум: Медицинская статистика · Просмотр сообщения: #25874 · Ответов: 15 · Просмотров: 143648

nokh
Отправлено: 25.06.2020 - 22:17





Группа: Пользователи
Сообщений: 1157
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(100$ @ 26.06.2020 - 00:02) *
А что это за объекты? Вареники, пельмени, моллюски, инфузории-туфельки?

tongue.gif https://leplants.ru/lonicera-caerulea-lazurit/

  Форум: Медицинская статистика · Просмотр сообщения: #25837 · Ответов: 15 · Просмотров: 143648

nokh
Отправлено: 25.06.2020 - 21:30





Группа: Пользователи
Сообщений: 1157
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(100$ @ 25.06.2020 - 00:32) *
Nokh, так мы ищем типичного среди этих 54?
Если да, то просьба указать, какой парень на прилагаемом изображении претендует на эту роль?

Лучший претендент - парень No 35.
К сожалению не получилось уйти от принятия решения и свести всё к механическому расчёту. По идее типизация должна быть инвариантна к набору признаков. Например в данном случае источников изменчивости 3: 1) крупность объекта, 2) округлость, 3) неровность края. В этом наборе признаков большинство вкладывается в крупность, тогда как в неровность почти только Solidity. Поэтому если проводить кластеризацию, то она "сработает" преимущественно по крупности. Поэтому сначала редукция с обобщением, потом принятие решения о числе источников изменчивости, и только потом поиск типичных/нетипичных объектов в рамках рассматриваемых источников. Вышло достаточно тривиально(((

PS А пример с лётчиками является также хорошей иллюстрацией правила, что с увеличением числа признаков на объект увеличивается степень уникальности объекта. Поэтому я теоретически разочаровался в бутстрэпе для многопеременных техник и полюбил складной нож и Монте-Карло (писал в статье по корреляционной адаптометрии).
  Форум: Медицинская статистика · Просмотр сообщения: #25835 · Ответов: 15 · Просмотров: 143648

46 страниц V   1 2 3 > » 

Открытая тема (есть новые ответы)  Открытая тема (есть новые ответы)
Открытая тема (нет новых ответов)  Открытая тема (нет новых ответов)
Горячая тема (есть новые ответы)  Горячая тема (есть новые ответы)
Горячая тема (нет новых ответов)  Горячая тема (нет новых ответов)
Опрос (есть новые голоса)  Опрос (есть новые голоса)
Опрос (нет новых голосов)  Опрос (нет новых голосов)
Закрытая тема  Закрытая тема
Тема перемещена  Тема перемещена