Форум врачей-аспирантов

Здравствуйте, гость ( Вход | Регистрация )

46 страниц V   1 2 3 > » 

nokh
Отправлено: 13.10.2020 - 11:56


Дух форума
*

Группа: Пользователи
Сообщений: 1141
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Ищете оригиналы, так ищите на английском. Сразу вышел на расчётный сайт: https://www.brianmac.co.uk/poms.htm + ещё много инфы по краткой (35 пунктов) и сокращённой (40) вариантам...
  Форум: Медицинская статистика · Просмотр сообщения: #26097 · Ответов: 2 · Просмотров: 164

nokh
Отправлено: 10.07.2020 - 08:10


Дух форума
*

Группа: Пользователи
Сообщений: 1141
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(100$ @ 9.07.2020 - 23:50) *
Nokh, а это пакет {homals}, да? А то я уже что-то забывать стал...

Да, это {homals} и пришедший ему на смену {Gifi}. Оба проигрывают по удобству гибких настроек методу CATPCA из пакета SPSS. Я уже забыл что у меня не срасталось в пакетах для R, но раздражение помню)) Меня метод в SPSS вообще отлично устраивает, но только пакет коммерческий.
  Форум: Медицинская статистика · Просмотр сообщения: #25927 · Ответов: 25 · Просмотров: 3233

nokh
Отправлено: 9.07.2020 - 21:11


Дух форума
*

Группа: Пользователи
Сообщений: 1141
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(smeilz @ 7.07.2020 - 18:18) *
Добрый день.
Есть очень большая выборка для бинарной классификации. Нужно предсказать 2 класса(0/1)
Есть огромная куча предикторов(независимых переменных), все они категориальные, и известно, что выборка содержит в себе несколько сегментов, в которых поведение предсказываемых классов будет существенно отличаться. Количество сегментов неизвестно.
Как грамотно найти эти сегменты и поделить выборку для дальнейшего предсказания?

Ваша задача из разряда таких, которые требуют творческого подхода, т.е. одной технологии нет. Я согласен с ogurtsov, что раз внутри выборки есть какие-то сегменты, то логично начать с их поиска, т.е. кластеризации. Поскольку на выделение кластеров влияет набор показателей, то лучше сначала сократить пространство переменных, предварительно исключив метку класса (0/1) и искать кластеры уже в нём. Для качественных признаков наиболее распространённый способ редукции данных с обобщением - анализ соответствий (Correspondence Analysis), хотя мне он не особо нравится: даёт для некоторых показателей и объектов сильные выбросы или типа того, когда на ординационной диаграмме пара-тройка показателей по краям, а все остальные кучей в центре; причём те, что по краям часто показатели с небольшой долей редких категорий. Больше нравятся результаты оптимального шкалирования - нелинейного анализа главных компонент, обрабатывающих одновременно количественные, порядковые и номинальные признаки. Результаты интерпретируются аналогично PCA; можно посмотреть что за компоненты выделяются, постараться интерпретировать их, а уже в пространстве этих компонент можно поискать кластеры. Нет никакой гарантии, что эти кластеры и обусловливают различный характер поведения главного признака, но это тем не менее будут некие естественные группировки, что уже хорошо: с них можно начать.
Далее нужно отмоделировать классы в каждом кластере. Раз предикторов много, то лучше использовать Случайный лес деревьев классификации (Random forest). Далее сопоставить оптимальные наборы предикторов в кластерах, возможно какие-то кластеры окажутся в этом отношении сходными - их объединять и осмысливать, опираясь на предыдущий этап.

В принципе деревья классификации можно попробовать и к исходному набору предикторов и классов: вдруг оно окажется хорошо структурированным с небольшим количеством ветвлений, тогда задача будет решена вообще сразу. Я бы действовал примерно так, хотя по ходу возможны варианты.

Если задача заключается не в том, чтобы разобраться, а в том, чтобы просто точно предсказывать, то может лучше обучить этому нейронную сеть? С сегментами внутри выборки она справится сама. Поскольку я всё время разбираюсь, опыта построения и оптимизации таких сетей не имею.
  Форум: Медицинская статистика · Просмотр сообщения: #25921 · Ответов: 25 · Просмотров: 3233

nokh
Отправлено: 4.07.2020 - 21:38


Дух форума
*

Группа: Пользователи
Сообщений: 1141
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(potap_O @ 2.07.2020 - 08:51) *
Мой родственник д.м.н., а не математик. И как эксперт ВАК он и рецензирует диссертации. А обратилась я на этот форум потому, что на нём и есть специалисты по статистике. Однако похоже, что они и не понимают, что COVID-19 очень опасная болезнь. И со временем эта болезнь может дойти до многих участников этого форума. Почему же они и не рекомендуют мне производить продуктивные методы анализа моей базы данных?

Если хотите учиться - начинайте самостоятельно. Вот здесь выложен мой лабораторный практикум: https://yadi.sk/d/g50i73pt3J6pAa
Там на стр. 19 и далее даны советы по поводу того как получать помощь. Если кратко, то вам нужно было написать что конкретно из методов не получается освоить у вас, а не то насколько крут ваш родственник и что он советует. Советует - вперёд! Что вы попытались посчитать из того, что вам посоветовали? Кстати в практикуме есть и доверительные интервалы, и риски с шансами, и чувствительность со специфичностью, и многомерные методы. Но всё это нужно осваивать.
А если нет желания учиться статистике (это не всем интересно) и нет планов заниматься наукой, но есть желание поделиться результатами, которые вы считаете важными и нужными обществу - найдите кого-то в ближайшем окружении, кто в состоянии статистически доработать статью до приемлемого уровня за соавторство. Тема горячая, шансы на быструю публикацию велики, заинтересованные люди найдутся...
  Форум: Медицинская статистика · Просмотр сообщения: #25905 · Ответов: 16 · Просмотров: 4270

nokh
Отправлено: 30.06.2020 - 22:27


Дух форума
*

Группа: Пользователи
Сообщений: 1141
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(potap_O @ 27.06.2020 - 23:37) *
angel.gif Здравствуйте! Заканчиваю диссертацию по пациентам с COVID-19. Показала почти всю диссертацию своему дяде, эксперту ВАК. На что он оценил мои результаты статистики отрицательно. В частности, он сказал, что в самых надёжных диссертациях для таблиц сопряжённости проводят проверку надёжности результатов, вычисляют чувствительность и специфичность, и индекс Каппа. И для них вычисляют доверительные интервалы. А также используют и многомерные методы анализа. Подскажите, как можно сделать такие результаты.

Ответ очевиден: обратитесь к своему родственнику, зачем чужих людей напрягать...
  Форум: Медицинская статистика · Просмотр сообщения: #25876 · Ответов: 16 · Просмотров: 4270

nokh
Отправлено: 30.06.2020 - 22:24


Дух форума
*

Группа: Пользователи
Сообщений: 1141
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(alenass @ 27.06.2020 - 14:21) *
Здравствуйте!
Я- начинающий пользователь медицинской статистики. У меня возник простой вопрос, но самостоятельно разобраться не удается.
Есть группа из 40 больных. На первом визите признак был у всех пациентов (100%, это был критерий включения в исследование). На втором визите, на фоне лечения, он выявлялся у 20 больных (50%). На третьем визите - у 7 (17,5%).
Нужно доказать, что доли больных с признаком изменились статистически значимо.
Если использовать критерий Мак-Немара и сравнить первый и третий визиты, то, во-первых, появляется нулевая ячейка (так как изначально признак был у всех), и, во-вторых, теряется информация о промежуточном визите.
Как здесь можно применить Мак-Немар? Есть ли варианты получше?
Буду очень благодарна за совет!

По-хорошему здесь нужно использовать обобщённую линейную модель с биномиальным откликом. У меня пока не было времени/необходимости с этим разобраться. В принципе Макнемар (по правилам русского языка фамильная приставка Мак пишется слитно, без дефиса, как Макдоналдс) проще и его можно использовать для попарных сравнений визитов. Первый со вторым, первый с третьи, второй с третьим. При анализе можно ввести поправку на множественность сравнений типа Бонферрони. То, что "появляется нулевая ячейка" хорошо, значит есть какая-то динамика, никаких проблем с анализом здесь нет, данные не теряются, просто происходит перераспределение пациентов в 4 полях таблицы "До-после", "Есть признак-нет признака". Макнемар и его точный вариант (Exact binomial test) как раз и считают такие таблицы.
  Форум: Медицинская статистика · Просмотр сообщения: #25875 · Ответов: 4 · Просмотров: 1188

nokh
Отправлено: 30.06.2020 - 22:13


Дух форума
*

Группа: Пользователи
Сообщений: 1141
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(p2004r @ 26.06.2020 - 22:32) *
А где вот эти "овалы", что на картинке "по отдельности"?

По отдельности нет, только кучкой (если я правильно вас понял). В этом большое преимущество: всё кучкой и обрабатывается автоматически (модуль в ImageJ - Analyze - Analyze Particles)
  Форум: Медицинская статистика · Просмотр сообщения: #25874 · Ответов: 15 · Просмотров: 2594

nokh
Отправлено: 25.06.2020 - 22:17


Дух форума
*

Группа: Пользователи
Сообщений: 1141
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(100$ @ 26.06.2020 - 00:02) *
А что это за объекты? Вареники, пельмени, моллюски, инфузории-туфельки?

tongue.gif https://leplants.ru/lonicera-caerulea-lazurit/

  Форум: Медицинская статистика · Просмотр сообщения: #25837 · Ответов: 15 · Просмотров: 2594

nokh
Отправлено: 25.06.2020 - 21:30


Дух форума
*

Группа: Пользователи
Сообщений: 1141
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(100$ @ 25.06.2020 - 00:32) *
Nokh, так мы ищем типичного среди этих 54?
Если да, то просьба указать, какой парень на прилагаемом изображении претендует на эту роль?

Лучший претендент - парень No 35.
К сожалению не получилось уйти от принятия решения и свести всё к механическому расчёту. По идее типизация должна быть инвариантна к набору признаков. Например в данном случае источников изменчивости 3: 1) крупность объекта, 2) округлость, 3) неровность края. В этом наборе признаков большинство вкладывается в крупность, тогда как в неровность почти только Solidity. Поэтому если проводить кластеризацию, то она "сработает" преимущественно по крупности. Поэтому сначала редукция с обобщением, потом принятие решения о числе источников изменчивости, и только потом поиск типичных/нетипичных объектов в рамках рассматриваемых источников. Вышло достаточно тривиально(((

PS А пример с лётчиками является также хорошей иллюстрацией правила, что с увеличением числа признаков на объект увеличивается степень уникальности объекта. Поэтому я теоретически разочаровался в бутстрэпе для многопеременных техник и полюбил складной нож и Монте-Карло (писал в статье по корреляционной адаптометрии).
  Форум: Медицинская статистика · Просмотр сообщения: #25835 · Ответов: 15 · Просмотров: 2594

nokh
Отправлено: 24.06.2020 - 20:30


Дух форума
*

Группа: Пользователи
Сообщений: 1141
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Благодарю всех откликнувшихся! Всё прочитал, просмотрел, попробовал... и решил отказаться от игр с расстояниями и от кластерного анализа. Пока остановился на старом добром PCA. Рассчитал факторные метки для каждого объекта по всем PC и нашёл сумму их абсолютных значений по всем осям. Навеяно 100$ и желанием сохранить в анализе коррелирующие показатели. Объект с минимальной суммой расположен ближе всего к центроиду гипероблака. Если у форумчан есть время и желание прикрепляю свои объекты. Теперь у меня есть кандидат на победу!

PS Конечно, никакие PCA не опишут форму так, как геометрическая морфометрия, но для моей задачи это немыслимая трудоёмкость. А так я за 5 мин могу получить массив годных цифр, включая время на фото, его портирование в комп и обработку в ImageJ. В дополнение к книге р2004r хорошее русскоязычное руководство: https://ipae.uran.ru/sites/default/files/pu...silyevEtAl2.pdf
Эскизы прикрепленных изображений
Прикрепленное изображение
 

Прикрепленные файлы
Прикрепленный файл  Mean_object.xls ( 20,5 килобайт ) Кол-во скачиваний: 44
 
  Форум: Медицинская статистика · Просмотр сообщения: #25833 · Ответов: 15 · Просмотров: 2594

nokh
Отправлено: 23.06.2020 - 12:46


Дух форума
*

Группа: Пользователи
Сообщений: 1141
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Спасибо большое, действенно и быстро!
Единственное, что показатели размеров и формы в разных единицах и некоторые коррелируют. Ну, например, в промерах есть и площадь проекции и периметр, но есть также округлость (circularity), которая вычисляется по площади и периметру. Может тогда лучше расстояния Махаланобиса?
  Форум: Медицинская статистика · Просмотр сообщения: #25827 · Ответов: 15 · Просмотров: 2594

nokh
Отправлено: 23.06.2020 - 09:43


Дух форума
*

Группа: Пользователи
Сообщений: 1141
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Имеется несколько выборок образцов с измеренными в ImageJ показателями размеров и формы. Посчитана описательная статистика.
Теперь я хочу найти образец, наиболее типичный для каждой выборки по комплексу показателей и использовать его контур в качестве иллюстрации для всей выборки.
Подскажите, пожалуйста, каким методом проще всего найти типичный образец и что использовать: среднее, медиану, моду? Может есть готовые рекомендации для таких задач?
Спасибо!
  Форум: Медицинская статистика · Просмотр сообщения: #25825 · Ответов: 15 · Просмотров: 2594

nokh
Отправлено: 9.06.2020 - 19:04


Дух форума
*

Группа: Пользователи
Сообщений: 1141
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(Анатолий Баулин @ 9.06.2020 - 17:01) *
...
Правильна ли я считаю? Буду благодарен любой информациию.

Лабораторный практикум по биостатистике по ссылке: https://yadi.sk/d/g50i73pt3J6pAa
Со страницы 102 приведён ручной расчёт критерия хи-квадрат.
  Форум: Медицинская статистика · Просмотр сообщения: #25804 · Ответов: 5 · Просмотров: 1711

nokh
Отправлено: 6.05.2020 - 21:48


Дух форума
*

Группа: Пользователи
Сообщений: 1141
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(100$ @ 4.05.2020 - 17:50) *
...
Robotnik,
в вашем случае не нужно:
...

Согласен с 100$ во всём.
Если для статьи или хорошего доклада я бы указал ещё на такой гистограмме 95% ДИ для частот инцидентов с 1, 2, 3 и т.д. повреждениями.
То, что никакое распределение не подходит - логично, т.к. здесь - смесь нескольких распределений. Это хорошо видно по гистограмме с наложением плотности распределений - их как минимум 3: возможно от 1 до 7, 7-15 и свыше 15. С этой информацией дальше тоже можно работать, например попытаться разделить смесь этих распределений (см. приложенный рисунок) и поискать в доступной информации об инцидентах критерии (факторы), которые могут определять наблюдаемую гетерогенность. Ну для примера предположим различные орудия; т.е. если бы я взялся за топор, то даже в состоянии аффекта вряд ли рубанул врага 15 раз, но вот если гвоздём... может и 43 не предел... Думаю, что вы как спец в этом разберётесь в причинах.

PS. Учитывая особенности вашего окружения, лучше всё-таки иметь и среднее с ДИ, и медиану с квартилями. А то спросит полковник "сколько в среднем?" а вы ему про частоты...
Эскизы прикрепленных изображений
Прикрепленное изображение
 
  Форум: Медицинская статистика · Просмотр сообщения: #25730 · Ответов: 14 · Просмотров: 2672

nokh
Отправлено: 6.05.2020 - 20:54


Дух форума
*

Группа: Пользователи
Сообщений: 1141
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(EkaterinaN @ 29.04.2020 - 15:58) *
Добрый день. Подскажите, пожалуйста, по статистическим методам. У меня есть группа больных (n=229) с терминальной стадией заболевания, которые прошли успешное лечение по устранению причины этого заболевания (избавились от вируса). После этого, я наблюдаю больных каждые 3-6 месяцев с целью выявления неблагоприятных исходов. Мне необходимо определить какие параметры (факторы) до лечения позволят спрогнозировать развитие неблагоприятного исхода, несмотря на успешную противовирусную терапию. Какой метод точнее: логистическая регрессия или анализ пропорциональных рисков Кокса (последний чаще встречается в работах с аналогичным дизайном исследования)?

Логистическая регрессия не подходит, т.к. имется не однократный срез, а продольное (longitudinal) исследование, где выборки одних и тех же пациентов на разных сроках являются зависимыми по отношению друг к другу.
Регрессия Кокса тоже не подходит, т.к. исследование продольное + полное, тогда как этот анализ используется для массивов с цензурированными наблюдениями, когда пациенты выбывают из исследования на разных сроках.
Вам нужна обобщённая линейная модель (Generalized Linear Model) с биномиальным откликом, в которой нужно правильно задать between-within subjects эффекты. Это самая общая и одновременно сложная модель. Мне такую строить не доводилось, но материалы в сети есть. Если выложите сюда свои данные (чтобы не волноваться, можно в общем виде, типа "фактор 1", "фактор 2" и т.п.), то может быть форумчане помогут вам подогнать такую модель в R, SPSS или Statistica.
  Форум: Медицинская статистика · Просмотр сообщения: #25729 · Ответов: 6 · Просмотров: 2681

nokh
Отправлено: 3.05.2020 - 08:25


Дух форума
*

Группа: Пользователи
Сообщений: 1141
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Прежде чем что-то считать полезно посмотреть распределение признака на гистограмме. В вашем случае - обязательно, т.к. объём выборки хороший. Я это к тому, что причин отклонения от нормальности может быть масса.

Ну например, распределение может быть скошенным асимметричным (часто положительная асимметрия). Тогда медиана и квартили пойдут, но вот среднее и ДИ уже нет или только после преобразований и с бутстрепом желательно. Хотя я вообще не вижу практической пользы от интервальной оценки медианы кроме как для сведения данных в каком-нибудь мета-анализе, межквартильный размах полезнее.

Или выборка может быть представлена смесью распределений, тогда и медиана ни о чём толком не скажет, т.к. она вообще может попасть в щель между распределениями. Тогда нужно выявлять источники гетерогенности и разделять сметсь распределений, с каждой подвыборкой потом работать отдельно. Короче, начните с графиков.
  Форум: Медицинская статистика · Просмотр сообщения: #25702 · Ответов: 14 · Просмотров: 2672

nokh
Отправлено: 26.04.2020 - 06:53


Дух форума
*

Группа: Пользователи
Сообщений: 1141
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(EkaterinaN @ 25.04.2020 - 01:37) *
Добрый вечер, применим ли ROC-анализ для определения прогностической ценности порядковых или качественных переменных в диагностике какого-либо исхода? Или только для количественных данных?

Для порядковых - да, для качественных - только дихотомических (альтернативных, бинарных). Но в последнем случае при построении площади будет использоваться только одна точка над диагональю (или на диагонали), т.к. имеется только одна пара значений чувствительности и специфичности. Поэтому самостоятельной ценности такая штука не представляет, её имеет смысл использовать только для сопоставления диагностической эффективности разных показателей в разных шкалах (количественных, порядковых, качественных дихотомических), чтобы выразить их в одинаковых единицах - площадью под ROC-кривой.
  Форум: Медицинская статистика · Просмотр сообщения: #25661 · Ответов: 57 · Просмотров: 129030

nokh
Отправлено: 4.04.2020 - 06:33


Дух форума
*

Группа: Пользователи
Сообщений: 1141
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


По объединени р-значений. Я качал когда-то пару-тройку книг по мета-анализу (МА), но их просмотр по диагонали не оставил глубокого впечатления. Помню, что видел там формулу из Сокала и Рольфа на стр. 794 и далее. В этом pdf это стр. 806 и пример на стр. 807: http://yadi.sk/d/CMndWKYvQu6b2

Одного из наших магистрантов пару лет назад работодатель отправлял на учёбу в Москву, где им прочли хороший курс по МА с практикой. Из того, чем он бегло поделился, я понял, что главным был корректный отбор публикаций в исследование, когда из нескольких сотен осталось пара десятков. Я не владею МА, но, вероятно, тема хорошо разработана и спецы в этом есть и в РФ. Но известный косяк всех МА - публикационное смещение (publication bias), которое в принципе неустранимо никакой статистикой.

Ясно, что наряду оценкой статистической значимости эффекта нужно ещё сводить воедино и величину эффекта (effect size). При этом одни авторы дают медианы с квартилями, другие средние с ДИ или стандартными отклонениями, ст. ошибкми... Попадалась работа как наиболее статистически обоснованно конверитировать эти показатели друг в друга для сведения. Если интересно - поищу.
  Форум: Медицинская статистика · Просмотр сообщения: #25557 · Ответов: 17 · Просмотров: 4335

nokh
Отправлено: 4.04.2020 - 06:05


Дух форума
*

Группа: Пользователи
Сообщений: 1141
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(drug535 @ 4.04.2020 - 03:30) *
Изучалась динамика значений показателя уверенности в себе у испытуемых экспериментальной группы в процессе проведения тренинговых занятий. При этом по результатам первичной (входящей) диагностики Х эмп.=9.72, а на этапе повторного (контрольного) обследования Х эмп.=2.82. Можно ли использовать для решения задачи t-критерий Стьюдента для независимых выборок?
Как можно обосновать свой ответ?

1) Если есть основания считать распределение показателя "уверенность в себе" в популяции нормально распределённым, то Стьюдента использовать можно, иначе непараметрику и лучше ресэмплинг. По тем учебникам статистики для психологов, которые видел, у меня сложилось впечателение, что авторы сильно грешат неправомочным использованием параметрики.
2) Если в тренинге и контроле были одни и те же испытуемые (из вопроса это не вполне понятно) нужно использовать критерии для зависимых выборок. Они есть и параметрические, и непараметрические. Анализ зависимых выборок на примере разобран в Лабораторной работе 7 этого практикума: https://yadi.sk/d/g50i73pt3J6pAa
3) Если для каждого испыпуемого был ряд измерений, например (1) до тренинга, (2) на этапе тренинга (3) контроль в конце, то парные Стьюдент, Уилкоксон и др. тесты для двух групп также некорректны (ну или на крайний случай - нужны поправки на множественность сравнений типа Бонферрони, Холма и т.п.) Здесь желательно анализировать всю панель одновремнно методами анализа повторных измерений.
  Форум: Медицинская статистика · Просмотр сообщения: #25556 · Ответов: 2 · Просмотров: 1282

nokh
Отправлено: 4.04.2020 - 05:53


Дух форума
*

Группа: Пользователи
Сообщений: 1141
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Не нуда запастил, сорри... Стёр.
  Форум: Медицинская статистика · Просмотр сообщения: #25555 · Ответов: 6 · Просмотров: 1962

nokh
Отправлено: 4.04.2020 - 05:52


Дух форума
*

Группа: Пользователи
Сообщений: 1141
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Благодарю за мнения и код! Попробую всё-таки ещё свой вариант, интересно будет сравнить с результатом р2004r.
По поводу Сайсон - Глаза ничего не читал, но мне решительно не понравился ноль в качестве нижней границы. Получается так: по набору в 73 объекта частота почти 9,5%, а нижняя граница ноль. Причём не 0.0001, что и так нереалистично мало, а вообще 0.00000000. Т.е. по-сути, метод говорит, что несмотря на то, что в выборке у меня оказалось почти 10%, если я продолжу процесс извлечения выборок, то в 95% выборок не обнуружу ни одного объёта такой категории. Не верю. Поэтому более склонен довериться моделированию. Последнее для меня очень затратно по времени написания кодов, но может за самоизоляцию и получится (как ни странно, сейчас времени вообще нет: в НИИ дана команда сидеть дома и писать статьи на год вперёд))), а в универе народ у кого занятий много вообще вешается с этой дистанционкой...)
  Форум: Медицинская статистика · Просмотр сообщения: #25554 · Ответов: 6 · Просмотров: 1962

nokh
Отправлено: 2.04.2020 - 09:24


Дух форума
*

Группа: Пользователи
Сообщений: 1141
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Раньше считал (вероятно не совсем корректно) ДИ для долей всегда методами для биномиального распределения. Т.е., например, в ряду абсолютных частот 4-х категорий {13, 35, 18, 7} с суммой n=73 доля первой категории f=13/73*100%=17,8%. Для неё находил 95% ДИ методом Клоппера - Пирсона или в полседнее время методом Джеффриса (байесовский априорный интервал): [10,4; 27,7].
Сейчас решил посчитать ДИ для полиномиального распределения, думал, что раз информации больше, то они Уже будут. Ничего подобного. R-пакет DescTool считает одновременные ДИ для полиномиалного распределения функцией MultinomCI.
library(DescTools)
x<-c(13,35,18,7)
MultinomCI(x)
est lwr.ci upr.ci
[1,] 0.17808219 0.06849315 0.3006248
[2,] 0.47945205 0.36986301 0.6019947
[3,] 0.24657534 0.13698630 0.3691180
[4,] 0.09589041 0.00000000 0.2184330
По умолчанию считает ДИ методом Сайсона - Глаза по SAS-овскому алгоритму. Всё хуже, чем даже биномиальный Клоппер - Писон, который ругают за консервативность. Видно, что для 7 (9,6%) нижняя граница вообще ноль. Более адекватные результаты даёт только метод Уилсона:
> MultinomCI(x, method="wilson")
est lwr.ci upr.ci
[1,] 0.17808219 0.10713373 0.2812173
[2,] 0.47945205 0.36877454 0.5921840
[3,] 0.24657534 0.16204465 0.3564445
[4,] 0.09589041 0.04722895 0.1849564

Воросы:
1) Каким способом считаете вы?
2) Хочу попробовать сделать бутстреп. Думаю так: многократно пробублировать набор 4 типов в соотношении 13 : 35 : 18 : 7 и извлекать из него с возвратом случайные выборки размером n=73; для каждогго типа потом рассчитать ДИ методом процентилей. Корректно так будет организовать?
  Форум: Медицинская статистика · Просмотр сообщения: #25544 · Ответов: 6 · Просмотров: 1962

nokh
Отправлено: 10.01.2020 - 10:50


Дух форума
*

Группа: Пользователи
Сообщений: 1141
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(100$ @ 7.01.2020 - 15:05) *
Указанную главу в монографии прочел и вижу решение этой задачи немного иначе.

За поправку спасибо.
Что касается многомерного подхода, то он, наряду с другими, имеет право на существование. Возможно, он лучше. Возможно ещё лучше брать из него главные компоненты или главные координаты. Но этим нужно специально заниматься, считать, сравнивать с результатами классического подхода и т.д. Я же пытался действовать в рамках используемой большинством практиков схемы, но поскольку сразу же обнаружил в ней минусы, то пришлось не ограничиться внедрением ресемплинга, а влезть поглубже. А о статистическом уровне массовых работ по КА можно судить по статьям отсюда: http://adaptometry.narod.ru/Index.htm
Не хватило времени и сил поработать со второй составляющей корреляционной адаптометрии - дисперсией, которая вроде рассчитывается именно как многомерная дисперсия (могу ошибаться).
А в чём считали многомерного Спирмена? Попытался в Нmisc под R, но у меня пакет встал с предупреждениями об ошибках и пока не считает вообще ничего...

P.S. А вообще методика КА оказалась интересной. Я уже в 3 областях попробовал и везде "работает". У меня даже появилась своя идея объяснения эффекта в плюс к тем 7, что есть на сайте. Не такая крутая, конечно, но зато статистическая (и может быть самая правильная ;) ). Но это тоже нужно специально проверять, долго возиться с данными, причём чужими...
  Форум: Медицинская статистика · Просмотр сообщения: #25113 · Ответов: 25 · Просмотров: 23563

nokh
Отправлено: 10.01.2020 - 09:56


Дух форума
*

Группа: Пользователи
Сообщений: 1141
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(Игорь @ 10.01.2020 - 10:20) *
... Но человек написал "помогите понять". А начинается понимание с четкого определения понятий и заканчивая нюансами. Свое мнение я изложил в работе, где логистическая регрессия практически полностью описана на 1 странице, включая ссылки на авторитеные источники, и добавить более нечего.

А вот с этим не согласен уже я)). Чёткие определения понятий следует искать в хорошей литературе, а не на форумах. И если бы топикстартер попросил дать ему определение логита, то я бы промолчал. Поэтому в моём посте определений нет, а формулы не могут считаться таковыми, поскольку взяты из контекста ответа на другой вопрос. Но топикстартер попросил другого, а именно: как получается конкретное числовое значение, полученное в конкретной программе. В принципе, если чуть копнуть литературу, то этот вопрос Felix77 мог закрыть самостоятельно. Но я посмотрел тот блог, увидел ошибку и более 300 лайков статьи и не захотел, чтобы и наш форумчанин стал жертвой плохого совета. Оставить комментарий на том ресурсе из аккаунта Гугл не получилось, а специально регистрироваться не стал. К тому же указание на ошибку автора уже есть в комменте, правда очень неуверенное. Поэтому показал расчёт вероятности P на нашем форуме здесь.
В своё время осваивал ЛР по литературе и помощи к программам. Хорошая помощь у пакета MedCalc, где есть такие-же формулы как в моём ответе: https://www.medcalc.org/manual/logistic_regression.php
  Форум: Медицинская статистика · Просмотр сообщения: #25111 · Ответов: 9 · Просмотров: 2780

nokh
Отправлено: 2.01.2020 - 19:54


Дух форума
*

Группа: Пользователи
Сообщений: 1141
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704


Цитата(Felix77 @ 2.01.2020 - 10:23) *
Доброго времени суток!
help.gif понять в примере по логистической регрессии в R, как получается коэффициент вероятности 0.854 при GRE-790, GPA-3.8, rank-1. Я так понимаю это можно сделать из коэф. 'estimate'

https://towardsdatascience.com/simply-expla...-r-b919acb1d6b3

У автора цитируемого блога в расчётах есть ошибка.
Спорно. Категориальные факторы однозначно следует вводить для номинальных предикторов, но не порядковых. Тогда все эти as.factor не нужны. Хотя так делают, если есть основания считать, что ранги не могут быть интерпретированы в линейной шкале. Покажу на имеющемся этом примере.

Логит=Свободный член + Фактор1*Коэффициент1 + Фактор2*Коэффициент2 + ...
Логит=-3,989979+790*0,002264+3,8*0,804038=0,8539254
Именно это значение выдаётся в качестве прогноза по predict(logit,x)=0.85426 (это без ошибок округления при моём ручном расчёте выше).

Ошибка. Но это не Р, а именно Логит при значениях факторов (gre=790,gpa=3.8,rank=as.factor(1)) для подогнанной модели
Р=1/(1+е^(-Логит)), где е - основание натурального логарифма. Соответственно конец нужно исправить на:

> predicted.logit<-predict(logit,x)
> predicted.logit
1
0.85426
> p=1/(1+exp(-predicted.logit))
> p
1
0.70146

Соответственно, вероятность Р=0,70146
(а если не рассматривать порядковые данные как номинальные, то P=0,6803324)
  Форум: Медицинская статистика · Просмотр сообщения: #25074 · Ответов: 9 · Просмотров: 2780

46 страниц V   1 2 3 > » 

Открытая тема (есть новые ответы)  Открытая тема (есть новые ответы)
Открытая тема (нет новых ответов)  Открытая тема (нет новых ответов)
Горячая тема (есть новые ответы)  Горячая тема (есть новые ответы)
Горячая тема (нет новых ответов)  Горячая тема (нет новых ответов)
Опрос (есть новые голоса)  Опрос (есть новые голоса)
Опрос (нет новых голосов)  Опрос (нет новых голосов)
Закрытая тема  Закрытая тема
Тема перемещена  Тема перемещена