Форум врачей-аспирантов

Здравствуйте, гость ( Вход | Регистрация )

29 страниц V   1 2 3 > » 

100$
Отправлено: 19.07.2020 - 20:51


Дух форума
*

Группа: Пользователи
Сообщений: 758
Регистрация: 23.08.2010
Пользователь №: 22694


Цитата(ogurtsov @ 15.07.2020 - 18:09) *
Раз зашла речь об оценке важности предикторов, то кроме запощенной третьего дня ссылки https://pbiecek.github.io/ema/localDiagnostics.html могу порекомендовать перевод "Остерегайтесь обычных важностей случайного леса" из сборника https://drive.google.com/file/d/1xMejDTwDvX...a9eQ7IOnEc/view


Блин, ogurtsov, а нельзя было дать ссылку на что-нибудь менее объемное? А то ж я все вынужден был прочитать )

В духе плаката Моора "Ты записался добровольцем?" так и хочется спросить: "А ты уже используешь пермутированные важности?". Ась?)
  Форум: Медицинская статистика · Просмотр сообщения: #25969 · Ответов: 8 · Просмотров: 603

100$
Отправлено: 19.07.2020 - 00:08


Дух форума
*

Группа: Пользователи
Сообщений: 758
Регистрация: 23.08.2010
Пользователь №: 22694


Цитата(passant @ 18.07.2020 - 23:20) *
Не, я просто устрашился попасть в руки такому врачу, еще и целому кандидату наук. crazy.gif И начал подозревать, почему некоторые люди предпочитают идти сразу к знахарям. lazy.gif


Дык какой же это, извиняюсь за выражение, "врач"? Это компьютерная программа, расточающая комплименты " ... и лично дорогому Василию Петровичу" по небрежно запрограммированному алгоритму.
Есть ощущение, что Anna_V все ж поумнее будет...
  Форум: Медицинская статистика · Просмотр сообщения: #25967 · Ответов: 16 · Просмотров: 2602

100$
Отправлено: 18.07.2020 - 19:27


Дух форума
*

Группа: Пользователи
Сообщений: 758
Регистрация: 23.08.2010
Пользователь №: 22694


Цитата(passant @ 17.07.2020 - 22:33) *
он медицинский директор, и проверщик поступаемых диссертаций. И перегружен своей работой, поэтому по конкретным базам данных и не может уточнять методы статистического анализа.
Настолько перегружен, что ознакомиться с вашей работой и ее раскритиковать успел, а вот "уточнить" метод анализа нет?? Просто дать название или ссылочку?? Родной племяннице? Жесть.

P.S. Если бы так: "проверщик поступаемых диссертаций" и "медицинский директор перегруженный своей работой" писал бы школьник средних классов - это бы меня повеселило. Если бы нечто подобное написал мне мой студент - я бы засомневался в его адекватности. Но кандидат в кандидаты медицинских наук??? Жесть в квадрате.


Похоже, passant начал что-то подозревать...
  Форум: Медицинская статистика · Просмотр сообщения: #25964 · Ответов: 16 · Просмотров: 2602

100$
Отправлено: 17.07.2020 - 01:18


Дух форума
*

Группа: Пользователи
Сообщений: 758
Регистрация: 23.08.2010
Пользователь №: 22694


Опять же, тест Кохрана (cochranq.test() из {CVST}) никто не отменял...
  Форум: Медицинская статистика · Просмотр сообщения: #25959 · Ответов: 4 · Просмотров: 562

100$
Отправлено: 14.07.2020 - 20:50


Дух форума
*

Группа: Пользователи
Сообщений: 758
Регистрация: 23.08.2010
Пользователь №: 22694


Цитата(Anna_V @ 14.07.2020 - 20:05) *
Спасибо. Если критерий показал различие многомерных средних, то что делать дальше? Как выявить конкретные показатели, по которым есть различия?


Тогда маркируйте эти две совокупности 0 и 1 и обучайте на них любой бинарный классификатор, способный быстренько ответить на вопрос об относительной важности предикторов. Да хоть бы и логистическую регрессию.
  Форум: Медицинская статистика · Просмотр сообщения: #25956 · Ответов: 8 · Просмотров: 603

100$
Отправлено: 14.07.2020 - 18:03


Дух форума
*

Группа: Пользователи
Сообщений: 758
Регистрация: 23.08.2010
Пользователь №: 22694




Цитата
Добрый день. Подскажите, пожалуйста, когда применяется поправка Бенджамини-Хохберга?


Когда необходимо удержать на номинальном уровне значимости групповую ошибку I рода. Т.е. При множественных проверках одной и той же нулевой гипотезы на одном и том же экспериментальном материале.

Цитата
Я правильно поняла, что если я одновременно беру, например, 20 показателей крови и сравниваю их между группами, то все 20 рассчитанных p надо править?


Вы поняли неправильно.
Если вы изучаете одновременно 20 признаков, возникает многомерная статистика - т.е. статистика не скалярных величин, но векторов. Знать оттого надо один раз проверить равенство двух векторов признаков. Многомерным аналогом критерия Стьюдента в этой ситуации является критерий Хотеллинга. Непараметрический аналог - критерий Пури-Сена-Тамуры.

Цитата
А если у меня 20 показателей крови (в таблице в одной главе диссертации) и 20 клинических показателей (в таблице в другой главе),я правлю каждую таблицу отдельно или все p в диссертации? И с какого количества анализируемых показателей применяется эта поправка?


Тут вообще ничего не понял, но возможно вы и сами решите для себя этот вопрос, прочитав предыдущие ответы.
  Форум: Медицинская статистика · Просмотр сообщения: #25953 · Ответов: 8 · Просмотров: 603

100$
Отправлено: 10.07.2020 - 22:56


Дух форума
*

Группа: Пользователи
Сообщений: 758
Регистрация: 23.08.2010
Пользователь №: 22694


Цитата(smeilz @ 10.07.2020 - 21:53) *
Хорошо, я специально ради Вас разобью выборку на 2-3 логических сегмента(я немного представляю откуда данные и как их можно разбить без математики), и попробую обучить каждый по-отдельности и потом доложу о результатах, и они могут Вас расстроить. =)


А я в виде ответной любезности напоминаю, что когда вы получите на 2-3 стратах ансамбль классификаторов, прежде чем предъявлять его мне, не забудьте предварительно усредниться по ансамблю. Иначе я точно расстроюсь.

"Я ухожу - легка моя дорога;
Теперь пойду по новому пути.
Таких, как вы, себе найду я много,
Таких, как я, вам больше не найти"

Народная песня.
  Форум: Медицинская статистика · Просмотр сообщения: #25943 · Ответов: 25 · Просмотров: 1436

100$
Отправлено: 10.07.2020 - 20:30


Дух форума
*

Группа: Пользователи
Сообщений: 758
Регистрация: 23.08.2010
Пользователь №: 22694


Цитата(ogurtsov @ 10.07.2020 - 19:14) *
Я все же надеюсь, что целью было понять границы применимости модели и просто не использовать ее "в проде" (в какой-то системе поддержки принятия решений?) там, где нормальное качество получить не получается.
Ну и accuracy 62% при том, что константное предсказание преобладающего класса дает 57% - это обычно очень плохо, в том числе с точки зрения калибровки и интерпретации предсказаний модели.


"Ах, обмануть меня не трудно -
Я сам обманываться рад" ©
  Форум: Медицинская статистика · Просмотр сообщения: #25937 · Ответов: 25 · Просмотров: 1436

100$
Отправлено: 10.07.2020 - 18:32


Дух форума
*

Группа: Пользователи
Сообщений: 758
Регистрация: 23.08.2010
Пользователь №: 22694


Ну вот, господа кластеризаторы и примкнувшие к ним нейросетевики )

А ларчик-то просто открывался: исследователь понимает, что на некоторых тестовых выборках прогноз будет неудовлетворительным. Отсюда все разговоры про заранее неизвестное число кластеров-сегментов в выборке, на которых "поведение классов будет..."В общем, что-то будет. В этой связи он желает выбросить все те наблюдения, которые искажают его картину мира. Сместив тем самым выборку и осознанно повысив переобученность модели. При этом напрочь забымши о том, что кросс-валидация модели основана на повторных выборках (выборках с возвращением).

Действительно, а что еще делать, если ЭВМ показывает не то, что нужно?
Главное в этой истории - потом гордо написать в резюме "работаю и на Питоне и на R".

Smeilz, надеюсь вам понятно, что все, что вы делаете, - из серии "как не надо заниматься статистикой"?

Только, чур, без обид.
  Форум: Медицинская статистика · Просмотр сообщения: #25933 · Ответов: 25 · Просмотров: 1436

100$
Отправлено: 10.07.2020 - 10:48


Дух форума
*

Группа: Пользователи
Сообщений: 758
Регистрация: 23.08.2010
Пользователь №: 22694


Цитата(nokh @ 10.07.2020 - 08:10) *
Да, это {homals} и пришедший ему на смену {Gifi}. Оба проигрывают по удобству гибких настроек методу CATPCA из пакета SPSS. Я уже забыл что у меня не срасталось в пакетах для R, но раздражение помню)) Меня метод в SPSS вообще отлично устраивает, но только пакет коммерческий.


Мерси.
Досадно только, что я уже много лет никак не могу въехать в теорию этого Gifi-transformation, чтобы сделать его для себя самому...
  Форум: Медицинская статистика · Просмотр сообщения: #25928 · Ответов: 25 · Просмотров: 1436

100$
Отправлено: 9.07.2020 - 21:50


Дух форума
*

Группа: Пользователи
Сообщений: 758
Регистрация: 23.08.2010
Пользователь №: 22694


Цитата(nokh @ 9.07.2020 - 21:11) *
Больше нравятся результаты оптимального шкалирования - нелинейного анализа главных компонент, обрабатывающих одновременно количественные, порядковые и номинальные признаки. Результаты интерпретируются аналогично PCA


Nokh, а это пакет {homals}, да? А то я уже что-то забывать стал...
  Форум: Медицинская статистика · Просмотр сообщения: #25923 · Ответов: 25 · Просмотров: 1436

100$
Отправлено: 9.07.2020 - 00:17


Дух форума
*

Группа: Пользователи
Сообщений: 758
Регистрация: 23.08.2010
Пользователь №: 22694


passant,

поскольку Андрей (Огурцов) ничего ошибочного, вроде бы, не сказал, фразу

Цитата
В данном случае - вы ошибаетесь


принимаю исключительно на свой счет и настоящим сообщаю, что я рад буду ошибиться.

А словоблудливую ботяру из предыдущей ветки
Цитата
А вот что-до " как скоро в этой теме появится один из бесчисленных клонов.... " я ожидал этого "явления" в соседней теме про анализ СOVID-19. Но, видать спугнули :-)


я же и спугнул. Жаль модераторы потерли... Такой коммент был...

А вот по поводу ваших несбывшихся ожиданий имею-таки сказать следующее: в соседней теме про СOVID-19 - там, похоже, вся тема создана таким "явлением".

А вы, ребята, судя по всему, тест Тьюринга не проходите: не можете отличить имитацию от нормального "белкового" юзера. И ваша профессиональная разговорчивость взяла-таки верх: начали вежливо да тактично лекцыи читать этому клону.

А надо бы по принципу "Еще я всякую х...ню на Вы не называл"(с). Не подумайте, что сквернословлю. Из анекдота, знаете ли, слова выкинуть еще труднее, чем из песни.

В этой связи у меня вопрос: форум - фсё?

Как скоро эти интернет-боты загадят весь форум до антисанитарного состояния и при единодушном одобрямсе тутошних модеров выживут отсюда своей назойливой рекламой "коллектива, возглавляемого сами-знаете-кем" (где собраны кудесники "многомерных методов получения продуктивных результатов", тех немногих старожилов, которые еще как-то пытаются гальванизировать этого покой... (дальше неразборчиво)?
  Форум: Медицинская статистика · Просмотр сообщения: #25918 · Ответов: 25 · Просмотров: 1436

100$
Отправлено: 8.07.2020 - 19:41


Дух форума
*

Группа: Пользователи
Сообщений: 758
Регистрация: 23.08.2010
Пользователь №: 22694




Цитата
Кроме того, вы так и не пояснили, что означает
поведение предсказываемых классов будет существенно отличаться.
как вы себе представляете "поведение класса"? В чем оно у час выражается?


Вестимо, обострение классовой борьбы...
  Форум: Медицинская статистика · Просмотр сообщения: #25916 · Ответов: 25 · Просмотров: 1436

100$
Отправлено: 8.07.2020 - 18:42


Дух форума
*

Группа: Пользователи
Сообщений: 758
Регистрация: 23.08.2010
Пользователь №: 22694


А мне очень интересно, как скоро в этой теме появится один из бесчисленных клонов лёвы_биостата и пробухтит нам чё-нить ужасно познавательное по поводу логистической регрессии и "многомерных методов продуктивного анализа"?
  Форум: Медицинская статистика · Просмотр сообщения: #25914 · Ответов: 25 · Просмотров: 1436

100$
Отправлено: 25.06.2020 - 22:25


Дух форума
*

Группа: Пользователи
Сообщений: 758
Регистрация: 23.08.2010
Пользователь №: 22694


Цитата(nokh @ 25.06.2020 - 22:17) *


Ух, ты!
Эти теперь к ирисам Фишера добавится жимолость Нохрина.
Завидовать будэм! (с)
  Форум: Медицинская статистика · Просмотр сообщения: #25838 · Ответов: 15 · Просмотров: 1193

100$
Отправлено: 25.06.2020 - 22:02


Дух форума
*

Группа: Пользователи
Сообщений: 758
Регистрация: 23.08.2010
Пользователь №: 22694



Вас понял.

А что это за объекты? Вареники, пельмени, моллюски, инфузории-туфельки?
Я только сейчас заметил, что на рисунке они, оказывается, пронумерованы.


Цитата
А пример с лётчиками является также хорошей иллюстрацией правила, что с увеличением числа признаков на объект увеличивается степень уникальности объекта...


Пример с летчиками доказывает, прежде всего то, что доверительное множество для многомерного параметра не сводится совокупности доверительных интервалов для индивидуальных координат вектора признаков. А то, что среднее не является членом вариационного ряда, мы знаем и без этого примера. Тому лейтенанту ничто не мешало искать многомерную медиану или многомерную моду. Правда, задача эта - нетривиальная.
  Форум: Медицинская статистика · Просмотр сообщения: #25836 · Ответов: 15 · Просмотров: 1193

100$
Отправлено: 24.06.2020 - 22:32


Дух форума
*

Группа: Пользователи
Сообщений: 758
Регистрация: 23.08.2010
Пользователь №: 22694


Цитата(nokh @ 24.06.2020 - 20:30) *
Благодарю всех откликнувшихся! Всё прочитал, просмотрел, попробовал... и решил отказаться от игр с расстояниями и от кластерного анализа. Пока остановился на старом добром PCA. Рассчитал факторные метки для каждого объекта по всем PC и нашёл сумму их абсолютных значений по всем осям. Навеяно 100$ и желанием сохранить в анализе коррелирующие показатели. Объект с минимальной суммой расположен ближе всего к центроиду гипероблака. Если у форумчан есть время и желание прикрепляю свои объекты. Теперь у меня есть кандидат на победу!


Nokh, так мы ищем типичного среди этих 54?
Если да, то просьба указать, какой парень на прилагаемом изображении претендует на эту роль?

Эскизы прикрепленных изображений
Прикрепленное изображение
 
  Форум: Медицинская статистика · Просмотр сообщения: #25834 · Ответов: 15 · Просмотров: 1193

100$
Отправлено: 23.06.2020 - 19:31


Дух форума
*

Группа: Пользователи
Сообщений: 758
Регистрация: 23.08.2010
Пользователь №: 22694


К слову, в этой книженции параграф 4.4. как раз посвящен анализу матриц дистанций
  Форум: Медицинская статистика · Просмотр сообщения: #25831 · Ответов: 15 · Просмотров: 1193

100$
Отправлено: 23.06.2020 - 13:48


Дух форума
*

Группа: Пользователи
Сообщений: 758
Регистрация: 23.08.2010
Пользователь №: 22694


Цитата
Может тогда лучше расстояния Махаланобиса?


Это зависит от того, на каком множестве ищется упомянутая медиана/среднее Кемени: я-то искал наиболее типичный объект "внутри" выборок. Т.е., н-р, для ирисов Фишера в выборке сетоз таким способом можно найти по признаковому описанию наиболее характерный, ака типичный, цветок.

Расстояние Махаланобиса же - это расстояние между двумя многомерными выборками. Если типичный объект ищется именно на множестве выборок, это означает, что, для ирисов мы пытаемся найти некий "типичный" сорт? И что в таком случае понимать под "типичностью"? Распространенность? Типа для Гренландии типичен сорт Setosa, а для Антарктиды - Virginica? ) Или морфологическое сходство? Типа, вот Versicolor - самые "ирисистые" ирисы, а всё прочее - ненастоящие ирисы?

Цитата
Единственное, что показатели размеров и формы в разных единицах и некоторые коррелируют. Ну, например, в промерах есть и площадь проекции и периметр, но есть также округлость (circularity), которая вычисляется по площади и периметру.


Если координаты вектора признакового описания коррелируют между собой - это может обернуться вычислительными проблемами при Махаланобисе. Ну, а уж если они связаны функциональной зависимостью - тогда это расстояние и вовсе не удастся вычислить. Поэтому, надо оставить то, что является в этой истории истинно случайной величиной: периметр- так периметр, площадь - так площадь, а если кривизна вычисляется через них - она не несет никакой статистической информации. Вот такое вот снижение размерности. Из серии "закат Солнца вручную".
  Форум: Медицинская статистика · Просмотр сообщения: #25828 · Ответов: 15 · Просмотров: 1193

100$
Отправлено: 23.06.2020 - 11:18


Дух форума
*

Группа: Пользователи
Сообщений: 758
Регистрация: 23.08.2010
Пользователь №: 22694


Цитата(nokh @ 23.06.2020 - 09:43) *
Имеется несколько выборок образцов с измеренными в ImageJ показателями размеров и формы. Посчитана описательная статистика.
Теперь я хочу найти образец, наиболее типичный для каждой выборки по комплексу показателей и использовать его контур в качестве иллюстрации для всей выборки.
Подскажите, пожалуйста, каким методом проще всего найти типичный образец и что использовать: среднее, медиану, моду? Может есть готовые рекомендации для таких задач?
Спасибо!


Я бы составил матрицу попарных евклидовых расстояний между объектами (в имеющемся пространстве признаков), затем счел бы, что типичный объект - это тот, расстояние от которого до всех остальных - минимальное (по аналогии с медианой или средним Кемени). Ну а дальше в матрице расстояний нашел бы строку (или столбец, что равносильно в силу симметричности матрицы расстояний) с минимальной строчной суммой.
  Форум: Медицинская статистика · Просмотр сообщения: #25826 · Ответов: 15 · Просмотров: 1193

100$
Отправлено: 10.06.2020 - 21:57


Дух форума
*

Группа: Пользователи
Сообщений: 758
Регистрация: 23.08.2010
Пользователь №: 22694


#нуачотакова
  Форум: Медицинская статистика · Просмотр сообщения: #25808 · Ответов: 5 · Просмотров: 1034

100$
Отправлено: 26.05.2020 - 17:05


Дух форума
*

Группа: Пользователи
Сообщений: 758
Регистрация: 23.08.2010
Пользователь №: 22694


Это вы всё с ТМФ мучаетесь?

У Гланца все детально описано. Стр. 150-153

А не лепо ли бяше вам, братья, просто посчитать это в R (fisher.test())? Ну, чтобы не изобретать очередное не идеально ровное колесо?
  Форум: Медицинская статистика · Просмотр сообщения: #25794 · Ответов: 2 · Просмотров: 609

100$
Отправлено: 4.05.2020 - 15:50


Дух форума
*

Группа: Пользователи
Сообщений: 758
Регистрация: 23.08.2010
Пользователь №: 22694


/жуя попкорн/

Robotnik,

в вашем случае не нужно:

а) проверять заведомо дискретное распределение на нормальность;
б) пытаться его центрировать с помощью выборочной медианы и ДИ к ней;
в) считать выбросами все то, что вам не понравилось или не вписывается в буколическую картину мира.

Нужно:

исходя из вероятностно-статистической модели порождения данных (полиномиальное распределение) просто определить эмпирическую вероятность наблюдения
1 повреждения p(1)=68/400=,17
2 повреждений p(2)=69/400=,1725
3 повреждений p(3)= ?, etc.

Результат оформить в виде соответствующей гистограммы.

И считать, что мир устроен именно так.

И вся любовь.
  Форум: Медицинская статистика · Просмотр сообщения: #25715 · Ответов: 14 · Просмотров: 1588

100$
Отправлено: 22.04.2020 - 19:08


Дух форума
*

Группа: Пользователи
Сообщений: 758
Регистрация: 23.08.2010
Пользователь №: 22694


Модель пропорциональных рисков Кокса (Cox proportional hazards model) в принципе ничего подобного не предполагает.
  Форум: Медицинская статистика · Просмотр сообщения: #25644 · Ответов: 1 · Просмотров: 791

100$
Отправлено: 5.04.2020 - 17:25


Дух форума
*

Группа: Пользователи
Сообщений: 758
Регистрация: 23.08.2010
Пользователь №: 22694


Цитата(passant @ 5.04.2020 - 17:04) *
Да, близко к этому. Но классическая "разладка", та, которая тянется с теории надежности - работает либо по threshold, либо в лучшем случае по 3-м Сигмам. И то и другое - "не вкусно". С точки зрения статистики - требует жестких обоснований. Методы типа Бродского-Дарховского требуют выпонения жестких условий, которые как правило в реальной жизни нарушаются. И пр.пр.пр. Причем, если ряд становится многомерным, то все становиться совсем грустно.
Ну и еще одно - мне надо сравнивать не одномоментный "срез" рядов, а срез статистик за некоторый период наблюдения. Т.е. "пациент" объявляется больным НЕ если у него зафиксирован скачек сахара за 3 Сигмы, а если за определенный период времени зафиксированы подъем уровня сахара, изменения среднеквадратичного отклонения наполняемости кровеносной системы, средний интервал между ударами сердца и цвет губ был чаще синим, чем красным (Ой, да простят меня медики shok.gif и, я понимаю, что для вас это звучит ересью наверняка, не надо бросать в меня тапками.... sorry.gif я просто хочу растолковать суть и провести аналогию, не вдаваясь в подробности моей предметной области). И вот зафиксировав такие изменения мы принимаем решение о состоянии пациента. Про то, что он, "гад", еще и может у нас некоторые данные фальсифицировать - я уже тоже упоминал.
Но в общем да, многомерные ряды, стримминг-кластеризация с дрейфом и забыванием, "разладка" - а точнее Change Points, Anomaly and Outliers Detection и пр. И все это часто в режиме "он-лайн" и частотой фиксации параметров - несколько сотен или тысяч в секунду (хотя это вот не всегда так жестко, как раз).


Ну, крутенько, в общем-то замешиваете. Про многомерные обобщения тестов на единичный корень (равно как и тестов на Change Point) не читывал и поэтому навскидку не могу сказать, насколько корректно делать все это покоординатно.
И есть еще соображение-опасение: в имеющемся временном ряду можно (опять же, покоординатно) оценить условную по имеющейся предыстории 95%-ную квантиль, при пробое которой можно поднимать тревогу. Так делают при расчете показателя VaR в финансовых рядах. Однако тут надо опасаться "ложных" пробоев.
  Форум: Медицинская статистика · Просмотр сообщения: #25579 · Ответов: 17 · Просмотров: 2656

29 страниц V   1 2 3 > » 

Открытая тема (есть новые ответы)  Открытая тема (есть новые ответы)
Открытая тема (нет новых ответов)  Открытая тема (нет новых ответов)
Горячая тема (есть новые ответы)  Горячая тема (есть новые ответы)
Горячая тема (нет новых ответов)  Горячая тема (нет новых ответов)
Опрос (есть новые голоса)  Опрос (есть новые голоса)
Опрос (нет новых голосов)  Опрос (нет новых голосов)
Закрытая тема  Закрытая тема
Тема перемещена  Тема перемещена