Здравствуйте, гость ( Вход | Регистрация )
Отправлено: 20.08.2020 - 12:35 | |
Группа: Пользователи Сообщений: 760 Регистрация: 23.08.2010 Пользователь №: 22694 ![]() |
Но где поток (ну хотя-бы ручеек) соответствующих русскоязычных работ на эту тему? ![]() А с чего бы ему взяться? Тема-то - тупиковая. Цитата Тут вопрос стоит - у вас есть N параметров одного объекта. Они изменяются во времени, случайным образом. Но если вдруг чего-то происходит в объекте (в медицине - пациент заболел, в экономике - приняли новый закон, в техмониторинге - отвалился болт крепления и пр.) все или некоторые из этих параметров меняются статистически значимо. Можно-ли (вне рамок, например, методов кластеризации) получить единый критерий и по его p-value давать соответствующий сигнал. Еще интереснее, если одни параметры мы анализируем одним набором критериев, другие - другим (например - они измерены в разных типах шкал) и хочется найти способ объединенного анализа. А еще забавнее, когда можно что-то сказать о семантической (прикладной) важности изменения каждого из параметров. Критерий Смирнова - он понятен, но, например, если данные по параметрам даны в виде временного ряда, то есть критерий обнаружения изменения автокорреляции. Не уверен, что критерий Смирнова его обнаружит. Или что делать, если вдруг критерий Смирнова, хи-квадрат и Крамера-фон Мизеса дают несогласованные значения p-value? Когда включать сирену тривоги? Я по-прежнему не понимаю, как это при изучении траектории некоторой системы в фазовом пространстве вы все время сводите разговор на какие-то критерии, да еще и ориентированные на работу с выборками. |
Форум: Медицинская статистика · Просмотр сообщения: #25998 · Ответов: 7 · Просмотров: 3847 |
Отправлено: 19.08.2020 - 13:36 | |
Группа: Пользователи Сообщений: 760 Регистрация: 23.08.2010 Пользователь №: 22694 ![]() |
Ну, если душа так просит именно одновременного тестирования параметров положения и масштаба, то Кобзарь описывает комбинированный критерий Буша - Винда (Bush, Wieand, 1982) на с. 511) и V-критерий Бхапкара (Bhapkar, 1961) на с.514. А вообще взять, скажем, критерий Смирнова, тестирующий нулевую гипотезу о том, что две скалярные выборки пришли из одного распределения. Если при неотвержении нулевой гипотезы сил нет как хочется считать это распределение масштабно-сдвиговым, то вот вам и тест на одновременное отсутствие сдвига и в параметре положения, и в параметре масштаба. |
Форум: Медицинская статистика · Просмотр сообщения: #25996 · Ответов: 7 · Просмотров: 3847 |
Отправлено: 19.07.2020 - 20:51 | |
Группа: Пользователи Сообщений: 760 Регистрация: 23.08.2010 Пользователь №: 22694 ![]() |
Раз зашла речь об оценке важности предикторов, то кроме запощенной третьего дня ссылки https://pbiecek.github.io/ema/localDiagnostics.html могу порекомендовать перевод "Остерегайтесь обычных важностей случайного леса" из сборника https://drive.google.com/file/d/1xMejDTwDvX...a9eQ7IOnEc/view Блин, ogurtsov, а нельзя было дать ссылку на что-нибудь менее объемное? А то ж я все вынужден был прочитать ) В духе плаката Моора "Ты записался добровольцем?" так и хочется спросить: "А ты уже используешь пермутированные важности?". Ась?) |
Форум: Медицинская статистика · Просмотр сообщения: #25969 · Ответов: 8 · Просмотров: 4104 |
Отправлено: 19.07.2020 - 00:08 | |
Группа: Пользователи Сообщений: 760 Регистрация: 23.08.2010 Пользователь №: 22694 ![]() |
Не, я просто устрашился попасть в руки такому врачу, еще и целому кандидату наук. ![]() ![]() Дык какой же это, извиняюсь за выражение, "врач"? Это компьютерная программа, расточающая комплименты " ... и лично дорогому Василию Петровичу" по небрежно запрограммированному алгоритму. Есть ощущение, что Anna_V все ж поумнее будет... |
Форум: Медицинская статистика · Просмотр сообщения: #25967 · Ответов: 16 · Просмотров: 144479 |
Отправлено: 18.07.2020 - 19:27 | |
Группа: Пользователи Сообщений: 760 Регистрация: 23.08.2010 Пользователь №: 22694 ![]() |
он медицинский директор, и проверщик поступаемых диссертаций. И перегружен своей работой, поэтому по конкретным базам данных и не может уточнять методы статистического анализа. Настолько перегружен, что ознакомиться с вашей работой и ее раскритиковать успел, а вот "уточнить" метод анализа нет?? Просто дать название или ссылочку?? Родной племяннице? Жесть. P.S. Если бы так: "проверщик поступаемых диссертаций" и "медицинский директор перегруженный своей работой" писал бы школьник средних классов - это бы меня повеселило. Если бы нечто подобное написал мне мой студент - я бы засомневался в его адекватности. Но кандидат в кандидаты медицинских наук??? Жесть в квадрате. Похоже, passant начал что-то подозревать... |
Форум: Медицинская статистика · Просмотр сообщения: #25964 · Ответов: 16 · Просмотров: 144479 |
Отправлено: 17.07.2020 - 01:18 | |
Группа: Пользователи Сообщений: 760 Регистрация: 23.08.2010 Пользователь №: 22694 ![]() |
Опять же, тест Кохрана (cochranq.test() из {CVST}) никто не отменял... |
Форум: Медицинская статистика · Просмотр сообщения: #25959 · Ответов: 4 · Просмотров: 3002 |
Отправлено: 14.07.2020 - 20:50 | |
Группа: Пользователи Сообщений: 760 Регистрация: 23.08.2010 Пользователь №: 22694 ![]() |
Спасибо. Если критерий показал различие многомерных средних, то что делать дальше? Как выявить конкретные показатели, по которым есть различия? Тогда маркируйте эти две совокупности 0 и 1 и обучайте на них любой бинарный классификатор, способный быстренько ответить на вопрос об относительной важности предикторов. Да хоть бы и логистическую регрессию. |
Форум: Медицинская статистика · Просмотр сообщения: #25956 · Ответов: 8 · Просмотров: 4104 |
Отправлено: 14.07.2020 - 18:03 | |
Группа: Пользователи Сообщений: 760 Регистрация: 23.08.2010 Пользователь №: 22694 ![]() |
Цитата Добрый день. Подскажите, пожалуйста, когда применяется поправка Бенджамини-Хохберга? Когда необходимо удержать на номинальном уровне значимости групповую ошибку I рода. Т.е. При множественных проверках одной и той же нулевой гипотезы на одном и том же экспериментальном материале. Цитата Я правильно поняла, что если я одновременно беру, например, 20 показателей крови и сравниваю их между группами, то все 20 рассчитанных p надо править? Вы поняли неправильно. Если вы изучаете одновременно 20 признаков, возникает многомерная статистика - т.е. статистика не скалярных величин, но векторов. Знать оттого надо один раз проверить равенство двух векторов признаков. Многомерным аналогом критерия Стьюдента в этой ситуации является критерий Хотеллинга. Непараметрический аналог - критерий Пури-Сена-Тамуры. Цитата А если у меня 20 показателей крови (в таблице в одной главе диссертации) и 20 клинических показателей (в таблице в другой главе),я правлю каждую таблицу отдельно или все p в диссертации? И с какого количества анализируемых показателей применяется эта поправка? Тут вообще ничего не понял, но возможно вы и сами решите для себя этот вопрос, прочитав предыдущие ответы. |
Форум: Медицинская статистика · Просмотр сообщения: #25953 · Ответов: 8 · Просмотров: 4104 |
Отправлено: 10.07.2020 - 22:56 | |
Группа: Пользователи Сообщений: 760 Регистрация: 23.08.2010 Пользователь №: 22694 ![]() |
Хорошо, я специально ради Вас разобью выборку на 2-3 логических сегмента(я немного представляю откуда данные и как их можно разбить без математики), и попробую обучить каждый по-отдельности и потом доложу о результатах, и они могут Вас расстроить. =) А я в виде ответной любезности напоминаю, что когда вы получите на 2-3 стратах ансамбль классификаторов, прежде чем предъявлять его мне, не забудьте предварительно усредниться по ансамблю. Иначе я точно расстроюсь. "Я ухожу - легка моя дорога; Теперь пойду по новому пути. Таких, как вы, себе найду я много, Таких, как я, вам больше не найти" Народная песня. |
Форум: Медицинская статистика · Просмотр сообщения: #25943 · Ответов: 25 · Просмотров: 141894 |
Отправлено: 10.07.2020 - 20:30 | |
Группа: Пользователи Сообщений: 760 Регистрация: 23.08.2010 Пользователь №: 22694 ![]() |
Я все же надеюсь, что целью было понять границы применимости модели и просто не использовать ее "в проде" (в какой-то системе поддержки принятия решений?) там, где нормальное качество получить не получается. Ну и accuracy 62% при том, что константное предсказание преобладающего класса дает 57% - это обычно очень плохо, в том числе с точки зрения калибровки и интерпретации предсказаний модели. "Ах, обмануть меня не трудно - Я сам обманываться рад" © |
Форум: Медицинская статистика · Просмотр сообщения: #25937 · Ответов: 25 · Просмотров: 141894 |
Отправлено: 10.07.2020 - 18:32 | |
Группа: Пользователи Сообщений: 760 Регистрация: 23.08.2010 Пользователь №: 22694 ![]() |
Ну вот, господа кластеризаторы и примкнувшие к ним нейросетевики ) А ларчик-то просто открывался: исследователь понимает, что на некоторых тестовых выборках прогноз будет неудовлетворительным. Отсюда все разговоры про заранее неизвестное число кластеров-сегментов в выборке, на которых "поведение классов будет..."В общем, что-то будет. В этой связи он желает выбросить все те наблюдения, которые искажают его картину мира. Сместив тем самым выборку и осознанно повысив переобученность модели. При этом напрочь забымши о том, что кросс-валидация модели основана на повторных выборках (выборках с возвращением). Действительно, а что еще делать, если ЭВМ показывает не то, что нужно? Главное в этой истории - потом гордо написать в резюме "работаю и на Питоне и на R". Smeilz, надеюсь вам понятно, что все, что вы делаете, - из серии "как не надо заниматься статистикой"? Только, чур, без обид. |
Форум: Медицинская статистика · Просмотр сообщения: #25933 · Ответов: 25 · Просмотров: 141894 |
Отправлено: 10.07.2020 - 10:48 | |
Группа: Пользователи Сообщений: 760 Регистрация: 23.08.2010 Пользователь №: 22694 ![]() |
Да, это {homals} и пришедший ему на смену {Gifi}. Оба проигрывают по удобству гибких настроек методу CATPCA из пакета SPSS. Я уже забыл что у меня не срасталось в пакетах для R, но раздражение помню)) Меня метод в SPSS вообще отлично устраивает, но только пакет коммерческий. Мерси. Досадно только, что я уже много лет никак не могу въехать в теорию этого Gifi-transformation, чтобы сделать его для себя самому... |
Форум: Медицинская статистика · Просмотр сообщения: #25928 · Ответов: 25 · Просмотров: 141894 |
Отправлено: 9.07.2020 - 21:50 | |
Группа: Пользователи Сообщений: 760 Регистрация: 23.08.2010 Пользователь №: 22694 ![]() |
Больше нравятся результаты оптимального шкалирования - нелинейного анализа главных компонент, обрабатывающих одновременно количественные, порядковые и номинальные признаки. Результаты интерпретируются аналогично PCA Nokh, а это пакет {homals}, да? А то я уже что-то забывать стал... |
Форум: Медицинская статистика · Просмотр сообщения: #25923 · Ответов: 25 · Просмотров: 141894 |
Отправлено: 9.07.2020 - 00:17 | |
Группа: Пользователи Сообщений: 760 Регистрация: 23.08.2010 Пользователь №: 22694 ![]() |
passant, поскольку Андрей (Огурцов) ничего ошибочного, вроде бы, не сказал, фразу Цитата В данном случае - вы ошибаетесь принимаю исключительно на свой счет и настоящим сообщаю, что я рад буду ошибиться. А словоблудливую ботяру из предыдущей ветки Цитата А вот что-до " как скоро в этой теме появится один из бесчисленных клонов.... " я ожидал этого "явления" в соседней теме про анализ СOVID-19. Но, видать спугнули :-) я же и спугнул. Жаль модераторы потерли... Такой коммент был... А вот по поводу ваших несбывшихся ожиданий имею-таки сказать следующее: в соседней теме про СOVID-19 - там, похоже, вся тема создана таким "явлением". А вы, ребята, судя по всему, тест Тьюринга не проходите: не можете отличить имитацию от нормального "белкового" юзера. И ваша профессиональная разговорчивость взяла-таки верх: начали вежливо да тактично лекцыи читать этому клону. А надо бы по принципу "Еще я всякую х...ню на Вы не называл"(с). Не подумайте, что сквернословлю. Из анекдота, знаете ли, слова выкинуть еще труднее, чем из песни. В этой связи у меня вопрос: форум - фсё? Как скоро эти интернет-боты загадят весь форум до антисанитарного состояния и при единодушном одобрямсе тутошних модеров выживут отсюда своей назойливой рекламой "коллектива, возглавляемого сами-знаете-кем" (где собраны кудесники "многомерных методов получения продуктивных результатов", тех немногих старожилов, которые еще как-то пытаются гальванизировать этого покой... (дальше неразборчиво)? |
Форум: Медицинская статистика · Просмотр сообщения: #25918 · Ответов: 25 · Просмотров: 141894 |
Отправлено: 8.07.2020 - 19:41 | |
Группа: Пользователи Сообщений: 760 Регистрация: 23.08.2010 Пользователь №: 22694 ![]() |
Цитата Кроме того, вы так и не пояснили, что означает поведение предсказываемых классов будет существенно отличаться. как вы себе представляете "поведение класса"? В чем оно у час выражается? Вестимо, обострение классовой борьбы... |
Форум: Медицинская статистика · Просмотр сообщения: #25916 · Ответов: 25 · Просмотров: 141894 |
Отправлено: 8.07.2020 - 18:42 | |
Группа: Пользователи Сообщений: 760 Регистрация: 23.08.2010 Пользователь №: 22694 ![]() |
А мне очень интересно, как скоро в этой теме появится один из бесчисленных клонов лёвы_биостата и пробухтит нам чё-нить ужасно познавательное по поводу логистической регрессии и "многомерных методов продуктивного анализа"? |
Форум: Медицинская статистика · Просмотр сообщения: #25914 · Ответов: 25 · Просмотров: 141894 |
Отправлено: 25.06.2020 - 22:25 | |
Группа: Пользователи Сообщений: 760 Регистрация: 23.08.2010 Пользователь №: 22694 ![]() |
Ух, ты! Эти теперь к ирисам Фишера добавится жимолость Нохрина. Завидовать будэм! (с) |
Форум: Медицинская статистика · Просмотр сообщения: #25838 · Ответов: 15 · Просмотров: 143648 |
Отправлено: 25.06.2020 - 22:02 | |
Группа: Пользователи Сообщений: 760 Регистрация: 23.08.2010 Пользователь №: 22694 ![]() |
Вас понял. А что это за объекты? Вареники, пельмени, моллюски, инфузории-туфельки? Я только сейчас заметил, что на рисунке они, оказывается, пронумерованы. Цитата А пример с лётчиками является также хорошей иллюстрацией правила, что с увеличением числа признаков на объект увеличивается степень уникальности объекта... Пример с летчиками доказывает, прежде всего то, что доверительное множество для многомерного параметра не сводится совокупности доверительных интервалов для индивидуальных координат вектора признаков. А то, что среднее не является членом вариационного ряда, мы знаем и без этого примера. Тому лейтенанту ничто не мешало искать многомерную медиану или многомерную моду. Правда, задача эта - нетривиальная. |
Форум: Медицинская статистика · Просмотр сообщения: #25836 · Ответов: 15 · Просмотров: 143648 |
Отправлено: 24.06.2020 - 22:32 | |
Группа: Пользователи Сообщений: 760 Регистрация: 23.08.2010 Пользователь №: 22694 ![]() |
Благодарю всех откликнувшихся! Всё прочитал, просмотрел, попробовал... и решил отказаться от игр с расстояниями и от кластерного анализа. Пока остановился на старом добром PCA. Рассчитал факторные метки для каждого объекта по всем PC и нашёл сумму их абсолютных значений по всем осям. Навеяно 100$ и желанием сохранить в анализе коррелирующие показатели. Объект с минимальной суммой расположен ближе всего к центроиду гипероблака. Если у форумчан есть время и желание прикрепляю свои объекты. Теперь у меня есть кандидат на победу! Nokh, так мы ищем типичного среди этих 54? Если да, то просьба указать, какой парень на прилагаемом изображении претендует на эту роль? |
Форум: Медицинская статистика · Просмотр сообщения: #25834 · Ответов: 15 · Просмотров: 143648 |
Отправлено: 23.06.2020 - 19:31 | |
Группа: Пользователи Сообщений: 760 Регистрация: 23.08.2010 Пользователь №: 22694 ![]() |
К слову, в этой книженции параграф 4.4. как раз посвящен анализу матриц дистанций |
Форум: Медицинская статистика · Просмотр сообщения: #25831 · Ответов: 15 · Просмотров: 143648 |
Отправлено: 23.06.2020 - 13:48 | |
Группа: Пользователи Сообщений: 760 Регистрация: 23.08.2010 Пользователь №: 22694 ![]() |
Цитата Может тогда лучше расстояния Махаланобиса? Это зависит от того, на каком множестве ищется упомянутая медиана/среднее Кемени: я-то искал наиболее типичный объект "внутри" выборок. Т.е., н-р, для ирисов Фишера в выборке сетоз таким способом можно найти по признаковому описанию наиболее характерный, ака типичный, цветок. Расстояние Махаланобиса же - это расстояние между двумя многомерными выборками. Если типичный объект ищется именно на множестве выборок, это означает, что, для ирисов мы пытаемся найти некий "типичный" сорт? И что в таком случае понимать под "типичностью"? Распространенность? Типа для Гренландии типичен сорт Setosa, а для Антарктиды - Virginica? ) Или морфологическое сходство? Типа, вот Versicolor - самые "ирисистые" ирисы, а всё прочее - ненастоящие ирисы? Цитата Единственное, что показатели размеров и формы в разных единицах и некоторые коррелируют. Ну, например, в промерах есть и площадь проекции и периметр, но есть также округлость (circularity), которая вычисляется по площади и периметру. Если координаты вектора признакового описания коррелируют между собой - это может обернуться вычислительными проблемами при Махаланобисе. Ну, а уж если они связаны функциональной зависимостью - тогда это расстояние и вовсе не удастся вычислить. Поэтому, надо оставить то, что является в этой истории истинно случайной величиной: периметр- так периметр, площадь - так площадь, а если кривизна вычисляется через них - она не несет никакой статистической информации. Вот такое вот снижение размерности. Из серии "закат Солнца вручную". |
Форум: Медицинская статистика · Просмотр сообщения: #25828 · Ответов: 15 · Просмотров: 143648 |
Отправлено: 23.06.2020 - 11:18 | |
Группа: Пользователи Сообщений: 760 Регистрация: 23.08.2010 Пользователь №: 22694 ![]() |
Имеется несколько выборок образцов с измеренными в ImageJ показателями размеров и формы. Посчитана описательная статистика. Теперь я хочу найти образец, наиболее типичный для каждой выборки по комплексу показателей и использовать его контур в качестве иллюстрации для всей выборки. Подскажите, пожалуйста, каким методом проще всего найти типичный образец и что использовать: среднее, медиану, моду? Может есть готовые рекомендации для таких задач? Спасибо! Я бы составил матрицу попарных евклидовых расстояний между объектами (в имеющемся пространстве признаков), затем счел бы, что типичный объект - это тот, расстояние от которого до всех остальных - минимальное (по аналогии с медианой или средним Кемени). Ну а дальше в матрице расстояний нашел бы строку (или столбец, что равносильно в силу симметричности матрицы расстояний) с минимальной строчной суммой. |
Форум: Медицинская статистика · Просмотр сообщения: #25826 · Ответов: 15 · Просмотров: 143648 |
Отправлено: 10.06.2020 - 21:57 | |
Группа: Пользователи Сообщений: 760 Регистрация: 23.08.2010 Пользователь №: 22694 ![]() |
#нуачотакова |
Форум: Медицинская статистика · Просмотр сообщения: #25808 · Ответов: 5 · Просмотров: 3544 |
Отправлено: 26.05.2020 - 17:05 | |
Группа: Пользователи Сообщений: 760 Регистрация: 23.08.2010 Пользователь №: 22694 ![]() |
Это вы всё с ТМФ мучаетесь? У Гланца все детально описано. Стр. 150-153 А не лепо ли бяше вам, братья, просто посчитать это в R (fisher.test())? Ну, чтобы не изобретать очередное не идеально ровное колесо? |
Форум: Медицинская статистика · Просмотр сообщения: #25794 · Ответов: 2 · Просмотров: 2489 |
Отправлено: 4.05.2020 - 15:50 | |
Группа: Пользователи Сообщений: 760 Регистрация: 23.08.2010 Пользователь №: 22694 ![]() |
/жуя попкорн/ Robotnik, в вашем случае не нужно: а) проверять заведомо дискретное распределение на нормальность; б) пытаться его центрировать с помощью выборочной медианы и ДИ к ней; в) считать выбросами все то, что вам не понравилось или не вписывается в буколическую картину мира. Нужно: исходя из вероятностно-статистической модели порождения данных (полиномиальное распределение) просто определить эмпирическую вероятность наблюдения 1 повреждения p(1)=68/400=,17 2 повреждений p(2)=69/400=,1725 3 повреждений p(3)= ?, etc. Результат оформить в виде соответствующей гистограммы. И считать, что мир устроен именно так. И вся любовь. |
Форум: Медицинская статистика · Просмотр сообщения: #25715 · Ответов: 14 · Просмотров: 4891 |
![]() ![]() ![]() ![]() |
![]() ![]() ![]() ![]() |