Форум врачей-аспирантов

Здравствуйте, гость ( Вход | Регистрация )

7 страниц V   1 2 3 > » 

passant
Отправлено: 19.08.2020 - 16:12


Дух форума
*

Группа: Пользователи
Сообщений: 171
Регистрация: 27.04.2016
Пользователь №: 28223


Цитата(100$ @ 19.08.2020 - 13:36) *
Ну, если душа так просит именно одновременного тестирования параметров положения и масштаба, то Кобзарь описывает комбинированный критерий Буша - Винда (Bush, Wieand, 1982) на с. 511) и V-критерий Бхапкара (Bhapkar, 1961) на с.514.

Спасибки :hi.gif :
Оно!!! Как один из вариантов. Но где поток (ну хотя-бы ручеек) соответствующих русскоязычных работ на эту тему? unknw.gif

Цитата(100$ @ 19.08.2020 - 13:36) *
А вообще взять, скажем, критерий Смирнова, тестирующий нулевую гипотезу о том, что две скалярные выборки пришли из одного распределения. Если при неотвержении нулевой гипотезы сил нет как хочется считать это распределение масштабно-сдвиговым, то вот вам и тест на одновременное отсутствие сдвига и в параметре положения, и в параметре масштаба.

С этим - интереснее, но вне рамок этого вопроса. Тут вопрос стоит - у вас есть N параметров одного объекта. Они изменяются во времени, случайным образом. Но если вдруг чего-то происходит в объекте (в медицине - пациент заболел, в экономике - приняли новый закон, в техмониторинге - отвалился болт крепления и пр.) все или некоторые из этих параметров меняются статистически значимо. Можно-ли (вне рамок, например, методов кластеризации) получить единый критерий и по его p-value давать соответствующий сигнал. Еще интереснее, если одни параметры мы анализируем одним набором критериев, другие - другим (например - они измерены в разных типах шкал) и хочется найти способ объединенного анализа. А еще забавнее, когда можно что-то сказать о семантической (прикладной) важности изменения каждого из параметров.
Критерий Смирнова - он понятен, но, например, если данные по параметрам даны в виде временного ряда, то есть критерий обнаружения изменения автокорреляции. Не уверен, что критерий Смирнова его обнаружит.
Или что делать, если вдруг критерий Смирнова, хи-квадрат и Крамера-фон Мизеса дают несогласованные значения p-value? Когда включать сирену тривоги?
Но это, конечно - другая большая тем.
За ссылочку - еще раз спасибо. Именно ее я проглядел sorry.gif



  Форум: Медицинская статистика · Просмотр сообщения: #25997 · Ответов: 7 · Просмотров: 2004

passant
Отправлено: 19.08.2020 - 11:48


Дух форума
*

Группа: Пользователи
Сообщений: 171
Регистрация: 27.04.2016
Пользователь №: 28223


Цитата(DrgLena @ 19.08.2020 - 04:00) *
С русскоязычными источниками не помогу, а тест обобщающий location и scale (JLS Test) описан Дэвидом Соаве только в 2015 просто WF = −2(log(pL) + log(pS)).
https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4572492/

Спасибо, но тут вы немного ошибаетесь. Впервые такие тесты были описаны в
Cucconi O. Un nuovo test non parametrico per il confronto tra due gruppi campionari. Giornale Degli Economisti. 27 (3/4), 1968: 225?248
Lepage Y. A Combination of Wilcoxon's and Ansari-Bradley's Statistics. Biometrika, vol. 58, no. 1, 1971, pp. 213?217.
И конечно, за последние годы многократно обсасывались с разных сторон, улучшались, модифицировались и анализировалось.
Так что новыми эти подходы никак назвать не получается. Что делает вопрос об отсутствии источников на русском тем более странным.

И еще, приведенный в вашем источнике подход, хотя и лежит "в русле", но немного отличается. То, что написано в вашей статье - это объединение результатов (как правило - p-values) набора тестов в единый обобщающий результат. А вот второе направление - это создание тестов, способных сразу выработать единый p-value. Оба подхода (а есть еще и другие) имеют право на жизнь, имеют свои плюсы и свои минусы и могут оказаться эффективными в своих прикладных нишах.
  Форум: Медицинская статистика · Просмотр сообщения: #25995 · Ответов: 7 · Просмотров: 2004

passant
Отправлено: 19.08.2020 - 11:42


Дух форума
*

Группа: Пользователи
Сообщений: 171
Регистрация: 27.04.2016
Пользователь №: 28223


Цитата(Диагностик @ 19.08.2020 - 02:50) *
Проверка гипотез о параметре местоположения (центра распределения). Например t-тест, U- критерий Манна ? Уитни или критерий суммы рангов Вилкоксона и др.

Спасибо, но это точно не то. Гипотеза о сдвиге местоположения как и гипотеза об изменении размаха (по отдельности) - это вполне понятная, классическая(из учебника) и хорошо проработанная тема, тут не о чем и говорить. А вот "location-scale test" - это тест ОДНОВРЕМЕННО проверяющий эти две гипотезы. И в этом его фишка. Есть разновидности и с тремя тестами, и с другими гипотезами. Но НИЧЕГО не могу найти на русском. Это конечно не критично, хватает информации и на английском. Но вопрос - а почему нет на русском? Склоняюсь к мысли, что неправильно формулирую поисковый запрос ввиду неправильного перевода термина. Или все-таки на просторах бывшего СНГ эта тема почему-то "не модна"?
  Форум: Медицинская статистика · Просмотр сообщения: #25994 · Ответов: 7 · Просмотров: 2004

passant
Отправлено: 19.08.2020 - 00:36


Дух форума
*

Группа: Пользователи
Сообщений: 171
Регистрация: 27.04.2016
Пользователь №: 28223


Уважаемые коллеги. Кто нибудь встречал хоть что-то русскоязычное на тему "location-scale tests". Вижу множество статей на английском. Постоянно, примерно с 2001 года количество публикаций растет. Есть публикации и чисто статистические, и экономические, и медицинские. А на просторах русскоязычной научной мысли - тишина. Впрочем, допускаю, что этот термин у нас как-то по хитрому перевели, и я просто не могу догадаться как. Кто-нибудь в курсе? Заранее спасибо за "наводку".
  Форум: Медицинская статистика · Просмотр сообщения: #25991 · Ответов: 7 · Просмотров: 2004

passant
Отправлено: 27.07.2020 - 22:06


Дух форума
*

Группа: Пользователи
Сообщений: 171
Регистрация: 27.04.2016
Пользователь №: 28223


Какая незатейливая реклама!
Неужели у центра все так плохо, что нельзя просто заказать платный банер, повесить его и спокойно собирать клиентов.
Неужели центр считает всех посетителей сайте полными идиотами, неспособными отличить рекламу от нормальных сообщений.
Я точно никогда не буду клиентом центра, но даже если бы у меня возникло такое желание, столь низкопробная реклама меня бы просто оттолкнула.
Неужели врачи мыслят по другому?
P.S. potap_O - кстати, вы к своему дяде "медицинскому директору и проверщику поступаемых диссертаций" так и не обратились за прошедшее время? Решили лучше отдать деньги "чужому дяде", чем общаться со своим родненьким? Высокие отношения!
  Форум: Медицинская статистика · Просмотр сообщения: #25974 · Ответов: 16 · Просмотров: 5167

passant
Отправлено: 18.07.2020 - 23:20


Дух форума
*

Группа: Пользователи
Сообщений: 171
Регистрация: 27.04.2016
Пользователь №: 28223


Цитата(100$ @ 18.07.2020 - 19:27) *
Похоже, passant начал что-то подозревать...

Не, я просто устрашился попасть в руки такому врачу, еще и целому кандидату наук. crazy.gif И начал подозревать, почему некоторые люди предпочитают идти сразу к знахарям. lazy.gif
  Форум: Медицинская статистика · Просмотр сообщения: #25966 · Ответов: 16 · Просмотров: 5167

passant
Отправлено: 17.07.2020 - 22:33


Дух форума
*

Группа: Пользователи
Сообщений: 171
Регистрация: 27.04.2016
Пользователь №: 28223


он медицинский директор, и проверщик поступаемых диссертаций. И перегружен своей работой, поэтому по конкретным базам данных и не может уточнять методы статистического анализа.
Настолько перегружен, что ознакомиться с вашей работой и ее раскритиковать успел, а вот "уточнить" метод анализа нет?? Просто дать название или ссылочку?? Родной племяннице? Жесть.

P.S. Если бы так: "проверщик поступаемых диссертаций" и "медицинский директор перегруженный своей работой" писал бы школьник средних классов - это бы меня повеселило. Если бы нечто подобное написал мне мой студент - я бы засомневался в его адекватности. Но кандидат в кандидаты медицинских наук??? Жесть в квадрате.
  Форум: Медицинская статистика · Просмотр сообщения: #25961 · Ответов: 16 · Просмотров: 5167

passant
Отправлено: 10.07.2020 - 23:18


Дух форума
*

Группа: Пользователи
Сообщений: 171
Регистрация: 27.04.2016
Пользователь №: 28223


Цитата(smeilz @ 10.07.2020 - 22:42) *
Я кстати не собирался Вам доказывать, что разбиение необходимо, мне просто было интересно рассуждать вслух. Сейчас я пришел к выводу, что данные разбивать бесмысленно, если не знаешь почему эти сегменты могут иметь различные закономерности. В моем случае есть один вариант разбиения на 2 сегмента, но он практически пока слишком сложный в реализации, и я его отложу, и возьму все данные целиком.

Ну, я специально тут молча постоял в сторонке, пока шло обсуждение. И я рад, что суммарная рекомендация, которая выработалась в ходе дискуссии практически совпало с тем, о чем я вам говорил на другом форуме.
Держите нас в курсе своих изысканий, будет интересно.
И лучше на этом форуме. Тут вас, конечно, побъют сильнее wink.gif , зато и профессиональнее, а значит - полезнее для дальнейшего научного опыта.
  Форум: Медицинская статистика · Просмотр сообщения: #25944 · Ответов: 25 · Просмотров: 4162

passant
Отправлено: 9.07.2020 - 10:55


Дух форума
*

Группа: Пользователи
Сообщений: 171
Регистрация: 27.04.2016
Пользователь №: 28223


Цитата(100$ @ 9.07.2020 - 00:17) *
я же и спугнул. Жаль модераторы потерли...

Жаль, пропустил.

Цитата(100$ @ 9.07.2020 - 00:17) *
А вот по поводу ваших несбывшихся ожиданий имею-таки сказать следующее: в соседней теме про СOVID-19 - там, похоже, вся тема создана таким "явлением".

У меня тоже сложилось такое же впечатление. Но
Цитата(100$ @ 9.07.2020 - 00:17) *
начали вежливо да тактично лекцыи читать этому клону.

в надежде на "а вдруг все таки нет". Ошибся, признаю.


Цитата(100$ @ 9.07.2020 - 00:17) *
В этой связи у меня вопрос: форум - фсё?

Очень надеюсь, что нет. В "той" теме искренне описал свое отношение к этому форуму. И будет очень-очень жаль, если "фсё".

Кстати, с появлением короновируса на других форумах, особенно английских, наблюдался взрывной интерес к статметодам обработки информации касаемой этой проблемы. Ожидал, что и тут появится что-то интересное. Но нет. Это что - показатель состояния современного состояния мед. статистики на постсоветском пространстве?

  Форум: Медицинская статистика · Просмотр сообщения: #25919 · Ответов: 25 · Просмотров: 4162

passant
Отправлено: 8.07.2020 - 21:31


Дух форума
*

Группа: Пользователи
Сообщений: 171
Регистрация: 27.04.2016
Пользователь №: 28223


Нет, коллеги. В данном случае - вы ошибаетесь. Это действительно вопрос, который сначала фигурировал на другом форуме и судя до форме его представления и ответах на вопросы -ТС действительно интересуется вопросом, просто еще не столь глубоко в теме, что-бы его корректно задать (ну что поделать, результаты активного маркетинга различных ускоренных курсов и прочего "с нуля до профи за 7 дней"). Но на мой взгляд помочь ТС, дать ему различные вИдения, в конце концов "наставить его на путь истинный" области МL - я считаю, это где-то наш долг. Поэтому и отвечаю по четвертому кругу. Я свое мнение ему уже высказал. Если будет ваша добрая воля и желание ТС - будет даже интересно узнать и ваше мнение на предмет.
А вот что-до " как скоро в этой теме появится один из бесчисленных клонов.... " я ожидал этого "явления" в соседней теме про анализ СOVID-19. Но, видать спугнули :-)
  Форум: Медицинская статистика · Просмотр сообщения: #25917 · Ответов: 25 · Просмотров: 4162

passant
Отправлено: 8.07.2020 - 11:30


Дух форума
*

Группа: Пользователи
Сообщений: 171
Регистрация: 27.04.2016
Пользователь №: 28223


Уважаемый smeilz.

Что-то вы начинаете "путаться в показаниях". На другом форуме вы пишете:
Есть датасет с одним бинарным признаком(зависимой переменной) 0 или 1. Распределение 57/43
На этом:
Есть очень большая выборка для бинарной классификации. Нужно предсказать 2 класса(0/1)
Это как бы две совершенно разные задачи. В одном случае - обучение с учителем (т.е. датасет с признаком) , в другом - обучение без учителя (признака изначально нет).

Кроме того, вы так и не пояснили, что означает
поведение предсказываемых классов будет существенно отличаться.
как вы себе представляете "поведение класса"? В чем оно у час выражается?
Что такое "сегмент" и чем он в вашем представлении отличается от "класса". Подчеркну - "предсказываемых классов" ??

Что означает
Как грамотно найти эти сегменты и поделить выборку для дальнейшего предсказания?
Если вы разбиваете выборку на то-ли сегменты, то-ли классы, то что вы собираетесь предсказывать дальше?

Про кластеризацию, и ее возможное использование как предварительный этап классификации вам сказали что тут, что там. Но ясности как не было, так и нет.
И я еще раз повторю:
Поставьте четко задачу, а то создается все более уверенное впечатление, что вы вообще не очень понимаете, а что в итоге вам надо?
  Форум: Медицинская статистика · Просмотр сообщения: #25913 · Ответов: 25 · Просмотров: 4162

passant
Отправлено: 2.07.2020 - 17:21


Дух форума
*

Группа: Пользователи
Сообщений: 171
Регистрация: 27.04.2016
Пользователь №: 28223


Цитата(potap_O @ 2.07.2020 - 06:51) *
Мой родственник д.м.н., а не математик.

А я математик, а не "д.м.н". Правда, математик я "прикладной", но то таке. И как я понимаю, этой фразой вы пытаетесь меня унизить - т.е. есть великие "д.м.н", к которым за советом даже обратиться страшно, а есть какие-то "математики", которые - ну что о них вообще там думать, они ведь на столько тупы, что не понимают, что "COVID-19 очень опасная болезнь"

Цитата(potap_O @ 2.07.2020 - 06:51) *
И как эксперт ВАК он и рецензирует диссертации.

Я рад за вашего дядю, но думаю, что у многих завсегдатаев этого форума первая буква в их научных регалиях, то-же "д". Но даже если она и "к.", и даже если ее вообще нет, и не все они АЖ "эксперты ВАК", но люди, которые пользуются авторитетом и в офф-лайн сообществе и на этом зубастом форуме. И в отличии от вашего уважаемого дяди, который сквозь зубы цедит свое высочайшее мнение и не снисходит до его разъяснения черни, тут иногда дают такие советы, в том числе по математике и статистике, которые нигде по русскоязычных просторах интернета вы больше не получите.
И это с точки зрения общественной пользы - это на много выше, чем какие-то заскорузлые мнения какого-то там ВАКа.

Цитата(potap_O @ 2.07.2020 - 06:51) *
. И со временем эта болезнь может дойти до многих участников этого форума.

Как говориться,спасибо и вам на добром слове. Чего пожелаете другим, то - часто - возвращается и вам. С сторицей. Это не я, это народная мудрость так гласит.

Цитата(potap_O @ 2.07.2020 - 06:51) *
Почему же они и не рекомендуют мне производить продуктивные методы анализа моей базы данных?

Потому что вам никто ничем не обязан. Впрочем, а ваш великий дядя - он тоже не понимает опасности COVID, раз не пожелал рекомендовать вам производить (!!!!!) продуктивные (!?!?!) методы анализа?

Но вообще-то непонятно, чего вы хотите услышать-прочитать на форуме? Перечень "продуктивных" методов? Так они в любом учебнике по (мед)статистике для студентов какого-то там курса. Берем, читаем, разбираемся, натыкаемся на непонятку, приходим на форум С КОНКРЕТНЫМ вопросом и получаем СУПЕРКВАЛИФИЦИРОВНАНЫЙ ответ. На худой конец - выложите куда-нибудь вашу диссертацию, может у кого будет пару свободных часов, настроение и вдохновение, что-бы по примеру вашего дяди прочитать и раскритиковать вашу роботу, но в отличии от него - еще и что-то дельное подсказать. А как давать рекомендации относительно того, что никто кроме вас и вашего дяди не читал? Или вам тут кратко изложить методы многомерного анализа в трех параграфах? Или расчет доверительных интервалов для вас представляют непреодолимые трудности? Фраза "как можно сделать такие результаты." - я вообще возьму себе в загашник, буду ею пугать студентов.

Я тут общаюсь на нескольких форумах, которые вокруг статистики, машинного обучения и пр. Русско- и не только - язычных. Не знаю, как про опасность COVID - это путь врачи решают, но про вредное воздействие карантина на интеллектуальный уровень задаваемых на форумах вопросов - тут действительно впору скоро диссертации писать.
  Форум: Медицинская статистика · Просмотр сообщения: #25893 · Ответов: 16 · Просмотров: 5167

passant
Отправлено: 28.06.2020 - 16:51


Дух форума
*

Группа: Пользователи
Сообщений: 171
Регистрация: 27.04.2016
Пользователь №: 28223


Цитата(Ident @ 28.06.2020 - 16:05) *
Приветствую уважаемых участников темы в эти нестабильно-вирусные времена. Простите за очередное беспокойство и долгое отсутствие). Как видите свободного времени не всегда хватает, чтобы закончить начатое. Я так и не решил ту задачу с мелом. Много всяких проблем возникает, не до задач, вы уж поймите. Уважаемый Бенджамин и Passant подсказывали как решать, но я так и не разобрался. Буду очень благодарен, если кто из участников более подробно опишет, что делать с мелом))

Вы думаете, что за прошедшие два года наука продвинулась так далеко, что предыдущие советы-мнения утратили свою актуальность? Отнюдь. И по сути, добавить-то больше нечего. Попробуйте все-таки разобраться, а вот если что конкретное по дороге станет преградой - давайте думать вместе, как ее преодолеть.
А "подробно описать", так, что-бы ее понял тот, кто за два года не нашел времени разобраться - это надо написать пару десятков, а может и больше страниц объяснений. Только обидно. что потом вы опять пропадете на два года и вернетесь с очередной просьбой "объясните мне все".
  Форум: Медицинская статистика · Просмотр сообщения: #25858 · Ответов: 35 · Просмотров: 19821

passant
Отправлено: 23.06.2020 - 22:59


Дух форума
*

Группа: Пользователи
Сообщений: 171
Регистрация: 27.04.2016
Пользователь №: 28223


Что-бы немного развлеч достопочтенную публику и немного оживить наш форум, а так-же используя предложенную задачу нахождения "среднего представителя популяции" - вот вам легкое вечернее чтиво:
"Используя данные замеров с 4063 пилотов, Дэниэлс вычислил среднее значение по 10 физическим характеристикам, которые считались самыми важными для дизайна, включая рост, окружность грудной клетки и длину рукава. Так он получил размеры ?среднего пилота?, каким исследователь считал такого, чьи параметры входят в средние 30% диапазона значений по каждому параметру. Так что, например, когда после вычисления получился точный средний рост 175 см, Дэниэлс определил для ?среднего пилота? рост от 170 до 180 см. Затем он тщательно, одного за другим, сравнил каждого отдельного пилота со средними значениями.

До этого момента общепринятым мнением среди коллег-исследователей из ВВС было, что абсолютное большинство пилотов впишутся в средний диапазон по большинству параметров. В конце концов, лётчики изначально проходили предварительный отбор, чтобы соответствовать средним параметрам. (Например, если ваш рост 200 см, то вас никогда не возьмут в лётчики в первую очередь). Учёные предполагали, что значительное число пилотов будут соответствовать среднему диапазону по всем 10 параметрам. Но Гилберт Дэниэлс был поражён, когда определил истинное число таких пилотов.
Ноль! Из 4063 пилотов ни один человек не соответствовал среднему диапазону по всем 10 параметрам. У одного были руки длиннее среднего и ноги короче среднего, у другого могла быть широкая грудь, но маленькие бёдра. Что ещё более поразительно, Дэниэлс выяснил, что если взять всего три из десяти параметров размера ? например, окружность шеи, окружность бедра и окружность запястья ? менее 3,5% лётчиков соответствовали средним параметрам по всем трём показателям. Выводы Дэниэлса были ясными и неопровержимыми. не существовало такого понятия как средний пилот. Если вы проектируете кабину для среднего пилота, то в реальности она не будет подходить ни для кого.
"

Часто привожу этот пример своим студентам, когда подробно разбираем понятие "среднего по выборке". А чтение - легкое и познавательное. И там есть еще ряд забавных фактов (про идеальную девушку, в частности rolleyes.gif ) . На досуге - почитайте.
  Форум: Медицинская статистика · Просмотр сообщения: #25832 · Ответов: 15 · Просмотров: 3289

passant
Отправлено: 23.06.2020 - 14:25


Дух форума
*

Группа: Пользователи
Сообщений: 171
Регистрация: 27.04.2016
Пользователь №: 28223


По-моему, то, что вы описали есть типичнейшая задача кластерного анализа. Зачем изобретать что-то новое, если имеются десятка три разных методов ее решения. Причем там есть группы методов, для которых ни корреляция признаков особо не важна, ни даже форма кластера в признаковом пространстве. Это, коненчо, если у вас есть выборка, в ней несколько типичных групп, но каких вы не знаете.
Если же вы знаете группы заранее, просто хотите найти "типичные" для них - то эта столь же типичная задача классификации. Правда там главный вопрос - не сам типичный элемент, а к какой группе потом относить новые, неизвестные ранее элементы.
Обе задачи имеют не только стандартные решения, но и -уже - стандартные, готовые реализации. Что в R, что в Python. Просто берете и применяете. За одно можно лЁгко поэкспериментировать и с расстояниями, если очень хочется, и к количеством кластеров (если оно не известно или не очевидно, а часто так и бывает). И параметры могут быть измерены в разных шкалах - от интервальной и абсолютной до ранговой или номинальной, и в любых их комбинациях.
  Форум: Медицинская статистика · Просмотр сообщения: #25829 · Ответов: 15 · Просмотров: 3289

passant
Отправлено: 4.06.2020 - 15:33


Дух форума
*

Группа: Пользователи
Сообщений: 171
Регистрация: 27.04.2016
Пользователь №: 28223


Цитата(Choledochus @ 4.06.2020 - 15:10) *
Есть данные только по средним значениям.
Есть критерий, который позволяет сравнивать выборочные средние без данных о дисперсии?
Спасибо

Если действительно, есть данные только по средним значениям и ничего более, то ничего более вы сделать не можете. Даже не можете выяснить, отличаются-ли выборочные значения между собой значимо.
  Форум: Медицинская статистика · Просмотр сообщения: #25802 · Ответов: 1 · Просмотров: 1250

passant
Отправлено: 7.04.2020 - 22:30


Дух форума
*

Группа: Пользователи
Сообщений: 171
Регистрация: 27.04.2016
Пользователь №: 28223


.....
  Форум: Медицинская статистика · Просмотр сообщения: #25590 · Ответов: 17 · Просмотров: 4926

passant
Отправлено: 7.04.2020 - 22:28


Дух форума
*

Группа: Пользователи
Сообщений: 171
Регистрация: 27.04.2016
Пользователь №: 28223




Спасибо, конечно. Если вы про книгу Sumeet Dua и Xian Du, то я ее конечно читал. С тех пор (с 2011) года вышло еще несколько очень приличных книг по теме. И приходиться постоянно держать руку на пульсе. Поэтому если что кому надо из книг по статистике, ML, DataScience, Deep Lerning - можете обращаться, чем смогу помогу (и Боже упаси при этом нарушить авторские права rolleyes.gif ) . Что такое \"БИОМЕТРИКА\" я не понял, но если это тот-же сайт, что и не несколько постов выше - то спасибо, я уже писал, что \"вынес\" с того сайта все, что мне может быть новым и интересным. :hi.gif:
  Форум: Медицинская статистика · Просмотр сообщения: #25589 · Ответов: 17 · Просмотров: 4926

passant
Отправлено: 7.04.2020 - 18:02


Дух форума
*

Группа: Пользователи
Сообщений: 171
Регистрация: 27.04.2016
Пользователь №: 28223


Цитата(Б_Т_Г @ 7.04.2020 - 16:36) *
passant, Вы не медик, а какой специалист? Мне интересно поговорить с Вами и по иному направлению.

В данный момент я занимаюсь вопросами применения методов ML в Cybersecurity.
  Форум: Медицинская статистика · Просмотр сообщения: #25587 · Ответов: 17 · Просмотров: 4926

passant
Отправлено: 5.04.2020 - 18:02


Дух форума
*

Группа: Пользователи
Сообщений: 171
Регистрация: 27.04.2016
Пользователь №: 28223


Цитата(100$ @ 5.04.2020 - 16:25) *
Ну, крутенько, в общем-то замешиваете. Про многомерные обобщения тестов на единичный корень (равно как и тестов на Change Point) не читывал и поэтому навскидку не могу сказать, насколько корректно делать все это покоординатно.
И есть еще соображение-опасение: в имеющемся временном ряду можно (опять же, покоординатно) оценить условную по имеющейся предыстории 95%-ную квантиль, при пробое которой можно поднимать тревогу. Так делают при расчете показателя VaR в финансовых рядах. Однако тут надо опасаться "ложных" пробоев.


Спасибо. Подумаю над этим.
  Форум: Медицинская статистика · Просмотр сообщения: #25580 · Ответов: 17 · Просмотров: 4926

passant
Отправлено: 5.04.2020 - 17:04


Дух форума
*

Группа: Пользователи
Сообщений: 171
Регистрация: 27.04.2016
Пользователь №: 28223


Цитата(100$ @ 5.04.2020 - 13:24) *
просто некая многомерная задача о разладке.

Да, близко к этому. Но классическая "разладка", та, которая тянется с теории надежности - работает либо по threshold, либо в лучшем случае по 3-м Сигмам. И то и другое - "не вкусно". С точки зрения статистики - требует жестких обоснований. Методы типа Бродского-Дарховского требуют выпонения жестких условий, которые как правило в реальной жизни нарушаются. И пр.пр.пр. Причем, если ряд становится многомерным, то все становиться совсем грустно.
Ну и еще одно - мне надо сравнивать не одномоментный "срез" рядов, а срез статистик за некоторый период наблюдения. Т.е. "пациент" объявляется больным НЕ если у него зафиксирован скачек сахара за 3 Сигмы, а если за определенный период времени зафиксированы подъем уровня сахара, изменения среднеквадратичного отклонения наполняемости кровеносной системы, средний интервал между ударами сердца и цвет губ был чаще синим, чем красным (Ой, да простят меня медики shok.gif и, я понимаю, что для вас это звучит ересью наверняка, не надо бросать в меня тапками.... sorry.gif я просто хочу растолковать суть и провести аналогию, не вдаваясь в подробности моей предметной области). И вот зафиксировав такие изменения мы принимаем решение о состоянии пациента. Про то, что он, "гад", еще и может у нас некоторые данные фальсифицировать - я уже тоже упоминал.
Но в общем да, многомерные ряды, стримминг-кластеризация с дрейфом и забыванием, "разладка" - а точнее Change Points, Anomaly and Outliers Detection и пр. И все это часто в режиме "он-лайн" и частотой фиксации параметров - несколько сотен или тысяч в секунду (хотя это вот не всегда так жестко, как раз).
  Форум: Медицинская статистика · Просмотр сообщения: #25578 · Ответов: 17 · Просмотров: 4926

passant
Отправлено: 5.04.2020 - 10:50


Дух форума
*

Группа: Пользователи
Сообщений: 171
Регистрация: 27.04.2016
Пользователь №: 28223


Цитата(100$ @ 4.04.2020 - 23:44) *
Так, может, там не гипотезы надо тестировать, а подгонять модель в пространстве состояний?
Впрочем, без конкретики сложно сказать больше, чем уже сказано...

Да вроде нет :-).
Представьте - на медицинском примере - у вас один пациент, о котором вы получаете множество разных параметров - температура, давление, сахар... бла-бла-бла.
Каждый параметр - это временной ряд. По каждому временному ряду В КАЖДЫЙ ВРЕМЕННОЙ ПЕРИОД вы можете снять некоторую статистику - от элементарных средних, дисперсии и пр, до параметров моделей ARIMA, Х-В, и т.д. Некоторые параметры могут быть ранговыми, а некоторые - даже номинальными - но и для них можно снять некоторую (свою) статистику.
Итого - у нас в наличии очень многомерное пространство, в котором состояние объекта за данный период времени - это точка, а координаты ее - это значение измеренных статистик.
Теперь наступил следующий период времени, мы вновь насчитали статистики, т.е. получили вторую точку в том-же пространстве..
Затем можно сразу пытаться понять принадлежат-ли эти две точки одному кластеру. Но тут стоит вопрос - как увязать совершенно разнотипные параметры, как обосновать это различие.
Как я писал - можно пытаться нормировать все параметры. Традиционно, но семантически не совсем прозрачно. Можно в качестве меры близости использовать меры от Евклида до косинуса, но это детали.
Другой путь - рассматривать не сами параметры, а их изменения, причем не абсолютные, а как p-value тестов на различие этих значений статистики в последовательные периоды времени.
Теперь мы перешли в другое пространство, где каждая точка имеет координаты в пределах от 0 до 1, причем это семантически ясные значения, и теперь точка этого пространства - это показательизменения состояния нашего пациента между интервалами наблюдения.
Вот такая цепочка рассуждения приводит к тому, что нам надо сказать - изменение состояния, выраженное в координатах пространства значений p-values значимо или нет.
Т.е. мы можем говорить, что состояние пациента изменилось и с какой значимостью, или нет.
Еще более обще - наблюдается-ли некоторая аномалия в состоянии "пациента". (Аномалии могут быть выражены не только изменения базовых статистик, но и быть контекстно-зависимыми, групповыми и т.д. - но это отдельная тема, которую я тут пока даже не затрагиваю).
Кроме того, как я указал, мой "пациент" может вести себя настолько плохо, что может даже пытаться замаскировать некоторые параметры так, что-бы затруднить обнаружение его изменения - но это тоже другая тема, которую я я пока выношу за скобки.
Вот как-то примерно так.
  Форум: Медицинская статистика · Просмотр сообщения: #25575 · Ответов: 17 · Просмотров: 4926

passant
Отправлено: 5.04.2020 - 00:23


Дух форума
*

Группа: Пользователи
Сообщений: 171
Регистрация: 27.04.2016
Пользователь №: 28223


Цитата(100$ @ 4.04.2020 - 23:00) *
По этому пункту навскидку сюда

Да, спасибо. Я уже понял, что проблема потихоньку перетекает в проблему множественной проверки гипотез, причем особенность моих задач - гипотезы разные, выполняются разными тестами но относятся к поведению (состоянию) одного объекта.

Цитата(100$)
совместное распределение координат признакового описания объекта изучается методами многомерной статистики. Нельзя с каждой координатой возиться, как котенок с клубком.
Да, в моем плане тут попробовать применить методы из области классификации и кластерного анализа. Разумеется - многомерных.

Цитата(100$)
В обоих случаях надо изучать их статистические свойства: состоятельность, несмещенность, способность удерживать заданный (номинальный) уровень ошибки I и мощность.
Спасибо, как раз накопал несколько несколько забугорных источников. Но там расматриваются в основном случаи однотипных гипотез. Буду копать дальше.
  Форум: Медицинская статистика · Просмотр сообщения: #25571 · Ответов: 17 · Просмотров: 4926

passant
Отправлено: 4.04.2020 - 21:25


Дух форума
*

Группа: Пользователи
Сообщений: 171
Регистрация: 27.04.2016
Пользователь №: 28223


Цитата(Med_Elena @ 4.04.2020 - 14:57) *
rolleyes.gif "Итак, формальная постановка задачи".
Уровень постановки задачи определяется уровнем знания самого исследователя. Причём не только знаниями по статистике, но и по знаниям в своей медицинской технологии. Т.е. когда уровни знаний формальные, то и задачи формальные.

Я и в самом вопросе и во многих моих сообщениях неоднократно подчеркивал - я НЕ медик. И "медицинские технологии" меня интересуют в последнюю очередь. За что я очень ценю этот форум - тут много специалистов именно в статистике, которые успешно применяют свои знания и опыт для решения медицинских задач. Как я свои знания применяю для решения НЕ медицинских задач. И эти специалисты часто в ходе дискуссии высказывают очень интересные и глубокие идеи, которые помогают и мне решать свои НЕ медицинские задачи и которые не попадались мне раньше. Поэтому на рекламируемый вами сайт я не пойду - ну, хотя-бы потому, что был там неоднократно и в общем-то все, что там НЕ медицинское и интересное для меня уже вычитал. Не думаю, что авторы этого сайта помогут мне в решении задач в моей предметной области. (Кстати, в другом вашем сообщении вы написали, что вот только-только нашли этот сайт, а тут уже оказывается 20 лет знакомства. Ну да ладно).
Ваш ответ, уважаемая Med_Elena несомненно очень правильный, полезный для начинающих мед.статистиков, но увы, для меня он полезной нагрузки практически не несет.

А вот уважаемым господам nokh и p2004r - огромное спасибо. Несколько интересных идей (НЕ медицинских :-) ) я уже нашел. Надо будет продумать.
Книжку, рекомендованную nokh , скачал (последнее издание, 95-го года) буду смотреть. Сведение величин эффектов - меня не совсем устраивает, потому как "мои" параметры - это ряд технических данных об одном объекте (явлении) но весьма различной природы. И "болезней" моих объектов достаточно много, причем возможно и их одновременность. А некоторые, к тому-же имеют возможность влиять и даже "подправлять" некоторые анализируемые показатели. Просто "свести" (например, нормировать) - выглядит достаточно традиционно, но трудно обоснуемо. Поэтому и возникла идея сводить через p-values, как более семантически осмысленный подход. Но в любом случае - любая информация в данном направлении интересна.

Идея p2004r перейти к "одностороннему доверительному интервалу" - немного (для меня) неожидана и интересна. Далее можно пытаться выделять кластеры в получившимся многомерном пространстве - и на основании такого анализа делать выводы (задача сопряженная с начальной).. В общем - интересно, стоит подумать. Стиль R-проектов, конечно, немного напрягает - что-бы добраться до идеи надо хорошенько просерфинговать по ссылкам - но ничего, время есть, покопаемся :-). Спасибо за наводку.

Если коллеги не возражают, то со временем я вернусь сюда с очередной порцией уточнений - может еще чего интересного "навеяте". Ну и очень надеюсь, что кто-нибудь еще примет участие в "консилиуме".
  Форум: Медицинская статистика · Просмотр сообщения: #25569 · Ответов: 17 · Просмотров: 4926

passant
Отправлено: 4.04.2020 - 00:08


Дух форума
*

Группа: Пользователи
Сообщений: 171
Регистрация: 27.04.2016
Пользователь №: 28223


Уважаемые коллеги-медики.

Поскольку в последнее время наметился некоторый застой на этом интереснейшем форуме rolleyes.gif и что-бы несколько стимулировать активность участников, осмелюсь предложить вам проблему, которая - как я полагаю - в медицинской среде должна быть более исследована, чем в остальных областях применения статистики. Я имею ввиду практику метаанализа, которая распространена (по крайней мере мне, НЕ специализирующемуся на медицинских задачах, так кажется) в области медстатистики и которая слабо исследована в других предметных областях.

Итак, формальная постановка задачи. Необходимо подтвердить H0 гипотезу отсутствия различий между двумя наборами данных. Таких тестов проводится множество. Результаты каждого теста представлены в виде соответствующего p-value. Необходимо поставить "окончательный диагноз", т.е. основываясь на указанном наборе p-value's дать окончательную оценку относительно принятия-отклонения гипотезы. В виде некоторого "обобщенного" p-value, разумеется. Получается такая себе "многомерная проверка гипотез".

Задача - как мне видется, возможно я и ошибаюсь - имеет несколько подвариантов.

Первый и самый, наверное, простой - все тесты проводятся одним и тем-же методом. Т.е. в области медицины - множество групп пациентов, например - в различных клиниках, каждая считает и предоставляет свои данные, например, по эффективности определенного лекарственного средства. Результаты должны быть формально обобщены. Как?

Второй - оценивается два объекта (в медицинских терминах, наверное - групп пациентов) каждая по множеству разных параметров (давление, рост, вес.....). Необходимо проанализировав p-value отличия по каждому из параметров, формально определить, различаются-ли эти группы пациентов.

Третий - у нас один параметр, но тестов мы проводим много (ну, самое простое - t-Стюдента, F-Фишера, тесты на различие моментов более высокого порядка, тест на постоянство автокорреляции, тест на постоянство коэффициента Херста - не важно). И решение надо принять по совокупности p-value, полученных на разных тестах.. (Ну, например, отслеживаем изменение этого параметра у пациента во времени).

Возможно, есть и другие варианты постановки задачи, но я их пока не вижу.

Итак, вопрос. Занимается-ли медстатистика такими задачами и если да (полагаю, что так и есть), то посоветуйте пожалуйста, натолкните на работы, где такие подходы разбираются. Ну и хочу все-таки отметить, что меня интересует не медицинская сторона этих работ, а именно формально-математико-статистическая.

Заранее благодарю за любую информацию, и извиняюсь, если непрофессиональностью медицинских примеров задел чьи-то тонкие струны души :hi.gif:
Всем не хворать, а тем кто на карантине - стойко его выдержать. smile.gif
  Форум: Медицинская статистика · Просмотр сообщения: #25550 · Ответов: 17 · Просмотров: 4926

7 страниц V   1 2 3 > » 

Открытая тема (есть новые ответы)  Открытая тема (есть новые ответы)
Открытая тема (нет новых ответов)  Открытая тема (нет новых ответов)
Горячая тема (есть новые ответы)  Горячая тема (есть новые ответы)
Горячая тема (нет новых ответов)  Горячая тема (нет новых ответов)
Опрос (есть новые голоса)  Опрос (есть новые голоса)
Опрос (нет новых голосов)  Опрос (нет новых голосов)
Закрытая тема  Закрытая тема
Тема перемещена  Тема перемещена