Форум врачей-аспирантов

Здравствуйте, гость ( Вход | Регистрация )

10 страниц V   1 2 3 > » 

passant
Отправлено: 18.06.2023 - 10:48





Группа: Пользователи
Сообщений: 231
Регистрация: 27.04.2016
Пользователь №: 28223


Цитата("Наташа @ 17.06.2023 - 21:26) *
Доброго времени суток.
Скажите пожалуйста, может ли в анализе выживаемости (при построении кривой выживаемости) среднее время до наступления исхода превышать максимальное время до исхода, которое наблюдалось вообще в выборке?
Спасибо.


Или я чего-то недопонимаю, или вопрос звучит так: "может-ли средняя по выборке быть больше максимального значения выборки"? В таком случае я предлагаю студентам привести пример такой выборки.
  Форум: Медицинская статистика · Просмотр сообщения: #28613 · Ответов: 26 · Просмотров: 23919

passant
Отправлено: 12.05.2023 - 09:39





Группа: Пользователи
Сообщений: 231
Регистрация: 27.04.2016
Пользователь №: 28223


....
  Форум: Медицинская статистика · Просмотр сообщения: #28574 · Ответов: 18 · Просмотров: 17105

passant
Отправлено: 24.04.2023 - 09:56





Группа: Пользователи
Сообщений: 231
Регистрация: 27.04.2016
Пользователь №: 28223


Цитата(Игорь @ 22.04.2023 - 18:21) *
Зарубежный опыт. "Маргарет Митчелл, главный специалист по этике Hugging Face, подчеркнула, что текущая политика применения решений OpenAI запрещает использование моделей для получения медицинских инструкций, поскольку генерирование ложной информации в клинических условиях может привести к трагическим последствиям." Ссылка: https://www.securitylab.ru/news/537738.php

И это правильно. Я не знаю и не могу оценить, как качественно СhatGPT ставит диагнозы и назначает лечение, но я вижу как СhatGPT пишет достаточно простенькие программульки. Если и диагнозы она ставить с таким-же качеством, то я бы очень не хотел попасть в круг ее "пациентов". По сути, на сегодняшний день СhatGPT - это такой себе усложненный поисковик, который пытается не просто дать ссылки с ответами на вопрос, как Google, но и извлечь из ответов какие-то связные мысли. Вот только любой, кто серьезно работает с Google знает, что даже отсечь полезную информацию от шлака в потоке выдачи - весьма не просто. И на сегодняшний день СhatGPT с этой задачей качественно справиться не в состоянии.
  Форум: Медицинская статистика · Просмотр сообщения: #28532 · Ответов: 16 · Просмотров: 22613

passant
Отправлено: 7.04.2023 - 22:57





Группа: Пользователи
Сообщений: 231
Регистрация: 27.04.2016
Пользователь №: 28223


Цитата(Игорь @ 7.04.2023 - 21:04) *
OK. Если упоминание ПО приравнивается к его рекламе, не будем "рекламировать". Глупо получилось - завести здесь такую тему. Попросим администратора удалить ее.



Странно. Пакет gretl идет под лицензией GNU General Public License, т.е. бесплатен для личного пользования. Что для экономистов - так тот же SPSS "SPSS is a widely used program for statistical analysis in social science" - тоже вроде как не для аспирантов-медиков, еще и платный. Если даже посмотреть скрин по ссылке - то там видны "Others linear models", "time series" и прочие, и чем эти понятия отличаются в биостатистике, эконометрике, технической диагностике и финансах - не знаю. Какая тут реклама? Я бы назвал это "поделиться информацией, которая может представлять интерес для тех, кто занимается обработкой данных".
Нет, логики врачей мне точно никогда не понять.
P.S. На всякий случай - лично мне этот пакет ни к чему, потому как предпочитаю на Python и "все под контролем". Так что я точно в рекламе этого пакета никак не заинтересован. Просто интересно стало, грех-то в чем?
  Форум: Медицинская статистика · Просмотр сообщения: #28452 · Ответов: 72 · Просмотров: 246584

passant
Отправлено: 6.04.2023 - 16:24





Группа: Пользователи
Сообщений: 231
Регистрация: 27.04.2016
Пользователь №: 28223


Цитата(salm @ 6.04.2023 - 08:36) *
Ну чтооо такое?)

Отвечу за коллегу. Несмотря на то, что нас со школы учат выводить мифический "средний бал" оценок, и считать среднее место команды на олимпиаде, с точки зрения математики и статистики - все это не просто ересь, это крамола.
Числа измеренные в ранговой шкале не могут подвергаться никаким арифметическим действиям. Единственные научно-обоснованные операции над ними - это выявление отношений "равно", "не равно", "больше", "меньше". Если ваш НАУЧНЫЙ руководитель не то что знаки в среднем после запятой считает или не считает, но вообще заставляет вас считать среднее данных измеренных в ранговой шкале, то...... короче не "о", а просто "ой" . Даже не знаю, пусть коллеги-медики советуют, как разговорить с таким науч.руком.
Хотя кто вас там знает. Может "от 0 до 68" вы вес в килограммах считаете, или "количество особей в клетках". Тогда конечно можно и арифметикой заняться, но тогда это не балы, а нечто другое. Уж разберитесь.
  Форум: Медицинская статистика · Просмотр сообщения: #28426 · Ответов: 12 · Просмотров: 10133

passant
Отправлено: 5.04.2023 - 11:00





Группа: Пользователи
Сообщений: 231
Регистрация: 27.04.2016
Пользователь №: 28223


Цитата(salm @ 5.04.2023 - 10:15) *
Добрый день.
Подскажите пожалуйста, руководитель хочет, что бы я указала значения средних и квартилей без знака после запятой, мол это сильно место экономит... В требованиях к оформлению именно диссертации ничего такого не нахожу. Данные сравнительного анализа - только в медиана и межквартильный размах. Разницу средних не указываю. Можно ли пренебречь знаком после запятой?
Спасибо.


Немного странный вопрос. Мы же не знаем, что у вас за данные.
Если ваши данные измерены в абсолютной шкале, т.е. представляют собой целые числа, тогда допустимо медианы и квартили указывать без запятых.
Если ваши данные представляют собой числа измеренные в интервальных шкалах или шкалах отношений, и в них до запятой пять-семь цифр, то при представлении среднего, медианы и квартилей цифрами после запятой можно и пренебречь. А если в ваших данных целая часть умещается в один или два знака - тогда, конечно, нельзя.
  Форум: Медицинская статистика · Просмотр сообщения: #28406 · Ответов: 12 · Просмотров: 10133

passant
Отправлено: 15.03.2023 - 20:37





Группа: Пользователи
Сообщений: 231
Регистрация: 27.04.2016
Пользователь №: 28223


Цитата(Игорь @ 15.03.2023 - 18:11) *
это последняя версия, где одной командой можно делать раскладку автореферата для печати на двух сторонах листа половинного формата и последующей подшивки в брошюру.


Странно, но и моя версия 2016 прекрасно печатает брошюры в один клик Вот как это делается - специально нашел инструкцию с демонстрацией в youtube - https://www.youtube.com/watch?v=YofTtrRwx0w
Хотя я и допускаю, что я чего-то недопонял и вы имели ввиду что-то другое, но по-моему для печати авторефератов -это самое оно.
  Форум: Медицинская статистика · Просмотр сообщения: #28295 · Ответов: 72 · Просмотров: 246584

passant
Отправлено: 15.03.2023 - 16:31





Группа: Пользователи
Сообщений: 231
Регистрация: 27.04.2016
Пользователь №: 28223


А на более новых версиях EXCEL работать будет?
Почему спрашиваю. Эта версия вышла 20 (двадцать!!!!) лет назад, после нее последовательно вышли еще 5 более новых версий. И со дня на день ожидается выход еще одной, шестой. Я не знаю ни одного человека, у кого на компьютере стоит EXCEL 2003, а многие - и я сам в том числе - по два раза, а некоторые - и по три переходили на более новые версии за это время. Поэтому и возникает вопрос о работоспособности на новых версиях.
  Форум: Медицинская статистика · Просмотр сообщения: #28289 · Ответов: 72 · Просмотров: 246584

passant
Отправлено: 4.03.2023 - 18:03





Группа: Пользователи
Сообщений: 231
Регистрация: 27.04.2016
Пользователь №: 28223


Цитата(Игорь @ 4.03.2023 - 15:48) *
P.S. Забавный источник попался по факторному анализу. Переводные японские комиксы.


Там не только факторный анализ. Там и отдельно Статистика, и Регрессионный анализ, и даже Машинное обучение.
https://vk.com/wall-186208863_11025

Хотя для детей - как мне кажется - слишком рано и не понятно зачем.
Для взрослых - я бы такое читать не смог. Уж лучше 'Статистика и котики' Савельева.
  Форум: Медицинская статистика · Просмотр сообщения: #28164 · Ответов: 24 · Просмотров: 20040

passant
Отправлено: 21.02.2023 - 19:12





Группа: Пользователи
Сообщений: 231
Регистрация: 27.04.2016
Пользователь №: 28223


Цитата(ИНО @ 21.02.2023 - 14:34) *
Извините за резкость, но Вы упорно гоните какую-то дичь. ...... Бурная эволюция исследовательской мысли - это, конечно, хорошо, но требовать один единственноправильный критерий на все порожденные ею экспериментальные планы весьма странно.


Вы упорно подменяете мои вопросы, потом показываете, что эта подмена - дичь, а потом называете это бурной эволюцией мысли. Не смею с вами и вашим авторитетом спорить, но:

Цитата(ИНО @ 21.02.2023 - 14:34) *
требовать один единственноправильный критерий на все порожденные ею экспериментальные планы

Никто этого не требовал, и я прекрасно понимаю разницу между одновыборочным и двухвыборочным критерием.
Вопрос стоял иначе. Применимость обоих критериев для случая, когда одна из выборок "нулевая", оказывается под вопросом. Одного - из-за деления на нуль, второго - из за ограничений на размер доли. Как поступать в таком случае? И уж точно речь не шла о выдуманной вами "самопальной формуле".

Цитата(ИНО @ 21.02.2023 - 14:34) *
задача неожиданно трансформировалась в анализ временных рядов (насколько я могу судить по словосочетанию "Change Point Detection"). Да еще и на лету.


Наоборот. Практически все задачи CPD временных рядов так или иначе сводятся к задаче анализа гипотез. Разных. Для разных входных данных. Разных условий. И нет ничего странного, что для случая временных рядов событий она может быть в некоторых случаях сведена в том числе и к проверке гипотезы равенства доль. (Да, можно вообще применять методы анализ потоков событий, можно и другими способами воспользоваться. Но не об этом сейчас речь). Можно говорить об эффективности самого z-теста по сравнению с другими тестами. Но тем не менее, этот тест вполне себе удовлетворительно срабатывает для случая, если анализируемые выборки (отрезки ряда) в обязательном порядке включают сигналы события. А если нет? Программе мониторинга об этом заведомо неизвестно. Вопрос - можно-ли в таком случае воспользоваться двухвыборочным критерием (да/нет) и если нет - то анализируется-ли такая ситуация в известных реализациях?


При реализации систем мониторинга на предмет СPD, действительно, иногда (особенно для случая экстремально редких событий) удобнее не использовать расчет доли для каждого очередного положения скользящего окна, а выполнять накопительный перерасчет доли (например - до появления первого события), а вторую выборку собирать начиная от этого события. И тут сразу два вопроса - 1) сколько элементов надо накопить во второй выборке до принятия решения и 2) если первая выборка очень большая (вопрос по ходу - на сколько она должна бать большая?) можно ли применить одновыборочный критерий (при этом необходимо оказывается, что значение доли в первой ("теоретической") выборке равна нулю).

Да, эта задача не имеет ничего общего ни мешком с шариками, ни с теоретически ожидаемой вероятностью выпадения монетки ( примеры которые приводил не я), но это вполне реальная, практическая задача. Которую к тому-же надо решать (принимать решение) автоматизировано за разумное время, но желательно - как можно быстрее.

Даже в упрощенном описании в задаче очень много взаимосвязанных вопросов. И если бы я начал с описания реального алгоритма СPD, вопросов ко мне и непонимания задачи возникло бы на порядок больше. Впрочем, многие сразу поняли о чем речь, значит я был не очень и неправ, пойдя таким путем формализации. Я выделил формальный вопрос о критериях применимости одновыборочного и двухвыборочного z-теста, но не общих, а для описанного особого случая. Все. И даже явно написал в первом-же сообщении: "Допускаю, что чего-то где-то недоучитываю. Или просто запутался. Или ответ на поверхности, но я его просто не замечаю". Как оказалось даже такая рафинированная задача оказалась все-же не совсем тривиальной. А что-бы было, если бы я сразу окунул коллег в тонкости исходной прикладной задачи, еще и нагрузив ее особенностями программной реализации алгоритма?

Это вполне реальная, задача. И проблемы возникают при попытках адаптации теоретических алгоритмов к этой прикладной задаче. Что само по себе - обычное дело при применении на практике (вон, выше даже регламент выдачи лицензий необходимо в некоторых случаях учитывать, оказывается). Мне это все дичью не кажется. Если у вас такое представление - вы вольны игнорировать мои вопросы. Но многие коллеги мне подсказали идеи поиска решения, и снабдили ранее мне не известными источниками информации, за что я им еще раз благодарен.
  Форум: Медицинская статистика · Просмотр сообщения: #28109 · Ответов: 25 · Просмотров: 30176

passant
Отправлено: 21.02.2023 - 13:57





Группа: Пользователи
Сообщений: 231
Регистрация: 27.04.2016
Пользователь №: 28223


Цитата(ИНО @ 20.02.2023 - 23:15) *
"Выше" - это где?

В первом сообщении этой темы. Вопрос звучал так:

"Задача классическая. Требуется провести одновыборочный z-тест для пропорций. вопрос - а каково буде значение этого критерия при pтеор=0 ?
То есть, мы не ожидаем появления положительных событий вообще, а они происходят?"
А также, поскольку понятно, что работа в условиях известного матожидания и дисперсии бесконечной по своей природе генеральной совокупности - это абстракция, возник параллельный вопрос - какой из критериев в описанной ситуации необходимо применить двухвыборочный или одновыборочный.

Чисто статистические вопросы и ищется чисто формальный ответ.

Коллеги попросили привести реальный пример. Учитывая, что форум медицинский, попытался найти медицинскую-же аналогию. Оказалось, что прикладной аспект в данном случае может некоторым помешать ответить на формальный вопрос.

Вы сами привели пример с шарами. В ответ я привел пример из технической диагностики - теперь уже надеюсь хотя и прикладной и вполне реальный, но очень близкий к формальной сути задачи.

Цитата(ИНО @ 20.02.2023 - 23:15) *
Потому как я уже сбился со счета разных ситуаций, которые Вы описали в этой теме, в каждой из которых надо применять иной критерий, чем в для предыдущей.


Всего две. Не знаю, разные-ли критерии надо применять для них (для случая выздоровления и для случая появления alarm-сигналов) . И если разные - то почему? В какой ситуации - какой?

Цитата(ИНО @ 20.02.2023 - 23:15) *
Если с подбором корректных аналогий у Вас плохо, опишите уже совою реальную ситуацию. Или это чисто теоретический треп из серии "а можно ли все-таки удалить миндалины эндоскопом через анус?"

Ну, кому "миндалины эндоскопом через анус" - а кому вполне реальная задача из области Change Point Detection при потоковом поступлении данных (для тех.диагностики - еще и в режиме on-line) ..
  Форум: Медицинская статистика · Просмотр сообщения: #28099 · Ответов: 25 · Просмотров: 30176

passant
Отправлено: 20.02.2023 - 14:45





Группа: Пользователи
Сообщений: 231
Регистрация: 27.04.2016
Пользователь №: 28223


Цитата(comisora @ 20.02.2023 - 13:57) *
Добрый день. Мой ответ не касается Вашего исходного вопроса, но при прочтении Ваших пояснений мне вспомнились тесты the Bartels rank test of randomness и библиотека для Change point analysis. Может на Вашу задачу следует посмотреть с этой стороны?


Спасибо за присоединение к обсуждению. Да Change point detection - это то, что меня больше всего и интересует. И, наверное, в связи с этим ко мне и обратились за советом. Я потер руки, в уверенности -"да это же в любом учебнике написано". Оказалось не все так тривиально.
(Кстати - отдельное спасибо за mcp - ранее не встречал, надо будет посмотреть).

Цитата(comisora @ 20.02.2023 - 13:57) *
Есть ситуация, где нужна 100% уверенность, поэтому нужно предпринимать все возможные меры по профилактике и решению образовавшихся проблем. В таком случае вопрос о статистической значимости смысла не имеет. Если есть возможность построить зависимость условных расходов от доли условного сигнала (хотя бы на уровне допущения), то нужно найти ту величину условных расходов и соответствующую долю условного сигнала, которая будет Вашим ориентиром. Расходы и сигнал - любые метрики успешности процесса, хоть количество расходов на каждый неправильно заполненный бланк в отчёте маркетолога формата А4.

На мой взгляд, готовность платить или принимать решение (Cost-effectiveness thresholds) зависит исключительно от Вашей задачи.

На мой взгляд, необходимо сначала понять прикладную сторону задачи. Потом перевести ее на формальный язык и решить ее чисто формальными, статистически-математическими, ML-методами, (если такой формализации не сделать - то на наше решение будут влиять в том числе и правила выдачи лицензий, что не есть с моей точки зрение правильно).А потом перевести полученное формальное решение на язык конкретной предметной области и понятный прикладному специалисту, включая и те самые "лицензии", и то, о чем вы пишете, и стоимость ошибки первого и второго рода, и другие особенности связанные с природой задачи и в таком виде уже вернуть решение пользователю. Мне казалась, что такая декомпозиция процесса решения естественна и общепринята, поэтому и описал задачу именно на уровне формального этапа. А интерпретацию попытался оставить в стороне.
  Форум: Медицинская статистика · Просмотр сообщения: #28094 · Ответов: 25 · Просмотров: 30176

passant
Отправлено: 20.02.2023 - 13:11





Группа: Пользователи
Сообщений: 231
Регистрация: 27.04.2016
Пользователь №: 28223


Цитата(Игорь @ 20.02.2023 - 09:10) *
Видение в предчувствии обещанной благодарности такое.


Предчувствие вас не обмануло. Я действительно благодарен вам и всем кто конструктивно высказался по теме.

Цитата(Игорь @ 20.02.2023 - 09:10) *
Корректные формулы в книге Флейса (выше уважаемый коллега показал ссылку на англоязычный вариант;

Это не проблема. Как раз сегодня хочу просмотреть этот источник.

Цитата(Игорь @ 20.02.2023 - 09:10) *
включение ее в статистический пакет не стоит некоторого усложнения интерфейса.

Автору пакета, конечно, виднее.

Цитата(Игорь @ 20.02.2023 - 09:10) *
Задача действительно классическая - сравнение параметра положения (среднее для количественной выборки, доля для дихотомической, как в представленном случае) с известным значением

В том то и дело. Есть z-тест. Существует для двух ситуаций, одновыборочный и двухвыборочный. Есть конкретная ситуация, описанная выше. Какой критерий подходит? Одновыборочный? Но по формуле этого критерия получается, что должна быть исключительная ситуация. (Кстати, для количественной выборки и теста Стьюдента на совпадение выборочной средней и мат.ожидания генеральной совокупности все работает вне зависимости от того, какое значение - нулевое или нет - имеет мат.ожидание. Вот и разница). Если попробовать использовать двухвыборочный z-тест, то натыкаемся на предусловие (к размерам выборки), которое делает и этот вариант вроде как некорректным.

Сложность видна даже в том, что на этом, самом продвинутом в интернет форуме по проверке гипотез, с очень ценимыми мною комментаторами, мнения разделились:
100$: : "в том же Excel'е, что при p0=0 расчет все равно идет по второй формуле."
nokh : "По поводу формул. Правильная первая".
ИНО : "И озвученная задача таки явно двухвыборочная".
Игорь: для рассматриваемой проблемы нет смысла использовать асимптотику (Z-критерий)

Игорь: "Единственная сложность, замеченная при анализе качественных данных - правильно ввести их в соотвествии с требованиями автора программы" - готов их выслушать и применить. Только вот какую?

Вижу, что попытка объясниться на примере из области медицины привела к апелляции к надзорным органам в качестве статистического аргумента. Что-бы снова не споткнуться об этом - предлагаю другую аналогию. Наблюдается состояние объекта. Путем последовательного контроля наличия alarm-сигналов, например - получения рекламаций от клиентов (разных, между собой никак не связанных). На протяжении - как тут написали -"10000000000005000000000000 попыток", т.е. такого количества отзывов, они все были положительными, т.е. "объект работает без замечаний". Потом получается два сигнала среди следующих 10 отзывов. Это случайность или при изготовлении объектов пошел брак? А если 2 на 100000 следующих отзывов? А если 2 на следующие 10000000000005000000000000 попыток"? Стоят они некоторого усложнения интерфейса затрат на ремонтно-регламентные работы? Или это статистически незначимые отклонения? В какой момент - при какой доле в выборке - эти данные становятся значимыми?


Цитата(ИНО @ 19.02.2023 - 23:53) *
Вы полагаете, что использование самопальной формулы сходимость улучшит? Не удовлетворяются условия асимптотических критериев - используйте точные (в данном случае - Барнарда).

Вообще-то я нигде не пытаюсь самостоятельно вывести какую-бы то нибыло "самопальную" формулу, (хотя и это мне тут рекомендовали: " Правильная та, которую вы вывели или проверили самостоятельно из теоретических соображений."). Наоборот, а хочу понять, какую классическую формулу тут корректно применять. Но признаюсь, про асимптотику Барнарда - не в курсе. Ссылочкой не поделитесь? ( Уже ознакомился).
  Форум: Медицинская статистика · Просмотр сообщения: #28092 · Ответов: 25 · Просмотров: 30176

passant
Отправлено: 20.02.2023 - 00:35





Группа: Пользователи
Сообщений: 231
Регистрация: 27.04.2016
Пользователь №: 28223


Цитата(DoctorStat @ 19.02.2023 - 21:35) *
Тогда я не понял предыдущего вопроса. Пациентам дают лекарство с доказанной эффективностью. В аптеках продают препараты, которые лечат, т.е. с pтеор > 0. Причем не просто больше 0, а больше некоторого минимального значения. Скажем, в клинических исследованиях на выборке из 1000 человек, лекарство показало эффективность для 100 человек, т.е. pтеор = 10% . В противном случае (pтеор < 10%) надзорные органы не выдадут лицензию препарату.


Вообще-то я с самого начала (вернее, тогда, когда попросили привести какую-нибудь жизненную интерпретацию теоретического вопроса) написал, что медицинский пример - не более чем некоторая аналогия задачи реальной. Поэтому приплетать к чисто статистической задаче правила выдачи лицензий и прочие рассуждения о клинических исследованиях - неуместно.
  Форум: Медицинская статистика · Просмотр сообщения: #28089 · Ответов: 25 · Просмотров: 30176

passant
Отправлено: 19.02.2023 - 20:35





Группа: Пользователи
Сообщений: 231
Регистрация: 27.04.2016
Пользователь №: 28223


Цитата(ИНО @ 19.02.2023 - 00:49) *
, но двухвыборочный Z-критерий давно существует, изобретать его заново не нужно. И озвученная задача таки явно двухвыборочная, не имеющая ничего общего с одновыборочной задачей из стартового поста.


Так то оно так, но вот для двуxвыборочного критерия есть условие n1*p1>10, n1*(1-p1)>10, n2*p2>10, n2*(1-p2)>10. И тут дело даже не в том, что за число в этих формулах справа стоит. А дело в том, что для одной из выборок одно из этих условий заведомо никогда не выполниться. И как тогда применять двухвыборочный критерий?

Цитата(DoctorStat @ 19.02.2023 - 19:08) *
2) на вопрос о корректности постановки задачи при р_теор = 0 лучше всего ответил nokh: если кенгуру родил(а) человека, значит это не кенгуру.


А если при применении препарата некоторые пациенты стали выздоравливать? Отбрасываем с негодованием, ибо "не кенгуру"? Или пытаемся выяснить, это случайность или все-же на препарат стоит обратить внимание?
  Форум: Медицинская статистика · Просмотр сообщения: #28086 · Ответов: 25 · Просмотров: 30176

passant
Отправлено: 19.02.2023 - 00:16





Группа: Пользователи
Сообщений: 231
Регистрация: 27.04.2016
Пользователь №: 28223


Цитата(100$ @ 18.02.2023 - 17:27) *
Вторая.
Патамушта, если исследователь "лет 5 назад снес RStudio", ему ничто не мешает убедиться в том же Excel'е, что при p0=0 расчет все равно идет по второй формуле.


Да, я тоже первое, что сделал - проверил на EXCEL, функция Z.ТЕСТ(...0). Сначала даже вставил абзац в свой вопрос, но потом, что-бы не делать его слишком длинным убрал. Но вообще-то это доказательством считать нельзя. Тем более, что там считается еще более специфично, чем в Python и R.

Цитата(nokh @ 18.02.2023 - 18:41) *
1). По поводу формул. Правильная первая. В авторитетной книге Флейса на стр. 26-27 даётся эта же формула, правда с поправкой на непрерывность в числителе, использование которой оговаривается: https://disk.yandex.ru/i/lyP2bDEO1R26bA
Почему программы меняют её не знаю, может авторы считают, что это мы напутали. Но есть и другое соображение.

Спасибо, обязательно гляну.


Цитата(nokh @ 18.02.2023 - 18:41) *
2). Возможно задача с теоретической вероятностью 0 или 1 не является статистической, а может и вообще вероятностной.


Вообще-то задачу мне задали маркетологи, но я приведу "медицинский" пример (в меру моих крайне скудных представлений в этой области). Есть неизлечимая болезнь. Есть длинная выборка больных, ни один из которых не выжил. Я понимаю, что считать это генеральной совокупностью нельзя, но тем не менее. И есть препарат, после употребления которого появилась некоторая доля больных, которые выжили. Но выборка существенно (во много десятков раз) короче первой. И вот вопрос можно-ли считать, что препарат действенный? Особенно, если доля выживших очень мала?

Появилась идея. Если рассматривать задачу с точки зрения двух независимых выборок, которая сводитьс к анализу равенства разности двух доль нулю, и использовать соответствующий тест, то там для оценки дисперсии этой разности двух доль используется SQRT(p1*(1-p1)/N1+p2*(1-p2)/N2 ). И тогда, если p2=0, то как бы мы возвращаемся к оценке, которая применяется в пакетах. Но вот корректна-ли такая подмена?
  Форум: Медицинская статистика · Просмотр сообщения: #28083 · Ответов: 25 · Просмотров: 30176

passant
Отправлено: 18.02.2023 - 15:34





Группа: Пользователи
Сообщений: 231
Регистрация: 27.04.2016
Пользователь №: 28223


Уважаемые коллеги.
Что-то я зашел в тупик, прошу помощи.

Задача классическая. Требуется провести одновыборочный z-тест для пропорций. Казалось бы все понятно. В любом учебнике, и даже информации на cran.r-project.org находим:

Z=(pвыб-pтеор)/SQRT(pтеор*(1-pтеор)/N)

где pвыб - доля положительных результатов в выбоке,
pтеор - теоретически ожидаемая доля положительных результатов
N - объем выборки.

И все бы хорошо. Но вот вопрос - а каково буде значение этого критерия при pтеор=0 ?
То есть, мы не ожидаем появления положительных событий вообще, а они происходят?

Попытка посчитать "на бумажке" говорит о том, что знаменатель превращается в ноль и на этом все должно-бы закончиться.
Причем нигде, никогда никаких специально оговоренных случаев или исключений для этого теста я не встречал. Готов допустить, что это ограничение считается "очевидным" и поэтому даже не упоминается. Но тогда надо допустить, что разработчики пакетов и функций реализующих этот тест будут выполнять такую проверку внутри реализаций. Если это действительно фундаментальное исключение.

Ан нет. Пробую посчитать результат на Python с помощью функции proportions_ztest из пакета statsmodels.stats.proportion.
Проверяю, что-же данная функция делает: "simple normal test for proportions. It should be the same as running the mean z-test on the data encoded 1 for event and 0 for no event so that the sum corresponds to the count.mIn the one and two sample cases with two-sided alternative, this test produces the same p-value as proportions_chisquare, since the chisquare is the distribution of the square of a standard normal distribution." И никаких ограничений.
И тут неожиданность. При pтеор=0 и любом положительном значении pвыб результат спокойно высчитывается. Например - при pвыб=0.2 , N=10 имеем Z=1.5811388300841895 p_value=0.11384629800665805 и никаких сообщений об исключительной ситуации (и да, это двусторонний критерий, но суть от этого не меняется).

Не могу понять, что происходит, но где-то наталкиваюсь на сообщение , что proportions_ztest из пакета statsmodels.stats.proportion реализовано по подобию функции prop.test из R. Сам я снес RStudio лет пять назад, проверить не могу, но лезу читать описание. И вдруг, с глубоким удивлением вижу там (ну, например: http://www.sthda.com/english/wiki/one-prop...on-z-test-in-r) формулу, по которой происходит расчет:

Z=(pвыб-pтеор)/SQRT(pвыб*(1-pвыб)/N)

Как говориться, "почувствуйте разницу"! В первую очередь, с тем, что написано на cran.r-project.org (см. ссылку в первом абзаце). В знаменателе теперь не pтеор, а pвыб. Делаю пересчет вручную, и результат, как и ожидалось, совпадает с тем, что выдает proportions_ztest (и скорее всего и prop.test).

И вот теперь вопрос к знатокам. А какая-же формула корректна? Возможно-ли такая замена оценки дисперсии в знаменателе, если в результате мы получаем разные - пусть даже в одной точке - результаты? И можно-ли считать результаты, которые получены по формулам, реализованным в R и statsmodels для pтеор=0 корректными и использовать их для решения исходной задачи?

Допускаю, что чего-то где-то недоучитываю. Или просто запутался. Или ответ на поверхности, но я его просто не замечаю. Буду благодарен за ваше видение ситуации.
  Форум: Медицинская статистика · Просмотр сообщения: #28079 · Ответов: 25 · Просмотров: 30176

passant
Отправлено: 17.01.2023 - 22:32





Группа: Пользователи
Сообщений: 231
Регистрация: 27.04.2016
Пользователь №: 28223


Цитата(Игорь @ 27.12.2022 - 09:51) *
По информации Stack Overflow на декабрь 2022 года на компьютерах разработчиков: Windows 48,82%; Linux 39,89%; macOS 32,97%.


Ключевое слово здесь "разработчиков". Да, у профессиональных разработчиков программного обеспечения (коими в основном и являются пользователи Stack Overflow) эта статистика скорее всего правильна. Но статистическими пакетами пользуются (не разрабатывают их, а именно пользуются ими) отнюдь не программисты, а простые пользователи - врачи, статистики, инженеры, педагоги, агрономы и пр. Я думаю, именно на них и ориентирован ваш продукт. Так что 87% Виндовс - гораздо более актуальная циферь.
  Форум: Медицинская статистика · Просмотр сообщения: #28001 · Ответов: 72 · Просмотров: 246584

passant
Отправлено: 6.09.2022 - 14:57





Группа: Пользователи
Сообщений: 231
Регистрация: 27.04.2016
Пользователь №: 28223


Цитата(ИНО @ 6.09.2022 - 08:16) *
Можно ссылку на эту статью? А то я только критерий Муда - Брауна знаю, а он о другом. Что касается фамилий этих ученых мужей в связи с линейной регррессией, то все, что выдал Гугл, - оценка неизвестного параметра наклона - тоже немного не то.

Цитата(Диагностик @ 6.09.2022 - 12:40) *
Проверяется гипотеза адекватности регрессии или пригодность выбранных ко-
эффициентов линейной регрессии. Есть у Кобзаря на стр. 653. - 5.3.1.1.3.1. Медианный критерий Брауна-Муда.




Кстати, очень интересный поворот.
Я попытался найти первоисточник информации о том, что обычный медианный критерий Брауна-Муда используется в разрезе упомянутой мною задачи. А именно : имеются априорные значения коэффициентов b0 и b1, имеется набор реальных значений {уi} и требуется ответить на вопрос относительно гипотезы "{уi} порожден моделью b0+b1*xi ".

Мне удалось найти вроде-бы первоисточник, на который ссылаются все остальные - по крайней мере русскоязычные - статьи и работы. Таким первоисточником есть известная книга-справочник Кобзаря, где отдельно указан и просто медианный критерий Муда (как аналог "F-статистике Фишера, когда вместо наблюдений используются их ранги. "), так и совершенно отдельный, в другом разделе, на стр. 653 критерий, о котором мы и говорим. Даже с уточнением, что исследуются остатки между реальными и модельными значениями и оценивается факт того, что медианы этих остатков для половины меньших значений и для половины больших значений х равны.
Но я не только нашел, я еще и попытался разобраться, что же там написано. К моему большому удивлению, хотя в справочнике есть аж две модификации этого критерия, описан этот метод весьма поверхностно, нетипично для данного справочника, без раскрытия всех обозначений и без таблицы распределения, которому данный критерий должен соотноситься (хотя два невесть как взявшихся вроде бы из этой таблицы значения для примера приведены). Естественно, как из одного варианта критерия получен другой - тоже ни слова.
Нет там и информации о том, как приведенные формулы выводятся из "общего медианного критерия Муда"(а они весьма отличны между собой).
Но зато есть отсылка к вроде-бы базовой работе, а именно, работе "Brown G. W., Mood A. M. On median tests for linear hypotheses // Proc. of the Second Berkeley Symp. on Math. Stat. And Prob., Univ. of Calif. Press., 1950. P. 159-166. " (Очевидно, это та работа, на которую ссылается уважаемый 100$)
Я дотошный, я нашел эту работу в сети: https://digitalassets.lib.berkeley.edu/math..._article-12.pdf И к огромному удивлению обнаружил, что в ней нет ни описанного у Кобзаря критерия, ни в одной из модификаций, ни требуемой таблицы, вообще ничего, что может послужить для решения задачи.
При этом поиски в англоязычном сегменте интернет ответа на вопрос о применении медианного критерия к задаче анализа остатков регрессионной модели - тоже к успеху не привели.

В общем, если у кого есть более достоверная информация по вопросу - буду благодарен за соответствующие ссылки.
P.S. На всякий случай, я не оспариваю формулы, приведенные у Кобзаря. Я пытаюсь разобраться, как они получены, какие ограничения на их использования, когда какую из двух лучше применять и пр.
  Форум: Медицинская статистика · Просмотр сообщения: #27726 · Ответов: 18 · Просмотров: 12611

passant
Отправлено: 3.09.2022 - 15:46





Группа: Пользователи
Сообщений: 231
Регистрация: 27.04.2016
Пользователь №: 28223


Спасибо всем участников слегка оживившегося форума :-) за интересные идеи и советы.

Цитата(100$ @ 31.08.2022 - 23:41) *
Конечно, не нужна. ....
А дальше возитесь с остатками, аки котенок с клубком.


Цитата(Диагностик @ 3.09.2022 - 01:42) *
Задать критическое значение уровня значимости критерия.



Попробовал. Узнал много нового :-). Ну например, сравнение модели с помощью коэффициента детерминации R2 (это конечно было известно и раньше), но вот как строить его доверительный интервал - никогда ранее не встречался. По крайней мере - нашел интересный материал, а по ходу - и методы аппроксимации и R2 и разности этого коэффициента для двух линейных регрессий.

К сожалению, попытка применить приобретённые знания к моей конкретной задаче успеха не принесли. Оказалось, что данный критерий обладает очень высоким уровнем ошибок II типа. Это конечно требует дополнительных исследований, на который сейчас времени нет.
Так что сейчас эта задача отложена в сторону, буду пробовать принципиально другие подходы.


Цитата(ИНО @ 2.09.2022 - 14:25) *
Вообще, применительно именно к Вашей задачи что-то мне вспомнился Байесовский подход. Я, правда, так в него и не смог въехать,....


Касательно Байесовского подхода - у меня абсолютно та-же ситуация. Несколько попыток "въехать" в него серьезным успехом не увенчались. Теперь тешусь, что я не один такой :-)

В общем, еще раз спасибо всем за идеи, подсказки и участие hi.gif
  Форум: Медицинская статистика · Просмотр сообщения: #27718 · Ответов: 18 · Просмотров: 12611

passant
Отправлено: 31.08.2022 - 23:05





Группа: Пользователи
Сообщений: 231
Регистрация: 27.04.2016
Пользователь №: 28223


Цитата(100$ @ 31.08.2022 - 22:01) *
Рыба утку спросила: - Вернется ль вода,
Что вчера утекла? Если да, то когда?
Утка ей отвечала: - Когда нас зажарят,
Разрешит все вопросы сковорода! (с) Хайям.

А в эконометрике на все вопросы отвечает тщательный анализ остатков. И счастлив тот изыскатель, чья модель удовлетворяет вполне определенному набору тестов.


Так нет у меня остатков. Вернее есть остатки относительно построенной регрессионной модели. И они могут быть хороши. Т.е. удовлетворять всему набору тестов. Но вот что мне дадут остатки от теоретической модели? Ну да, они будут "больше" остатков от регрессионной, и может быть несколько хуже по всяким тестам. Как понять, что они "больше/хуже", но не на столько, что-бы отклонять гипотезу?
P.S. Подумал - получается, что мне регрессионная модель в этом случае вообще не нужна? Надо подумать, как работать с остатками относительно заведомо не лучшей (с точки зрения МНК хотя бы) моделью. Спасибо за "направление" размышления.
  Форум: Медицинская статистика · Просмотр сообщения: #27714 · Ответов: 18 · Просмотров: 12611

passant
Отправлено: 31.08.2022 - 20:43





Группа: Пользователи
Сообщений: 231
Регистрация: 27.04.2016
Пользователь №: 28223


Уважаемые коллеги. Поскольку сегодня последний день лета, хотелось бы немного встряхнуть наш форум и вывести его из "дрёмы". За одно - и попросить помощи, потому как задача вроде-бы и не суперсложная, и тема сто раз рассмотренная, а вот как-то у меня ускользает и ее решения и пазл не складывается.

Итак.
Есть некоторый процесс и нам абсолютно точно известна его теоретическая модель (ну или точнее - "ожидаемая" модель, т.е. как согласно нашим предположениям должен себя вести наш процесс). Более того - известно, что эта модель линейна, т.е. y=b0+b1*x. Оба теоретических значений коэффициентов нам тоже известны.
Набираем экспериментальные данные, строим модель - самым простым и очевидным способом. В виде линейной регрессии.
Понимаем, что эта модель имеет право несколько отличаться от теоретической. А вот теперь вопрос: а можем-ли мы считать(при заданном уровне значимости, разумеется или еще лучше - на основе полученного p_value некоторого критерия), что наши экспериментальные данные действительно есть данные, сгенерированные нашей теоретической моделью с соответствующими шумовыми отклонениями?
Как ответить на этот вопрос?

Первая идея, которая пришла в голову - строить доверительные интервалы для коэффициентов регрессии и смотреть, входят ли коэффициенты теоретической модели в эти интервалы. Похоже (?) что этот подход не катит, хотя-бы потому, что точечные оценки регрессионной модели нельзя считать независимыми случайным величинами. Кроме того, если прикинуть, то получается, что построенные таким образом две прямые (теоретическая и регрессионная) даже при сколь угодно малых различиях в коэффициенте b1, рано или поздно разойдутся на плоскости сколь угодно далеко, и следовательно оценку можно проводить только при четко оговоренных ограничениях на значения х.
Вторая идея - посчитать Стандартную ошибку регрессии, отложить ее параллельно регрессионной прямой и посмотреть, не пересекает-ли теоретическая прямая эти границы - но снова, внутри некоторого интервала значений оси Х. И если наши экспериментальные данные все (?) лежат внутри этого интервала - удовлетвориться. Ну а если не все? Считать это выбросом? А на каком количестве таких "выбросов" отклонить исходную гипотезу? В общем- тут много неясностей.
Третья идея - строить доверительную область для регрессии (ввиду разной встречающейся терминологии - ту область, границы которой имеют форму сужающейся-расширяющейся "трубки" вокруг линии регрессии). Вот тут возможна ситуация, когда теоретическая прямая будет всегда располагаться внутри этой "трубки" (за счет указанной ее формы). Но для этого оба коэффициента (и именно их комбинация, а не по отдельности каждый) должны удовлетворять некоторым требованиям. И проверять именно этот факт, т.е. гипотезу "теоретическая прямая не пересекает границы доверительной области линии регрессии".
Возможно, существуют варианты решения без построения модели регрессии, а просто по сравнению теоретической прямой и экспериментальных данных. Просто ошибку эксперимента относительно теоретической модели считать? Ну так посчитать-то можно, и она всегда будет не минимальной. А как принять решение об отклонении или принятии гипотезы? Что-то в голову не приходит, а каким критерием тут можно было бы воспользоваться?
В общем, задача заключается в том, что-бы ответить не вопрос - а могли-ли (в статистическом смысле) экспериментальные данные представлять собой зашумленную реализацию теоретической модели?
Буду благодарен уважаемому сообществу если вы покритикуете представленные пути решения и/или предложите другие.
  Форум: Медицинская статистика · Просмотр сообщения: #27711 · Ответов: 18 · Просмотров: 12611

passant
Отправлено: 17.08.2022 - 16:37





Группа: Пользователи
Сообщений: 231
Регистрация: 27.04.2016
Пользователь №: 28223


salm "У меня программа строит график зависимости вероятности от непрерывной переменной ввиду двух кривых - одна для случаев с наличием дефекта, другая - при его отсутствии. Могу ли я, опираясь она значение порога вероятности, воспользоваться графиком вот этой непрерывной переменной? Или прям совсем ахинея?"

Нет, ахинеей я бы это не назвал. Потому что ахинея - это когда человек говорит нечто, не желая разобраться в сути. У вас же ясно видно ваше желание, вот только с базовыми знаниями по матстатистике - увы. Это еще раз подтверждает мою концепцию, что врач должен лечить, а заставлять его еще и в статанализе разбираться - это чистой воды садизм.

Еще раз, я не врач, поэтому не все, о чем вы пишете я в состоянии понять. Но вот из того, что вроде как понял.

Изначально у вас есть именно "метод 2" - т.е. для каждого пациента показатель "чего-то" измерен в "непрерывной шкале", а предиктором выступает тоже некоторый "непрерывный" признак. Ну например - возраст. Вы строите некоторый график зависимости этого "чего-то" от "возраста" - ну например "среднее давление", или "вероятность летального исхода" или еще что-то такое. Вот тут возникает первый вопрос - а что за модель у вас? Регрессия? Модель линейная?

Теперь вы вдруг хотите перейти к методу 1 - т.е. разбить все значения на некоторые группы, т.е. по сути перейти от "непрерывной" переменной к какой-нибудь номинальной(на самой деле - "ранговой", но тут тонкости мы опустим") Это существенное ОГРУБЛЕНИЕ ваших результатов. Всегда и при любых обстоятельствах. Мы об этом уже говорили, например, вот тут: http://forum.disser.ru/index.php?s=&sh...ost&p=27265 И в итоге у вас оказывается "бинарная оценка" и соответственно таблица 2х2 . Ну например: возраст "трудоспособный" - "пенсионный", давление "повышенное" ( по вашему "есть дефект")-"нормальное" (нет дефекта). Правда у вас в вопросе таблица 4х4 - могу только вообразить "дети"-"подростки"-взрослые"-пенсионеры" и "пониженное", "нормальное", "выше нормы", "гипертония". - но это уже как бы не "бинарная" шкала. Уточните. И уточните за одно , как при этом надо понимать фразу про две кривые - "одна для случаев с наличием дефекта, другая - при его отсутствии", если наличие или отсутствие дефекта и есть ваша целевая переменная. Кривые - это зависимости, но вот чего от чего???

Вопрос - как вы собрались "поднимать диагностическую точность ", если данные вы заведомо огрубили ?
Вижу только один возможный (и то не факт, что приводящий к искомой цели) путь. Если ваша изначальная модель была линейно-регрессионная, то есть шанс, что построив линейную модель, но по отдельности для каждой возрастной группы в отдельности (при этом вернувшись к непрерывному представлению целевого показателя) "диагностическая точность" (по сути вероятность ошибки) ваших моделей окажутся выше (ошибки - меньше).

Насколько можно понять из вашего вопроса, вас волнует вопрос выбора точек, разделяющих элементы каждой из указанных возрастных групп. Тут существуют различные подходы, но все они корнями уходят в теорию Change Point Detection (страшно подумать, кому и зачем надо заставлять врачей разбираться еще и в этом).

Поэтому я пока умолкаю, так как не уверен, что правильно сумел проинтерпретировать вашу задачу. Не если это то что вам надо - напишите, я попробую дать вам хотя-бы наводку на основные методы СPD. А если нет, но дальнейшее углубление в вопрос для вас важно - напишите, в каком месте моих пояснений я отклонился от вашей прикладной задачи.
  Форум: Медицинская статистика · Просмотр сообщения: #27644 · Ответов: 93 · Просмотров: 55285

passant
Отправлено: 6.08.2022 - 12:55





Группа: Пользователи
Сообщений: 231
Регистрация: 27.04.2016
Пользователь №: 28223


Одно общее замечание.
Термину "Искусственный интеллект" - место в научно-популярной литературе, в маркетинговых статьях, в материалах по профориентации школьников и в фильмах, где герой с помощью этого самого ИИ спасает то-ли человечество то-ли собачку соседа.
В серьёзной научной литературе, тем более в ГОСТах, тем более по медицине - это чистая профанация и попытка сыграть на хайпе. Ну или пустить пыль в глаза вышестоящему начальству.
  Форум: Медицинская статистика · Просмотр сообщения: #27554 · Ответов: 16 · Просмотров: 22613

passant
Отправлено: 20.07.2022 - 23:13





Группа: Пользователи
Сообщений: 231
Регистрация: 27.04.2016
Пользователь №: 28223


Цитата(ИНО @ 20.07.2022 - 15:38) *
Вы забыли сформулировать вопрос. А то, может, критерии вполне годно отвечают, но совсем не на тот, который интересует Вас. Например, доказано теоретически им многократно подтверждено моделированием, что при соблюдении допущений (и даже при небольшом отклонении от них) старый добрый критерий Стьюдента является наиболее мощным для проверки однородности математических ожиданий (а это самая популярная проблема прикладной статистики). Критерии, использующие эмпирическую функцию распределения, например критерий Смирнова, для этой конкретной задачи будут иметь сильно меньшую мощность. На самом деле, чем уже мы формулируем гипотезы (как нулевую так и альтернативную), тем большей мощности можем достичь при проверке. Например, если стоит задача проверить однородноть всех параметров распределения можно последовательно сравнить две выборок оп целому ряду критериев, проверяющих по отдельности равенство средних, дисперсий, асимметрии, эксцесса и др., а затем, чтобы не идти на компромисс с совестью, провести коррекцию уровня значимости для множественных сравнений тем или иным методом (путь А). Либо сразу применить, например, критерий Смирнова (путь Б). В и тоге в первом и втором случаях порядок достигаемого уровня значимости окажется б. м. сопоставимым (с критерием Смирнова p скорее всего получится все ж поменьше, но это только потому что так и не изобрели по-настоящему корректного метода контроля ошибки первого рода для множественных сравнений). Если же мы интересуемся различиями только в одном из параметров, например матожиданиях, то применяем, например, критерий Стьюдента и на этом останавливаемся, получая на порядок большую мощность (путь В). Часто встречающееся лукавство исследователей состоит в том, что они идут по пути А, а когда находят значимое различие в одном из параметров, забывают о всех прочих проведенных тестах и делают вид, что шли по пути В.

Спасибо. В Вашем сообщении я нашел много пищи для размышления. Вроде бы и все отдельно само по себе известно и понятно, но вы как-то так все сформулировали, что у меня (по крайней мере в первом приближении) сложился пазл, нарисовался план дальнейших движений. Действительно, спасибо!

Впрочем, может еще кто из коллег захочет высказаться - буду слушать (читать) с благодарностью.
  Форум: Медицинская статистика · Просмотр сообщения: #27489 · Ответов: 25 · Просмотров: 24405

10 страниц V   1 2 3 > » 

Открытая тема (есть новые ответы)  Открытая тема (есть новые ответы)
Открытая тема (нет новых ответов)  Открытая тема (нет новых ответов)
Горячая тема (есть новые ответы)  Горячая тема (есть новые ответы)
Горячая тема (нет новых ответов)  Горячая тема (нет новых ответов)
Опрос (есть новые голоса)  Опрос (есть новые голоса)
Опрос (нет новых голосов)  Опрос (нет новых голосов)
Закрытая тема  Закрытая тема
Тема перемещена  Тема перемещена