Форум врачей-аспирантов

Здравствуйте, гость ( Вход | Регистрация )

2 страниц V  < 1 2  
Добавить ответ в эту темуОткрыть тему
> Одновыборочный z-тест для пропорций
100$
сообщение 20.02.2023 - 16:06
Сообщение #16





Группа: Пользователи
Сообщений: 902
Регистрация: 23.08.2010
Пользователь №: 22694



Цитата
По поводу формул. Правильная первая.

Цитата
Корректные формулы в книге Флейса


Эти чрезвычайно полезные сведения, пленяющие своей доказательностью, требуют от докладчиков ответа на простенький вопрос:
почему у Флейса в разбираемом на стр. 27 примере (формула 2.12) теста стандартная ошибка биномиального параметра Po=.75 ген. совокупности (вообще-то, известного до опыта) определяется по выборочному объему n?
По этой же самой выборке определяется и выборочная оценка P=23/25=.92 с ошибкой Std.Err=Корень(,92*,08/25)=.0543 (вторая формула из стартового поста).
Флейс как-то технично подвесил интригу. Может быть вы также хором внесете ясность?

Про то, что в теории вероятностей событие нулевой вероятности объявляется невозможным даже писать не хочецца...

Сообщение отредактировал 100$ - 20.02.2023 - 16:15
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Игорь
сообщение 20.02.2023 - 19:18
Сообщение #17





Группа: Пользователи
Сообщений: 1114
Регистрация: 10.04.2007
Пользователь №: 4040



Посмотрел русское издание Флейса (перевод первого издания от 1981 года, при известной настойчивости можно найти smile.gif ), чтобы пробелы в знании иностранного языка не усугубляли восприятие материала. С. 24 дает подробное пояснение относительно формул и чисел, не оставляя возможности иной трактовки, чем сказано выше.

Сообщение отредактировал Игорь - 20.02.2023 - 19:43


Signature
Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
ИНО
сообщение 20.02.2023 - 23:15
Сообщение #18





Группа: Пользователи
Сообщений: 204
Регистрация: 1.06.2022
Из: Донецк
Пользователь №: 39632



Цитата(passant @ 20.02.2023 - 13:11) *
Есть конкретная ситуация, описанная выше. Какой критерий подходит? Одновыборочный?

"Выше" - это где? Потому как я уже сбился со счета разных ситуаций, которые Вы описали в этой теме, в каждой из которых надо применять иной критерий, чем в для предыдущей. Если с подбором корректных аналогий у Вас плохо, опишите уже совою реальную ситуацию. Или это чисто теоретический треп из серии "а можно ли все-таки удалить миндалины эндоскопом через анус?"
Цитата
Но признаюсь, про асимптотику Барнарда - не в курсе.

А кто говорил об асимптотике? Все известные мне версии критерия Барнарда точные.

Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
passant
сообщение 21.02.2023 - 13:57
Сообщение #19





Группа: Пользователи
Сообщений: 231
Регистрация: 27.04.2016
Пользователь №: 28223



Цитата(ИНО @ 20.02.2023 - 23:15) *
"Выше" - это где?

В первом сообщении этой темы. Вопрос звучал так:

"Задача классическая. Требуется провести одновыборочный z-тест для пропорций. вопрос - а каково буде значение этого критерия при pтеор=0 ?
То есть, мы не ожидаем появления положительных событий вообще, а они происходят?"
А также, поскольку понятно, что работа в условиях известного матожидания и дисперсии бесконечной по своей природе генеральной совокупности - это абстракция, возник параллельный вопрос - какой из критериев в описанной ситуации необходимо применить двухвыборочный или одновыборочный.

Чисто статистические вопросы и ищется чисто формальный ответ.

Коллеги попросили привести реальный пример. Учитывая, что форум медицинский, попытался найти медицинскую-же аналогию. Оказалось, что прикладной аспект в данном случае может некоторым помешать ответить на формальный вопрос.

Вы сами привели пример с шарами. В ответ я привел пример из технической диагностики - теперь уже надеюсь хотя и прикладной и вполне реальный, но очень близкий к формальной сути задачи.

Цитата(ИНО @ 20.02.2023 - 23:15) *
Потому как я уже сбился со счета разных ситуаций, которые Вы описали в этой теме, в каждой из которых надо применять иной критерий, чем в для предыдущей.


Всего две. Не знаю, разные-ли критерии надо применять для них (для случая выздоровления и для случая появления alarm-сигналов) . И если разные - то почему? В какой ситуации - какой?

Цитата(ИНО @ 20.02.2023 - 23:15) *
Если с подбором корректных аналогий у Вас плохо, опишите уже совою реальную ситуацию. Или это чисто теоретический треп из серии "а можно ли все-таки удалить миндалины эндоскопом через анус?"

Ну, кому "миндалины эндоскопом через анус" - а кому вполне реальная задача из области Change Point Detection при потоковом поступлении данных (для тех.диагностики - еще и в режиме on-line) ..

Сообщение отредактировал passant - 21.02.2023 - 14:06
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
ИНО
сообщение 21.02.2023 - 14:34
Сообщение #20





Группа: Пользователи
Сообщений: 204
Регистрация: 1.06.2022
Из: Донецк
Пользователь №: 39632



Извините за резкость, но Вы упорно гоните какую-то дичь. Там, где речь идет о проверке соответствия эмпирической величины некоторому заданному теоретическому параметру или закону распределения, само собой разумеется, нужно применять одновыборочный критерий, он же критерий согласия. И это вполне реалистичная ситуация, возникающая при проверке соответствия наблюдаемой картины мира некой теоретической модели, которая была создана не статистическими методами. Например, гипотезы об идеально сбалансированной монетке, которая обязана падать орлом кверху ровно при половине подбрасываний. Или о равном соотношении полов в потомстве. Или законов Менделя. И т. д. В вашем случае все еще проще, поскольку постулируете "теорвер=0", что автоматически выводит задачу из категории решаемых статистическими методами, о чем Вам уже весьма ясно и недвусмысленно сказали.

Но далее Вы описываете совершенно иную задачу о сравнении долей двух выборок. Пусть даже одна из них сильно больше второй, это еще не дает права считать ее генеральной совокупностью. Здесь нужен критерий двухвыборочный, он же критерий однородности. Разницу между согласием и однородностью улавливаете? И да, в зависимости от объемов выборок и наблюдаемых частот следует использовать разные критерии однородности. Когда я говорил о Барнарде, опирался на конкретное описание проблемы с пациентами, а их (особенно со 100% летальностью в одной из групп) всегда достаточно мало, чтобы можно было посчитать этот критерий на компьютере даже в самой кондовой оригинальной версии за приемлемое время. Но, поскольку далее Вы от медицины открестились, то, возможно, работаете с огромными выборками, где Барнарда пришлось бы считать до старости, в то время как и простая асимптотика была бы практически столь же эффективна. А дальше задача неожиданно трансформировалась в анализ временных рядов (насколько я могу судить по словосочетанию "Change Point Detection"). Да еще и на лету. Бурная эволюция исследовательской мысли - это, конечно, хорошо, но требовать один единственноправильный критерий на все порожденные ею экспериментальные планы весьма странно.

Сообщение отредактировал ИНО - 21.02.2023 - 14:35
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
passant
сообщение 21.02.2023 - 19:12
Сообщение #21





Группа: Пользователи
Сообщений: 231
Регистрация: 27.04.2016
Пользователь №: 28223



Цитата(ИНО @ 21.02.2023 - 14:34) *
Извините за резкость, но Вы упорно гоните какую-то дичь. ...... Бурная эволюция исследовательской мысли - это, конечно, хорошо, но требовать один единственноправильный критерий на все порожденные ею экспериментальные планы весьма странно.


Вы упорно подменяете мои вопросы, потом показываете, что эта подмена - дичь, а потом называете это бурной эволюцией мысли. Не смею с вами и вашим авторитетом спорить, но:

Цитата(ИНО @ 21.02.2023 - 14:34) *
требовать один единственноправильный критерий на все порожденные ею экспериментальные планы

Никто этого не требовал, и я прекрасно понимаю разницу между одновыборочным и двухвыборочным критерием.
Вопрос стоял иначе. Применимость обоих критериев для случая, когда одна из выборок "нулевая", оказывается под вопросом. Одного - из-за деления на нуль, второго - из за ограничений на размер доли. Как поступать в таком случае? И уж точно речь не шла о выдуманной вами "самопальной формуле".

Цитата(ИНО @ 21.02.2023 - 14:34) *
задача неожиданно трансформировалась в анализ временных рядов (насколько я могу судить по словосочетанию "Change Point Detection"). Да еще и на лету.


Наоборот. Практически все задачи CPD временных рядов так или иначе сводятся к задаче анализа гипотез. Разных. Для разных входных данных. Разных условий. И нет ничего странного, что для случая временных рядов событий она может быть в некоторых случаях сведена в том числе и к проверке гипотезы равенства доль. (Да, можно вообще применять методы анализ потоков событий, можно и другими способами воспользоваться. Но не об этом сейчас речь). Можно говорить об эффективности самого z-теста по сравнению с другими тестами. Но тем не менее, этот тест вполне себе удовлетворительно срабатывает для случая, если анализируемые выборки (отрезки ряда) в обязательном порядке включают сигналы события. А если нет? Программе мониторинга об этом заведомо неизвестно. Вопрос - можно-ли в таком случае воспользоваться двухвыборочным критерием (да/нет) и если нет - то анализируется-ли такая ситуация в известных реализациях?


При реализации систем мониторинга на предмет СPD, действительно, иногда (особенно для случая экстремально редких событий) удобнее не использовать расчет доли для каждого очередного положения скользящего окна, а выполнять накопительный перерасчет доли (например - до появления первого события), а вторую выборку собирать начиная от этого события. И тут сразу два вопроса - 1) сколько элементов надо накопить во второй выборке до принятия решения и 2) если первая выборка очень большая (вопрос по ходу - на сколько она должна бать большая?) можно ли применить одновыборочный критерий (при этом необходимо оказывается, что значение доли в первой ("теоретической") выборке равна нулю).

Да, эта задача не имеет ничего общего ни мешком с шариками, ни с теоретически ожидаемой вероятностью выпадения монетки ( примеры которые приводил не я), но это вполне реальная, практическая задача. Которую к тому-же надо решать (принимать решение) автоматизировано за разумное время, но желательно - как можно быстрее.

Даже в упрощенном описании в задаче очень много взаимосвязанных вопросов. И если бы я начал с описания реального алгоритма СPD, вопросов ко мне и непонимания задачи возникло бы на порядок больше. Впрочем, многие сразу поняли о чем речь, значит я был не очень и неправ, пойдя таким путем формализации. Я выделил формальный вопрос о критериях применимости одновыборочного и двухвыборочного z-теста, но не общих, а для описанного особого случая. Все. И даже явно написал в первом-же сообщении: "Допускаю, что чего-то где-то недоучитываю. Или просто запутался. Или ответ на поверхности, но я его просто не замечаю". Как оказалось даже такая рафинированная задача оказалась все-же не совсем тривиальной. А что-бы было, если бы я сразу окунул коллег в тонкости исходной прикладной задачи, еще и нагрузив ее особенностями программной реализации алгоритма?

Это вполне реальная, задача. И проблемы возникают при попытках адаптации теоретических алгоритмов к этой прикладной задаче. Что само по себе - обычное дело при применении на практике (вон, выше даже регламент выдачи лицензий необходимо в некоторых случаях учитывать, оказывается). Мне это все дичью не кажется. Если у вас такое представление - вы вольны игнорировать мои вопросы. Но многие коллеги мне подсказали идеи поиска решения, и снабдили ранее мне не известными источниками информации, за что я им еще раз благодарен.

Сообщение отредактировал passant - 21.02.2023 - 19:21
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
ИНО
сообщение 22.02.2023 - 05:06
Сообщение #22





Группа: Пользователи
Сообщений: 204
Регистрация: 1.06.2022
Из: Донецк
Пользователь №: 39632



Как же тебя помнешь, если ты ничего не говоришь(С). Приходится додумывать, в связи с чем превратное понимание закономерно.

Пока что я понял только один вопрос: можно ли использовать одновыборочный критерий в двухвыборочной задаче, где одна из выборок - "нулевая"? Ответ - нельзя, поскольку эта "нулевость" - не параметр распределения, а его точечная выборочная оценка. Не исключено, что если б выборку еще увеличении, то в ней таки попалась бы парочка единиц. Поэтому надо использовать двухвыборочный критерий. Посмотрел на формулу двухвыборочного z-критерия - ноль в одной из выборок никак не мешает. Ноль в знаменателе появляется лишь в одном случае - если в обеих выборках одни только нули или одни только единицы. Вот только со сходимостью распределения статистики к нормальному закону в случае с нулевыми долями, сильно подозреваю, что все плохо.

Сообщение отредактировал ИНО - 22.02.2023 - 05:13
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Игорь
сообщение 26.02.2023 - 14:05
Сообщение #23





Группа: Пользователи
Сообщений: 1114
Регистрация: 10.04.2007
Пользователь №: 4040



Спешу поделиться ссылкой о мерах против "нуля" (короче, нуля, ставшего камнем преткновения в настоящей теме, не бывает): https://www.pharmacokinetica.ru/jour/article/view/97/97 В статье и другие полезные формулы, примеры и ссылки.

P.S. Для комплекта https://www.pharmacokinetica.ru/jour/article/view/253/248

Сообщение отредактировал Игорь - 26.02.2023 - 17:02


Signature
Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
nokh
сообщение 26.02.2023 - 20:39
Сообщение #24





Группа: Пользователи
Сообщений: 1202
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704



Цитата(Игорь @ 26.02.2023 - 16:05) *
Спешу поделиться ссылкой о мерах против "нуля" (короче, нуля, ставшего камнем преткновения в настоящей теме, не бывает):

Да нет же, не рожают кенгуру китайцев, вероятность - нулевая. Я согласен с ИНО: задача совсем не одновыборочная. Раз реализуется невозможное событие, значит что-то изменилось, из ряда когда возможны только нули выбилась единица. С этого момента открываем новую линию событий, тест становится двухвыборочным, а мы начинаем считать вероятность в новых реалиях.

А дядька по вашим ссылкам порадовал - реально отстал от жизни прямо на 30 лет. Я ещё в аспирантуре (год 1995) знал про точные методы для таблиц сопряжённости, про G-критерий и логлинейный анализ, про отклонения Фримана-Тьюки и прочее, что в статье даже не упоминается. Чуть позже узнал, что точный метод Фишера плох чисто теоретически, т.к. основан на гипергеометрическом распределении, а применяется к биномиальному, а также про согласованные остатки Хабермана для таблиц сопряжённости. Ещё позже, лет 7? назад - про ДИ Джеффриса, и про то, что нормальная аппроксимация Вальда плоха и не рекомендуется к использованию при расчёте ДИ вообще. Ну а 5 лет назад узнал, что шотландская приставка Мак по правилам русского языка пишется слитно и никак не отделяется: просто Макнемар (как Макдональдс). Короче, "В печку её!" (с)
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Игорь
сообщение 26.02.2023 - 21:50
Сообщение #25





Группа: Пользователи
Сообщений: 1114
Регистрация: 10.04.2007
Пользователь №: 4040



Цитата(nokh @ 26.02.2023 - 21:39) *
вероятность - нулевая. Я согласен с ИНО: задача совсем не одновыборочная.
Ваш остроумный пример не имеет отношения к статистике. Да и данные как минимум неоднородны: эмпирическая выборка - часть генеральной совокупности, по которой в случае доказанной репрезентативности мы можем судить о популяции. Если событие хоть раз зафиксировано в выборке , оно не исключено в генеральной совокупности. Отсюда постулирование нулевой вероятности события в популяции некорректно. Поэтому форула может быть скорректирована, как показано в источнике. В самом деле 0,0000000000000000001 и 0 в вычислительном смысле - одно и то же: более точное значение различимого нуля называется MACHEPS и легко вычисляется для конкретной системы.
Цитата(nokh @ 26.02.2023 - 21:39) *
реально отстал от жизни прямо на 30 лет.
Что-то я за Ньютона-Рафсона и Гаусса обеспокоился - не запретили бы. Типа как у нас в областной библиотеке - получили приказ списать всю научную литературу издания до определенного года (не помню сейчас - до 2000-го, что ли). Слава богу, не сдали в макулатуру, а предложили всем желающим забрать бесплатно. Мы с коллегой десятка два хороших книг по статистике спасли.
Цитата(nokh @ 26.02.2023 - 21:39) *
Я ещё в аспирантуре (год 1995) знал про точные методы для таблиц сопряжённости, про G-критерий и логлинейный анализ, про отклонения Фримана-Тьюки и прочее, что в статье даже не упоминается. Чуть позже узнал, что точный метод Фишера плох чисто теоретически, т.к. основан на гипергеометрическом распределении, а применяется к биномиальному, а также про согласованные остатки Хабермана для таблиц сопряжённости. Ещё позже, лет 7? назад - про ДИ Джеффриса, и про то, что нормальная аппроксимация Вальда плоха и не рекомендуется к использованию при расчёте ДИ вообще.
Поэтому и предпочитаю при разработке ПО ссылки на монографии, пусть даже "просроченные". Идея подсмотрена у лучших программных проектов. Статьи - в редких случаях. Уж очень часто их отзывают - об отзыве монографий не слышал.
Цитата(nokh @ 26.02.2023 - 21:39) *
Ну а 5 лет назад узнал, что шотландская приставка Мак по правилам русского языка пишется слитно и никак не отделяется: просто Макнемар (как Макдональдс). Короче, "В печку её!" (с)
Точно! А предмет обсуждения в данной теме по-русски называется "доля" (из английского перевода single proportion драматическим образом пропало первое слово, превратив предмет обсуждения непонятно во что). А что именно называется пропорцией - первая ссылка в поиске Яндекса. Подтверждение сказанного: формулы и терминология из популярной программы https://www.spss-tutorials.com/z-test-and-c...gle-proportion/

Сообщение отредактировал Игорь - 3.03.2023 - 09:58


Signature
Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
100$
сообщение 27.02.2023 - 14:06
Сообщение #26





Группа: Пользователи
Сообщений: 902
Регистрация: 23.08.2010
Пользователь №: 22694



Ответил на свой вопрос устами проф. Агрести.

В общем, на ключевой вопрос темы : "А какая формула правильная" правильный ответ - "Обе хуже. Но первая, возможно, обладает более приятными стат. свойствами в плане построения ДИ".

Сообщение отредактировал 100$ - 27.02.2023 - 14:08
Эскизы прикрепленных изображений
Прикрепленное изображение
 
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 

2 страниц V  < 1 2
Добавить ответ в эту темуОткрыть тему