Одновыборочный z-тест для пропорций |
Здравствуйте, гость ( Вход | Регистрация )
Одновыборочный z-тест для пропорций |
20.02.2023 - 16:06
Сообщение
#16
|
|
Группа: Пользователи Сообщений: 902 Регистрация: 23.08.2010 Пользователь №: 22694 |
Цитата По поводу формул. Правильная первая. Цитата Корректные формулы в книге Флейса Эти чрезвычайно полезные сведения, пленяющие своей доказательностью, требуют от докладчиков ответа на простенький вопрос: почему у Флейса в разбираемом на стр. 27 примере (формула 2.12) теста стандартная ошибка биномиального параметра Po=.75 ген. совокупности (вообще-то, известного до опыта) определяется по выборочному объему n? По этой же самой выборке определяется и выборочная оценка P=23/25=.92 с ошибкой Std.Err=Корень(,92*,08/25)=.0543 (вторая формула из стартового поста). Флейс как-то технично подвесил интригу. Может быть вы также хором внесете ясность? Про то, что в теории вероятностей событие нулевой вероятности объявляется невозможным даже писать не хочецца... Сообщение отредактировал 100$ - 20.02.2023 - 16:15 |
|
20.02.2023 - 19:18
Сообщение
#17
|
|
Группа: Пользователи Сообщений: 1114 Регистрация: 10.04.2007 Пользователь №: 4040 |
Посмотрел русское издание Флейса (перевод первого издания от 1981 года, при известной настойчивости можно найти ), чтобы пробелы в знании иностранного языка не усугубляли восприятие материала. С. 24 дает подробное пояснение относительно формул и чисел, не оставляя возможности иной трактовки, чем сказано выше.
Сообщение отредактировал Игорь - 20.02.2023 - 19:43 Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!
|
|
20.02.2023 - 23:15
Сообщение
#18
|
|
Группа: Пользователи Сообщений: 204 Регистрация: 1.06.2022 Из: Донецк Пользователь №: 39632 |
Есть конкретная ситуация, описанная выше. Какой критерий подходит? Одновыборочный? "Выше" - это где? Потому как я уже сбился со счета разных ситуаций, которые Вы описали в этой теме, в каждой из которых надо применять иной критерий, чем в для предыдущей. Если с подбором корректных аналогий у Вас плохо, опишите уже совою реальную ситуацию. Или это чисто теоретический треп из серии "а можно ли все-таки удалить миндалины эндоскопом через анус?" Цитата Но признаюсь, про асимптотику Барнарда - не в курсе. А кто говорил об асимптотике? Все известные мне версии критерия Барнарда точные. |
|
21.02.2023 - 13:57
Сообщение
#19
|
|
Группа: Пользователи Сообщений: 231 Регистрация: 27.04.2016 Пользователь №: 28223 |
"Выше" - это где? В первом сообщении этой темы. Вопрос звучал так: "Задача классическая. Требуется провести одновыборочный z-тест для пропорций. вопрос - а каково буде значение этого критерия при pтеор=0 ? То есть, мы не ожидаем появления положительных событий вообще, а они происходят?" А также, поскольку понятно, что работа в условиях известного матожидания и дисперсии бесконечной по своей природе генеральной совокупности - это абстракция, возник параллельный вопрос - какой из критериев в описанной ситуации необходимо применить двухвыборочный или одновыборочный. Чисто статистические вопросы и ищется чисто формальный ответ. Коллеги попросили привести реальный пример. Учитывая, что форум медицинский, попытался найти медицинскую-же аналогию. Оказалось, что прикладной аспект в данном случае может некоторым помешать ответить на формальный вопрос. Вы сами привели пример с шарами. В ответ я привел пример из технической диагностики - теперь уже надеюсь хотя и прикладной и вполне реальный, но очень близкий к формальной сути задачи. Потому как я уже сбился со счета разных ситуаций, которые Вы описали в этой теме, в каждой из которых надо применять иной критерий, чем в для предыдущей. Всего две. Не знаю, разные-ли критерии надо применять для них (для случая выздоровления и для случая появления alarm-сигналов) . И если разные - то почему? В какой ситуации - какой? Если с подбором корректных аналогий у Вас плохо, опишите уже совою реальную ситуацию. Или это чисто теоретический треп из серии "а можно ли все-таки удалить миндалины эндоскопом через анус?" Ну, кому "миндалины эндоскопом через анус" - а кому вполне реальная задача из области Change Point Detection при потоковом поступлении данных (для тех.диагностики - еще и в режиме on-line) .. Сообщение отредактировал passant - 21.02.2023 - 14:06 |
|
21.02.2023 - 14:34
Сообщение
#20
|
|
Группа: Пользователи Сообщений: 204 Регистрация: 1.06.2022 Из: Донецк Пользователь №: 39632 |
Извините за резкость, но Вы упорно гоните какую-то дичь. Там, где речь идет о проверке соответствия эмпирической величины некоторому заданному теоретическому параметру или закону распределения, само собой разумеется, нужно применять одновыборочный критерий, он же критерий согласия. И это вполне реалистичная ситуация, возникающая при проверке соответствия наблюдаемой картины мира некой теоретической модели, которая была создана не статистическими методами. Например, гипотезы об идеально сбалансированной монетке, которая обязана падать орлом кверху ровно при половине подбрасываний. Или о равном соотношении полов в потомстве. Или законов Менделя. И т. д. В вашем случае все еще проще, поскольку постулируете "теорвер=0", что автоматически выводит задачу из категории решаемых статистическими методами, о чем Вам уже весьма ясно и недвусмысленно сказали.
Но далее Вы описываете совершенно иную задачу о сравнении долей двух выборок. Пусть даже одна из них сильно больше второй, это еще не дает права считать ее генеральной совокупностью. Здесь нужен критерий двухвыборочный, он же критерий однородности. Разницу между согласием и однородностью улавливаете? И да, в зависимости от объемов выборок и наблюдаемых частот следует использовать разные критерии однородности. Когда я говорил о Барнарде, опирался на конкретное описание проблемы с пациентами, а их (особенно со 100% летальностью в одной из групп) всегда достаточно мало, чтобы можно было посчитать этот критерий на компьютере даже в самой кондовой оригинальной версии за приемлемое время. Но, поскольку далее Вы от медицины открестились, то, возможно, работаете с огромными выборками, где Барнарда пришлось бы считать до старости, в то время как и простая асимптотика была бы практически столь же эффективна. А дальше задача неожиданно трансформировалась в анализ временных рядов (насколько я могу судить по словосочетанию "Change Point Detection"). Да еще и на лету. Бурная эволюция исследовательской мысли - это, конечно, хорошо, но требовать один единственноправильный критерий на все порожденные ею экспериментальные планы весьма странно. Сообщение отредактировал ИНО - 21.02.2023 - 14:35 |
|
21.02.2023 - 19:12
Сообщение
#21
|
|
Группа: Пользователи Сообщений: 231 Регистрация: 27.04.2016 Пользователь №: 28223 |
Извините за резкость, но Вы упорно гоните какую-то дичь. ...... Бурная эволюция исследовательской мысли - это, конечно, хорошо, но требовать один единственноправильный критерий на все порожденные ею экспериментальные планы весьма странно. Вы упорно подменяете мои вопросы, потом показываете, что эта подмена - дичь, а потом называете это бурной эволюцией мысли. Не смею с вами и вашим авторитетом спорить, но: требовать один единственноправильный критерий на все порожденные ею экспериментальные планы Никто этого не требовал, и я прекрасно понимаю разницу между одновыборочным и двухвыборочным критерием. Вопрос стоял иначе. Применимость обоих критериев для случая, когда одна из выборок "нулевая", оказывается под вопросом. Одного - из-за деления на нуль, второго - из за ограничений на размер доли. Как поступать в таком случае? И уж точно речь не шла о выдуманной вами "самопальной формуле". задача неожиданно трансформировалась в анализ временных рядов (насколько я могу судить по словосочетанию "Change Point Detection"). Да еще и на лету. Наоборот. Практически все задачи CPD временных рядов так или иначе сводятся к задаче анализа гипотез. Разных. Для разных входных данных. Разных условий. И нет ничего странного, что для случая временных рядов событий она может быть в некоторых случаях сведена в том числе и к проверке гипотезы равенства доль. (Да, можно вообще применять методы анализ потоков событий, можно и другими способами воспользоваться. Но не об этом сейчас речь). Можно говорить об эффективности самого z-теста по сравнению с другими тестами. Но тем не менее, этот тест вполне себе удовлетворительно срабатывает для случая, если анализируемые выборки (отрезки ряда) в обязательном порядке включают сигналы события. А если нет? Программе мониторинга об этом заведомо неизвестно. Вопрос - можно-ли в таком случае воспользоваться двухвыборочным критерием (да/нет) и если нет - то анализируется-ли такая ситуация в известных реализациях? При реализации систем мониторинга на предмет СPD, действительно, иногда (особенно для случая экстремально редких событий) удобнее не использовать расчет доли для каждого очередного положения скользящего окна, а выполнять накопительный перерасчет доли (например - до появления первого события), а вторую выборку собирать начиная от этого события. И тут сразу два вопроса - 1) сколько элементов надо накопить во второй выборке до принятия решения и 2) если первая выборка очень большая (вопрос по ходу - на сколько она должна бать большая?) можно ли применить одновыборочный критерий (при этом необходимо оказывается, что значение доли в первой ("теоретической") выборке равна нулю). Да, эта задача не имеет ничего общего ни мешком с шариками, ни с теоретически ожидаемой вероятностью выпадения монетки ( примеры которые приводил не я), но это вполне реальная, практическая задача. Которую к тому-же надо решать (принимать решение) автоматизировано за разумное время, но желательно - как можно быстрее. Даже в упрощенном описании в задаче очень много взаимосвязанных вопросов. И если бы я начал с описания реального алгоритма СPD, вопросов ко мне и непонимания задачи возникло бы на порядок больше. Впрочем, многие сразу поняли о чем речь, значит я был не очень и неправ, пойдя таким путем формализации. Я выделил формальный вопрос о критериях применимости одновыборочного и двухвыборочного z-теста, но не общих, а для описанного особого случая. Все. И даже явно написал в первом-же сообщении: "Допускаю, что чего-то где-то недоучитываю. Или просто запутался. Или ответ на поверхности, но я его просто не замечаю". Как оказалось даже такая рафинированная задача оказалась все-же не совсем тривиальной. А что-бы было, если бы я сразу окунул коллег в тонкости исходной прикладной задачи, еще и нагрузив ее особенностями программной реализации алгоритма? Это вполне реальная, задача. И проблемы возникают при попытках адаптации теоретических алгоритмов к этой прикладной задаче. Что само по себе - обычное дело при применении на практике (вон, выше даже регламент выдачи лицензий необходимо в некоторых случаях учитывать, оказывается). Мне это все дичью не кажется. Если у вас такое представление - вы вольны игнорировать мои вопросы. Но многие коллеги мне подсказали идеи поиска решения, и снабдили ранее мне не известными источниками информации, за что я им еще раз благодарен. Сообщение отредактировал passant - 21.02.2023 - 19:21 |
|
22.02.2023 - 05:06
Сообщение
#22
|
|
Группа: Пользователи Сообщений: 204 Регистрация: 1.06.2022 Из: Донецк Пользователь №: 39632 |
Как же тебя помнешь, если ты ничего не говоришь(С). Приходится додумывать, в связи с чем превратное понимание закономерно.
Пока что я понял только один вопрос: можно ли использовать одновыборочный критерий в двухвыборочной задаче, где одна из выборок - "нулевая"? Ответ - нельзя, поскольку эта "нулевость" - не параметр распределения, а его точечная выборочная оценка. Не исключено, что если б выборку еще увеличении, то в ней таки попалась бы парочка единиц. Поэтому надо использовать двухвыборочный критерий. Посмотрел на формулу двухвыборочного z-критерия - ноль в одной из выборок никак не мешает. Ноль в знаменателе появляется лишь в одном случае - если в обеих выборках одни только нули или одни только единицы. Вот только со сходимостью распределения статистики к нормальному закону в случае с нулевыми долями, сильно подозреваю, что все плохо. Сообщение отредактировал ИНО - 22.02.2023 - 05:13 |
|
26.02.2023 - 14:05
Сообщение
#23
|
|
Группа: Пользователи Сообщений: 1114 Регистрация: 10.04.2007 Пользователь №: 4040 |
Спешу поделиться ссылкой о мерах против "нуля" (короче, нуля, ставшего камнем преткновения в настоящей теме, не бывает): https://www.pharmacokinetica.ru/jour/article/view/97/97 В статье и другие полезные формулы, примеры и ссылки.
P.S. Для комплекта https://www.pharmacokinetica.ru/jour/article/view/253/248 Сообщение отредактировал Игорь - 26.02.2023 - 17:02 Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!
|
|
26.02.2023 - 20:39
Сообщение
#24
|
|
Группа: Пользователи Сообщений: 1202 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704 |
Спешу поделиться ссылкой о мерах против "нуля" (короче, нуля, ставшего камнем преткновения в настоящей теме, не бывает): Да нет же, не рожают кенгуру китайцев, вероятность - нулевая. Я согласен с ИНО: задача совсем не одновыборочная. Раз реализуется невозможное событие, значит что-то изменилось, из ряда когда возможны только нули выбилась единица. С этого момента открываем новую линию событий, тест становится двухвыборочным, а мы начинаем считать вероятность в новых реалиях. А дядька по вашим ссылкам порадовал - реально отстал от жизни прямо на 30 лет. Я ещё в аспирантуре (год 1995) знал про точные методы для таблиц сопряжённости, про G-критерий и логлинейный анализ, про отклонения Фримана-Тьюки и прочее, что в статье даже не упоминается. Чуть позже узнал, что точный метод Фишера плох чисто теоретически, т.к. основан на гипергеометрическом распределении, а применяется к биномиальному, а также про согласованные остатки Хабермана для таблиц сопряжённости. Ещё позже, лет 7? назад - про ДИ Джеффриса, и про то, что нормальная аппроксимация Вальда плоха и не рекомендуется к использованию при расчёте ДИ вообще. Ну а 5 лет назад узнал, что шотландская приставка Мак по правилам русского языка пишется слитно и никак не отделяется: просто Макнемар (как Макдональдс). Короче, "В печку её!" (с) |
|
26.02.2023 - 21:50
Сообщение
#25
|
|
Группа: Пользователи Сообщений: 1114 Регистрация: 10.04.2007 Пользователь №: 4040 |
вероятность - нулевая. Я согласен с ИНО: задача совсем не одновыборочная. Ваш остроумный пример не имеет отношения к статистике. Да и данные как минимум неоднородны: эмпирическая выборка - часть генеральной совокупности, по которой в случае доказанной репрезентативности мы можем судить о популяции. Если событие хоть раз зафиксировано в выборке , оно не исключено в генеральной совокупности. Отсюда постулирование нулевой вероятности события в популяции некорректно. Поэтому форула может быть скорректирована, как показано в источнике. В самом деле 0,0000000000000000001 и 0 в вычислительном смысле - одно и то же: более точное значение различимого нуля называется MACHEPS и легко вычисляется для конкретной системы.реально отстал от жизни прямо на 30 лет. Что-то я за Ньютона-Рафсона и Гаусса обеспокоился - не запретили бы. Типа как у нас в областной библиотеке - получили приказ списать всю научную литературу издания до определенного года (не помню сейчас - до 2000-го, что ли). Слава богу, не сдали в макулатуру, а предложили всем желающим забрать бесплатно. Мы с коллегой десятка два хороших книг по статистике спасли.Я ещё в аспирантуре (год 1995) знал про точные методы для таблиц сопряжённости, про G-критерий и логлинейный анализ, про отклонения Фримана-Тьюки и прочее, что в статье даже не упоминается. Чуть позже узнал, что точный метод Фишера плох чисто теоретически, т.к. основан на гипергеометрическом распределении, а применяется к биномиальному, а также про согласованные остатки Хабермана для таблиц сопряжённости. Ещё позже, лет 7? назад - про ДИ Джеффриса, и про то, что нормальная аппроксимация Вальда плоха и не рекомендуется к использованию при расчёте ДИ вообще. Поэтому и предпочитаю при разработке ПО ссылки на монографии, пусть даже "просроченные". Идея подсмотрена у лучших программных проектов. Статьи - в редких случаях. Уж очень часто их отзывают - об отзыве монографий не слышал.Ну а 5 лет назад узнал, что шотландская приставка Мак по правилам русского языка пишется слитно и никак не отделяется: просто Макнемар (как Макдональдс). Короче, "В печку её!" (с) Точно! А предмет обсуждения в данной теме по-русски называется "доля" (из английского перевода single proportion драматическим образом пропало первое слово, превратив предмет обсуждения непонятно во что). А что именно называется пропорцией - первая ссылка в поиске Яндекса. Подтверждение сказанного: формулы и терминология из популярной программы https://www.spss-tutorials.com/z-test-and-c...gle-proportion/
Сообщение отредактировал Игорь - 3.03.2023 - 09:58 Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!
|
|
27.02.2023 - 14:06
Сообщение
#26
|
|
Группа: Пользователи Сообщений: 902 Регистрация: 23.08.2010 Пользователь №: 22694 |
Ответил на свой вопрос устами проф. Агрести.
В общем, на ключевой вопрос темы : "А какая формула правильная" правильный ответ - "Обе хуже. Но первая, возможно, обладает более приятными стат. свойствами в плане построения ДИ". Сообщение отредактировал 100$ - 27.02.2023 - 14:08 |
|