Форум врачей-аспирантов

Здравствуйте, гость ( Вход | Регистрация )

> Одновыборочный z-тест для пропорций
passant
сообщение 18.02.2023 - 15:34
Сообщение #1





Группа: Пользователи
Сообщений: 231
Регистрация: 27.04.2016
Пользователь №: 28223



Уважаемые коллеги.
Что-то я зашел в тупик, прошу помощи.

Задача классическая. Требуется провести одновыборочный z-тест для пропорций. Казалось бы все понятно. В любом учебнике, и даже информации на cran.r-project.org находим:

Z=(pвыб-pтеор)/SQRT(pтеор*(1-pтеор)/N)

где pвыб - доля положительных результатов в выбоке,
pтеор - теоретически ожидаемая доля положительных результатов
N - объем выборки.

И все бы хорошо. Но вот вопрос - а каково буде значение этого критерия при pтеор=0 ?
То есть, мы не ожидаем появления положительных событий вообще, а они происходят?

Попытка посчитать "на бумажке" говорит о том, что знаменатель превращается в ноль и на этом все должно-бы закончиться.
Причем нигде, никогда никаких специально оговоренных случаев или исключений для этого теста я не встречал. Готов допустить, что это ограничение считается "очевидным" и поэтому даже не упоминается. Но тогда надо допустить, что разработчики пакетов и функций реализующих этот тест будут выполнять такую проверку внутри реализаций. Если это действительно фундаментальное исключение.

Ан нет. Пробую посчитать результат на Python с помощью функции proportions_ztest из пакета statsmodels.stats.proportion.
Проверяю, что-же данная функция делает: "simple normal test for proportions. It should be the same as running the mean z-test on the data encoded 1 for event and 0 for no event so that the sum corresponds to the count.mIn the one and two sample cases with two-sided alternative, this test produces the same p-value as proportions_chisquare, since the chisquare is the distribution of the square of a standard normal distribution." И никаких ограничений.
И тут неожиданность. При pтеор=0 и любом положительном значении pвыб результат спокойно высчитывается. Например - при pвыб=0.2 , N=10 имеем Z=1.5811388300841895 p_value=0.11384629800665805 и никаких сообщений об исключительной ситуации (и да, это двусторонний критерий, но суть от этого не меняется).

Не могу понять, что происходит, но где-то наталкиваюсь на сообщение , что proportions_ztest из пакета statsmodels.stats.proportion реализовано по подобию функции prop.test из R. Сам я снес RStudio лет пять назад, проверить не могу, но лезу читать описание. И вдруг, с глубоким удивлением вижу там (ну, например: http://www.sthda.com/english/wiki/one-prop...on-z-test-in-r) формулу, по которой происходит расчет:

Z=(pвыб-pтеор)/SQRT(pвыб*(1-pвыб)/N)

Как говориться, "почувствуйте разницу"! В первую очередь, с тем, что написано на cran.r-project.org (см. ссылку в первом абзаце). В знаменателе теперь не pтеор, а pвыб. Делаю пересчет вручную, и результат, как и ожидалось, совпадает с тем, что выдает proportions_ztest (и скорее всего и prop.test).

И вот теперь вопрос к знатокам. А какая-же формула корректна? Возможно-ли такая замена оценки дисперсии в знаменателе, если в результате мы получаем разные - пусть даже в одной точке - результаты? И можно-ли считать результаты, которые получены по формулам, реализованным в R и statsmodels для pтеор=0 корректными и использовать их для решения исходной задачи?

Допускаю, что чего-то где-то недоучитываю. Или просто запутался. Или ответ на поверхности, но я его просто не замечаю. Буду благодарен за ваше видение ситуации.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
 
Открыть тему
Ответов
Игорь
сообщение 20.02.2023 - 09:10
Сообщение #2





Группа: Пользователи
Сообщений: 1141
Регистрация: 10.04.2007
Пользователь №: 4040



Цитата(passant @ 18.02.2023 - 16:34) *
Задача классическая. Требуется провести одновыборочный z-тест для пропорций.
...
И вот теперь вопрос к знатокам. А какая-же формула корректна?
...
Буду благодарен за ваше видение ситуации.

Видение в предчувствии обещанной благодарности такое. Корректные формулы в книге Флейса (выше уважаемый коллега показал ссылку на англоязычный вариант; доступен русский перевод - у меня был, но подарил нашей научной библиотеке). Задача действительно классическая - сравнение параметра положения (среднее для количественной выборки, доля для дихотомической, как в представленном случае) с известным значением - и настолько простая, что включение ее в статистический пакет не стоит некоторого усложнения интерфейса. Сгодятся и электронные таблицы. Единственная сложность, замеченная при анализе качественных данных - правильно ввести их в соотвествии с требованиями автора программы. А вообще, для рассматриваемой проблемы нет смысла использовать асимптотику (Z-критерий) - в книге есть точное распределение, расчет которого того же уровня сложности.

Сообщение отредактировал Игорь - 20.02.2023 - 09:11


Signature
Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
passant
сообщение 20.02.2023 - 13:11
Сообщение #3





Группа: Пользователи
Сообщений: 231
Регистрация: 27.04.2016
Пользователь №: 28223



Цитата(Игорь @ 20.02.2023 - 09:10) *
Видение в предчувствии обещанной благодарности такое.


Предчувствие вас не обмануло. Я действительно благодарен вам и всем кто конструктивно высказался по теме.

Цитата(Игорь @ 20.02.2023 - 09:10) *
Корректные формулы в книге Флейса (выше уважаемый коллега показал ссылку на англоязычный вариант;

Это не проблема. Как раз сегодня хочу просмотреть этот источник.

Цитата(Игорь @ 20.02.2023 - 09:10) *
включение ее в статистический пакет не стоит некоторого усложнения интерфейса.

Автору пакета, конечно, виднее.

Цитата(Игорь @ 20.02.2023 - 09:10) *
Задача действительно классическая - сравнение параметра положения (среднее для количественной выборки, доля для дихотомической, как в представленном случае) с известным значением

В том то и дело. Есть z-тест. Существует для двух ситуаций, одновыборочный и двухвыборочный. Есть конкретная ситуация, описанная выше. Какой критерий подходит? Одновыборочный? Но по формуле этого критерия получается, что должна быть исключительная ситуация. (Кстати, для количественной выборки и теста Стьюдента на совпадение выборочной средней и мат.ожидания генеральной совокупности все работает вне зависимости от того, какое значение - нулевое или нет - имеет мат.ожидание. Вот и разница). Если попробовать использовать двухвыборочный z-тест, то натыкаемся на предусловие (к размерам выборки), которое делает и этот вариант вроде как некорректным.

Сложность видна даже в том, что на этом, самом продвинутом в интернет форуме по проверке гипотез, с очень ценимыми мною комментаторами, мнения разделились:
100$: : "в том же Excel'е, что при p0=0 расчет все равно идет по второй формуле."
nokh : "По поводу формул. Правильная первая".
ИНО : "И озвученная задача таки явно двухвыборочная".
Игорь: для рассматриваемой проблемы нет смысла использовать асимптотику (Z-критерий)

Игорь: "Единственная сложность, замеченная при анализе качественных данных - правильно ввести их в соотвествии с требованиями автора программы" - готов их выслушать и применить. Только вот какую?

Вижу, что попытка объясниться на примере из области медицины привела к апелляции к надзорным органам в качестве статистического аргумента. Что-бы снова не споткнуться об этом - предлагаю другую аналогию. Наблюдается состояние объекта. Путем последовательного контроля наличия alarm-сигналов, например - получения рекламаций от клиентов (разных, между собой никак не связанных). На протяжении - как тут написали -"10000000000005000000000000 попыток", т.е. такого количества отзывов, они все были положительными, т.е. "объект работает без замечаний". Потом получается два сигнала среди следующих 10 отзывов. Это случайность или при изготовлении объектов пошел брак? А если 2 на 100000 следующих отзывов? А если 2 на следующие 10000000000005000000000000 попыток"? Стоят они некоторого усложнения интерфейса затрат на ремонтно-регламентные работы? Или это статистически незначимые отклонения? В какой момент - при какой доле в выборке - эти данные становятся значимыми?


Цитата(ИНО @ 19.02.2023 - 23:53) *
Вы полагаете, что использование самопальной формулы сходимость улучшит? Не удовлетворяются условия асимптотических критериев - используйте точные (в данном случае - Барнарда).

Вообще-то я нигде не пытаюсь самостоятельно вывести какую-бы то нибыло "самопальную" формулу, (хотя и это мне тут рекомендовали: " Правильная та, которую вы вывели или проверили самостоятельно из теоретических соображений."). Наоборот, а хочу понять, какую классическую формулу тут корректно применять. Но признаюсь, про асимптотику Барнарда - не в курсе. Ссылочкой не поделитесь? ( Уже ознакомился).

Сообщение отредактировал passant - 20.02.2023 - 14:17
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
ИНО
сообщение 20.02.2023 - 23:15
Сообщение #4





Группа: Пользователи
Сообщений: 262
Регистрация: 1.06.2022
Из: Донецк
Пользователь №: 39632



Цитата(passant @ 20.02.2023 - 13:11) *
Есть конкретная ситуация, описанная выше. Какой критерий подходит? Одновыборочный?

"Выше" - это где? Потому как я уже сбился со счета разных ситуаций, которые Вы описали в этой теме, в каждой из которых надо применять иной критерий, чем в для предыдущей. Если с подбором корректных аналогий у Вас плохо, опишите уже совою реальную ситуацию. Или это чисто теоретический треп из серии "а можно ли все-таки удалить миндалины эндоскопом через анус?"
Цитата
Но признаюсь, про асимптотику Барнарда - не в курсе.

А кто говорил об асимптотике? Все известные мне версии критерия Барнарда точные.

Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
passant
сообщение 21.02.2023 - 13:57
Сообщение #5





Группа: Пользователи
Сообщений: 231
Регистрация: 27.04.2016
Пользователь №: 28223



Цитата(ИНО @ 20.02.2023 - 23:15) *
"Выше" - это где?

В первом сообщении этой темы. Вопрос звучал так:

"Задача классическая. Требуется провести одновыборочный z-тест для пропорций. вопрос - а каково буде значение этого критерия при pтеор=0 ?
То есть, мы не ожидаем появления положительных событий вообще, а они происходят?"
А также, поскольку понятно, что работа в условиях известного матожидания и дисперсии бесконечной по своей природе генеральной совокупности - это абстракция, возник параллельный вопрос - какой из критериев в описанной ситуации необходимо применить двухвыборочный или одновыборочный.

Чисто статистические вопросы и ищется чисто формальный ответ.

Коллеги попросили привести реальный пример. Учитывая, что форум медицинский, попытался найти медицинскую-же аналогию. Оказалось, что прикладной аспект в данном случае может некоторым помешать ответить на формальный вопрос.

Вы сами привели пример с шарами. В ответ я привел пример из технической диагностики - теперь уже надеюсь хотя и прикладной и вполне реальный, но очень близкий к формальной сути задачи.

Цитата(ИНО @ 20.02.2023 - 23:15) *
Потому как я уже сбился со счета разных ситуаций, которые Вы описали в этой теме, в каждой из которых надо применять иной критерий, чем в для предыдущей.


Всего две. Не знаю, разные-ли критерии надо применять для них (для случая выздоровления и для случая появления alarm-сигналов) . И если разные - то почему? В какой ситуации - какой?

Цитата(ИНО @ 20.02.2023 - 23:15) *
Если с подбором корректных аналогий у Вас плохо, опишите уже совою реальную ситуацию. Или это чисто теоретический треп из серии "а можно ли все-таки удалить миндалины эндоскопом через анус?"

Ну, кому "миндалины эндоскопом через анус" - а кому вполне реальная задача из области Change Point Detection при потоковом поступлении данных (для тех.диагностики - еще и в режиме on-line) ..

Сообщение отредактировал passant - 21.02.2023 - 14:06
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 

Сообщений в этой теме
- passant   Одновыборочный z-тест для пропорций   18.02.2023 - 15:34
- - 100$   ЦитатаИ вот теперь вопрос к знатокам. А какая-же ф...   18.02.2023 - 17:27
- - Игорь   Покажите исходные данные и ссылку на источник.   18.02.2023 - 18:26
- - nokh   Цитата(passant @ 18.02.2023 - 17:34)...   18.02.2023 - 18:41
- - passant   Цитата(100$ @ 18.02.2023 - 17:2...   19.02.2023 - 00:16
- - ИНО   Не подскажу насчет корректности и эквивалентности ...   19.02.2023 - 00:49
|- - passant   Цитата(ИНО @ 19.02.2023 - 00:49) , н...   19.02.2023 - 20:35
|- - DoctorStat   Цитата(passant @ 19.02.2023 - 20:35)...   19.02.2023 - 21:35
||- - passant   Цитата(DoctorStat @ 19.02.2023 - 21...   20.02.2023 - 00:35
|- - ИНО   Цитата(passant @ 19.02.2023 - 20:35)...   19.02.2023 - 23:53
- - DoctorStat   Цитата(passant @ 18.02.2023 - 15:34)...   19.02.2023 - 19:08
- - Игорь   Цитата(passant @ 18.02.2023 - 16:34)...   20.02.2023 - 09:10
|- - passant   Цитата(Игорь @ 20.02.2023 - 09:10) В...   20.02.2023 - 13:11
|- - ИНО   Цитата(passant @ 20.02.2023 - 13:11)...   20.02.2023 - 23:15
|- - passant   Цитата(ИНО @ 20.02.2023 - 23:15) ...   21.02.2023 - 13:57
- - comisora   2 passant Добрый день. Мой ответ не касается Ваше...   20.02.2023 - 13:57
|- - passant   Цитата(comisora @ 20.02.2023 - 13:57...   20.02.2023 - 14:45
- - 100$   ЦитатаПо поводу формул. Правильная первая. ЦитатаК...   20.02.2023 - 16:06
- - Игорь   Посмотрел русское издание Флейса (перевод первого ...   20.02.2023 - 19:18
- - ИНО   Извините за резкость, но Вы упорно гоните какую-то...   21.02.2023 - 14:34
|- - passant   Цитата(ИНО @ 21.02.2023 - 14:34) Изв...   21.02.2023 - 19:12
- - ИНО   Как же тебя помнешь, если ты ничего не говоришь(С)...   22.02.2023 - 05:06
- - Игорь   Спешу поделиться ссылкой о мерах против "нуля...   26.02.2023 - 14:05
|- - nokh   Цитата(Игорь @ 26.02.2023 - 16:05) С...   26.02.2023 - 20:39
|- - Игорь   Цитата(nokh @ 26.02.2023 - 21:39) ве...   26.02.2023 - 21:50
- - 100$   Ответил на свой вопрос устами проф. Агрести. В об...   27.02.2023 - 14:06


Добавить ответ в эту темуОткрыть тему