![]() |
Здравствуйте, гость ( Вход | Регистрация )
![]() |
![]()
Сообщение
#1
|
|
Группа: Пользователи Сообщений: 231 Регистрация: 27.04.2016 Пользователь №: 28223 ![]() |
Уважаемые коллеги.
Что-то я зашел в тупик, прошу помощи. Задача классическая. Требуется провести одновыборочный z-тест для пропорций. Казалось бы все понятно. В любом учебнике, и даже информации на cran.r-project.org находим: Z=(pвыб-pтеор)/SQRT(pтеор*(1-pтеор)/N) где pвыб - доля положительных результатов в выбоке, pтеор - теоретически ожидаемая доля положительных результатов N - объем выборки. И все бы хорошо. Но вот вопрос - а каково буде значение этого критерия при pтеор=0 ? То есть, мы не ожидаем появления положительных событий вообще, а они происходят? Попытка посчитать "на бумажке" говорит о том, что знаменатель превращается в ноль и на этом все должно-бы закончиться. Причем нигде, никогда никаких специально оговоренных случаев или исключений для этого теста я не встречал. Готов допустить, что это ограничение считается "очевидным" и поэтому даже не упоминается. Но тогда надо допустить, что разработчики пакетов и функций реализующих этот тест будут выполнять такую проверку внутри реализаций. Если это действительно фундаментальное исключение. Ан нет. Пробую посчитать результат на Python с помощью функции proportions_ztest из пакета statsmodels.stats.proportion. Проверяю, что-же данная функция делает: "simple normal test for proportions. It should be the same as running the mean z-test on the data encoded 1 for event and 0 for no event so that the sum corresponds to the count.mIn the one and two sample cases with two-sided alternative, this test produces the same p-value as proportions_chisquare, since the chisquare is the distribution of the square of a standard normal distribution." И никаких ограничений. И тут неожиданность. При pтеор=0 и любом положительном значении pвыб результат спокойно высчитывается. Например - при pвыб=0.2 , N=10 имеем Z=1.5811388300841895 p_value=0.11384629800665805 и никаких сообщений об исключительной ситуации (и да, это двусторонний критерий, но суть от этого не меняется). Не могу понять, что происходит, но где-то наталкиваюсь на сообщение , что proportions_ztest из пакета statsmodels.stats.proportion реализовано по подобию функции prop.test из R. Сам я снес RStudio лет пять назад, проверить не могу, но лезу читать описание. И вдруг, с глубоким удивлением вижу там (ну, например: http://www.sthda.com/english/wiki/one-prop...on-z-test-in-r) формулу, по которой происходит расчет: Z=(pвыб-pтеор)/SQRT(pвыб*(1-pвыб)/N) Как говориться, "почувствуйте разницу"! В первую очередь, с тем, что написано на cran.r-project.org (см. ссылку в первом абзаце). В знаменателе теперь не pтеор, а pвыб. Делаю пересчет вручную, и результат, как и ожидалось, совпадает с тем, что выдает proportions_ztest (и скорее всего и prop.test). И вот теперь вопрос к знатокам. А какая-же формула корректна? Возможно-ли такая замена оценки дисперсии в знаменателе, если в результате мы получаем разные - пусть даже в одной точке - результаты? И можно-ли считать результаты, которые получены по формулам, реализованным в R и statsmodels для pтеор=0 корректными и использовать их для решения исходной задачи? Допускаю, что чего-то где-то недоучитываю. Или просто запутался. Или ответ на поверхности, но я его просто не замечаю. Буду благодарен за ваше видение ситуации. |
|
![]() |
![]() |
![]() |
![]()
Сообщение
#2
|
|
![]() Группа: Пользователи Сообщений: 1141 Регистрация: 10.04.2007 Пользователь №: 4040 ![]() |
Задача классическая. Требуется провести одновыборочный z-тест для пропорций. ... И вот теперь вопрос к знатокам. А какая-же формула корректна? ... Буду благодарен за ваше видение ситуации. Видение в предчувствии обещанной благодарности такое. Корректные формулы в книге Флейса (выше уважаемый коллега показал ссылку на англоязычный вариант; доступен русский перевод - у меня был, но подарил нашей научной библиотеке). Задача действительно классическая - сравнение параметра положения (среднее для количественной выборки, доля для дихотомической, как в представленном случае) с известным значением - и настолько простая, что включение ее в статистический пакет не стоит некоторого усложнения интерфейса. Сгодятся и электронные таблицы. Единственная сложность, замеченная при анализе качественных данных - правильно ввести их в соотвествии с требованиями автора программы. А вообще, для рассматриваемой проблемы нет смысла использовать асимптотику (Z-критерий) - в книге есть точное распределение, расчет которого того же уровня сложности. Сообщение отредактировал Игорь - 20.02.2023 - 09:11 ![]() Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!
|
|
![]() |
![]() |
![]()
Сообщение
#3
|
|
Группа: Пользователи Сообщений: 231 Регистрация: 27.04.2016 Пользователь №: 28223 ![]() |
Видение в предчувствии обещанной благодарности такое. Предчувствие вас не обмануло. Я действительно благодарен вам и всем кто конструктивно высказался по теме. Корректные формулы в книге Флейса (выше уважаемый коллега показал ссылку на англоязычный вариант; Это не проблема. Как раз сегодня хочу просмотреть этот источник. включение ее в статистический пакет не стоит некоторого усложнения интерфейса. Автору пакета, конечно, виднее. Задача действительно классическая - сравнение параметра положения (среднее для количественной выборки, доля для дихотомической, как в представленном случае) с известным значением В том то и дело. Есть z-тест. Существует для двух ситуаций, одновыборочный и двухвыборочный. Есть конкретная ситуация, описанная выше. Какой критерий подходит? Одновыборочный? Но по формуле этого критерия получается, что должна быть исключительная ситуация. (Кстати, для количественной выборки и теста Стьюдента на совпадение выборочной средней и мат.ожидания генеральной совокупности все работает вне зависимости от того, какое значение - нулевое или нет - имеет мат.ожидание. Вот и разница). Если попробовать использовать двухвыборочный z-тест, то натыкаемся на предусловие (к размерам выборки), которое делает и этот вариант вроде как некорректным. Сложность видна даже в том, что на этом, самом продвинутом в интернет форуме по проверке гипотез, с очень ценимыми мною комментаторами, мнения разделились: 100$: : "в том же Excel'е, что при p0=0 расчет все равно идет по второй формуле." nokh : "По поводу формул. Правильная первая". ИНО : "И озвученная задача таки явно двухвыборочная". Игорь: для рассматриваемой проблемы нет смысла использовать асимптотику (Z-критерий) Игорь: "Единственная сложность, замеченная при анализе качественных данных - правильно ввести их в соотвествии с требованиями автора программы" - готов их выслушать и применить. Только вот какую? Вижу, что попытка объясниться на примере из области медицины привела к апелляции к надзорным органам в качестве статистического аргумента. Что-бы снова не споткнуться об этом - предлагаю другую аналогию. Наблюдается состояние объекта. Путем последовательного контроля наличия alarm-сигналов, например - получения рекламаций от клиентов (разных, между собой никак не связанных). На протяжении - как тут написали -"10000000000005000000000000 попыток", т.е. такого количества отзывов, они все были положительными, т.е. "объект работает без замечаний". Потом получается два сигнала среди следующих 10 отзывов. Это случайность или при изготовлении объектов пошел брак? А если 2 на 100000 следующих отзывов? А если 2 на следующие 10000000000005000000000000 попыток"? Стоят они Вы полагаете, что использование самопальной формулы сходимость улучшит? Не удовлетворяются условия асимптотических критериев - используйте точные (в данном случае - Барнарда). Вообще-то я нигде не пытаюсь самостоятельно вывести какую-бы то нибыло "самопальную" формулу, (хотя и это мне тут рекомендовали: " Правильная та, которую вы вывели или проверили самостоятельно из теоретических соображений."). Наоборот, а хочу понять, какую классическую формулу тут корректно применять. Сообщение отредактировал passant - 20.02.2023 - 14:17 |
|
![]() |
![]() |
![]()
Сообщение
#4
|
|
Группа: Пользователи Сообщений: 262 Регистрация: 1.06.2022 Из: Донецк Пользователь №: 39632 ![]() |
Есть конкретная ситуация, описанная выше. Какой критерий подходит? Одновыборочный? "Выше" - это где? Потому как я уже сбился со счета разных ситуаций, которые Вы описали в этой теме, в каждой из которых надо применять иной критерий, чем в для предыдущей. Если с подбором корректных аналогий у Вас плохо, опишите уже совою реальную ситуацию. Или это чисто теоретический треп из серии "а можно ли все-таки удалить миндалины эндоскопом через анус?" Цитата Но признаюсь, про асимптотику Барнарда - не в курсе. А кто говорил об асимптотике? Все известные мне версии критерия Барнарда точные. |
|
![]() |
![]() |
![]() ![]() |