p-value в Excel или SPSS, Как рассчитать |
Здравствуйте, гость ( Вход | Регистрация )
p-value в Excel или SPSS, Как рассчитать |
8.01.2022 - 16:37
Сообщение
#16
|
|
Группа: Пользователи Сообщений: 231 Регистрация: 27.04.2016 Пользователь №: 28223 |
Позволю себе маленький оффтопик, учитывая, что в эту тему, похоже, заглядывают все, кто так сказать "в теме" - извините за тавтологию.
Я понимаю, 50 лет назад, когда рассчитать какую либо статистику на выборке объемом 1000 значений - это уже диссертация, а если еще и p_vаlue вычислить - то почти научный подвиг. В таких условиях, конечно, считать статистику сдвига среднего или масштаба - куда проще, чем анализировать однородность распределений выборок. Но вот сегодня, когда любой (практически) критерий - это вызов одной функции, которая еще и бонусом вернет p_value. А если готовой реализации не сыщется - то самому написать ее на любом доступном инструменте программирования под силу студенту-третьекурснику? Какой смысл "придерживаться" критериев анализа отдельных параметров выборки, если гораздо более точнее - анализировать всю выборку целиком? Ладно бы в системах реального времени, когда имеет значение принятие решения за несколько миллисекунд. А в медицине, экономике, финансах, маркетинге? Почему народ так "держится" старых и очень приблизительных методов, когда ответ можно получить с тем-же усилиями более точный и адекватный? Интересно услышать мнения специалистов, которые в "теме"? |
|
8.01.2022 - 18:22
Сообщение
#17
|
|
Группа: Пользователи Сообщений: 902 Регистрация: 23.08.2010 Пользователь №: 22694 |
Позволю себе маленький оффтопик, учитывая, что в эту тему, похоже, заглядывают все, кто так сказать "в теме" - извините за тавтологию. Я понимаю, 50 лет назад, когда рассчитать какую либо статистику на выборке объемом 1000 значений - это уже диссертация, а если еще и p_vаlue вычислить - то почти научный подвиг. В таких условиях, конечно, считать статистику сдвига среднего или масштаба - куда проще, чем анализировать однородность распределений выборок. Но вот сегодня, когда любой (практически) критерий - это вызов одной функции, которая еще и бонусом вернет p_value. А если готовой реализации не сыщется - то самому написать ее на любом доступном инструменте программирования под силу студенту-третьекурснику? Какой смысл "придерживаться" критериев анализа отдельных параметров выборки, если гораздо более точнее - анализировать всю выборку целиком? Ладно бы в системах реального времени, когда имеет значение принятие решения за несколько миллисекунд. А в медицине, экономике, финансах, маркетинге? Почему народ так "держится" старых и очень приблизительных методов, когда ответ можно получить с тем-же усилиями более точный и адекватный? Интересно услышать мнения специалистов, которые в "теме"? Потому что параметры распределения также вызывают интерес. А то спросит вас на защите уважаемый оппонент или член Совета: "Ну а что там в среднем? Скорость клубочковой фильтрации увеличилась, ай нет?". А вы уважаемому вопрошающему про совпадение функций распределения... |
|
8.01.2022 - 19:12
Сообщение
#18
|
|
Группа: Пользователи Сообщений: 231 Регистрация: 27.04.2016 Пользователь №: 28223 |
Потому что параметры распределения также вызывают интерес. А то спросит вас на защите уважаемый оппонент или член Совета: "Ну а что там в среднем? Скорость клубочковой фильтрации увеличилась, ай нет?". А вы уважаемому вопрошающему про совпадение функций распределения... Ну, это понятно, хотя мне быть спрошенным уважаемым профессором уже не грозит :-). Я больше интересуюсь с практической, ну и немного абстрактно-философской точки зрения. Зачем решать частную (частные) задачи, если по сложности не проще, а по точности результата - не лучше, чем решать общую? P.S. Немного еще поразмыслил над вашим ответом - и вот родилось такое предположения. Я смотрю на задачу с точки зрения динамики текущего мониторинга - обнаружить момент, когда в объекте (организме ?) происходят некие изменения. А врачи - с точки зрения статики оценки результата: есть ли вероятность того, что значение некоторого параметра в результате воздействия (лечения) измениться или нет. Возможно - это один из факторов. А еще? Сообщение отредактировал passant - 8.01.2022 - 19:21 |
|
8.01.2022 - 20:05
Сообщение
#19
|
|
Группа: Пользователи Сообщений: 902 Регистрация: 23.08.2010 Пользователь №: 22694 |
Я больше интересуюсь с практической, ну и немного абстрактно-философской точки зрения. Зачем решать частную (частные) задачи, если по сложности не проще, а по точности результата - не лучше, чем решать общую? Любой статистический критерий, сконструированный для решения задач самого общего вида, будет уступать по мощности критериям, сконструированным для тестирования конкретных альтернатив. Это - раз. Желательно, чтобы для критерия вероятность отвергнуть нулевую гипотезу в случае, когда она неверна, -> 1. Так рождается понятие состоятельности критерия. Скажем, по "косвенным признакам", я знаю, что в случае тестирования гипотезы самого общего вида критерии Смирнова и Лемана-Розенблатта являются состоятельными. А вот про критерии Катценбайссера - Хакля или Эппса - Синглтона я того же сказать не могу. Значит, надо, обложившись оригинальными статьями, выяснять это. А пока этого не сделано, лихо тестировать ими гипотезы не резон: осадок остается... Это - второй раз. Цитата Я смотрю на задачу с точки зрения динамики текущего мониторинга - обнаружить момент, когда в объекте (организме ?) происходят некие изменения. На эту тему отказываюсь говорить, так как вы еще не отчитались о проделанной в этом направлении работе. ) Цитата А врачи - с точки зрения статики оценки результата: есть ли вероятность того, что значение некоторого параметра в результате воздействия (лечения) изменит В отношении врачей все не так: уж там-то мониторинг состояния происходит вовсю. Дисперсионный анализ для связанных выборок, критерии Фридмана и Пейджа у меня не пылятся - рекомендую налево и направо... Сообщение отредактировал 100$ - 8.01.2022 - 20:15 |
|
8.01.2022 - 21:45
Сообщение
#20
|
|
Группа: Пользователи Сообщений: 231 Регистрация: 27.04.2016 Пользователь №: 28223 |
Желательно, чтобы для критерия вероятность отвергнуть нулевую гипотезу в случае, когда она неверна, -> 1. Так рождается понятие состоятельности критерия. Скажем, по "косвенным признакам", я знаю, что в случае тестирования гипотезы самого общего вида критерии Смирнова и Лемана-Розенблатта являются состоятельными. А вот про критерии Катценбайссера - Хакля или Эппса - Синглтона я того же сказать не могу. Значит, надо, обложившись оригинальными статьями, выяснять это. А пока этого не сделано, лихо тестировать ими гипотезы не резон: осадок остается... Это - второй раз. Согласен. Может у меня просто глаз замылин, но в той предметной области, с которой мне приходиться дело иметь ошибки первого рода так-же нежелательны, как и ошибки второго рода. Ну или почти также. И каждый раз приходиться искать жесткий компромисс. На эту тему отказываюсь говорить, так как вы еще не отчитались о проделанной в этом направлении работе. ) Ух ты, не забыли :-). Процесс идет, не так быстро, как хотелось бы, но движется. Сейчас вот погрузился в многомерную проверку гипотез. Еще и (хотелось бы) при наличии корреляции между признаками. И связь всего этого с ансамблевыми методами обучения. И там пока "застрял". Мне важно не просто "написать очередную статью", а довести решение до программного продукта. А это ох как не просто. И отнимает много сил. И времени. А его критически не хватает. В отношении врачей все не так: уж там-то мониторинг состояния происходит вовсю. Дисперсионный анализ для связанных выборок, критерии Фридмана и Пейджа у меня не пылятся - рекомендую налево и направо... Интересно. Дисперсионный анализ для Change Point Detection? Мне казалось, что он все-таки не для временнЫх рядов. Надо подумать. Сообщение отредактировал passant - 8.01.2022 - 21:47 |
|
8.01.2022 - 22:00
Сообщение
#21
|
|
Группа: Пользователи Сообщений: 902 Регистрация: 23.08.2010 Пользователь №: 22694 |
Интересно. Дисперсионный анализ для Change Point Detection? Мне казалось, что он все-таки не для временнЫх рядов. Надо подумать. А зачем мне этот самый point, если у меня пациенты взяты в исследование в точке t0, а затем наблюдаются ч/з 6 мес (t6), 9 мес (t9) и 12 мес (t12)? Вы мне еще этот ряд на стационарность предложите проверить... Вот и проверяем линейные контрасты t0 vs t6. Можем под настроение и критерием Даннетта сравнить с первой группой. Сообщение отредактировал 100$ - 8.01.2022 - 22:17 |
|
8.01.2022 - 22:35
Сообщение
#22
|
|
Группа: Пользователи Сообщений: 231 Регистрация: 27.04.2016 Пользователь №: 28223 |
А зачем мне этот самый point, если у меня пациенты взяты в исследование в точке t0, а затем наблюдаются ч/з 6 мес (t6), 9 мес (t9) и 12 мес (t12)? Вы мне еще этот ряд на стационарность предложите проверить... Вот и проверяем линейные контрасты t0 vs t6. Можем под настроение и критерием Даннетта сравнить с первой группой. Хорошо вам :-). А у меня точка t0 отстоит от точки t1 на несколько секунд, в крайнем случае - минут. И change point надо обнаружить "здесь и сейчас". Причем даже не известно, какой из статистик ряда будет меняться и будет-ли. А тут еще и необходимость отслеживания по многим параметрам(показателям) параллельно. В общем - интересно :-) Сообщение отредактировал passant - 8.01.2022 - 22:36 |
|
9.01.2022 - 00:59
Сообщение
#23
|
|
Группа: Пользователи Сообщений: 902 Регистрация: 23.08.2010 Пользователь №: 22694 |
И change point надо обнаружить "здесь и сейчас". Причем даже не известно, какой из статистик ряда будет меняться и будет-ли. А тут еще и необходимость отслеживания по многим параметрам(показателям) параллельно. В общем - интересно :-) А почему нельзя оценить по имеющейся предыстории условную 95%-ю персентиль, посмотреть, сколько пробоев было, опосля чего отмоделировать ее и прикидывать, с какой вероятностью ее пробъет/ не пробъет "здесь и сейчас"? А то, судя по вашим репортажам, у вас временной ряд спокойный как ЭКГ покойника, и только вы нервничаете в ожидании подвоха... |
|
9.01.2022 - 01:13
Сообщение
#24
|
|
Группа: Пользователи Сообщений: 231 Регистрация: 27.04.2016 Пользователь №: 28223 |
А почему нельзя оценить по имеющейся предыстории условную 95%-ю персентиль, посмотреть, сколько пробоев было, опосля чего отмоделировать ее и прикидывать, с какой вероятностью ее пробъет/ не пробъет "здесь и сейчас"? А то, судя по вашим репортажам, у вас временной ряд спокойный как ЭКГ покойника, и только вы нервничаете в ожидании подвоха... Я всегда в восторге от черного врачебного юмора. Честное слово, он всегда неожиданен и точен. Но если придерживаться вашего примера, то у меня скорее пациент с аритмией (так что с процентилями не получается) , причем это его "нормальное состояние", и надо как раз уловить момент (change point), когда он (пациент) начинает переходить в аномальное состояние (мир иной), оповестить об нем медсестру (обслуживающий персонал) что-бы она успела что-то резко и быстро предпринять. (Заранее прошу прощения у всех врачей, но нам так вашу работу в кино показывают, и это лучшая аналогия с моими задачами, которая приходит на ум). Только у меня не одна ЭКГ, а кроме нее еще десятка полтора разных других временных рядов, и изменение состояния объекта наблюдения может отобразиться произвольным образом на изменениях неизвестно какого из них (или их группы). А обслуживающий персонал действительно постоянно находиться "в ожидании подвоха" (кстати, именно поэтому ошибка первого рода крайне нежелательна, ибо снижает его - персонала - бдительность). Вот как-то так получается. Сообщение отредактировал passant - 9.01.2022 - 01:16 |
|
9.01.2022 - 02:04
Сообщение
#25
|
|
Группа: Пользователи Сообщений: 902 Регистрация: 23.08.2010 Пользователь №: 22694 |
Я всегда в восторге от черного врачебного юмора. Честное слово, он всегда неожиданен и точен. Но если придерживаться вашего примера, то у меня скорее пациент с аритмией (так что с процентилями не получается) , причем это его "нормальное состояние", и надо как раз уловить момент (change point), когда он (пациент) начинает переходить в аномальное состояние (мир иной), оповестить об нем медсестру (обслуживающий персонал) что-бы она успела что-то резко и быстро предпринять. (Заранее прошу прощения у всех врачей, но нам так вашу работу в кино показывают, и это лучшая аналогия с моими задачами, которая приходит на ум). Только у меня не одна ЭКГ, а кроме нее еще десятка полтора разных других временных рядов, и изменение состояния объекта наблюдения может отобразиться произвольным образом на изменениях неизвестно какого из них (или их группы). А обслуживающий персонал действительно постоянно находиться "в ожидании подвоха" (кстати, именно поэтому ошибка первого рода крайне нежелательна, ибо снижает его - персонала - бдительность). Вот как-то так получается. Ну рассмотрите векторную авторегрессию. Если ее коэффициенты будут слишком близко подходить к 1 или зашкалят за нее, то жди беды - процесс может принять взрывной характер. |
|
9.01.2022 - 02:24
Сообщение
#26
|
|
Группа: Пользователи Сообщений: 143 Регистрация: 4.09.2012 Пользователь №: 24146 |
Из совпадения ф-ций распределения следует однородность параметров, коими параметризуется плотность распределения. Читаю и вижу другое. Цитата Уточнения понятия однородности. Понятие "однородность", т. е. "отсутствие различия", может быть формализовано в терминах вероятностной модели различными способами. Наивысшая степень однородности достигается, если обе выборки взяты из одной и той же генеральной совокупности, т. е. справедлива нулевая гипотеза H_0 : F(x)=G(x) при всех х. Цитата Непараметрический критерий Лемана-Розенблатта типа омега-квадрат применяется для проверки однородности двух независимых выборок. |
|
9.01.2022 - 13:00
Сообщение
#27
|
|
Группа: Пользователи Сообщений: 902 Регистрация: 23.08.2010 Пользователь №: 22694 |
|
|
9.01.2022 - 13:12
Сообщение
#28
|
|
Группа: Пользователи Сообщений: 143 Регистрация: 4.09.2012 Пользователь №: 24146 |
|
|
9.01.2022 - 13:20
Сообщение
#29
|
|
Группа: Пользователи Сообщений: 902 Регистрация: 23.08.2010 Пользователь №: 22694 |
|
|
9.01.2022 - 13:51
Сообщение
#30
|
|
Группа: Пользователи Сообщений: 231 Регистрация: 27.04.2016 Пользователь №: 28223 |
Спасибо! Этот критерий может показать что обе выборки извлечены из одной ГС? Если быть абсолютно точным, то этот (как и любой другой статистический критерий) позволяет показать, что нулевая гипотеза (в данном случае - о том, что обе выборки извлечены из одной ГС) не может быть отвергнута, что формально не есть доказательством этого факта. (Красивый аналог - презумпция невиновности). Сообщение отредактировал passant - 9.01.2022 - 13:52 |
|