Помощь - Поиск - Пользователи - Календарь
Полная версия этой страницы: Вопрос на засыпку
Форум врачей-аспирантов > Разделы форума > Медицинская статистика
YVR
В медицине такое вряд ли возможно, поэтому представим, что действия происходят в другой области.

Компания, занимающаяся производством химических удобрений, синтезировала некое химическое соединение. Провели экспресс тестирование в теплицах, оказалось что помидоры хорошо усваивают новый вид удобрения и вроде бы никаких побочных эффектов не выявлено, в том числе и по санитарным нормам для пищевых продуктов, т.е. все уровни содержания вредных веществ в растениях значительно ниже нормы.

Но этого мало. Т.к. удобрение для аграриев доселе неизвестное и не зарекомендовавшее себя, фермеры будут его закупать лишь в том случае, если оно реально повысит урожайность. Репутация среди фермеров у компании есть. Но потерять ее равносильно банкротству, т.к. конкуренция в данном сегменте высока.

Цель эксперимента: выявить влияние удобрения на урожайность. Показателем исследований является среднестатистическая урожайность с куста помидора: выше - результат положительный, ниже - отрицательный. Чтобы провести исследования, компания через интернет наняла нештатных ботаников в разных уголках страны, каждый из которых засеял делянку на открытом воздухе одним и тем же устойчивым сортом помидоров. Все делянки отличались и по анализу почвы и по составу воды, которым эта самая почва орошалась, т.е. двух одинаковых делянок не было. Половине ботаников было выдано новое удобрение, половине безобидное нейтральное вещество. Причем какое конкретно вещество какому ботанику необходимо было выдать, решали случайным образом с помощью ГПСЧ. Но в самой компании точно знали и зафиксировали, что и кому выдавали, т.е. ослеплены были только ботаники. Договор с ботаниками составлялся так, что им платили независимо от конечного результата, т.е. им необходимо было систематически отчитываться и доказывать, что за растениями добросовестно ухаживают, следить за ними и фиксировать все что происходит, систематически высылая в компанию отчеты о состоянии дел.

По окончании сезона, каждый ботаник отчитался о результатах. Все они честно выполнили свою миссию и подтасовок не было. В половине случаев удобренные растения превысили урожайность выше среднестатистического показателя, в половине показатель остался ниже. Тоже самое и в контрольной группе, т.е. 50% / 50%.

В общем, к гадалке не ходи, а даже пьяному ежику понятно, что нулевая гипотеза для данного сорта помидора подтверждена полностью.

И тем не менее, сразу по результатам исследований этого самого сезона, компания составила адекватные рекомендации фермерам и продала первую партию нового удобрения. По завершении следующего сезона почти все фермеры, которые приобрели удобрение, опять сделали закупки. И дополнительно к ним, в качестве клиентов компании прибавились новые фермеры, до которых дошли слухи о чудесном удобрении.

Возможно ли такое?

Больше чем уверен, что любой, кто знает о статистике не по наслышке, находится в здравом уме и твердой памяти, а также в трезвом состоянии, скажет, что такое маловероятно, т.к. если нулевая гипотеза подтверждена полностью, исследования полностью рандомизированы, то никакой корреляции между удобрением и урожайностью помидоров выявлено не было.

И тем не менее, тот же самый вопрос на засыпку.
DrgLena
Цитата(YVR @ 2.04.2012 - 20:03) *
И тем не менее, тот же самый вопрос на засыпку.

А кого будем засыпать? Согласна, пусть меня этими помидорами smile.gif .
Во первых, нулевая гипотеза не может быть подтверждена, а особенно полностью ни в каком исследовании. Она может быть либо опровергнута, тогда принимается альтернативная, либо не опровергнута. А не опровергнута она может быть в случае не достаточной мощности исследования.
Во вторых, результат исследования 50/50 свидетельствует только о том, что доли урожая выше среднего и ниже среднего с одного куста одинаковы. При этом, нам не известно, на сколько выше среднего и на сколько ниже среднего. Возможно, выше среднего было очень на много, а ниже среднего совсем незначительно. В итоге ? урожай выше среднего. Возможно, отчет был верно составлен, что и привлекло фермеров и они стали участниками нового эксперимента, который возможно был более многочисленный, что позволило h0 опровергнуть, хотя фермеров это не волнует, а в результате ? повышение закупок.
nokh
Давайте подправим! Во-первых, при таком экспериментальном плане (дизайне исследования) следует рассматривать не "превышение среднестатистического показателя", а различия между урожайностью на новом удобрении и на нейтральном веществе. Во-вторых, не вполне корректно говорить о том, что "нулевая гипотеза подтверждена полностью", правильнее сказать, что нулевая гипотеза "сохраняется" или "не была отклонена", поскольку доказательства для её отклонения в данном эксперименте оказались слишком слабыми. В следующем или более масштабном исследовании эти доказательства могут оказаться сильнее.

Резюме всей длинной истории: несмотря на отсутствие научно доказанного эффекта от применения нового удобрения препарат активно раскупается фермерами.

Возможно ли такое? Конечно! Как известно, возможность представляет собой состояние, когда имеется только одна часть детерминирующих факторов, но отсутствует другая их часть. При таких условиях возможность превращается в действительность не только через необходимость, но и через случайность. Приведённый вами пример хорошо демонстрирует узость понимания Возможности, как в качестве раскрывающего содержания Предстоящего, т.е. экзистенциала, так и в качестве Объясняющего, т.е. категории в понимании Ихгейзера и его последователей. В целом же, несмотря на то, что возможность определяется как Степень свободы реализации определённого состояния вещей, а сама степень возможности того или иного явления выражается через категорию Вероятности, очевидно, что и "Степени свободы" и "Вероятность" в данном контексте не относятся к предмету Теории вероятности и математической статистики, как впрочем и сам вопрос. Также, как показывает мой опыт, после таких задачек засыпается очень плохо; предлагаю исключить вопрос из категории "на засыпку".
100$
1. Для проверки (нулевой) гипотезы о средней в данном исследовании контрольная выборка вообще не нужна.

2. Драгоценные сведения о том, что
Цитата
В половине случаев удобренные растения превысили урожайность выше среднестатистического показателя, в половине показатель остался ниже. Тоже самое и в контрольной группе, т.е. 50% / 50%.

для проверки гипотезы о средней также не нужны.

3. Из этого с необходимостью следует, что радостное известие о том, что
Цитата
..нулевая гипотеза для данного сорта помидора подтверждена полностью.

является бездоказательным.

4.
Цитата
Возможно ли такое?

Конечно возможно, если удобрение было в виде порошка, и вместо того, чтобы зарывать его в землю, ботаники его нюхали. smile.gif
YVR
Цитата(DrgLena @ 3.04.2012 - 00:51) *
А кого будем засыпать? Согласна, пусть меня этими помидорами smile.gif .
Во первых, нулевая гипотеза не может быть подтверждена, а особенно полностью ни в каком исследовании. Она может быть либо опровергнута, тогда принимается альтернативная, либо не опровергнута. А не опровергнута она может быть в случае не достаточной мощности исследования.
Во вторых, результат исследования 50/50 свидетельствует только о том, что доли урожая выше среднего и ниже среднего с одного куста одинаковы.


Например было проведено 1000 исследований. Соответственно мы получили результаты: истинно-положительных 250, истинно-отрицательных 250, ложно-положительных 250, ложно-отрицательных 250.

250 250
250 250

Вычисляем chi, получаем 0. Нулевая гипотеза подтверждена, т.к. chi-square распределение для 1 степени свободы даст максимум. Выше накопленная вероятность для нулевой гипотезы уже быть не может.

Берем данные в виде двух колонок, вводим бинарные данные: объясняющая переменная - удобрение, зависимая переменная - превышение показателя среднестатистической урожайности. Создаем регрессионную модель, получаем коэффициент корреляции - 0.

Нулевая гипотеза опять же подтверждена, т.к. никакой корреляции между удобрением и урожайностью не было выявлено.


Цитата(DrgLena @ 3.04.2012 - 00:51) *
При этом, нам не известно, на сколько выше среднего и на сколько ниже среднего. Возможно, выше среднего было очень на много, а ниже среднего совсем незначительно.


Предположим, что известно. Для чистоты эксперимента, можно подставить во вторую колонку точное значение урожайности и опять получим нулевой коэффициент корреляции.

Предположим, что среднестатистическая урожайность для удобренных растений не отличается от среднестатистической урожайности из контрольной группы.

Цитата(DrgLena @ 3.04.2012 - 00:51) *
В итоге ? урожай выше среднего. Возможно, отчет был верно составлен, что и привлекло фермеров и они стали участниками нового эксперимента, который возможно был более многочисленный, что позволило h0 опровергнуть, хотя фермеров это не волнует, а в результате ? повышение закупок.


Не отчет, а рекомендации фермерам. Отчеты от ботаников были верными.

Вопрос остается прежним, как можно составить адекватные рекомендации фермерам по результатам ботанических исследований, если нулевая гипотеза статистическими методами в этих самых исследованиях подтверждена полностью?
DrgLena
Так нужно дать рекомендации фермерам, не проблема. Средняя урожайность с куста 5 помидоров. В случае применения удобрения в половине случаев (250) урожайность была выше среднего, а именно 10 помидоров с куста, а у другой половины (250) ниже среднего с куста, а именно 4 помидора. А в группе без применения удобрения также в половине случаев урожайность была выше среднего, а именно 6 помидоров с куста, и в 250 случаев ниже среднего, а именно те же 4 помидора. Нравится вам таблица сопряженности, составляйте, по числу помидоров, получите a, b, c, d =2500, 1000, 1500, 1000 h0 отклонена. Но для фермеров лучше сделать такой вывод, в случае применения удобрения шанс получить больше помидоров с куста в 1,67 выше, чем без его применения (OR=1,67; 95% ДИ 1,50 - 1,86). И все побежали покупать удобрение. Никакого шаманства, только логика. Можно и на килограммы посчитать, общей урожайностью убедить.
YVR
Цитата(DrgLena @ 3.04.2012 - 11:59) *
Так нужно дать рекомендации фермерам, не проблема. Средняя урожайность с куста 5 помидоров. В случае применения удобрения в половине случаев (250) урожайность была выше среднего, а именно 10 помидоров с куста, а у другой половины (250) ниже среднего с куста, а именно 4 помидора. А в группе без применения удобрения также в половине случаев урожайность была выше среднего, а именно 6 помидоров с куста, и в 250 случаев ниже среднего, а именно те же 4 помидора. Нравится вам таблица сопряженности, составляйте, по числу помидоров, получите a, b, c, d =2500, 1000, 1500, 1000 h0 отклонена. Но для фермеров лучше сделать такой вывод, в случае применения удобрения шанс получить больше помидоров с куста в 1,67 выше, чем без его применения (OR=1,67; 95% ДИ 1,50 - 1,86). И все побежали покупать удобрение. Никакого шаманства, только логика. Можно и на килограммы посчитать, общей урожайностью убедить.


Может быть Вам и понравится предложенный Вами же метод подгонки желаемого под действительное? Но фермерам не понравится точно. Т.к. с таким же успехом можно было в таблицах сопряженности брать не только количество помидоров, но и количество кратеров на видимой и невидимой стороне луны. И в том и в другом случае, махинации с таблицами сопряженности никак не повлияют на реальную урожайность помидоров, поскольку она для любого случайно взятого в аренду земельного участка независимо от применения новых удобрений и манипуляций "специалистов" по статистике с таблицами сопряженностей, останется на прежнем уровне, т.е. среднестатистическом N килограммов помидоров с куста за сезон. А поскольку затраты на удобрения является дополнительными издержками, т.е. отрицательно повлияют на себестоимость помидоров, то любой вменяемый фермер, в первую очередь, откажется от Ваших услуг, как "специалиста" по статистике.

Фермер будет приобретать удобрения лишь в тех случаях когда реальный показатель повышения урожайности, выраженный в деньгах, покроет с лихвой издержки на покупку удобрений.
DrgLena
Я думаю, что фермеров я убедила, а вот с ботаниками сложнее, у них нет никакого среднестатистического N кг с куста в вашей задачке, но есть только больше или меньше этого среднего. А если бы были средние в двух группах полей, то зачем тогда таблицы сопряженности.
DrgLena
Цитата(YVR @ 3.04.2012 - 12:22) *
Фермер будет приобретать удобрения лишь в тех случаях когда реальный показатель повышения урожайности, выраженный в деньгах, покроет с лихвой издержки на покупку удобрений.

И что же это ботаники не представили этот реальный проказатель повышения урожайности, и до нас его не донесли ни в деньгах, ни даже в помидорах. Кроме хи-кв. ничего не учили?
100$


Цитата
Берем данные в виде двух колонок, вводим бинарные данные: объясняющая переменная - удобрение, зависимая переменная - превышение показателя среднестатистической урожайности. Создаем регрессионную модель, получаем коэффициент корреляции - 0.

Нулевая гипотеза опять же подтверждена, т.к. никакой корреляции между удобрением и урожайностью не было выявлено.


Пассаж про коэффициент корреляции между двумя бернуллиевскими векторами - это несомненная творческая удача.
С вполне объяснимым волнением ждем очередной порции новостей с переднего края науки.
YVR
Цитата(DrgLena @ 3.04.2012 - 17:28) *
И что же это ботаники не представили этот реальный проказатель повышения урожайности, и до нас его не донесли ни в деньгах, ни даже в помидорах. Кроме хи-кв. ничего не учили?


В компетенцию и обязанности ботаников это не входило. Задача ботаников: провести анализ почвы и орошаемой воды и выслать результаты заказчику (чтобы он мог убедиться в чистоте эксперимента, т.е. отсутствии двух одинаковых делянок участвующих в эксперименте, что являлось бы неравномерностью распределений и отрицательно повлияло бы на качество рандомизации), посадить на своей делянке растения, удобрить какой-то агрохимией от заказчика, ухаживать за этим самым растением и отчитываться о результатах на своей делянке, ну и естественно получать некую заранее обговоренную сумму денег от заказчика за предоставленные отчеты.

А вот в компетенцию специалистов по статистике входит обязательство следить за тем, что именно они подставляют в свои вычисления. Например, в таблицы сопряженности нельзя подставлять ничего кроме зафиксированных количеств произошедших исходов событий либо частот этих самых исходов. Т.е. нельзя подставлять туда: литры, граммы, ватты, помидоры и прочие значения в единицах измерения отличных от количества исходов либо их частот. Исходом события в теории вероятности может быть, например, превышение среднестатистической урожайности на экспериментальной делянке.

Суть в том, что у исхода события всегда есть одни противоположный исход, который может состоять из как из единственного, так и из множества несовместных исходов события и выражаться в логическом отрицании прямого исхода события. Т.е. если исход события - превышение среднестатистической урожайности на экспериментальной делянке, то противоположный исход - урожайность на экспериментальной делянке ниже среднестатистической. Сумма частот всех несовместных исходов по теореме полной вероятности должна быть равна 1.

Почему можно вместо количеств исходов подставлять их частоты? Это банально: если все ячейки таблицы сопряженности умножить или разделить на какую либо константу, то конечный результат не изменится.

По вышеуказанным причинам, среднее количество помидоров с куста на делянке исходом события быть никак являться не может, т.к. у нецелочисленного (усредненного) количества выращенных помидоров с куста нет противоположного исхода: иного количества невыращенных помидоров с куста для делянки - явный алогизм и математическая неопределенность. Но точное количество выращенных помидоров с отдельновзятого куста событием является, т.к. несовместным событием (входящим в множество принадлежащее противоположному исходу) в таком случае будет любое иное количество помидоров с куста. Т.е. если взять распределение вероятностей в виде количество помидоров с куста в виде положительного целого числа, включая 0 помидоров, то каждое отдельновзятое количество может иметь вероятности в этом самом распределении. Сумма всех несовместных вероятностей исходов, входящих в распределение, по теореме должна быть равна 1. Вполне понятно, что отдельновзятое количество помидоров с отдельновзятого куста не может рассматриваться как показатель урожайности, т.к. любое иное количество помидоров является подмножеством всех остальных несовместных исходов, как превышающих, так и непревышающих среднестатистический показатель урожайности.
DrgLena
Цитата(YVR @ 3.04.2012 - 16:53) *
Исходом события в теории вероятности может быть, например, превышение среднестатистической урожайности на экспериментальной делянке.

Создайте несколько градаций этого самого превышения и выходите, наконец, из четырехпольной таблицы, кроме больше, меньше еще и равно есть, я на помидарах, как на пальцах, вашу задачку и решала. Где же ваш ответ, на что же фермеры повелись? Неужели ботаники взвесили помидоры?


YVR
Цитата(DrgLena @ 3.04.2012 - 20:41) *
Создайте несколько градаций этого самого превышения и выходите, наконец, из четырехпольной таблицы, кроме больше, меньше еще и равно есть, я на помидарах, как на пальцах, вашу задачку и решала. Где же ваш ответ, на что же фермеры повелись? Неужели ботаники взвесили помидоры?


Нет, они взвешивать помидоры не стали, т.к. компания предпочитала не нанимать "специалистов" в области статистики, т.е. из числа причастных к вивисекциям и опытам над больными людьми, а также специалистов по эконометрике, т.е. причастных к экономическим кризисам. Привлекли к этому делу выпускников технических вузов, которые проведя расчеты и поведали, что нулевая гипотеза доказана, а следовательно новое удобрение не может быть панацеей для помидоров, т.е. повысить урожайность на любом земельном участке с любым орошением, т.к. если взять урожайность в качестве зависимой переменной, то удобрение объясняющей переменной не является в том случае, когда эта самая переменная единственна.

Ну, а поскольку, если гора не идет к Магомету и причина ясна, то лечить нужно не симптомы (нулевую гипотезу от единственной переменной, которая оказалась вовсе не объясняющей), а причину (???).

Вопрос пока остается прежним.
p2004r
Цитата(YVR @ 3.04.2012 - 18:56) *
Вопрос пока остается прежним.


1. Урожай (урожайность) в помидорах измеряется, в штуках. Альтернатива в кг.

2. Урожай меньше 0 штук, или 0 кг не бывает.

Дальше думайте сами.
DrgLena
Цитата(YVR @ 3.04.2012 - 18:56) *
Нет, они взвешивать помидоры не стали, т.к. компания предпочитала не нанимать "специалистов" в области статистики, т.е. из числа причастных к вивисекциям и опытам над больными людьми, а также специалистов по эконометрике, т.е. причастных к экономическим кризисам.

Все специалисты в области статистики в кавычках, не только я одна. Могли бы и взвесить, это не смертельно для помидоров и даже не больно, и всемирный кризис не вызовет.
Цитата(YVR @ 3.04.2012 - 18:56) *
Привлекли к этому делу выпускников технических вузов, которые проведя расчеты и поведали, что нулевая гипотеза доказана

Если выпускники технического вуза доказывают нулевую гипотезу, то можно принять альтернативную - качество образования ниже среднего.
Цитата(YVR @ 3.04.2012 - 18:56) *
...лечить нужно не симптомы...

Можно и симптомы, но в соседней ветке...
Цитата(YVR @ 3.04.2012 - 18:56) *
Вопрос пока остается прежним.

А вопросов больше нет
YVR
Цитата(DrgLena @ 3.04.2012 - 22:40) *
А вопросов больше нет


Не думаю, что Нюрнбергский процесс поставил точку в вопросе медицинских исследований на людях.


У тех, кто занимается лечением симтомов, вместо причин и применением отсебятины в статистике, вопросов быть не может, т.к. в качестве ответа на любые вопросы у них есть отсебятина.

К "специалистам" из области "доказательной" медицины у меня тоже вопросов нет, т.к. их по вышеуказанной причине спрашивать о чем либо бесполезно.


Зато есть ответы у меня.

Ладно, не буду томить живодеров и садистов из области "доказательной" медицины, которая на самом деле является всего лишь банальным антигуманным бизнесом, контролируемым и управляемым фармацевтическими компаниями. А термин "доказательная" не более чем фиговый листок на непристойностях этого самого бизнеса.

Если функция:

p = f(x1) = Const

где: p - вероятность некоего события (например, вероятность того, что урожайность помидорных кустов превысит среднестатистический показатель), а x1 - некий фактор (например, химическое удобрение для этих самых кустов, значение бинарное: 1 - вносилось в почву, 0 - не вносилось), то накопленная частота нулевой гипотезы равна 1.

Положим что мы имеем возможность получить также функцию еще от одного фактора (например, от жесткости воды, которой орошали кусты помидоров). Химический состав воды и почвы для каждого участка был получен от ботаников до начала исследования, поэтому дополнительных экспериментов уже не понадобится.

p = f(x2)

Положим, что для f(x2) нулевая гипотеза отклонена по причине низкой накопленной вероятности.

И что толку? Теоретически, поскольку нулевая гипотеза для f(x1) доказана, то вроде бы должно выполняться равенство:

p = f1(x1, x2) = f(x2)

По крайней мере, для теоремы Байеса так оно и есть, ведь x1 не вносит никакой дополнительной информации для p, а соответственно и повлиять на p никоим образом не может. Но нас f(x2) не интересует, т.к. компания производит удобрения и ее благосостояние зависит только от влияния x1 на p и никакие иные факторы независимо от их статистической значимости, никакого значения в данном контексте не имеют.

Казалось бы, плюнуть на это дело и бросить его. Но в теореме Байеса есть одно маленькое существенно "но". Равенство:

p = f1(x1, x2) = f(x2)

справедливо лишь в тех случаях, когда x1 и x2 строго независимы, т.е. x1 не является объясняющей переменной для зависимой переменной x2, а также x2 не является объясняющей переменной для зависимой переменной x1. В случаях когда между x1 и x2 имеется существенная зависимость, теорема Байеса дает не менее существенную погрешность. Впрочем, эта самая теорема нас интересует меньше всего.

Если берем удобрение - одно химическое вещество, смешиваем с водой - второе химическое вещество, получаем третье химическое вещество (например, вода у которой жесткость в той или иной степени нейтрализована химическим реакцией с удобрением), которым поливались помидоры. Проверяем нулевую гипотезу для этого самого третьего химического вещества: p = f(x1, x2) = f(x3).

Положим, что нулевая гипотеза опять же отвергается и для третьего химического вещества. Если это не так, то можно будет проверить нулевую гипотезу и для химического состава почвы: f(x4).

Опять же остановимся на том что некое третье вещество по отвергнутой нулевой гипотезе выявлено. В этом случае задача решена.

Рекомендация для фермеров будет выглядеть так:

Y = f(1, x2) - f(0, x2)

Где:

Y - рекомендация в виде численного значения. Если значение x больше 0, то удобрение необходимо внести в почву. Если меньше 0, то противопоказано.

После чего, компания вывешивает на сайте диалоговую форму с расчетом значения Y. Фермеры могут удаленно замерять на своих участках значение x2 и в соответствии с ним принимать решение о необходимости приобретения удобрения для своих растений.

-------------------------

Выводы: статистическое подтверждение нулевой гипотезы для какого либо фактора (например, лекарственного препарата или иного терапевтического вмешательства) не является доказательством того, что этот самый фактор не влияет на зависимую переменную в сочетании с другими факторами. Хлеще того, отклонение выявленных во всемя клинических исследований нежелательных побочных эффектов по причине того, что они оказались статистически незначимыми, может являться заведомой ошибкой, поскольку в этом случае есть вероятность выплеснуть "ребенка с водой из купели", т.к. дальнейшее выявление этих самых эффектов позволит уточнить противопоказания без дополнительных исследований, что несомненно должно только положительно сказаться на конечном результате.

Проще говоря, многие клинические исследования в том числе и сопровождавшиеся жертвами как в лице больных пациентов, так и братьев наших меньших, по причине того, что накопленная вероятность нулевой гипотезы превысила допустимую норму, можно было и нужно было более детально изучить с учетом влияния различных факторов, а не отвергать. Ведь лечебное средство с выявленными показаниями и противопоказаниями более ценно и качественно, нежели панацея, противопоказания которой были отклонены по уровням статистической значимости.
100$
Цитата
Вопрос пока остается прежним.


Быть или вовсе не быть - вот в чем разрешенье вопроса (с)

Гамлет, однако.
DrgLena
Под собственные аплодисменты, ответив на свой собственный вопрос, обругав при этом сторонников доказательной медицины, имея о ней особое мнение, начните с анализа своего выражения ?исследования полностью рандомизированы?. Интересно, что вы имели в виду? Количества симптомов, которые вы не лечите, нарастают, могут в диагноз перерасти, тогда только хирургически придется удалять манию величия, отсутствие чувства юмора и др. конфаундинги, мешающие воспринимать те истины, которые вы нам поведали.
p2004r
курс теовера в технических вузах приносит много больше вреда, чем пользы frown.gif

в плане полемики: все полезные вычисления над распределением вероятности случайной величины идут в геометрическом виде в режиме --- "на пальцах", а эти алгебраизированные объяснения калечат мозг похоже навсегда.
100$
Теперь уже у меня философские вопросы на засыпку.

Кому, когда и при каких обстоятельствах в жизни пригодится эта вербальная диаррея из поста #16?

Что сказать-то хотел?
Что статистика в медицине-это шарлатанство?
Или что медицина - самая точная наука после богословия?

И зачем простенькую гипотезу о средней сводить к бернуллиевской модели?

И почему Колмогоров учил, что вероятность - это функция от элементарного исхода? А не так, как нам тут преподают - что, мол, от химсостава воды и почвы. И вообще, причем тут старые галоши?


P.S. Коллеги, вы просто гипердиагносты. Чел взыскует интеллектуальных развлечений, но не знает, как они выглядят. А вы сразу с диагнозами.
TheThing
То, что p-value зависит от размера выборки и от величины эффекта, написано в любой хорошей книге по мат. статистике. И если в эксперименте мы получаем p > 0.05 - это не означает, что эффекта нет (хотя часто это можно видеть в работах, публикациях и т.д), а лишь говорит о том, что мы не можем сделать определенный вывод (мы не знаем, то ли выборка маленькая то ли эффект был слишком слабым, в любом случае - недостаточно мощности нашего исследования). Поэтому исследование можно продолжать и следует стараться включить другие возможные факторы (конфаундинги) в анализ, но ведь бывает, что у нас даже намека нет, что это может быть. Например, в генетических исследованиях - 30 миллионов полиморфизмов и неизвестно какие из них ассоциированы с заболеванием, какие тогда должны включаться в анализ, все по-порядку? Р. Фишер всегда старался сделать акцент на том, что единичные исследования (будь то с p < 0.05 или p > 0.05) не могут ничего доказать и всегда стоит провести n-количество исследований и лишь затем делать выводы. А то, что у нас (и на западе) при p <0.05 ликуют и сразу же пишут статью в престижный журнал, что совершили великое открытие - лишь доказывает неосведомленность в этих проблемах. Было достаточно примеров в истории, когда подобные выводы уносили жизни людей.

Поэтому с выводами я согласен, только не понятно, зачем столько агрессии, злобы и оскорблений практически в каждом Вашем посту, YVR?
YVR
Цитата(TheThing @ 4.04.2012 - 21:39) *
А то, что у нас (и на западе) при p <0.05 ликуют и сразу же пишут статью в престижный журнал, что совершили великое открытие - лишь доказывает неосведомленность в этих проблемах. Было достаточно примеров в истории, когда подобные выводы уносили жизни людей.

Поэтому с выводами я согласен


Ничего удивительного, что p < 0.05 будет уносить жизни пациентов. p может быть и пренебрежительно малым, однако вот простейший пример, когда экспертная система с таким незначительным p ошибается в 11% случаев (факторов риска не хватает, для большей точности прогноза)

Нажмите для просмотра прикрепленного файла

ЭС в аттаче:

Нажмите для просмотра прикрепленного файла
DoctorStat
Цитата(TheThing @ 4.04.2012 - 20:39) *
А то, что у нас (и на западе) при p <0.05 ликуют и сразу же пишут статью в престижный журнал, что совершили великое открытие - лишь доказывает неосведомленность в этих проблемах.
Пусть для случая 2-х независимых исследований, в каждом получена вероятность Pi<0.05, i=1,2 справедливости нулевой гипотезы Н0. Тогда итоговая вероятность справедливости Н0 равна произведению P=P1*P2<5E-4 .
100$
Цитата(DoctorStat @ 5.04.2012 - 12:04) *
Пусть для случая 2-х независимых исследований, в каждом получена вероятность Pi<0.05, i=1,2 справедливости нулевой гипотезы Н0. Тогда итоговая вероятность справедливости Н0 равна произведению P=P1*P2<5E-4 .


А у меня почему-то получилось p < 2.5E-3 weep.gif
YVR
Цитата(DoctorStat @ 5.04.2012 - 14:04) *
Пусть для случая 2-х независимых исследований, в каждом получена вероятность Pi<0.05, i=1,2 справедливости нулевой гипотезы Н0. Тогда итоговая вероятность справедливости Н0 равна произведению P=P1*P2<5E-4 .


Ничего подобного. Если в одной лаборатории получены результаты эксперимента с неким p1, а вторая лаборатория точно репродуицировала аналогичный эксперимент в аналогичных условиях с p2, в этом случае итоговое значение p < Max(p1, p2)

Проще говоря, в одной из лабораторий могли чего-то не учесть или вообще подтасовать результаты (что не является редкостью, если исследователи - лица заинтересованные в результатах, т.к. цель оправдывает средства). Если две разные лаборатории провели аналогичные эксперименты, но с несколько различающимися параметрами, тогда наиболее ближе к истине:

1. Разница в количестве испытаний, тогда более точное (наиболее уточненное) значение p в той лаборатории, где количество испытаний максимально
2. Качество рандомизации, тогда более точное значение p там, где рандомизация была наиболее качественной.

Также, можно объединить результаты из разных лабораторий в одну таблицу сопряженности и вычислить уточненный p
100$
Цитата
То, что p-value зависит от размера выборки и от величины эффекта, написано в любой хорошей книге по мат. статистике.


В тех же самых книгах по статистике кроме этого написано еще и то, как определить необходимый объем выборки при организации выборочного исследования.


Цитата
И если в эксперименте мы получаем p > 0.05 - это не означает, что эффекта нет (хотя часто это можно видеть в работах, публикациях и т.д), а лишь говорит о том, что мы не можем сделать определенный вывод (мы не знаем, то ли выборка маленькая то ли эффект был слишком слабым, в любом случае - недостаточно мощности нашего исследования).


То есть, если Н0 не отвергается на принятом уровне значимости, вы затрудняетесь с формулировкой выводов по результатм исследования и честно пишете "не знаю". Верно вас поняли?
TheThing
Цитата(100$ @ 5.04.2012 - 13:41) *
В тех же самых книгах по статистике кроме этого написано еще и то, как определить необходимый объем выборки при организации выборочного исследования.


Да, но для некоторых методов (например логистическая регрессия) эти расчеты очень сложны или вовсе не определены (для логит-регрессии я нашел лишь упрощенные рекомендации).

Цитата
То есть, если Н0 не отвергается на принятом уровне значимости, вы затрудняетесь с формулировкой выводов по результатм исследования и честно пишете "не знаю". Верно вас поняли?


По моим наблюдениям в работах часто не акцентируется внимание на тех данных, которые получают с p > 0.05, а обсуждают статистически значимые результаты. Но если, например, я провожу корреляционный анализ между двумя переменными и получаю p > 0.05, я не могу сказать, что между ними не наблюдается корреляционной связи или она отсутствует, а лишь то, что в результате своей работы мне не удалось набрать достаточно доказательств, что между переменными наблюдается эта самая статистически значимая связь. В западной литературе при p > 0.05 употребляется термин unconclusive result.

Также вижу следующую проблему: статистически значимый коэффициент корреляции означает, что |r| > 0, если мы принимаем за H0 r = 0. Но, например, практическая значимость коэффициента корреляции r = 0.1 очень близка к r = 0, ведь получается, что коэффициент детерминации 0.01, а значит 1% изменчивости в переменной Y мы можем объяснить с помощью переменной Х при их линейной взаимосвязи. В работе мы получаем статистическую значимую связь (УРРРАА! будет, что шефу показать smile.gif ) с r = 0.1 (на столь малую величину эффекта мы закрываем глаза, поскольку привыкли дихотомически делить результаты на p <0.05 и p > 0.05).

Если взглянуть на таблицу ниже, можно увидеть, что для того, чтобы "сделать" коэффициент корреляции стат. значимым при r = 0.1 нам потребуется всего 272 наблюдения и вуаля, великое открытие smile.gif Ценность сего весьма сомнительна, но ведь p < 0.05.


r [R-square] a=0.001 a=0.01 a= 0.05

.005 [.000025] 381980 216476 108223
.01 [.0001] 95494 54119 27057
.05 [.0025] 3818 2165 1084
.1 [.01] 953 541 272

Мне кажется, что основной интерес ученого (исследователя) лежит не в том, чтобы показать, что явление существует (p < 0.05), а увидеть величину этого явления (effect size).

Также прикрепил статью мэтра статистики Jacob Cohen'a, который заложил прочный фундамент в мета-исследования и занимался проблемой величины эффекта и статистической мощностью тестов. Статья называется "The Earth is round, p < 0.05". Проблемность, а зачастую и абсурдность, связанные с NHST (Null Hypothsis significance testing) чувствуется уже из названия smile.gif
100$

Позвольте сделать несколько уточнений.

Цитата
Да, но для некоторых методов (например логистическая регрессия) эти расчеты очень сложны или вовсе не определены (для логит-регрессии я нашел лишь упрощенные рекомендации).


1. Мы говорили о выборочных исследованиях. В выборочных исследованиях проверяются гипотеза о средней и гипотеза о доле. Бинарный класификатор под названием "логистическая регрессия" в этом смысле выборочным исследованием не является, соответственно рекомендаций о необходимом объеме выборки может и не быть.

Цитата
Но если, например, я провожу корреляционный анализ между двумя переменными и получаю p > 0.05, я не могу сказать, что между ними не наблюдается корреляционной связи или она отсутствует, а лишь то, что в результате своей работы мне не удалось набрать достаточно доказательств, что между переменными наблюдается эта самая статистически значимая связь. В западной литературе при p > 0.05 употребляется термин unconclusive result.

2.1. Не знаю, что вы называете "доказательствами", но при проверке статистических гипотез доказательством является достигаемый уровень значимости.
2.2. Это что ж получается: вы затратили ресурсы на проведение исследования и выдаете результат из серии "ну, не шмогла я, не шмогла!"?.
2.3. А если связи там действительно нет?


Цитата
Также вижу следующую проблему: статистически значимый коэффициент корреляции означает, что |r| > 0, если мы принимаем за H0 r = 0. Но, например, практическая значимость коэффициента корреляции r = 0.1 очень близка к r = 0, ведь получается, что коэффициент детерминации 0.01, а значит 1% изменчивости в переменной Y мы можем объяснить с помощью переменной Х при их линейной взаимосвязи. В работе мы получаем статистическую значимую связь (УРРРАА! будет, что шефу показать smile.gif ) с r = 0.1 (на столь малую величину эффекта мы закрываем глаза, поскольку привыкли дихотомически делить результаты на p <0.05 и p > 0.05).


3. Статистическое исследование - это не сравнение на "больше-меньше", а способ узнать, вызваны ли наблюдаемые различия случайными причинами, или они носят не случайный характер. Определение необходимого объема выборки, выбор номинального уровня значимости, на котором ведется исследование, а также проверяемые гипотезы - все это осуществляется на этапе планирования стат. исследования, т.е. до того, как вы начали перемалывать цифры в статистическом пакете.
TheThing
Цитата(100$ @ 5.04.2012 - 16:41) *
Позвольте сделать несколько уточнений.



1. Мы говорили о выборочных исследованиях. В выборочных исследованиях проверяются гипотеза о средней и гипотеза о доле. Бинарный класификатор под названием "логистическая регрессия" в этом смысле выборочным исследованием не является, соответственно рекомендаций о необходимом объеме выборки может и не быть.


Если о выборочных - полностью согласен.


Цитата
2.1. Не знаю, что вы называете "доказательствами", но при проверке статистических гипотез доказательством является достигаемый уровень значимости.
2.2. Это что ж получается: вы затратили ресурсы на проведение исследования и выдаете результат из серии "ну, не шмогла я, не шмогла!"?.
2.3. А если связи там действительно нет?


2.1. А когда не достигается этот уровень значимости, значит у нас недостаточно доказательств против H0. Я так и написал ведь выше.
2.2 Нехватка доказательств против Н0 - это тоже ведь результат, ничего постыдного в том, что "не шмогла" нет smile.gif Как Вы предлагаете трактовать ?
2.3 В реальном мире H0 очень редко когда бывает истинной, то есть, что связи нет (если конечно не проводить анализ намеренно между абсурдными переменными). На 4 стр. статьи Кохен пишет, что "Nil hypothsis is aslways false". То есть разницу между средними в 0,00001 можно доказать, как стат. значимую при достаточном количестве наблюдений.

Цитата
3. Статистическое исследование - это не сравнение на "больше-меньше", а способ узнать, вызваны ли наблюдаемые различия случайными причинами, или они носят не случайный характер. Определение необходимого объема выборки, выбор номинального уровня значимости, на котором ведется исследование, а также проверяемые гипотезы - все это осуществляется на этапе планирования стат. исследования, т.е. до того, как вы начали перемалывать цифры в статистическом пакете.


Абсолютно согласен, но ведь p value вы получаете после перемалывания цифр в стат. пакете и огромное количество людей (если не сказать большинство) с большой надеждой смотрят и ориентируются именно на это значение и очень переживают и не знают, что делать, когда p > 0.05 (потратили ресурсы и не "шмогла"). В то же время, обнаружив разницу между средними в 0,00001 и при р < 0.05 - восторгу нет предела и как вывод "Эта разница не случайна". А что ценного практически в этом?
TheThing
double post
100$

Цитата
2.1. А когда не достигается этот уровень значимости, значит у нас недостаточно доказательств против H0. Я так и написал ведь выше.

Что значит не достигается? Он так и называется "достигаемый уровень значимости". Если достигаемый меньше номинального (p<.05) - констатитруем различия. При p>.05 принимаем Но.

Цитата
2.3 В реальном мире H0 очень редко когда бывает истинной, то есть, что связи нет (если конечно не проводить анализ намеренно между абсурдными переменными). На 4 стр. статьи Кохен пишет, что "Nil hypothsis is aslways false". То есть разницу между средними в 0,00001 можно доказать, как стат. значимую при достаточном количестве наблюдений.


Представьте себе двойное слепое исследование, при котором я знаю, что пациенты получают плацебо, а вы и они-нет. По результатам дисперсионного анализа нулевая гипотеза не отвергается. Я ее с легкостью приму (потому, что она верна), а вы будете сетовать, что вам каких-то доказательств не хватило.

В том-то и дело, что вселенский детерминизм Демокрита не подтверждается, а Эпикуровское отклонение атома от прямой линии как раз хорошо "работает".

Цитата
очень переживают и не знают, что делать, когда p > 0.05 (потратили ресурсы и не "шмогла")

Принимать нулевую гипотезу. Как наши деды делали. Вы же уверены, что это тоже результат.

Цитата
...вывод "Эта разница не случайна". А что ценного практически в этом?


Можно строить модели как способ объяснить наблюдаемый масив явлений и возможность заглянуть в будущее. smile.gif
p2004r
Цитата(100$ @ 5.04.2012 - 16:41) *
Позвольте сделать несколько уточнений.

3. Статистическое исследование - это не сравнение на "больше-меньше", а способ узнать, вызваны ли наблюдаемые различия случайными причинами, или они носят не случайный характер. Определение необходимого объема выборки, выбор номинального уровня значимости, на котором ведется исследование, а также проверяемые гипотезы - все это осуществляется на этапе планирования стат. исследования, т.е. до того, как вы начали перемалывать цифры в статистическом пакете.


Помимо эксперимента есть и наблюдение. И важно понимать с чем имеем дело в конкретном случае.
p2004r
Цитата(YVR @ 5.04.2012 - 13:33) *
Также, можно объединить результаты из разных лабораторий в одну таблицу сопряженности и вычислить уточненный p


не забыв ввести при этом дополнительную переменную --- "экспериментатор" smile.gif
TheThing
Цитата(100$ @ 5.04.2012 - 19:23) *
Принимать нулевую гипотезу. Как наши деды делали. Вы же уверены, что это тоже результат.


Ну с дедами было не все так просто - порой, они были готовы "поубивать" друг друга. Под "дедами" я имею ввиду Рональда Фишера, Джерси Неймана и Эгона Пирсона.
Жил себе Фишер, изучал фертилизаторы, горя не знал - не было ни альтернативной гипотезы, ни ошибки первого рода, ни второго рода, была лишь H0 и p-value - значение, которое он рассматривал как силу доказательства против нулевой гипотезы (strength of evidence against null-hypothsis). Не было уровня статистической значимости (альфа-уровня) и пороговые значения p никак не обосновывались (цитирую) : "Если вероятность P <соответствующая значению статистического критерия> содержится в широком промежутке от 0.1 до 0.9, то у нас не будет никаких оснований сомневаться в проверяемой гипотезе; если же вероятность P становится, например, ниже 0.02, то это прямо указывает на несостоятельность данной гипотезы. Риск впасть в ошибку не будет слишком большим, если мы проведем пограничную линию у P = 0.05 и будем считать, что значение <статистического критерия>, лежащего выше этой линии, указывает на наличие существенных и реальных отклонений" (Фишер, 1956,с. 70-71). То есть для него не было никакого дихотомического деления результатов на статистически значимые или незначимые, как не было и жестких порогов 0,05 или 0,01. Он полагал, что единственное определенное решение имеет место тогда, когда исследователь отклоняет нуль-гипотезу. Если оснований для ее отклонения нет, исследователь попадает в неопределенное положение. Нуль-гипотеза не может быть принята или подтверждена, просто для ее отвержения пока нет достаточных оснований. Как мы видим, концепция Фишера носила исключительно индуктивный характер - "индуктивный вывод единственный известный нам процесс, с помощью которого появляется существенно новое знание".

Прошло немного времени - Нейман и Пирсон увидели огромный недостаток в теории Фишера - "гипотеза всегда проверяется по отношению к альтернативной. Не указав альтернативу H0, невозможно обосновать выбор оптимального статистического критерия". Но не начинать ведь с чистого листа, поэтому давай "прикрутим" к Фишеру ошибку первого рода, второго, альтернативную гипотезу, дадим механическое деление результатов исследований на стат. значимые и стат. незначимые, вообщем будем жить долго и счастливо. Так на свет появился подход, который состоит из двух несовместимых теорий, которые основываются на индукции и дедукции, которые "успешно" применяются в современном мире научных исследований, клинических испытаний и т.д., порой забывая, что не все так однозначно в этом вопросе, порой забывая, что Фишер несколько раз "проклинал" Пирсона и Неймана за их "надстроечку", а те, в свою очередь, в долгу тоже не оставались.

А проблем, которые связаны с таким подходом (простым делением результатов исследования на стат. значимые и незначимые) - огромное количество. В 2007 году была проведена (на западе) титаническая работа, которая имела за цель подытожить все накопленные мировые знания об остром коронарном синдроме, который является кластером сердечно-сосудистых заболеваний. За все время было обнаружено 85 генетических маркеров, которые расположены в 70 генах и были ассоциированы в с острым коронарным синдромом. Выборка составляла 811 случаев и 650 человек в контрольной группе. В результате анализа был обнаружен лишь ОДИН полиморфизм, который ассоциирован с заболеванием. Генетические исследования "славятся" очень низкой воспроизводимостью и одна из многочисленных причин лежит в дихотомическом разделение результатов на значимые и незначимые.

А как Вам суть такой статьи (не буду указывать авторов, дабы не обидеть) - значит начинается стандартный раздел "Обсуждение результатов" и первое предложение звучит так: "Впервые было показано, что гидрокортизон уменьшает синдром хронической усталости (P = 0.043)". Фишер бы, прочитав такое, сейчас катался по полу в истерике smile.gif

Более того, в лучших российских учебниках часто можно прочитать следующие: "p как показатель вероятностной меры случайного получения результатов". При всем моем уважении к Наследову и его хорошей книге, p-value НЕ является вероятностью того, что результаты носят случайный характер. По этому поводу ясно высказался Р. Карвер: "Значение p не может быть вероятностью того, что разность между средними значениями обусловлена случайностью, поскольку (a) значение p рассчитано в предположении, что вероятность случайного получения различия между средними равна единице, и (b) значение p используется для решения о принятии или отвержении идеи о том, что вероятность того, что случайность обусловила разность между средними, равна единице" (Carver, 1978, с. 383). В других хороших книгах p-value интерпретируется как вероятность того, что H0 является истиной. Или например так: "1-Р может считаться мерой надежности результата - вероятностью того, что при повторе эксперимента мы получим такие же результаты". Все это не больше чем фантазии на тему статистики smile.gif

Я лишь хотел обратить внимание на то, что не все так однозначно и просто в мире современных исследований, которые основывают свои результаты на не совсем удачном "миксе" теории статистического вывода и теории принятия статистических решений.

P.S. диарея закончилась, пора помолчать smile.gif
100$
Цитата
Ну с дедами было не все так просто - порой, они были готовы "поубивать" друг друга. Под "дедами" я имею ввиду Рональда Фишера, Джерси Неймана и Эгона Пирсона.
Жил себе Фишер, изучал фертилизаторы, горя не знал - не было ни альтернативной гипотезы, ни ошибки первого рода, ни второго рода, была лишь H0 и p-value - значение, которое он рассматривал как силу доказательства против нулевой гипотезы (strength of evidence against null-hypothsis). Не было уровня статистической значимости (альфа-уровня) и пороговые значения p никак не обосновывались (цитирую) : "Если вероятность P <соответствующая значению статистического критерия> содержится в широком промежутке от 0.1 до 0.9, то у нас не будет никаких оснований сомневаться в проверяемой гипотезе; если же вероятность P становится, например, ниже 0.02, то это прямо указывает на несостоятельность данной гипотезыэто прямо указывает на несостоятельность данной гипотезы. Риск впасть в ошибку не будет слишком большим, если мы проведем пограничную линию у P = 0.05 и будем считать, что значение <статистического критерия>, лежащего выше этой линии, указывает на наличие существенных и реальных отклонений" (Фишер, 1956,с. 70-71). То есть для него не было никакого дихотомического деления результатов на статистически значимые или незначимые, как не было и жестких порогов 0,05 или 0,01. Он полагал, что единственное определенное решение имеет место тогда, когда исследователь отклоняет нуль-гипотезу. Если оснований для ее отклонения нет, исследователь попадает в неопределенное положение. Нуль-гипотеза не может быть принята или подтверждена, просто для ее отвержения пока нет достаточных оснований. Как мы видим, концепция Фишера носила исключительно индуктивный характер - "индуктивный вывод единственный известный нам процесс, с помощью которого появляется существенно новое знание".


1.Все это, конечно, очень познавательно, но давайте вернемся к нашим помидорам. Предположим, что удобрение на самом деле представляет сосбой зубной порошок и не может повысить урожайность растения. Тогда нулевая гипотеза никогда не будет отвергнута. Какой вывод вы сделаете по результатам исследования?

2. Вы действительно, прочитав такое

Цитата
"Если вероятность P <соответствующая значению статистического критерия> содержится в широком промежутке от 0.1 до 0.9, то у нас не будет никаких оснований сомневаться в проверяемой гипотезе; если же вероятность P становится, например, ниже 0.02, то это прямо указывает на несостоятельность данной гипотезы. Риск впасть в ошибку не будет слишком большим, если мы проведем пограничную линию у P = 0.05 и будем считать, что значение <статистического критерия>, лежащего выше этой линии, указывает на наличие существенных и реальных отклонений" (Фишер, 1956,с. 70-71).


считаете, что это не дихотомия? Возьмите карандаш и проведите на листе линию. На сколько частей эта линия разделит ваш лист? Сообщите о результатах.

Именно то обстоятельство, что Фишер рассматривал два элементарных исхода: "то у нас не будет никаких оснований сомневаться в проверяемой гипотезе" и "это прямо указывает на несостоятельность данной гипотезы" побудило его провести эту самую пограничную линию на уровне .02 или .05. Это в свою очередь с необходимостью повлекло за собой осознание того, что нулевая и альтернативная гипотезы ходят парами и имеют одинаковую вероятность осуществления (как аверс и реверс у монетки). Иначе картинка - несимметричная. Потом пришло осознание того, что альтернативная гипотеза многолика (н-р, при проверке гипотез о принадлежности эмпирической ф-ции распределения тому или иному параметрическому семейству (критерии согласия)) и было введено в обиход понятие ошибки второго рода и мощности стат. критерия как функции от альтернативной гипотезы. Появилась лемма Неймана-Пирсона. Ну и чего тут кошмарного? За что вы так Неймана с Пирсоном приложили?

И причем тут "жесткие" и "нежесткие" пороги? Их, кстати, до сих пор нет. Выбор номинального уровня значимости-привилегия исследователя.

И вообще, предлагаю закончить. Все уже по домам разошлись, одни мы митингуем.
Для просмотра полной версии этой страницы, пожалуйста, пройдите по ссылке.
Форум IP.Board © 2001-2025 IPS, Inc.