Версия для печати темы

Нажмите сюда для просмотра этой темы в обычном формате

Форум врачей-аспирантов _ Медицинская статистика _ Вероятность и правдоподобие - помогите понять разницу.

Автор: Daria 1.10.2018 - 00:06

Добрый вечер.
Совсем запуталась с отношением правдоподобий.
LR+=Se/(1-Sp). Sp - вероятность наличия выявить маркер у больных, (1-Sp) - вероятность наличия выявить маркер у здоровых. Если LR+ - отношение правдоподобий, то как вероятности стали правдоподобиями?
Насколько я поняла, термин вероятность мы используем, когда хотим описать ?возможность?(?вероятность?) определенного исхода с учетом определенного значения параметра модели. Википедия также добавляет, что "без ссылки на любые наблюдаемые данные". Правдоподобие, в свою очередь, описывает ?возможность?(?вероятность?) определенного значения параметра модели, на основе наблюдаемых данных.
Верно ли я понимаю, что вероятность(Данные|гипотеза) = правдоподобие (гипотеза|данные). Т.е. в первом случае мы определяем вероятность некоторого исхода при условии, что есть определенная связь маркера и болезни (например, ОШ = 10), а экспериментальных данных у нас нет. Во втором случае оцениваем правдоподобие гипотезы о том, что есть определенная связь между маркером и болезнью (ОШ=10), при тех данных, что мы наблюдаем (таблица сопряженности 2х2).

Почему этот показатель не назван отношениеv вероятностей? Т.е. во сколько раз выше вероятность выявить маркер у больных по отношению к вероятности у здоровых. Почему в данном случае переходят к правдоподобиям?

Автор: Ольга Авдеева 4.10.2018 - 12:12

Понятия вероятности и правдоподобия тесно связаны. Если вероятность позволяет нам предсказывать неизвестные результаты, основанные на известных параметрах, то правдоподобие позволяет нам оценивать неизвестные параметры, основанные на известных результатах.

Автор: Daria 4.10.2018 - 16:56

Да-да, я прочитала статью в Википедии, а также кое-что еще, спасибо! Но вопросы остались (в первом сообщении).
Почему в этом показателе мы оперируем не вероятностями, а правдоподобиями?

Если мы используем отношение правдоподобия в качестве байесовского фактора, то, мне кажется, я поняла, почему мы переходим к отношению правдоподобий: апостериорные шансы=априорные шансы * ОП(H1|Data1/H0|Data0). При этом мы ссылаемся (Data) на данные, которые были получены в результате какого-то теста и на основе этого сделали вывод, что при этих данных, гипотеза1 в N раз правдоподобнее гипотезы 0. Верно?
И мы не используем в данном случае термин вероятность, т.к. вероятность, применительно на нашему случаю, означала бы "что если мы возьмем еще одну выборку и при этих же условиях (ОШ=10), вероятность наличия заболевания среди экспонированных будет в 10 раз больше, чем среди неэкспонированных (допустим, что ОШ=ОР)?

Тут еще один вопрос. В контексте отношения правдоподобий гипотеза 1 будет формулироваться как "каково правдоподобие, что при данном "раскладе" данных ОШ=10 (например)", а нулевая гипотеза как "каково правдоподобие, что при данном "раскладе" данных ОШ не равно 10? Или же нет?

К сожалению, на русском языке литературы очень мало. А на английском я или не понимаю (совсем другой уровень подачи - для конкретных математиков) или же все на каких-то абстрактных примерах. Пытаюсь все разложить по полочкам, но возникает много вопросов. help.gif, пожалуйста, разобраться с этими базовыми вопросами.

Автор: Daria 9.10.2018 - 19:10

Вот и не знаю теперь - откровенную глупость спросила или времени у участников форума нет. В любом случае, буду очень рада помощи.

Автор: 100$ 9.10.2018 - 22:50

Цитата(Daria @ 9.10.2018 - 19:10) *
Вот и не знаю теперь - откровенную глупость спросила или времени у участников форума нет. В любом случае, буду очень рада помощи.


Во первых строках своего письма обращаю ваше внимание на то, что нет в природе никакого правдоподобия в чистом виде. Фишер (1912) вводил понятие "функция правдоподобия", каковую с тех пор понимают как функцию плотности p(x, Theta) (относительно некоторой сигма-конечной меры (мю)) случайной выборки Х, рассматриваемую как функцию параметра Theta, в которой аргумент х фиксирован.
Важную роль в статистике играет частный случай, когда в качестве меры mu выступает распределение P(Theta0) случайной выборки Х, относящееся к некоторому фиксированному значению Theta0 параметра Theta. В каковом случае функция правдоподобия dP(Theta)/dP(Theta0)(x) называется отношением правдоподобия.

Причем тут таблицы сопряженности и отношения шансов мне не ведомо.

Автор: Daria 9.10.2018 - 23:16

Я имела в виду отношение правдоподобия, определяемое в результате оценки информативности диагностического теста.
https://en.wikipedia.org/wiki/Likelihood_ratios_in_diagnostic_testing

А именно:
LR+=Se/(1-Se)=Pr(T+|D+)/Pr(T+|D-)

Я так понимаю, что в данном случае оценивается правдоподобие двух гипотез. Как их правильно сформулировать?

Автор: 100$ 10.10.2018 - 01:04

Цитата(Daria @ 9.10.2018 - 23:16) *
Я имела в виду отношение правдоподобия, определяемое в результате оценки информативности диагностического теста.
https://en.wikipedia.org/wiki/Likelihood_ratios_in_diagnostic_testing

А именно:
LR+=Se/(1-Se)=Pr(T+|D+)/Pr(T+|D-)

Я так понимаю, что в данном случае оценивается правдоподобие двух гипотез. Как их правильно сформулировать?


Здесь вообще нет никаких гипотез, правдоподобие которых вас просили бы оценить и уж тем более корректно сформулировать sad.gif. Зато есть отношение правдоподобия как частное от деления двух условных функций правдоподобия: Pr(T+|D+) - условной вероятности наблюдать положительный результат теста (Т+) при условии, что болячка действительно существует (D+), и вероятности наблюдать положительный результат теста при условии, что болячки-то на самом деле нетути. Разумеется, в дискретном случае плотности заменены на вероятности.


Автор: Daria 10.10.2018 - 07:29

Цитата
Зато есть отношение правдоподобия как частное от деления двух условных функций правдоподобия: Pr(T+|D+) - условной вероятности наблюдать положительный результат теста (Т+) при условии, что болячка действительно существует (D+), и вероятности наблюдать положительный результат теста при условии, что болячки-то на самом деле нетути.


Так-так. А как это можно соотнести с этим:

Цитата
Если вероятность позволяет нам предсказывать неизвестные результаты, основанные на известных параметрах, то правдоподобие позволяет нам оценивать неизвестные параметры, основанные на известных результатах.
Все равно не могу до конца понять, когда вероятность становится правдоподобием.

Не могли бы вы немного подробнее остановиться на этом:
Цитата
Важную роль в статистике играет частный случай, когда в качестве меры mu выступает распределение P(Theta0) случайной выборки Х, относящееся к некоторому фиксированному значению Theta0 параметра Theta. В каковом случае функция правдоподобия dP(Theta)/dP(Theta0)(x) называется отношением правдоподобия.


Как это можно применить в случае, когда мы оцениваем связь маркера и болезни?

Автор: 100$ 10.10.2018 - 10:39


/ворчливо/
Вот вечно мне самые трудные билеты на экзаменах достаются...

Цитата
Так-так. А как это можно соотнести с этим:

Буквально. Подставляете значение параметра в функцию распределения с.в. - получаете вероятность наблюдать выборочное значение. Обратная задача - по имеющейся выборке оценить параметры модели - разумеется, методом максимального правдоподобия.

Цитата
Все равно не могу до конца понять, когда вероятность становится правдоподобием.

Когда наблюдается выборка из параметрического семейства, и вероятность / плотность понимается как функция от параметра.

Цитата
Как это можно применить в случае, когда мы оцениваем связь маркера и болезни?

Традиционным дедовским способом: перелопачивать ссылки из статьи в Википедии и смотреть, в какой из них показана логика превращения данного теоретического конструкта в LR+/LR-

Автор: Daria 11.10.2018 - 10:00

Цитата
/ворчливо/ Вот вечно мне самые трудные билеты на экзаменах достаются...

Спасибо вам большое за помощь. Чем больше читаю, тем больше вопросов. Наличие такого форума с такими участниками - большое подспорье в нелегком деле.

Много читала, много думала. Даже вручную построила функцию вероятности для простенькой выборки.

1. Если позволите еще несколько вопросов. В случае непрерывной с.в. мы определяем ее функцию от значения х. Чтобы определить вероятность, что параметр находится в интервале х1-х2, то вычисляем интеграл функции в данном пределе. Так? А что делать, если нужно получить точечную оценку вероятности (т.е. нужно оценить вероятность, скажем, х1)? Не могу разобраться.

2. Идем "в обратную сторону". Если известны значение х1 и ст.отклонение, то методом максимального правдоподобия можем выбрать наиболее вероятные параметры функции распределения. В случае нормального распределения - это мат. ожидание и дисперсия. Эти параметры?

3. Даже если у нас маркер представлен непрерывной с.в. х, то мы можем: а) определить вероятность получения определенного значения х1 при данных параметрах модели у лиц с маркером и без маркера, а потом сравнить эти вероятности. Б) у нас есть оценка маркера (х1 среднее и СО). Мы можем оценить правдоподобие что это значение х1 более вероятно получить у больных (т.е. при параметрах модели, соответствующим больным), чем у здоровых. Так?

Автор: 100$ 11.10.2018 - 12:48

Цитата(Daria @ 11.10.2018 - 10:00) *
Спасибо вам большое за помощь. Чем больше читаю, тем больше вопросов. Наличие такого форума с такими участниками - большое подспорье в нелегком деле.

Много читала, много думала. Даже вручную построила функцию вероятности для простенькой выборки.

1. Если позволите еще несколько вопросов. В случае непрерывной с.в. мы определяем ее функцию от значения х. Чтобы определить вероятность, что параметр находится в интервале х1-х2, то вычисляем интеграл функции в данном пределе. Так? А что делать, если нужно получить точечную оценку вероятности (т.е. нужно оценить вероятность, скажем, х1)? Не могу разобраться.

2. Идем "в обратную сторону". Если известны значение х1 и ст.отклонение, то методом максимального правдоподобия можем выбрать наиболее вероятные параметры функции распределения. В случае нормального распределения - это мат. ожидание и дисперсия. Эти параметры?

3. Даже если у нас маркер представлен непрерывной с.в. х, то мы можем: а) определить вероятность получения определенного значения х1 при данных параметрах модели у лиц с маркером и без маркера, а потом сравнить эти вероятности. Б) у нас есть оценка маркера (х1 среднее и СО). Мы можем оценить правдоподобие что это значение х1 более вероятно получить у больных (т.е. при параметрах модели, соответствующим больным), чем у здоровых. Так?


Ох, Дарья, Дарья... "В действительности все не так, как на самом деле" (с)

1. Смысл всех этих правдоподобий заключается в том, что мы изучаем совместное распределение элементов выборки. Допустим, перед нами набор чисел, который мы считаем совокупностью независимых, одинаково распределенных с.в. из нормального распределения. Нормальное распределение - двухпараметрическое. Далее мы составляем функцию правдоподобия как произведение индивидуальных плотностей элементов выборки. Сэр Рональд Элмс Фишер учит, что нас в данном случае интересуют такие значения параметров, которые доставляют экстремум (максимум) функции правдоподобия. Поэтому мы логарифмируем полученную функцию правдоподобия, при этом произведение становится суммой, с суммами работать удобнее. Находим производные функции правдоподобия по параметрам, приравниваем их к нулю и получаем для нашего случая параметр Theta1 как выборочное среднее, параметр Theta2 - смещенная оценка выборочной дисперсии. И вся любовь.

Из сказанного с необходимостью следует, что ваши пп. 1-2 - лютая чушь.

3. Здесь дело вовсе не в природе маркера как такового. Можно изучать и дискретный (дихитомический) показатель типа "Есть кашель/Нет кашля". Здесь мы в любом случае имеем 4-х клеточную таблицу сопряженности с результатами работы диагностического теста: его способностью здоровых определять как здоровых (чувствительность) и больных как больных (специфичность). Здесь мы считаем, что имеется две выборки: одна состоит из здоровых пациентов, которую тест разбивает на две подвыборки: верно классифицированных как здоровые и ошибочно классифицируемых как больные. Аналогично со второй выборкой: верно классифицируемых как больные и ошибочно как здоровые. Я только не могу сходу вам ответить, упомянутые LR+ и LR- - это строгие определения отношения правдоподобия, или они так названы для красного словца.

Автор: Daria 11.10.2018 - 15:24

Сейчас читала, сопоставляла, написанное вами, с другими источниками. Вроде, что-то начинает проясняться, но пока не посчитаю все хоть раз вручную по шагам, то все равно не пойму.
Буду читать и пробовать считать дальше.

В любом случае - спасибо большое. Буду разбираться.

Автор: 100$ 11.10.2018 - 16:02

Цитата(Daria @ 11.10.2018 - 15:24) *
Сейчас читала, сопоставляла, написанное вами, с другими источниками. Вроде, что-то начинает проясняться, но пока не посчитаю все хоть раз вручную по шагам, то все равно не пойму.
Буду читать и пробовать считать дальше.

В любом случае - спасибо большое. Буду разбираться.


Пока не пойму, что именно вы собираетесь считать, не готов пожелать вам успеха. Для вас сейчас сверхзадача - не пытаться трактовать функцию правдоподобия как субъективную вероятность в бейесовском смысле. Или в кухонно-бытовом. А то так и будете всю оставшуюся жизнь выяснять "когда и при каких обстоятельствах вероятности становятся правдоподобиями" и сводить с ума простодушных парней, вроде меня, рассуждениями о правдоподобности нулевых и альтернативных гипотез.

Все сказанное выше - просто упражнение в занудстве.

Автор: Daria 11.10.2018 - 19:43

Цитата(100$ @ 11.10.2018 - 16:02) *
Пока не пойму, что именно вы собираетесь считать, не готов пожелать вам успеха.

Я просто пыталась посчитать вероятность получить определенное значение, а также правдоподобие. Суть моих рассуждений отражена в первых двух пунктах несколькими постами выше, но, как выяснилось, обсуждать это уже не имеет смыла. Эх, а я так обрадовалась, что хоть немного разобралась. sad.gif

Про LR я вычитала, когда разбиралась с оценкой связи маркера и заболевания (Se, Sp, PPV, NPV, AUC, J-статистика (коэфф. Юдена, вроде), F1 и т.д.). Если с этими показателя мне все более-менее понятно, то с LR - нет. В принципе, можно все оставить, как есть, но стало просто интересно, почему именно отношение правдоподобия (тем более, почти в каждом источнике говорится, что правдоподобие и вероятность тесно связаны, но это не одно и то же). Когда я искала, что почитать про LR, встретила очень много отсылок к Байесовскому методу. Пишут, что LR представляет собой простейший вариант Байесовского фактора (как вы и написали - субъективной вероятности). Поэтому LR интересовало меня именно в этом аспекте.

Буду читать дальше. Если будут конкретные вопросы, простите, осмелюсь задать тут. Спасибо вам большое!

Автор: DoctorStat 13.10.2018 - 23:11

Цитата(Daria @ 11.10.2018 - 10:00) *
1. Если позволите еще несколько вопросов. В случае непрерывной с.в. мы определяем ее функцию от значения х. Чтобы определить вероятность, что параметр находится в интервале х1-х2, то вычисляем интеграл функции в данном пределе. Так? А что делать, если нужно получить точечную оценку вероятности (т.е. нужно оценить вероятность, скажем, х1)? Не могу разобраться.

Для непрерывных величин вероятность принять точное значение (=x1) равна нулю, т.к. интеграл по нулевому отрезку от x1 до x1 равен нулю.

Цитата(Daria @ 11.10.2018 - 10:00) *
2. Идем "в обратную сторону". Если известны значение х1 и ст.отклонение, то методом максимального правдоподобия можем выбрать наиболее вероятные параметры функции распределения. В случае нормального распределения - это мат. ожидание и дисперсия. Эти параметры?
Нормальное распределение определяется двумя параметрами: мат. ожидание и дисперсия, поэтому функция правдоподобия должна от них зависеть. Для нахождения максимума дифференцируем функцию правдоподобия по этим двум параметрам, приравниваем частные производные к нулю и решаем систему двух получившихся уравнений относительно мат. ожидания и дисперсии.

Цитата(Daria @ 11.10.2018 - 10:00) *
3. Даже если у нас маркер представлен непрерывной с.в. х, то мы можем: а) определить вероятность получения определенного значения х1 при данных параметрах модели у лиц с маркером и без маркера, а потом сравнить эти вероятности. Б) у нас есть оценка маркера (х1 среднее и СО). Мы можем оценить правдоподобие что это значение х1 более вероятно получить у больных (т.е. при параметрах модели, соответствующим больным), чем у здоровых. Так?

а) Вероятность получения определенного значения маркера для непрерывной с.в.равна нулю (см.п.1)
б) Если у нас есть правдоподобие f(x), т.е. вероятность получения среднего и дисперсии для двух групп пациентов, то мы можем предсказывать к какой группе принадлежит конкретный индивидуум. Если f(x)>1/2, то это контроль, если f(x)<1/2 - случай.


Форум Invision Power Board (http://www.invisionboard.com)
© Invision Power Services (http://www.invisionpower.com)