Форум врачей-аспирантов

Здравствуйте, гость ( Вход | Регистрация )

27 страниц V   1 2 3 > » 

100$
Отправлено: 4.12.2018 - 18:03


Дух форума
*

Группа: Пользователи
Сообщений: 690
Регистрация: 23.08.2010
Пользователь №: 22694



Цитата
Но не понимаю ряд показателей. Например, что значит lhs 89==>rhs 78. Как это понять?


lhs - это левая часть правила (Left-Hand-Side), rhs - соответственно, правая. Выделенные правила записываются в формате lhs=>rhs, знак "=>" переводится как "влечет за собой", т.е. в записи {89} => {78} множество {78} ассоциируется с множеством {89}. Для выделенных правил вычисляются статистики: support (поддержка), confidence (достоверность) и lift (подъемная сила)

P.S. Вы даже знак => воспроизвели с ошибкой. Нехорошо.

Цитата
Второе, когда я визуализирую график. Что значит эти красные кружки. Зеленые, это мои категории(номинативные не метрические)


Вообще-то, при визуализации выделенных правил в виде графа, кружки обозначают именно что правила. Их размер чаще всего пропорционален уровню поддержки правила. Почему они двух цветов (красные и зеленые) - не знаю. Вам виднее.
  Форум: Медицинская статистика · Просмотр сообщения: #23561 · Ответов: 2 · Просмотров: 243

100$
Отправлено: 30.11.2018 - 21:24


Дух форума
*

Группа: Пользователи
Сообщений: 690
Регистрация: 23.08.2010
Пользователь №: 22694


Сделал логлинейный анализ 3-входовой таблицы сопряженности (из предыдущего поста) в R.

Краткий отчет:

1. Сделал в Экселе массив, пригодный для работы с R. Назвал его незатейливо: Dogs. В этом массиве 4 столбца: три из них соответствуют факторам "Тип поражения" (Б-бактериальный, Г - грибковый, К-комбинированный), "Порода"(1-9) и "Область" (I-VIII) соответственно, четвертый ("Отклик") - содержит наблюдаемые частоты.
Нулевые ячейки этого массива заменил на ,5.

> head(Dogs,8)

Тип Порода Область Отклик
Б 1 I 13
Б 1 II 4
Б 1 III 4
Б 1 IV 5
Б 1 V 13
Б 1 VI 4
Б 1 VII 6
Б 1 VIII 7

2. Определил "Тип" "Породу" и "Область" как факторы:

> str(Dogs)

'data.frame': 216 obs. of 4 variables:
$ Тип : Factor w/ 3 levels "Б","Г","К": 1 1 1 1 1 1 1 1 1 1 ...
$ Порода : Factor w/ 9 levels "1","2","3","4",..: 1 1 1 1 1 1 1 1 2 2 ...
$ Область: Factor w/ 8 levels "I","II","III",..: 1 2 3 4 5 6 7 8 1 2 ...
$ Отклик : num 13 4 4 5 13 4 6 7 6 1 ...

3. Для логлинейной параметризации модели воспользовался функцией loglm() из пакета {MASS}

>library(MASS)

4. Нулевая гипотеза при логлинейном анализе заключается в том, что модель не противоречит наблюдаемым частотам, альтернативная - в том, что противоречит.
Соответственно, если после исключения к-л фактора из модели, она по-прежнему не противоречит исходным данным, то фактор считаем статистически незначимым.
Тестирование гипотезы осуществляется критерием отношения правдоподобия (Likelihood ratio test)

5. Логлинейное моделирование таблицы сопряженности заключается в построении т.н. иерархической модели, при которой включение трехфакторного взаимодействия в качестве предиктора автоматически влечет за собой включение двухфакторных взаимодействий и исходных факторов. Такая модель называется насыщенной (saturated) и не имеет познавательной ценности, поскольку точно подгоняет наблюдаемые частоты. Построим ее для примера:

> model.saturated<-loglm(Отклик~Тип*Порода*Область, Dogs)

> model.saturated

Call:
loglm(formula = Отклик ~ Тип * Порода * Область, data = Dogs)

Statistics:
X^2 df P(> X^2)
Likelihood Ratio 0 0 1
Pearson 0 0 1

Как видно, чудес не произошло, и модель идеально соответствует наблюдаемым частотам. Поэтому идея логлинейного моделирования заключается в том, чтобы более экономно (меньшим количеством параметров) параметризовать модель, поглядывая при этом на результаты тестирования нулевой гипотезы.

6. Переоценим модель, исключив из нее трехфакторное взаимодействие:

> m1<-loglm(Отклик~Тип:Порода+Тип:Область+Порода:Область,Dogs)
> m1


Call:
loglm(formula = Отклик ~ Тип:Порода + Тип:Область + Порода:Область,
data = Dogs)

Statistics:
X^2 df P(> X^2)
Likelihood Ratio 48.81494 112 1
Pearson 48.24563 112 1

Модель по-прежнему не противоречит наблюдаемым частотам.

7. Проверим, допускает ли модель дальнейшее упрощение: удалим из нее все двухфакторные взаимодействия.

> m2<-loglm(Отклик~Тип+Порода+Область,Dogs)
> m2


Call:
loglm(formula = Отклик ~ Тип + Порода + Область, data = Dogs)

Statistics:
X^2 df P(> X^2)
Likelihood Ratio 131.4224 198 0.9999225
Pearson 144.9575 198 0.9982221

Модель по-прежнему адекватна данным. Так что двухфакторные взаимодействия статистически незначимы. А среди них было и драгоценное "Порода:Область".
В общем, по этой базе данных делаем вывод, что природой не "предусмотрена" зависимость локализации кожных поражений от породы, равно как и предрасположенность к-л. пород / областей к определенному типу поражения.

P.S. К аналогичному выводу можно придти, если насыщенную модель упрощать не вручную, а автоматически с помощью функции step(), которая с опцией "backward" по информационному критерию Акаике (AIC) ищет наиболее удачную параметризацию модели. В нашем случае такая модель тоже не противоречила наблюдаемым частотам.
  Форум: Медицинская статистика · Просмотр сообщения: #23554 · Ответов: 10 · Просмотров: 1055

100$
Отправлено: 29.11.2018 - 21:59


Дух форума
*

Группа: Пользователи
Сообщений: 690
Регистрация: 23.08.2010
Пользователь №: 22694



Цитата
Если бы я был первый день на формуле, ваша манера вести дискуссию, наверно, произвела бы на меня впечатление. Но увы, тем кто тут давненько - она хорошо известна. Поэтому ваши личностные выпады, от которых вы ну никак не можете воздержаться, уже ни у кого не вызывают ни удивления, ни уважения ни нервного трепета. А уж благоговения перед великим и всезнающим - тем более. Но это так, к слову.


Очередное кисо обиделось. Ни вашего впечатления, ни вашего удивления, ни вашего нервенного трепета, и, паче того, вашего благоговения - ничего из вышеперечисленного мне не требуется - я не старьевщик.


Просто не хочу, чтобы в анналах форума бережно хранились фразы типа "правда вопрос - а где их взять - математики оставляют за скобками". Никто никого в статистике не просит где-то взять и предъявить (вынь да положь!) истинные функции распределения. Достаточно того факта, что по теореме Гливенко - Кантелли эмпирическая функция распределения является состоятельной и несмещенной оценкой истинной функции распределения. И критерий Смирнова поданные на его вход выборки "перемалывает" именно в две ЭФР.

Цитата
В-третьих, вопрос, который я действительно упоминал, заключался в том, на сколько эмпирическая функция распределения (которая используется в критерии) соответствует функции распределения данной генеральной совокупности (объективно существующей) - в данном тесте никак не изучается и не учитывается (ну, кроме зависимости от N, естественно).


Именно, что учитывается. Уже хотя бы потому что теорема Гливенко - Кантелли 1933 г.р., и как только она была доказана, тотчас же Колмогоров предложил свой критерий, а Смирнов - свой.

А что такое "зависимость от N"?
  Форум: Медицинская статистика · Просмотр сообщения: #23549 · Ответов: 24 · Просмотров: 1115

100$
Отправлено: 29.11.2018 - 18:37


Дух форума
*

Группа: Пользователи
Сообщений: 690
Регистрация: 23.08.2010
Пользователь №: 22694


Цитата(passant @ 29.11.2018 - 15:27) *
/Еще более меланхолично/
На вход критерия Смирнова подаются две выборки, по которым вычисляется статистика Колмогорова-Смирнова, которая сравнивается с критическим значением, которое (в свою очередь) определяется из теоретических соображений. И - в конечном итоге - делается вывод, взяты-ли две исходные выборки из одной ген.совокупности или из разных. По факту он сравнивает эмпирические распределения двух выборок (не путать с критерием Колмогорова!!!)
Какую функцию распределения может вычислить критерий, призванный лишь проверить Гипотезу об однородности выборок unknw.gif


Выйдите, passant, ненадолго из меланхоличного состояния и послушайте, чего скажу. Устами проф. Орлова:

с.88:
"Критерий Смирнова основан на использовании эмпирических функций распределения Fm(x) и Gn(x), построенных по первой и второй выборкам соответственно.
Значение статистики Смирнова Dm,n=sup|Fm(x)-Gn(x)| сравнивают с соответствующим критическим значением ... и по результатам сравнения принимают или отклоняют гипотезу Ho о совпадении (однородности) функций распределения." /Эконометрика: учебник для вузов.- изд. 4, дополн. и перераб. - Ростов н/Д: Феникс,2009. - 572 с./

Если вам критически важно построение эмпирических функций распределения (ЭФР, как я и написал) считать самостоятельным этапом, а не частью работы по вычислению критерия, то тогда надо писать, что на "...вход критерия Смирнова подаются две ЭФР".

Но мой пост был ровно о том, что математики ни от кого не скрывали, где надо "брать" ЭФР для критерия, это просто вы не в курсе.

P.S. И не надо благодарить, коллега. Расширять ваш кругозор для меня - удовольствие.
  Форум: Медицинская статистика · Просмотр сообщения: #23547 · Ответов: 24 · Просмотров: 1115

100$
Отправлено: 29.11.2018 - 13:22


Дух форума
*

Группа: Пользователи
Сообщений: 690
Регистрация: 23.08.2010
Пользователь №: 22694


Цитата(passant @ 29.11.2018 - 11:25) *
На самом деле, если подумать, использование критериев типа Cтьюдента, Фишера и пр. и уж тем более - сравнение по перекрытию доверительных интервалов - идет от желания сократить расходы на вычисления. Потому что единственный "полный" метод сравнения двух случайных выборок - это критерий Смирнова (или - обычно пишут "Колмогорова-Смирнова"). Вот он корректно сравнивает две случайные величины используя их функции распределения (правда вопрос - а где их взять - математики оставляют за скобками). А все остальные критерии по сути были придуманы в виду "ленности", а в реалии - запредельной сложности расчетов в докомпьютерную эру вычислений.


/меланхолично/
Чего для такую забористую чушь нести...

/справочно/
Для критерия Смирнова функции распределения не надо "брать" - критерий вычисляет их (ЭФР) "сам".
  Форум: Медицинская статистика · Просмотр сообщения: #23543 · Ответов: 24 · Просмотров: 1115

100$
Отправлено: 28.11.2018 - 02:09


Дух форума
*

Группа: Пользователи
Сообщений: 690
Регистрация: 23.08.2010
Пользователь №: 22694


Цитата(paravoz @ 27.11.2018 - 03:34) *
Например, при расчете смертности у нас число умерших составило 18 000 человек. У нас есть данные о возрасте смерти каждого из этих 18 000 (например, по базам смертности Росстата или по реестрам ОМС). Если мы говорим о возрасте смерти 18 000 человек, то это уже будет распределение возраста смерти. Рассчитав средний возраст смерти насколько корректно/возможно в данном случае посчитать доверительный интервал для среднего возраста смерти?


Здесь все до смешного просто:
1) вы восстановили плотность этого распределения и видите, что оно унимодально, на удивление симметрично, не остро- и не плосковершинное (т.е. с эксцессом все в порядке), тяжелых хвостов не наблюдается. Вы решаете, что истинное распределение возраста смерти в некоей генсовокупности - нормальное распределение. Нормальное распределение - двухпараметрическое, и в качестве одного из параметров выступает теоретическое среднее. В силу закона больших чисел эмпирическое среднее сходятся-таки к теоретическому, причем выборочное среднее - это состоятельная, несмещенная и эффективная оценка теоретического среднего. Таким образом параметр распределения возможно состоятельно оценить по выборке. А дальше вы ищете два числа, про которые можно сказать, что они являются концами интервала, который с заданным уровнем / коэффициентом доверия накрывает истинный (неизвестный статистику) параметр распределения. С дисперсией (вторым параметром нормального распределения) все то же самое.

2) вы восстановили плотность этого распределения и у вас кровь из глаз пошла: кривое, косое, асимметричное, лептокуртичное, многомодальное с тяжелыми хвостами. Никакой подходящей аппроксимации вообще не просматривается. Вот и возникает резонный вопрос - а входит ли оно вообще к какое-либо параметрическое семейство? И, если да, то можно ли вообще эти параметры состоятельно оценить по выборке? Если нет, то в этом случае эмпирическое среднее останется лишь обобщающим статистическим показателем, а состоятельной оценкой истинного параметра распределения - нет. Ну и зачем тогда к нему лепить какой-то доверительный интервал?

Касаемо, н-р, показателя смертности, ситуацию вижу так: числитель этой дроби представляет собой счетную величину, измеренную в абсолютной шкале. Ее можно отмоделировать распределением Пуассона. Знаменатель - среднегодовая численность населения, очень грубо (помесячно) = численность предыдущего периода+родившиеся в данном периоде-умершие в данном периоде. На мгновение предположим (по совету коллег), что это тоже (случайная) пуассонова величина. Тогда в полный рост встает вопрос: а как распределено отношение двух пуассоновских величин? Это распределение может зависеть от параметров, которые по выборке оценить в принципе невозможно.

Далее. Пусть у нас есть временной ряд, состряпанный из ежегодных показателей смертности для конкретной территории. По методике расчета данного показателя видно, что члены это ряда не являются независимыми одинаково распределенными с.в. Ряд будет автокоррелирован, если можно так выразиться, по построению. Так вот для того, чтобы такой ряд имел хоть-какую-то познавательную ценность, в нем придется интересоваться не безусловными квантилями этого распределения, а квантилями условного распределения, условного по имеющейся предыстории.
  Форум: Медицинская статистика · Просмотр сообщения: #23539 · Ответов: 24 · Просмотров: 1115

100$
Отправлено: 26.11.2018 - 16:39


Дух форума
*

Группа: Пользователи
Сообщений: 690
Регистрация: 23.08.2010
Пользователь №: 22694


Предварительные расчеты с комментариями прикрепил
Прикрепленные файлы
Прикрепленный файл  Собаки_Баскервилей_2.rar ( 19,62 килобайт ) Кол-во скачиваний: 14
 
  Форум: Медицинская статистика · Просмотр сообщения: #23530 · Ответов: 10 · Просмотров: 1055

100$
Отправлено: 26.11.2018 - 14:57


Дух форума
*

Группа: Пользователи
Сообщений: 690
Регистрация: 23.08.2010
Пользователь №: 22694


Цитата(Елена Гогуа @ 26.11.2018 - 14:34) *
Если это разные области - да.


Вас понял. Понятие типизации относится не к собаке в целом, а к конкретной области.

Ну, теперь подбиваем итоги по породам считаем краевые суммы и пытаемся понять, как сделать логлинейный анализ трехвходовой таблицы сопряженности, ее многомерный анализ соответствий, попутно решая утилитарный вопрос: нужно ли последнюю свору собак считать одной категорией "прочие" или работать с каждой из них, как с самостоятельной породой.
  Форум: Медицинская статистика · Просмотр сообщения: #23529 · Ответов: 10 · Просмотров: 1055

100$
Отправлено: 26.11.2018 - 11:57


Дух форума
*

Группа: Пользователи
Сообщений: 690
Регистрация: 23.08.2010
Пользователь №: 22694


Рецензенту надо тактично объяснить, что доверительные интервалы строятся к параметрам распределения, но никак не к индексным величинам. Особливо, если индекс представляет собой отношение мертвых к живым, причем мертвые не являются репрезентативной выборкой из ген. совокупности живых.
  Форум: Медицинская статистика · Просмотр сообщения: #23526 · Ответов: 24 · Просмотров: 1115

100$
Отправлено: 25.11.2018 - 02:20


Дух форума
*

Группа: Пользователи
Сообщений: 690
Регистрация: 23.08.2010
Пользователь №: 22694


Да, Елена, здравствуйте.
Таблицу посмотрел, уже гораздо "теплее". Остался один вопрос: вот, гляжу я на экземпляр "порода1-12" и вижу, что у нее встречается и грибок, и комбинированная патология.
Так _действительно_ может быть?
  Форум: Медицинская статистика · Просмотр сообщения: #23523 · Ответов: 10 · Просмотров: 1055

100$
Отправлено: 8.11.2018 - 21:59


Дух форума
*

Группа: Пользователи
Сообщений: 690
Регистрация: 23.08.2010
Пользователь №: 22694


На с.2 есть смысл заменить "Эвре" на "Эрве".
  Форум: Медицинская статистика · Просмотр сообщения: #23498 · Ответов: 1 · Просмотров: 583

100$
Отправлено: 1.11.2018 - 21:45


Дух форума
*

Группа: Пользователи
Сообщений: 690
Регистрация: 23.08.2010
Пользователь №: 22694



Цитата
Я тогда еще примерно такую таблицу выкладывала.


Я это видел. И впал в уныние. И все, кто это видел, тоже впали в уныние. p2004r вам на это намекнул.

Цитата
Добавила в ваш файл на второй лист свои данные (там, правда, заголовки на английском и области пронумерованы).


О том и речь, что из этой базы данных надо сотворить вот такую таблицу сопряженности+подвести итоги по породам. Самый подходящий кандидат на эту роль - вы.

Цитата
Если без Бонферроней, это нужно будет еще немецкому профессору аргументировать...


Логлинейная параметризация таблицы сопряженности не требует никаких коррекций уровней значимости.
  Форум: Медицинская статистика · Просмотр сообщения: #23490 · Ответов: 10 · Просмотров: 1055

100$
Отправлено: 1.11.2018 - 20:28


Дух форума
*

Группа: Пользователи
Сообщений: 690
Регистрация: 23.08.2010
Пользователь №: 22694



Вам всего-то-навсего надо заполнить таблицу сопряженности по шаблону (см. прикрепленный файл) - и вся недолга. Кроме вас это сделать некому. А уж далее мы будем посмотреть ея на предмет сопряженностей, как и договаривались еще в мае. При анализе таблицы сопряженности не понадобится никаких Бонферроней, тестов и попарных сравнений.
Прикрепленные файлы
Прикрепленный файл  Собаки_Баскервилей.rar ( 6,64 килобайт ) Кол-во скачиваний: 14
 
  Форум: Медицинская статистика · Просмотр сообщения: #23488 · Ответов: 10 · Просмотров: 1055

100$
Отправлено: 20.10.2018 - 23:27


Дух форума
*

Группа: Пользователи
Сообщений: 690
Регистрация: 23.08.2010
Пользователь №: 22694







Цитата
Я сейчас всю графику в отчёты и статьи строю в KyPLot... Пакет очень хорош как конструктор для научной графики: этакий мини Origin (OriginLab Corp.)


Да, я помню, вы неоднократно об этом говорили. Заметно, что разработчики любят годные картинки и не жалеют на это сил.

Цитата
А статистических фенек в нём больше. Например можно факторный анализ проводить методом главных факторов с итерациями по общностям и использовать в качестве начальных значений таковые, вычисленные по Йореско - именно как в "Факторный, дискриминантый и кластерный анализ" рекомендуется (+ другие методы факторного анализа с разными как ортогональными, так и косоугольными вращениями). Также если подать на вход матрицу сходства, можно кластеризацию методом Уорда делать для любых расстояний(досчитывал так за PAST).


Если я еще не до конца забыл, что такое факторный анализ, и с чем его едят, то методов оценки общностей придумано бесчисленное количество, методов экстракции факторов - и того больше, а уж количество вращений и вовсе зашкаливает за все мыслимые пределы. Все это 100 лет назад реализовано в том же SPSS. Сказать, что это изобилие сильно помогает понять, как устроен мир, не могу. Это примерно как с 15-тью методами рандомизации.

В общем, как человек, способный запрограммировать статистический метод любой сложности и не имеющий к тому никакой мотивации, не могу назвать ни KyPlot, ни PAST программами своей мечты.
  Форум: Медицинская статистика · Просмотр сообщения: #23463 · Ответов: 15 · Просмотров: 44537

100$
Отправлено: 20.10.2018 - 21:58


Дух форума
*

Группа: Пользователи
Сообщений: 690
Регистрация: 23.08.2010
Пользователь №: 22694


Цитата(nokh @ 20.10.2018 - 21:26) *
Последняя версия пакета KyPlot, ещё недавно стоившая 1000$, стала бесплатной. Слава Коичи Йошиоке!
http://www.kyenslab.com/en/index.html


Да, галерея графики - няшная, из статистических "фенечек" впечатлился наличием процедуры Двасса - Стила в качестве пост хоков в дисперсионном анализе. Впрочем, имея перед глазами Холлендера и Вульфа (1999) не так это все сложно запрогать и самому... В общем, миленько, но не более того...
  Форум: Медицинская статистика · Просмотр сообщения: #23461 · Ответов: 15 · Просмотров: 44537

100$
Отправлено: 18.10.2018 - 20:02


Дух форума
*

Группа: Пользователи
Сообщений: 690
Регистрация: 23.08.2010
Пользователь №: 22694


Цитата(nikita_zab @ 18.10.2018 - 19:33) *
Да, вопрос касался не оценки разных сторон одних и тех же данных, а именно "ковровых бомбардировок".


В копилку философских вопросов: совместная проверка распределения на асимметрию+эксцесс - это уже "ковровая бомбардировка", или еще нет?
  Форум: Медицинская статистика · Просмотр сообщения: #23448 · Ответов: 6 · Просмотров: 1118

100$
Отправлено: 17.10.2018 - 23:37


Дух форума
*

Группа: Пользователи
Сообщений: 690
Регистрация: 23.08.2010
Пользователь №: 22694


Цитата(100$ @ 17.10.2018 - 22:51) *
> Nokh, спасибо, почитаю.


Ну, вот, прочитал первые 37 страниц и ... "я вас прошу, нет, я вас просто умоляю" словосочетание "математического ожидаемого" на с. 37 заменить на "математического ожидания".
  Форум: Медицинская статистика · Просмотр сообщения: #23443 · Ответов: 8 · Просмотров: 1116

100$
Отправлено: 17.10.2018 - 22:51


Дух форума
*

Группа: Пользователи
Сообщений: 690
Регистрация: 23.08.2010
Пользователь №: 22694


> Nokh, спасибо, почитаю.
  Форум: Медицинская статистика · Просмотр сообщения: #23442 · Ответов: 8 · Просмотров: 1116

100$
Отправлено: 17.10.2018 - 15:30


Дух форума
*

Группа: Пользователи
Сообщений: 690
Регистрация: 23.08.2010
Пользователь №: 22694


Цитата(nokh @ 17.10.2018 - 13:01) *
В пособии имеются неизбежные недочёты и ошибки (мои и авторов пакета PAST). Буду признателен за информацию о них на почту: biostat74@mail.ru , Тема "Практикум по биостатистике"
В начале 2019 выложу версию со вставкой страниц с исправлениями, комментариями некоторых моментов и т.п.


Я с превеликим удовольствием и несомненной пользой для себя посмотрел бы, но по ссылке мне ничего не открылось, кроме предложения "Установить диск для Windows", на каковую кнопку я нажимать поопасился. Может, тут можно выложить?
  Форум: Медицинская статистика · Просмотр сообщения: #23438 · Ответов: 8 · Просмотров: 1116

100$
Отправлено: 11.10.2018 - 16:02


Дух форума
*

Группа: Пользователи
Сообщений: 690
Регистрация: 23.08.2010
Пользователь №: 22694


Цитата(Daria @ 11.10.2018 - 15:24) *
Сейчас читала, сопоставляла, написанное вами, с другими источниками. Вроде, что-то начинает проясняться, но пока не посчитаю все хоть раз вручную по шагам, то все равно не пойму.
Буду читать и пробовать считать дальше.

В любом случае - спасибо большое. Буду разбираться.


Пока не пойму, что именно вы собираетесь считать, не готов пожелать вам успеха. Для вас сейчас сверхзадача - не пытаться трактовать функцию правдоподобия как субъективную вероятность в бейесовском смысле. Или в кухонно-бытовом. А то так и будете всю оставшуюся жизнь выяснять "когда и при каких обстоятельствах вероятности становятся правдоподобиями" и сводить с ума простодушных парней, вроде меня, рассуждениями о правдоподобности нулевых и альтернативных гипотез.

Все сказанное выше - просто упражнение в занудстве.
  Форум: Медицинская статистика · Просмотр сообщения: #23428 · Ответов: 14 · Просмотров: 1739

100$
Отправлено: 11.10.2018 - 12:48


Дух форума
*

Группа: Пользователи
Сообщений: 690
Регистрация: 23.08.2010
Пользователь №: 22694


Цитата(Daria @ 11.10.2018 - 10:00) *
Спасибо вам большое за помощь. Чем больше читаю, тем больше вопросов. Наличие такого форума с такими участниками - большое подспорье в нелегком деле.

Много читала, много думала. Даже вручную построила функцию вероятности для простенькой выборки.

1. Если позволите еще несколько вопросов. В случае непрерывной с.в. мы определяем ее функцию от значения х. Чтобы определить вероятность, что параметр находится в интервале х1-х2, то вычисляем интеграл функции в данном пределе. Так? А что делать, если нужно получить точечную оценку вероятности (т.е. нужно оценить вероятность, скажем, х1)? Не могу разобраться.

2. Идем "в обратную сторону". Если известны значение х1 и ст.отклонение, то методом максимального правдоподобия можем выбрать наиболее вероятные параметры функции распределения. В случае нормального распределения - это мат. ожидание и дисперсия. Эти параметры?

3. Даже если у нас маркер представлен непрерывной с.в. х, то мы можем: а) определить вероятность получения определенного значения х1 при данных параметрах модели у лиц с маркером и без маркера, а потом сравнить эти вероятности. Б) у нас есть оценка маркера (х1 среднее и СО). Мы можем оценить правдоподобие что это значение х1 более вероятно получить у больных (т.е. при параметрах модели, соответствующим больным), чем у здоровых. Так?


Ох, Дарья, Дарья... "В действительности все не так, как на самом деле" (с)

1. Смысл всех этих правдоподобий заключается в том, что мы изучаем совместное распределение элементов выборки. Допустим, перед нами набор чисел, который мы считаем совокупностью независимых, одинаково распределенных с.в. из нормального распределения. Нормальное распределение - двухпараметрическое. Далее мы составляем функцию правдоподобия как произведение индивидуальных плотностей элементов выборки. Сэр Рональд Элмс Фишер учит, что нас в данном случае интересуют такие значения параметров, которые доставляют экстремум (максимум) функции правдоподобия. Поэтому мы логарифмируем полученную функцию правдоподобия, при этом произведение становится суммой, с суммами работать удобнее. Находим производные функции правдоподобия по параметрам, приравниваем их к нулю и получаем для нашего случая параметр Theta1 как выборочное среднее, параметр Theta2 - смещенная оценка выборочной дисперсии. И вся любовь.

Из сказанного с необходимостью следует, что ваши пп. 1-2 - лютая чушь.

3. Здесь дело вовсе не в природе маркера как такового. Можно изучать и дискретный (дихитомический) показатель типа "Есть кашель/Нет кашля". Здесь мы в любом случае имеем 4-х клеточную таблицу сопряженности с результатами работы диагностического теста: его способностью здоровых определять как здоровых (чувствительность) и больных как больных (специфичность). Здесь мы считаем, что имеется две выборки: одна состоит из здоровых пациентов, которую тест разбивает на две подвыборки: верно классифицированных как здоровые и ошибочно классифицируемых как больные. Аналогично со второй выборкой: верно классифицируемых как больные и ошибочно как здоровые. Я только не могу сходу вам ответить, упомянутые LR+ и LR- - это строгие определения отношения правдоподобия, или они так названы для красного словца.
  Форум: Медицинская статистика · Просмотр сообщения: #23426 · Ответов: 14 · Просмотров: 1739

100$
Отправлено: 10.10.2018 - 10:39


Дух форума
*

Группа: Пользователи
Сообщений: 690
Регистрация: 23.08.2010
Пользователь №: 22694



/ворчливо/
Вот вечно мне самые трудные билеты на экзаменах достаются...

Цитата
Так-так. А как это можно соотнести с этим:

Буквально. Подставляете значение параметра в функцию распределения с.в. - получаете вероятность наблюдать выборочное значение. Обратная задача - по имеющейся выборке оценить параметры модели - разумеется, методом максимального правдоподобия.

Цитата
Все равно не могу до конца понять, когда вероятность становится правдоподобием.

Когда наблюдается выборка из параметрического семейства, и вероятность / плотность понимается как функция от параметра.

Цитата
Как это можно применить в случае, когда мы оцениваем связь маркера и болезни?

Традиционным дедовским способом: перелопачивать ссылки из статьи в Википедии и смотреть, в какой из них показана логика превращения данного теоретического конструкта в LR+/LR-
  Форум: Медицинская статистика · Просмотр сообщения: #23422 · Ответов: 14 · Просмотров: 1739

100$
Отправлено: 10.10.2018 - 01:04


Дух форума
*

Группа: Пользователи
Сообщений: 690
Регистрация: 23.08.2010
Пользователь №: 22694


Цитата(Daria @ 9.10.2018 - 23:16) *
Я имела в виду отношение правдоподобия, определяемое в результате оценки информативности диагностического теста.
https://en.wikipedia.org/wiki/Likelihood_ra...gnostic_testing

А именно:
LR+=Se/(1-Se)=Pr(T+|D+)/Pr(T+|D-)

Я так понимаю, что в данном случае оценивается правдоподобие двух гипотез. Как их правильно сформулировать?


Здесь вообще нет никаких гипотез, правдоподобие которых вас просили бы оценить и уж тем более корректно сформулировать sad.gif. Зато есть отношение правдоподобия как частное от деления двух условных функций правдоподобия: Pr(T+|D+) - условной вероятности наблюдать положительный результат теста (Т+) при условии, что болячка действительно существует (D+), и вероятности наблюдать положительный результат теста при условии, что болячки-то на самом деле нетути. Разумеется, в дискретном случае плотности заменены на вероятности.

  Форум: Медицинская статистика · Просмотр сообщения: #23419 · Ответов: 14 · Просмотров: 1739

100$
Отправлено: 9.10.2018 - 22:50


Дух форума
*

Группа: Пользователи
Сообщений: 690
Регистрация: 23.08.2010
Пользователь №: 22694


Цитата(Daria @ 9.10.2018 - 19:10) *
Вот и не знаю теперь - откровенную глупость спросила или времени у участников форума нет. В любом случае, буду очень рада помощи.


Во первых строках своего письма обращаю ваше внимание на то, что нет в природе никакого правдоподобия в чистом виде. Фишер (1912) вводил понятие "функция правдоподобия", каковую с тех пор понимают как функцию плотности p(x, Theta) (относительно некоторой сигма-конечной меры (мю)) случайной выборки Х, рассматриваемую как функцию параметра Theta, в которой аргумент х фиксирован.
Важную роль в статистике играет частный случай, когда в качестве меры mu выступает распределение P(Theta0) случайной выборки Х, относящееся к некоторому фиксированному значению Theta0 параметра Theta. В каковом случае функция правдоподобия dP(Theta)/dP(Theta0)(x) называется отношением правдоподобия.

Причем тут таблицы сопряженности и отношения шансов мне не ведомо.
  Форум: Медицинская статистика · Просмотр сообщения: #23417 · Ответов: 14 · Просмотров: 1739

100$
Отправлено: 21.08.2018 - 12:44


Дух форума
*

Группа: Пользователи
Сообщений: 690
Регистрация: 23.08.2010
Пользователь №: 22694


Цитата(Статистик @ 21.08.2018 - 11:00) *
Предлагаю закончить флуд в этой теме.


Заканчивайте. И побыстрее.
  Форум: Медицинская статистика · Просмотр сообщения: #23272 · Ответов: 32 · Просмотров: 5193

27 страниц V   1 2 3 > » 

Открытая тема (есть новые ответы)  Открытая тема (есть новые ответы)
Открытая тема (нет новых ответов)  Открытая тема (нет новых ответов)
Горячая тема (есть новые ответы)  Горячая тема (есть новые ответы)
Горячая тема (нет новых ответов)  Горячая тема (нет новых ответов)
Опрос (есть новые голоса)  Опрос (есть новые голоса)
Опрос (нет новых голосов)  Опрос (нет новых голосов)
Закрытая тема  Закрытая тема
Тема перемещена  Тема перемещена