Форум врачей-аспирантов

Здравствуйте, гость ( Вход | Регистрация )

3 страниц V   1 2 3 >  
Добавить ответ в эту темуОткрыть тему
> Абсцисса пересечения двух гауссиан, для разных N
nokh
сообщение 17.02.2022 - 22:33
Сообщение #1





Группа: Пользователи
Сообщений: 1202
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704



Для каждого распределения известны параметры мю и сигма, а также объём выборки (в долях единицы).
Поиск по теме дал несколько аналогичных результатов.
Например, здесь дан вывод уравнения для нахождения абсциссы точки пересечения через решение квадратного уравнения:
https://stats.stackexchange.com/questions/3...asiest,2(x)%3D0.
А здесь те же формулы даны для matlab и подходят для R: https://stackoverflow.com/questions/5202142...n-distributions
Здесь на пайтоне: https://stackoverflow.com/questions/4136865...etween-gaussian

Я завёл всё это в Excel - работает (приложил). Но этот подход предполагает равенство объёмов выборок. На практике же они обычно разные и если использовать разделение смеси распределений, то тут эта формула не работает. Я приложил картинку, где реальные данные приближаются тремя распределениями. Пакет mixdist выдал:
Parameters:
pi mu sigma
1 0.09875 1.417 0.9399
2 0.84174 5.608 1.4961
3 0.05951 10.260 1.2689

Используя эти параметры я не могу найти абсциссы пересечения кривых. Например, подстановка мю и сигм в формулу выше даёт для двух первых распределений значение 3,1011, тогда как при имеющемся соотношении плотностей распределений визуально должно быть около 2,4. Ясно, что по мере уменьшения доли первой группы в выборке эта точка будет всё сильнее сдвигаться влево, пока не скатится по левой горке распределения второй группы к нулю (визуально).

Прошу помочь идеями или кодом, как найти искомое. На худой конец наверное можно как-то "выпотрошить" функцию plot, чтобы найти точку двух кривых с одинаковой ординатой и выбрать её абсциссу (хотя не хотелось бы привязываться к конкретному софту, т.к. пакет PAST выдаёт немного отличные параметры).

Сообщение отредактировал nokh - 18.02.2022 - 19:19
Эскизы прикрепленных изображений
Прикрепленное изображение
 
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Диагностик
сообщение 18.02.2022 - 01:35
Сообщение #2





Группа: Пользователи
Сообщений: 143
Регистрация: 4.09.2012
Пользователь №: 24146



Цитата(nokh @ 18.02.2022 - 03:33) *
подстановка мю и сигм в формулу выше даёт для двух первых распределений значение 3,1011, тогда как при имеющемся соотношении плотностей распределений визуально должно быть около 2,4.

А доли подставляли?

Сообщение отредактировал Диагностик - 18.02.2022 - 12:40
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
nokh
сообщение 18.02.2022 - 10:54
Сообщение #3





Группа: Пользователи
Сообщений: 1202
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704



Цитата(Диагностик @ 18.02.2022 - 03:35) *
А доли подставляли?

Нет. Я не нашёл куда)))
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Игорь
сообщение 18.02.2022 - 10:59
Сообщение #4





Группа: Пользователи
Сообщений: 1114
Регистрация: 10.04.2007
Пользователь №: 4040



Цитата(nokh @ 17.02.2022 - 22:33) *
Для каждого распределения известны параметры мю и сигма, а также объём выборки (в долях единицы).
... подход предполагает равенство объёмов выборок

1. Численности в формулы не входят - равенство объемов не требуется.
2. Формулы для нормальных кривых. Если распределение отличается от нормального (в том числе двухвершинное, возможно, что смесь), нужно выводить новые формулы.
3. Формулы основаны на логарифмировании - понятно, что нужно развалить функцию на простые составляющие. Но при этом не говорится, что применяя операцию взятия логарифма, мы накладываем ограничение на область определения функции.
4. Методика не годится для эмпирических функций распределения.

Теоретические функции распределения - не такие уж сложные математические объекты. Во всяком случае, их формулы и свойства известны. Можно попробовать сразу численно решать нелинейное уравнение f1 - f2 =0.

Сообщение отредактировал Игорь - 18.02.2022 - 11:07


Signature
Ebsignasnan prei wissant Deiws ainat! As gijwans! Sta ast stas arwis!
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Диагностик
сообщение 18.02.2022 - 12:39
Сообщение #5





Группа: Пользователи
Сообщений: 143
Регистрация: 4.09.2012
Пользователь №: 24146



Цитата(nokh @ 18.02.2022 - 15:54) *
Я не нашёл куда)))
Домножить плотность функции распределения каждую на свою долю в смеси.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
100$
сообщение 18.02.2022 - 13:20
Сообщение #6





Группа: Пользователи
Сообщений: 902
Регистрация: 23.08.2010
Пользователь №: 22694



Цитата(nokh @ 17.02.2022 - 22:33) *
Используя эти параметры я не могу найти абсциссы пересечения кривых.


Ну, это вы зря )

Мое решение x*=2.4289
Решение прикрепил.
В вашем исходном файле были кое-какие ошибочки (см. примечания в соответствующих ячейках)

Для корректного определения x* нельзя забывать о весах распределений в смеси. Диагностик дело говорит.


Прикрепленные файлы
Прикрепленный файл  Трансгрессия.xlsx ( 243,34 килобайт ) Кол-во скачиваний: 427
Прикрепленный файл  Трансгрессия.xlsx ( 243,34 килобайт ) Кол-во скачиваний: 431
 
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
nokh
сообщение 18.02.2022 - 14:24
Сообщение #7





Группа: Пользователи
Сообщений: 1202
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704



Спасибо всем огромное! Сегодня утром с подачи Диагностика расширил член С в уравнении логарифмом отношения выдаваемых пи, но искомого значения не получил - видимо из за ошибок которые нашёл 100$. Буду разбираться...

Это мы со студенткой ищем естественные границы для выделения групп в очень асимметричном распределении.Преобразовали по Боксу - Коксу, разделили смесь, а с границами я споткнулся... Далее ретрансформируем границы в исходную шкалу показателя (наивным обратным преобразованием Б-К по выписанной лямбде) и будет полезный на практике результат. Кстати, уже не первый раз сталкиваюсь с такой задачей, просто раньше точного решения не нужно было, можно было просто по ядерной плотности. Удивительно, что в сети нет готовых решений, по крайней мере быстро не находятся...

Ну и бонусом медицинскому форуму - байка из жизни. Давным давно, когда я ещё не знал про разделение смеси распределений, мы с гинекологом искали критерии для отнесения пациенток с гарднеререллой к группе больных гарднереллёзом, поскольку собственно заболевание не у всех носителей, у части - как условно-патогенный м/о. Там у врачей свои тонкости диагностики, но они не всегда срабатывали. По результатам факторного анализа в первый фактор вошли как раз нужные показатели (гарднерелла, ключевая клетка и т.п), а ненужные не вошли. Факторные метки первого фактора дали красивое бимодальное распределение (там около 250 наблюдений было) с тонюсенькой зоной трансгрессии, т.е. собственно больных Г и не больных. Я ещё тогда с формулами игрался, но до ума не довёл, а гинеколог кандидатскую бросила, так что даже публикации не осталось.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Диагностик
сообщение 18.02.2022 - 14:38
Сообщение #8





Группа: Пользователи
Сообщений: 143
Регистрация: 4.09.2012
Пользователь №: 24146



nokh, дайте данные по гистограмме, попробую вашу смесь расщепить.

Сообщение отредактировал Диагностик - 18.02.2022 - 14:38
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
nokh
сообщение 18.02.2022 - 18:39
Сообщение #9





Группа: Пользователи
Сообщений: 1202
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704



Цитата(Диагностик @ 18.02.2022 - 16:38) *
nokh, дайте данные по гистограмме, попробую вашу смесь расщепить.

прикрепил
Прикрепленные файлы
Прикрепленный файл  Data_forum.xls ( 16 килобайт ) Кол-во скачиваний: 532
 
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
100$
сообщение 18.02.2022 - 18:45
Сообщение #10





Группа: Пользователи
Сообщений: 902
Регистрация: 23.08.2010
Пользователь №: 22694



Цитата(nokh @ 18.02.2022 - 18:39) *
прикрепил


А это уже Боксо-Коксовая цифирь? Похоже, что так.
И зело странно, что на 57 с.в. на гистограмме аж 14 разрядов.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
nokh
сообщение 18.02.2022 - 19:15
Сообщение #11





Группа: Пользователи
Сообщений: 1202
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704



Цитата(100$ @ 18.02.2022 - 20:45) *
А это уже Боксо-Коксовая цифирь? Похоже, что так.
И зело странно, что на 57 с.в. на гистограмме аж 14 разрядов.

Да, уже преобразованные. Ну да, 14 разрядов не по Стургесу))) Зато неоднородность видна хорошо, а то если всё будет одной группой не понятно почему кривая плотности изгибы даёт...
Ваше решение не понял, похоже там хитрость) Похоже на то, что параметр X находился функцией подбора значений. Ну или офис у меня дома старый (2003), т.к. подстановка моего значения в ячейку для Х вызвала сбой в других.
Но это уже не важно, я добавил веса в приравниваемые уравнения f(x) и получил искомое X аналитически. С учётом исправлений в первом файле LOG на LN и добавлением в параметр С квадратного уравнения логарифма отношения весов всё заработало!

Поэтому экселевский файл в первом сообщении убираю и заменяю на правильный. Ещё раз спасибо за наводки!

Также прикрепил картинку аналогичного расчёта в PAST, там другие значения алгоритм выдаёт, в принципе можно разбираться, но нам так глубоко не нужно. Со студенткой сейчас по пастовскому сделаем в диплом, а потом может руки дойдут перепишу на R и довеском к mixdist в какой-нибудь экологический журнал (это свинец в донных отложениях озёр).


Эскизы прикрепленных изображений
Прикрепленное изображение
 

Прикрепленные файлы
Прикрепленный файл  Трансгрессия_с_весами_пи.xls ( 16 килобайт ) Кол-во скачиваний: 501
 
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
100$
сообщение 18.02.2022 - 19:57
Сообщение #12





Группа: Пользователи
Сообщений: 902
Регистрация: 23.08.2010
Пользователь №: 22694



Цитата(nokh @ 18.02.2022 - 19:15) *
Да, уже преобразованные. Ну да, 14 разрядов не по Стургесу)))


Мне гистограмма по Симадзаки-Синомото сразу выдала три больших столбца.
Файл прикрепил. Гляньте, когда не лень)

Цитата
Похоже на то, что параметр X находился функцией подбора значений.


Конечно. Точно так.




Прикрепленные файлы
Прикрепленный файл  Копия_Data_forum_2.xls ( 211,5 килобайт ) Кол-во скачиваний: 429
 
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Диагностик
сообщение 19.02.2022 - 01:21
Сообщение #13





Группа: Пользователи
Сообщений: 143
Регистрация: 4.09.2012
Пользователь №: 24146



Цитата(nokh @ 19.02.2022 - 00:15) *
Да, уже преобразованные.

А можно исходные данные?
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Диагностик
сообщение 19.02.2022 - 03:36
Сообщение #14





Группа: Пользователи
Сообщений: 143
Регистрация: 4.09.2012
Пользователь №: 24146



Цитата(nokh @ 19.02.2022 - 00:15) *
Да, уже преобразованные. Ну да, 14 разрядов не по Стургесу))) Зато неоднородность видна хорошо, а то если всё будет одной группой не понятно почему кривая плотности изгибы даёт...

Неоднородность есть следствие случайности выборки. Попробовал 19 разрядов. По критерию Пирсона не отвергается гипотеза о нормальности статистического распределения на уровне 0,25.
Эскизы прикрепленных изображений
Прикрепленное изображение
 
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
100$
сообщение 19.02.2022 - 13:01
Сообщение #15





Группа: Пользователи
Сообщений: 902
Регистрация: 23.08.2010
Пользователь №: 22694



Цитата(Диагностик @ 19.02.2022 - 03:36) *
Попробовал 19 разрядов.


Кто больше?

Цитата
По критерию Пирсона не отвергается гипотеза о нормальности статистического распределения на уровне 0,25.


И на это ушло 2 ч. 15 мин.?

Познавательная ценность этого результата ~ 0.
Патамушта еще Пирсон заметил, что введенное им распределение хи-квадрат устроено очень сложно,
и применительно к обсуждаемой ситуации (проверка нормальности, когда оба параметра оцениваются по выборке) свойства хи-квадрат критерия сильно зависят от распределения данных внутри каждого разряда гистограммы. Именно поэтому существует критерий Рао - Робсона - Никулина.

И вообще - по ночам спать надо...
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 

3 страниц V   1 2 3 >
Добавить ответ в эту темуОткрыть тему