Расщепление смеси распределений - Форум врачей-аспирантов

Форум врачей-аспирантов

Правила форума

Пользователи

Календарь

Здравствуйте, гость ( Вход | Регистрация )

Форум врачей-аспирантов » Разделы форума » Медицинская статистика

Добавить ответ в эту тему

Открыть тему

Расщепление смеси распределений

Диагностик Просмотр профиля	22.01.2020 - 05:23 Сообщение #1
Группа: Пользователи Сообщений: 143 Регистрация: 4.09.2012 Пользователь №: 24146	Собрал реальные 196 значений некой случайной величины. Теоретическую функцию распределения этой с.в. представил в виде взвешенной суммы двух функций нормальных распределений [latex]F=wN_1(\mu_1, \sigma_1)+(1-w)N_2(\mu_2, \sigma_2)[/latex]. Параметры распределения [math]$(w;\mu_1; \sigma_1;\mu_2, \sigma_2$)[/math] находил из условия минимума расстояния Пирсона. Получил следующие оценки параметров [math]$(w\approx 0,71;\mu_1\approx 88,4; \sigma_1 23,4\approx ;\mu_2\approx163,3; \sigma_2\approx 65,1$)[/math]. Результат приведён на графике. Правильный ли такой подход к расщеплению смеси? Существуют ли другие методы? P.S. А как здесь TEX работает?

p2004r Просмотр профиля	23.01.2020 - 17:09 Сообщение #2
Группа: Пользователи Сообщений: 1091 Регистрация: 26.08.2010 Пользователь №: 22699	Зайдите на https://cran.r-project.org/view=Cluster и почитайте подраздел Model-Based Clustering. http://r-statistics.livejournal.com/

Диагностик Просмотр профиля	23.01.2020 - 17:33 Сообщение #3
Группа: Пользователи Сообщений: 143 Регистрация: 4.09.2012 Пользователь №: 24146	Спасибо!

100$ Просмотр профиля	24.01.2020 - 14:01 Сообщение #4
Группа: Пользователи Сообщений: 902 Регистрация: 23.08.2010 Пользователь №: 22694	Верно ли я понял из скудной мотивировочной части поста, что описанная методика породила некий итерационный процесс, критерием окончания которого явился факт первого неотвержения нулевой гипотезы общим критерием согласия "Хи-квадрат"? Если да, то хотелось бы получить конкретные результаты: само значение хи-квадрата в точке "оптимума" и число степеней свобод df. Ибо здесь о-о-очень легко напортачить. P.S. И да, на dxdy придержите за пуговицу юзера барсук. А то он, похоже, дал себе честное слово экспериментально доказать, что модель в виде смеси кучи гауссиан способна бесконечно переобучаться (в силу безграничной делимости нормального распределения ежу понятно, что три кривульки подгоняют ("фитят") лучше, чем две,а четыре - лучше, чем три etc). И ведь докажет же...

DoctorStat Просмотр профиля	24.01.2020 - 21:15 Сообщение #5
Группа: Пользователи Сообщений: 377 Регистрация: 18.08.2008 Из: Москва Златоглавая Пользователь №: 5224	Цитата(Диагностик @ 22.01.2020 - 05:23) Параметры распределения находил из условия минимума расстояния Пирсона. Расшифруйте, пожалуйста, термин: расстояние Пирсона. И почему именно его выбрали в качестве параметра подгонки ? Какие данные вы описываете смесью распределений (чисто из любопытства) ? Сообщение отредактировал DoctorStat - 24.01.2020 - 21:17 Просто включи мозги => http://doctorstat.narod.ru

Диагностик Просмотр профиля	25.01.2020 - 12:30 Сообщение #6
Группа: Пользователи Сообщений: 143 Регистрация: 4.09.2012 Пользователь №: 24146	Цитата(DoctorStat @ 25.01.2020 - 02:15) Расшифруйте, пожалуйста, термин: расстояние Пирсона. вот формула, по которой вычисляется расстояние Пирсона (фактически это квадрат расстояния): X 2Pearson = S((Oi-Ei)/Ei1/2) 2 =S(Oi-Ei) 2/Ei Как здесь в ТЕХе писать?

Диагностик Просмотр профиля	25.01.2020 - 12:33 Сообщение #7
Группа: Пользователи Сообщений: 143 Регистрация: 4.09.2012 Пользователь №: 24146	Цитата(DoctorStat @ 25.01.2020 - 02:15) Какие данные вы описываете смесью распределений (чисто из любопытства) ? Размах виброперемещения станины электрической машины. Один оборот - одно значение.

Диагностик Просмотр профиля	25.01.2020 - 12:39 Сообщение #8
Группа: Пользователи Сообщений: 143 Регистрация: 4.09.2012 Пользователь №: 24146	Цитата(100$ @ 24.01.2020 - 19:01) хотелось бы получить конкретные результаты: само значение хи-квадрата в точке "оптимума" и число степеней свобод df. 5,76 и 10. Сообщение отредактировал Диагностик - 25.01.2020 - 12:41

100$ Просмотр профиля	25.01.2020 - 13:06 Сообщение #9
Группа: Пользователи Сообщений: 902 Регистрация: 23.08.2010 Пользователь №: 22694	Цитата(Диагностик @ 25.01.2020 - 12:39) 5,76 и 10. А откуда 10-то? У вас 19 разрядов гистограммы.

Диагностик Просмотр профиля	25.01.2020 - 13:45 Сообщение #10
Группа: Пользователи Сообщений: 143 Регистрация: 4.09.2012 Пользователь №: 24146	Цитата(100$ @ 25.01.2020 - 18:06) А откуда 10-то? У вас 19 разрядов гистограммы. Использовалось 16. 16-5-1=10.

100$ Просмотр профиля	25.01.2020 - 14:01 Сообщение #11
Группа: Пользователи Сообщений: 902 Регистрация: 23.08.2010 Пользователь №: 22694	Цитата(Диагностик @ 25.01.2020 - 13:45) Использовалось 16. 16-5-1=10. Ясно. Тогда все верно. "Все правильно, все сходится, ребёночек - не наш". А ответ на изначальный вопрос "Можно или нет?" будет зависеть от а) того, в каком соотношении находятся минимум хи-квадрата и максимум логарифмической ф-ции правдоподобия; б) статистических свойств полученных оценок. Н-р, дисперсия может быть неприлично велика.

100$ Просмотр профиля	26.01.2020 - 01:01 Сообщение #12
Группа: Пользователи Сообщений: 902 Регистрация: 23.08.2010 Пользователь №: 22694	Чтобы, наконец, поставить точку в этой теме: о том, что параметры можно отыскивать по минимуму хи-квадрата ясно написано у Крамера: $30.3 стр. 461. Желающие вольны ознакомиться. Да, чуть не забыл: применительно к конкретной задаче - стоит только прологарифмировать сырые данные, как без без 196-го значения критерий Шапиро-Уилка "успокаивается" > shapiro.test(x[-196,]) Shapiro-Wilk normality test data: x[-196, ] W = 0.98636, p-value = 0.05677 ядерная оценка плотности (с Гауссовым ядром и шириной окна ,18 (оптимизированная методом максимального правдоподобия)) не обнаруживает намеков на двухмодальность, и тесты на симметричность (Смирнова, Фрейзера, Уилкоксона и Бхаттачарьи-Гаствирта-Райта) не отклоняют гипотезу симметричности распределения в т.ч. относительно неизвестного центра. Впрочем, на dxdy Диагностику Санычу о логнормальном распределении уже намекнули. Да он по простоте душевной внимания не обратил... Сообщение отредактировал 100$ - 26.01.2020 - 01:21

Диагностик Просмотр профиля	26.01.2020 - 02:42 Сообщение #13
Группа: Пользователи Сообщений: 143 Регистрация: 4.09.2012 Пользователь №: 24146	Цитата(100$ @ 26.01.2020 - 06:01) о том, что параметры можно отыскивать по минимуму хи-квадрата ясно написано у Крамера Профессор Орлов считает это невежеством.

100$ Просмотр профиля	26.01.2020 - 14:34 Сообщение #14
Группа: Пользователи Сообщений: 902 Регистрация: 23.08.2010 Пользователь №: 22694	Цитата(Диагностик @ 26.01.2020 - 02:42) Профессор Орлов считает это невежеством. Я бы назвал это "не вызывающим симпатий проф. Орлова пристрастием к устаревшим статистическим технологиям". Но вы можете отписать ему в том духе, что, мол, я Диагностик Александрович, проживающий по адресу такому-то, все осознал и минимизировал не расстояние хи-квадрат между двумя распределениями, а расстояния Кульбака-Лейблера, Хеллингера и Бхаттачарьи-Рао до кучи. Дата, подпись. Порадуйте человека. Так сказать - ложь во спасение. Сообщение отредактировал 100$ - 26.01.2020 - 14:35

« Предыдущая тема · Медицинская статистика · Следующая тема »

Добавить ответ в эту тему

Открыть тему

Режим отображения: Стандартный · Переключить на: Линейный · Переключить на: Древовидный

Подписка на тему · Сообщить другу · Версия для печати · Подписка на этот форум

Форум IP.Board © 2024 IPS, Inc.