Расщепление смеси распределений |
Здравствуйте, гость ( Вход | Регистрация )
Расщепление смеси распределений |
22.01.2020 - 05:23
Сообщение
#1
|
|
Группа: Пользователи Сообщений: 143 Регистрация: 4.09.2012 Пользователь №: 24146 |
Собрал реальные 196 значений некой случайной величины. Теоретическую функцию распределения этой с.в. представил в виде взвешенной суммы двух функций нормальных распределений [latex]F=wN_1(\mu_1, \sigma_1)+(1-w)N_2(\mu_2, \sigma_2)[/latex].
Параметры распределения [math]$(w;\mu_1; \sigma_1;\mu_2, \sigma_2$)[/math] находил из условия минимума расстояния Пирсона. Получил следующие оценки параметров [math]$(w\approx 0,71;\mu_1\approx 88,4; \sigma_1 23,4\approx ;\mu_2\approx163,3; \sigma_2\approx 65,1$)[/math]. Результат приведён на графике. Правильный ли такой подход к расщеплению смеси? Существуют ли другие методы? P.S. А как здесь TEX работает? |
|
23.01.2020 - 17:09
Сообщение
#2
|
|
Группа: Пользователи Сообщений: 1091 Регистрация: 26.08.2010 Пользователь №: 22699 |
Зайдите на https://cran.r-project.org/view=Cluster и почитайте подраздел Model-Based Clustering.
|
|
23.01.2020 - 17:33
Сообщение
#3
|
|
Группа: Пользователи Сообщений: 143 Регистрация: 4.09.2012 Пользователь №: 24146 |
Спасибо!
|
|
24.01.2020 - 14:01
Сообщение
#4
|
|
Группа: Пользователи Сообщений: 902 Регистрация: 23.08.2010 Пользователь №: 22694 |
Верно ли я понял из скудной мотивировочной части поста, что описанная методика породила некий итерационный процесс, критерием окончания которого явился факт первого неотвержения нулевой гипотезы общим критерием согласия "Хи-квадрат"?
Если да, то хотелось бы получить конкретные результаты: само значение хи-квадрата в точке "оптимума" и число степеней свобод df. Ибо здесь о-о-очень легко напортачить. P.S. И да, на dxdy придержите за пуговицу юзера барсук. А то он, похоже, дал себе честное слово экспериментально доказать, что модель в виде смеси кучи гауссиан способна бесконечно переобучаться (в силу безграничной делимости нормального распределения ежу понятно, что три кривульки подгоняют ("фитят") лучше, чем две,а четыре - лучше, чем три etc). И ведь докажет же... |
|
24.01.2020 - 21:15
Сообщение
#5
|
|
Группа: Пользователи Сообщений: 377 Регистрация: 18.08.2008 Из: Москва Златоглавая Пользователь №: 5224 |
Параметры распределения находил из условия минимума расстояния Пирсона. Расшифруйте, пожалуйста, термин: расстояние Пирсона. И почему именно его выбрали в качестве параметра подгонки ? Какие данные вы описываете смесью распределений (чисто из любопытства) ? Сообщение отредактировал DoctorStat - 24.01.2020 - 21:17 Просто включи мозги => http://doctorstat.narod.ru
|
|
25.01.2020 - 12:30
Сообщение
#6
|
|
Группа: Пользователи Сообщений: 143 Регистрация: 4.09.2012 Пользователь №: 24146 |
|
|
25.01.2020 - 12:33
Сообщение
#7
|
|
Группа: Пользователи Сообщений: 143 Регистрация: 4.09.2012 Пользователь №: 24146 |
|
|
25.01.2020 - 12:39
Сообщение
#8
|
|
Группа: Пользователи Сообщений: 143 Регистрация: 4.09.2012 Пользователь №: 24146 |
|
|
25.01.2020 - 13:06
Сообщение
#9
|
|
Группа: Пользователи Сообщений: 902 Регистрация: 23.08.2010 Пользователь №: 22694 |
|
|
25.01.2020 - 13:45
Сообщение
#10
|
|
Группа: Пользователи Сообщений: 143 Регистрация: 4.09.2012 Пользователь №: 24146 |
|
|
25.01.2020 - 14:01
Сообщение
#11
|
|
Группа: Пользователи Сообщений: 902 Регистрация: 23.08.2010 Пользователь №: 22694 |
Использовалось 16. 16-5-1=10. Ясно. Тогда все верно. "Все правильно, все сходится, ребёночек - не наш". А ответ на изначальный вопрос "Можно или нет?" будет зависеть от а) того, в каком соотношении находятся минимум хи-квадрата и максимум логарифмической ф-ции правдоподобия; б) статистических свойств полученных оценок. Н-р, дисперсия может быть неприлично велика. |
|
26.01.2020 - 01:01
Сообщение
#12
|
|
Группа: Пользователи Сообщений: 902 Регистрация: 23.08.2010 Пользователь №: 22694 |
Чтобы, наконец, поставить точку в этой теме: о том, что параметры можно отыскивать по минимуму хи-квадрата ясно написано у Крамера: $30.3 стр. 461.
Желающие вольны ознакомиться. Да, чуть не забыл: применительно к конкретной задаче - стоит только прологарифмировать сырые данные, как без без 196-го значения критерий Шапиро-Уилка "успокаивается" > shapiro.test(x[-196,]) Shapiro-Wilk normality test data: x[-196, ] W = 0.98636, p-value = 0.05677 ядерная оценка плотности (с Гауссовым ядром и шириной окна ,18 (оптимизированная методом максимального правдоподобия)) не обнаруживает намеков на двухмодальность, и тесты на симметричность (Смирнова, Фрейзера, Уилкоксона и Бхаттачарьи-Гаствирта-Райта) не отклоняют гипотезу симметричности распределения в т.ч. относительно неизвестного центра. Впрочем, на dxdy Диагностику Санычу о логнормальном распределении уже намекнули. Да он по простоте душевной внимания не обратил... Сообщение отредактировал 100$ - 26.01.2020 - 01:21 |
|
26.01.2020 - 02:42
Сообщение
#13
|
|
Группа: Пользователи Сообщений: 143 Регистрация: 4.09.2012 Пользователь №: 24146 |
|
|
26.01.2020 - 14:34
Сообщение
#14
|
|
Группа: Пользователи Сообщений: 902 Регистрация: 23.08.2010 Пользователь №: 22694 |
Профессор Орлов считает это невежеством. Я бы назвал это "не вызывающим симпатий проф. Орлова пристрастием к устаревшим статистическим технологиям". Но вы можете отписать ему в том духе, что, мол, я Диагностик Александрович, проживающий по адресу такому-то, все осознал и минимизировал не расстояние хи-квадрат между двумя распределениями, а расстояния Кульбака-Лейблера, Хеллингера и Бхаттачарьи-Рао до кучи. Дата, подпись. Порадуйте человека. Так сказать - ложь во спасение. Сообщение отредактировал 100$ - 26.01.2020 - 14:35 |
|