Собрал реальные 196 значений некой случайной величины. Теоретическую функцию распределения этой с.в. представил в виде взвешенной суммы двух функций нормальных распределений [latex]F=wN_1(\mu_1, \sigma_1)+(1-w)N_2(\mu_2, \sigma_2)[/latex].
Параметры распределения [math]$(w;\mu_1; \sigma_1;\mu_2, \sigma_2$)[/math] находил из условия минимума расстояния Пирсона. Получил следующие оценки параметров [math]$(w\approx 0,71;\mu_1\approx 88,4; \sigma_1 23,4\approx ;\mu_2\approx163,3; \sigma_2\approx 65,1$)[/math].
Результат приведён на графике.
http://radikal.ru/big/w5qo1wj5ehwmx
Правильный ли такой подход к расщеплению смеси? Существуют ли другие методы?
P.S. А как здесь TEX работает?
Зайдите на https://cran.r-project.org/view=Cluster и почитайте подраздел Model-Based Clustering.
Спасибо!
Верно ли я понял из скудной мотивировочной части поста, что описанная методика породила некий итерационный процесс, критерием окончания которого явился факт первого неотвержения нулевой гипотезы общим критерием согласия "Хи-квадрат"?
Если да, то хотелось бы получить конкретные результаты: само значение хи-квадрата в точке "оптимума" и число степеней свобод df. Ибо здесь о-о-очень легко напортачить.
P.S. И да, на dxdy придержите за пуговицу юзера барсук. А то он, похоже, дал себе честное слово экспериментально доказать, что модель в виде смеси кучи гауссиан способна бесконечно переобучаться (в силу безграничной делимости нормального распределения ежу понятно, что три кривульки подгоняют ("фитят") лучше, чем две,а четыре - лучше, чем три etc). И ведь докажет же...
Чтобы, наконец, поставить точку в этой теме: о том, что параметры можно отыскивать по минимуму хи-квадрата ясно написано у Крамера: $30.3 стр. 461.
Желающие вольны ознакомиться.
Да, чуть не забыл: применительно к конкретной задаче - стоит только прологарифмировать сырые данные, как без без 196-го значения критерий Шапиро-Уилка "успокаивается"
> shapiro.test(x[-196,])
Shapiro-Wilk normality test
data: x[-196, ]
W = 0.98636, p-value = 0.05677
ядерная оценка плотности (с Гауссовым ядром и шириной окна ,18 (оптимизированная методом максимального правдоподобия)) не обнаруживает намеков на двухмодальность, и тесты на симметричность (Смирнова, Фрейзера, Уилкоксона и Бхаттачарьи-Гаствирта-Райта) не отклоняют гипотезу симметричности распределения в т.ч. относительно неизвестного центра.
Впрочем, на dxdy Диагностику Санычу о логнормальном распределении уже намекнули. Да он по простоте душевной внимания не обратил...
Форум Invision Power Board (http://www.invisionboard.com)
© Invision Power Services (http://www.invisionpower.com)