Версия для печати темы

Нажмите сюда для просмотра этой темы в обычном формате

Форум врачей-аспирантов _ Медицинская статистика _ Расщепление смеси распределений

Автор: Диагностик 22.01.2020 - 05:23

Собрал реальные 196 значений некой случайной величины. Теоретическую функцию распределения этой с.в. представил в виде взвешенной суммы двух функций нормальных распределений [latex]F=wN_1(\mu_1, \sigma_1)+(1-w)N_2(\mu_2, \sigma_2)[/latex].

Параметры распределения [math]$(w;\mu_1; \sigma_1;\mu_2, \sigma_2$)[/math] находил из условия минимума расстояния Пирсона. Получил следующие оценки параметров [math]$(w\approx 0,71;\mu_1\approx 88,4; \sigma_1 23,4\approx ;\mu_2\approx163,3; \sigma_2\approx 65,1$)[/math].
Результат приведён на графике.

http://radikal.ru/big/w5qo1wj5ehwmx

Правильный ли такой подход к расщеплению смеси? Существуют ли другие методы?

P.S. А как здесь TEX работает?

Автор: p2004r 23.01.2020 - 17:09

Зайдите на https://cran.r-project.org/view=Cluster и почитайте подраздел Model-Based Clustering.

Автор: Диагностик 23.01.2020 - 17:33

Спасибо!

Автор: 100$ 24.01.2020 - 14:01

Верно ли я понял из скудной мотивировочной части поста, что описанная методика породила некий итерационный процесс, критерием окончания которого явился факт первого неотвержения нулевой гипотезы общим критерием согласия "Хи-квадрат"?
Если да, то хотелось бы получить конкретные результаты: само значение хи-квадрата в точке "оптимума" и число степеней свобод df. Ибо здесь о-о-очень легко напортачить.

P.S. И да, на dxdy придержите за пуговицу юзера барсук. А то он, похоже, дал себе честное слово экспериментально доказать, что модель в виде смеси кучи гауссиан способна бесконечно переобучаться (в силу безграничной делимости нормального распределения ежу понятно, что три кривульки подгоняют ("фитят") лучше, чем две,а четыре - лучше, чем три etc). И ведь докажет же...

Автор: DoctorStat 24.01.2020 - 21:15

Цитата(Диагностик @ 22.01.2020 - 05:23) *
Параметры распределения находил из условия минимума расстояния Пирсона.

Расшифруйте, пожалуйста, термин: расстояние Пирсона. И почему именно его выбрали в качестве параметра подгонки ? Какие данные вы описываете смесью распределений (чисто из любопытства) ?

Автор: Диагностик 25.01.2020 - 12:30

Цитата(DoctorStat @ 25.01.2020 - 02:15) *
Расшифруйте, пожалуйста, термин: расстояние Пирсона.

вот формула, по которой вычисляется расстояние Пирсона (фактически это квадрат расстояния):
X 2Pearson = S((Oi-Ei)/Ei1/2) 2 =S(Oi-Ei) 2/Ei

Как здесь в ТЕХе писать?

Автор: Диагностик 25.01.2020 - 12:33

Цитата(DoctorStat @ 25.01.2020 - 02:15) *
Какие данные вы описываете смесью распределений (чисто из любопытства) ?

Размах виброперемещения станины электрической машины. Один оборот - одно значение.

Автор: Диагностик 25.01.2020 - 12:39

Цитата(100$ @ 24.01.2020 - 19:01) *
хотелось бы получить конкретные результаты: само значение хи-квадрата в точке "оптимума" и число степеней свобод df.

5,76 и 10.

Автор: 100$ 25.01.2020 - 13:06

Цитата(Диагностик @ 25.01.2020 - 12:39) *
5,76 и 10.


А откуда 10-то? У вас 19 разрядов гистограммы.

Автор: Диагностик 25.01.2020 - 13:45

Цитата(100$ @ 25.01.2020 - 18:06) *
А откуда 10-то? У вас 19 разрядов гистограммы.

Использовалось 16. 16-5-1=10.

Автор: 100$ 25.01.2020 - 14:01

Цитата(Диагностик @ 25.01.2020 - 13:45) *
Использовалось 16. 16-5-1=10.


Ясно. Тогда все верно. "Все правильно, все сходится, ребёночек - не наш".

А ответ на изначальный вопрос "Можно или нет?" будет зависеть от
а) того, в каком соотношении находятся минимум хи-квадрата и максимум логарифмической ф-ции правдоподобия;
б) статистических свойств полученных оценок. Н-р, дисперсия может быть неприлично велика.

Автор: 100$ 26.01.2020 - 01:01

Чтобы, наконец, поставить точку в этой теме: о том, что параметры можно отыскивать по минимуму хи-квадрата ясно написано у Крамера: $30.3 стр. 461.
Желающие вольны ознакомиться.

Да, чуть не забыл: применительно к конкретной задаче - стоит только прологарифмировать сырые данные, как без без 196-го значения критерий Шапиро-Уилка "успокаивается"

> shapiro.test(x[-196,])

Shapiro-Wilk normality test

data: x[-196, ]
W = 0.98636, p-value = 0.05677

ядерная оценка плотности (с Гауссовым ядром и шириной окна ,18 (оптимизированная методом максимального правдоподобия)) не обнаруживает намеков на двухмодальность, и тесты на симметричность (Смирнова, Фрейзера, Уилкоксона и Бхаттачарьи-Гаствирта-Райта) не отклоняют гипотезу симметричности распределения в т.ч. относительно неизвестного центра.

Впрочем, на dxdy Диагностику Санычу о логнормальном распределении уже намекнули. Да он по простоте душевной внимания не обратил...

Автор: Диагностик 26.01.2020 - 02:42

Цитата(100$ @ 26.01.2020 - 06:01) *
о том, что параметры можно отыскивать по минимуму хи-квадрата ясно написано у Крамера

Профессор Орлов считает это невежеством.

Автор: 100$ 26.01.2020 - 14:34

Цитата(Диагностик @ 26.01.2020 - 02:42) *
Профессор Орлов считает это невежеством.


Я бы назвал это "не вызывающим симпатий проф. Орлова пристрастием к устаревшим статистическим технологиям".

Но вы можете отписать ему в том духе, что, мол, я Диагностик Александрович, проживающий по адресу такому-то, все осознал и минимизировал не расстояние хи-квадрат между двумя распределениями, а расстояния Кульбака-Лейблера, Хеллингера и Бхаттачарьи-Рао до кучи. Дата, подпись.
Порадуйте человека. Так сказать - ложь во спасение.

Форум Invision Power Board (http://www.invisionboard.com)
© Invision Power Services (http://www.invisionpower.com)