Форум врачей-аспирантов

Здравствуйте, гость ( Вход | Регистрация )

 
Добавить ответ в эту темуОткрыть тему
> Расщепление смеси распределений
Диагностик
сообщение 22.01.2020 - 05:23
Сообщение #1





Группа: Пользователи
Сообщений: 143
Регистрация: 4.09.2012
Пользователь №: 24146



Собрал реальные 196 значений некой случайной величины. Теоретическую функцию распределения этой с.в. представил в виде взвешенной суммы двух функций нормальных распределений [latex]F=wN_1(\mu_1, \sigma_1)+(1-w)N_2(\mu_2, \sigma_2)[/latex].

Параметры распределения [math]$(w;\mu_1; \sigma_1;\mu_2, \sigma_2$)[/math] находил из условия минимума расстояния Пирсона. Получил следующие оценки параметров [math]$(w\approx 0,71;\mu_1\approx 88,4; \sigma_1 23,4\approx ;\mu_2\approx163,3; \sigma_2\approx 65,1$)[/math].
Результат приведён на графике.



Правильный ли такой подход к расщеплению смеси? Существуют ли другие методы?

P.S. А как здесь TEX работает?
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
p2004r
сообщение 23.01.2020 - 17:09
Сообщение #2





Группа: Пользователи
Сообщений: 1091
Регистрация: 26.08.2010
Пользователь №: 22699



Зайдите на https://cran.r-project.org/view=Cluster и почитайте подраздел Model-Based Clustering.


Signature
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Диагностик
сообщение 23.01.2020 - 17:33
Сообщение #3





Группа: Пользователи
Сообщений: 143
Регистрация: 4.09.2012
Пользователь №: 24146



Спасибо!
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
100$
сообщение 24.01.2020 - 14:01
Сообщение #4





Группа: Пользователи
Сообщений: 902
Регистрация: 23.08.2010
Пользователь №: 22694



Верно ли я понял из скудной мотивировочной части поста, что описанная методика породила некий итерационный процесс, критерием окончания которого явился факт первого неотвержения нулевой гипотезы общим критерием согласия "Хи-квадрат"?
Если да, то хотелось бы получить конкретные результаты: само значение хи-квадрата в точке "оптимума" и число степеней свобод df. Ибо здесь о-о-очень легко напортачить.

P.S. И да, на dxdy придержите за пуговицу юзера барсук. А то он, похоже, дал себе честное слово экспериментально доказать, что модель в виде смеси кучи гауссиан способна бесконечно переобучаться (в силу безграничной делимости нормального распределения ежу понятно, что три кривульки подгоняют ("фитят") лучше, чем две,а четыре - лучше, чем три etc). И ведь докажет же...
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
DoctorStat
сообщение 24.01.2020 - 21:15
Сообщение #5





Группа: Пользователи
Сообщений: 377
Регистрация: 18.08.2008
Из: Москва Златоглавая
Пользователь №: 5224



Цитата(Диагностик @ 22.01.2020 - 05:23) *
Параметры распределения находил из условия минимума расстояния Пирсона.

Расшифруйте, пожалуйста, термин: расстояние Пирсона. И почему именно его выбрали в качестве параметра подгонки ? Какие данные вы описываете смесью распределений (чисто из любопытства) ?

Сообщение отредактировал DoctorStat - 24.01.2020 - 21:17


Signature
Просто включи мозги => http://doctorstat.narod.ru
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Диагностик
сообщение 25.01.2020 - 12:30
Сообщение #6





Группа: Пользователи
Сообщений: 143
Регистрация: 4.09.2012
Пользователь №: 24146



Цитата(DoctorStat @ 25.01.2020 - 02:15) *
Расшифруйте, пожалуйста, термин: расстояние Пирсона.

вот формула, по которой вычисляется расстояние Пирсона (фактически это квадрат расстояния):
X 2Pearson = S((Oi-Ei)/Ei1/2) 2 =S(Oi-Ei) 2/Ei

Как здесь в ТЕХе писать?
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Диагностик
сообщение 25.01.2020 - 12:33
Сообщение #7





Группа: Пользователи
Сообщений: 143
Регистрация: 4.09.2012
Пользователь №: 24146



Цитата(DoctorStat @ 25.01.2020 - 02:15) *
Какие данные вы описываете смесью распределений (чисто из любопытства) ?

Размах виброперемещения станины электрической машины. Один оборот - одно значение.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Диагностик
сообщение 25.01.2020 - 12:39
Сообщение #8





Группа: Пользователи
Сообщений: 143
Регистрация: 4.09.2012
Пользователь №: 24146



Цитата(100$ @ 24.01.2020 - 19:01) *
хотелось бы получить конкретные результаты: само значение хи-квадрата в точке "оптимума" и число степеней свобод df.

5,76 и 10.

Сообщение отредактировал Диагностик - 25.01.2020 - 12:41
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
100$
сообщение 25.01.2020 - 13:06
Сообщение #9





Группа: Пользователи
Сообщений: 902
Регистрация: 23.08.2010
Пользователь №: 22694



Цитата(Диагностик @ 25.01.2020 - 12:39) *
5,76 и 10.


А откуда 10-то? У вас 19 разрядов гистограммы.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Диагностик
сообщение 25.01.2020 - 13:45
Сообщение #10





Группа: Пользователи
Сообщений: 143
Регистрация: 4.09.2012
Пользователь №: 24146



Цитата(100$ @ 25.01.2020 - 18:06) *
А откуда 10-то? У вас 19 разрядов гистограммы.

Использовалось 16. 16-5-1=10.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
100$
сообщение 25.01.2020 - 14:01
Сообщение #11





Группа: Пользователи
Сообщений: 902
Регистрация: 23.08.2010
Пользователь №: 22694



Цитата(Диагностик @ 25.01.2020 - 13:45) *
Использовалось 16. 16-5-1=10.


Ясно. Тогда все верно. "Все правильно, все сходится, ребёночек - не наш".

А ответ на изначальный вопрос "Можно или нет?" будет зависеть от
а) того, в каком соотношении находятся минимум хи-квадрата и максимум логарифмической ф-ции правдоподобия;
б) статистических свойств полученных оценок. Н-р, дисперсия может быть неприлично велика.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
100$
сообщение 26.01.2020 - 01:01
Сообщение #12





Группа: Пользователи
Сообщений: 902
Регистрация: 23.08.2010
Пользователь №: 22694



Чтобы, наконец, поставить точку в этой теме: о том, что параметры можно отыскивать по минимуму хи-квадрата ясно написано у Крамера: $30.3 стр. 461.
Желающие вольны ознакомиться.

Да, чуть не забыл: применительно к конкретной задаче - стоит только прологарифмировать сырые данные, как без без 196-го значения критерий Шапиро-Уилка "успокаивается"

> shapiro.test(x[-196,])

Shapiro-Wilk normality test

data: x[-196, ]
W = 0.98636, p-value = 0.05677

ядерная оценка плотности (с Гауссовым ядром и шириной окна ,18 (оптимизированная методом максимального правдоподобия)) не обнаруживает намеков на двухмодальность, и тесты на симметричность (Смирнова, Фрейзера, Уилкоксона и Бхаттачарьи-Гаствирта-Райта) не отклоняют гипотезу симметричности распределения в т.ч. относительно неизвестного центра.

Впрочем, на dxdy Диагностику Санычу о логнормальном распределении уже намекнули. Да он по простоте душевной внимания не обратил...

Сообщение отредактировал 100$ - 26.01.2020 - 01:21
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Диагностик
сообщение 26.01.2020 - 02:42
Сообщение #13





Группа: Пользователи
Сообщений: 143
Регистрация: 4.09.2012
Пользователь №: 24146



Цитата(100$ @ 26.01.2020 - 06:01) *
о том, что параметры можно отыскивать по минимуму хи-квадрата ясно написано у Крамера

Профессор Орлов считает это невежеством.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
100$
сообщение 26.01.2020 - 14:34
Сообщение #14





Группа: Пользователи
Сообщений: 902
Регистрация: 23.08.2010
Пользователь №: 22694



Цитата(Диагностик @ 26.01.2020 - 02:42) *
Профессор Орлов считает это невежеством.


Я бы назвал это "не вызывающим симпатий проф. Орлова пристрастием к устаревшим статистическим технологиям".

Но вы можете отписать ему в том духе, что, мол, я Диагностик Александрович, проживающий по адресу такому-то, все осознал и минимизировал не расстояние хи-квадрат между двумя распределениями, а расстояния Кульбака-Лейблера, Хеллингера и Бхаттачарьи-Рао до кучи. Дата, подпись.
Порадуйте человека. Так сказать - ложь во спасение.

Сообщение отредактировал 100$ - 26.01.2020 - 14:35
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 

Добавить ответ в эту темуОткрыть тему