Мономодальное или бимодальное распределение?

Мономодальное или бимодальное распределение?, анализ популяции частиц разного размера

kmuranov Просмотр профиля	3.05.2012 - 11:27 Сообщение #1
Группа: Пользователи Сообщений: 13 Регистрация: 29.12.2009 Из: Москва Пользователь №: 8863	Добрый день! Прошу помочь с выбором метода анализа. Данные - диаметры сферических частиц, размер выборки около 1000 шт Задача анализа ответить на вопрос: - размеры частиц представляют собой мономодальное распределение или это смесь двух или более типов частиц. Визуально частицы можно разделить на маленькие шарики и лепешки большего размера. Заранее благодарю, kmuranov

Ответов

nokh

4.05.2012 - 20:33

Сообщение #2

Группа: Пользователи
Сообщений: 1218
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704

Цитата(kmuranov @ 3.05.2012 - 17:24)

... Использую Statistica и Attestat. Если посоветуете методы в этих пакетах буду благодарен.

Я их тоже использую, но для других задач, там нет разделения смесей распределений. Другие методы здесь вряд ли уместны, но к сожалению доказать не графически, а статистически, что мод именно 3 (или 5-6) я тоже не знаю как.

Цитата(kmuranov @ 3.05.2012 - 17:24)

А как попробовать выявить связь формы и размера? Похоже она есть!

Выявлять, собственно, нечего, т.к. размеры разных форм не трансгрессируют. Как уже сказал p2004r они полностью разделены. Можно точно указать до каких размеров идёт шар и с какого начинается тороид. Если нужен статистический критерий, то подойдёт даже критерий знаков.

>p2004r
PAST для трёх распределений выдаёт параметры указанные на картинке. Хотя, похоже, первый кластер тоже неоднородный и состоит из 2 или даже скорее 3 подгрупп. Нашёл пакет для R, который должен делать аналогичное разделение и даже больше: http://www.math.mcmaster.ca/peter/mix/mix.html . Если у вас есть время, интересно было бы сопоставить результаты пакетов.

Сообщение отредактировал nokh - 4.05.2012 - 20:41

Эскизы прикрепленных изображений

Ответить с цитированием данного сообщения

p2004r Просмотр профиля	4.05.2012 - 23:44 Сообщение #3
Группа: Пользователи Сообщений: 1091 Регистрация: 26.08.2010 Пользователь №: 22699	Цитата(nokh @ 4.05.2012 - 20:33) >p2004r PAST для трёх распределений выдаёт параметры указанные на картинке. Хотя, похоже, первый кластер тоже неоднородный и состоит из 2 или даже скорее 3 подгрупп. Нашёл пакет для R, который должен делать аналогичное разделение и даже больше: http://www.math.mcmaster.ca/peter/mix/mix.html . Если у вас есть время, интересно было бы сопоставить результаты пакетов. Увы только в понедельник смогу продолжить Мне представляется что "лепешка" в зависимости от того под каким углом видна даст различный размер в проекции. И даже если все "лепешки" равны получится некое распределение. Что то типа задачи расчета длинны нити в клубке по наблюдаемому сечению клубка. В случае шарообразной формы проецирование дает одинаковую картинку. http://r-statistics.livejournal.com/

nokh

8.05.2012 - 12:33

Сообщение #4

Группа: Пользователи
Сообщений: 1218
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704

Цитата(p2004r @ 5.05.2012 - 01:44)

Увы только в понедельник смогу продолжить

Мне представляется что "лепешка" в зависимости от того под каким углом видна даст различный размер в проекции. И даже если все "лепешки" равны получится некое распределение. Что то типа задачи расчета длинны нити в клубке по наблюдаемому сечению клубка.
В случае шарообразной формы проецирование дает одинаковую картинку.

Полагаю, что если диаметр тороида измеряется в разных проекциях, то это приведёт к унимодальному распределению. А раз в распределении лепёшек два пика, значит это разные классы лепёшек.
Попробовал пакет сам. В результатах есть различия, но я пока не разбирался с чем они связаны: с несколько иной группировкой (здесь разбивал на 17 классов, а получилось 18), с различиями алгоритма или настройкой типа распределения. Пока просто сделал. Как смог

!!!
Переименовал выложенный файл в belok.txt
> belok<-read.table("data/belok.txt", h=T)
> attach(belok)
> library(mixdist)
> szgr<-mixgroup(belok[,1],breaks=c(0,seq(11.8,24.6,0.8),26))
> szgr
X count
1 11.8 180
2 12.6 147
3 13.4 156
4 14.2 122
5 15.0 5
6 15.8 60
7 16.6 67
8 17.4 60
9 18.2 53
10 19.0 67
11 19.8 23
12 20.6 28
13 21.4 31
14 22.2 38
15 23.0 31
16 23.8 34
17 24.6 29
18 Inf 12
> plot(szgr)

Смотрим на получившуюся гистограмму и задаём примерные центры кластеров.

> fitclaster<-mix(szgr,mixparam(c(13,18,22.5),.5),"gamma",mixconstr(consigma="CCV"))
> summary(fitclaster)

Parameters:
pi mu sigma
1 0.5332 12.45 1.029
2 0.2832 17.14 1.416
3 0.1836 22.22 1.835

Standard Errors:
pi.se mu.se sigma.se
1 0.01533 0.04778 0.03441
2 0.01511 0.10971 NA
3 0.01322 0.16570 NA

Analysis of Variance Table

Df Chisq Pr(>Chisq)
Residuals 11 107.99 < 2.2e-16 ***

Получается, что модель с тремя кластерами плохо приближает реальность. Полагаю, что это связано в первую очередь со смешанным характером первого кластера, который состоит примерно из 3 групп близких по размеру объектов.

> plot(fitclaster)

Понял смысл не всех параметров команд, которые срисовал. Ну да бог с ними. Важнее результат и картинка. Подскажите пожалуйста, какие настройки нужно добавить в последнюю команду plot, чтобы по оси Y влез весь рисунок, а также чтобы между большими метками обеих шкал сделать коротенькие засечки маленьких меток.

Сообщение отредактировал nokh - 8.05.2012 - 12:48

Эскизы прикрепленных изображений

p2004r Просмотр профиля	8.05.2012 - 13:32 Сообщение #5
Группа: Пользователи Сообщений: 1091 Регистрация: 26.08.2010 Пользователь №: 22699	Цитата(nokh @ 8.05.2012 - 12:33) Понял смысл не всех параметров команд, которые срисовал. Ну да бог с ними. Важнее результат и картинка. Подскажите пожалуйста, какие настройки нужно добавить в последнюю команду plot, чтобы по оси Y влез весь рисунок, а также чтобы между большими метками обеих шкал сделать коротенькие засечки маленьких меток. у plot есть параметр задающий лимиты по осям (?plot.default ---> ylim=c(y1,y2) ), но в данном случае работает метод из пакета и боюсь результат будет деструктивным. тоже касается меток на осях... надо посмотреть в процедуру рисования определенную в пакете, там явно параметры берутся из графика гистограммы а не графика плотности... обычно рассчитывают максимумы и рисуют пустой график с нужными осями, потом на него в нужном порядке выводят все остальное. http://r-statistics.livejournal.com/