Мономодальное или бимодальное распределение?

Мономодальное или бимодальное распределение?, анализ популяции частиц разного размера

kmuranov Просмотр профиля	3.05.2012 - 11:27 Сообщение #1
Группа: Пользователи Сообщений: 13 Регистрация: 29.12.2009 Из: Москва Пользователь №: 8863	Добрый день! Прошу помочь с выбором метода анализа. Данные - диаметры сферических частиц, размер выборки около 1000 шт Задача анализа ответить на вопрос: - размеры частиц представляют собой мономодальное распределение или это смесь двух или более типов частиц. Визуально частицы можно разделить на маленькие шарики и лепешки большего размера. Заранее благодарю, kmuranov

Ответов

nokh Просмотр профиля	3.05.2012 - 14:48 Сообщение #2
Группа: Пользователи Сообщений: 1219 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704	Цитата(kmuranov @ 3.05.2012 - 13:27) Добрый день! Прошу помочь с выбором метода анализа. Данные - диаметры сферических частиц, размер выборки около 1000 шт Задача анализа ответить на вопрос: - размеры частиц представляют собой мономодальное распределение или это смесь двух или более типов частиц. Визуально частицы можно разделить на маленькие шарики и лепешки большего размера. Заранее благодарю, kmuranov Я в таких случаях ограничивался исключительно гистограммой распределения, т.к. если распределение не унимодальное, а иное, то это очевидно. Хотя потом можно подтянуть и какие-то статистические критерии. Но начинать в любом случае нужно с гистограммы распределения. Из пакетов могу посоветовать бесплатный PAST: http://folk.uio.no/ohammer/past/ Можно просто построить гистограмму по предварительно выделенному столбцу данных (Plot - Histogram) и посмотреть ядерную (kernel) плотность. В качестве числа интервалов (Bins) при 1000 наблюдений можно задать 25 или даже больше (нужно нажимать Enter после изменения). Если выявится би- или полимодальность, то можно попробовать разделить смесь распределений в разделе Model - Mixture analysis. Для смеси нормальных распределений по View numbers можно посмотреть параметры разделённых распределений (среднее и стандартное отклонение). Они вычисляются по достаточно продвинутому EM-алгоритму. Если ваши частицы образуются в результате дробления, то распределение может быть унимодальным, но сильно скошенным - примерно логарифмически нормальным. Тогда данные можно предварительно прологарифмировать, а уже потом прогнать по описанной схеме.

p2004r Просмотр профиля	3.05.2012 - 21:42 Сообщение #3
Группа: Пользователи Сообщений: 1091 Регистрация: 26.08.2010 Пользователь №: 22699	Цитата(nokh @ 3.05.2012 - 14:48) Я в таких случаях ограничивался исключительно гистограммой распределения, т.к. если распределение не унимодальное, а иное, то это очевидно. Хотя потом можно подтянуть и какие-то статистические критерии. Но начинать в любом случае нужно с гистограммы распределения. Из пакетов могу посоветовать бесплатный PAST: http://folk.uio.no/ohammer/past/ Можно просто построить гистограмму по предварительно выделенному столбцу данных (Plot - Histogram) и посмотреть ядерную (kernel) плотность. В качестве числа интервалов (Bins) при 1000 наблюдений можно задать 25 или даже больше (нужно нажимать Enter после изменения). Если выявится би- или полимодальность, то можно попробовать разделить смесь распределений в разделе Model - Mixture analysis. Для смеси нормальных распределений по View numbers можно посмотреть параметры разделённых распределений (среднее и стандартное отклонение). Они вычисляются по достаточно продвинутому EM-алгоритму. Если ваши частицы образуются в результате дробления, то распределение может быть унимодальным, но сильно скошенным - примерно логарифмически нормальным. Тогда данные можно предварительно прологарифмировать, а уже потом прогнать по описанной схеме. По моему еще полезно не одну реализацию ядерного сглаживания получить, а бутстреп учинить Имея несколько сот кривых сразу станет ясно сколько пиков имеют право на жизнь. Топикстартер, давайте Ваш датасет в тред. Посмотрим что в нем есть Сообщение отредактировал p2004r - 3.05.2012 - 21:43 http://r-statistics.livejournal.com/

kmuranov Просмотр профиля	4.05.2012 - 11:39 Сообщение #4
Группа: Пользователи Сообщений: 13 Регистрация: 29.12.2009 Из: Москва Пользователь №: 8863	Цитата(p2004r @ 3.05.2012 - 22:42) По моему еще полезно не одну реализацию ядерного сглаживания получить, а бутстреп учинить Имея несколько сот кривых сразу станет ясно сколько пиков имеют право на жизнь. Топикстартер, давайте Ваш датасет в тред. Посмотрим что в нем есть Посылаю в txt. Спасибо, kmuranov Прикрепленные файлы size.txt ( 13,34 килобайт ) Кол-во скачиваний: 743

p2004r

4.05.2012 - 18:49

Сообщение #5

Группа: Пользователи
Сообщений: 1091
Регистрация: 26.08.2010
Пользователь №: 22699

Цитата(kmuranov @ 4.05.2012 - 11:39)

Посылаю в txt.
Спасибо,
kmuranov

Код

## Собственно эксперимент по накомлению 10000 перевыборок с возвращением и построением плотности распределения
xxxx<-replicate(10000,
                        density(sample(data$size,
                                               size=length(data[,1]),
                                               replace=TRUE),
                                    from=8,
                                    to=28)$y)

line.means<-rowMeans(xxxx) # вычисляем среднее для каждой из 512 точек оценки плотности распределения

## вычисляем положение точек в которых оценивалась плотность распределения
x <- density(sample(data$size, size=length(data[,1]), replace=TRUE), from=8, to=28)$x

## рисуем
plot(x, line.means, pch=".")

## считаем границы доверительного 95% интервала
line.high<-sapply(1:512, function (i) {sort(xxxx[i,], decreasing = TRUE)[0.025*10000]})
line.low<-sapply(1:512, function (i) {sort(xxxx[i,], decreasing = TRUE)[0.975*10000]})

lines(x, line.low, col="green")
lines(x, line.high, col="red")

ну и они полностью разделены

Сообщение отредактировал p2004r - 4.05.2012 - 19:15

Эскизы прикрепленных изображений