Абсцисса пересечения двух гауссиан, для разных N |
Здравствуйте, гость ( Вход | Регистрация )
Абсцисса пересечения двух гауссиан, для разных N |
19.02.2022 - 14:28
Сообщение
#16
|
|
Группа: Пользователи Сообщений: 143 Регистрация: 4.09.2012 Пользователь №: 24146 |
И на это ушло 2 ч. 15 мин.?
Это не важно. Важно то, что это не смесь. |
|
19.02.2022 - 16:30
Сообщение
#17
|
|
Группа: Пользователи Сообщений: 902 Регистрация: 23.08.2010 Пользователь №: 22694 |
Это не важно. Важно то, что это не смесь. Вы, как обычно, ошибаетесь. Но я не в претензии: допускаю, что вы можете себе это позволить. Однако. Нормальное распределение устойчиво по суммированию: сумма нормальных величин - нормальна. Поэтому, если у исследователя есть причины предполагать, что здесь смешаны 3 распределения - пусть моделирует. Другое дело, что нельзя складывать до кучи 3 распределения, не убедившись предварительно с помощью теста отношения правдоподобия, что это не противоречит имеющимся данным. Сообщение отредактировал 100$ - 19.02.2022 - 16:45 |
|
19.02.2022 - 20:57
Сообщение
#18
|
|
Группа: Пользователи Сообщений: 1202 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704 |
>Диагностик
Конкретно здесь неоднородность не является следствием случайности выборки, т.к. это не совсем исходные данные, а это - важно. Данные получены преобразованием исходных с помощью адаптивного к данным преобразования Бокса - Кокса, которое и предназначено для того, чтобы делать исходные распределения нормальными настолько, насколько это только возможно. Поэтому то, что тестами не обнаруживается отличие от нормальности указывает лишь на то, преобразование справилось со своей задачей. Но вот то, что даже после такой замечательной штуки плотность распределения указывает на полимодальность и является основанием предполагать смесь распределений. Теоретически это тоже оправдано. Я много работаю с преобразованием БК, т.к. в тех областях где приходится считать чаще всего нормального распределения почти не бывает, а уж так сложилось, что я люблю среднее и ДИ больше медианы с квартилями, и это любовь не иррациональная, а обоснованная практикой. Поэтому часто приходится видеть и унимодальные и полимодальные распределения после БК. Суть проводимой работы - отыскание естественных границ для разных классов объектов в том случае, когда исходные распределения настолько асимметричны, что не позволяют даже предположить неоднородность данных. Для любителей поюзать реальные данные выложил файл целиком: донные отложения только озёр (есть загрязнённые), валовое содержание 4-х элементов, исходные значения (мг/кг сухого вещества) и преобразованные. Могу какие-нибудь цитокины поискать, там тоже всё сильно асимметрично. Судя по всему, в этой ситуации у нас нет критериев, чтобы оценить статистическую значимость решения. Приходится полагаться на теоретическую возможность, глазомер и вспомогательные процедуры типа плотности распределения, всяких BIC и AIK, японской диаграммы, по которую узнал от 100$ (о ней ниже) Сообщение отредактировал nokh - 19.02.2022 - 20:59
Прикрепленные файлы
|
|
19.02.2022 - 21:21
Сообщение
#19
|
|
Группа: Пользователи Сообщений: 1202 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704 |
> 100$
Японская диаграмма прикольная. Я люблю такие автоматизированные техники. Оптимизированный сплайн, аддитивные модели регрессии, да то же преобразование БК. Нашёл код для R здесь: https://web.archive.org/web/20210909021638/https://www.neuralengine.org/res/histogram.html Пока про принципы не читал, не очень понравилось, что на данных первого примера несколько сузила средний класс откинув его крайние варианты в крайние классы. Рис. прикрепил. В структуре результата R есть границы классов - полезно. Почему-то не справляется с Zn после БК: выдаёт обычную гистограмму. Попробуйте свой экселевский код, может получится? md<-read.table("clipboard", dec=",") str(md) 'data.frame': 57 obs. of 1 variable: $ V1: num 10.27 4.49 7.77 12.08 7.95 ... sshist <- function(x){ N <- 2: 100 C <- numeric(length(N)) D <- C for (i in 1:length(N)) { D[i] <- diff(range(x))/N[i] edges = seq(min(x),max(x),length=N[i]) hp <- hist(x, breaks = edges, plot=FALSE ) ki <- hp$counts k <- mean(ki) v <- sum((ki-k)^2)/N[i] C[i] <- (2*k-v)/D[i]^2 #Cost Function } idx <- which.min© optD <- D[idx] edges <- seq(min(x),max(x),length=N[idx]) h = hist(x, breaks = edges ) rug(x) return(h) } res<-sshist(md$V1) str(res) List of 6 $ breaks : num [1:4] 0.936 4.651 8.365 12.08 $ counts : int [1:3] 13 38 6 $ density : num [1:3] 0.0614 0.1795 0.0283 $ mids : num [1:3] 2.79 6.51 10.22 $ xname :8322456 "x" $ equidist: logi TRUE - attr(*, "class")=8322456 "histogram" |
|
19.02.2022 - 23:49
Сообщение
#20
|
|
Группа: Пользователи Сообщений: 902 Регистрация: 23.08.2010 Пользователь №: 22694 |
Почему-то не справляется с Zn после БК: выдаёт обычную гистограмму. Попробуйте свой экселевский код, может получится? Обожаю все эти контаминанты: такая гадость ) Результаты в прикрепленном файле: гистограммная оценка + непараметрическая (вся информация - в заголовках диаграмм) - сырых данных (Zn); - трансформированных (Zn_tr) Интересно было бы подогнать модельное распределение именно к сырым данным: оно похоже на распределение Рэлея. И честное слово, глядя на ядерные оценки плотности распределения сырых данных, я не вижу в них никакой "неоднородности" (ширина окна для оценивания плотности оптимизирована методом максимума правдоподобия).
Прикрепленные файлы
|
|
20.02.2022 - 01:32
Сообщение
#21
|
|
Группа: Пользователи Сообщений: 143 Регистрация: 4.09.2012 Пользователь №: 24146 |
Для любителей поюзать реальные данные выложил файл целиком: донные отложения только озёр (есть загрязнённые), валовое содержание 4-х элементов, исходные значения (мг/кг сухого вещества) и преобразованные. Могу какие-нибудь цитокины поискать, там тоже всё сильно асимметрично. Каждое значение св это концентрация элемента для отдельного озера из 59? |
|
20.02.2022 - 08:08
Сообщение
#22
|
|
Группа: Пользователи Сообщений: 1202 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704 |
...И честное слово, глядя на ядерные оценки плотности распределения сырых данных, я не вижу в них никакой "неоднородности" (ширина окна для оценивания плотности оптимизирована методом максимума правдоподобия). Да, поэтому и "Суть проводимой работы - отыскание естественных границ для разных классов объектов в том случае, когда исходные распределения настолько асимметричны, что не позволяют даже предположить неоднородность данных" ))) Мы же не ищем лёгких путей... Вы приложили старый файл, там где Pb Каждое значение св это концентрация элемента для отдельного озера из 59? Да. 59 озёр. Сообщение отредактировал nokh - 20.02.2022 - 08:10 |
|
20.02.2022 - 09:27
Сообщение
#23
|
|
Группа: Пользователи Сообщений: 143 Регистрация: 4.09.2012 Пользователь №: 24146 |
nokh, нужно найти аномальные значения концентрации?
|
|
20.02.2022 - 11:59
Сообщение
#24
|
|
Группа: Пользователи Сообщений: 1202 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704 |
nokh, нужно найти аномальные значения концентрации? Вопрос можно понять двояко, так и отвечу. 1) нужно найти аномальные значения концентрации (в дополнение к задаче)? Ну, не то что нужно, но они возможны (сильные загрязнения) и если такие аномальные значения - явные выбросы, то они ухудшают общую картину и подход в целом, т.к. преобразование пытается "поджать" и их. Поэтому скорее да, не помешает. 2) заключается ли задача в том, чтобы найти аномальные значения концентрации? Нет, задача заключается как раз в том, чтобы найти границу, отделяющую условно фоновые значения концентраций от всех остальных. Т.е. это типа ПДК, критерия для нормирования, чтобы можно было сказать "раз значение больше ..., значит есть основания подозревать загрязнение". В отличие от воды, ПДК для донных отложений не разработаны, но это отдельная тема не для этого форума. Условность понятия "фоновые" связана с тем, что все водоёмы в той или иной степени техногенно загрязнены. Но даже если рядом нет заводов, просто живописное место, то там очень высокая автотранспортная нагрузка от отдыхающих, т.е. паттерн Zn+Cd+Pb, есть основания подозревать загрязнение карповых водоёмов свинцом от грузил рыбаков и т.п. |
|
20.02.2022 - 12:07
Сообщение
#25
|
|
Группа: Пользователи Сообщений: 143 Регистрация: 4.09.2012 Пользователь №: 24146 |
nokh, аномальные значения левого "хвоста" гистограммы о чём-то говорят?
|
|
21.02.2022 - 03:37
Сообщение
#26
|
||||
Группа: Пользователи Сообщений: 143 Регистрация: 4.09.2012 Пользователь №: 24146 |
nokh,поработал со свинцом. Оказалось что концентрация у него распределена логнормально.
Нашёл параметры ограниченного нормального распределения (отрубил предполагаемые аномальные значения). Потом, добавляя по одному интервалу, каждый раз проверял гипотезу о нормальности и пересчитывал параметры нового распределения. Прошёл таким образом весь правый хвост и в результате аномалий не обнаружил. На левом хвосту аномалии есть (5 озер), но я их не учитывал при подборе распределения. Затем нашёл допустимое значение по распределению крайней статистики для 59-го озера на уровне 0,95. Получилось 111,7. Далее представил своё видение оценок загрязнения в зависимости от концентрации. Проверил таким-же образом трансформированные данные по Б-К, справа выбросов также нет, слева 7 озер. Сообщение отредактировал Диагностик - 21.02.2022 - 06:39 |
|||
|
24.02.2022 - 06:18
Сообщение
#27
|
|||||||||
Группа: Пользователи Сообщений: 143 Регистрация: 4.09.2012 Пользователь №: 24146 |
nokh,поработал со свинцом. Оказалось что концентрация у него распределена логнормально. Принципиальная ошибка. Нельзя с исходной величиной совершать преобразования, приводящие к снижению неоднородности исходного распределения. Подобные логарифмированию и Б-К. При этой процедуре выбросы маскируются, а мы стремимся их наоборот, выявить. В связи с вышесказанным провел анализ чистых исходных данных для каждого элемента. Вот результаты:... Сообщение отредактировал Диагностик - 24.02.2022 - 07:15 |
||||||||
|
25.02.2022 - 06:46
Сообщение
#28
|
|
Группа: Пользователи Сообщений: 143 Регистрация: 4.09.2012 Пользователь №: 24146 |
Принципиальная ошибка. Нельзя с исходной величиной совершать преобразования, приводящие к снижению неоднородности исходного распределения. Подобные логарифмированию и Б-К. При этой процедуре выбросы маскируются, а мы стремимся их наоборот, выявить. Однако случай со свинцом и остальными элементами показал, что можно и даже нужно. Займусь на досуге.
Сообщение отредактировал Диагностик - 25.02.2022 - 10:19 |
|
25.02.2022 - 13:20
Сообщение
#29
|
|
Группа: Пользователи Сообщений: 1202 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704 |
Принципиальная ошибка. Нельзя с исходной величиной совершать преобразования, приводящие к снижению неоднородности исходного распределения. Подобные логарифмированию и Б-К. При этой процедуре выбросы маскируются, а мы стремимся их наоборот, выявить. В связи с вышесказанным провел анализ чистых исходных данных для каждого элемента. Вот результаты: Благодарю за интерес к проблеме и труд. Разгребаю другие дела, поэтому пока посмотрел не вникая, но потом погляжу повнимательней. В принципе, то что я делаю - я уверен в работоспособности такого подхода. Но к критике нужно быть готовым - я планирую это публиковать (с добавлением биологических примеров). Поэтому буду признателен за ссылки, где такие мнения (нельзя ... и т.д.) прописано, чтобы вступить в виртуальную полемику))) В принципе никто не подвергает сомнению то, что полимодальность указывает на внутреннюю неоднородность данных. А вот то, как с этой неоднородностью работать и как на неё выходить - нет готовых рецептов и то, что делаете с данными вы является одним из возможных подходов, уже вашей наработкой. |
|
4.03.2022 - 04:28
Сообщение
#30
|
|
Группа: Пользователи Сообщений: 143 Регистрация: 4.09.2012 Пользователь №: 24146 |
как с этой неоднородностью работать Работал с исходными данными замеров (непреобразованными). Отсекал подозрительные на выброс крайние элементы выборки. По ММП находил параметры исходного распределения (ограниченный нормальный закон). Проверял эту гипотезу. ПДК находил через предикционные интервалы по ГОСТ Р ИСО 16269-8-2005. Получил следущие значения: никель - 94,5; выбросов 21 шт. медь - 49,0; выбросов 21 шт. цинк - 235,2; выбросов 5 шт. свинец - 60,7; выбросов нет. Сообщение отредактировал Диагностик - 4.03.2022 - 10:49 |
|