Форум врачей-аспирантов

Здравствуйте, гость ( Вход | Регистрация )

3 страниц V  < 1 2 3 >  
Добавить ответ в эту темуОткрыть тему
> Абсцисса пересечения двух гауссиан, для разных N
Диагностик
сообщение 19.02.2022 - 14:28
Сообщение #16





Группа: Пользователи
Сообщений: 143
Регистрация: 4.09.2012
Пользователь №: 24146



И на это ушло 2 ч. 15 мин.?

Это не важно. Важно то, что это не смесь.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
100$
сообщение 19.02.2022 - 16:30
Сообщение #17





Группа: Пользователи
Сообщений: 902
Регистрация: 23.08.2010
Пользователь №: 22694



Цитата(Диагностик @ 19.02.2022 - 14:28) *
Это не важно. Важно то, что это не смесь.


Вы, как обычно, ошибаетесь. Но я не в претензии: допускаю, что вы можете себе это позволить.

Однако.
Нормальное распределение устойчиво по суммированию: сумма нормальных величин - нормальна.

Поэтому, если у исследователя есть причины предполагать, что здесь смешаны 3 распределения - пусть моделирует.
Другое дело, что нельзя складывать до кучи 3 распределения, не убедившись предварительно с помощью теста отношения правдоподобия, что это не противоречит имеющимся данным.

Сообщение отредактировал 100$ - 19.02.2022 - 16:45
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
nokh
сообщение 19.02.2022 - 20:57
Сообщение #18





Группа: Пользователи
Сообщений: 1202
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704



>Диагностик

Конкретно здесь неоднородность не является следствием случайности выборки, т.к. это не совсем исходные данные, а это - важно. Данные получены преобразованием исходных с помощью адаптивного к данным преобразования Бокса - Кокса, которое и предназначено для того, чтобы делать исходные распределения нормальными настолько, насколько это только возможно. Поэтому то, что тестами не обнаруживается отличие от нормальности указывает лишь на то, преобразование справилось со своей задачей. Но вот то, что даже после такой замечательной штуки плотность распределения указывает на полимодальность и является основанием предполагать смесь распределений. Теоретически это тоже оправдано. Я много работаю с преобразованием БК, т.к. в тех областях где приходится считать чаще всего нормального распределения почти не бывает, а уж так сложилось, что я люблю среднее и ДИ больше медианы с квартилями, и это любовь не иррациональная, а обоснованная практикой. Поэтому часто приходится видеть и унимодальные и полимодальные распределения после БК. Суть проводимой работы - отыскание естественных границ для разных классов объектов в том случае, когда исходные распределения настолько асимметричны, что не позволяют даже предположить неоднородность данных.

Для любителей поюзать реальные данные выложил файл целиком: донные отложения только озёр (есть загрязнённые), валовое содержание 4-х элементов, исходные значения (мг/кг сухого вещества) и преобразованные. Могу какие-нибудь цитокины поискать, там тоже всё сильно асимметрично.

Судя по всему, в этой ситуации у нас нет критериев, чтобы оценить статистическую значимость решения. Приходится полагаться на теоретическую возможность, глазомер и вспомогательные процедуры типа плотности распределения, всяких BIC и AIK, японской диаграммы, по которую узнал от 100$ (о ней ниже)

Сообщение отредактировал nokh - 19.02.2022 - 20:59
Прикрепленные файлы
Прикрепленный файл  Data_forum2.xls ( 22,5 килобайт ) Кол-во скачиваний: 365
 
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
nokh
сообщение 19.02.2022 - 21:21
Сообщение #19





Группа: Пользователи
Сообщений: 1202
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704



> 100$

Японская диаграмма прикольная. Я люблю такие автоматизированные техники. Оптимизированный сплайн, аддитивные модели регрессии, да то же преобразование БК. Нашёл код для R здесь:
https://web.archive.org/web/20210909021638/https://www.neuralengine.org/res/histogram.html
Пока про принципы не читал, не очень понравилось, что на данных первого примера несколько сузила средний класс откинув его крайние варианты в крайние классы. Рис. прикрепил. В структуре результата R есть границы классов - полезно. Почему-то не справляется с Zn после БК: выдаёт обычную гистограмму. Попробуйте свой экселевский код, может получится?

md<-read.table("clipboard", dec=",")
str(md)
'data.frame': 57 obs. of 1 variable:
$ V1: num 10.27 4.49 7.77 12.08 7.95 ...

sshist <- function(x){
N <- 2: 100
C <- numeric(length(N))
D <- C
for (i in 1:length(N)) {
D[i] <- diff(range(x))/N[i]
edges = seq(min(x),max(x),length=N[i])
hp <- hist(x, breaks = edges, plot=FALSE )
ki <- hp$counts
k <- mean(ki)
v <- sum((ki-k)^2)/N[i]
C[i] <- (2*k-v)/D[i]^2 #Cost Function
}
idx <- which.min©
optD <- D[idx]
edges <- seq(min(x),max(x),length=N[idx])
h = hist(x, breaks = edges )
rug(x)
return(h)
}

res<-sshist(md$V1)
str(res)
List of 6
$ breaks : num [1:4] 0.936 4.651 8.365 12.08
$ counts : int [1:3] 13 38 6
$ density : num [1:3] 0.0614 0.1795 0.0283
$ mids : num [1:3] 2.79 6.51 10.22
$ xname :8322456 "x"
$ equidist: logi TRUE
- attr(*, "class")=8322456 "histogram"

Эскизы прикрепленных изображений
Прикрепленное изображение
 
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
100$
сообщение 19.02.2022 - 23:49
Сообщение #20





Группа: Пользователи
Сообщений: 902
Регистрация: 23.08.2010
Пользователь №: 22694



Цитата(nokh @ 19.02.2022 - 21:21) *
Почему-то не справляется с Zn после БК: выдаёт обычную гистограмму. Попробуйте свой экселевский код, может получится?


Обожаю все эти контаминанты: такая гадость )
Результаты в прикрепленном файле: гистограммная оценка + непараметрическая (вся информация - в заголовках диаграмм)
- сырых данных (Zn);
- трансформированных (Zn_tr)

Интересно было бы подогнать модельное распределение именно к сырым данным: оно похоже на распределение Рэлея.
И честное слово, глядя на ядерные оценки плотности распределения сырых данных, я не вижу в них никакой "неоднородности" (ширина окна для оценивания плотности оптимизирована методом максимума правдоподобия).

Прикрепленные файлы
Прикрепленный файл  Копия_Data_forum_2.xls ( 211,5 килобайт ) Кол-во скачиваний: 345
 
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Диагностик
сообщение 20.02.2022 - 01:32
Сообщение #21





Группа: Пользователи
Сообщений: 143
Регистрация: 4.09.2012
Пользователь №: 24146



Цитата(nokh @ 20.02.2022 - 01:57) *
Для любителей поюзать реальные данные выложил файл целиком: донные отложения только озёр (есть загрязнённые), валовое содержание 4-х элементов, исходные значения (мг/кг сухого вещества) и преобразованные. Могу какие-нибудь цитокины поискать, там тоже всё сильно асимметрично.

Каждое значение св это концентрация элемента для отдельного озера из 59?
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
nokh
сообщение 20.02.2022 - 08:08
Сообщение #22





Группа: Пользователи
Сообщений: 1202
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704



Цитата(100$ @ 20.02.2022 - 01:49) *
...И честное слово, глядя на ядерные оценки плотности распределения сырых данных, я не вижу в них никакой "неоднородности" (ширина окна для оценивания плотности оптимизирована методом максимума правдоподобия).

Да, поэтому и "Суть проводимой работы - отыскание естественных границ для разных классов объектов в том случае, когда исходные распределения настолько асимметричны, что не позволяют даже предположить неоднородность данных" )))
Мы же не ищем лёгких путей...
Вы приложили старый файл, там где Pb

Цитата(Диагностик @ 20.02.2022 - 03:32) *
Каждое значение св это концентрация элемента для отдельного озера из 59?

Да. 59 озёр.

Сообщение отредактировал nokh - 20.02.2022 - 08:10
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Диагностик
сообщение 20.02.2022 - 09:27
Сообщение #23





Группа: Пользователи
Сообщений: 143
Регистрация: 4.09.2012
Пользователь №: 24146



nokh, нужно найти аномальные значения концентрации?
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
nokh
сообщение 20.02.2022 - 11:59
Сообщение #24





Группа: Пользователи
Сообщений: 1202
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704



Цитата(Диагностик @ 20.02.2022 - 11:27) *
nokh, нужно найти аномальные значения концентрации?

Вопрос можно понять двояко, так и отвечу.
1) нужно найти аномальные значения концентрации (в дополнение к задаче)?
Ну, не то что нужно, но они возможны (сильные загрязнения) и если такие аномальные значения - явные выбросы, то они ухудшают общую картину и подход в целом, т.к. преобразование пытается "поджать" и их. Поэтому скорее да, не помешает.
2) заключается ли задача в том, чтобы найти аномальные значения концентрации?
Нет, задача заключается как раз в том, чтобы найти границу, отделяющую условно фоновые значения концентраций от всех остальных. Т.е. это типа ПДК, критерия для нормирования, чтобы можно было сказать "раз значение больше ..., значит есть основания подозревать загрязнение". В отличие от воды, ПДК для донных отложений не разработаны, но это отдельная тема не для этого форума. Условность понятия "фоновые" связана с тем, что все водоёмы в той или иной степени техногенно загрязнены. Но даже если рядом нет заводов, просто живописное место, то там очень высокая автотранспортная нагрузка от отдыхающих, т.е. паттерн Zn+Cd+Pb, есть основания подозревать загрязнение карповых водоёмов свинцом от грузил рыбаков и т.п.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Диагностик
сообщение 20.02.2022 - 12:07
Сообщение #25





Группа: Пользователи
Сообщений: 143
Регистрация: 4.09.2012
Пользователь №: 24146



nokh, аномальные значения левого "хвоста" гистограммы о чём-то говорят?
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Диагностик
сообщение 21.02.2022 - 03:37
Сообщение #26





Группа: Пользователи
Сообщений: 143
Регистрация: 4.09.2012
Пользователь №: 24146



nokh,поработал со свинцом. Оказалось что концентрация у него распределена логнормально.
Прикрепленное изображение

Нашёл параметры ограниченного нормального распределения (отрубил предполагаемые аномальные значения). Потом, добавляя по одному интервалу, каждый раз проверял гипотезу о нормальности и пересчитывал параметры нового распределения. Прошёл таким образом весь правый хвост и в результате аномалий не обнаружил. На левом хвосту аномалии есть (5 озер), но я их не учитывал при подборе распределения. Затем нашёл допустимое значение по распределению крайней статистики для 59-го озера на уровне 0,95. Получилось 111,7. Далее представил своё видение оценок загрязнения в зависимости от концентрации.
Прикрепленное изображение

Проверил таким-же образом трансформированные данные по Б-К, справа выбросов также нет, слева 7 озер.
Прикрепленное изображение


Сообщение отредактировал Диагностик - 21.02.2022 - 06:39
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Диагностик
сообщение 24.02.2022 - 06:18
Сообщение #27





Группа: Пользователи
Сообщений: 143
Регистрация: 4.09.2012
Пользователь №: 24146



Цитата(Диагностик @ 21.02.2022 - 08:37) *
nokh,поработал со свинцом. Оказалось что концентрация у него распределена логнормально.
Принципиальная ошибка. Нельзя с исходной величиной совершать преобразования, приводящие к снижению неоднородности исходного распределения. Подобные логарифмированию и Б-К. При этой процедуре выбросы маскируются, а мы стремимся их наоборот, выявить. В связи с вышесказанным провел анализ чистых исходных данных для каждого элемента. Вот результаты:
Прикрепленное изображение

Прикрепленное изображение

Прикрепленное изображение

Прикрепленное изображение


Прикрепленное изображение

Прикрепленное изображение

Прикрепленное изображение

Прикрепленное изображение


...

Сообщение отредактировал Диагностик - 24.02.2022 - 07:15
Эскизы прикрепленных изображений

Прикрепленное изображение
 
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Диагностик
сообщение 25.02.2022 - 06:46
Сообщение #28





Группа: Пользователи
Сообщений: 143
Регистрация: 4.09.2012
Пользователь №: 24146



Цитата(Диагностик @ 24.02.2022 - 11:18) *
Принципиальная ошибка. Нельзя с исходной величиной совершать преобразования, приводящие к снижению неоднородности исходного распределения. Подобные логарифмированию и Б-К. При этой процедуре выбросы маскируются, а мы стремимся их наоборот, выявить.
Однако случай со свинцом и остальными элементами показал, что можно и даже нужно. Займусь на досуге.

Сообщение отредактировал Диагностик - 25.02.2022 - 10:19
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
nokh
сообщение 25.02.2022 - 13:20
Сообщение #29





Группа: Пользователи
Сообщений: 1202
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704



Цитата(Диагностик @ 24.02.2022 - 08:18) *
Принципиальная ошибка. Нельзя с исходной величиной совершать преобразования, приводящие к снижению неоднородности исходного распределения. Подобные логарифмированию и Б-К. При этой процедуре выбросы маскируются, а мы стремимся их наоборот, выявить. В связи с вышесказанным провел анализ чистых исходных данных для каждого элемента. Вот результаты:

Благодарю за интерес к проблеме и труд. Разгребаю другие дела, поэтому пока посмотрел не вникая, но потом погляжу повнимательней. В принципе, то что я делаю - я уверен в работоспособности такого подхода. Но к критике нужно быть готовым - я планирую это публиковать (с добавлением биологических примеров). Поэтому буду признателен за ссылки, где такие мнения (нельзя ... и т.д.) прописано, чтобы вступить в виртуальную полемику))) В принципе никто не подвергает сомнению то, что полимодальность указывает на внутреннюю неоднородность данных. А вот то, как с этой неоднородностью работать и как на неё выходить - нет готовых рецептов и то, что делаете с данными вы является одним из возможных подходов, уже вашей наработкой.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
Диагностик
сообщение 4.03.2022 - 04:28
Сообщение #30





Группа: Пользователи
Сообщений: 143
Регистрация: 4.09.2012
Пользователь №: 24146



Цитата(nokh @ 25.02.2022 - 18:20) *
как с этой неоднородностью работать

Работал с исходными данными замеров (непреобразованными). Отсекал подозрительные на выброс крайние элементы выборки. По ММП находил параметры исходного распределения (ограниченный нормальный закон). Проверял эту гипотезу. ПДК находил через предикционные интервалы по ГОСТ Р ИСО 16269-8-2005. Получил следущие значения:

никель - 94,5; выбросов 21 шт.
медь - 49,0; выбросов 21 шт.
цинк - 235,2; выбросов 5 шт.
свинец - 60,7; выбросов нет.

Сообщение отредактировал Диагностик - 4.03.2022 - 10:49
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 

3 страниц V  < 1 2 3 >
Добавить ответ в эту темуОткрыть тему