Поиск типичного объекта |
Здравствуйте, гость ( Вход | Регистрация )
Поиск типичного объекта |
23.06.2020 - 09:43
Сообщение
#1
|
|
Группа: Пользователи Сообщений: 1202 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704 |
Имеется несколько выборок образцов с измеренными в ImageJ показателями размеров и формы. Посчитана описательная статистика.
Теперь я хочу найти образец, наиболее типичный для каждой выборки по комплексу показателей и использовать его контур в качестве иллюстрации для всей выборки. Подскажите, пожалуйста, каким методом проще всего найти типичный образец и что использовать: среднее, медиану, моду? Может есть готовые рекомендации для таких задач? Спасибо! |
|
23.06.2020 - 11:18
Сообщение
#2
|
|
Группа: Пользователи Сообщений: 902 Регистрация: 23.08.2010 Пользователь №: 22694 |
Имеется несколько выборок образцов с измеренными в ImageJ показателями размеров и формы. Посчитана описательная статистика. Теперь я хочу найти образец, наиболее типичный для каждой выборки по комплексу показателей и использовать его контур в качестве иллюстрации для всей выборки. Подскажите, пожалуйста, каким методом проще всего найти типичный образец и что использовать: среднее, медиану, моду? Может есть готовые рекомендации для таких задач? Спасибо! Я бы составил матрицу попарных евклидовых расстояний между объектами (в имеющемся пространстве признаков), затем счел бы, что типичный объект - это тот, расстояние от которого до всех остальных - минимальное (по аналогии с медианой или средним Кемени). Ну а дальше в матрице расстояний нашел бы строку (или столбец, что равносильно в силу симметричности матрицы расстояний) с минимальной строчной суммой. |
|
23.06.2020 - 12:46
Сообщение
#3
|
|
Группа: Пользователи Сообщений: 1202 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704 |
Спасибо большое, действенно и быстро!
Единственное, что показатели размеров и формы в разных единицах и некоторые коррелируют. Ну, например, в промерах есть и площадь проекции и периметр, но есть также округлость (circularity), которая вычисляется по площади и периметру. Может тогда лучше расстояния Махаланобиса? |
|
23.06.2020 - 13:48
Сообщение
#4
|
|
Группа: Пользователи Сообщений: 902 Регистрация: 23.08.2010 Пользователь №: 22694 |
Цитата Может тогда лучше расстояния Махаланобиса? Это зависит от того, на каком множестве ищется упомянутая медиана/среднее Кемени: я-то искал наиболее типичный объект "внутри" выборок. Т.е., н-р, для ирисов Фишера в выборке сетоз таким способом можно найти по признаковому описанию наиболее характерный, ака типичный, цветок. Расстояние Махаланобиса же - это расстояние между двумя многомерными выборками. Если типичный объект ищется именно на множестве выборок, это означает, что, для ирисов мы пытаемся найти некий "типичный" сорт? И что в таком случае понимать под "типичностью"? Распространенность? Типа для Гренландии типичен сорт Setosa, а для Антарктиды - Virginica? ) Или морфологическое сходство? Типа, вот Versicolor - самые "ирисистые" ирисы, а всё прочее - ненастоящие ирисы? Цитата Единственное, что показатели размеров и формы в разных единицах и некоторые коррелируют. Ну, например, в промерах есть и площадь проекции и периметр, но есть также округлость (circularity), которая вычисляется по площади и периметру. Если координаты вектора признакового описания коррелируют между собой - это может обернуться вычислительными проблемами при Махаланобисе. Ну, а уж если они связаны функциональной зависимостью - тогда это расстояние и вовсе не удастся вычислить. Поэтому, надо оставить то, что является в этой истории истинно случайной величиной: периметр- так периметр, площадь - так площадь, а если кривизна вычисляется через них - она не несет никакой статистической информации. Вот такое вот снижение размерности. Из серии "закат Солнца вручную". Сообщение отредактировал 100$ - 23.06.2020 - 13:51 |
|
23.06.2020 - 14:25
Сообщение
#5
|
|
Группа: Пользователи Сообщений: 231 Регистрация: 27.04.2016 Пользователь №: 28223 |
По-моему, то, что вы описали есть типичнейшая задача кластерного анализа. Зачем изобретать что-то новое, если имеются десятка три разных методов ее решения. Причем там есть группы методов, для которых ни корреляция признаков особо не важна, ни даже форма кластера в признаковом пространстве. Это, коненчо, если у вас есть выборка, в ней несколько типичных групп, но каких вы не знаете.
Если же вы знаете группы заранее, просто хотите найти "типичные" для них - то эта столь же типичная задача классификации. Правда там главный вопрос - не сам типичный элемент, а к какой группе потом относить новые, неизвестные ранее элементы. Обе задачи имеют не только стандартные решения, но и -уже - стандартные, готовые реализации. Что в R, что в Python. Просто берете и применяете. За одно можно лЁгко поэкспериментировать и с расстояниями, если очень хочется, и к количеством кластеров (если оно не известно или не очевидно, а часто так и бывает). И параметры могут быть измерены в разных шкалах - от интервальной и абсолютной до ранговой или номинальной, и в любых их комбинациях. Сообщение отредактировал passant - 23.06.2020 - 14:36 |
|
23.06.2020 - 18:18
Сообщение
#6
|
|
Группа: Пользователи Сообщений: 1091 Регистрация: 26.08.2010 Пользователь №: 22699 |
Имеется несколько выборок образцов с измеренными в ImageJ показателями размеров и формы. Посчитана описательная статистика. Теперь я хочу найти образец, наиболее типичный для каждой выборки по комплексу показателей и использовать его контур в качестве иллюстрации для всей выборки. Подскажите, пожалуйста, каким методом проще всего найти типичный образец и что использовать: среднее, медиану, моду? Может есть готовые рекомендации для таких задач? Спасибо! Если доступна форма объекта, то есть традиционная морфометрия с её методиками выведения "средней формы".
Прикрепленные файлы
|
|
23.06.2020 - 19:31
Сообщение
#7
|
|
Группа: Пользователи Сообщений: 902 Регистрация: 23.08.2010 Пользователь №: 22694 |
К слову, в этой книженции параграф 4.4. как раз посвящен анализу матриц дистанций
|
|
24.06.2020 - 20:30
Сообщение
#9
|
|
Группа: Пользователи Сообщений: 1202 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704 |
Благодарю всех откликнувшихся! Всё прочитал, просмотрел, попробовал... и решил отказаться от игр с расстояниями и от кластерного анализа. Пока остановился на старом добром PCA. Рассчитал факторные метки для каждого объекта по всем PC и нашёл сумму их абсолютных значений по всем осям. Навеяно 100$ и желанием сохранить в анализе коррелирующие показатели. Объект с минимальной суммой расположен ближе всего к центроиду гипероблака. Если у форумчан есть время и желание прикрепляю свои объекты. Теперь у меня есть кандидат на победу!
PS Конечно, никакие PCA не опишут форму так, как геометрическая морфометрия, но для моей задачи это немыслимая трудоёмкость. А так я за 5 мин могу получить массив годных цифр, включая время на фото, его портирование в комп и обработку в ImageJ. В дополнение к книге р2004r хорошее русскоязычное руководство: https://ipae.uran.ru/sites/default/files/pu...silyevEtAl2.pdf Сообщение отредактировал nokh - 24.06.2020 - 20:33
Прикрепленные файлы
|
|
24.06.2020 - 22:32
Сообщение
#10
|
|
Группа: Пользователи Сообщений: 902 Регистрация: 23.08.2010 Пользователь №: 22694 |
Благодарю всех откликнувшихся! Всё прочитал, просмотрел, попробовал... и решил отказаться от игр с расстояниями и от кластерного анализа. Пока остановился на старом добром PCA. Рассчитал факторные метки для каждого объекта по всем PC и нашёл сумму их абсолютных значений по всем осям. Навеяно 100$ и желанием сохранить в анализе коррелирующие показатели. Объект с минимальной суммой расположен ближе всего к центроиду гипероблака. Если у форумчан есть время и желание прикрепляю свои объекты. Теперь у меня есть кандидат на победу! Nokh, так мы ищем типичного среди этих 54? Если да, то просьба указать, какой парень на прилагаемом изображении претендует на эту роль? |
|
25.06.2020 - 21:30
Сообщение
#11
|
|
Группа: Пользователи Сообщений: 1202 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704 |
Nokh, так мы ищем типичного среди этих 54? Если да, то просьба указать, какой парень на прилагаемом изображении претендует на эту роль? Лучший претендент - парень No 35. К сожалению не получилось уйти от принятия решения и свести всё к механическому расчёту. По идее типизация должна быть инвариантна к набору признаков. Например в данном случае источников изменчивости 3: 1) крупность объекта, 2) округлость, 3) неровность края. В этом наборе признаков большинство вкладывается в крупность, тогда как в неровность почти только Solidity. Поэтому если проводить кластеризацию, то она "сработает" преимущественно по крупности. Поэтому сначала редукция с обобщением, потом принятие решения о числе источников изменчивости, и только потом поиск типичных/нетипичных объектов в рамках рассматриваемых источников. Вышло достаточно тривиально((( PS А пример с лётчиками является также хорошей иллюстрацией правила, что с увеличением числа признаков на объект увеличивается степень уникальности объекта. Поэтому я теоретически разочаровался в бутстрэпе для многопеременных техник и полюбил складной нож и Монте-Карло (писал в статье по корреляционной адаптометрии). Сообщение отредактировал nokh - 25.06.2020 - 21:31 |
|
25.06.2020 - 22:02
Сообщение
#12
|
|
Группа: Пользователи Сообщений: 902 Регистрация: 23.08.2010 Пользователь №: 22694 |
Вас понял. А что это за объекты? Вареники, пельмени, моллюски, инфузории-туфельки? Я только сейчас заметил, что на рисунке они, оказывается, пронумерованы. Цитата А пример с лётчиками является также хорошей иллюстрацией правила, что с увеличением числа признаков на объект увеличивается степень уникальности объекта... Пример с летчиками доказывает, прежде всего то, что доверительное множество для многомерного параметра не сводится совокупности доверительных интервалов для индивидуальных координат вектора признаков. А то, что среднее не является членом вариационного ряда, мы знаем и без этого примера. Тому лейтенанту ничто не мешало искать многомерную медиану или многомерную моду. Правда, задача эта - нетривиальная. |
|
25.06.2020 - 22:17
Сообщение
#13
|
|
Группа: Пользователи Сообщений: 1202 Регистрация: 13.01.2008 Из: Челябинск Пользователь №: 4704 |
А что это за объекты? Вареники, пельмени, моллюски, инфузории-туфельки? https://leplants.ru/lonicera-caerulea-lazurit/ |
|
25.06.2020 - 22:25
Сообщение
#14
|
|
Группа: Пользователи Сообщений: 902 Регистрация: 23.08.2010 Пользователь №: 22694 |
Ух, ты! Эти теперь к ирисам Фишера добавится жимолость Нохрина. Завидовать будэм! (с) |
|
26.06.2020 - 20:32
Сообщение
#15
|
|
Группа: Пользователи Сообщений: 1091 Регистрация: 26.08.2010 Пользователь №: 22699 |
Благодарю всех откликнувшихся! Если у форумчан есть время и желание прикрепляю свои объекты. А где вот эти "овалы", что на картинке "по отдельности"? |
|