Версия для печати темы

Нажмите сюда для просмотра этой темы в обычном формате

Форум врачей-аспирантов _ Медицинская статистика _ Поиск типичного объекта

Автор: nokh 23.06.2020 - 09:43

Имеется несколько выборок образцов с измеренными в ImageJ показателями размеров и формы. Посчитана описательная статистика.
Теперь я хочу найти образец, наиболее типичный для каждой выборки по комплексу показателей и использовать его контур в качестве иллюстрации для всей выборки.
Подскажите, пожалуйста, каким методом проще всего найти типичный образец и что использовать: среднее, медиану, моду? Может есть готовые рекомендации для таких задач?
Спасибо!

Автор: 100$ 23.06.2020 - 11:18

Цитата(nokh @ 23.06.2020 - 09:43) *
Имеется несколько выборок образцов с измеренными в ImageJ показателями размеров и формы. Посчитана описательная статистика.
Теперь я хочу найти образец, наиболее типичный для каждой выборки по комплексу показателей и использовать его контур в качестве иллюстрации для всей выборки.
Подскажите, пожалуйста, каким методом проще всего найти типичный образец и что использовать: среднее, медиану, моду? Может есть готовые рекомендации для таких задач?
Спасибо!


Я бы составил матрицу попарных евклидовых расстояний между объектами (в имеющемся пространстве признаков), затем счел бы, что типичный объект - это тот, расстояние от которого до всех остальных - минимальное (по аналогии с медианой или средним Кемени). Ну а дальше в матрице расстояний нашел бы строку (или столбец, что равносильно в силу симметричности матрицы расстояний) с минимальной строчной суммой.

Автор: nokh 23.06.2020 - 12:46

Спасибо большое, действенно и быстро!
Единственное, что показатели размеров и формы в разных единицах и некоторые коррелируют. Ну, например, в промерах есть и площадь проекции и периметр, но есть также округлость (circularity), которая вычисляется по площади и периметру. Может тогда лучше расстояния Махаланобиса?

Автор: 100$ 23.06.2020 - 13:48

Цитата
Может тогда лучше расстояния Махаланобиса?


Это зависит от того, на каком множестве ищется упомянутая медиана/среднее Кемени: я-то искал наиболее типичный объект "внутри" выборок. Т.е., н-р, для ирисов Фишера в выборке сетоз таким способом можно найти по признаковому описанию наиболее характерный, ака типичный, цветок.

Расстояние Махаланобиса же - это расстояние между двумя многомерными выборками. Если типичный объект ищется именно на множестве выборок, это означает, что, для ирисов мы пытаемся найти некий "типичный" сорт? И что в таком случае понимать под "типичностью"? Распространенность? Типа для Гренландии типичен сорт Setosa, а для Антарктиды - Virginica? ) Или морфологическое сходство? Типа, вот Versicolor - самые "ирисистые" ирисы, а всё прочее - ненастоящие ирисы?

Цитата
Единственное, что показатели размеров и формы в разных единицах и некоторые коррелируют. Ну, например, в промерах есть и площадь проекции и периметр, но есть также округлость (circularity), которая вычисляется по площади и периметру.


Если координаты вектора признакового описания коррелируют между собой - это может обернуться вычислительными проблемами при Махаланобисе. Ну, а уж если они связаны функциональной зависимостью - тогда это расстояние и вовсе не удастся вычислить. Поэтому, надо оставить то, что является в этой истории истинно случайной величиной: периметр- так периметр, площадь - так площадь, а если кривизна вычисляется через них - она не несет никакой статистической информации. Вот такое вот снижение размерности. Из серии "закат Солнца вручную".

Автор: passant 23.06.2020 - 14:25

По-моему, то, что вы описали есть типичнейшая задача кластерного анализа. Зачем изобретать что-то новое, если имеются десятка три разных методов ее решения. Причем там есть группы методов, для которых ни корреляция признаков особо не важна, ни даже форма кластера в признаковом пространстве. Это, коненчо, если у вас есть выборка, в ней несколько типичных групп, но каких вы не знаете.
Если же вы знаете группы заранее, просто хотите найти "типичные" для них - то эта столь же типичная задача классификации. Правда там главный вопрос - не сам типичный элемент, а к какой группе потом относить новые, неизвестные ранее элементы.
Обе задачи имеют не только стандартные решения, но и -уже - стандартные, готовые реализации. Что в R, что в Python. Просто берете и применяете. За одно можно лЁгко поэкспериментировать и с расстояниями, если очень хочется, и к количеством кластеров (если оно не известно или не очевидно, а часто так и бывает). И параметры могут быть измерены в разных шкалах - от интервальной и абсолютной до ранговой или номинальной, и в любых их комбинациях.

Автор: p2004r 23.06.2020 - 18:18

Цитата(nokh @ 23.06.2020 - 09:43) *
Имеется несколько выборок образцов с измеренными в ImageJ показателями размеров и формы. Посчитана описательная статистика.
Теперь я хочу найти образец, наиболее типичный для каждой выборки по комплексу показателей и использовать его контур в качестве иллюстрации для всей выборки.
Подскажите, пожалуйста, каким методом проще всего найти типичный образец и что использовать: среднее, медиану, моду? Может есть готовые рекомендации для таких задач?
Спасибо!


Если доступна форма объекта, то есть традиционная морфометрия с её методиками выведения "средней формы".



 Claude_J._Morphometrics_with_R.pdf ( 4,08 мегабайт ) : 522
 

Автор: 100$ 23.06.2020 - 19:31

К слову, в этой книженции параграф 4.4. как раз посвящен анализу матриц дистанций

Автор: passant 23.06.2020 - 22:59

Что-бы немного развлеч достопочтенную публику и немного оживить наш форум, а так-же используя предложенную задачу нахождения "среднего представителя популяции" - вот вам легкое вечернее чтиво:
"https://habr.com/ru/post/391425/"

Часто привожу этот пример своим студентам, когда подробно разбираем понятие "среднего по выборке". А чтение - легкое и познавательное. И там есть еще ряд забавных фактов (про идеальную девушку, в частности rolleyes.gif ) . На досуге - почитайте.

Автор: nokh 24.06.2020 - 20:30

Благодарю всех откликнувшихся! Всё прочитал, просмотрел, попробовал... и решил отказаться от игр с расстояниями и от кластерного анализа. Пока остановился на старом добром PCA. Рассчитал факторные метки для каждого объекта по всем PC и нашёл сумму их абсолютных значений по всем осям. Навеяно 100$ и желанием сохранить в анализе коррелирующие показатели. Объект с минимальной суммой расположен ближе всего к центроиду гипероблака. Если у форумчан есть время и желание прикрепляю свои объекты. Теперь у меня есть кандидат на победу!

PS Конечно, никакие PCA не опишут форму так, как геометрическая морфометрия, но для моей задачи это немыслимая трудоёмкость. А так я за 5 мин могу получить массив годных цифр, включая время на фото, его портирование в комп и обработку в ImageJ. В дополнение к книге р2004r хорошее русскоязычное руководство: https://ipae.uran.ru/sites/default/files/publications/ipae/1246_2018_VasilyevEtAl2.pdf

 

 Mean_object.xls ( 20,5 килобайт ) : 424
 

Автор: 100$ 24.06.2020 - 22:32

Цитата(nokh @ 24.06.2020 - 20:30) *
Благодарю всех откликнувшихся! Всё прочитал, просмотрел, попробовал... и решил отказаться от игр с расстояниями и от кластерного анализа. Пока остановился на старом добром PCA. Рассчитал факторные метки для каждого объекта по всем PC и нашёл сумму их абсолютных значений по всем осям. Навеяно 100$ и желанием сохранить в анализе коррелирующие показатели. Объект с минимальной суммой расположен ближе всего к центроиду гипероблака. Если у форумчан есть время и желание прикрепляю свои объекты. Теперь у меня есть кандидат на победу!


Nokh, так мы ищем типичного среди этих 54?
Если да, то просьба указать, какой парень на прилагаемом изображении претендует на эту роль?


 

Автор: nokh 25.06.2020 - 21:30

Цитата(100$ @ 25.06.2020 - 00:32) *
Nokh, так мы ищем типичного среди этих 54?
Если да, то просьба указать, какой парень на прилагаемом изображении претендует на эту роль?

Лучший претендент - парень No 35.
К сожалению не получилось уйти от принятия решения и свести всё к механическому расчёту. По идее типизация должна быть инвариантна к набору признаков. Например в данном случае источников изменчивости 3: 1) крупность объекта, 2) округлость, 3) неровность края. В этом наборе признаков большинство вкладывается в крупность, тогда как в неровность почти только Solidity. Поэтому если проводить кластеризацию, то она "сработает" преимущественно по крупности. Поэтому сначала редукция с обобщением, потом принятие решения о числе источников изменчивости, и только потом поиск типичных/нетипичных объектов в рамках рассматриваемых источников. Вышло достаточно тривиально(((

PS А пример с лётчиками является также хорошей иллюстрацией правила, что с увеличением числа признаков на объект увеличивается степень уникальности объекта. Поэтому я теоретически разочаровался в бутстрэпе для многопеременных техник и полюбил складной нож и Монте-Карло (писал в статье по корреляционной адаптометрии).

Автор: 100$ 25.06.2020 - 22:02


Вас понял.

А что это за объекты? Вареники, пельмени, моллюски, инфузории-туфельки?
Я только сейчас заметил, что на рисунке они, оказывается, пронумерованы.


Цитата
А пример с лётчиками является также хорошей иллюстрацией правила, что с увеличением числа признаков на объект увеличивается степень уникальности объекта...


Пример с летчиками доказывает, прежде всего то, что доверительное множество для многомерного параметра не сводится совокупности доверительных интервалов для индивидуальных координат вектора признаков. А то, что среднее не является членом вариационного ряда, мы знаем и без этого примера. Тому лейтенанту ничто не мешало искать многомерную медиану или многомерную моду. Правда, задача эта - нетривиальная.

Автор: nokh 25.06.2020 - 22:17

Цитата(100$ @ 26.06.2020 - 00:02) *
А что это за объекты? Вареники, пельмени, моллюски, инфузории-туфельки?

tongue.gif https://leplants.ru/lonicera-caerulea-lazurit/


Автор: 100$ 25.06.2020 - 22:25

Цитата(nokh @ 25.06.2020 - 22:17) *
tongue.gif https://leplants.ru/lonicera-caerulea-lazurit/


Ух, ты!
Эти теперь к ирисам Фишера добавится жимолость Нохрина.
Завидовать будэм! (с)

Автор: p2004r 26.06.2020 - 20:32

Цитата(nokh @ 24.06.2020 - 20:30) *
Благодарю всех откликнувшихся! Если у форумчан есть время и желание прикрепляю свои объекты.


А где вот эти "овалы", что на картинке "по отдельности"?

Автор: nokh 30.06.2020 - 22:13

Цитата(p2004r @ 26.06.2020 - 22:32) *
А где вот эти "овалы", что на картинке "по отдельности"?

По отдельности нет, только кучкой (если я правильно вас понял). В этом большое преимущество: всё кучкой и обрабатывается автоматически (модуль в ImageJ - Analyze - Analyze Particles)

Форум Invision Power Board (http://www.invisionboard.com)
© Invision Power Services (http://www.invisionpower.com)