Форум врачей-аспирантов

Здравствуйте, гость ( Вход | Регистрация )

2 страниц V   1 2 >  
Добавить ответ в эту темуОткрыть тему
> Поиск типичного объекта
nokh
сообщение 23.06.2020 - 09:43
Сообщение #1





Группа: Пользователи
Сообщений: 1202
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704



Имеется несколько выборок образцов с измеренными в ImageJ показателями размеров и формы. Посчитана описательная статистика.
Теперь я хочу найти образец, наиболее типичный для каждой выборки по комплексу показателей и использовать его контур в качестве иллюстрации для всей выборки.
Подскажите, пожалуйста, каким методом проще всего найти типичный образец и что использовать: среднее, медиану, моду? Может есть готовые рекомендации для таких задач?
Спасибо!
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
100$
сообщение 23.06.2020 - 11:18
Сообщение #2





Группа: Пользователи
Сообщений: 902
Регистрация: 23.08.2010
Пользователь №: 22694



Цитата(nokh @ 23.06.2020 - 09:43) *
Имеется несколько выборок образцов с измеренными в ImageJ показателями размеров и формы. Посчитана описательная статистика.
Теперь я хочу найти образец, наиболее типичный для каждой выборки по комплексу показателей и использовать его контур в качестве иллюстрации для всей выборки.
Подскажите, пожалуйста, каким методом проще всего найти типичный образец и что использовать: среднее, медиану, моду? Может есть готовые рекомендации для таких задач?
Спасибо!


Я бы составил матрицу попарных евклидовых расстояний между объектами (в имеющемся пространстве признаков), затем счел бы, что типичный объект - это тот, расстояние от которого до всех остальных - минимальное (по аналогии с медианой или средним Кемени). Ну а дальше в матрице расстояний нашел бы строку (или столбец, что равносильно в силу симметричности матрицы расстояний) с минимальной строчной суммой.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
nokh
сообщение 23.06.2020 - 12:46
Сообщение #3





Группа: Пользователи
Сообщений: 1202
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704



Спасибо большое, действенно и быстро!
Единственное, что показатели размеров и формы в разных единицах и некоторые коррелируют. Ну, например, в промерах есть и площадь проекции и периметр, но есть также округлость (circularity), которая вычисляется по площади и периметру. Может тогда лучше расстояния Махаланобиса?
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
100$
сообщение 23.06.2020 - 13:48
Сообщение #4





Группа: Пользователи
Сообщений: 902
Регистрация: 23.08.2010
Пользователь №: 22694



Цитата
Может тогда лучше расстояния Махаланобиса?


Это зависит от того, на каком множестве ищется упомянутая медиана/среднее Кемени: я-то искал наиболее типичный объект "внутри" выборок. Т.е., н-р, для ирисов Фишера в выборке сетоз таким способом можно найти по признаковому описанию наиболее характерный, ака типичный, цветок.

Расстояние Махаланобиса же - это расстояние между двумя многомерными выборками. Если типичный объект ищется именно на множестве выборок, это означает, что, для ирисов мы пытаемся найти некий "типичный" сорт? И что в таком случае понимать под "типичностью"? Распространенность? Типа для Гренландии типичен сорт Setosa, а для Антарктиды - Virginica? ) Или морфологическое сходство? Типа, вот Versicolor - самые "ирисистые" ирисы, а всё прочее - ненастоящие ирисы?

Цитата
Единственное, что показатели размеров и формы в разных единицах и некоторые коррелируют. Ну, например, в промерах есть и площадь проекции и периметр, но есть также округлость (circularity), которая вычисляется по площади и периметру.


Если координаты вектора признакового описания коррелируют между собой - это может обернуться вычислительными проблемами при Махаланобисе. Ну, а уж если они связаны функциональной зависимостью - тогда это расстояние и вовсе не удастся вычислить. Поэтому, надо оставить то, что является в этой истории истинно случайной величиной: периметр- так периметр, площадь - так площадь, а если кривизна вычисляется через них - она не несет никакой статистической информации. Вот такое вот снижение размерности. Из серии "закат Солнца вручную".

Сообщение отредактировал 100$ - 23.06.2020 - 13:51
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
passant
сообщение 23.06.2020 - 14:25
Сообщение #5





Группа: Пользователи
Сообщений: 231
Регистрация: 27.04.2016
Пользователь №: 28223



По-моему, то, что вы описали есть типичнейшая задача кластерного анализа. Зачем изобретать что-то новое, если имеются десятка три разных методов ее решения. Причем там есть группы методов, для которых ни корреляция признаков особо не важна, ни даже форма кластера в признаковом пространстве. Это, коненчо, если у вас есть выборка, в ней несколько типичных групп, но каких вы не знаете.
Если же вы знаете группы заранее, просто хотите найти "типичные" для них - то эта столь же типичная задача классификации. Правда там главный вопрос - не сам типичный элемент, а к какой группе потом относить новые, неизвестные ранее элементы.
Обе задачи имеют не только стандартные решения, но и -уже - стандартные, готовые реализации. Что в R, что в Python. Просто берете и применяете. За одно можно лЁгко поэкспериментировать и с расстояниями, если очень хочется, и к количеством кластеров (если оно не известно или не очевидно, а часто так и бывает). И параметры могут быть измерены в разных шкалах - от интервальной и абсолютной до ранговой или номинальной, и в любых их комбинациях.

Сообщение отредактировал passant - 23.06.2020 - 14:36
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
p2004r
сообщение 23.06.2020 - 18:18
Сообщение #6





Группа: Пользователи
Сообщений: 1091
Регистрация: 26.08.2010
Пользователь №: 22699



Цитата(nokh @ 23.06.2020 - 09:43) *
Имеется несколько выборок образцов с измеренными в ImageJ показателями размеров и формы. Посчитана описательная статистика.
Теперь я хочу найти образец, наиболее типичный для каждой выборки по комплексу показателей и использовать его контур в качестве иллюстрации для всей выборки.
Подскажите, пожалуйста, каким методом проще всего найти типичный образец и что использовать: среднее, медиану, моду? Может есть готовые рекомендации для таких задач?
Спасибо!


Если доступна форма объекта, то есть традиционная морфометрия с её методиками выведения "средней формы".


Прикрепленные файлы
Прикрепленный файл  Claude_J._Morphometrics_with_R.pdf ( 4,08 мегабайт ) Кол-во скачиваний: 517
 


Signature
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
100$
сообщение 23.06.2020 - 19:31
Сообщение #7





Группа: Пользователи
Сообщений: 902
Регистрация: 23.08.2010
Пользователь №: 22694



К слову, в этой книженции параграф 4.4. как раз посвящен анализу матриц дистанций
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
passant
сообщение 23.06.2020 - 22:59
Сообщение #8





Группа: Пользователи
Сообщений: 231
Регистрация: 27.04.2016
Пользователь №: 28223



Что-бы немного развлеч достопочтенную публику и немного оживить наш форум, а так-же используя предложенную задачу нахождения "среднего представителя популяции" - вот вам легкое вечернее чтиво:
"Используя данные замеров с 4063 пилотов, Дэниэлс вычислил среднее значение по 10 физическим характеристикам, которые считались самыми важными для дизайна, включая рост, окружность грудной клетки и длину рукава. Так он получил размеры ?среднего пилота?, каким исследователь считал такого, чьи параметры входят в средние 30% диапазона значений по каждому параметру. Так что, например, когда после вычисления получился точный средний рост 175 см, Дэниэлс определил для ?среднего пилота? рост от 170 до 180 см. Затем он тщательно, одного за другим, сравнил каждого отдельного пилота со средними значениями.

До этого момента общепринятым мнением среди коллег-исследователей из ВВС было, что абсолютное большинство пилотов впишутся в средний диапазон по большинству параметров. В конце концов, лётчики изначально проходили предварительный отбор, чтобы соответствовать средним параметрам. (Например, если ваш рост 200 см, то вас никогда не возьмут в лётчики в первую очередь). Учёные предполагали, что значительное число пилотов будут соответствовать среднему диапазону по всем 10 параметрам. Но Гилберт Дэниэлс был поражён, когда определил истинное число таких пилотов.
Ноль! Из 4063 пилотов ни один человек не соответствовал среднему диапазону по всем 10 параметрам. У одного были руки длиннее среднего и ноги короче среднего, у другого могла быть широкая грудь, но маленькие бёдра. Что ещё более поразительно, Дэниэлс выяснил, что если взять всего три из десяти параметров размера ? например, окружность шеи, окружность бедра и окружность запястья ? менее 3,5% лётчиков соответствовали средним параметрам по всем трём показателям. Выводы Дэниэлса были ясными и неопровержимыми. не существовало такого понятия как средний пилот. Если вы проектируете кабину для среднего пилота, то в реальности она не будет подходить ни для кого.
"

Часто привожу этот пример своим студентам, когда подробно разбираем понятие "среднего по выборке". А чтение - легкое и познавательное. И там есть еще ряд забавных фактов (про идеальную девушку, в частности rolleyes.gif ) . На досуге - почитайте.

Сообщение отредактировал passant - 23.06.2020 - 23:03
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
nokh
сообщение 24.06.2020 - 20:30
Сообщение #9





Группа: Пользователи
Сообщений: 1202
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704



Благодарю всех откликнувшихся! Всё прочитал, просмотрел, попробовал... и решил отказаться от игр с расстояниями и от кластерного анализа. Пока остановился на старом добром PCA. Рассчитал факторные метки для каждого объекта по всем PC и нашёл сумму их абсолютных значений по всем осям. Навеяно 100$ и желанием сохранить в анализе коррелирующие показатели. Объект с минимальной суммой расположен ближе всего к центроиду гипероблака. Если у форумчан есть время и желание прикрепляю свои объекты. Теперь у меня есть кандидат на победу!

PS Конечно, никакие PCA не опишут форму так, как геометрическая морфометрия, но для моей задачи это немыслимая трудоёмкость. А так я за 5 мин могу получить массив годных цифр, включая время на фото, его портирование в комп и обработку в ImageJ. В дополнение к книге р2004r хорошее русскоязычное руководство: https://ipae.uran.ru/sites/default/files/pu...silyevEtAl2.pdf

Сообщение отредактировал nokh - 24.06.2020 - 20:33
Эскизы прикрепленных изображений
Прикрепленное изображение
 

Прикрепленные файлы
Прикрепленный файл  Mean_object.xls ( 20,5 килобайт ) Кол-во скачиваний: 422
 
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
100$
сообщение 24.06.2020 - 22:32
Сообщение #10





Группа: Пользователи
Сообщений: 902
Регистрация: 23.08.2010
Пользователь №: 22694



Цитата(nokh @ 24.06.2020 - 20:30) *
Благодарю всех откликнувшихся! Всё прочитал, просмотрел, попробовал... и решил отказаться от игр с расстояниями и от кластерного анализа. Пока остановился на старом добром PCA. Рассчитал факторные метки для каждого объекта по всем PC и нашёл сумму их абсолютных значений по всем осям. Навеяно 100$ и желанием сохранить в анализе коррелирующие показатели. Объект с минимальной суммой расположен ближе всего к центроиду гипероблака. Если у форумчан есть время и желание прикрепляю свои объекты. Теперь у меня есть кандидат на победу!


Nokh, так мы ищем типичного среди этих 54?
Если да, то просьба указать, какой парень на прилагаемом изображении претендует на эту роль?

Эскизы прикрепленных изображений
Прикрепленное изображение
 
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
nokh
сообщение 25.06.2020 - 21:30
Сообщение #11





Группа: Пользователи
Сообщений: 1202
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704



Цитата(100$ @ 25.06.2020 - 00:32) *
Nokh, так мы ищем типичного среди этих 54?
Если да, то просьба указать, какой парень на прилагаемом изображении претендует на эту роль?

Лучший претендент - парень No 35.
К сожалению не получилось уйти от принятия решения и свести всё к механическому расчёту. По идее типизация должна быть инвариантна к набору признаков. Например в данном случае источников изменчивости 3: 1) крупность объекта, 2) округлость, 3) неровность края. В этом наборе признаков большинство вкладывается в крупность, тогда как в неровность почти только Solidity. Поэтому если проводить кластеризацию, то она "сработает" преимущественно по крупности. Поэтому сначала редукция с обобщением, потом принятие решения о числе источников изменчивости, и только потом поиск типичных/нетипичных объектов в рамках рассматриваемых источников. Вышло достаточно тривиально(((

PS А пример с лётчиками является также хорошей иллюстрацией правила, что с увеличением числа признаков на объект увеличивается степень уникальности объекта. Поэтому я теоретически разочаровался в бутстрэпе для многопеременных техник и полюбил складной нож и Монте-Карло (писал в статье по корреляционной адаптометрии).

Сообщение отредактировал nokh - 25.06.2020 - 21:31
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
100$
сообщение 25.06.2020 - 22:02
Сообщение #12





Группа: Пользователи
Сообщений: 902
Регистрация: 23.08.2010
Пользователь №: 22694




Вас понял.

А что это за объекты? Вареники, пельмени, моллюски, инфузории-туфельки?
Я только сейчас заметил, что на рисунке они, оказывается, пронумерованы.


Цитата
А пример с лётчиками является также хорошей иллюстрацией правила, что с увеличением числа признаков на объект увеличивается степень уникальности объекта...


Пример с летчиками доказывает, прежде всего то, что доверительное множество для многомерного параметра не сводится совокупности доверительных интервалов для индивидуальных координат вектора признаков. А то, что среднее не является членом вариационного ряда, мы знаем и без этого примера. Тому лейтенанту ничто не мешало искать многомерную медиану или многомерную моду. Правда, задача эта - нетривиальная.
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
nokh
сообщение 25.06.2020 - 22:17
Сообщение #13





Группа: Пользователи
Сообщений: 1202
Регистрация: 13.01.2008
Из: Челябинск
Пользователь №: 4704



Цитата(100$ @ 26.06.2020 - 00:02) *
А что это за объекты? Вареники, пельмени, моллюски, инфузории-туфельки?

tongue.gif https://leplants.ru/lonicera-caerulea-lazurit/

Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
100$
сообщение 25.06.2020 - 22:25
Сообщение #14





Группа: Пользователи
Сообщений: 902
Регистрация: 23.08.2010
Пользователь №: 22694



Цитата(nokh @ 25.06.2020 - 22:17) *


Ух, ты!
Эти теперь к ирисам Фишера добавится жимолость Нохрина.
Завидовать будэм! (с)
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 
p2004r
сообщение 26.06.2020 - 20:32
Сообщение #15





Группа: Пользователи
Сообщений: 1091
Регистрация: 26.08.2010
Пользователь №: 22699



Цитата(nokh @ 24.06.2020 - 20:30) *
Благодарю всех откликнувшихся! Если у форумчан есть время и желание прикрепляю свои объекты.


А где вот эти "овалы", что на картинке "по отдельности"?


Signature
Вернуться в начало страницы
 
+Ответить с цитированием данного сообщения
 

2 страниц V   1 2 >
Добавить ответ в эту темуОткрыть тему