Помощь - Поиск - Пользователи - Календарь
Полная версия этой страницы: Степень гетерогенности (вариации) или ...
Форум врачей-аспирантов > Разделы форума > Медицинская статистика
csmu
Добрый вечер

Вопрос состоит в следующем.
Существует множество групп с разным количеством участников. Каждая группа оценивается по нескольким одинаковым критериям (в настоящий момент, по пяти). Все критерии - качественные.
Например, рост (высокий, средний, низкий), масса (пониженная, нормальная, повышенная), цвет волос (блондины, брюнеты, рыжие) и т.д. Соответственно, каждый участник описывается разными наборами качеств (низкий блондин с повышенной массой). Одинаковые наборы признаков встречаются у разного количества участников. Т.е. в одной группе из 10 человек может быть три блондина с высоким ростом и нормальной массой, два рыжих с высоким ростом и пониженной массой, один рыжий с низким ростом и нормальной массой, остальные 4 брюнета с повышенной массой и нормальным ростом. В других группах эти соотношения другие, а есть группы, представленные одинаковыми участниками (например, все 5 человек - брюнеты с нормальным ростом и массой).

Подскажите, пожалуйста, правильный метод для оценки выраженности различий в группах. Так, чтобы можно было сказать, вот эта группа - однородная, а вот эта неоднородна на столько-то, другая - настолько-то.

Изначально мысль была такая: посчитать количество вариантов в группе и разделить на количество участников. В вышеприведенном примере это будет выглядеть так: 4/10=0,4. Но может есть метод, который бы оценивал это внутригрупповое разнообразие, учитывая не только количество вариантов, но и размер их подгрупп.

Спасибо
Извините, если сумбурно
p2004r
Цитата(csmu @ 9.09.2016 - 21:01) *
Добрый вечер

Вопрос состоит в следующем.
Существует множество групп с разным количеством участников. Каждая группа оценивается по нескольким одинаковым критериям (в настоящий момент, по пяти). Все критерии - качественные.
Например, рост (высокий, средний, низкий), масса (пониженная, нормальная, повышенная), цвет волос (блондины, брюнеты, рыжие) и т.д. Соответственно, каждый участник описывается разными наборами качеств (низкий блондин с повышенной массой). Одинаковые наборы признаков встречаются у разного количества участников. Т.е. в одной группе из 10 человек может быть три блондина с высоким ростом и нормальной массой, два рыжих с высоким ростом и пониженной массой, один рыжий с низким ростом и нормальной массой, остальные 4 брюнета с повышенной массой и нормальным ростом. В других группах эти соотношения другие, а есть группы, представленные одинаковыми участниками (например, все 5 человек - брюнеты с нормальным ростом и массой).

Подскажите, пожалуйста, правильный метод для оценки выраженности различий в группах. Так, чтобы можно было сказать, вот эта группа - однородная, а вот эта неоднородна на столько-то, другая - настолько-то.

Изначально мысль была такая: посчитать количество вариантов в группе и разделить на количество участников. В вышеприведенном примере это будет выглядеть так: 4/10=0,4. Но может есть метод, который бы оценивал это внутригрупповое разнообразие, учитывая не только количество вариантов, но и размер их подгрупп.

Спасибо
Извините, если сумбурно



Отличия внутри групп. Вводим метрику определяющую расстояние между парой субъектов образующих группу. Строим матрицу попарных расстояний и проведя иерархический кластерный анализ получаем граф, для таких графов есть тесты на значимость "ветвлений".

PS для построение эффективной метрики наверное придется прибегнуть как минимум ко всяким редукциям размерности по имеющимся группам, а как максимум искать какую то модель объясняющую объединение в группу.
100$
Цитата(csmu @ 9.09.2016 - 21:01) *
Но может есть метод, который бы оценивал это внутригрупповое разнообразие, учитывая не только количество вариантов, но и размер их подгрупп.


А индексы видового разнооборазия? Н-р, энтропия Шеннона?
passant
Даже в Вашем примере видно, что шкалы измерений, которые используются, как минимум двух типов - ранговые (вес и рост) и номинальные (цвет волос). Соответственно и меры близости по каждой из этих шкал - разные. Ну например, люди среднего и высокого роста более похожи между собой, чем люди низкого и высокого. А вот по цвету волос они все между собой "равноудаленные". Правда, если Вы будете считать, что у вас есть шатены, брюнеты (темные и светлые), блондины (тоже разных оттенков - оказывается их аж 5! ) и т.д., то у вас и тут окажется шкала порядка. Другой вопрос, надо-ли это Вам для Ваших целей.
После того, как понятие расстояние на каждой из шкал определено, переходим к построению агрегативной шкалы, которая позволяет определить расстояние между объектов в исходном многомерном пространстве признаков. Тут есть несколько разных подходов. Ознакомится с ними можно, например, вот тут http://sernam.ru/book_zg.php?id=76.
После того, как этот шаг сделан, Вы можете измерить, в том числе "среднее расстояние" и "дисперсию" между объектами внутри группы. В скобках пишу, потому, что это не классические определения, а смысловые аллюзии того, что вы будете иметь в результате указанных вычислений. А уже на основании этих данных можно говорить об однородности или нет ваших конкретных групп. Чем меньше "среднее расстояние" и "дисперсия" - тем теснее (однороднее) группа.
Вот как-то примерно так.
Удачи в исследованиях.
csmu
Огромное спасибо всем откликнувшимся!

Не думал, что такая тривиальная, на первый взгляд, задача окажется настолько непростой в своем решении.
Вижу, что ответ лежит в области кластерного анализа, который поначалу был отвергнут, исходя из, по-видимому ложного, представления о его прежде всего классификационной функции. Мысль была следующей: если кластеры определены априори, то и необходимости в их определении нет. Однако оценка расстояний совершенно выпала из вида. Это очень ценная подсказка! Наверняка, есть критерии, позволяющие их оценить в виде одного показателя. Если знаете такой, буду благодарен за подсказу.

Также и индексы видового разнообразия. Привлекает простота их расчета. По-честному привлекает.

DrgLena
Цитата(csmu @ 10.09.2016 - 18:56) *
Также и индексы видового разнообразия. Привлекает простота их расчета. По-честному привлекает.

Индекс диверсификации Клода Шеннона на этом форуме, как то лет 8 назад разбирали. можно посчитать индексы и ДИ к ним для каждой группы, построить графики. Трудность только в том, чтобы подготовить данные, поскольку нужно для каждого объекта проставить Species. А S= 27 видов возможных сочетаний трех признаков по 3 градации.
csmu
Уважаемая DrgLena

По всей видимости, речь идет об этом топике:

http://forum.disser.ru/index.php?showtopic...%ED%ED%EE%ED%E0

DrgLena
Да, это были первые шаги в использовании теории информации, для меня весьма полезные. Индексы я тогда считала on line rалькулятором, SD руками, потом нашла PAST
csmu
Удалось ли Вам найти решение для групп с разным количеством участников? По терминологии того, давнего топика: для сравнения "леса" с "парком"? smile.gif
DrgLena
Да, сейчас уже значительно больше примеров использования этих индексов, правда в анголоязычных источниках, но и тогда мне удалось найти сравнения леса, парка и опушки. И в дискуссии тогда также присутствовала мысль, что при отсутствии каких то видов они просто не суммируются.
Для просмотра полной версии этой страницы, пожалуйста, пройдите по ссылке.
Форум IP.Board © 2001-2025 IPS, Inc.