Версия для печати темы

Нажмите сюда для просмотра этой темы в обычном формате

Форум врачей-аспирантов _ Медицинская статистика _ Формирование нескольких групп

Автор: Valeri 5.03.2019 - 11:19

Какой лучше выбрать статистический метод для разделения выборки на несколько групп.
Группы необходимо сформировать по направленности изменения параметра. Например, у обследуемых людей регистрируем артериальное давление, ЧСС в состоянии покоя, затем предъявляем им нагрузку, и после нагрузки снова регистрируем данные показатели. Необходимо выделить группы людей по схожим изменениям АД и ЧСС при нагрузке, какой корректнее использовать статистический метод.

Автор: DrgLena 5.03.2019 - 11:38

Кластерный анализ

Автор: Valeri 5.03.2019 - 11:46

Цитата(DrgLena @ 5.03.2019 - 11:38) *
Кластерный анализ

Спасибо. Корректно будет, если в качестве переменных будет АД до и после нагрузки?

Автор: comisora 5.03.2019 - 14:54

Добрый день.
2Valeri

Посмотрите пакет https://cran.r-project.org/web/packages/kml/index.html и https://www.jstatsoft.org/article/view/v065i04/v65i04.pdf.

Автор: 100$ 5.03.2019 - 20:37

Цитата(Valeri @ 5.03.2019 - 11:19) *
Какой лучше выбрать статистический метод для разделения выборки на несколько групп.
Группы необходимо сформировать по направленности изменения параметра. Например, у обследуемых людей регистрируем артериальное давление, ЧСС в состоянии покоя, затем предъявляем им нагрузку, и после нагрузки снова регистрируем данные показатели. Необходимо выделить группы людей по схожим изменениям АД и ЧСС при нагрузке, какой корректнее использовать статистический метод.


Если размерность задачи равна двум (т.е. интересуют только два регистрируемых параметра), то задача может оказаться до смешного простой: по схеме "до-после" рассчитываем разность для каждого изучаемого параметра, для полученного двумерного распределения разностей на диаграмме рассеяния (scatterplot) пытаемся обнаружить линейные и нелинейные скопления/сгущения, и, если таковых не обнаруживаем, то, значит, задача кластеризации не имеет решения, возможна только группировка. Ну, а уж в группировке может помочь то, как данные рассыпались по соответствующим квадрантам: I (где оба знака изменения положительны), II,III и IV. В дальнейшем для этого двумерного распределения можно посчитать описательные статистики: коэффициент корреляции, взаимную информацию, вероятность попадания в первый квадрант, двумерную плотность, двумерную функцию распределения.

Автор: nokh 5.03.2019 - 23:08

Я бы тоже начал с разности "до-после", или учётом увеличения значений после нагрузки, для положительного знака (после-до). Для каждой из двух разностей можно построить гистограмму и плотность распределения, чтобы оценить однородность выборки. Ну а для описанной 100$ диаграммы рассеяния можно построить оценить двумерную плотность распределения (пример см. здесь: http://molbiol.ru/forums/index.php?showtopic=553421&st=0&p=1526151#entry1526151 ) В принципе, кластерный анализ можно применить и для этих двух разностей.

Автор: Valeri 6.03.2019 - 11:51

Цитата(comisora @ 5.03.2019 - 14:54) *
Добрый день.
2Valeri

Посмотрите пакет https://cran.r-project.org/web/packages/kml/index.html и https://www.jstatsoft.org/article/view/v065i04/v65i04.pdf.


Спасибо.

Цитата(nokh @ 5.03.2019 - 23:08) *
Я бы тоже начал с разности "до-после", или учётом увеличения значений после нагрузки, для положительного знака (после-до). Для каждой из двух разностей можно построить гистограмму и плотность распределения, чтобы оценить однородность выборки. Ну а для описанной 100$ диаграммы рассеяния можно построить оценить двумерную плотность распределения (пример см. здесь: http://molbiol.ru/forums/index.php?showtopic=553421&st=0&p=1526151#entry1526151 ) В принципе, кластерный анализ можно применить и для этих двух разностей.


Спасибо.

Цитата(100$ @ 5.03.2019 - 20:37) *
Если размерность задачи равна двум (т.е. интересуют только два регистрируемых параметра), то задача может оказаться до смешного простой: по схеме "до-после" рассчитываем разность для каждого изучаемого параметра, для полученного двумерного распределения разностей на диаграмме рассеяния (scatterplot) пытаемся обнаружить линейные и нелинейные скопления/сгущения, и, если таковых не обнаруживаем, то, значит, задача кластеризации не имеет решения, возможна только группировка. Ну, а уж в группировке может помочь то, как данные рассыпались по соответствующим квадрантам: I (где оба знака изменения положительны), II,III и IV. В дальнейшем для этого двумерного распределения можно посчитать описательные статистики: коэффициент корреляции, взаимную информацию, вероятность попадания в первый квадрант, двумерную плотность, двумерную функцию распределения.


Спасибо

Автор: DoctorStat 7.03.2019 - 22:07

Цитата(Valeri @ 5.03.2019 - 11:19) *
Какой лучше выбрать статистический метод для разделения выборки на несколько групп.
Группы необходимо сформировать по направленности изменения параметра. Например, у обследуемых людей регистрируем артериальное давление, ЧСС в состоянии покоя, затем предъявляем им нагрузку, и после нагрузки снова регистрируем данные показатели. Необходимо выделить группы людей по схожим изменениям АД и ЧСС при нагрузке, какой корректнее использовать статистический метод.
Вопрос: нормировка на возраст и пол предусмотрена ?

Форум Invision Power Board (http://www.invisionboard.com)
© Invision Power Services (http://www.invisionpower.com)