Автор: Valeri 5.03.2019 - 11:19
Какой лучше выбрать статистический метод для разделения выборки на несколько групп.
Группы необходимо сформировать по направленности изменения параметра. Например, у обследуемых людей регистрируем артериальное давление, ЧСС в состоянии покоя, затем предъявляем им нагрузку, и после нагрузки снова регистрируем данные показатели. Необходимо выделить группы людей по схожим изменениям АД и ЧСС при нагрузке, какой корректнее использовать статистический метод.
Автор: Valeri 5.03.2019 - 11:46
Цитата(DrgLena @ 5.03.2019 - 11:38)
Кластерный анализ
Спасибо. Корректно будет, если в качестве переменных будет АД до и после нагрузки?
Автор: comisora 5.03.2019 - 14:54
Добрый день.
2Valeri
Посмотрите пакет https://cran.r-project.org/web/packages/kml/index.html и https://www.jstatsoft.org/article/view/v065i04/v65i04.pdf.
Автор: 100$ 5.03.2019 - 20:37
Цитата(Valeri @ 5.03.2019 - 11:19)
Какой лучше выбрать статистический метод для разделения выборки на несколько групп.
Группы необходимо сформировать по направленности изменения параметра. Например, у обследуемых людей регистрируем артериальное давление, ЧСС в состоянии покоя, затем предъявляем им нагрузку, и после нагрузки снова регистрируем данные показатели. Необходимо выделить группы людей по схожим изменениям АД и ЧСС при нагрузке, какой корректнее использовать статистический метод.
Если размерность задачи равна двум (т.е. интересуют только два регистрируемых параметра), то задача может оказаться до смешного простой: по схеме "до-после" рассчитываем разность для каждого изучаемого параметра, для полученного двумерного распределения разностей на диаграмме рассеяния (scatterplot) пытаемся обнаружить линейные и нелинейные скопления/сгущения, и, если таковых не обнаруживаем, то, значит, задача кластеризации не имеет решения, возможна только группировка. Ну, а уж в группировке может помочь то, как данные рассыпались по соответствующим квадрантам: I (где оба знака изменения положительны), II,III и IV. В дальнейшем для этого двумерного распределения можно посчитать описательные статистики: коэффициент корреляции, взаимную информацию, вероятность попадания в первый квадрант, двумерную плотность, двумерную функцию распределения.
Автор: nokh 5.03.2019 - 23:08
Я бы тоже начал с разности "до-после", или учётом увеличения значений после нагрузки, для положительного знака (после-до). Для каждой из двух разностей можно построить гистограмму и плотность распределения, чтобы оценить однородность выборки. Ну а для описанной 100$ диаграммы рассеяния можно построить оценить двумерную плотность распределения (пример см. здесь: http://molbiol.ru/forums/index.php?showtopic=553421&st=0&p=1526151#entry1526151 ) В принципе, кластерный анализ можно применить и для этих двух разностей.
Автор: Valeri 6.03.2019 - 11:51
Цитата(comisora @ 5.03.2019 - 14:54)
Добрый день.
2Valeri
Посмотрите пакет https://cran.r-project.org/web/packages/kml/index.html и https://www.jstatsoft.org/article/view/v065i04/v65i04.pdf.
Спасибо.
Цитата(nokh @ 5.03.2019 - 23:08)
Я бы тоже начал с разности "до-после", или учётом увеличения значений после нагрузки, для положительного знака (после-до). Для каждой из двух разностей можно построить гистограмму и плотность распределения, чтобы оценить однородность выборки. Ну а для описанной 100$ диаграммы рассеяния можно построить оценить двумерную плотность распределения (пример см. здесь: http://molbiol.ru/forums/index.php?showtopic=553421&st=0&p=1526151#entry1526151 ) В принципе, кластерный анализ можно применить и для этих двух разностей.
Спасибо.
Цитата(100$ @ 5.03.2019 - 20:37)
Если размерность задачи равна двум (т.е. интересуют только два регистрируемых параметра), то задача может оказаться до смешного простой: по схеме "до-после" рассчитываем разность для каждого изучаемого параметра, для полученного двумерного распределения разностей на диаграмме рассеяния (scatterplot) пытаемся обнаружить линейные и нелинейные скопления/сгущения, и, если таковых не обнаруживаем, то, значит, задача кластеризации не имеет решения, возможна только группировка. Ну, а уж в группировке может помочь то, как данные рассыпались по соответствующим квадрантам: I (где оба знака изменения положительны), II,III и IV. В дальнейшем для этого двумерного распределения можно посчитать описательные статистики: коэффициент корреляции, взаимную информацию, вероятность попадания в первый квадрант, двумерную плотность, двумерную функцию распределения.
Спасибо
Автор: DoctorStat 7.03.2019 - 22:07
Цитата(Valeri @ 5.03.2019 - 11:19)
Какой лучше выбрать статистический метод для разделения выборки на несколько групп.
Группы необходимо сформировать по направленности изменения параметра. Например, у обследуемых людей регистрируем артериальное давление, ЧСС в состоянии покоя, затем предъявляем им нагрузку, и после нагрузки снова регистрируем данные показатели. Необходимо выделить группы людей по схожим изменениям АД и ЧСС при нагрузке, какой корректнее использовать статистический метод.
Вопрос: нормировка на возраст и пол предусмотрена ?