Версия для печати темы

Нажмите сюда для просмотра этой темы в обычном формате

Форум врачей-аспирантов _ Медицинская статистика _ Помогите разобраться со скаттерплотом

Автор: зоо 22.01.2018 - 17:25

Добрый день, подскажите пожалуйста, между переменными Y и X я построил график рассеяния. (обе метрические переменные)
(Но он какой то странный, у него как будто значения поделились на два класса. вот они
Скажите могу ли я использовать дерево решений или обычный регрессионный анализ при таком графике. Если да, то всё ок, если нет, то что делать.
Я просто решил посоветоваться с более опытными статистиками.

 

Автор: leo_biostat 22.01.2018 - 17:35

Цитата(зоо @ 22.01.2018 - 17:25) *
Добрый день, подскажите пожалуйста, между переменными Y и X я построил график рассеяния. (обе метрические переменные)
(Но он какой то странный, у него как будто значения поделились на два класса. вот они
Скажите могу ли я использовать дерево решений или обычный регрессионный анализ при таком графике. Если да, то всё ок, если нет, то что делать.
Я просто решил посоветоваться с более опытными статистиками.


Коллега, hi.gif!

График интересный и полезный. Действительно, очень чётко видны 2 группы наблюдений.
Разделяются эти 2 группы примерно по значению горизонтальной оси равному 14.
Установите, что это за 2 группы. Далее, рекомендую для двух этих групп сделать раздельные оценки
корреляций и регрессий. И затем сделать сравнения, которые описаны по адресу
http://www.biometrica.tomsk.ru/comp_aver_5.htm

Успеха!

Автор: passant 22.01.2018 - 21:11

Цитата(зоо @ 22.01.2018 - 17:25) *
Добрый день, подскажите пожалуйста, между переменными Y и X я построил график рассеяния. (обе метрические переменные)
(Но он какой то странный, у него как будто значения поделились на два класса. вот они
Скажите могу ли я использовать дерево решений или обычный регрессионный анализ при таком графике. Если да, то всё ок, если нет, то что делать.
Я просто решил посоветоваться с более опытными статистиками.

У Вас - все ОК, за исключением того, что Вы смешали два алгортма, предназначение которых различны.
Деревья решений относятся к алгоритмам, решающим задачи классификации, т.е. задачу отнесения объекта к определенному классу. В Вашей задачи необходимости в выполнении этого алгоритма нет, все и так видно "на глаз". А вот в более сложных случаях, например при многомерном анализе, этот этап придется выполнить, причем можно и деревьями, можно и SVM, можно и кNN - вариантов много, для разных случаев. Более того, возможно предварительно еще и выполнив кластеризацию. Но - повторю - в Вашем случае в этом потребности нет.
После того, как группы выделены - Вы имеете право выполнить классический регрессионный анализ. Естественно, для каждой группы в отдельности.
Удачи.

Автор: зоо 23.01.2018 - 10:01

Спасибо, коллеги. Подскажите, еще пожалуйста по этому графику. Есть ли метод, чтобы линейно разделить эти точки?

 

Автор: зоо 23.01.2018 - 11:33

Ещё вопросик возник. Я полиномом приблизил точки см. скрин. Правильно ли так приближать или есть более крутое решение

 

Автор: Статистик 23.01.2018 - 13:48

Цитата(зоо @ 23.01.2018 - 10:01) *
Спасибо, коллеги. Подскажите, еще пожалуйста по этому графику. Есть ли метод, чтобы линейно разделить эти точки?


Очевидно, что нет.


А вообще, Вы можете сформулировать цель исследований?
Например, с какой целью Вы строили полином, проходящий через все экспериментальные точки?
Или вопрос к началу этой темы. С какой целью Вам нужно строить уравнение регрессии?

Автор: 100$ 23.01.2018 - 15:23

Цитата(Статистик @ 23.01.2018 - 13:48) *
Очевидно, что нет.


Еще более очевидно, что да. Метод называется Supporting Vector Machine (SVM).

Автор: зоо 23.01.2018 - 15:29

100$, спасибо, а по поводу полинома сможете подсказать правильно ли так приближать точки или нет?

Автор: 100$ 23.01.2018 - 15:35

Цитата(зоо @ 23.01.2018 - 11:33) *
Ещё вопросик возник. Я полиномом приблизил точки см. скрин. Правильно ли так приближать или есть более крутое решение


\К вопросу о крутизне статистических решений\
А вот в нашей местности даже первоклашки знают, что через N точек единственным образом проходит полином N-1 степени. Куды уж круче...

Автор: 100$ 23.01.2018 - 15:45

Цитата(зоо @ 23.01.2018 - 15:29) *
100$, спасибо, а по поводу полинома сможете подсказать правильно ли так приближать точки или нет?


Неправильно.

Автор: Статистик 23.01.2018 - 17:48

Цитата(100$ @ 23.01.2018 - 16:23) *
Еще более очевидно, что да. Метод называется Supporting Vector Machine (SVM).

О, спасибо.
Буду знать.
Век живи - век учись (с)

Автор: passant 23.01.2018 - 17:57

Цитата(100$ @ 23.01.2018 - 15:23) *
Еще более очевидно, что да. Метод называется Supporting Vector Machine (SVM).

Дополню. И не только SVM-методом.
Простейшее решение, основанное на школьной математике - перейти из декартовых в полярные координаты представления данных. Где задача решается тем самым методом "линейного разделения".

Автор: passant 23.01.2018 - 18:02

Цитата(зоо @ 23.01.2018 - 11:33) *
Ещё вопросик возник. Я полиномом приблизил точки см. скрин. Правильно ли так приближать или есть более крутое решение

Это - самое НЕ крутое решение. Называется - переобучение. Типичная ошибка юных пионеров статистиков. Представте, у вас добавилась (или убралась) всего одна точка. Мало того, что вся ваша модель должна быть пересчитана, так еще и новая модель может очень существенно, иногда - кардинально, отличаться от первой. А это противоречит здравому смыслу и физике процесса.

Автор: p2004r 24.01.2018 - 22:26

Господа! А вас что, вот эти весь этот нескончаемый поток "тестов на интеллект", действительно не задрал ещё?

(мне когда все эти глупости стали повторяться "по второму кругу" стало совсем не хорошо)

Форум Invision Power Board (http://www.invisionboard.com)
© Invision Power Services (http://www.invisionpower.com)