Помощь - Поиск - Пользователи - Календарь
Полная версия этой страницы: Помогите разобраться со скаттерплотом
Форум врачей-аспирантов > Разделы форума > Медицинская статистика
зоо
Добрый день, подскажите пожалуйста, между переменными Y и X я построил график рассеяния. (обе метрические переменные)
(Но он какой то странный, у него как будто значения поделились на два класса. вот они
Скажите могу ли я использовать дерево решений или обычный регрессионный анализ при таком графике. Если да, то всё ок, если нет, то что делать.
Я просто решил посоветоваться с более опытными статистиками.
leo_biostat
Цитата(зоо @ 22.01.2018 - 17:25) *
Добрый день, подскажите пожалуйста, между переменными Y и X я построил график рассеяния. (обе метрические переменные)
(Но он какой то странный, у него как будто значения поделились на два класса. вот они
Скажите могу ли я использовать дерево решений или обычный регрессионный анализ при таком графике. Если да, то всё ок, если нет, то что делать.
Я просто решил посоветоваться с более опытными статистиками.


Коллега, hi.gif!

График интересный и полезный. Действительно, очень чётко видны 2 группы наблюдений.
Разделяются эти 2 группы примерно по значению горизонтальной оси равному 14.
Установите, что это за 2 группы. Далее, рекомендую для двух этих групп сделать раздельные оценки
корреляций и регрессий. И затем сделать сравнения, которые описаны по адресу
http://www.biometrica.tomsk.ru/comp_aver_5.htm

Успеха!
passant
Цитата(зоо @ 22.01.2018 - 17:25) *
Добрый день, подскажите пожалуйста, между переменными Y и X я построил график рассеяния. (обе метрические переменные)
(Но он какой то странный, у него как будто значения поделились на два класса. вот они
Скажите могу ли я использовать дерево решений или обычный регрессионный анализ при таком графике. Если да, то всё ок, если нет, то что делать.
Я просто решил посоветоваться с более опытными статистиками.

У Вас - все ОК, за исключением того, что Вы смешали два алгортма, предназначение которых различны.
Деревья решений относятся к алгоритмам, решающим задачи классификации, т.е. задачу отнесения объекта к определенному классу. В Вашей задачи необходимости в выполнении этого алгоритма нет, все и так видно "на глаз". А вот в более сложных случаях, например при многомерном анализе, этот этап придется выполнить, причем можно и деревьями, можно и SVM, можно и кNN - вариантов много, для разных случаев. Более того, возможно предварительно еще и выполнив кластеризацию. Но - повторю - в Вашем случае в этом потребности нет.
После того, как группы выделены - Вы имеете право выполнить классический регрессионный анализ. Естественно, для каждой группы в отдельности.
Удачи.
зоо
Спасибо, коллеги. Подскажите, еще пожалуйста по этому графику. Есть ли метод, чтобы линейно разделить эти точки?
зоо
Ещё вопросик возник. Я полиномом приблизил точки см. скрин. Правильно ли так приближать или есть более крутое решение
Статистик
Цитата(зоо @ 23.01.2018 - 10:01) *
Спасибо, коллеги. Подскажите, еще пожалуйста по этому графику. Есть ли метод, чтобы линейно разделить эти точки?


Очевидно, что нет.


А вообще, Вы можете сформулировать цель исследований?
Например, с какой целью Вы строили полином, проходящий через все экспериментальные точки?
Или вопрос к началу этой темы. С какой целью Вам нужно строить уравнение регрессии?
100$
Цитата(Статистик @ 23.01.2018 - 13:48) *
Очевидно, что нет.


Еще более очевидно, что да. Метод называется Supporting Vector Machine (SVM).
зоо
100$, спасибо, а по поводу полинома сможете подсказать правильно ли так приближать точки или нет?
100$
Цитата(зоо @ 23.01.2018 - 11:33) *
Ещё вопросик возник. Я полиномом приблизил точки см. скрин. Правильно ли так приближать или есть более крутое решение


\К вопросу о крутизне статистических решений\
А вот в нашей местности даже первоклашки знают, что через N точек единственным образом проходит полином N-1 степени. Куды уж круче...
100$
Цитата(зоо @ 23.01.2018 - 15:29) *
100$, спасибо, а по поводу полинома сможете подсказать правильно ли так приближать точки или нет?


Неправильно.
Статистик
Цитата(100$ @ 23.01.2018 - 16:23) *
Еще более очевидно, что да. Метод называется Supporting Vector Machine (SVM).

О, спасибо.
Буду знать.
Век живи - век учись (с)
passant
Цитата(100$ @ 23.01.2018 - 15:23) *
Еще более очевидно, что да. Метод называется Supporting Vector Machine (SVM).

Дополню. И не только SVM-методом.
Простейшее решение, основанное на школьной математике - перейти из декартовых в полярные координаты представления данных. Где задача решается тем самым методом "линейного разделения".
passant
Цитата(зоо @ 23.01.2018 - 11:33) *
Ещё вопросик возник. Я полиномом приблизил точки см. скрин. Правильно ли так приближать или есть более крутое решение

Это - самое НЕ крутое решение. Называется - переобучение. Типичная ошибка юных пионеров статистиков. Представте, у вас добавилась (или убралась) всего одна точка. Мало того, что вся ваша модель должна быть пересчитана, так еще и новая модель может очень существенно, иногда - кардинально, отличаться от первой. А это противоречит здравому смыслу и физике процесса.
p2004r
Господа! А вас что, вот эти весь этот нескончаемый поток "тестов на интеллект", действительно не задрал ещё?

(мне когда все эти глупости стали повторяться "по второму кругу" стало совсем не хорошо)
Для просмотра полной версии этой страницы, пожалуйста, пройдите по ссылке.
Форум IP.Board © 2001-2025 IPS, Inc.